TOKENIZER
Verfasst: Samstag 23. Mai 2009, 07:19
Hallo,
ich hoffe, dass mir jemand, der mit Korpora arbeitet helfen kann.
habe ein Text (roman) und möchte den annotieren mit POS-Tags.
Ich brauche einen Tokenizer.
Dafür habe ich einen Sentence Splitter programmiert (nicht so gut, aber es läuft).
Jetzt soll (jeder) der Satz in Token zerlegt werden.
Ich kann zerlegen in z.B.: "sagte:" ("Er sagte: Korpus..."), oder "Korpus..."
Die Frage ist:
1. Wie kann man alle Wörter zerlegen (ohne Satzzeichen-die brauche ich aber wieder)
2. mit POS-Tags annotieren (den Annotations-Tagset habe ich), und
3. wieder zurück (mit Annotationen) in Output.
4. Gibt es einen TOKENIZER (Sprachunabhängig) for free, mit Python code.
Z.B.:
B/ (Satzanfang)
Er Pron (Pronomen)
sagte V (Verb)
:
Korpus N (Nomen)
...
$ (Satzende)
Noch eine linguistische Frage (wie sind die Konventionen):
Wörter mit Bindestrich (z.B.: "Tausender-Zahlen") - bekommt "Tausender" ein POS-Tag und "Zahlen" ein POS-Tag, oder beide bekommen nur einen POS-Tag?
Danke
ich hoffe, dass mir jemand, der mit Korpora arbeitet helfen kann.
habe ein Text (roman) und möchte den annotieren mit POS-Tags.
Ich brauche einen Tokenizer.
Dafür habe ich einen Sentence Splitter programmiert (nicht so gut, aber es läuft).
Jetzt soll (jeder) der Satz in Token zerlegt werden.
Ich kann zerlegen in z.B.: "sagte:" ("Er sagte: Korpus..."), oder "Korpus..."
Die Frage ist:
1. Wie kann man alle Wörter zerlegen (ohne Satzzeichen-die brauche ich aber wieder)
2. mit POS-Tags annotieren (den Annotations-Tagset habe ich), und
3. wieder zurück (mit Annotationen) in Output.
4. Gibt es einen TOKENIZER (Sprachunabhängig) for free, mit Python code.
Z.B.:
B/ (Satzanfang)
Er Pron (Pronomen)
sagte V (Verb)
:
Korpus N (Nomen)
...
$ (Satzende)
Noch eine linguistische Frage (wie sind die Konventionen):
Wörter mit Bindestrich (z.B.: "Tausender-Zahlen") - bekommt "Tausender" ein POS-Tag und "Zahlen" ein POS-Tag, oder beide bekommen nur einen POS-Tag?
Danke