ich bin gerade dabei einen "term extractor" auszuprobieren, mit dem man Texte automatisch taggen (Parts-Of-Speech Tagging) kann: http://pypi.python.org/pypi/topia.termextract/
Schaut euch das mal an, für englische Texte funktioniert das super. Bei deutschen Texten, gibt es aber Probleme mit Umlauten. Wie es aussieht werden aus einem Wort, das Umlaute enthält, mehrere, ungefähr so: "Geschäftsführer" -> "Gesch äftsf ührer"
Ich habe die Skripte mal untersucht und die Ursache liegt wohl in der Tagger.tokenize-Funktion in tag.py, genauer an diesem Code am Anfang der Datei:
Code: Alles auswählen
TERM_SPEC = re.compile('([^a-zA-Z]*)([a-zA-Z-\.]*[a-zA-Z])([^a-zA-Z]*[a-zA-Z]*)')