Tagger und NLTK

microkernel · Donnerstag 28. Juni 2012, 15:38

Hallo,

in Bezug auf dieses Projekt Tagger - GitHub (lieber erstmal README.rst durchlesen, damit ihr versteht um was ich gleich rede), möchte ich gerne ein deutsches Äquivalent zu der Datei data/dict.pkl erstellen. Allerdings habe ich leider nicht ganz verstanden wie ich das machen soll; Der Entwickler Apresta nennt als Möglichkeit ein eigenes Wörterbuch zu erstellen, seine Funktion aus "extras.py":

Code: Alles auswählen

build_dict_from_nltk(output_file, nltk.corpus.brown,
                     nltk.corpus.stopwords.words('english'), measure='ICF')

Hierbei weis ich jetzt aber nicht wie ich dort ansetzen soll, damit mir die Funktion ein deutsches Wörterbuch erstellt.

microkernel · Donnerstag 28. Juni 2012, 19:00

Okay habs jetzt selbst gelöst. Für die, die es mal interessieren sollte poste ich noch meine Lösung:

Code: Alles auswählen

import build_dict
build_dict.build_dict_from_files(
	"ger_dict.pkl",
	[...], # Dateinamen mit deutschen Texten (von gutenberg.org/)
	"data\\stopwords.txt", # sind zu finden unter solariz.de/649/deutsche-stopwords.htm
	stemmer=Stemmer(nltk.stem.snowball.GermanStemmer()), # nltk muss installiert sein
	verbose=True # kann auch auf False gesetzt werden
)