Das deutsche Python-Forum

Hallo,

in Bezug auf dieses Projekt Tagger - GitHub (lieber erstmal README.rst durchlesen, damit ihr versteht um was ich gleich rede), möchte ich gerne ein deutsches Äquivalent zu der Datei data/dict.pkl erstellen. Allerdings habe ich leider nicht ganz verstanden wie ich das machen soll; Der Entwickler Apresta nennt als Möglichkeit ein eigenes Wörterbuch zu erstellen, seine Funktion aus "extras.py":

Code: Alles auswählen

build_dict_from_nltk(output_file, nltk.corpus.brown,
                     nltk.corpus.stopwords.words('english'), measure='ICF')

Hierbei weis ich jetzt aber nicht wie ich dort ansetzen soll, damit mir die Funktion ein deutsches Wörterbuch erstellt.

Okay habs jetzt selbst gelöst. Für die, die es mal interessieren sollte poste ich noch meine Lösung:

Code: Alles auswählen

import build_dict
build_dict.build_dict_from_files(
	"ger_dict.pkl",
	[...], # Dateinamen mit deutschen Texten (von gutenberg.org/)
	"data\\stopwords.txt", # sind zu finden unter solariz.de/649/deutsche-stopwords.htm
	stemmer=Stemmer(nltk.stem.snowball.GermanStemmer()), # nltk muss installiert sein
	verbose=True # kann auch auf False gesetzt werden
)

Das deutsche Python-Forum

Tagger und NLTK

Tagger und NLTK

Re: Tagger und NLTK