Tagger und NLTK

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Antworten
Benutzeravatar
microkernel
User
Beiträge: 271
Registriert: Mittwoch 10. Juni 2009, 17:27
Wohnort: Frankfurt
Kontaktdaten:

Hallo,

in Bezug auf dieses Projekt Tagger - GitHub (lieber erstmal README.rst durchlesen, damit ihr versteht um was ich gleich rede), möchte ich gerne ein deutsches Äquivalent zu der Datei data/dict.pkl erstellen. Allerdings habe ich leider nicht ganz verstanden wie ich das machen soll; Der Entwickler Apresta nennt als Möglichkeit ein eigenes Wörterbuch zu erstellen, seine Funktion aus "extras.py":

Code: Alles auswählen

build_dict_from_nltk(output_file, nltk.corpus.brown,
                     nltk.corpus.stopwords.words('english'), measure='ICF')
Hierbei weis ich jetzt aber nicht wie ich dort ansetzen soll, damit mir die Funktion ein deutsches Wörterbuch erstellt.
Benutzeravatar
microkernel
User
Beiträge: 271
Registriert: Mittwoch 10. Juni 2009, 17:27
Wohnort: Frankfurt
Kontaktdaten:

Okay habs jetzt selbst gelöst. Für die, die es mal interessieren sollte poste ich noch meine Lösung:

Code: Alles auswählen

import build_dict
build_dict.build_dict_from_files(
	"ger_dict.pkl",
	[...], # Dateinamen mit deutschen Texten (von gutenberg.org/)
	"data\\stopwords.txt", # sind zu finden unter solariz.de/649/deutsche-stopwords.htm
	stemmer=Stemmer(nltk.stem.snowball.GermanStemmer()), # nltk muss installiert sein
	verbose=True # kann auch auf False gesetzt werden
)
Antworten