NLTK - Wortarten bestimmen

Noranora · Freitag 22. Januar 2016, 10:23

Hallo!

Ich habe nun mal ein bisschen mit nltk rumprobiert...ich habe dabei mit Ipython Notebook gearbeitet und folgende Anweisungen:

Code: Alles auswählen

import nltk
datei= open("probe.txt")
inhalt=datei.read()
erst=nltk.corpus.PlaintextCorpusReader("probe.txt", ".*",encoding="utf-8")
deutsch=u("probe.txt")
tokenit= nltk.tokenize.WordPunctTokenizer().tokenize(deutsch)
print (tokenit)
text= word_tokenize(deutsch)
print (erst)

Jedoch bekomme ich dann nur zurück:

Code: Alles auswählen
---------------------------------------------------------------------------
NameError Traceback (most recent call last)
<ipython-input-21-e881663862ca> in <module>()
3 inhalt=datei.read()
4 erst=nltk.corpus.PlaintextCorpusReader("probe.txt", ".*",encoding="utf-8")
----> 5 deutsch=u("probe.txt")
6 tokenit= nltk.tokenize.WordPunctTokenizer().tokenize(deutsch)
7 print (tokenit)

NameError: name 'u' is not defined

u habe ich dort stehen, damit Umlaute wie ä ü ö und ß auch angezeigt werden können.

Weiter wollte ich dann mit

Code: Alles auswählen

nltk.FreqDist(text)

Die Vorkommen von den einzelnen Wörtern zählen lassen, jedoch funktioniert dies auch nicht so richtig.
Wichtiger ist aber, mit welcher Funktion könnte ich nun die Wortarten der einzelnen Wörter bestimmen?

Ich hoffe hier gibt es jemand, der sich ein bisschen besser auskennt als ich :/...LG

pillmuncher · Freitag 22. Januar 2016, 11:26

Die Klammern gehören da nicht hin. Vergleiche:

Code: Alles auswählen

u("probe.txt")
u"probe.txt"

Aber selbst das ist irgendwie nicht besonders sinnvoll, denn das u bezieht sich auf den String "probe.txt", also den Namen der Datei, nicht auf den Inhalt derselben. Gegebenenfalls musst du bei open(...) ein Encoding angeben. Mehr dazu hier: https://docs.python.org/3/library/functions.html#open und hier:https://docs.python.org/3/library/codec ... ule-codecs.