Ich habe nun mal ein bisschen mit nltk rumprobiert...ich habe dabei mit Ipython Notebook gearbeitet und folgende Anweisungen:
Code: Alles auswählen
import nltk
datei= open("probe.txt")
inhalt=datei.read()
erst=nltk.corpus.PlaintextCorpusReader("probe.txt", ".*",encoding="utf-8")
deutsch=u("probe.txt")
tokenit= nltk.tokenize.WordPunctTokenizer().tokenize(deutsch)
print (tokenit)
text= word_tokenize(deutsch)
print (erst)
Jedoch bekomme ich dann nur zurück:
Code: Alles auswählen
---------------------------------------------------------------------------
NameError Traceback (most recent call last)
<ipython-input-21-e881663862ca> in <module>()
3 inhalt=datei.read()
4 erst=nltk.corpus.PlaintextCorpusReader("pressefertig.txt", ".*",encoding="utf-8")
----> 5 deutsch=u("pressefertig.txt")
6 tokenit= nltk.tokenize.WordPunctTokenizer().tokenize(deutsch)
7 print (tokenit)
NameError: name 'u' is not defined
u habe ich dort stehen, damit Umlaute wie ä ü ö und ß auch angezeigt werden können.
Weiter wollte ich dann mit
Code: Alles auswählen
nltk.FreqDist(text)
Wichtiger ist aber, mit welcher Funktion könnte ich nun die Wortarten der einzelnen Wörter bestimmen?
Ich hoffe hier gibt es jemand, der sich ein bisschen besser auskennt als ich :/...LG