Satzzeichen immer durch einen Punkt ersetzen

Noranora · Freitag 22. Januar 2016, 09:00

Hallo!

Ich habe nun mal ein bisschen mit nltk rumprobiert...ich habe dabei mit Ipython Notebook gearbeitet und folgende Anweisungen:

Code: Alles auswählen

import nltk
datei= open("probe.txt")
inhalt=datei.read()
erst=nltk.corpus.PlaintextCorpusReader("probe.txt", ".*",encoding="utf-8")
deutsch=u("probe.txt")
tokenit= nltk.tokenize.WordPunctTokenizer().tokenize(deutsch)
print (tokenit)
text= word_tokenize(deutsch)
print (erst)

Jedoch bekomme ich dann nur zurück:

Code: Alles auswählen

---------------------------------------------------------------------------
NameError                                 Traceback (most recent call last)
<ipython-input-21-e881663862ca> in <module>()
      3 inhalt=datei.read()
      4 erst=nltk.corpus.PlaintextCorpusReader("pressefertig.txt", ".*",encoding="utf-8")
----> 5 deutsch=u("pressefertig.txt")
      6 tokenit= nltk.tokenize.WordPunctTokenizer().tokenize(deutsch)
      7 print (tokenit)

NameError: name 'u' is not defined

u habe ich dort stehen, damit Umlaute wie ä ü ö und ß auch angezeigt werden können.

Weiter wollte ich dann mit

Code: Alles auswählen

nltk.FreqDist(text)

Die Vorkommen von den einzelnen Wörtern zählen lassen, jedoch funktioniert dies auch nicht so richtig.
Wichtiger ist aber, mit welcher Funktion könnte ich nun die Wortarten der einzelnen Wörter bestimmen?

Ich hoffe hier gibt es jemand, der sich ein bisschen besser auskennt als ich :/...LG