Satzzeichen immer durch einen Punkt ersetzen

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Antworten
Noranora
User
Beiträge: 62
Registriert: Donnerstag 21. Januar 2016, 12:51

Hallo!

Ich habe nun mal ein bisschen mit nltk rumprobiert...ich habe dabei mit Ipython Notebook gearbeitet und folgende Anweisungen:

Code: Alles auswählen

import nltk
datei= open("probe.txt")
inhalt=datei.read()
erst=nltk.corpus.PlaintextCorpusReader("probe.txt", ".*",encoding="utf-8")
deutsch=u("probe.txt")
tokenit= nltk.tokenize.WordPunctTokenizer().tokenize(deutsch)
print (tokenit)
text= word_tokenize(deutsch)
print (erst)


Jedoch bekomme ich dann nur zurück:

Code: Alles auswählen

---------------------------------------------------------------------------
NameError                                 Traceback (most recent call last)
<ipython-input-21-e881663862ca> in <module>()
      3 inhalt=datei.read()
      4 erst=nltk.corpus.PlaintextCorpusReader("pressefertig.txt", ".*",encoding="utf-8")
----> 5 deutsch=u("pressefertig.txt")
      6 tokenit= nltk.tokenize.WordPunctTokenizer().tokenize(deutsch)
      7 print (tokenit)

NameError: name 'u' is not defined




u habe ich dort stehen, damit Umlaute wie ä ü ö und ß auch angezeigt werden können.

Weiter wollte ich dann mit

Code: Alles auswählen

nltk.FreqDist(text)
Die Vorkommen von den einzelnen Wörtern zählen lassen, jedoch funktioniert dies auch nicht so richtig.
Wichtiger ist aber, mit welcher Funktion könnte ich nun die Wortarten der einzelnen Wörter bestimmen?


Ich hoffe hier gibt es jemand, der sich ein bisschen besser auskennt als ich :/...LG
Antworten