Seite 1 von 1

Parsen- warum nach split() keine Umlaute mehr sichtbar?

Verfasst: Donnerstag 18. Februar 2016, 07:53
von Noranora
Hallo!
Wie manche ja schon wissen, habe ich einen Text mit nltk geparst. Nach dem Parsen, also nach
a=parse(lesen)
wird der Text auch gut leserlich ausgegeben, also in utf-8 und mit allen Inhalten, die das Parsen veranlasst hat. Nach dem nächsten Schritt, der die einzelnen Sätze in Listen packt (s=split(a)) sind diese Umlaute jedoch nicht mehr zu lesen, sondern durch andere Zeichenfolgen ersetzt.
Woran liegt das?

Code: Alles auswählen


import nltk
from nltk import sent_tokenize, word_tokenize
from pattern.de import parse, split

oeffnen=open("filename.txt")

lesen=(oeffnen.read())

a = parse(lesen) 

#print(a)  ## bis hierhin wird der Text richtig ausgegeben, mit seinen geparsten Elementen.

s = split(a) 
# hier verschwinden Umlaute...eine debug-Version

Re: Parsen- warum nach split() keine Umlaute mehr sichtbar?

Verfasst: Donnerstag 18. Februar 2016, 08:09
von Sirius3
@Noranora: da verweise ich Dich mal auf Deinen anderen Thread.