Parsen- warum nach split() keine Umlaute mehr sichtbar?

Noranora · Donnerstag 18. Februar 2016, 07:53

Hallo!
Wie manche ja schon wissen, habe ich einen Text mit nltk geparst. Nach dem Parsen, also nach
a=parse(lesen)
wird der Text auch gut leserlich ausgegeben, also in utf-8 und mit allen Inhalten, die das Parsen veranlasst hat. Nach dem nächsten Schritt, der die einzelnen Sätze in Listen packt (s=split(a)) sind diese Umlaute jedoch nicht mehr zu lesen, sondern durch andere Zeichenfolgen ersetzt.
Woran liegt das?

Code: Alles auswählen


import nltk
from nltk import sent_tokenize, word_tokenize
from pattern.de import parse, split

oeffnen=open("filename.txt")

lesen=(oeffnen.read())

a = parse(lesen) 

#print(a)  ## bis hierhin wird der Text richtig ausgegeben, mit seinen geparsten Elementen.

s = split(a) 
# hier verschwinden Umlaute...eine debug-Version

Sirius3 · Donnerstag 18. Februar 2016, 08:09

@Noranora: da verweise ich Dich mal auf Deinen anderen Thread.