Parsen- warum nach split() keine Umlaute mehr sichtbar?
Verfasst: Donnerstag 18. Februar 2016, 07:53
Hallo!
Wie manche ja schon wissen, habe ich einen Text mit nltk geparst. Nach dem Parsen, also nach
a=parse(lesen)
wird der Text auch gut leserlich ausgegeben, also in utf-8 und mit allen Inhalten, die das Parsen veranlasst hat. Nach dem nächsten Schritt, der die einzelnen Sätze in Listen packt (s=split(a)) sind diese Umlaute jedoch nicht mehr zu lesen, sondern durch andere Zeichenfolgen ersetzt.
Woran liegt das?
Wie manche ja schon wissen, habe ich einen Text mit nltk geparst. Nach dem Parsen, also nach
a=parse(lesen)
wird der Text auch gut leserlich ausgegeben, also in utf-8 und mit allen Inhalten, die das Parsen veranlasst hat. Nach dem nächsten Schritt, der die einzelnen Sätze in Listen packt (s=split(a)) sind diese Umlaute jedoch nicht mehr zu lesen, sondern durch andere Zeichenfolgen ersetzt.
Woran liegt das?
Code: Alles auswählen
import nltk
from nltk import sent_tokenize, word_tokenize
from pattern.de import parse, split
oeffnen=open("filename.txt")
lesen=(oeffnen.read())
a = parse(lesen)
#print(a) ## bis hierhin wird der Text richtig ausgegeben, mit seinen geparsten Elementen.
s = split(a)
# hier verschwinden Umlaute...eine debug-Version