Wie manche ja schon wissen, habe ich einen Text mit nltk geparst. Nach dem Parsen, also nach
a=parse(lesen)
wird der Text auch gut leserlich ausgegeben, also in utf-8 und mit allen Inhalten, die das Parsen veranlasst hat. Nach dem nächsten Schritt, der die einzelnen Sätze in Listen packt (s=split(a)) sind diese Umlaute jedoch nicht mehr zu lesen, sondern durch andere Zeichenfolgen ersetzt.
Woran liegt das?
Code: Alles auswählen
import nltk
from nltk import sent_tokenize, word_tokenize
from pattern.de import parse, split
oeffnen=open("filename.txt")
lesen=(oeffnen.read())
a = parse(lesen)
#print(a) ## bis hierhin wird der Text richtig ausgegeben, mit seinen geparsten Elementen.
s = split(a)
# hier verschwinden Umlaute...eine debug-Version