Parsen- warum nach split() keine Umlaute mehr sichtbar?

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Antworten
Noranora
User
Beiträge: 62
Registriert: Donnerstag 21. Januar 2016, 12:51

Hallo!
Wie manche ja schon wissen, habe ich einen Text mit nltk geparst. Nach dem Parsen, also nach
a=parse(lesen)
wird der Text auch gut leserlich ausgegeben, also in utf-8 und mit allen Inhalten, die das Parsen veranlasst hat. Nach dem nächsten Schritt, der die einzelnen Sätze in Listen packt (s=split(a)) sind diese Umlaute jedoch nicht mehr zu lesen, sondern durch andere Zeichenfolgen ersetzt.
Woran liegt das?

Code: Alles auswählen


import nltk
from nltk import sent_tokenize, word_tokenize
from pattern.de import parse, split

oeffnen=open("filename.txt")

lesen=(oeffnen.read())

a = parse(lesen) 

#print(a)  ## bis hierhin wird der Text richtig ausgegeben, mit seinen geparsten Elementen.

s = split(a) 
# hier verschwinden Umlaute...eine debug-Version
Sirius3
User
Beiträge: 17747
Registriert: Sonntag 21. Oktober 2012, 17:20

@Noranora: da verweise ich Dich mal auf Deinen anderen Thread.
Antworten