ich lese Daten aus einer Webseite ein, die offentsichlich selbst Probleme mit ihrer Encodierung hat.
Die eingelesen Daten sehen unter anderem so aus:
daughter’s
Ich wandle diese so früh wie möglich in utf8 um und speicher sie selbst in eine Datei. Dort wird ein Sonderzeichen als \u03a3 (so ähnlich) abgebildet.
Wenn ich diese probier über die Konsole auszugebene, die mit cp1252 enkodiert ist, so bekomme ich ein UnicodeDecodeError.
Das gleiche Verhalten tritt auf, wenn ich
Code: Alles auswählen
print u"\u03a3"
Wie kann ich diese falsch kodierte Unicode erkennen und korrigieren bzw. wie löse ich das Problem generell? Manche Zeichen stellen ja legale kodierungen da bzw. können von cp1252 dargestellt werden.
Fehlermeldung:
File "C:\Python26\lib\encodings\cp1252.py", line 12, in encode
return codecs.charmap_encode(input,errors,encoding_table)
UnicodeEncodeError: 'charmap' codec can't encode characters in position 3-4: character maps to <undefined>
Grüße,
anogayales