encoding utf8/utf-8

miwieg · Dienstag 6. Mai 2014, 09:42

Hallo,

Ich möchte ein Programm benutzen, das in python geschrieben worden ist.
Prinzipiell läuft es, doch bei einer neuen Eingabe-Datei gibt es Probleme mit dem Encoding.
Die Eingabe-Datei hat laut Unix command "file"
UTF-8 Unicode text
Dennoch bekomme ich die Fehlermeldung des python-Scripts:
UnicodeDecodeError: 'utf8' codec can't decode byte 0xe4 in position 0: invalid continuation byte

Was mache ich falsch? Ist hier der Unterschied zwischen utf8 und utf-8 das Problem?

Vielen Dank im Voraus.

BlackJack · Dienstag 6. Mai 2014, 09:53

@miwieg: Anscheinend ist die Datei nicht in UTF-8 kodiert (die Schreibweise der Kodierung ist dabei egal, also gross oder klein, mit oder ohne Bindestrich, das ist die selbe Kodierung).

Programme können nur raten was die Kodierung ist, solange das nicht irgendwo als Information im Dateiformat vorgesehen ist, oder zumindest irgendwo spezifiziert ist. ``file`` scheint bei der Datei also einfach falsch zu raten. Damit muss man rechnen.