Das deutsche Python-Forum

Das nicht alle mit dem selben Codec eingelesen werden können ist ja klar, wenn die Russen KOI8-R nutzen und die Chinesen EUC-CN oder irgendein anderes Encoding nutzen sollte ja klar sein wenn man mal weiß was ein Encoding überhaupt ist.

Naja, ihr müßt ja nun mal wissen, welches encoding von wo kommt. Dann müßt ihr eben in ein Zielencoding codieren.

In Python macht man das immer über den "Umweg" Unicode, d.h. man bekommt einen Bytestring in Codierung "X", konvertiert den intern in Unicode (möglichst früh nach Erhalt des Strings) und codiert den Unicocde-String dann möglichst spät (also möglichst kurz vor dem Wegspeichern - wohin auch immer) in das Zielencoding.

Prinzipiell wird das in anderen Sprachen wohl ähnlich laufen (sofern die Unicode eingebaut haben).

Das deutsche Python-Forum

UTF-8 mit MySQL ... Sonderzeichen sind falsch