Allgemeine Kodierung

microkernel · Montag 8. Februar 2010, 17:42

Hallo,
ich suche einen einfachen Weg String- und Unicode-Zeichenketten so zu kodieren das ich immer eine String-Zeichenkette mit der selben kodierung erhalte. In diesen Zeichenketten sind auch viele Sonderzeichen enthalten, was mir etwas Probleme bereitet.

Kann mir da mal jemand helfen?

mfg
microkernel

Dav1d · Montag 8. Februar 2010, 17:45

utf-8?

Hyperion · Montag 8. Februar 2010, 17:46

Du musst ja zum Umcodieren von Byte-Strings eh den "Umweg" über Unicode-Strings gehen. Wieso willst Du dann auf Byte-Strings arbeiten?

Prinzipiell musst Du die Strings einfach dekodieren, sofern sie als Byte-Strings vorliegen:

Code: Alles auswählen

data = []
s = "Hallöle Welt"
u = u"Hallöle Welt"
# wenn s in iso-8859-15 kodiert ist:
data.append(s.decode("iso-8859-15").encode("utf-8"))
# und wenn Unicode bereits vorliegt:
data.append(u.encode("utf-8"))