Unciode Code String in Python Unicode

antihack3r · Sonntag 22. November 2009, 14:23

Hallo Forum,

ich hab hier zwar schon oft mitgelesen, bis jetzt kam ich aber nicht dazu mich zu registrieren, doch jetzt wo ich mal eine Frage hab, brauch ich euer Wissen

Ich habe eine Script der per TCP Daten empfängt, jedoch ist ein Teil davon in Unicode? (bin mir nicht ganz sicher). Auf jeden Fall wird ein als '\x61\x00' dargestellt. So jetzt ist meine Frage wie bekomm ich diese zwei Byte in den Python 'unicode' typ konvertiert? Bin leider ein wenig ratlos.

Danke schonmal
~anti

cofi · Sonntag 22. November 2009, 14:36

Was du empfaengst sind Bytes, _nicht_ Unicode, sondern allenfalls kodiertes Unicode, dh. UTF-{8,16,32}.

Um `unicode` zu bekommen musst du diese Bytes eben dekodieren, dh `input.decode(codec)`.

Hyperion · Sonntag 22. November 2009, 15:07

Hier mal wieder der Hinweis aufs wiki:
http://wiki.python-forum.de/Von%20Umlau ... 0Encodings

Und auf die Folien von Leonidas (auch wenn er sie "nur" eingedeutscht hat, oder wie war das?

):
http://wiki.python-forum.de/User%20Grou ... folien.pdf

antihack3r · Sonntag 22. November 2009, 15:14

Danke, decode hab ich jetzt hinbekommen.

Code: Alles auswählen

>>> '\x61\x00'.decode ('utf-16')
u'a'

Nur anders rum passt es nocht nicht ^^

Code: Alles auswählen

u'a'.encode ('utf-16')
'\xff\xfea\x00'

Das ist nicht ganz das was ich möchte.

Pekh · Sonntag 22. November 2009, 15:25

Da könnte dir unter Umständen deine Shell einen Streich spielen. Mein IPython verwendet z.B. aus irgendwelchen Gründen nicht das Systemweit eingestellte UTF-8.

Folgendes passiert:

Code: Alles auswählen

In [1]: str_ = "ä".decode("utf-8")

In [2]: str_
Out[2]: u'\xe4'

In [3]: str_.encode("utf-8")
Out[3]: '\xc3\xa4'

In [4]: u"ä".encode("utf-8")
Out[4]: '\xc3\x83\xc2\xa4'

Obwohl sie theoretisch identisch sein sollten, werden die unteren beiden unterschiedlich codiert.

Nachtrag: Vermutlich liegt es nicht an IPython, sondern am Interpreter selbst. In normalen Quelltexten setzt man das Coding-Tag. Was kann man einer Shell mitgeben?

Hyperion · Sonntag 22. November 2009, 15:25

antihack3r hat geschrieben: Nur anders rum passt es nocht nicht ^^
Code: Alles auswählen
u'a'.encode ('utf-16')
'\xff\xfea\x00'
Das ist nicht ganz das was ich möchte.

Kann denn Deine Shell UTF-16 überhaupt darstellen?

Code: Alles auswählen

In [2]: s = u'a'.encode ('utf-16')

In [3]: repr(s)
Out[3]: "'\\xff\\xfea\\x00'"

In [4]: s.decode("utf-16")
Out[4]: u'a'

Scheint also doch zu gehen!

antihack3r · Sonntag 22. November 2009, 15:31

Oh mensch warum benutzt ich zum testen immer noch die kaputte Python Shell.
Dies soll wohl die byteorder angeben oder wie?

Code: Alles auswählen

\xff\xfe

Kann ich das schon bei encode angeben das ich es nicht will oder muss ich das manuell via [2:] wegmachen?

HWK · Sonntag 22. November 2009, 15:33

Code: Alles auswählen

>>> '\x61\x00'.decode('utf-16')
u'a'
>>> '\xff\xfea\x00'.decode('utf-16')
u'a'

MfG
HWK

Darii · Sonntag 22. November 2009, 17:23

antihack3r hat geschrieben:Oh mensch warum benutzt ich zum testen immer noch die kaputte Python Shell.
Dies soll wohl die byteorder angeben oder wie?
Code: Alles auswählen
\xff\xfe
Kann ich das schon bei encode angeben das ich es nicht will oder muss ich das manuell via [2:] wegmachen?

Code: Alles auswählen

"a".encode("utf-16-le") # bzw. utf-16-be

macht keine byte-order-Markierung.

Trundle · Dienstag 24. November 2009, 23:30

@Pekh: Das liegt schon an ipython. Python selbst macht es richtig, bpython sollte es auch richtig machen.

Edit: Wobei man es natürlich durchaus so sehen kann, dass da eher Python kaputt ist. bpython fügt einfach immer einen encoding-Header in den auszuführenden Quelltext ein.