Japanische Schriftzeichen aus unicode gewinnen

Boa · Samstag 21. Mai 2011, 16:07

Hi,

Ich habe einen Unicode String u'\u30af\u30a4\u30c3\u30af\u30b9\u30bf\u30fc\u30c8\u30ac\u30a4\u30c9'.
Diesen möchte ich in die äquivalenten Schriftzeichen 'クイックスタートガイド' übersetzen.
Wie kann ich das bewerkstelligen?

MfG,
Boa

cofi · Samstag 21. Mai 2011, 16:18

Eh, so?

Code: Alles auswählen

In [4]: print u'\u30af\u30a4\u30c3\u30af\u30b9\u30bf\u30fc\u30c8\u30ac\u30a4\u30c9'
クイックスタートガイド

Die Schriftzeichen "entstehen" durch die Darstellung durch einen passenden Font, nicht durch die interne Repräsentation, da geht nicht mehr als Unicode.

Also was hast du vor?

Boa · Samstag 21. Mai 2011, 17:24

Hallo,

Danke für die Antwort. Ich dachte das interne Fromat würde sich unterscheiden. Ich habe die Zeichenkette in einer Liste, welche via print die Zeichen mit \uwxyz usw. darstellt. In der Liste habe ich nun nach der Zeichenkette, die via print mit den tatsächlichen Symbolen ausgegeben wird, gesucht. Da die Suche erfolglos war und die Zeichenketten jeweils unsterschiedlich ausgegeben wurden dachte ich, dass sie auch intern anders aussehen müssen. Das stimmt aber nur in so fern, dass die gesuchte Zeichenkette das lokale Format hatte. Der gesuchte String muss vermutlich nur in das entsprechende Unicode Format gewandelt werden.

In Code:

Code: Alles auswählen

'/Sample Documents/SugarSync クイックスタートガイド.pdf' in [u'/Sample Documents/SugarSync \u30af\u30a4\u30c3\u30af\u30b9\u30bf\u30fc\u30c8\u30ac\u30a4\u30c9.pdf']
u'/Sample Documents/SugarSync クイックスタートガイド.pdf' in [u'/Sample Documents/SugarSync \u30af\u30a4\u30c3\u30af\u30b9\u30bf\u30fc\u30c8\u30ac\u30a4\u30c9.pdf']

Thx,
Boa

Boa · Samstag 21. Mai 2011, 17:39

Also die Lösung ist

Code: Alles auswählen

unicode( '/Sample Documents/SugarSync クイックスタートガイド.pdf', "utf8" ) in [u'/Sample Documents/SugarSync \u30af\u30a4\u30c3\u30af\u30b9\u30bf\u30fc\u30c8\u30ac\u30a4\u30c9.pdf']

cofi · Samstag 21. Mai 2011, 18:00

Besser:

Code: Alles auswählen

u'/Sample Documents/SugarSync クイックスタートガイド.pdf' in [u'/Sample Documents/SugarSync \u30af\u30a4\u30c3\u30af\u30b9\u30bf\u30fc\u30c8\u30ac\u30a4\u30c9.pdf']

mit einem utf-8 Encoding-Cookie, genauso wie du besser auch das 2. auf ersteres umstellen solltest.