Tabelle mit Asci zeichen wie anlegen (besten)

patrickk · Mittwoch 17. August 2005, 10:21

Hallo,

hab jetzt alle Probleme mit pickle.dump und so weiter behoben.

Ich habe selbst eine Tabelle erstellt, die z.B. "1000100" :"ä" wandelt.
Es klappt auch alles ganz gut, bis auf eben die ungewoehnlichen Zeichen. Wie Umlaute... s.o. die werden falsch dargestellt. Was mache ich am besten?
Kann ich die hex werte zuweisen, also "1000100":''

ä entspricht hex:E4 oder dec:228
Ich kann mit str(),str(eval("0x%s"%val))... nicht das Zeichen ausgeben. Wie macht man dies am besten?
Am besten gleich fuer alle Zeichen...

Patrick

patrickk · Mittwoch 17. August 2005, 10:43

egal ob ich val ="", oder unicode waehle. Es kommt immer die anzeige unten. Nur halt ohne u oder mit davor. Wie kann ich es normal darstellen lassen?

UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 0: ordinal not in range(128)
>>> val = u'ä'
>>> val
u'\xc3\xa4'

rayo · Mittwoch 17. August 2005, 11:02

Hi

Willst du einfach eine ASCII-Tabelle ausgeben?

Code: Alles auswählen

def asciiTable():
    for x in xrange(255):
        print '0x%02x\t%3d\t%s'% (x,x,chr(x))

asciiTable()

dein Problem klingt nach Unicode sachen, teste mal das:

Code: Alles auswählen

print val.encode('latin-1')

gruss

patrickk · Mittwoch 17. August 2005, 11:18

Hi,

wenn ich print val.encode('latin-1') eingebe erscheint:

latinUnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 0: ordinal not in range(128)

und wenn ich die ascii zeichen ausgebe, wie du gezeigt hast, kann ich auch kein ä z.b. sehen...

habe ich einen ungeigneten character set? Ich suche ueberall, wie ich den aendern kann, aber ich inde nichts, was endlich das ä so anzeigen lässt.

Patrick

patrickk · Mittwoch 17. August 2005, 11:38

Hi, so sieht meine asci tabelle aus nach deiner def... Wieso sind da keine umlaute? Was muss ich machen, damit eine andere tabelle erscheint?
Weiter unten sind noch hex werte angegeben... die habe ich weggelassen.

0x00 0
0x01 1
0x02 2
0x03 3
0x04 4
0x05 5
0x06 6
0x07 7
0x08 8
0x09 9
0x0a 10

0x0b 11

0x0c 12

0x0d 13
0x0e 14
0x0f 15
0x10 16
0x11 17
0x12 18
0x13 19
0x14 20
0x15 21
0x16 22
0x17 23
0x18 24 ?
0x19 25
0x1a 26 ?
0x1b 27
x1c 28
0x1d 29
0x1e 30
0x1f 31
0x20 32
0x21 33 !
0x22 34 "
0x23 35 #
0x24 36 $
0x25 37 %
0x26 38 &
0x27 39 '
0x28 40 (
0x29 41 )
0x2a 42 *
0x2b 43 +
0x2c 44 ,
0x2d 45 -
0x2e 46 .
0x2f 47 /
0x30 48 0
0x31 49 1
0x32 50 2
0x33 51 3
0x34 52 4
0x35 53 5
0x36 54 6
0x37 55 7
0x38 56 8
0x39 57 9
0x3a 58 :
0x3b 59 ;
0x3c 60 <
0x3d 61 =
0x3e 62 >
0x3f 63 ?
0x40 64 @
0x41 65 A
0x42 66 B
0x43 67 C
0x44 68 D
0x45 69 E
0x46 70 F
0x47 71 G
0x48 72 H
0x49 73 I
0x4a 74 J
0x4b 75 K
0x4c 76 L
0x4d 77 M
0x4e 78 N
0x4f 79 O
0x50 80 P
0x51 81 Q
0x52 82 R
0x53 83 S
0x54 84 T
0x55 85 U
0x56 86 V
0x57 87 W
0x58 88 X
0x59 89 Y
0x5a 90 Z
0x5b 91 [
0x5c 92 \
0x5d 93 ]
0x5e 94 ^
0x5f 95 _
0x60 96 `
0x61 97 a
0x62 98 b
0x63 99 c
0x64 100 d
0x65 101 e
0x66 102 f
0x67 103 g
0x68 104 h
0x69 105 i
0x6a 106 j
0x6b 107 k
0x6c 108 l
0x6d 109 m
0x6e 110 n
0x6f 111 o
0x70 112 p
0x71 113 q
0x72 114 r
0x73 115 s
0x74 116 t
0x75 117 u
0x76 118 v
0x77 119 w
0x78 120 x
0x79 121 y
0x7a 122 z
0x7b 123 {
0x7c 124 |
0x7d 125 }
0x7e 126 ~

jens · Mittwoch 17. August 2005, 11:45

Na deine Tabelle geht auch nur bis 126

Ein "Ä" ist Beispielsweise 196 bzw. 0xc4 und das "ü" ist 252, 0xfc
Du mußt schon bis 255 gucken

Schau dir mal http://p-nand-q.com/python/unicode_faq.html an!!!

patrickk · Mittwoch 17. August 2005, 11:56

ja,

danach erscheinen nur hex werte...

schau mal das hier:
warum kann ich nicht das zeichen wie es ist in den string schreiben?

>>> val+'hello'
'\xc3\xa4hello'
>>> test =val+'hello'
>>> print (test)
ähello

jens · Mittwoch 17. August 2005, 12:02

patrickk hat geschrieben:danach erscheinen nur hex werte...

Wie??? Auf welchem System arbeitest du???

patrickk · Mittwoch 17. August 2005, 12:35

sue linux, aber locale:
LANG=en_US.UTF-8
LC_CTYPE="en_US.UTF-8"
LC_NUMERIC="en_US.UTF-8"
LC_TIME="en_US.UTF-8"
LC_COLLATE="en_US.UTF-8"
LC_MONETARY="en_US.UTF-8"
LC_MESSAGES="en_US.UTF-8"
LC_PAPER="en_US.UTF-8"
LC_NAME="en_US.UTF-8"
LC_ADDRESS="en_US.UTF-8"
LC_TELEPHONE="en_US.UTF-8"
LC_MEASUREMENT="en_US.UTF-8"
LC_IDENTIFICATION="en_US.UTF-8"
LC_ALL=

danke fuer den link, habe jetzt eine datei mit utf16 nach anleitung erstellt. wenn ich die datei allerdings anschaue steht nur nicht lesbarer text in ihr. bei print... klappt die richtigre darstellung?

jens · Mittwoch 17. August 2005, 12:37

Du hast aber nicht wirklich die FAQ durchgelesen, was?

patrickk · Mittwoch 17. August 2005, 13:46

Hi,

ok, schrift ist klein, habe ich gerade entdeckt. Da steht aber leider nichts darueber. Aber mit browser geht es gut..

danke fuer den link. Der hat mir geholfen.

Letzte frage zu den Ausgaben.Was mache ich am besten mit Zeichen wie:
ISO 8859-1
code 167, sect, Section sign Zeichen. entspricht: 0xA7
Das weiss ich leider nicht? Also irgendwie "111110"='167', aber wie wandel ich das dann in utf-8 um?

Danke

Patrick

jens · Mittwoch 17. August 2005, 13:51

Das weiß ich auch nicht und ich glaube das kann auch keiner beantworten... Schließlich weiß ja auch keiner wofür deine Konvertierung ist

Wie du also Sonderzeichen zu handhaben hast, mußt du schon selbst wissen. Oder schreib mal ein bischen mehr, was du da eigentlich machst...

patrickk · Mittwoch 17. August 2005, 14:47

Das Zeichen ist im Latin code mit der Nummer: 0xA7

und es soll nach utf-8 konvertiert werden. Ich habe nur eine Tabelle erstellt, mit der ich dem String"1001100" dieses Zeichen zuweisen moechte. Ich habe jetzt alle Zuweisungen so gemacht: "1001010":u'B', als Bsp. aber ich weiss nicht, wie ich sage, dass er das Zeichen mit hex A7 aus der Lation Codetabelle nehmen soll und es nach utf-8 konvertieren soll.
Ich koennte auch fuer die paar sonderzeichen eine extrae Tabelle machen, die dann konvertiert werden, falls so ein Zeichen auftritt....

jens · Mittwoch 17. August 2005, 14:52

patrickk hat geschrieben:Das Zeichen ist im Latin code mit der Nummer: 0xA7 und es soll nach utf-8 konvertiert werden.

Code: Alles auswählen

txt.decode( "latin1" ).encode( "utf8" )

Du hast die Lösung ja schon selber hingeschrieben... Du mußt erst das Zeichen decodieren mit der Angabe das es latin1 ist. Dann encodierst du es in utf8...

Hab ich auf http://www.python-forum.de/viewtopic.php?p=20637#20637 schon hingewiesen?

BlackJack · Mittwoch 17. August 2005, 21:28

Ich hätte immer noch gerne gewusst woher die Daten kommen, bzw. wie die aussehen. Du bekommst eine Zeichenkette voller binärer Daten per XML-RPC. Was machst Du dann damit um die Binärzahlen als Zeichenketten zu bekommen, für die Du das Dictionary benötigst? Ich habe immer noch den starken Verdacht, das man das mit `translate()` erledigen kann.

Und vielleicht sollten wir, oder Du nochmal klären in was Dein Text eigentlich übersetzt werden soll. ASCII kann es nicht sein, weil da kein 'ä' vorkommt. Soll es Latin-1/ISO-8859-1 sein? Wenn ja, dann bekomm das erstmal auf die Reihe, also das `repr()` das richtige Ergebnis bringt. Die korrekte Anzeige ist dann ein anderes/weiteres Problem.

patrickk · Donnerstag 18. August 2005, 08:38

Hallo,

die daten kommen als xml, dann wird der 'text', der als base64 kodiert ist von mir von hex nach binary geaendert. Dafuer habe ich einfach eine Tabelle gemacht "3":"0011". Die Daten schreibe ich alle hintereinander in einen String. Warum. Ich muss es nach GSM 7 bit default alphabet dekodieren. Da habe ich leider nichts gefunden und habe die Tabelle angelegt. Diese hat nur 7 bit, und das erste von dem octet wird hinten an das folgende gehaengt..., also mit jedem schritt vorne ein zeichen mehr streichen und hinten bekommt man mehr angehaengt... Aber das klappt alles. Danach benutze ich die tabelle um den 7 bit das passende zeichen zuzuordnen. Bei den normalen Buchstaben ist das auch kein Problem. Aber bei z.b. dem sect sign. Ich moechte die Daten als utf-8 in eine Datei schreiben. Habe die zuordnung so gemacht:
"0010100":u'f'.
Probleme bereitet das natuerlich bei allen Zeichen die ein ' beinhalten.

patrickk · Donnerstag 18. August 2005, 08:39

Hallo,

die daten kommen als xml, dann wird der 'text', der als base64 kodiert ist von mir von hex nach binary geaendert. Dafuer habe ich einfach eine Tabelle gemacht "3":"0011". Die Daten schreibe ich alle hintereinander in einen String. Warum. Ich muss es nach GSM 7 bit default alphabet dekodieren. Da habe ich leider nichts gefunden und habe die Tabelle angelegt. Diese hat nur 7 bit, und das erste von dem octet wird hinten an das folgende gehaengt..., also mit jedem schritt vorne ein zeichen mehr streichen und hinten bekommt man mehr angehaengt... Aber das klappt alles. Danach benutze ich die tabelle um den 7 bit das passende zeichen zuzuordnen. Bei den normalen Buchstaben ist das auch kein Problem. Aber bei z.b. dem sect sign. Ich moechte die Daten als utf-8 in eine Datei schreiben. Habe die zuordnung so gemacht:
"0010100":u'f'.
Probleme bereitet das natuerlich bei allen Zeichen die ein ' beinhalten.

jens · Donnerstag 18. August 2005, 08:44

Aha, das hört sich entlich mal interessant an

Also du willst deine Zuordnungstabelle in eine Datei festhalten??? Dafür könntest du doch pickle nehmen.
Beim öffnen einer Datei kannst du ein encoding festlegen, z.B.:

Code: Alles auswählen

f = file( "test.txt", "wb", encoding="utf-8" )

Wenn du diese Datei in einem Editor öffnest, mußt du darauf achten, das er die Datei auch mit UTF-8 Darstellt! Ansonsten hast du fehlerhaft aussehende Daten!

patrickk · Donnerstag 18. August 2005, 08:58

Hallo,

ich erstelle die Datei selbst in die ich den Inhalt schreibe. Da hast Du mir aber schon einen hilfreichen Tipp gegeben.
so mache ich es. final ist hierbei der string aus den Zeichen nach der tabelle. Also: u'I'+u'c'+u'h'
f.write(codecs.BOM_LE)
final_utf=final.encode("UTF-8")
f.write(final_utf)
Sollte das so korrekt sein? Die encode utf zeile ist vielleicht unnoetig.
Mein Problem sind eher Zeichen wie: §
Habe aus Office, Sonderzeichentabelle, die Zeichen in meine Tabelle kopiert. Aber da meckert er. Ich glaube, dass das Zeichen irgendwie in einer darstellung mit ' gesehen wird. Damit macht: "1001010":u'A'' nat. ein problem. Was mache ich da am besten?

Danke,

Patrick

jens · Donnerstag 18. August 2005, 09:01

Kannst du nicht mal deinen ganze Source-Code posten? Wird ja nicht so viel sein... Ich denke dann kann man dir besser folgen...