Welches Encoding ist für Deutschland am sinnvollsten?

keppla · Mittwoch 5. März 2008, 15:21

jens hat geschrieben:Da wir schon mal beim Thema sind. Eigentlich spricht ja alles für UTF-8. Allerdings soll das wohl wegen der variablen Länge langsamer als UTF-32, welches ja für alle Zeichen 4 Bytes verbraucht.

Langsam ist relativ.

definitv. Die Frage ist hier auch "langsam wobei"? Bei der Übermittlug über netze dürfte utf8 mit "höchstens genausoviel wie 32" wohl nahezu immer schneller sein. Bei Zugriff auf Zeichen x dürften die meisten algorithmen bei 32 schneller als bei 8 sein.
Im Speicher des Pythonprogramms sind Strings eh so dargestellt, wie die python-vm das gerade möchte.
Im Endeffekt ist das ganze Premature Optimisation (and, therefore the root of all evil, um mal zu Zitieren).
Wir verwenden in python Arrays mit dynamischen Größen, Dictionaries, Garbage Collection, "Late Binding", kurz, nahezu all das, wo man für etwas performance extrem viel Bequemlichkeit bekommt. Ich glaube nicht, dass wir bei encodings auf einmal anfangen sollten, wie irgendwelche c-kiddies "Performance, Performance" zu schreien.

BlackJack · Mittwoch 5. März 2008, 18:24

Ich frage mich gerade wie ein Text langsam sein kann. Oder schnell.

Es geht ja auch nur um die externe Kodierung. Wie die Laufzeitbibliotheken von Programmiersprachen dass dann intern darstellen, darauf hat man in der Regel doch sowieso keinen grossen Einfluss.

Und für Die *interne* Darstellung gibt's wohl noch ganz andere Datenstrukturen als die üblichen, relativ einfachen UTF-Kodierungen. Zum Beispiel für effiziente Verarbeitung von Texten in denen beide Schreibrichtungen vorkommen, oder Sprachen wo regelmässig Zeichen aus verschiedenen Symbolen zusammengesetzt werden, die es nicht "pre-composed" im Unicode-Zeichensatz gibt.

@keppla: Um die Frage ASCII oder Unicode ging es hoffentlich nicht, denn ASCII halte ich für Deutschland als recht ungeeignete Kodierung.

mitsuhiko · Donnerstag 6. März 2008, 11:23

jens hat geschrieben:Da wir schon mal beim Thema sind. Eigentlich spricht ja alles für UTF-8. Allerdings soll das wohl wegen der variablen Länge langsamer als UTF-32, welches ja für alle Zeichen 4 Bytes verbraucht.

Intern nutzt Python UCS2 oder UCS4

btw. die gewonnenen Erkenntnisse würde sich gut im Wiki machen

Sinnlos weil diese Erkentnisse sind nicht über das "nutz unicode" hinausgekommen und das kann man sich auch ergooglen. Es gibt genug Seiten die über Unicode reden, das braucht unser Wiki nicht auch noch, wo es eh schon einen guten Eintrag über Encodings gibt.