Welches Encoding ist für Deutschland am sinnvollsten?

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Benutzeravatar
keppla
User
Beiträge: 483
Registriert: Montag 31. Oktober 2005, 00:12

jens hat geschrieben:Da wir schon mal beim Thema sind. Eigentlich spricht ja alles für UTF-8. Allerdings soll das wohl wegen der variablen Länge langsamer als UTF-32, welches ja für alle Zeichen 4 Bytes verbraucht.

Langsam ist relativ.
definitv. Die Frage ist hier auch "langsam wobei"? Bei der Übermittlug über netze dürfte utf8 mit "höchstens genausoviel wie 32" wohl nahezu immer schneller sein. Bei Zugriff auf Zeichen x dürften die meisten algorithmen bei 32 schneller als bei 8 sein.
Im Speicher des Pythonprogramms sind Strings eh so dargestellt, wie die python-vm das gerade möchte.
Im Endeffekt ist das ganze Premature Optimisation (and, therefore the root of all evil, um mal zu Zitieren).
Wir verwenden in python Arrays mit dynamischen Größen, Dictionaries, Garbage Collection, "Late Binding", kurz, nahezu all das, wo man für etwas performance extrem viel Bequemlichkeit bekommt. Ich glaube nicht, dass wir bei encodings auf einmal anfangen sollten, wie irgendwelche c-kiddies "Performance, Performance" zu schreien.
BlackJack

Ich frage mich gerade wie ein Text langsam sein kann. Oder schnell. :roll:

Es geht ja auch nur um die externe Kodierung. Wie die Laufzeitbibliotheken von Programmiersprachen dass dann intern darstellen, darauf hat man in der Regel doch sowieso keinen grossen Einfluss.

Und für Die *interne* Darstellung gibt's wohl noch ganz andere Datenstrukturen als die üblichen, relativ einfachen UTF-Kodierungen. Zum Beispiel für effiziente Verarbeitung von Texten in denen beide Schreibrichtungen vorkommen, oder Sprachen wo regelmässig Zeichen aus verschiedenen Symbolen zusammengesetzt werden, die es nicht "pre-composed" im Unicode-Zeichensatz gibt.

@keppla: Um die Frage ASCII oder Unicode ging es hoffentlich nicht, denn ASCII halte ich für Deutschland als recht ungeeignete Kodierung.
mitsuhiko
User
Beiträge: 1790
Registriert: Donnerstag 28. Oktober 2004, 16:33
Wohnort: Graz, Steiermark - Österreich
Kontaktdaten:

jens hat geschrieben:Da wir schon mal beim Thema sind. Eigentlich spricht ja alles für UTF-8. Allerdings soll das wohl wegen der variablen Länge langsamer als UTF-32, welches ja für alle Zeichen 4 Bytes verbraucht.
Intern nutzt Python UCS2 oder UCS4
btw. die gewonnenen Erkenntnisse würde sich gut im Wiki machen ;)
Sinnlos weil diese Erkentnisse sind nicht über das "nutz unicode" hinausgekommen und das kann man sich auch ergooglen. Es gibt genug Seiten die über Unicode reden, das braucht unser Wiki nicht auch noch, wo es eh schon einen guten Eintrag über Encodings gibt.
TUFKAB – the user formerly known as blackbird
Antworten