Gib es Gründe die gegen UTF-8 sprechen?

albertus · Mittwoch 19. August 2015, 16:47

Hallo,

ich stecke gerade in den Planungen für ein Programm das eine Datenbank als Backend verwenden soll. Das Programm soll Zahlen, Datums-Werte und viel Text verarbeiten. Da kommt man um das Thema Zeichenkodierung nicht herum. Ich wollte es mir jetzt einfach machen und nur UTF-8 unterstützen. Das soll heißen jeder Text der über dieses Programm gespeichert werden soll, muss in UTF-8 vorliegen.

Ist das Sinnvoll?
Was spricht dagegen?
Sind alle anderen Zeichenkodierungen tot?

Was ist mit UTF-16 bei asiatischen Texten (japanisch koreanisch usw.)? Gegenüber UTF-8 hat man bei japanischen Texten eine Platzersparnis von ca. 23 % wenn dieser in UTF-16 vorliegt. Das habe ich übrigens selbst überprüft. Aber bei den heutigen Festplatten-Größen ist das noch wichtig?

Mich würde einfach mal Interessieren was Ihr so denkt.

Tot allen Zeichenkodierungen es lebe UTF-8?

Sirius3 · Mittwoch 19. August 2015, 20:19

@albertus: die Frage ist doch, mit was soll das Programm zusammenarbeiten. In welcher Kodierung liegt z.B. der Input vor.

jerch · Mittwoch 19. August 2015, 20:23

UTF-8 - weit verbreitet, gut unterstützt, selbst heilend aufgrund der durchdachten Spezifikation der variablen Längenkodierung und etwas teurer beim Parsen. UTF-32 - eigentlich nur im RAM zu Hause, Speicherfresser, schnell berechenbar und mit Bytereihenfolge. UTF-16 - das Ding dazwischen mit eigentlich allen Nachteilen der anderen beiden und kaum Vorteilen. Die Platzersparnis für CJK bei UTF-16 würde ich erst als Argument wichten, wenn es um Petabytes von asiatischen Texten geht. Für ASCII verdoppelt sich der Speicherbedarf.

albertus · Donnerstag 20. August 2015, 07:56

Guten Morgen,

ich habe mich jetzt entschieden, das Programm wird nur UTF-8 unterstützen und sonst nichts. Alle Clients haben sich diesem Diktat zu unterwerfen.

snafu · Donnerstag 20. August 2015, 09:41

Du könntest auch UTF-8 als Voreinstellung setzen und eine Option zum Ändern des Encodings einbauen, falls ein Client aus irgendwelchen Gründen kein UTF-8 nutzen kann oder will.