Hallo,
ich stecke gerade in den Planungen für ein Programm das eine Datenbank als Backend verwenden soll. Das Programm soll Zahlen, Datums-Werte und viel Text verarbeiten. Da kommt man um das Thema Zeichenkodierung nicht herum. Ich wollte es mir jetzt einfach machen und nur UTF-8 unterstützen. Das soll heißen jeder Text der über dieses Programm gespeichert werden soll, muss in UTF-8 vorliegen.
Ist das Sinnvoll?
Was spricht dagegen?
Sind alle anderen Zeichenkodierungen tot?
Was ist mit UTF-16 bei asiatischen Texten (japanisch koreanisch usw.)? Gegenüber UTF-8 hat man bei japanischen Texten eine Platzersparnis von ca. 23 % wenn dieser in UTF-16 vorliegt. Das habe ich übrigens selbst überprüft. Aber bei den heutigen Festplatten-Größen ist das noch wichtig?
Mich würde einfach mal Interessieren was Ihr so denkt.
Tot allen Zeichenkodierungen es lebe UTF-8?
Gib es Gründe die gegen UTF-8 sprechen?
UTF-8 - weit verbreitet, gut unterstützt, selbst heilend aufgrund der durchdachten Spezifikation der variablen Längenkodierung und etwas teurer beim Parsen. UTF-32 - eigentlich nur im RAM zu Hause, Speicherfresser, schnell berechenbar und mit Bytereihenfolge. UTF-16 - das Ding dazwischen mit eigentlich allen Nachteilen der anderen beiden und kaum Vorteilen. Die Platzersparnis für CJK bei UTF-16 würde ich erst als Argument wichten, wenn es um Petabytes von asiatischen Texten geht. Für ASCII verdoppelt sich der Speicherbedarf.