Welches Encoding ist für Deutschland am sinnvollsten?

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Pythonierer
User
Beiträge: 41
Registriert: Samstag 13. Januar 2007, 15:26

Hallo, ich hätte mal wieder eine Frage, welche jedoch nicht von allzu großer Dringlichkeit ist.

Welches Encoding ist für mich als Windows User aus Deutschland am geeignetsten? Am liebsten würde ich so viele Sonderzeichen wie möglich verwenden können, also auch € usw. Bisher verwende ich entweder 'latin-1' oder 'iso-8859', allerdings hat auch 'utf-8' mein Interesse geweckt.

Danke schonmal für euer Interesse und bis zum nächsten Posting,

Pythonierer!
Leonidas
Python-Forum Veteran
Beiträge: 16025
Registriert: Freitag 20. Juni 2003, 16:30
Kontaktdaten:

UTF-8 ist am sinnvollsten. Meine Systeme laufen fast durchgängig damit.
My god, it's full of CARs! | Leonidasvoice vs (former) Modvoice
Pythonierer
User
Beiträge: 41
Registriert: Samstag 13. Januar 2007, 15:26

Dankeschön, sofern es dem nichts mehr zuzufügen gibt, verbleibe ich mit freundlichen Grüßen und frohen Mutes,

Pythonierer!

@Leonidas: Wie schaffst du es, derart schnell zu antworten?
Filb
User
Beiträge: 8
Registriert: Dienstag 19. Februar 2008, 20:55

also für deutschland ganz klar: iso-8859-1

das ganz normales ansi mit deutschen umlauten usw.
ich sehe in UTF-8 keinen sin, ausser man möchte in speziellen sprachen wie z.b. russisch schreiben.
Benutzeravatar
gerold
Python-Forum Veteran
Beiträge: 5555
Registriert: Samstag 28. Februar 2004, 22:04
Wohnort: Oberhofen im Inntal (Tirol)
Kontaktdaten:

Filb hat geschrieben:ich sehe in UTF-8 keinen sin
Hallo Filb!

Der Sinn ist, dass sich endlich alle auf UTF-8 einigen und die Programmierung dadurch einfacher wird.

Zumindest im westlichen Raum ist UTF-8 die beste Wahl.

Einzig für Anfänger unter Windows, die noch keine Ahnung von den verschiedenen Encodings haben, ist ISO-8859-15 besser geeignet, da dieses Encoding **jeder** Windows-Texteditor standardmäßig anzeigen kann. Aber so bald man einen Editor gefunden hat, der mit UTF-8 gut umgehen kann, steht dem **gemeinsamen Encoding** UTF-8 nichts mehr im Weg.

Mein einziges Problem mit UTF-8 unter Windows ist, dass ich noch keinen intelligenten HTML-Editor (also einer, der auch die Attribute der verschiedenen Tags kennt und vorschlägt) gefunden habe, der mit UTF-8 umgehen kann.

mfg
Gerold
:-)
http://halvar.at | Kleiner Bascom AVR Kurs
Wissen hat eine wunderbare Eigenschaft: Es verdoppelt sich, wenn man es teilt.
Leonidas
Python-Forum Veteran
Beiträge: 16025
Registriert: Freitag 20. Juni 2003, 16:30
Kontaktdaten:

Filb hat geschrieben:also für deutschland ganz klar: iso-8859-1
Perfekt geeignet um '€' abzuspeichern.

Hint: Latin-1 enthält kein Eurozeichen.

Nein, UTF-8 ist schon die beste Wahl, wie Gerold sagte - im Westen werden die Dateien nicht sonderlich größer als sie vorher mit landesspezifischen Codecs waren. Im Osten ist das natürlich etwas problematischer, aber ich denke nicht, dass es an der Dateigröße scheitern sollte. Doc-Dokumente sind ja auch um ein vielfaches größer, als der Text den sie beinhalten. Was den Wire-Transfer angeht ist es zwar größer, aber richtig große Dateien bei denen das einen Unterschied macht sind sowieso binär.
My god, it's full of CARs! | Leonidasvoice vs (former) Modvoice
Benutzeravatar
veers
User
Beiträge: 1219
Registriert: Mittwoch 28. Februar 2007, 20:01
Wohnort: Zürich (CH)
Kontaktdaten:

In den Fällen wo der Overhead von UTF-8 eine Rolle spielt kann man immer noch Komprimieren. Dann ist der unterschied nur noch minimal.
[url=http://29a.ch/]My Website - 29a.ch[/url]
"If privacy is outlawed, only outlaws will have privacy." - Phil Zimmermann
Darii
User
Beiträge: 1177
Registriert: Donnerstag 29. November 2007, 17:02

Filb hat geschrieben:also für deutschland ganz klar: iso-8859-1

das ganz normales ansi mit deutschen umlauten usw.
ich sehe in UTF-8 keinen sin, ausser man möchte in speziellen sprachen wie z.b. russisch schreiben.
Und UTF-8 ist ganz normales ASCII mit allen Sonderzeichen. iso-8859-1 scheitert ja schon an „“ ‘ und €, Zeichen die in der deutschen Sprache durchaus vorkommen. ;)
burli
User
Beiträge: 1156
Registriert: Dienstag 9. März 2004, 18:22

Filb hat geschrieben:also für deutschland ganz klar: iso-8859-1
Also wenn überhaupt dann ISO-8859-15. Aber wenn ich jetzt etwas neues anfange dann nur in UTF-8 da Python3000, Linux und einige andere Systeme schon per Default damit arbeiten.
Benutzeravatar
Hyperion
Moderator
Beiträge: 7478
Registriert: Freitag 4. August 2006, 14:56
Wohnort: Hamburg
Kontaktdaten:

ganz leicht off-topic: Wie sieht es eigentlich mit Internationalisierung aus? Ok, die Sprach-Daten werden ja sicherlich außerhalb des eigentlichen Codes gespeichert, aber ist da UTF-8 auch von Vorteil, oder wäre das deswegen eher kein Pluspunkt für utf-8?
Leonidas
Python-Forum Veteran
Beiträge: 16025
Registriert: Freitag 20. Juni 2003, 16:30
Kontaktdaten:

Hyperion hat geschrieben:Wie sieht es eigentlich mit Internationalisierung aus? Ok, die Sprach-Daten werden ja sicherlich außerhalb des eigentlichen Codes gespeichert, aber ist da UTF-8 auch von Vorteil, oder wäre das deswegen eher kein Pluspunkt für utf-8?
Wenn du alle Zeichen problemlos in eine Datei speichern kannst ist es durchaus ein Vorteil. Verstehe nicht, wo du da ein Problem sehen würdest :?:
My god, it's full of CARs! | Leonidasvoice vs (former) Modvoice
mitsuhiko
User
Beiträge: 1790
Registriert: Donnerstag 28. Oktober 2004, 16:33
Wohnort: Graz, Steiermark - Österreich
Kontaktdaten:

Anders rum. Was hat es als nicht Japaner/Chinese/Koreaner für einen Vorteil *nicht* eines der utf Encodings zu nehmen?
TUFKAB – the user formerly known as blackbird
Benutzeravatar
keppla
User
Beiträge: 483
Registriert: Montag 31. Oktober 2005, 00:12

Ich glaube, hier werden zwei Fragen vermischt, nämlich die Fragen, ob ascii oder unicode, und welches encoding für unicode.

Für nicht-unicode gibt es keinen Grund, auch in Deutschland können dir Leute über den Weg laufen, deren Namen Zeichen enthält, die nicht in ISO-8859-15 drinstehen, oder du must in € oder anderen Währungen handeln, etc.

Bleibt die Frage: welches Encoding für Unicode.
Und ich sehe mit der Fragstellung "...für Deutschland..." eigentlich keine Argumente gegen utf-8. Gegen utf-16 und utf-32 spricht, dass sie mit einem nicht-unicode-texteditor nicht sinnvoll bearbeitet werden können.
burli
User
Beiträge: 1156
Registriert: Dienstag 9. März 2004, 18:22

Eben, der Vorteil von UTF-8 ist ja das alle Zeichen bis 127 wie normales ASCII behandelt werden. Die kann jeder Editor bearbeiten. Alles was >127 wird dann in 2 Bytes abgespeichert. Dafür braucht man dann einen Editor der damit etwas anfangen kann
Benutzeravatar
keppla
User
Beiträge: 483
Registriert: Montag 31. Oktober 2005, 00:12

Verzeih mir mein Klugscheissen, aber
burli hat geschrieben:...Alles was >127 wird dann in 2 Bytes abgespeichert.
In mindestens 2 bytes. utf-8 kann pro zeichen bis zu 4 bytes nutzen, afaik (http://de.wikipedia.org/wiki/Utf-8)
burli
User
Beiträge: 1156
Registriert: Dienstag 9. März 2004, 18:22

keppla hat geschrieben:In mindestens 2 bytes. utf-8 kann pro zeichen bis zu 4 bytes nutzen, afaik (http://de.wikipedia.org/wiki/Utf-8)
Ich weiß, ich wollte Klugscheißern vermeiden :wink:
Benutzeravatar
Hyperion
Moderator
Beiträge: 7478
Registriert: Freitag 4. August 2006, 14:56
Wohnort: Hamburg
Kontaktdaten:

Leonidas hat geschrieben:
Hyperion hat geschrieben:Wie sieht es eigentlich mit Internationalisierung aus? Ok, die Sprach-Daten werden ja sicherlich außerhalb des eigentlichen Codes gespeichert, aber ist da UTF-8 auch von Vorteil, oder wäre das deswegen eher kein Pluspunkt für utf-8?
Wenn du alle Zeichen problemlos in eine Datei speichern kannst ist es durchaus ein Vorteil. Verstehe nicht, wo du da ein Problem sehen würdest :?:
Ich wollte da kein Problem sehen, sondern nur abklopfen, ob es in Hinblick auf eine Internationalisierung eben auch sinnvoll ist, sofort auf utf-8 zu setzen! Quasi als weiteres Argument für die Verwendung ;-)

Ich gebe zu, dass ich mich da nicht auskenne - daher meine Frage!
burli
User
Beiträge: 1156
Registriert: Dienstag 9. März 2004, 18:22

Ich denke es wurde alles wichtige aufgezählt. UTF-8 hat, wenn überhaupt, zwei winzige Nachteile.

1. UTF-8 kann bei üblichen westeuropäischen Texten minimal größer sein (was bei den heutigen Speicherkapazitäten und Rechenleistungen aber nicht auffallen wird)

2. reine ASCII Editoren können UTF-8 nicht vollständig darstellen, aber das wichtigste können sie editieren und es gibt doch eigentlich keine Editoren mehr die UTF-8 nicht können

Ich sehe also keinen Grund UTF-8 nicht zu verwenden. Ich für meinen Teil ärgere mich immer über das Kauderwelsch in den IRC Chats. Der eine meint er müsse unbedingt UTF-8 nehmen, der andere verwendet einen Client der noch mit latin1 um sich wirft *grr*
Benutzeravatar
jens
Python-Forum Veteran
Beiträge: 8502
Registriert: Dienstag 10. August 2004, 09:40
Wohnort: duisburg
Kontaktdaten:

Da wir schon mal beim Thema sind. Eigentlich spricht ja alles für UTF-8. Allerdings soll das wohl wegen der variablen Länge langsamer als UTF-32, welches ja für alle Zeichen 4 Bytes verbraucht.

Langsam ist relativ. Weiß jemand wie groß die Unterschiede sind?
Ich gehe mal davon aus, das es auch davon abhängig ist, wie viele Zeichen >127 sind, oder?
Gibt es Empfehlungen wann es Sinn macht UTF-32 zu nutzten?

btw. die gewonnenen Erkenntnisse würde sich gut im Wiki machen ;)

GitHub | Open HUB | Xing | Linked in
Bitcoins to: 1JEgSQepxGjdprNedC9tXQWLpS424AL8cd
burli
User
Beiträge: 1156
Registriert: Dienstag 9. März 2004, 18:22

jens hat geschrieben: Langsam ist relativ. Weiß jemand wie groß die Unterschiede sind?
Das kann kein merklicher Unterschied sein. Es muss ja nur abgefragt werden ob das jeweils höchstwertige Bit gesetzt ist um festzustellen um wieviele Bytes es sich handelt.
Antworten