Hallo, ich hätte mal wieder eine Frage, welche jedoch nicht von allzu großer Dringlichkeit ist.
Welches Encoding ist für mich als Windows User aus Deutschland am geeignetsten? Am liebsten würde ich so viele Sonderzeichen wie möglich verwenden können, also auch € usw. Bisher verwende ich entweder 'latin-1' oder 'iso-8859', allerdings hat auch 'utf-8' mein Interesse geweckt.
Danke schonmal für euer Interesse und bis zum nächsten Posting,
Pythonierer!
Welches Encoding ist für Deutschland am sinnvollsten?
-
- User
- Beiträge: 41
- Registriert: Samstag 13. Januar 2007, 15:26
Dankeschön, sofern es dem nichts mehr zuzufügen gibt, verbleibe ich mit freundlichen Grüßen und frohen Mutes,
Pythonierer!
@Leonidas: Wie schaffst du es, derart schnell zu antworten?
Pythonierer!
@Leonidas: Wie schaffst du es, derart schnell zu antworten?
- gerold
- Python-Forum Veteran
- Beiträge: 5555
- Registriert: Samstag 28. Februar 2004, 22:04
- Wohnort: Oberhofen im Inntal (Tirol)
- Kontaktdaten:
Hallo Filb!Filb hat geschrieben:ich sehe in UTF-8 keinen sin
Der Sinn ist, dass sich endlich alle auf UTF-8 einigen und die Programmierung dadurch einfacher wird.
Zumindest im westlichen Raum ist UTF-8 die beste Wahl.
Einzig für Anfänger unter Windows, die noch keine Ahnung von den verschiedenen Encodings haben, ist ISO-8859-15 besser geeignet, da dieses Encoding **jeder** Windows-Texteditor standardmäßig anzeigen kann. Aber so bald man einen Editor gefunden hat, der mit UTF-8 gut umgehen kann, steht dem **gemeinsamen Encoding** UTF-8 nichts mehr im Weg.
Mein einziges Problem mit UTF-8 unter Windows ist, dass ich noch keinen intelligenten HTML-Editor (also einer, der auch die Attribute der verschiedenen Tags kennt und vorschlägt) gefunden habe, der mit UTF-8 umgehen kann.
mfg
Gerold

http://halvar.at | Kleiner Bascom AVR Kurs
Wissen hat eine wunderbare Eigenschaft: Es verdoppelt sich, wenn man es teilt.
Wissen hat eine wunderbare Eigenschaft: Es verdoppelt sich, wenn man es teilt.
-
- Python-Forum Veteran
- Beiträge: 16025
- Registriert: Freitag 20. Juni 2003, 16:30
- Kontaktdaten:
Perfekt geeignet um '€' abzuspeichern.Filb hat geschrieben:also für deutschland ganz klar: iso-8859-1
Hint: Latin-1 enthält kein Eurozeichen.
Nein, UTF-8 ist schon die beste Wahl, wie Gerold sagte - im Westen werden die Dateien nicht sonderlich größer als sie vorher mit landesspezifischen Codecs waren. Im Osten ist das natürlich etwas problematischer, aber ich denke nicht, dass es an der Dateigröße scheitern sollte. Doc-Dokumente sind ja auch um ein vielfaches größer, als der Text den sie beinhalten. Was den Wire-Transfer angeht ist es zwar größer, aber richtig große Dateien bei denen das einen Unterschied macht sind sowieso binär.
My god, it's full of CARs! | Leonidasvoice vs (former) Modvoice
- veers
- User
- Beiträge: 1219
- Registriert: Mittwoch 28. Februar 2007, 20:01
- Wohnort: Zürich (CH)
- Kontaktdaten:
In den Fällen wo der Overhead von UTF-8 eine Rolle spielt kann man immer noch Komprimieren. Dann ist der unterschied nur noch minimal.
[url=http://29a.ch/]My Website - 29a.ch[/url]
"If privacy is outlawed, only outlaws will have privacy." - Phil Zimmermann
"If privacy is outlawed, only outlaws will have privacy." - Phil Zimmermann
Und UTF-8 ist ganz normales ASCII mit allen Sonderzeichen. iso-8859-1 scheitert ja schon an „“ ‘ und €, Zeichen die in der deutschen Sprache durchaus vorkommen.Filb hat geschrieben:also für deutschland ganz klar: iso-8859-1
das ganz normales ansi mit deutschen umlauten usw.
ich sehe in UTF-8 keinen sin, ausser man möchte in speziellen sprachen wie z.b. russisch schreiben.

Also wenn überhaupt dann ISO-8859-15. Aber wenn ich jetzt etwas neues anfange dann nur in UTF-8 da Python3000, Linux und einige andere Systeme schon per Default damit arbeiten.Filb hat geschrieben:also für deutschland ganz klar: iso-8859-1
- Hyperion
- Moderator
- Beiträge: 7478
- Registriert: Freitag 4. August 2006, 14:56
- Wohnort: Hamburg
- Kontaktdaten:
ganz leicht off-topic: Wie sieht es eigentlich mit Internationalisierung aus? Ok, die Sprach-Daten werden ja sicherlich außerhalb des eigentlichen Codes gespeichert, aber ist da UTF-8 auch von Vorteil, oder wäre das deswegen eher kein Pluspunkt für utf-8?
-
- Python-Forum Veteran
- Beiträge: 16025
- Registriert: Freitag 20. Juni 2003, 16:30
- Kontaktdaten:
Wenn du alle Zeichen problemlos in eine Datei speichern kannst ist es durchaus ein Vorteil. Verstehe nicht, wo du da ein Problem sehen würdestHyperion hat geschrieben:Wie sieht es eigentlich mit Internationalisierung aus? Ok, die Sprach-Daten werden ja sicherlich außerhalb des eigentlichen Codes gespeichert, aber ist da UTF-8 auch von Vorteil, oder wäre das deswegen eher kein Pluspunkt für utf-8?

My god, it's full of CARs! | Leonidasvoice vs (former) Modvoice
Ich glaube, hier werden zwei Fragen vermischt, nämlich die Fragen, ob ascii oder unicode, und welches encoding für unicode.
Für nicht-unicode gibt es keinen Grund, auch in Deutschland können dir Leute über den Weg laufen, deren Namen Zeichen enthält, die nicht in ISO-8859-15 drinstehen, oder du must in € oder anderen Währungen handeln, etc.
Bleibt die Frage: welches Encoding für Unicode.
Und ich sehe mit der Fragstellung "...für Deutschland..." eigentlich keine Argumente gegen utf-8. Gegen utf-16 und utf-32 spricht, dass sie mit einem nicht-unicode-texteditor nicht sinnvoll bearbeitet werden können.
Für nicht-unicode gibt es keinen Grund, auch in Deutschland können dir Leute über den Weg laufen, deren Namen Zeichen enthält, die nicht in ISO-8859-15 drinstehen, oder du must in € oder anderen Währungen handeln, etc.
Bleibt die Frage: welches Encoding für Unicode.
Und ich sehe mit der Fragstellung "...für Deutschland..." eigentlich keine Argumente gegen utf-8. Gegen utf-16 und utf-32 spricht, dass sie mit einem nicht-unicode-texteditor nicht sinnvoll bearbeitet werden können.
Eben, der Vorteil von UTF-8 ist ja das alle Zeichen bis 127 wie normales ASCII behandelt werden. Die kann jeder Editor bearbeiten. Alles was >127 wird dann in 2 Bytes abgespeichert. Dafür braucht man dann einen Editor der damit etwas anfangen kann
Verzeih mir mein Klugscheissen, aber
In mindestens 2 bytes. utf-8 kann pro zeichen bis zu 4 bytes nutzen, afaik (http://de.wikipedia.org/wiki/Utf-8)burli hat geschrieben:...Alles was >127 wird dann in 2 Bytes abgespeichert.
Ich weiß, ich wollte Klugscheißern vermeidenkeppla hat geschrieben:In mindestens 2 bytes. utf-8 kann pro zeichen bis zu 4 bytes nutzen, afaik (http://de.wikipedia.org/wiki/Utf-8)

- Hyperion
- Moderator
- Beiträge: 7478
- Registriert: Freitag 4. August 2006, 14:56
- Wohnort: Hamburg
- Kontaktdaten:
Ich wollte da kein Problem sehen, sondern nur abklopfen, ob es in Hinblick auf eine Internationalisierung eben auch sinnvoll ist, sofort auf utf-8 zu setzen! Quasi als weiteres Argument für die VerwendungLeonidas hat geschrieben:Wenn du alle Zeichen problemlos in eine Datei speichern kannst ist es durchaus ein Vorteil. Verstehe nicht, wo du da ein Problem sehen würdestHyperion hat geschrieben:Wie sieht es eigentlich mit Internationalisierung aus? Ok, die Sprach-Daten werden ja sicherlich außerhalb des eigentlichen Codes gespeichert, aber ist da UTF-8 auch von Vorteil, oder wäre das deswegen eher kein Pluspunkt für utf-8?

Ich gebe zu, dass ich mich da nicht auskenne - daher meine Frage!
Ich denke es wurde alles wichtige aufgezählt. UTF-8 hat, wenn überhaupt, zwei winzige Nachteile.
1. UTF-8 kann bei üblichen westeuropäischen Texten minimal größer sein (was bei den heutigen Speicherkapazitäten und Rechenleistungen aber nicht auffallen wird)
2. reine ASCII Editoren können UTF-8 nicht vollständig darstellen, aber das wichtigste können sie editieren und es gibt doch eigentlich keine Editoren mehr die UTF-8 nicht können
Ich sehe also keinen Grund UTF-8 nicht zu verwenden. Ich für meinen Teil ärgere mich immer über das Kauderwelsch in den IRC Chats. Der eine meint er müsse unbedingt UTF-8 nehmen, der andere verwendet einen Client der noch mit latin1 um sich wirft *grr*
1. UTF-8 kann bei üblichen westeuropäischen Texten minimal größer sein (was bei den heutigen Speicherkapazitäten und Rechenleistungen aber nicht auffallen wird)
2. reine ASCII Editoren können UTF-8 nicht vollständig darstellen, aber das wichtigste können sie editieren und es gibt doch eigentlich keine Editoren mehr die UTF-8 nicht können
Ich sehe also keinen Grund UTF-8 nicht zu verwenden. Ich für meinen Teil ärgere mich immer über das Kauderwelsch in den IRC Chats. Der eine meint er müsse unbedingt UTF-8 nehmen, der andere verwendet einen Client der noch mit latin1 um sich wirft *grr*
- jens
- Python-Forum Veteran
- Beiträge: 8502
- Registriert: Dienstag 10. August 2004, 09:40
- Wohnort: duisburg
- Kontaktdaten:
Da wir schon mal beim Thema sind. Eigentlich spricht ja alles für UTF-8. Allerdings soll das wohl wegen der variablen Länge langsamer als UTF-32, welches ja für alle Zeichen 4 Bytes verbraucht.
Langsam ist relativ. Weiß jemand wie groß die Unterschiede sind?
Ich gehe mal davon aus, das es auch davon abhängig ist, wie viele Zeichen >127 sind, oder?
Gibt es Empfehlungen wann es Sinn macht UTF-32 zu nutzten?
btw. die gewonnenen Erkenntnisse würde sich gut im Wiki machen
Langsam ist relativ. Weiß jemand wie groß die Unterschiede sind?
Ich gehe mal davon aus, das es auch davon abhängig ist, wie viele Zeichen >127 sind, oder?
Gibt es Empfehlungen wann es Sinn macht UTF-32 zu nutzten?
btw. die gewonnenen Erkenntnisse würde sich gut im Wiki machen

Das kann kein merklicher Unterschied sein. Es muss ja nur abgefragt werden ob das jeweils höchstwertige Bit gesetzt ist um festzustellen um wieviele Bytes es sich handelt.jens hat geschrieben: Langsam ist relativ. Weiß jemand wie groß die Unterschiede sind?