Datei einlesen, verschiedene Zeichensätze

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Leonidas
Python-Forum Veteran
Beiträge: 16025
Registriert: Freitag 20. Juni 2003, 16:30
Kontaktdaten:

Hyperion hat geschrieben:Zeichensatz != Zeichencodierung.
Doch, ich würde schon sagen dass es ``==`` ist.
Hyperion hat geschrieben:Ein Zeichensatz (wie Helvetica) ist einfach ein Mapping, das einem Zeichen eine Darstellung zuweist. So wird dem Zeichen "A" in Helvetica eben die gewisse Form des A's zugewiesen.
Naja, Helvetica ist eine Schriftart (kein Zeichensatz), die entsprechenden Codepoints Glyphen zuordnet die man dann "anschauen" kann. Dabei kann es sein, dass eine Schriftart für bestimmte Codepoints keine passenden Glyphen hat, dann wird eben ein Ersatzzeichen dargestellt.
My god, it's full of CARs! | Leonidasvoice vs (former) Modvoice
Benutzeravatar
Hyperion
Moderator
Beiträge: 7478
Registriert: Freitag 4. August 2006, 14:56
Wohnort: Hamburg
Kontaktdaten:

Leonidas hat geschrieben: Naja, Helvetica ist eine Schriftart (kein Zeichensatz), die entsprechenden Codepoints Glyphen zuordnet die man dann "anschauen" kann.
Ok, das kann ich so akzeptieren :-)

Aber die OP bezog sich dennoch zu Beginn auf die "IPA-Schriftart", nicht auf eine bestimmte Codierung dieser... zumindest habe ich das so verstanden.

Was wäre denn IPA dann eigentlich? Wenn es ein Zeichensatz ist und das == Zeichencodierung, so wäre es also tatsächlich vergleichbar mit ASCII und Konsorten?
Leonidas
Python-Forum Veteran
Beiträge: 16025
Registriert: Freitag 20. Juni 2003, 16:30
Kontaktdaten:

Nein, IPA sind im Kontext von Unicode nur bestimmte Codepoints (so wie HOT SPRINGS oder EM DASH) die dann von Fonts als eben diese IPA-Glyphen dargestellt werden: zum Beispiel so einer: ʃ. Wenn deine Schriftart diesen Glyphen unterstützt, dann wird er dargestellt, ansonsten eben nicht. Genauso wie mit öäü auf Fonts, die keine Umlaute enthalten. Oder € bei nicht eurofähigen Schriftarten (etwa die aus der c't bekannte Schriftart Myriad in der nicht-Pro-Variante).
My god, it's full of CARs! | Leonidasvoice vs (former) Modvoice
Benutzeravatar
birkenfeld
Python-Forum Veteran
Beiträge: 1603
Registriert: Montag 20. März 2006, 15:29
Wohnort: Die aufstrebende Universitätsstadt bei München

Yay für HOT SPRINGS!
Dann lieber noch Vim 7 als Windows 7.

http://pythonic.pocoo.org/
jerch
User
Beiträge: 1669
Registriert: Mittwoch 4. März 2009, 14:19

Typographisch ist Glyphe != Graphem, siehe http://www.typolexikon.de/g/glyphe.html.

Strenggenommen kodieren Zeichensätze nur Bitrepäsentation=>Graphem(+ ein paar Steuerzeichen) und Schriften Graphem=>grafische Repräsentation (Glyphe). Wobei die Gestaltungsvarianten eines Graphems innerhalb einer Schrift die Glyphen sind.
Loo.py
User
Beiträge: 9
Registriert: Donnerstag 29. Oktober 2009, 16:47

Also heißt das für mich, dass ich aus meiner rtf-Datei alles so einlesen kann, auch bei verschiedenen Schriftarten, und dann Python intern die IPA-Zeichen auch korrekt mittels Unicode darstellt?
Und wenn ich sie dann auslese in die Datei sehe ich wieder alles wie gewollt?
Benutzeravatar
Hyperion
Moderator
Beiträge: 7478
Registriert: Freitag 4. August 2006, 14:56
Wohnort: Hamburg
Kontaktdaten:

Loo.py hat geschrieben:Also heißt das für mich, dass ich aus meiner rtf-Datei alles so einlesen kann, auch bei verschiedenen Schriftarten, und dann Python intern die IPA-Zeichen auch korrekt mittels Unicode darstellt?
Wenn Du einen RTF-Parser nutzt, der intern mit Unicode arbeitet sollte das klappen.
Und wenn ich sie dann auslese in die Datei sehe ich wieder alles wie gewollt?
Du meinst "schreiben" statt auslesen? Wenn Du wieder ins RTF-Format schreibst und dem mitteilen kannst, dass auf der rechten Seite eine Schriftart genutzt wird, die IPA-Zeichen darstellen kann, sicher.

Es bleibt weiterhin die Frage, was Du innerhalb von Python eigentlich tun willst...
Loo.py
User
Beiträge: 9
Registriert: Donnerstag 29. Oktober 2009, 16:47

Gibt es einen vorgefertigten rtf-Parser in der Library mit Funktionen, die ich aufrufen kann?
oder ansonsten für odf?
Benutzeravatar
Hyperion
Moderator
Beiträge: 7478
Registriert: Freitag 4. August 2006, 14:56
Wohnort: Hamburg
Kontaktdaten:

PyPi ist das Stichwort :-)

Wenn dann findest Du dort Pakete.

Würdest Du uns denn noch mal kurz umreißen, was Du eigentlich machen willst?
Loo.py
User
Beiträge: 9
Registriert: Donnerstag 29. Oktober 2009, 16:47

hi!
Ein Aussprachewörterbuch, das ich mit Hilfe von Python sortieren will, wobei ich momentan am überlegen bin, ob das mit Python nicht alles viel zu kompliziert ist ...
Benutzeravatar
Hyperion
Moderator
Beiträge: 7478
Registriert: Freitag 4. August 2006, 14:56
Wohnort: Hamburg
Kontaktdaten:

Loo.py hat geschrieben:hi!
Ein Aussprachewörterbuch, das ich mit Hilfe von Python sortieren will, wobei ich momentan am überlegen bin, ob das mit Python nicht alles viel zu kompliziert ist ...
Also das sollte doch mit OO.org recht einfach zu realisieren sein, oder? Auch dort kann man afaik in Tabellen sortieren.
Antworten