Datei einlesen, verschiedene Zeichensätze

Leonidas · Donnerstag 29. Oktober 2009, 19:07

Hyperion hat geschrieben:Zeichensatz != Zeichencodierung.

Doch, ich würde schon sagen dass es ``==`` ist.

Hyperion hat geschrieben:Ein Zeichensatz (wie Helvetica) ist einfach ein Mapping, das einem Zeichen eine Darstellung zuweist. So wird dem Zeichen "A" in Helvetica eben die gewisse Form des A's zugewiesen.

Naja, Helvetica ist eine Schriftart (kein Zeichensatz), die entsprechenden Codepoints Glyphen zuordnet die man dann "anschauen" kann. Dabei kann es sein, dass eine Schriftart für bestimmte Codepoints keine passenden Glyphen hat, dann wird eben ein Ersatzzeichen dargestellt.

Hyperion · Donnerstag 29. Oktober 2009, 19:28

Leonidas hat geschrieben: Naja, Helvetica ist eine Schriftart (kein Zeichensatz), die entsprechenden Codepoints Glyphen zuordnet die man dann "anschauen" kann.

Ok, das kann ich so akzeptieren

Aber die OP bezog sich dennoch zu Beginn auf die "IPA-Schriftart", nicht auf eine bestimmte Codierung dieser... zumindest habe ich das so verstanden.

Was wäre denn IPA dann eigentlich? Wenn es ein Zeichensatz ist und das == Zeichencodierung, so wäre es also tatsächlich vergleichbar mit ASCII und Konsorten?

Leonidas · Donnerstag 29. Oktober 2009, 21:29

Nein, IPA sind im Kontext von Unicode nur bestimmte Codepoints (so wie HOT SPRINGS oder EM DASH) die dann von Fonts als eben diese IPA-Glyphen dargestellt werden: zum Beispiel so einer: ʃ. Wenn deine Schriftart diesen Glyphen unterstützt, dann wird er dargestellt, ansonsten eben nicht. Genauso wie mit öäü auf Fonts, die keine Umlaute enthalten. Oder € bei nicht eurofähigen Schriftarten (etwa die aus der c't bekannte Schriftart Myriad in der nicht-Pro-Variante).

birkenfeld · Donnerstag 29. Oktober 2009, 22:14

Yay für HOT SPRINGS!

jerch · Freitag 30. Oktober 2009, 00:20

Typographisch ist Glyphe != Graphem, siehe http://www.typolexikon.de/g/glyphe.html.

Strenggenommen kodieren Zeichensätze nur Bitrepäsentation=>Graphem(+ ein paar Steuerzeichen) und Schriften Graphem=>grafische Repräsentation (Glyphe). Wobei die Gestaltungsvarianten eines Graphems innerhalb einer Schrift die Glyphen sind.

Loo.py · Freitag 30. Oktober 2009, 13:54

Also heißt das für mich, dass ich aus meiner rtf-Datei alles so einlesen kann, auch bei verschiedenen Schriftarten, und dann Python intern die IPA-Zeichen auch korrekt mittels Unicode darstellt?
Und wenn ich sie dann auslese in die Datei sehe ich wieder alles wie gewollt?

Hyperion · Freitag 30. Oktober 2009, 14:01

Loo.py hat geschrieben:Also heißt das für mich, dass ich aus meiner rtf-Datei alles so einlesen kann, auch bei verschiedenen Schriftarten, und dann Python intern die IPA-Zeichen auch korrekt mittels Unicode darstellt?

Wenn Du einen RTF-Parser nutzt, der intern mit Unicode arbeitet sollte das klappen.

Und wenn ich sie dann auslese in die Datei sehe ich wieder alles wie gewollt?

Du meinst "schreiben" statt auslesen? Wenn Du wieder ins RTF-Format schreibst und dem mitteilen kannst, dass auf der rechten Seite eine Schriftart genutzt wird, die IPA-Zeichen darstellen kann, sicher.

Es bleibt weiterhin die Frage, was Du innerhalb von Python eigentlich tun willst...

Loo.py · Freitag 30. Oktober 2009, 14:05

Gibt es einen vorgefertigten rtf-Parser in der Library mit Funktionen, die ich aufrufen kann?
oder ansonsten für odf?

Hyperion · Freitag 30. Oktober 2009, 14:09

PyPi ist das Stichwort

Wenn dann findest Du dort Pakete.

Würdest Du uns denn noch mal kurz umreißen, was Du eigentlich machen willst?

Loo.py · Freitag 30. Oktober 2009, 14:23

hi!
Ein Aussprachewörterbuch, das ich mit Hilfe von Python sortieren will, wobei ich momentan am überlegen bin, ob das mit Python nicht alles viel zu kompliziert ist ...

Hyperion · Freitag 30. Oktober 2009, 14:25

Loo.py hat geschrieben:hi!
Ein Aussprachewörterbuch, das ich mit Hilfe von Python sortieren will, wobei ich momentan am überlegen bin, ob das mit Python nicht alles viel zu kompliziert ist ...

Also das sollte doch mit OO.org recht einfach zu realisieren sein, oder? Auch dort kann man afaik in Tabellen sortieren.