Zeichensatzkonvertierung

Martoro · Freitag 24. Oktober 2003, 10:50

ich möchte einige alte dos( datenbank und rtf )dateien konvertieren ... das ist technisch alles kein problem, allerdings kommen in den daten polnische und deutsche umlaute vor die nach dem öffnen nicht korrekt umgesetzt werden.

ich möchte nun in einem script die zeichen in den unicode zeichenraum konvertieren ...

die frage ist gibt es dafür fertige bibliotheken oder hinweise was zu beachten ist auch der rückweg sollte möglichst offen sein

zeichensatz 1 >> unicode >> zeichensatz 2

vielleicht hat ja jemand einen tip für mich, danke schonmal Martin

joerg · Freitag 24. Oktober 2003, 12:54

Falls die bordeigenen Mittel von Python nicht ausreichen, kannst Du mal schauen, ob folgender Link weiterhilft:

http://www.iro.umontreal.ca/~pinard/recodec/

(Habe es mir selber noch nicht angeschaut.)

Jörg

Martoro · Freitag 24. Oktober 2003, 13:37

danke das ist auf alle fälle ein wertvoller link, damit sollte ich weiterkommen

Falls die bordeigenen Mittel von Python nicht ausreichen

??? welche bordeigenen mittel meintest du denn ???

ich bin nur gelegentlicher python user und befehle die geeignet sind die codierung von dateien zu bearbeiten sind mir noch nicht begegnet ....

kannst du mir einen tip geben welche module ich dazu näher ansehen sollte

danke, Martin

joerg · Freitag 24. Oktober 2003, 15:22

Martoro hat geschrieben: kannst du mir einen tip geben welche module ich dazu näher ansehen sollte

Ja, einen Tip habe ich, aber mehr auch nicht. Ich habe mich damit nämlich auch noch nicht näher beschäftigt.

Die Module encodings und codecs könnten weiterhelfen und die String-Methoden encode und decode.

Bei Erfolg kannst Du ja auch ein kurzes Rezept hier posten, interessiert mich auch.

Jörg

Martoro · Freitag 24. Oktober 2003, 15:38

wenns klappt werd ich am Montag verraten wie's geht ... bin per bahn unterwegs und werde unterwegs experimentieren

schönes WE, Martin

Martoro · Montag 27. Oktober 2003, 14:40

ist einfacher als ich dachte ... der kern ist das modul codecs

http://www.python.org/doc/current/lib/m ... odecs.html

dort werden fileobjekt-wrapper zur verfüguing gestellt die mit eingabe des gewünschten codecs den inhalt der files in unicode ausspucken

mit derselben methode kann mann dann in einem neuen codec schreiben

es läuft also auf
--------------------------
file = codecs.open ( meinfile, 'r' , meincodec )
content = file.readlines()
file.close()

newfile = codecs.open(neuesfile, 'w', neuercodec)
newfile.writelines(content)
newfile.close()
-----------------------------

das codecs modul stellt noch einiges mehr zur verfügung aber zur arbeit mit den dateien reichen diese funktionen schon völlig aus

die liste der standard codecs liegt hier

http://www.python.org/doc/current/lib/node126.html

gruß Martin ... danke für die tips