Zeichensatzkonvertierung

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Antworten
Martoro

ich möchte einige alte dos( datenbank und rtf )dateien konvertieren ... das ist technisch alles kein problem, allerdings kommen in den daten polnische und deutsche umlaute vor die nach dem öffnen nicht korrekt umgesetzt werden.

ich möchte nun in einem script die zeichen in den unicode zeichenraum konvertieren ...

die frage ist gibt es dafür fertige bibliotheken oder hinweise was zu beachten ist auch der rückweg sollte möglichst offen sein

zeichensatz 1 >> unicode >> zeichensatz 2

vielleicht hat ja jemand einen tip für mich, danke schonmal Martin
joerg
User
Beiträge: 188
Registriert: Samstag 17. August 2002, 17:48
Wohnort: Berlin
Kontaktdaten:

Falls die bordeigenen Mittel von Python nicht ausreichen, kannst Du mal schauen, ob folgender Link weiterhilft:

http://www.iro.umontreal.ca/~pinard/recodec/

(Habe es mir selber noch nicht angeschaut.)

Jörg
"Sie sind nicht berechtigt, unrechtmäßige Kopien dieses Datenträgers zu erstellen." - Microsoft-Weisheit auf einer CD von MS-VisualC++-6.0
Martoro

danke das ist auf alle fälle ein wertvoller link, damit sollte ich weiterkommen
Falls die bordeigenen Mittel von Python nicht ausreichen
??? welche bordeigenen mittel meintest du denn ???

ich bin nur gelegentlicher python user und befehle die geeignet sind die codierung von dateien zu bearbeiten sind mir noch nicht begegnet ....

kannst du mir einen tip geben welche module ich dazu näher ansehen sollte

danke, Martin
joerg
User
Beiträge: 188
Registriert: Samstag 17. August 2002, 17:48
Wohnort: Berlin
Kontaktdaten:

Martoro hat geschrieben: kannst du mir einen tip geben welche module ich dazu näher ansehen sollte
Ja, einen Tip habe ich, aber mehr auch nicht. Ich habe mich damit nämlich auch noch nicht näher beschäftigt.

Die Module encodings und codecs könnten weiterhelfen und die String-Methoden encode und decode.

Bei Erfolg kannst Du ja auch ein kurzes Rezept hier posten, interessiert mich auch.

Jörg
"Sie sind nicht berechtigt, unrechtmäßige Kopien dieses Datenträgers zu erstellen." - Microsoft-Weisheit auf einer CD von MS-VisualC++-6.0
Martoro

wenns klappt werd ich am Montag verraten wie's geht ... bin per bahn unterwegs und werde unterwegs experimentieren

schönes WE, Martin
Martoro

ist einfacher als ich dachte ... der kern ist das modul codecs

http://www.python.org/doc/current/lib/m ... odecs.html

dort werden fileobjekt-wrapper zur verfüguing gestellt die mit eingabe des gewünschten codecs den inhalt der files in unicode ausspucken

mit derselben methode kann mann dann in einem neuen codec schreiben

es läuft also auf
--------------------------
file = codecs.open ( meinfile, 'r' , meincodec )
content = file.readlines()
file.close()

newfile = codecs.open(neuesfile, 'w', neuercodec)
newfile.writelines(content)
newfile.close()
-----------------------------

das codecs modul stellt noch einiges mehr zur verfügung aber zur arbeit mit den dateien reichen diese funktionen schon völlig aus

die liste der standard codecs liegt hier

http://www.python.org/doc/current/lib/node126.html

gruß Martin ... danke für die tips
Antworten