ich möchte einige alte dos( datenbank und rtf )dateien konvertieren ... das ist technisch alles kein problem, allerdings kommen in den daten polnische und deutsche umlaute vor die nach dem öffnen nicht korrekt umgesetzt werden.
ich möchte nun in einem script die zeichen in den unicode zeichenraum konvertieren ...
die frage ist gibt es dafür fertige bibliotheken oder hinweise was zu beachten ist auch der rückweg sollte möglichst offen sein
zeichensatz 1 >> unicode >> zeichensatz 2
vielleicht hat ja jemand einen tip für mich, danke schonmal Martin
Zeichensatzkonvertierung
Falls die bordeigenen Mittel von Python nicht ausreichen, kannst Du mal schauen, ob folgender Link weiterhilft:
http://www.iro.umontreal.ca/~pinard/recodec/
(Habe es mir selber noch nicht angeschaut.)
Jörg
http://www.iro.umontreal.ca/~pinard/recodec/
(Habe es mir selber noch nicht angeschaut.)
Jörg
"Sie sind nicht berechtigt, unrechtmäßige Kopien dieses Datenträgers zu erstellen." - Microsoft-Weisheit auf einer CD von MS-VisualC++-6.0
danke das ist auf alle fälle ein wertvoller link, damit sollte ich weiterkommen
ich bin nur gelegentlicher python user und befehle die geeignet sind die codierung von dateien zu bearbeiten sind mir noch nicht begegnet ....
kannst du mir einen tip geben welche module ich dazu näher ansehen sollte
danke, Martin
??? welche bordeigenen mittel meintest du denn ???Falls die bordeigenen Mittel von Python nicht ausreichen
ich bin nur gelegentlicher python user und befehle die geeignet sind die codierung von dateien zu bearbeiten sind mir noch nicht begegnet ....
kannst du mir einen tip geben welche module ich dazu näher ansehen sollte
danke, Martin
Ja, einen Tip habe ich, aber mehr auch nicht. Ich habe mich damit nämlich auch noch nicht näher beschäftigt.Martoro hat geschrieben: kannst du mir einen tip geben welche module ich dazu näher ansehen sollte
Die Module encodings und codecs könnten weiterhelfen und die String-Methoden encode und decode.
Bei Erfolg kannst Du ja auch ein kurzes Rezept hier posten, interessiert mich auch.
Jörg
"Sie sind nicht berechtigt, unrechtmäßige Kopien dieses Datenträgers zu erstellen." - Microsoft-Weisheit auf einer CD von MS-VisualC++-6.0
wenns klappt werd ich am Montag verraten wie's geht ... bin per bahn unterwegs und werde unterwegs experimentieren
schönes WE, Martin
schönes WE, Martin
ist einfacher als ich dachte ... der kern ist das modul codecs
http://www.python.org/doc/current/lib/m ... odecs.html
dort werden fileobjekt-wrapper zur verfüguing gestellt die mit eingabe des gewünschten codecs den inhalt der files in unicode ausspucken
mit derselben methode kann mann dann in einem neuen codec schreiben
es läuft also auf
--------------------------
file = codecs.open ( meinfile, 'r' , meincodec )
content = file.readlines()
file.close()
newfile = codecs.open(neuesfile, 'w', neuercodec)
newfile.writelines(content)
newfile.close()
-----------------------------
das codecs modul stellt noch einiges mehr zur verfügung aber zur arbeit mit den dateien reichen diese funktionen schon völlig aus
die liste der standard codecs liegt hier
http://www.python.org/doc/current/lib/node126.html
gruß Martin ... danke für die tips
http://www.python.org/doc/current/lib/m ... odecs.html
dort werden fileobjekt-wrapper zur verfüguing gestellt die mit eingabe des gewünschten codecs den inhalt der files in unicode ausspucken
mit derselben methode kann mann dann in einem neuen codec schreiben
es läuft also auf
--------------------------
file = codecs.open ( meinfile, 'r' , meincodec )
content = file.readlines()
file.close()
newfile = codecs.open(neuesfile, 'w', neuercodec)
newfile.writelines(content)
newfile.close()
-----------------------------
das codecs modul stellt noch einiges mehr zur verfügung aber zur arbeit mit den dateien reichen diese funktionen schon völlig aus
die liste der standard codecs liegt hier
http://www.python.org/doc/current/lib/node126.html
gruß Martin ... danke für die tips