Zeichensatzkonvertierung

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Martoro

Zeichensatzkonvertierung

Beitragvon Martoro » Freitag 24. Oktober 2003, 10:50

ich möchte einige alte dos( datenbank und rtf )dateien konvertieren ... das ist technisch alles kein problem, allerdings kommen in den daten polnische und deutsche umlaute vor die nach dem öffnen nicht korrekt umgesetzt werden.

ich möchte nun in einem script die zeichen in den unicode zeichenraum konvertieren ...

die frage ist gibt es dafür fertige bibliotheken oder hinweise was zu beachten ist auch der rückweg sollte möglichst offen sein

zeichensatz 1 >> unicode >> zeichensatz 2

vielleicht hat ja jemand einen tip für mich, danke schonmal Martin
joerg
User
Beiträge: 188
Registriert: Samstag 17. August 2002, 17:48
Wohnort: Berlin
Kontaktdaten:

Beitragvon joerg » Freitag 24. Oktober 2003, 12:54

Falls die bordeigenen Mittel von Python nicht ausreichen, kannst Du mal schauen, ob folgender Link weiterhilft:

http://www.iro.umontreal.ca/~pinard/recodec/

(Habe es mir selber noch nicht angeschaut.)

Jörg
"Sie sind nicht berechtigt, unrechtmäßige Kopien dieses Datenträgers zu erstellen." - Microsoft-Weisheit auf einer CD von MS-VisualC++-6.0
Martoro

Danke für den Link

Beitragvon Martoro » Freitag 24. Oktober 2003, 13:37

danke das ist auf alle fälle ein wertvoller link, damit sollte ich weiterkommen

Falls die bordeigenen Mittel von Python nicht ausreichen

??? welche bordeigenen mittel meintest du denn ???

ich bin nur gelegentlicher python user und befehle die geeignet sind die codierung von dateien zu bearbeiten sind mir noch nicht begegnet ....

kannst du mir einen tip geben welche module ich dazu näher ansehen sollte

danke, Martin
joerg
User
Beiträge: 188
Registriert: Samstag 17. August 2002, 17:48
Wohnort: Berlin
Kontaktdaten:

Re: Danke für den Link

Beitragvon joerg » Freitag 24. Oktober 2003, 15:22

Martoro hat geschrieben:kannst du mir einen tip geben welche module ich dazu näher ansehen sollte


Ja, einen Tip habe ich, aber mehr auch nicht. Ich habe mich damit nämlich auch noch nicht näher beschäftigt.

Die Module encodings und codecs könnten weiterhelfen und die String-Methoden encode und decode.

Bei Erfolg kannst Du ja auch ein kurzes Rezept hier posten, interessiert mich auch.

Jörg
"Sie sind nicht berechtigt, unrechtmäßige Kopien dieses Datenträgers zu erstellen." - Microsoft-Weisheit auf einer CD von MS-VisualC++-6.0
Martoro

Danke

Beitragvon Martoro » Freitag 24. Oktober 2003, 15:38

wenns klappt werd ich am Montag verraten wie's geht ... bin per bahn unterwegs und werde unterwegs experimentieren

schönes WE, Martin
Martoro

die Lösung

Beitragvon Martoro » Montag 27. Oktober 2003, 14:40

ist einfacher als ich dachte ... der kern ist das modul codecs

http://www.python.org/doc/current/lib/m ... odecs.html

dort werden fileobjekt-wrapper zur verfüguing gestellt die mit eingabe des gewünschten codecs den inhalt der files in unicode ausspucken

mit derselben methode kann mann dann in einem neuen codec schreiben

es läuft also auf
--------------------------
file = codecs.open ( meinfile, 'r' , meincodec )
content = file.readlines()
file.close()

newfile = codecs.open(neuesfile, 'w', neuercodec)
newfile.writelines(content)
newfile.close()
-----------------------------

das codecs modul stellt noch einiges mehr zur verfügung aber zur arbeit mit den dateien reichen diese funktionen schon völlig aus

die liste der standard codecs liegt hier

http://www.python.org/doc/current/lib/node126.html

gruß Martin ... danke für die tips

Wer ist online?

Mitglieder in diesem Forum: calo