Encoding Problem beim Lesen von MSG Datei(Mail)

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Antworten
pr0stAta
User
Beiträge: 271
Registriert: Freitag 17. September 2004, 11:49
Wohnort: Bremen

Hallo zusammen, nach ein paar Jahren der Python Abstinenz habe ich nun
vor kurzem wieder damit angefangen und habe mir folgendes kleines Script gebastelt:

Ich bekommen Newsletter Mails und habe diese im Outlook liegen (ja leider ist es Outlook :-/). Diese ziehe ich mir dann auf den Rechner und habe sie dann als MSG Datei hier liegen. Nun würde ich mir gerne einen bestimmten Textblock aus dem HTML Code, der ja in der Datei zwischen viel Krimskrams vorhanden ist, rausziehen. Um dies zu machen nutze ich BeautifulSoup. Da BS nur HTML Code lesen kann, der halbwegs brauchbar ist, ziehe ich mir diesen erst aus der MSG Datei und schreibe ihn in eine HTML Datei :) Ziemlich umständlich aber es funzt...
Naja zum eigentlichen Problem:

Wenn ich mir den HTML Code rausziehen möchte, bekomme ich leider kaputte Umlaute und mir gehen langsam die Ideen aus:

Code: Alles auswählen

    import email
    fp = open(file, "r")
    p = email.Parser.Parser()
    msg = str(p.parse(fp))
    fp.close()
Ich habe schon diverse Kombinationen aus .decode() und .encode() versucht, leider ohne Erfolg... Folgendes funzt auch nicht:

Code: Alles auswählen

    import codecs, email
    fp = codecs.open(file, "r", "iso-8859-15") #oder "utf-8"
    p = email.Parser.Parser()
    msg = str(p.parse(fp))
    fp.close()
Etwa er schreibt mir ebenfalls kaputte Umlaute in die HTML Datei oder es kommen Fehlermeldungen die dieser hier ähneln:

Code: Alles auswählen

UnicodeEncodeError: 'charmap' codec can't encode character u'\x8d' in position 19875: character maps to <undefined>
Hat jemand möglicherweise eine andere Idee oder einen gänzlich neuen Ansatz der mein Problem umgehen könnte?

Grüße
Leonidas
Python-Forum Veteran
Beiträge: 16025
Registriert: Freitag 20. Juni 2003, 16:30
Kontaktdaten:

Die MSG-Datei mit richtigem Codec öffnen?

Poste doch mal so eine MSG-Datei in ein Pastebin, dann kann man sich das mal ansehen...
My god, it's full of CARs! | Leonidasvoice vs (former) Modvoice
pr0stAta
User
Beiträge: 271
Registriert: Freitag 17. September 2004, 11:49
Wohnort: Bremen

Habe mal eine Beispiel Datei hochgeladen:
www.benjamin-hemken.de/downloads/TEST.msg
pr0stAta
User
Beiträge: 271
Registriert: Freitag 17. September 2004, 11:49
Wohnort: Bremen

Kruzifx nochmal...
nachdem ich die Datei nochmal generiert, runtergeladen und diesmal nicht geöffnet habe klappt es o_O Es scheint als hätte mein Editor beim Öffnen die Umlaute zerhauen. Tolles Ding :-/
Antworten