Codierung von Zeichenketten
Verfasst: Freitag 30. März 2012, 11:32
Hi
Ich habe ein kleines Problem und weiß nicht so recht woran es liegt das es nicht geht.
Ich bin dabei ein Programm zu schreiben das die Episoden Namen und das Ausstrahlung Datum von Serienjunkies.de runterlädt und
Abspeichert.
Dabei habe ich aber Probleme mit Umlauten.
Ich Arbeite mit Python 3.2.2 auf einem Arch Linux und benutze den xterm.
So hole ich mir die Internet Seite und wandel die html umlaute um.
Das Funktioniert bei z.b. der Serie NCIS auch wunderbar jedoch bekomme ich bei z.b. The Unit
folgende Ausgabe.
Ich weiß das mir das read ein str gibt und somit dürfte es keine Probleme geben, aber ich weiß nicht wo es sonst probleme gibt.
Natürlich kann ich nicht ganz aus schlissen das bei dem print befehl noch etwas schief geht. Wobei es komisch wäre das es
bei der einen Serie geht und bei der anderen nicht.
Mittel .replace() kann ich das leider nicht lösen.
Das steht ja auch für ein ä aber bekomme ich es hin das ich dann auch ein richtige ä beim z.b. umbenennen einer Datei bekomme ?
wäre extrem nett wenn mir jemanden ein Link oder einen Begriff zum googlen geben könnte damit ich das Problem gelöst bekomme.
Gruß
Ignis-draco
Ich habe ein kleines Problem und weiß nicht so recht woran es liegt das es nicht geht.
Ich bin dabei ein Programm zu schreiben das die Episoden Namen und das Ausstrahlung Datum von Serienjunkies.de runterlädt und
Abspeichert.
Dabei habe ich aber Probleme mit Umlauten.
Ich Arbeite mit Python 3.2.2 auf einem Arch Linux und benutze den xterm.
So hole ich mir die Internet Seite und wandel die html umlaute um.
Code: Alles auswählen
httpSite = urllib.request.urlopen(url)
content = str(httpSite.read())
content = content.replace("Ä","Ä")
content = content.replace("ä","ä")
content = content.replace("Ö","Ö")
content = content.replace("ö","ö")
content = content.replace("Ü","Ü")
content = content.replace("ü","ü")
content = content.replace("ß","ß")
content = content.replace(" "," ")Das Funktioniert bei z.b. der Serie NCIS auch wunderbar jedoch bekomme ich bei z.b. The Unit
folgende Ausgabe.
Code: Alles auswählen
<td class="e0"><a href="/The-Unit/1x5-non-permissive-environment.html" title="Pr\xe4riefeuer - Alle Informationen zur Episode 1x05 der Serie \xabThe Unit\xbb">Pr\xe4riefeuer</a></td><td class="e0">04.04.2007</td>Natürlich kann ich nicht ganz aus schlissen das bei dem print befehl noch etwas schief geht. Wobei es komisch wäre das es
bei der einen Serie geht und bei der anderen nicht.
Mittel .replace() kann ich das leider nicht lösen.
Das
Code: Alles auswählen
\xe4wäre extrem nett wenn mir jemanden ein Link oder einen Begriff zum googlen geben könnte damit ich das Problem gelöst bekomme.
Gruß
Ignis-draco