Ich habe ein kleines Problem und weiß nicht so recht woran es liegt das es nicht geht.
Ich bin dabei ein Programm zu schreiben das die Episoden Namen und das Ausstrahlung Datum von Serienjunkies.de runterlädt und
Abspeichert.
Dabei habe ich aber Probleme mit Umlauten.
Ich Arbeite mit Python 3.2.2 auf einem Arch Linux und benutze den xterm.
So hole ich mir die Internet Seite und wandel die html umlaute um.
Code: Alles auswählen
httpSite = urllib.request.urlopen(url)
content = str(httpSite.read())
content = content.replace("Ä","Ä")
content = content.replace("ä","ä")
content = content.replace("Ö","Ö")
content = content.replace("ö","ö")
content = content.replace("Ü","Ü")
content = content.replace("ü","ü")
content = content.replace("ß","ß")
content = content.replace(" "," ")
Das Funktioniert bei z.b. der Serie NCIS auch wunderbar jedoch bekomme ich bei z.b. The Unit
folgende Ausgabe.
Code: Alles auswählen
<td class="e0"><a href="/The-Unit/1x5-non-permissive-environment.html" title="Pr\xe4riefeuer - Alle Informationen zur Episode 1x05 der Serie \xabThe Unit\xbb">Pr\xe4riefeuer</a></td><td class="e0">04.04.2007</td>
Natürlich kann ich nicht ganz aus schlissen das bei dem print befehl noch etwas schief geht. Wobei es komisch wäre das es
bei der einen Serie geht und bei der anderen nicht.
Mittel .replace() kann ich das leider nicht lösen.
Das
Code: Alles auswählen
\xe4
wäre extrem nett wenn mir jemanden ein Link oder einen Begriff zum googlen geben könnte damit ich das Problem gelöst bekomme.
Gruß
Ignis-draco