(ganz erlich) ich kann dieses Thema nicht ausstehen, weil es mir in regelmäßigen Abständen in den verschiedesten Programmiersprachen den Nerv raubt
Ziel: Auslesen einer Webseite, die (laut Firefox) UTF-8 Inhalte zurück schickt. Das Python-File ist ISO Codiert (wenn man das File-Encodiung auf "UTF8" stellt geht es natürlich, aber dann habe ich die Probleme an anderer Stelle ). Eigentlich dachte ich das man das ganze mit einfachem encoding und decoding auf die Reihe bekommen, aber irgendwie stelle ich mich da scheinbar etwas ungeschickt an:
Code: Alles auswählen
# -*- coding: ISO-8859-1 -*-
import urllib
import re
htmlFile=urllib.urlopen("http://www.kuechengoetter.de/rezepte/verschiedenes/Nasi-Goreng-mit-Weisskohl-und-Moehren-18016.html")
htmlString=""
for line in htmlFile:
htmlString+=line
title=re.findall("<title>(.*?)</title>",htmlString)[0].split(" : ")[0]
print title
#>>Nasi Goreng mit Weißkohl und Möhren
title = title.encode("utf8").decode("iso-8859-1")
print title
#>> Nasi Goreng mit Weißkohl und Möhren