(ganz erlich) ich kann dieses Thema nicht ausstehen, weil es mir in regelmäßigen Abständen in den verschiedesten Programmiersprachen den Nerv raubt

Ziel: Auslesen einer Webseite, die (laut Firefox) UTF-8 Inhalte zurück schickt. Das Python-File ist ISO Codiert (wenn man das File-Encodiung auf "UTF8" stellt geht es natürlich, aber dann habe ich die Probleme an anderer Stelle

Code: Alles auswählen
# -*- coding: ISO-8859-1 -*-
import urllib
import re
htmlFile=urllib.urlopen("http://www.kuechengoetter.de/rezepte/verschiedenes/Nasi-Goreng-mit-Weisskohl-und-Moehren-18016.html")
htmlString=""
for line in htmlFile:
htmlString+=line
title=re.findall("<title>(.*?)</title>",htmlString)[0].split(" : ")[0]
print title
#>>Nasi Goreng mit Weißkohl und Möhren
title = title.encode("utf8").decode("iso-8859-1")
print title
#>> Nasi Goreng mit Weißkohl und Möhren