html -> utf8

steffi · Donnerstag 29. Dezember 2005, 12:08

hi,
wie konvertiere ich mittels python am geschicktesten eine html-source so, dass beispielsweise ä und die anderen darstellungsformen als lesbare zeichen wie umlaute etc. dargestellt werden?
Danke!

jens · Donnerstag 29. Dezember 2005, 22:31

Deine Frage ist nicht wirklich klar... Was willst du machen?
Eine HTML-Seite erzeugen als CGI?
Per urllib eine HTML-Seite downloaden und im Brower wieder anzeigen?

steffi · Freitag 30. Dezember 2005, 02:46

nein!
die source einer html seite habe ich. darin sind sonderzeichen etc dargestellt wie Ü oder Ü Dies sollte jedoch Ü sein... und ich wüsste gern, wie ich die src so konvertiere, dass der text lesbar, also z.b. mit Üs versehen ist und nicht mit &...;
thx

BlackJack · Freitag 30. Dezember 2005, 09:54

Schau mal im Modul `htmlentitydefs` das Dictionary `name2codepoint` an. Da sind alle XHTML Namen und die dazugehörigen Unicode-Codepoints gespeichert. Jetzt musst Du nur noch ein Progrämmchen schreiben, das alle Namen im HTML-Text sucht und durch die entsprechenden Zeichen ersetzt.

jens · Freitag 30. Dezember 2005, 11:52

Und auch hier: [DE] Python Unicode FAQ