Seite 1 von 1

html -> utf8

Verfasst: Donnerstag 29. Dezember 2005, 12:08
von steffi
hi,
wie konvertiere ich mittels python am geschicktesten eine html-source so, dass beispielsweise ä und die anderen darstellungsformen als lesbare zeichen wie umlaute etc. dargestellt werden?
Danke!

Verfasst: Donnerstag 29. Dezember 2005, 22:31
von jens
Deine Frage ist nicht wirklich klar... Was willst du machen?
Eine HTML-Seite erzeugen als CGI?
Per urllib eine HTML-Seite downloaden und im Brower wieder anzeigen?

Verfasst: Freitag 30. Dezember 2005, 02:46
von steffi
nein!
die source einer html seite habe ich. darin sind sonderzeichen etc dargestellt wie Ü oder Ü Dies sollte jedoch Ü sein... und ich wüsste gern, wie ich die src so konvertiere, dass der text lesbar, also z.b. mit Üs versehen ist und nicht mit &...;
thx

Verfasst: Freitag 30. Dezember 2005, 09:54
von BlackJack
Schau mal im Modul `htmlentitydefs` das Dictionary `name2codepoint` an. Da sind alle XHTML Namen und die dazugehörigen Unicode-Codepoints gespeichert. Jetzt musst Du nur noch ein Progrämmchen schreiben, das alle Namen im HTML-Text sucht und durch die entsprechenden Zeichen ersetzt.

Verfasst: Freitag 30. Dezember 2005, 11:52
von jens
Und auch hier: [DE] Python Unicode FAQ :lol: