html -> utf8

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Antworten
steffi

hi,
wie konvertiere ich mittels python am geschicktesten eine html-source so, dass beispielsweise ä und die anderen darstellungsformen als lesbare zeichen wie umlaute etc. dargestellt werden?
Danke!
Benutzeravatar
jens
Python-Forum Veteran
Beiträge: 8502
Registriert: Dienstag 10. August 2004, 09:40
Wohnort: duisburg
Kontaktdaten:

Deine Frage ist nicht wirklich klar... Was willst du machen?
Eine HTML-Seite erzeugen als CGI?
Per urllib eine HTML-Seite downloaden und im Brower wieder anzeigen?

GitHub | Open HUB | Xing | Linked in
Bitcoins to: 1JEgSQepxGjdprNedC9tXQWLpS424AL8cd
steffi

nein!
die source einer html seite habe ich. darin sind sonderzeichen etc dargestellt wie Ü oder Ü Dies sollte jedoch Ü sein... und ich wüsste gern, wie ich die src so konvertiere, dass der text lesbar, also z.b. mit Üs versehen ist und nicht mit &...;
thx
BlackJack

Schau mal im Modul `htmlentitydefs` das Dictionary `name2codepoint` an. Da sind alle XHTML Namen und die dazugehörigen Unicode-Codepoints gespeichert. Jetzt musst Du nur noch ein Progrämmchen schreiben, das alle Namen im HTML-Text sucht und durch die entsprechenden Zeichen ersetzt.
Benutzeravatar
jens
Python-Forum Veteran
Beiträge: 8502
Registriert: Dienstag 10. August 2004, 09:40
Wohnort: duisburg
Kontaktdaten:

Und auch hier: [DE] Python Unicode FAQ :lol:

GitHub | Open HUB | Xing | Linked in
Bitcoins to: 1JEgSQepxGjdprNedC9tXQWLpS424AL8cd
Antworten