html -> utf8

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Antworten
steffi

Donnerstag 29. Dezember 2005, 12:08

hi,
wie konvertiere ich mittels python am geschicktesten eine html-source so, dass beispielsweise ä und die anderen darstellungsformen als lesbare zeichen wie umlaute etc. dargestellt werden?
Danke!
Benutzeravatar
jens
Moderator
Beiträge: 8461
Registriert: Dienstag 10. August 2004, 09:40
Wohnort: duisburg
Kontaktdaten:

Donnerstag 29. Dezember 2005, 22:31

Deine Frage ist nicht wirklich klar... Was willst du machen?
Eine HTML-Seite erzeugen als CGI?
Per urllib eine HTML-Seite downloaden und im Brower wieder anzeigen?

CMS in Python: http://www.pylucid.org
GitHub | Open HUB | Xing | Linked in
Bitcoins to: 1JEgSQepxGjdprNedC9tXQWLpS424AL8cd
steffi

Freitag 30. Dezember 2005, 02:46

nein!
die source einer html seite habe ich. darin sind sonderzeichen etc dargestellt wie Ü oder Ü Dies sollte jedoch Ü sein... und ich wüsste gern, wie ich die src so konvertiere, dass der text lesbar, also z.b. mit Üs versehen ist und nicht mit &...;
thx
BlackJack

Freitag 30. Dezember 2005, 09:54

Schau mal im Modul `htmlentitydefs` das Dictionary `name2codepoint` an. Da sind alle XHTML Namen und die dazugehörigen Unicode-Codepoints gespeichert. Jetzt musst Du nur noch ein Progrämmchen schreiben, das alle Namen im HTML-Text sucht und durch die entsprechenden Zeichen ersetzt.
Benutzeravatar
jens
Moderator
Beiträge: 8461
Registriert: Dienstag 10. August 2004, 09:40
Wohnort: duisburg
Kontaktdaten:

Freitag 30. Dezember 2005, 11:52

Und auch hier: [DE] Python Unicode FAQ :lol:

CMS in Python: http://www.pylucid.org
GitHub | Open HUB | Xing | Linked in
Bitcoins to: 1JEgSQepxGjdprNedC9tXQWLpS424AL8cd
Antworten