html -> utf8

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
steffi

html -> utf8

Beitragvon steffi » Donnerstag 29. Dezember 2005, 12:08

hi,
wie konvertiere ich mittels python am geschicktesten eine html-source so, dass beispielsweise ä und die anderen darstellungsformen als lesbare zeichen wie umlaute etc. dargestellt werden?
Danke!
Benutzeravatar
jens
Moderator
Beiträge: 8458
Registriert: Dienstag 10. August 2004, 09:40
Wohnort: duisburg
Kontaktdaten:

Beitragvon jens » Donnerstag 29. Dezember 2005, 22:31

Deine Frage ist nicht wirklich klar... Was willst du machen?
Eine HTML-Seite erzeugen als CGI?
Per urllib eine HTML-Seite downloaden und im Brower wieder anzeigen?

CMS in Python: http://www.pylucid.org
GitHub | Open HUB | Xing | Linked in
Bitcoins to: 1JEgSQepxGjdprNedC9tXQWLpS424AL8cd
steffi

Beitragvon steffi » Freitag 30. Dezember 2005, 02:46

nein!
die source einer html seite habe ich. darin sind sonderzeichen etc dargestellt wie Ü oder Ü Dies sollte jedoch Ü sein... und ich wüsste gern, wie ich die src so konvertiere, dass der text lesbar, also z.b. mit Üs versehen ist und nicht mit &...;
thx
BlackJack

Beitragvon BlackJack » Freitag 30. Dezember 2005, 09:54

Schau mal im Modul `htmlentitydefs` das Dictionary `name2codepoint` an. Da sind alle XHTML Namen und die dazugehörigen Unicode-Codepoints gespeichert. Jetzt musst Du nur noch ein Progrämmchen schreiben, das alle Namen im HTML-Text sucht und durch die entsprechenden Zeichen ersetzt.
Benutzeravatar
jens
Moderator
Beiträge: 8458
Registriert: Dienstag 10. August 2004, 09:40
Wohnort: duisburg
Kontaktdaten:

Beitragvon jens » Freitag 30. Dezember 2005, 11:52

Und auch hier: [DE] Python Unicode FAQ :lol:

CMS in Python: http://www.pylucid.org
GitHub | Open HUB | Xing | Linked in
Bitcoins to: 1JEgSQepxGjdprNedC9tXQWLpS424AL8cd

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder