hi,
wie konvertiere ich mittels python am geschicktesten eine html-source so, dass beispielsweise ä und die anderen darstellungsformen als lesbare zeichen wie umlaute etc. dargestellt werden?
Danke!
html -> utf8
nein!
die source einer html seite habe ich. darin sind sonderzeichen etc dargestellt wie Ü oder Ü Dies sollte jedoch Ü sein... und ich wüsste gern, wie ich die src so konvertiere, dass der text lesbar, also z.b. mit Üs versehen ist und nicht mit &...;
thx
die source einer html seite habe ich. darin sind sonderzeichen etc dargestellt wie Ü oder Ü Dies sollte jedoch Ü sein... und ich wüsste gern, wie ich die src so konvertiere, dass der text lesbar, also z.b. mit Üs versehen ist und nicht mit &...;
thx
Schau mal im Modul `htmlentitydefs` das Dictionary `name2codepoint` an. Da sind alle XHTML Namen und die dazugehörigen Unicode-Codepoints gespeichert. Jetzt musst Du nur noch ein Progrämmchen schreiben, das alle Namen im HTML-Text sucht und durch die entsprechenden Zeichen ersetzt.
- jens
- Python-Forum Veteran
- Beiträge: 8502
- Registriert: Dienstag 10. August 2004, 09:40
- Wohnort: duisburg
- Kontaktdaten:
Und auch hier: [DE] Python Unicode FAQ 
