charset en-/decoding unicode python3
Verfasst: Mittwoch 30. August 2017, 18:43
Hallo,
ich bin derzeit daran eine Website mit HTMLParser nach Interpreten zu filtern. Die Website hat als charset "charset=ISO-8859-1" angegeben.
Ich möchte mit Python 3 utf-8 verwenden.
Auszug aus dem Code:
Bei einem Interpreten erhalte ich folgende Ausgabe:
Wenn ich die Seite im Browser Untersuche oder den Text in einen Texteditor kopiere findet er die beiden anderen Einträge des genannten Interpreten aber eben nur diesen einen nicht.
Wie kann ich herausfinden mit welchem charset/codepage dieses eine Element decodiert wurde?
Wenn ich das weiß, dann dürfte die konvertierung in eine lesbare Zeichenkett "10CC" kein Problem mehr sein.
Ich benutze Windows 10.
Python 3.6.1
ich bin derzeit daran eine Website mit HTMLParser nach Interpreten zu filtern. Die Website hat als charset "charset=ISO-8859-1" angegeben.
Ich möchte mit Python 3 utf-8 verwenden.
Auszug aus dem Code:
Code: Alles auswählen
def ddlMusicParser():
alben_pages = ListDDLMusic_Alben_Pages()
request = UrlOpener ('http://ddl-music.to/downloads/kategorie/alben/order/interpret/sort/D/')
for line in request:
ddl_music_site_url_decoded = str(line.decode('iso-8859-1').encode('utf-8'))
alben_pages.feed(ddl_music_site_url_decoded)
return
Code: Alles auswählen
data = '10СС'
print('Interpret: ' + str(repr(data)))
'10\\xc4\\x90\\xcb\\x87\\xc4\\x90\\xcb\\x87'
Wie kann ich herausfinden mit welchem charset/codepage dieses eine Element decodiert wurde?
Wenn ich das weiß, dann dürfte die konvertierung in eine lesbare Zeichenkett "10CC" kein Problem mehr sein.
Ich benutze Windows 10.
Python 3.6.1