ich bin derzeit daran eine Website mit HTMLParser nach Interpreten zu filtern. Die Website hat als charset "charset=ISO-8859-1" angegeben.
Ich möchte mit Python 3 utf-8 verwenden.
Auszug aus dem Code:
Code: Alles auswählen
def ddlMusicParser():
alben_pages = ListDDLMusic_Alben_Pages()
request = UrlOpener ('http://ddl-music.to/downloads/kategorie/alben/order/interpret/sort/D/')
for line in request:
ddl_music_site_url_decoded = str(line.decode('iso-8859-1').encode('utf-8'))
alben_pages.feed(ddl_music_site_url_decoded)
return
Code: Alles auswählen
data = '10СС'
print('Interpret: ' + str(repr(data)))
'10\\xc4\\x90\\xcb\\x87\\xc4\\x90\\xcb\\x87'
Wie kann ich herausfinden mit welchem charset/codepage dieses eine Element decodiert wurde?
Wenn ich das weiß, dann dürfte die konvertierung in eine lesbare Zeichenkett "10CC" kein Problem mehr sein.
Ich benutze Windows 10.
Python 3.6.1