okay, das erste Problem konnte ich lösen...
Code: Alles auswählen
def getUnicodePage(url, container=None):
try:
headers = { 'User-Agent' : 'Mozilla/5.0' }
req = urllib2.Request(url, None, headers)
except UnicodeDecodeError:
req = urllib2.urlopen(url)
encoding = 'utf-8'
if "content-type" in req.headers and "charset=" in req.headers['content-type']:
encoding=req.headers['content-type'].split('charset=')[-1]
content = unicode(urllib2.urlopen(req).read(), encoding).replace("\\", "")
if container is None: return content
return content.split(container)
liefert mir nun das gewünschte Ergebnis...
nun habe ich die einzelnen scraper ausgelagert....
der scraper, der mir detailURL liefert
Code: Alles auswählen
_detailurl = re.compile(' <a href="(.+?)" class', re.DOTALL).findall(content)
self.detailURL = "http://www.wunschliste.de"+_detailurl[0]
wenn ich nun die detailURL scrapen möchte
Code: Alles auswählen
details = WLScraper()
details.scrapeDetailPage(getUnicodePage(data.detailURL), 'div class="text"')
kommt immer eine Fehlermeldung:
Code: Alles auswählen
Error Contents: unknown url type:
Traceback (most recent call last):
File "G:\KODI-Krypton\portable_data\addons\plugin.program.serienplaner\default.py", line 474, in <module>
scrapeWLPage(category)
File "G:\KODI-Krypton\portable_data\addons\plugin.program.serienplaner\default.py", line 401, in scrapeWLPage
details.scrapeDetailPage(getUnicodePage(data.detailURL), 'div class="text"')
File "G:\KODI-Krypton\portable_data\addons\plugin.program.serienplaner\default.py", line 89, in getUnicodePage
content = unicode(urllib2.urlopen(req).read(), encoding).replace("\\", "")