mehrer URLs mit urllib.request.urlopen ?
Verfasst: Dienstag 21. Februar 2017, 19:26
Hallo ich hab ein kleines Problem mit meinem kleinen Crawler
ich habe mittel BeautifulSoup auf einer Webseite eine Seitenanzahl ermittelt,
so das ich jetzt als ausgabe eine Liste mit den URL habe also
http://www.domain.de/verzeich/seite2
http://www.domain.de/verzeich/seite3
http://www.domain.de/verzeich/seite4
ect.
das ganze möchte ich jetzt weite verarbeiten und mit jeder URL druchwechseln
jetzt erhalte ich aber immer die Fehlermeldung:
ich habe mittel BeautifulSoup auf einer Webseite eine Seitenanzahl ermittelt,
so das ich jetzt als ausgabe eine Liste mit den URL habe also
http://www.domain.de/verzeich/seite2
http://www.domain.de/verzeich/seite3
http://www.domain.de/verzeich/seite4
ect.
Code: Alles auswählen
sort = "&show=32&sort=alphabetical"
url = "http://www.domain.de/verzeich" + sort
r = requests.get(url)
soup = BeautifulSoup(r.content)
seitenanzahlFinder = soup.find_all("a", {"class": "search_nav"})
for item in seitenanzahlFinder:
seitenanzahl = (item.text)
seitenanzahl = int(item.text)
urlListe = []
for j in range(seitenanzahl, 1, -1):
UrlNum=(str(j))
URL="http://www.domain.de/verzeich/seite"
allurl = URL + UrlNum + sort
urlListe.append(allurl)
print(urlListe)
Code: Alles auswählen
sauce = urllib.request.urlopen(urlListe).read()
soup = bs.BeautifulSoup(sauce,'lxml')
img = soup.find_all('div', {'class': 'img'})
imgGet = str(img)
bekomme es irgendwie nicht hin und sehe den Wald vor lauter Code nicht mehr ???AttributeError: 'list' object has no attribute 'timeout'