Paginierung

prejni · Freitag 8. November 2019, 09:19

Hallo Zusammen,
Ich baue zur Zeit meinen ersten Crawler und habe Probleme mit dem Umgehen der Paginierung einer Webseite.
Ich würde gerne die Daten der ganzen Webseite abgreifen können aber ich finde keine Lösung hierfür.

Das hier ist das Code-Fragment, welches für die Suche der Webseite verantwortlich ist:

source = urllib.request.urlopen(
'https://lockme.de/de/escape-room-rangli ... urttemberg').read()
soup = bs.BeautifulSoup(source , 'lxml')

Ich wäre sehr dankbar über eine Antwort.

Sirius3 · Freitag 8. November 2019, 10:06

Die Seite setzt JavaScript ein, um dynamisch Daten nachzuladen. Du mußt über die DeveloperTools Deines Browsers herausfinden, welche Requests abgesetzt werden, um Daten nachzuladen, und wie diese dann aufgebaut sind.

pixewakb · Freitag 8. November 2019, 17:08

Du suchst dann z. B. "https://lockme.de/de/escape-room-rangli ... erg?page=4" (Methode: GET). Die Seite scheint variabel. Der Parameter startet mit page = 0. Good luck.

pixewakb · Freitag 8. November 2019, 17:12

PS Schau Dir mal das Modul requests an. Ich fand das seinerzeit eingängiger als urllib.request.urlopen...