Paginierung

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Antworten
prejni
User
Beiträge: 1
Registriert: Freitag 8. November 2019, 09:12

Hallo Zusammen,
Ich baue zur Zeit meinen ersten Crawler und habe Probleme mit dem Umgehen der Paginierung einer Webseite.
Ich würde gerne die Daten der ganzen Webseite abgreifen können aber ich finde keine Lösung hierfür.

Das hier ist das Code-Fragment, welches für die Suche der Webseite verantwortlich ist:

source = urllib.request.urlopen(
'https://lockme.de/de/escape-room-rangli ... urttemberg').read()
soup = bs.BeautifulSoup(source , 'lxml')

Ich wäre sehr dankbar über eine Antwort. :)
Sirius3
User
Beiträge: 17749
Registriert: Sonntag 21. Oktober 2012, 17:20

Die Seite setzt JavaScript ein, um dynamisch Daten nachzuladen. Du mußt über die DeveloperTools Deines Browsers herausfinden, welche Requests abgesetzt werden, um Daten nachzuladen, und wie diese dann aufgebaut sind.
Benutzeravatar
pixewakb
User
Beiträge: 1412
Registriert: Sonntag 24. April 2011, 19:43

Du suchst dann z. B. "https://lockme.de/de/escape-room-rangli ... erg?page=4" (Methode: GET). Die Seite scheint variabel. Der Parameter startet mit page = 0. Good luck.
Benutzeravatar
pixewakb
User
Beiträge: 1412
Registriert: Sonntag 24. April 2011, 19:43

PS Schau Dir mal das Modul requests an. Ich fand das seinerzeit eingängiger als urllib.request.urlopen...
Antworten