Hallo Zusammen,
Ich baue zur Zeit meinen ersten Crawler und habe Probleme mit dem Umgehen der Paginierung einer Webseite.
Ich würde gerne die Daten der ganzen Webseite abgreifen können aber ich finde keine Lösung hierfür.
Das hier ist das Code-Fragment, welches für die Suche der Webseite verantwortlich ist:
source = urllib.request.urlopen(
'https://lockme.de/de/escape-room-rangli ... urttemberg').read()
soup = bs.BeautifulSoup(source , 'lxml')
Ich wäre sehr dankbar über eine Antwort.
Paginierung
Die Seite setzt JavaScript ein, um dynamisch Daten nachzuladen. Du mußt über die DeveloperTools Deines Browsers herausfinden, welche Requests abgesetzt werden, um Daten nachzuladen, und wie diese dann aufgebaut sind.
Du suchst dann z. B. "https://lockme.de/de/escape-room-rangli ... erg?page=4" (Methode: GET). Die Seite scheint variabel. Der Parameter startet mit page = 0. Good luck.
PS Schau Dir mal das Modul requests an. Ich fand das seinerzeit eingängiger als urllib.request.urlopen...