Webscraping Idealo

clemhunter · Sonntag 21. Mai 2023, 14:13

Hallo liebe Community,

ich habe ein Problem damit die Seite von idealo zu scrapen mit scrapy. Ich habe in der scrapy shell meinen Hauptcodeschnipsel ausprobiert, dass auch die richtigen Daten extrahiert werden. Das hat in der Shell soweit auch problemlos geklappt.
Nun wollte ich meinen Code laufen lassen. Die Seite konnte erfolgreich aufgerufen werden (Code 200), allerdings war die nächste Ausgabe im Terminal "Spider error processing start url". Deshalb bin ich davon ausgegangen, dass Idealo bots blockiert.
Daraufhin habe ich ausprobiert: 1. Robots.txt ignorieren, 2. Web-Agents wechseln und 3. Proxies wechseln (wobei ich mir hier nicht wirklich sicher bin, ob die middleware überhaupt korrekt funktioniert hat). Leider hat das alles nicht weitergeholfen und jetzt bin ich aufgeschmissen, wie ich das Problem ansonsten Lösen könnte. Habt ihr irgendwelche Lösungsvorschläge? Oder muss ich einen komplett neuen Ansatz wählen?

Vielen Dank schonmal für die Hilfe!

sparrow · Sonntag 21. Mai 2023, 19:38

@clemhunter: Da idealo in den AGBs (8.2) das Scrapen von Daten explizit verbietet, würde ich sagen, der richtige Ansatz wäre dort freundlich zu fragen, ob es eine API zum Abruf der Daten gibt und unter welchen Bedingungen du die benutzen darfst.