Hallo zusammen,
ich scrape mittels der Requests-Libary und BS4 eine Website nach Informationen und wundere mich bereits seit einigen Tag über relativ üppig Dealys bis ich die nächste Response erhalte. Habe nun beim manuellen Besuch der Website entdeckt, dass ein Feld auf der Website über JavaScripte nachgeladen wird und dies den SiteLoad extrem in die Länge zieht. Die Daten die ich benötige sind aber weitaus eher ausgeladen ..
Gibt es eine Möglichkeit den Request zu "unterbrechen" sobald die benötigten Daten vollständig geladen sind, oder bestimmte Teile der Website generell nicht ausladen zu lassen? Ich befürchte zwar fast dass dieses Unterfangen schwierig wird, aber würde mich dennoch sehr über Input freuen!
Grüße,
Nico
Webscraping - Requestzeiten verkürzen, JavaScript lädt nach
- __blackjack__
- User
- Beiträge: 13116
- Registriert: Samstag 2. Juni 2018, 10:21
- Wohnort: 127.0.0.1
- Kontaktdaten:
@pr0vil: Ich bin bei der Beschreibung ein bisschen verwirrt wo der Zusammenhang bei Verzögerungen mit `requests` und JavaScript auf der Webseite her kommt? `requests` lädt nur das was direkt von der angegeben URL kommt. Also eventuell mit dem folgen von Redirects vorher, aber auch das hätte ja nichts mit JavaScript und was das im Browser macht, zu tun.
Kann es nicht auch einfach sein, dass die Website Dich ausbremst, weil die automatisierte Abfragen nicht mögen und solche Zugriffe zumindest mal drosseln wollen?
Kann es nicht auch einfach sein, dass die Website Dich ausbremst, weil die automatisierte Abfragen nicht mögen und solche Zugriffe zumindest mal drosseln wollen?
„All religions are the same: religion is basically guilt, with different holidays.” — Cathy Ladman