Webscraping - Requestzeiten verkürzen, JavaScript lädt nach

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Antworten
pr0vil
User
Beiträge: 3
Registriert: Sonntag 16. Januar 2022, 22:55

Hallo zusammen,

ich scrape mittels der Requests-Libary und BS4 eine Website nach Informationen und wundere mich bereits seit einigen Tag über relativ üppig Dealys bis ich die nächste Response erhalte. Habe nun beim manuellen Besuch der Website entdeckt, dass ein Feld auf der Website über JavaScripte nachgeladen wird und dies den SiteLoad extrem in die Länge zieht. Die Daten die ich benötige sind aber weitaus eher ausgeladen ..

Gibt es eine Möglichkeit den Request zu "unterbrechen" sobald die benötigten Daten vollständig geladen sind, oder bestimmte Teile der Website generell nicht ausladen zu lassen? Ich befürchte zwar fast dass dieses Unterfangen schwierig wird, aber würde mich dennoch sehr über Input freuen!

Grüße,
Nico
Benutzeravatar
__blackjack__
User
Beiträge: 13111
Registriert: Samstag 2. Juni 2018, 10:21
Wohnort: 127.0.0.1
Kontaktdaten:

@pr0vil: Ich bin bei der Beschreibung ein bisschen verwirrt wo der Zusammenhang bei Verzögerungen mit `requests` und JavaScript auf der Webseite her kommt? `requests` lädt nur das was direkt von der angegeben URL kommt. Also eventuell mit dem folgen von Redirects vorher, aber auch das hätte ja nichts mit JavaScript und was das im Browser macht, zu tun.

Kann es nicht auch einfach sein, dass die Website Dich ausbremst, weil die automatisierte Abfragen nicht mögen und solche Zugriffe zumindest mal drosseln wollen?
„All religions are the same: religion is basically guilt, with different holidays.” — Cathy Ladman
Antworten