Seite 1 von 1

Python-Script auf Webserver 24/7 ausführen lassen

Verfasst: Dienstag 28. April 2020, 21:13
von Shorty20
Moin Leute,

für meine Masterarbeit muss ich über GitHub einige Daten sammeln (crawlen), normalerweise würde ich die Daten lokal speichern, aber da der Crawler 24/7 für die ersten 3/4 Wochen laufen muss erwäge ich einen Server zu mieten. Die gesammelten Daten werden in einer Mongo gespeichert.

Meine Idee war ein Server zu mieten und eine VM aufzusetzen, allerdings bin ich hier nicht sicher, ob dass die beste/günstigste Variante ist. Ich habe es bei uberspace versucht, leider spuckt es mir nur fehler bei der ausführung des Scriptes aus.

Habt Ihr vllt eine Idee wie ich den crawler 24/7 laufen lassen kann? (Nein, ich möchte ungern meinen PC 24/7 laufen lassen :D )


Beste Grüße
Shorty

Re: Python-Script auf Webserver 24/7 ausführen lassen

Verfasst: Dienstag 28. April 2020, 22:27
von __blackjack__
@Shorty20: Als erstes würde ich da ja bei der Uni schauen. Bei uns hätte die Arbeitsgruppe für so etwas eine VM vom Rechnerbetrieb bekommen.

Re: Python-Script auf Webserver 24/7 ausführen lassen

Verfasst: Dienstag 28. April 2020, 23:32
von nezzcarth
Eine Frage ist auch, um welche Anfragemengen es da geht. Wenn man über einen längeren Zeitraum durchgängig mit vielen Requests pro Minute crawlen will, sollte man das mit denjenigen, deren Infrastruktur man dafür verwenden will, zumindest kurz absprechen. Abgesehen von den einzelnen HTTP-Requests erzeugt man ja auch weiteres Rauschen im lokalen Netzwerk (z.B. DNS Anfragen; da sollte auch geprüft werden, dass die richtig gecached werden) und im Internet; Beschwerden kommen dann im Zweifelsfall bei deinem Serveranbieter an, der sich im besten Fall wundert. Bei einigen Rechenzentren kann es dir auch passieren, dass Crawling nicht gern gesehen wird. Daher solche Dinge lieber vorher klären. Wenn das auf einem Uni Server laufen kann, wäre das sicher nicht schlecht.

Re: Python-Script auf Webserver 24/7 ausführen lassen

Verfasst: Mittwoch 29. April 2020, 15:33
von DeaD_EyE
Miete einfach einen vServer: https://www.hetzner.de/cloud
Der CX11 sollte ausreichend sein.

nezzcarth hatte ja noch das Problem mit dem crawlen erwähnt.
Falls es nicht möglich ist offiziell an die Daten zu kommen, wirst du einen ratelimiter nutzen müssen, um dich davor zu schützen für eine gewisse Zeit gesperrt zu werden.
Bei einem Server, der seine IP nicht ändern kann, ist das ziemlich doof.
Im extremsten Fall noch über den Tor-Service. Da hat man aber sehr oft das Problem, dass die Seiten das erkennen und dann kommt man aufgrund des Captchas nicht weiter.