Python-Script auf Webserver 24/7 ausführen lassen

Shorty20 · Dienstag 28. April 2020, 21:13

Moin Leute,

für meine Masterarbeit muss ich über GitHub einige Daten sammeln (crawlen), normalerweise würde ich die Daten lokal speichern, aber da der Crawler 24/7 für die ersten 3/4 Wochen laufen muss erwäge ich einen Server zu mieten. Die gesammelten Daten werden in einer Mongo gespeichert.

Meine Idee war ein Server zu mieten und eine VM aufzusetzen, allerdings bin ich hier nicht sicher, ob dass die beste/günstigste Variante ist. Ich habe es bei uberspace versucht, leider spuckt es mir nur fehler bei der ausführung des Scriptes aus.

Habt Ihr vllt eine Idee wie ich den crawler 24/7 laufen lassen kann? (Nein, ich möchte ungern meinen PC 24/7 laufen lassen

)

Beste Grüße
Shorty

__blackjack__ · Dienstag 28. April 2020, 22:27

@Shorty20: Als erstes würde ich da ja bei der Uni schauen. Bei uns hätte die Arbeitsgruppe für so etwas eine VM vom Rechnerbetrieb bekommen.

nezzcarth · Dienstag 28. April 2020, 23:32

Eine Frage ist auch, um welche Anfragemengen es da geht. Wenn man über einen längeren Zeitraum durchgängig mit vielen Requests pro Minute crawlen will, sollte man das mit denjenigen, deren Infrastruktur man dafür verwenden will, zumindest kurz absprechen. Abgesehen von den einzelnen HTTP-Requests erzeugt man ja auch weiteres Rauschen im lokalen Netzwerk (z.B. DNS Anfragen; da sollte auch geprüft werden, dass die richtig gecached werden) und im Internet; Beschwerden kommen dann im Zweifelsfall bei deinem Serveranbieter an, der sich im besten Fall wundert. Bei einigen Rechenzentren kann es dir auch passieren, dass Crawling nicht gern gesehen wird. Daher solche Dinge lieber vorher klären. Wenn das auf einem Uni Server laufen kann, wäre das sicher nicht schlecht.

DeaD_EyE · Mittwoch 29. April 2020, 15:33

Miete einfach einen vServer: https://www.hetzner.de/cloud
Der CX11 sollte ausreichend sein.

nezzcarth hatte ja noch das Problem mit dem crawlen erwähnt.
Falls es nicht möglich ist offiziell an die Daten zu kommen, wirst du einen ratelimiter nutzen müssen, um dich davor zu schützen für eine gewisse Zeit gesperrt zu werden.
Bei einem Server, der seine IP nicht ändern kann, ist das ziemlich doof.
Im extremsten Fall noch über den Tor-Service. Da hat man aber sehr oft das Problem, dass die Seiten das erkennen und dann kommt man aufgrund des Captchas nicht weiter.