Python-Script auf Webserver 24/7 ausführen lassen

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Antworten
Shorty20
User
Beiträge: 1
Registriert: Dienstag 28. April 2020, 21:03

Moin Leute,

für meine Masterarbeit muss ich über GitHub einige Daten sammeln (crawlen), normalerweise würde ich die Daten lokal speichern, aber da der Crawler 24/7 für die ersten 3/4 Wochen laufen muss erwäge ich einen Server zu mieten. Die gesammelten Daten werden in einer Mongo gespeichert.

Meine Idee war ein Server zu mieten und eine VM aufzusetzen, allerdings bin ich hier nicht sicher, ob dass die beste/günstigste Variante ist. Ich habe es bei uberspace versucht, leider spuckt es mir nur fehler bei der ausführung des Scriptes aus.

Habt Ihr vllt eine Idee wie ich den crawler 24/7 laufen lassen kann? (Nein, ich möchte ungern meinen PC 24/7 laufen lassen :D )


Beste Grüße
Shorty
Benutzeravatar
__blackjack__
User
Beiträge: 14052
Registriert: Samstag 2. Juni 2018, 10:21
Wohnort: 127.0.0.1
Kontaktdaten:

@Shorty20: Als erstes würde ich da ja bei der Uni schauen. Bei uns hätte die Arbeitsgruppe für so etwas eine VM vom Rechnerbetrieb bekommen.
“Vir, intelligence has nothing to do with politics!” — Londo Mollari
nezzcarth
User
Beiträge: 1764
Registriert: Samstag 16. April 2011, 12:47

Eine Frage ist auch, um welche Anfragemengen es da geht. Wenn man über einen längeren Zeitraum durchgängig mit vielen Requests pro Minute crawlen will, sollte man das mit denjenigen, deren Infrastruktur man dafür verwenden will, zumindest kurz absprechen. Abgesehen von den einzelnen HTTP-Requests erzeugt man ja auch weiteres Rauschen im lokalen Netzwerk (z.B. DNS Anfragen; da sollte auch geprüft werden, dass die richtig gecached werden) und im Internet; Beschwerden kommen dann im Zweifelsfall bei deinem Serveranbieter an, der sich im besten Fall wundert. Bei einigen Rechenzentren kann es dir auch passieren, dass Crawling nicht gern gesehen wird. Daher solche Dinge lieber vorher klären. Wenn das auf einem Uni Server laufen kann, wäre das sicher nicht schlecht.
Benutzeravatar
DeaD_EyE
User
Beiträge: 1240
Registriert: Sonntag 19. September 2010, 13:45
Wohnort: Hagen
Kontaktdaten:

Miete einfach einen vServer: https://www.hetzner.de/cloud
Der CX11 sollte ausreichend sein.

nezzcarth hatte ja noch das Problem mit dem crawlen erwähnt.
Falls es nicht möglich ist offiziell an die Daten zu kommen, wirst du einen ratelimiter nutzen müssen, um dich davor zu schützen für eine gewisse Zeit gesperrt zu werden.
Bei einem Server, der seine IP nicht ändern kann, ist das ziemlich doof.
Im extremsten Fall noch über den Tor-Service. Da hat man aber sehr oft das Problem, dass die Seiten das erkennen und dann kommt man aufgrund des Captchas nicht weiter.
sourceserver.info - sourceserver.info/wiki/ - ausgestorbener Support für HL2-Server
Antworten