Internetseite parsen (Gegenwehr?)

pixewakb · Sonntag 7. September 2014, 13:40

Hallo zusammen, mich beschäftigt theoretisch - weil ich es nicht weiß - das Problem, ob ein Webseitenbetreiber mich technisch vor dem Parsen seines Internetangebots ausschließen kann. Dazu 2 Punkte:

(1) Ich kenne eine Seite, wo ich nach wiederholtem Besuch der Seite ausgeblockt werde. Ein Zugriff geht dann erst wieder nach einigen Minuten. Konkret rufe ich dort Daten mittels LibreOffice Calc ab (externe Datenquelle) und verarbeite sie dann weiter. Das soll mittelfristig mal ein Python-Skript automatisiert machen.

(2) Ich habe eine zweite Seite, die ich mit Python parse und zwar einen bestimmten Datenbereich (HTML-Tabellen auf Unterseiten) und die Daten dann in Python weiterverwende. Aktuell wird bei jedem Aufruf alles geparst, mittelfristig möchte ich nur die Daten abrufen, die sich kurzfristig (1 Woche) ändern können. Da hatte ich solche Probleme bislang nicht.

Meine Fragen:

(1) Kann der Websitebetreiber feststellen, dass ich "einige" Seiten bei ihm parse, wenn ja, wie: Logdateien, Cookies? Ich denke, dass meine IP-Adresse aufgezeichnet wird.

(2) Vermutlich kann er prüfen, in welchem Zeitabstand ich zugreife, wodurch er meinen Zugriff von einem Botzugriff unterscheiden kann.

(3) Wie kann er mich ausschließen (vermutlich direkt über php?) und wie häufig kommt das in der Praxis wohl vor? Wahrscheinlich müssten die sich absichern, um ein DoS zu verhindern.

Ist klar, worum es mir geht? Im Kern möchte ich wissen, ob ich z. B. mit einem Parsen aller Seiten nur alle 15 Minuten, 2 Stunden o. ä. eine Blockade des Datenabrufs vermeiden kann und ob es dazu Erfahrungswerte gibt bzw. Handlungsempfehlungen...

BlackJack · Sonntag 7. September 2014, 15:33

@pixewakb: Ad (1): Ob Du sie ”parst” kann er nicht feststellen, aber sehr wohl Vermutungen anstellen das dort automatisierte Anfragen passieren. Zum Beispiel dass die Abfragen in einer Weise passieren die bei einem manuellen Abfragen per Browser unplausibel sind.

Ad (2): Steckt in der Aussage eine Frage die ich übersehen habe?

Die zeitabstände sind jedenfalls bei weiten nicht das einzige Kriterium um einen automatisierten Zugriff von einem Menschen, der einen üblichen Browser bedient, zu unterscheiden.

Ad (3): Da gibt es unzählige Wege, von direkt Deine IP blocken bis hin dazu es grundsätzlich allen Besuchern der Webseite mit den unterschiedlichsten Techniken deutlich schwerer zu machen ganz normal die Seite zu lesen nur weil einige Idioten das nicht erwünschte automatisierte auslesen nicht sein lassen konnten.

Was das konkret mit PHP zu tun haben sollte verstehe ich nicht.

Ganz generell ist Deine Frage so ähnlich wie die Frage wie man sich gegen Computerviren schützen kann. Es gibt Techniken die funktionieren, solange bis die Gegenseite eine neue Methode gefunden hat und anwendet. In grösseren Zeitabständen abrufen kann helfen, solange der Webseitenbetreiber abrufen in kurzen Zeitabständen als Auslöser nimmt Anfragen zu blockieren. Gegen andere Massnahmen würde es nicht helfen.

Erste Handlungsempfehlung: AGB und robots.txt danach abklopfen ob der Betreiber automatisiertes abgreifen der Daten erlaubt. Falls nicht erst einmal gut darüber nachdenken ob man das überhaupt machen muss/will.

pixewakb · Sonntag 7. September 2014, 15:44

Danke, auf einen guten Teil deiner Punkte wäre ich so nicht gekommen.

Bei php - ich hatte mir gerade überlegt, wie ich das Problem lösen würde, wenn es sich mir gestellt hätte und da hätte ich vermutlich direkt eine Lösung in php versucht, d. h. Daten in der Session speichern und irgendwann reagieren. Bei dem einen Seitenbetreiber weiß ich nicht, welche Software er auf dem Server laufen lässt (habe aktuell selbst mit einer Java-basierten Software zu tun), jedenfalls wird die Blockade ausgeliefert als eigene Seite im Webangebot.

AGBs und robots.txt-Dateien haben beide nicht. Der eine hat eine robots.txt-Seite reingesetzt, aber praktisch ohne Inhalt (Google-Bot ist draußen und der Rest möge sich von Druckseiten fernhalten).

Cracken will ich da eigentlich nichts, den Traffic für die Seitenbetreiber möchte ich aber auch möglichst niedrig halten. Augenblicklich muss ich einige Werte im Blick halten und bei Bedarf für die Datenpräsentation aufbereiten (liest sich "beruflich", ist aber leider ein privates Projekt), was ich eigentlich gern automatisieren möchte, weil ich dann das Intervall verkleinern kann und mich mit schöneren Sachen beschäftigen kann.

Ergebnis: Praktischer Testlauf, was passiert, wenn ich zu oft zugreife...