Internetseite parsen (Gegenwehr?)
Verfasst: Sonntag 7. September 2014, 13:40
Hallo zusammen, mich beschäftigt theoretisch - weil ich es nicht weiß - das Problem, ob ein Webseitenbetreiber mich technisch vor dem Parsen seines Internetangebots ausschließen kann. Dazu 2 Punkte:
(1) Ich kenne eine Seite, wo ich nach wiederholtem Besuch der Seite ausgeblockt werde. Ein Zugriff geht dann erst wieder nach einigen Minuten. Konkret rufe ich dort Daten mittels LibreOffice Calc ab (externe Datenquelle) und verarbeite sie dann weiter. Das soll mittelfristig mal ein Python-Skript automatisiert machen.
(2) Ich habe eine zweite Seite, die ich mit Python parse und zwar einen bestimmten Datenbereich (HTML-Tabellen auf Unterseiten) und die Daten dann in Python weiterverwende. Aktuell wird bei jedem Aufruf alles geparst, mittelfristig möchte ich nur die Daten abrufen, die sich kurzfristig (1 Woche) ändern können. Da hatte ich solche Probleme bislang nicht.
Meine Fragen:
(1) Kann der Websitebetreiber feststellen, dass ich "einige" Seiten bei ihm parse, wenn ja, wie: Logdateien, Cookies? Ich denke, dass meine IP-Adresse aufgezeichnet wird.
(2) Vermutlich kann er prüfen, in welchem Zeitabstand ich zugreife, wodurch er meinen Zugriff von einem Botzugriff unterscheiden kann.
(3) Wie kann er mich ausschließen (vermutlich direkt über php?) und wie häufig kommt das in der Praxis wohl vor? Wahrscheinlich müssten die sich absichern, um ein DoS zu verhindern.
Ist klar, worum es mir geht? Im Kern möchte ich wissen, ob ich z. B. mit einem Parsen aller Seiten nur alle 15 Minuten, 2 Stunden o. ä. eine Blockade des Datenabrufs vermeiden kann und ob es dazu Erfahrungswerte gibt bzw. Handlungsempfehlungen...
(1) Ich kenne eine Seite, wo ich nach wiederholtem Besuch der Seite ausgeblockt werde. Ein Zugriff geht dann erst wieder nach einigen Minuten. Konkret rufe ich dort Daten mittels LibreOffice Calc ab (externe Datenquelle) und verarbeite sie dann weiter. Das soll mittelfristig mal ein Python-Skript automatisiert machen.
(2) Ich habe eine zweite Seite, die ich mit Python parse und zwar einen bestimmten Datenbereich (HTML-Tabellen auf Unterseiten) und die Daten dann in Python weiterverwende. Aktuell wird bei jedem Aufruf alles geparst, mittelfristig möchte ich nur die Daten abrufen, die sich kurzfristig (1 Woche) ändern können. Da hatte ich solche Probleme bislang nicht.
Meine Fragen:
(1) Kann der Websitebetreiber feststellen, dass ich "einige" Seiten bei ihm parse, wenn ja, wie: Logdateien, Cookies? Ich denke, dass meine IP-Adresse aufgezeichnet wird.
(2) Vermutlich kann er prüfen, in welchem Zeitabstand ich zugreife, wodurch er meinen Zugriff von einem Botzugriff unterscheiden kann.
(3) Wie kann er mich ausschließen (vermutlich direkt über php?) und wie häufig kommt das in der Praxis wohl vor? Wahrscheinlich müssten die sich absichern, um ein DoS zu verhindern.
Ist klar, worum es mir geht? Im Kern möchte ich wissen, ob ich z. B. mit einem Parsen aller Seiten nur alle 15 Minuten, 2 Stunden o. ä. eine Blockade des Datenabrufs vermeiden kann und ob es dazu Erfahrungswerte gibt bzw. Handlungsempfehlungen...