Mechanize: robots.txt ignorierbar?

Sockets, TCP/IP, (XML-)RPC und ähnliche Themen gehören in dieses Forum
Antworten
Benutzeravatar
snafu
User
Beiträge: 5534
Registriert: Donnerstag 21. Februar 2008, 17:31
Wohnort: Gelsenkirchen

Freitag 8. August 2008, 07:42

Hi!

Ich habe beim Testen eines Skriptes, das ich vor ein paar Wochen geschrieben habe, eine Exception entdeckt, die ich vorher nicht hatte:

Code: Alles auswählen

mechanize._response.httperror_seek_wrapper: HTTP Error 403: request disallowed by robots.txt
Das ganze passiert in der Funktion "login", welche die Userdaten einträgt und dann "submitted". Gibt es eine Möglichkeit, die Anweisungen aus der robots.txt zu ignorieren (auch wenn es nicht die feine Art ist)?

Gruß

Sebastian
Zuletzt geändert von snafu am Freitag 8. August 2008, 07:58, insgesamt 1-mal geändert.
Benutzeravatar
snafu
User
Beiträge: 5534
Registriert: Donnerstag 21. Februar 2008, 17:31
Wohnort: Gelsenkirchen

Freitag 8. August 2008, 07:56

Oh, sorry. Da war ich etwas voreilig. Habe die Google-Suche mal etwas intensiver bemüht...

Es geht mit:

Code: Alles auswählen

br.set_handle_robots(False)
(wobei "br" natürlich die mechanize.Browser()-Instanz darstellt)
lunar

Freitag 8. August 2008, 12:26

Sowas ist nicht sehr nett ...
Benutzeravatar
snafu
User
Beiträge: 5534
Registriert: Donnerstag 21. Februar 2008, 17:31
Wohnort: Gelsenkirchen

Freitag 8. August 2008, 13:57

lunar hat geschrieben:Sowas ist nicht sehr nett ...
Herr Murdoch ist auch nicht sehr nett. Ich nehme mir einfach mal das Recht heraus, gegenüber seinem - vielleicht dem einen oder anderem bekannten - Social Network Imperium auch mal nicht sehr nett zu sein. :)
Antworten