Seite 1 von 1

Mechanize: robots.txt ignorierbar?

Verfasst: Freitag 8. August 2008, 07:42
von snafu
Hi!

Ich habe beim Testen eines Skriptes, das ich vor ein paar Wochen geschrieben habe, eine Exception entdeckt, die ich vorher nicht hatte:

Code: Alles auswählen

mechanize._response.httperror_seek_wrapper: HTTP Error 403: request disallowed by robots.txt
Das ganze passiert in der Funktion "login", welche die Userdaten einträgt und dann "submitted". Gibt es eine Möglichkeit, die Anweisungen aus der robots.txt zu ignorieren (auch wenn es nicht die feine Art ist)?

Gruß

Sebastian

Verfasst: Freitag 8. August 2008, 07:56
von snafu
Oh, sorry. Da war ich etwas voreilig. Habe die Google-Suche mal etwas intensiver bemüht...

Es geht mit:

Code: Alles auswählen

br.set_handle_robots(False)
(wobei "br" natürlich die mechanize.Browser()-Instanz darstellt)

Verfasst: Freitag 8. August 2008, 12:26
von lunar
Sowas ist nicht sehr nett ...

Verfasst: Freitag 8. August 2008, 13:57
von snafu
lunar hat geschrieben:Sowas ist nicht sehr nett ...
Herr Murdoch ist auch nicht sehr nett. Ich nehme mir einfach mal das Recht heraus, gegenüber seinem - vielleicht dem einen oder anderem bekannten - Social Network Imperium auch mal nicht sehr nett zu sein. :)