Seriendownload mit mechanize
Verfasst: Donnerstag 26. März 2009, 10:15
http://wwwsearch.sourceforge.net/mechanize/
Ich "browse" eine Seite mit Links, über die mit
iteriert werden kann.
Die Links sind in Wirklichkeit Aufrufe einer JavaScript-Funktion die dann über document.href = URI einen echten Browser zum Dateidownload veranlassen würde.
Die JavaScript-Funktion ist einfach mit Python nachzubilden und gibt URI zurück.
Ich versuche dann mit file = br.open(URI) die Daten zu holen.
Das funktioniert auch - aber nur einmal.
Ich vermute es liegt an
und der Tatsache, dass Browser die Datei "ansieht" und nicht mehr die Seite mit den Links.
Aber auch ein br.back() bringt nicht den gewünschten Erfolg.
Ich werde in der Zwischenzeit versuchen, mir die Response Headers anzeigen zu lassen, aber falls jemand das Problem erkennt...
Ich "browse" eine Seite mit Links, über die mit
Code: Alles auswählen
for link in br.links(url_regex="match"):
Die Links sind in Wirklichkeit Aufrufe einer JavaScript-Funktion die dann über document.href = URI einen echten Browser zum Dateidownload veranlassen würde.
Die JavaScript-Funktion ist einfach mit Python nachzubilden und gibt URI zurück.
Ich versuche dann mit file = br.open(URI) die Daten zu holen.
Das funktioniert auch - aber nur einmal.
Ich vermute es liegt an
Code: Alles auswählen
links(self, **kwds)
Return iterable over links (mechanize.Link objects).
Aber auch ein br.back() bringt nicht den gewünschten Erfolg.
Ich werde in der Zwischenzeit versuchen, mir die Response Headers anzeigen zu lassen, aber falls jemand das Problem erkennt...