Seite 1 von 1

urllib2, cookies von subdomains

Verfasst: Montag 10. Oktober 2011, 19:07
von ao11
Hallo,

versuche mich an einem automatischen Downloader für Daten von einer Webseite, dabei habe ich folgendes Problem:

Ich logge mich auf der Hauptseite ein:

http://www.something.somewhere

Alles tuti, läuft, Cookie wird gespeichert, erneuter aufruf der Seite ohne Anmeldedaten ohne Probleme, das Cookie wird mitgesendet.

An die Daten komme ich aber nur über eine Subdomain:

http://sub.something.somewhere

Jetzt will das CookieJar aber das Cookie nicht rausrücken. Wenn ich domain_return_ok und return_ok überschreibe und einfach True zurückgebe geht's auch nicht wirklich, aber das muss ich mir noch anschauen.

Mein Problem ist, das das kein Default Verhalten ist und die Python Dokumentation eigentlich sagt, das man das überschreiben nur verwenden sollte um es weiter einzugrenzen, nicht um das Cokkie Verhalten weiter zu öffnen.

Wenn ich mich mit Firefox dort anmelde werden die Cookies auch nur unter "something.somewhere" und nicht unter "www.something.somewhere" gespeichert und ich komme an die Seite in der Subdomain ohne Probleme.

Auch die POST Daten sehen eigentlich gut aus, beim wechsel mit Firefox auf http://sub.something.somewhere, das Cookie wird gesendet.

Wie könnte es richtig gehen?

Danke,

AO

Re: urllib2, cookies von subdomains

Verfasst: Dienstag 11. Oktober 2011, 07:36
von ao11
hmm,

das müsste wohl eigentlich der Server senden, wenn ich den Teil in "Foundations of Python Network Programming" richtig verstehe kann der Server eine "domain"="xxx" mitsenden... vermutlich kann ich das Cookie irgendwie manipulieren um das hinzubekommen.

Das ungute Gefühl bleibt aber...

AO

Re: urllib2, cookies von subdomains

Verfasst: Dienstag 11. Oktober 2011, 09:45
von mkesper
Hast du es schonmal mit mechanize probiert?

Re: urllib2, cookies von subdomains

Verfasst: Dienstag 11. Oktober 2011, 09:55
von ao11
Hi!

"mechanize" werde ich asap mal probieren, alles andere klappte bisher nicht. Der Server betreiber scheint sich des Problems aber wohl bewußt zu sein, es gibt eine weitere Login Maske auf einer der Subdomain Seiten. Allerdings wird dabei ein hidden Feld im Fomular verwendet, was ich dann wieder parsen müsste, da scheint "mechanize" einfacher...

Werde weiter berichten.

Danke,

AO

Re: urllib2, cookies von subdomains

Verfasst: Dienstag 22. November 2011, 11:24
von ao11
Hi,

nach kleinen Problem mit der Webseite, da deren HTML "unschön" war, läuft das soweit mit mechanize. Kann mich auf der Haupt und der Sub-Seite einloggen um das Cookie einzusammeln.

Leider hänge ich jetzt an einem weiteren Formular, was mittels Javascript läuft... da gibt's wohl kein Weg dran vorbei.

Allerdings wird mit dem Formular einen GET Anfrage gestartet, die muss ich wohl jetzt per Hand zusammenbasteln.

Es sei denn es gibt noch was in Python mit dem man auch Javascript ausführen kann... Ideen?

Danke,

AO

Re: urllib2, cookies von subdomains

Verfasst: Dienstag 22. November 2011, 11:35
von deets
Man kann komplette Browser versuchen zu automatisieren, aber das wird auesserst muehselig und ist alles andere als trivial.