urllib2, cookies von subdomains

Sockets, TCP/IP, (XML-)RPC und ähnliche Themen gehören in dieses Forum
Antworten
ao11
User
Beiträge: 4
Registriert: Montag 10. Oktober 2011, 18:55

Hallo,

versuche mich an einem automatischen Downloader für Daten von einer Webseite, dabei habe ich folgendes Problem:

Ich logge mich auf der Hauptseite ein:

http://www.something.somewhere

Alles tuti, läuft, Cookie wird gespeichert, erneuter aufruf der Seite ohne Anmeldedaten ohne Probleme, das Cookie wird mitgesendet.

An die Daten komme ich aber nur über eine Subdomain:

http://sub.something.somewhere

Jetzt will das CookieJar aber das Cookie nicht rausrücken. Wenn ich domain_return_ok und return_ok überschreibe und einfach True zurückgebe geht's auch nicht wirklich, aber das muss ich mir noch anschauen.

Mein Problem ist, das das kein Default Verhalten ist und die Python Dokumentation eigentlich sagt, das man das überschreiben nur verwenden sollte um es weiter einzugrenzen, nicht um das Cokkie Verhalten weiter zu öffnen.

Wenn ich mich mit Firefox dort anmelde werden die Cookies auch nur unter "something.somewhere" und nicht unter "www.something.somewhere" gespeichert und ich komme an die Seite in der Subdomain ohne Probleme.

Auch die POST Daten sehen eigentlich gut aus, beim wechsel mit Firefox auf http://sub.something.somewhere, das Cookie wird gesendet.

Wie könnte es richtig gehen?

Danke,

AO
ao11
User
Beiträge: 4
Registriert: Montag 10. Oktober 2011, 18:55

hmm,

das müsste wohl eigentlich der Server senden, wenn ich den Teil in "Foundations of Python Network Programming" richtig verstehe kann der Server eine "domain"="xxx" mitsenden... vermutlich kann ich das Cookie irgendwie manipulieren um das hinzubekommen.

Das ungute Gefühl bleibt aber...

AO
Benutzeravatar
mkesper
User
Beiträge: 919
Registriert: Montag 20. November 2006, 15:48
Wohnort: formerly known as mkallas
Kontaktdaten:

Hast du es schonmal mit mechanize probiert?
ao11
User
Beiträge: 4
Registriert: Montag 10. Oktober 2011, 18:55

Hi!

"mechanize" werde ich asap mal probieren, alles andere klappte bisher nicht. Der Server betreiber scheint sich des Problems aber wohl bewußt zu sein, es gibt eine weitere Login Maske auf einer der Subdomain Seiten. Allerdings wird dabei ein hidden Feld im Fomular verwendet, was ich dann wieder parsen müsste, da scheint "mechanize" einfacher...

Werde weiter berichten.

Danke,

AO
ao11
User
Beiträge: 4
Registriert: Montag 10. Oktober 2011, 18:55

Hi,

nach kleinen Problem mit der Webseite, da deren HTML "unschön" war, läuft das soweit mit mechanize. Kann mich auf der Haupt und der Sub-Seite einloggen um das Cookie einzusammeln.

Leider hänge ich jetzt an einem weiteren Formular, was mittels Javascript läuft... da gibt's wohl kein Weg dran vorbei.

Allerdings wird mit dem Formular einen GET Anfrage gestartet, die muss ich wohl jetzt per Hand zusammenbasteln.

Es sei denn es gibt noch was in Python mit dem man auch Javascript ausführen kann... Ideen?

Danke,

AO
deets

Man kann komplette Browser versuchen zu automatisieren, aber das wird auesserst muehselig und ist alles andere als trivial.
Antworten