HTML auslesen.

sergo · Donnerstag 4. Dezember 2008, 11:34

Hallo alle zusammen,

ich öffne über urllib.urlopen("url") eine url und lesen mit read einschließen aus.
Das Problem ist , das es für meinen Ansprüche zu lange dauert, so das ich für ca. 45 Seiten 45 Sekunden brauche.

Gibt es eine schnellere Möglichkeit oder kann man es noch optimieren?

Gruß,
Thomas

gerold · Donnerstag 4. Dezember 2008, 13:10

sergo hat geschrieben:Das Problem ist , das es für meinen Ansprüche zu lange dauert, so das ich für ca. 45 Seiten 45 Sekunden brauche.

Hallo Thomas!

Das ist ein typischer Fall für "Threading". Lasse einfach mehrere Verbindungen gleichzeitig auf die Responses warten.

Ich bin mir nicht sicher, aber ich glaube, dass hier im Forum schon mindestens einmal so ein Fall geschildert wurde. Suche einfach mal nach "threading and urllib2". Vielleicht findest du was.

EDIT: Ach ja, da ist was: http://www.python-forum.de/topic-12724. ... ng+urllib2

mfg
Gerold

sergo · Donnerstag 4. Dezember 2008, 14:58

Danke für die Info!

Gruß,
Thomas