Seite 1 von 1

Programm mit Urllib 2 schreiben

Verfasst: Mittwoch 27. Mai 2009, 15:11
von da-dru
Hi leute,
ich beschäftige mich erst seit kurzem mit Python und soll nun ein Programm mit urllib2 schreiben. Dieses Programm soll folgende Dinge enthalten:
- eine Website laden, die auf der Kommandozeile per URL angegeben wird
- diese Seite nach Links durchsucht
- jeden einzelnen link versucht zu laden
- jeden dabei auftretenden Fehler protokolliert.

Da ich absolut kein plan hab wie und wo ich anfangen soll, wäre es nett wenn mir jemand Hilfe dazu geben könnte.


Gruß da-dRu

Verfasst: Mittwoch 27. Mai 2009, 15:19
von EyDu
Hallo.

Hier und da. Und sonst dort :-)

Ich hätte hier "minidom" mit der Methode "getElementsByTagName" verwendet oder alternativ "ElementTree".

Verfasst: Freitag 29. Mai 2009, 10:56
von Y0Gi
Uuh, 'nen Hardcore-XML-Parser für's Web? In your dreams ;)

Tolerante Parser wie BeautifulSoup oder das IIRC performantere Modul aus dem lxml-Paket (Name entfallen, aber irgendwas mit "HTML" ...) bieten sich da vielmehr an.

P.S.: htmllib ist deprecated.

Verfasst: Freitag 29. Mai 2009, 16:37
von Leonidas
Y0Gi hat geschrieben:Tolerante Parser wie BeautifulSoup oder das IIRC performantere Modul aus dem lxml-Paket (Name entfallen, aber irgendwas mit "HTML" ...) bieten sich da vielmehr an.
lxml.html Was auch interessant ist, ist html5lib, was nur einen Parser bereitstellt und quasi beliebige Objektbäume ausgibt.

Verfasst: Freitag 29. Mai 2009, 18:59
von Y0Gi
Danke, html5lib hatte ich als "das bessere BeautifulSoup" im Hinterkopf. Mit installiertem lxml (das C-Abhängigkeiten hat) wird es noch schneller.