Hi leute,
ich beschäftige mich erst seit kurzem mit Python und soll nun ein Programm mit urllib2 schreiben. Dieses Programm soll folgende Dinge enthalten:
- eine Website laden, die auf der Kommandozeile per URL angegeben wird
- diese Seite nach Links durchsucht
- jeden einzelnen link versucht zu laden
- jeden dabei auftretenden Fehler protokolliert.
Da ich absolut kein plan hab wie und wo ich anfangen soll, wäre es nett wenn mir jemand Hilfe dazu geben könnte.
Gruß da-dRu
Programm mit Urllib 2 schreiben
Uuh, 'nen Hardcore-XML-Parser für's Web? In your dreams 
Tolerante Parser wie BeautifulSoup oder das IIRC performantere Modul aus dem lxml-Paket (Name entfallen, aber irgendwas mit "HTML" ...) bieten sich da vielmehr an.
P.S.: htmllib ist deprecated.

Tolerante Parser wie BeautifulSoup oder das IIRC performantere Modul aus dem lxml-Paket (Name entfallen, aber irgendwas mit "HTML" ...) bieten sich da vielmehr an.
P.S.: htmllib ist deprecated.
-
- Python-Forum Veteran
- Beiträge: 16025
- Registriert: Freitag 20. Juni 2003, 16:30
- Kontaktdaten:
lxml.html Was auch interessant ist, ist html5lib, was nur einen Parser bereitstellt und quasi beliebige Objektbäume ausgibt.Y0Gi hat geschrieben:Tolerante Parser wie BeautifulSoup oder das IIRC performantere Modul aus dem lxml-Paket (Name entfallen, aber irgendwas mit "HTML" ...) bieten sich da vielmehr an.
My god, it's full of CARs! | Leonidasvoice vs (former) Modvoice