Hi leute,
ich beschäftige mich erst seit kurzem mit Python und soll nun ein Programm mit urllib2 schreiben. Dieses Programm soll folgende Dinge enthalten:
- eine Website laden, die auf der Kommandozeile per URL angegeben wird
- diese Seite nach Links durchsucht
- jeden einzelnen link versucht zu laden
- jeden dabei auftretenden Fehler protokolliert.
Da ich absolut kein plan hab wie und wo ich anfangen soll, wäre es nett wenn mir jemand Hilfe dazu geben könnte.
Gruß da-dRu
            
			
									
						
										
						Programm mit Urllib 2 schreiben
Uuh, 'nen Hardcore-XML-Parser für's Web? In your dreams 
Tolerante Parser wie BeautifulSoup oder das IIRC performantere Modul aus dem lxml-Paket (Name entfallen, aber irgendwas mit "HTML" ...) bieten sich da vielmehr an.
P.S.: htmllib ist deprecated.
            
			
									
						
										
						Tolerante Parser wie BeautifulSoup oder das IIRC performantere Modul aus dem lxml-Paket (Name entfallen, aber irgendwas mit "HTML" ...) bieten sich da vielmehr an.
P.S.: htmllib ist deprecated.
- 
				Leonidas
 - Python-Forum Veteran
 - Beiträge: 16025
 - Registriert: Freitag 20. Juni 2003, 16:30
 - Kontaktdaten:
 
lxml.html Was auch interessant ist, ist html5lib, was nur einen Parser bereitstellt und quasi beliebige Objektbäume ausgibt.Y0Gi hat geschrieben:Tolerante Parser wie BeautifulSoup oder das IIRC performantere Modul aus dem lxml-Paket (Name entfallen, aber irgendwas mit "HTML" ...) bieten sich da vielmehr an.
My god, it's full of CARs! | Leonidasvoice vs (former) Modvoice
			
						