Hallo.
Ich suche nach einer Möglichkeit alle Referenzen aus einer HTML Datei herauszufilter.
Die Website lese ich mit f = urllib.urlopen("http://someadress.com").read()
Dann benutze ich htmllib und den HTMLParser:
h = htmllib.HTMLParser(formatter.AbstractFormatter(formatter.DumbWriter()))
h.feed(urllib.urlopen("http://www.google.de").read())
Nur leider komme ich noch nicht weiter, schließlich möchte ich eine Liste mit allen auf der Site vorkommenden Hyperlinks haben.
Vielen Dank für die Hilfe.
Links aus HTML
In der lxml-API bin ich mal über .iterlinks() gestolpert. Irgendwo habe ich ein altes Broken-Link-Testscript, da würde ich das in Zukunft einsetzen, wenn es sich so verhält, wie ich das gerade annehme 

- gerold
- Python-Forum Veteran
- Beiträge: 5555
- Registriert: Samstag 28. Februar 2004, 22:04
- Wohnort: Oberhofen im Inntal (Tirol)
- Kontaktdaten:
Hallo Pythonprog!Pythonprog hat geschrieben:Ich suche nach einer Möglichkeit alle Referenzen aus einer HTML Datei herauszufilter.
Vielleicht kannst du damit etwas anfangen:
http://www.python-forum.de/topic-4664.html
mfg
Gerold

http://halvar.at | Kleiner Bascom AVR Kurs
Wissen hat eine wunderbare Eigenschaft: Es verdoppelt sich, wenn man es teilt.
Wissen hat eine wunderbare Eigenschaft: Es verdoppelt sich, wenn man es teilt.