Links aus HTML

Pythonprog · Sonntag 1. Februar 2009, 18:07

Hallo.
Ich suche nach einer Möglichkeit alle Referenzen aus einer HTML Datei herauszufilter.

Die Website lese ich mit f = urllib.urlopen("http://someadress.com").read()

Dann benutze ich htmllib und den HTMLParser:
h = htmllib.HTMLParser(formatter.AbstractFormatter(formatter.DumbWriter()))
h.feed(urllib.urlopen("http://www.google.de").read())

Nur leider komme ich noch nicht weiter, schließlich möchte ich eine Liste mit allen auf der Site vorkommenden Hyperlinks haben.

Vielen Dank für die Hilfe.

Leonidas · Sonntag 1. Februar 2009, 18:19

Normalerweise würde man da BeautifulSoup oder lxml/html5lib verwenden. Der HTMLParser ist für das HTML was so im Web herumfliegt kaum brauchbar.

Y0Gi · Freitag 13. Februar 2009, 20:54

In der lxml-API bin ich mal über .iterlinks() gestolpert. Irgendwo habe ich ein altes Broken-Link-Testscript, da würde ich das in Zukunft einsetzen, wenn es sich so verhält, wie ich das gerade annehme

gerold · Freitag 13. Februar 2009, 22:04

Pythonprog hat geschrieben:Ich suche nach einer Möglichkeit alle Referenzen aus einer HTML Datei herauszufilter.

Hallo Pythonprog!

Vielleicht kannst du damit etwas anfangen:
http://www.python-forum.de/topic-4664.html

mfg
Gerold