Das deutsche Python-Forum

Hallo.
Ich suche nach einer Möglichkeit alle Referenzen aus einer HTML Datei herauszufilter.

Die Website lese ich mit f = urllib.urlopen("http://someadress.com").read()

Dann benutze ich htmllib und den HTMLParser:
h = htmllib.HTMLParser(formatter.AbstractFormatter(formatter.DumbWriter()))
h.feed(urllib.urlopen("http://www.google.de").read())

Nur leider komme ich noch nicht weiter, schließlich möchte ich eine Liste mit allen auf der Site vorkommenden Hyperlinks haben.

Vielen Dank für die Hilfe.

Normalerweise würde man da BeautifulSoup oder lxml/html5lib verwenden. Der HTMLParser ist für das HTML was so im Web herumfliegt kaum brauchbar.

In der lxml-API bin ich mal über .iterlinks() gestolpert. Irgendwo habe ich ein altes Broken-Link-Testscript, da würde ich das in Zukunft einsetzen, wenn es sich so verhält, wie ich das gerade annehme

Pythonprog hat geschrieben:Ich suche nach einer Möglichkeit alle Referenzen aus einer HTML Datei herauszufilter.

Hallo Pythonprog!

Vielleicht kannst du damit etwas anfangen:
http://www.python-forum.de/topic-4664.html

mfg
Gerold

Das deutsche Python-Forum

Links aus HTML

Links aus HTML

Re: Links aus HTML