Seite 1 von 1

Links aus HTML

Verfasst: Sonntag 1. Februar 2009, 18:07
von Pythonprog
Hallo.
Ich suche nach einer Möglichkeit alle Referenzen aus einer HTML Datei herauszufilter.

Die Website lese ich mit f = urllib.urlopen("http://someadress.com").read()

Dann benutze ich htmllib und den HTMLParser:
h = htmllib.HTMLParser(formatter.AbstractFormatter(formatter.DumbWriter()))
h.feed(urllib.urlopen("http://www.google.de").read())

Nur leider komme ich noch nicht weiter, schließlich möchte ich eine Liste mit allen auf der Site vorkommenden Hyperlinks haben.

Vielen Dank für die Hilfe.

Verfasst: Sonntag 1. Februar 2009, 18:19
von Leonidas
Normalerweise würde man da BeautifulSoup oder lxml/html5lib verwenden. Der HTMLParser ist für das HTML was so im Web herumfliegt kaum brauchbar.

Verfasst: Freitag 13. Februar 2009, 20:54
von Y0Gi
In der lxml-API bin ich mal über .iterlinks() gestolpert. Irgendwo habe ich ein altes Broken-Link-Testscript, da würde ich das in Zukunft einsetzen, wenn es sich so verhält, wie ich das gerade annehme ;)

Re: Links aus HTML

Verfasst: Freitag 13. Februar 2009, 22:04
von gerold
Pythonprog hat geschrieben:Ich suche nach einer Möglichkeit alle Referenzen aus einer HTML Datei herauszufilter.
Hallo Pythonprog!

Vielleicht kannst du damit etwas anfangen:
http://www.python-forum.de/topic-4664.html

mfg
Gerold
:-)