Links aus HTML

Sockets, TCP/IP, (XML-)RPC und ähnliche Themen gehören in dieses Forum
Antworten
Pythonprog
User
Beiträge: 20
Registriert: Donnerstag 19. Januar 2006, 16:41

Hallo.
Ich suche nach einer Möglichkeit alle Referenzen aus einer HTML Datei herauszufilter.

Die Website lese ich mit f = urllib.urlopen("http://someadress.com").read()

Dann benutze ich htmllib und den HTMLParser:
h = htmllib.HTMLParser(formatter.AbstractFormatter(formatter.DumbWriter()))
h.feed(urllib.urlopen("http://www.google.de").read())

Nur leider komme ich noch nicht weiter, schließlich möchte ich eine Liste mit allen auf der Site vorkommenden Hyperlinks haben.

Vielen Dank für die Hilfe.
Leonidas
Python-Forum Veteran
Beiträge: 16025
Registriert: Freitag 20. Juni 2003, 16:30
Kontaktdaten:

Normalerweise würde man da BeautifulSoup oder lxml/html5lib verwenden. Der HTMLParser ist für das HTML was so im Web herumfliegt kaum brauchbar.
Y0Gi
User
Beiträge: 1454
Registriert: Freitag 22. September 2006, 23:05
Wohnort: ja

In der lxml-API bin ich mal über .iterlinks() gestolpert. Irgendwo habe ich ein altes Broken-Link-Testscript, da würde ich das in Zukunft einsetzen, wenn es sich so verhält, wie ich das gerade annehme ;)
Benutzeravatar
gerold
Python-Forum Veteran
Beiträge: 5555
Registriert: Samstag 28. Februar 2004, 22:04
Wohnort: Oberhofen im Inntal (Tirol)
Kontaktdaten:

Pythonprog hat geschrieben:Ich suche nach einer Möglichkeit alle Referenzen aus einer HTML Datei herauszufilter.
Hallo Pythonprog!

Vielleicht kannst du damit etwas anfangen:
http://www.python-forum.de/topic-4664.html

mfg
Gerold
:-)
http://halvar.at | Kleiner Bascom AVR Kurs
Wissen hat eine wunderbare Eigenschaft: Es verdoppelt sich, wenn man es teilt.
Antworten