Links aus HTML

Sockets, TCP/IP, (XML-)RPC und ähnliche Themen gehören in dieses Forum
Pythonprog
User
Beiträge: 20
Registriert: Donnerstag 19. Januar 2006, 16:41

Links aus HTML

Beitragvon Pythonprog » Sonntag 1. Februar 2009, 18:07

Hallo.
Ich suche nach einer Möglichkeit alle Referenzen aus einer HTML Datei herauszufilter.

Die Website lese ich mit f = urllib.urlopen("http://someadress.com").read()

Dann benutze ich htmllib und den HTMLParser:
h = htmllib.HTMLParser(formatter.AbstractFormatter(formatter.DumbWriter()))
h.feed(urllib.urlopen("http://www.google.de").read())

Nur leider komme ich noch nicht weiter, schließlich möchte ich eine Liste mit allen auf der Site vorkommenden Hyperlinks haben.

Vielen Dank für die Hilfe.
Benutzeravatar
Leonidas
Administrator
Beiträge: 16023
Registriert: Freitag 20. Juni 2003, 16:30
Kontaktdaten:

Beitragvon Leonidas » Sonntag 1. Februar 2009, 18:19

Normalerweise würde man da BeautifulSoup oder lxml/html5lib verwenden. Der HTMLParser ist für das HTML was so im Web herumfliegt kaum brauchbar.
Y0Gi
User
Beiträge: 1454
Registriert: Freitag 22. September 2006, 23:05
Wohnort: ja

Beitragvon Y0Gi » Freitag 13. Februar 2009, 20:54

In der lxml-API bin ich mal über .iterlinks() gestolpert. Irgendwo habe ich ein altes Broken-Link-Testscript, da würde ich das in Zukunft einsetzen, wenn es sich so verhält, wie ich das gerade annehme ;)
Benutzeravatar
gerold
Python-Forum Veteran
Beiträge: 5554
Registriert: Samstag 28. Februar 2004, 22:04
Wohnort: Telfs (Tirol)
Kontaktdaten:

Re: Links aus HTML

Beitragvon gerold » Freitag 13. Februar 2009, 22:04

Pythonprog hat geschrieben:Ich suche nach einer Möglichkeit alle Referenzen aus einer HTML Datei herauszufilter.

Hallo Pythonprog!

Vielleicht kannst du damit etwas anfangen:
http://www.python-forum.de/topic-4664.html

mfg
Gerold
:-)
http://halvar.at | Kleiner Bascom AVR Kurs
Wissen hat eine wunderbare Eigenschaft: Es verdoppelt sich, wenn man es teilt.

Wer ist online?

Mitglieder in diesem Forum: Google [Bot]