Links aus HTML
Verfasst: Sonntag 1. Februar 2009, 18:07
Hallo.
Ich suche nach einer Möglichkeit alle Referenzen aus einer HTML Datei herauszufilter.
Die Website lese ich mit f = urllib.urlopen("http://someadress.com").read()
Dann benutze ich htmllib und den HTMLParser:
h = htmllib.HTMLParser(formatter.AbstractFormatter(formatter.DumbWriter()))
h.feed(urllib.urlopen("http://www.google.de").read())
Nur leider komme ich noch nicht weiter, schließlich möchte ich eine Liste mit allen auf der Site vorkommenden Hyperlinks haben.
Vielen Dank für die Hilfe.
Ich suche nach einer Möglichkeit alle Referenzen aus einer HTML Datei herauszufilter.
Die Website lese ich mit f = urllib.urlopen("http://someadress.com").read()
Dann benutze ich htmllib und den HTMLParser:
h = htmllib.HTMLParser(formatter.AbstractFormatter(formatter.DumbWriter()))
h.feed(urllib.urlopen("http://www.google.de").read())
Nur leider komme ich noch nicht weiter, schließlich möchte ich eine Liste mit allen auf der Site vorkommenden Hyperlinks haben.
Vielen Dank für die Hilfe.