bin einsteiger in python und will in meinem aktuellen testscript alle urls einer html seite zuverlässig extrahieren.
habe lange mit regexp herumexperimentiert und will es nun noch mit dem parser von sgmllib versuchen. allerdings will das nicht so einfach klappen:
Code: Alles auswählen
class LinkExtractor(SGMLParser):
def __init__(self):
self.links = []
SGMLParser.__init__(self)
def do_a(self, attributes):
for (name, value) in attributes:
if name == "href":
value = cleanlink(value)
if value:
self.links.append(value)
def getlinks(self):
return self.links
def get_links(src):
parser=LinkExtractor()
parser.feed(src)
rueckgabe=parser.getlinks()
return rueckgabe
danke für Eure hilfe