Die Links zu parsen ist kein Problem. Doch in den Links sind ab und zu auch Bilder. Wobei der Name des Links dann im Alt-Parameter steht. Ich schaffe es nicht den Parameter auszulesen. Kann jemand helfen?
Code: Alles auswählen
class Parser(htmllib.HTMLParser):
def __init__(self, verbose=0):
self.anchors = {}
f = formatter.NullFormatter()
htmllib.HTMLParser.__init__(self, f, verbose)
def anchor_bgn(self, href, name, type):
self.save_bgn()
self.anchor = href
def anchor_end(self):
text = string.strip(self.save_end())
if self.anchor and text:
self.anchors[text] = self.anchors.get(text, []) + [self.anchor]
Ich verstehe die Funktionen save_bgn(), save_end() und handle_image() nicht so richtig.
Würde mich freuen wenn sich jemand damit schon mal beschäftigt hat.