img-Tags aus HTML-Datei parsen
Verfasst: Samstag 6. März 2004, 13:40
Ich möchte eine HTML-Datei parsen, die verschiedene Links enthält.
Die Links zu parsen ist kein Problem. Doch in den Links sind ab und zu auch Bilder. Wobei der Name des Links dann im Alt-Parameter steht. Ich schaffe es nicht den Parameter auszulesen. Kann jemand helfen?
So funktioniert es mit den Links, aber wie sieht eine Funktion aus die andere Tags parst.
Ich verstehe die Funktionen save_bgn(), save_end() und handle_image() nicht so richtig.
Würde mich freuen wenn sich jemand damit schon mal beschäftigt hat.
Die Links zu parsen ist kein Problem. Doch in den Links sind ab und zu auch Bilder. Wobei der Name des Links dann im Alt-Parameter steht. Ich schaffe es nicht den Parameter auszulesen. Kann jemand helfen?
Code: Alles auswählen
class Parser(htmllib.HTMLParser):
def __init__(self, verbose=0):
self.anchors = {}
f = formatter.NullFormatter()
htmllib.HTMLParser.__init__(self, f, verbose)
def anchor_bgn(self, href, name, type):
self.save_bgn()
self.anchor = href
def anchor_end(self):
text = string.strip(self.save_end())
if self.anchor and text:
self.anchors[text] = self.anchors.get(text, []) + [self.anchor]
Ich verstehe die Funktionen save_bgn(), save_end() und handle_image() nicht so richtig.
Würde mich freuen wenn sich jemand damit schon mal beschäftigt hat.