HTMLParser und whitespaces...
Verfasst: Dienstag 2. Dezember 2008, 18:53
Ich hampel gerade mit HTMLParser herrum... Im Grunde klappt alles, ich hab nur ein problem mit whitespaces... Also Leeräume zwischen den Tags und dem eigentlichen Text...
Wie schaffe ich es, das ich in handle_data() nur wirklich den Text teil bekomme, der relevant ist?
Ich hab das versucht, aber es macht so keinen Sinn:
Wie schaffe ich es, das ich in handle_data() nur wirklich den Text teil bekomme, der relevant ist?
Ich hab das versucht, aber es macht so keinen Sinn:
Code: Alles auswählen
...
def feed(self, data):
...
lines = data.split("\n")
lines = [l.strip() for l in lines]
lines = [l for l in lines if l]
clean_data = u" "
for line in lines:
if line and clean_data[-1] == u">" and line[0] == u"<":
clean_data += line
elif line and clean_data.endswith("<br />"):
clean_data += line
else:
print "[%r]" % line
clean_data += " " + line
clean_data = clean_data.strip()
HTMLParser.feed(self, clean_data)
return self.root