ich bin brandneu in der Pythonwelt.
Zum crawlen einer Webseite benutzt ich das Modul BeautifulSoup.
Da die Webseite relativ unsauber ist, kann ich nicht direkt auf den gewünschen Inhalt verweisen, sondern muss mir erstmal ein etwas größeres "Stück" holen, und muss dann auf diesem nochmal eine Abfrage machen:
Code: Alles auswählen
url = "index.htm"
html = open(url).read()
a_tag = SoupStrainer('a')
span_tag = SoupStrainer('span')
html_atag = BeautifulSoup(html, parseOnlyThese=a_tag)
title_py = html_atag.findAll(attrs={'href' : re.compile("link_to_destination")})
for line in title_py:
print line
Könnte mir da jemand helfen? Oder hab ich einen völlig falschen Ansatz?
Auf der Seiten werden sehr oft sehr generische class-Namen verwendet, sodass ich erstmal auf diesem Umweg an die Daten komme..
Vielen Dank
//Edit:
ich erweitere mal meine Frage:
Wenn ich jetzt mehrere Infos holen will, kann ich das dann auch irgendwie so bauen, dass ich in einer for-Schleife alles gleichzeitig crawle? mein Ansatz wäre ja irgendwie, dass ich für jede Info die o.g. Prozedur wiederhole, das macht ja aber nur bedingt Sinn...