Seite 1 von 1

Spezieller Webscraper

Verfasst: Sonntag 18. Januar 2009, 15:48
von crackpod_
Hallo,
Ich bin kurz davor mich wieder an ein kleineres Projekt zu machen, will aber vorher sicher gehen das ich das Rad nicht neu erfinden, obwohl ich das bei so etwas speziellem, was ich vorhabe, nicht glaube.

Ich möchte dem Script auf irgendeine Art und Weise eine Liste mit verschiedenen Webseiten übergeben. Dieses Script ruft diese Seiten dann auf und schaut nach ob sie intern mit irgendeinem Callback o.ä zu einer bestimmten Funktion verknüpft ist und ruft ggf. diese Funktion auf. Die aufgerufene Funktion hat dann vollen Zugriff auf den Source der momentan geöffneten Webseite (z.B Als BeautifulSoup Objekt) und kann verschiedene Aktionen dort ausführen (urllib, urllib2, mechanize) um an bestimmte Daten zu kommen. Diese Daten werden nachher zusammengeschrieben und in irgendeiner Form als Output zusammengetragen (HTML? [Jinja2]).

Das heißt im Endeffekt ist es einfach ein Scraper der gezielt Daten auf einer Webseite sucht und diese nachher in einer Art Protokoll oder zusammenfasst.

Mögliches Szenario:
Angenommen auf einem Blog würden regelmäßig Fotos des Authors erscheinen und du kennst 3 solcher Blogs. Diese trägst du in die Webseiten Liste ein, schreibst eine passende Filter-Funktion für die gewünschten Daten welche nachher in einem übersichtlichen HTML Output (Jinja2?) in dein Protokoll geschrieben, was du dir nachher schön geordnet, eventuell auch neben anderen Ergebnissen, ansehen kannst.

Verfasst: Sonntag 18. Januar 2009, 16:15
von Hyperion
Nur um es deutlich zu verstehen: Du willst jetzt wissen, ob es solch ein Tool schon gibt?

Verfasst: Sonntag 18. Januar 2009, 18:40
von crackpod_
Hyperion hat geschrieben:Nur um es deutlich zu verstehen: Du willst jetzt wissen, ob es solch ein Tool schon gibt?
Bulls eye! (Ja!)