Spezieller Webscraper

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Antworten
Benutzeravatar
crackpod_
User
Beiträge: 40
Registriert: Mittwoch 3. Dezember 2008, 21:46

Sonntag 18. Januar 2009, 15:48

Hallo,
Ich bin kurz davor mich wieder an ein kleineres Projekt zu machen, will aber vorher sicher gehen das ich das Rad nicht neu erfinden, obwohl ich das bei so etwas speziellem, was ich vorhabe, nicht glaube.

Ich möchte dem Script auf irgendeine Art und Weise eine Liste mit verschiedenen Webseiten übergeben. Dieses Script ruft diese Seiten dann auf und schaut nach ob sie intern mit irgendeinem Callback o.ä zu einer bestimmten Funktion verknüpft ist und ruft ggf. diese Funktion auf. Die aufgerufene Funktion hat dann vollen Zugriff auf den Source der momentan geöffneten Webseite (z.B Als BeautifulSoup Objekt) und kann verschiedene Aktionen dort ausführen (urllib, urllib2, mechanize) um an bestimmte Daten zu kommen. Diese Daten werden nachher zusammengeschrieben und in irgendeiner Form als Output zusammengetragen (HTML? [Jinja2]).

Das heißt im Endeffekt ist es einfach ein Scraper der gezielt Daten auf einer Webseite sucht und diese nachher in einer Art Protokoll oder zusammenfasst.

Mögliches Szenario:
Angenommen auf einem Blog würden regelmäßig Fotos des Authors erscheinen und du kennst 3 solcher Blogs. Diese trägst du in die Webseiten Liste ein, schreibst eine passende Filter-Funktion für die gewünschten Daten welche nachher in einem übersichtlichen HTML Output (Jinja2?) in dein Protokoll geschrieben, was du dir nachher schön geordnet, eventuell auch neben anderen Ergebnissen, ansehen kannst.
Benutzeravatar
Hyperion
Moderator
Beiträge: 7472
Registriert: Freitag 4. August 2006, 14:56
Wohnort: Hamburg
Kontaktdaten:

Sonntag 18. Januar 2009, 16:15

Nur um es deutlich zu verstehen: Du willst jetzt wissen, ob es solch ein Tool schon gibt?
Benutzeravatar
crackpod_
User
Beiträge: 40
Registriert: Mittwoch 3. Dezember 2008, 21:46

Sonntag 18. Januar 2009, 18:40

Hyperion hat geschrieben:Nur um es deutlich zu verstehen: Du willst jetzt wissen, ob es solch ein Tool schon gibt?
Bulls eye! (Ja!)
Antworten