Hallo zusammen,
ich bin kein Programmierer, aber versuche mich gerade in das Daten-Scraping mit Hilfe von Python und Scraperwiki einzufinden. Ich möchte eine Liste mit Websites durchsuchen nach dem Muster:
www.beispiel.com/anfang/
www.beispiel.com/anfang_ende/
wobei ich nicht weiß, welche Ausdrücke zwischen den Slashes existieren. Es sollen also alle existierenden Seiten www.beispiel.com/*/ gescrapt werden.
Das muss irgendwie mit Beautiful Soup und/oder urllib2 funktionieren, aber ich habe ein Brett vor dem Kopf. Kann mir jemand helfen?
Herzlichen Dank!
Anfängerfrage
Hallo und willkommen im Forum!
Wenn du nicht weist, welche Seiten existieren und du keine Möglichkeit zum Abfragen hast, dann ist dein Vorhaben nicht möglich. Bzw. du kannst du alle möglichen Kombinationen durchprobieren, was aber letztendlich auf das selbe hinausführt, da es beliebig viele Seiten geben kann.
Wenn du nicht weist, welche Seiten existieren und du keine Möglichkeit zum Abfragen hast, dann ist dein Vorhaben nicht möglich. Bzw. du kannst du alle möglichen Kombinationen durchprobieren, was aber letztendlich auf das selbe hinausführt, da es beliebig viele Seiten geben kann.
Das Leben ist wie ein Tennisball.
Fange bei http://www.beispiel.com an, erstelle einen Generator, der alle lokalen Links enthält (d.h. alle Links, die auf die domain beispiel.com verweisen, also keine externen Links sind). Über den iterierst du dann. In jedem Durchlauf (Iteration) guckst du wieder, ob es nicht-externe Links gibt und "besuchst" diese. Außerdem machst du dann halt, was du damit machen willst (einfach nur die URL ausgeben, Inhalt durchsuchen, was du eben vorhast). Hoffe, das war verständlich, sonst nachfragen.
Edit: Damit hast du natürlich nicht unbedingt alle Seiten der Domain, sondern nur die verlinkten.
Edit: Damit hast du natürlich nicht unbedingt alle Seiten der Domain, sondern nur die verlinkten.
-
- Python-Forum Veteran
- Beiträge: 16025
- Registriert: Freitag 20. Juni 2003, 16:30
- Kontaktdaten:
Oder du nimmst einfach eine bestehende Software die sowas bereits ausreichend gut oder sogar besser (weil Raten-limitiert) bereits tut, wie HTTrack.
My god, it's full of CARs! | Leonidasvoice vs (former) Modvoice