Anfängerfrage

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Antworten
MDowideit
User
Beiträge: 2
Registriert: Samstag 29. September 2012, 12:26

Hallo zusammen,

ich bin kein Programmierer, aber versuche mich gerade in das Daten-Scraping mit Hilfe von Python und Scraperwiki einzufinden. Ich möchte eine Liste mit Websites durchsuchen nach dem Muster:

www.beispiel.com/anfang/
www.beispiel.com/anfang_ende/

wobei ich nicht weiß, welche Ausdrücke zwischen den Slashes existieren. Es sollen also alle existierenden Seiten www.beispiel.com/*/ gescrapt werden.

Das muss irgendwie mit Beautiful Soup und/oder urllib2 funktionieren, aber ich habe ein Brett vor dem Kopf. Kann mir jemand helfen?

Herzlichen Dank!
EyDu
User
Beiträge: 4881
Registriert: Donnerstag 20. Juli 2006, 23:06
Wohnort: Berlin

Hallo und willkommen im Forum!

Wenn du nicht weist, welche Seiten existieren und du keine Möglichkeit zum Abfragen hast, dann ist dein Vorhaben nicht möglich. Bzw. du kannst du alle möglichen Kombinationen durchprobieren, was aber letztendlich auf das selbe hinausführt, da es beliebig viele Seiten geben kann.
Das Leben ist wie ein Tennisball.
derdon
User
Beiträge: 1316
Registriert: Freitag 24. Oktober 2008, 14:32

Fange bei http://www.beispiel.com an, erstelle einen Generator, der alle lokalen Links enthält (d.h. alle Links, die auf die domain beispiel.com verweisen, also keine externen Links sind). Über den iterierst du dann. In jedem Durchlauf (Iteration) guckst du wieder, ob es nicht-externe Links gibt und "besuchst" diese. Außerdem machst du dann halt, was du damit machen willst (einfach nur die URL ausgeben, Inhalt durchsuchen, was du eben vorhast). Hoffe, das war verständlich, sonst nachfragen.

Edit: Damit hast du natürlich nicht unbedingt alle Seiten der Domain, sondern nur die verlinkten.
Leonidas
Python-Forum Veteran
Beiträge: 16025
Registriert: Freitag 20. Juni 2003, 16:30
Kontaktdaten:

Oder du nimmst einfach eine bestehende Software die sowas bereits ausreichend gut oder sogar besser (weil Raten-limitiert) bereits tut, wie HTTrack.
My god, it's full of CARs! | Leonidasvoice vs (former) Modvoice
MDowideit
User
Beiträge: 2
Registriert: Samstag 29. September 2012, 12:26

Danke für die Tipps, ich bastele mal weiter. Und httrack.com schaue ich mir an.
Antworten