Seite 1 von 1

Anfängerfrage

Verfasst: Samstag 29. September 2012, 12:30
von MDowideit
Hallo zusammen,

ich bin kein Programmierer, aber versuche mich gerade in das Daten-Scraping mit Hilfe von Python und Scraperwiki einzufinden. Ich möchte eine Liste mit Websites durchsuchen nach dem Muster:

www.beispiel.com/anfang/
www.beispiel.com/anfang_ende/

wobei ich nicht weiß, welche Ausdrücke zwischen den Slashes existieren. Es sollen also alle existierenden Seiten www.beispiel.com/*/ gescrapt werden.

Das muss irgendwie mit Beautiful Soup und/oder urllib2 funktionieren, aber ich habe ein Brett vor dem Kopf. Kann mir jemand helfen?

Herzlichen Dank!

Re: Anfängerfrage

Verfasst: Samstag 29. September 2012, 12:38
von EyDu
Hallo und willkommen im Forum!

Wenn du nicht weist, welche Seiten existieren und du keine Möglichkeit zum Abfragen hast, dann ist dein Vorhaben nicht möglich. Bzw. du kannst du alle möglichen Kombinationen durchprobieren, was aber letztendlich auf das selbe hinausführt, da es beliebig viele Seiten geben kann.

Re: Anfängerfrage

Verfasst: Samstag 29. September 2012, 16:03
von derdon
Fange bei http://www.beispiel.com an, erstelle einen Generator, der alle lokalen Links enthält (d.h. alle Links, die auf die domain beispiel.com verweisen, also keine externen Links sind). Über den iterierst du dann. In jedem Durchlauf (Iteration) guckst du wieder, ob es nicht-externe Links gibt und "besuchst" diese. Außerdem machst du dann halt, was du damit machen willst (einfach nur die URL ausgeben, Inhalt durchsuchen, was du eben vorhast). Hoffe, das war verständlich, sonst nachfragen.

Edit: Damit hast du natürlich nicht unbedingt alle Seiten der Domain, sondern nur die verlinkten.

Re: Anfängerfrage

Verfasst: Samstag 29. September 2012, 23:23
von Leonidas
Oder du nimmst einfach eine bestehende Software die sowas bereits ausreichend gut oder sogar besser (weil Raten-limitiert) bereits tut, wie HTTrack.

Re: Anfängerfrage

Verfasst: Sonntag 30. September 2012, 07:39
von MDowideit
Danke für die Tipps, ich bastele mal weiter. Und httrack.com schaue ich mir an.