Webseiten grabben...

jens · Donnerstag 26. Januar 2006, 13:55

Angeregt von http://www.python-forum.de/viewtopic.php?p=30282#30282 frage ich mich, wie aufwendig die realisierung ist...

Wie kann man auf einer Linux Maschine eine Webseite lokal abspeichern??? Geht das recht einfach mir wget???

Könnte mir nämlich vorstellen ein PyLucid Plugin zu schreiben, was das als Plugin realisiert... d.h. wget oder ein anderes Programm würde per subprocess gestartet und grabbt die gesammte Seite...

mitsuhiko · Donnerstag 26. Januar 2006, 14:06

wget --mirror url

jens · Donnerstag 26. Januar 2006, 14:08

Wie jetzt... So einfach ist das???
Dann muß ich mal checken, ob wget beim normalen WebSpace dabei ist/ausführbar ist... Ansonsten kann man das auch sicherlich auch als Linux Binärdatei auf den Server packen, oder???

Wobei... Gibt es evtl. ein fertiges Python Skript, was die Arbeit erledigen kann???

EDIT: Bevor ich damit anfange... Für wie Sinnvoll haltet ihr das ganze???

(Mal verschoben nach Netzwerk)

gerold · Donnerstag 26. Januar 2006, 15:02

jens hat geschrieben:EDIT: Bevor ich damit anfange... Für wie Sinnvoll haltet ihr das ganze???

Hi Jens!

Der Geschwindigkeitsvorteil ist enorm. Es muss ja nicht mehr, für jede Seite einzeln, der Python-Interpreter geladen werden. Nichts ist schneller als eine statische HTML-Seite.

Man müsste nur eine einfache Lösung finden, wie man trotzdem noch eine Suche in der Website halten kann. Vielleicht schafft man es recht einfach, dass, wenn jemand auf "Suche" klickt, zur dynamischen Website umgeleitet wird.

Vielleicht könnte man nachdem "wget" oder "HTTrack" die Site umgewandelt hat, noch einmal mit einem Python-Skript durch die HTML-Seiten fegen und die relativen URLs im Suchformular wieder durch eine absolute URL zur dynamischen Site ersetzen.

Ich arbeite derzeit auch daran. Ich möchte eine einfache Zope-Website, mit wenigen Handgriffen, aber doch automatisch, in eine statische Website umwandeln. Bin gerade beim Konzeptentwurf. Was die Suche und andere dynamische Bereiche betrifft, werde ich es mal wie oben beschrieben versuchen.

lg
Gerold

jens · Donnerstag 26. Januar 2006, 15:09

gerold hat geschrieben:Man müsste nur eine einfache Lösung finden, wie man trotzdem noch eine Suche in der Website halten kann.

Stimmt, das hatte ich noch nicht überlegt... Interessanter Punkt...

tabellar · Donnerstag 26. Januar 2006, 18:21

gerold hat geschrieben:Man müsste nur eine einfache Lösung finden, wie man trotzdem noch eine Suche in der Website halten kann.

Eine "einfache" Variante wäre vielleicht, das ganze mit JavaScript (DOM)
und einer flachen XML Suchindex Datei (wird auch gegrabbed) zu machen.
Die XML Datei kann ja auch beliebig generiert werden ...

Tabellar