Webseiten grabben...

Sockets, TCP/IP, (XML-)RPC und ähnliche Themen gehören in dieses Forum
Antworten
Benutzeravatar
jens
Python-Forum Veteran
Beiträge: 8502
Registriert: Dienstag 10. August 2004, 09:40
Wohnort: duisburg
Kontaktdaten:

Angeregt von http://www.python-forum.de/viewtopic.php?p=30282#30282 frage ich mich, wie aufwendig die realisierung ist...

Wie kann man auf einer Linux Maschine eine Webseite lokal abspeichern??? Geht das recht einfach mir wget???

Könnte mir nämlich vorstellen ein PyLucid Plugin zu schreiben, was das als Plugin realisiert... d.h. wget oder ein anderes Programm würde per subprocess gestartet und grabbt die gesammte Seite...

GitHub | Open HUB | Xing | Linked in
Bitcoins to: 1JEgSQepxGjdprNedC9tXQWLpS424AL8cd
mitsuhiko
User
Beiträge: 1790
Registriert: Donnerstag 28. Oktober 2004, 16:33
Wohnort: Graz, Steiermark - Österreich
Kontaktdaten:

wget --mirror url
TUFKAB – the user formerly known as blackbird
Benutzeravatar
jens
Python-Forum Veteran
Beiträge: 8502
Registriert: Dienstag 10. August 2004, 09:40
Wohnort: duisburg
Kontaktdaten:

Wie jetzt... So einfach ist das???
Dann muß ich mal checken, ob wget beim normalen WebSpace dabei ist/ausführbar ist... Ansonsten kann man das auch sicherlich auch als Linux Binärdatei auf den Server packen, oder???

Wobei... Gibt es evtl. ein fertiges Python Skript, was die Arbeit erledigen kann???

EDIT: Bevor ich damit anfange... Für wie Sinnvoll haltet ihr das ganze???

(Mal verschoben nach Netzwerk)

GitHub | Open HUB | Xing | Linked in
Bitcoins to: 1JEgSQepxGjdprNedC9tXQWLpS424AL8cd
Benutzeravatar
gerold
Python-Forum Veteran
Beiträge: 5555
Registriert: Samstag 28. Februar 2004, 22:04
Wohnort: Oberhofen im Inntal (Tirol)
Kontaktdaten:

jens hat geschrieben:EDIT: Bevor ich damit anfange... Für wie Sinnvoll haltet ihr das ganze???
Hi Jens!

Der Geschwindigkeitsvorteil ist enorm. Es muss ja nicht mehr, für jede Seite einzeln, der Python-Interpreter geladen werden. Nichts ist schneller als eine statische HTML-Seite.

Man müsste nur eine einfache Lösung finden, wie man trotzdem noch eine Suche in der Website halten kann. Vielleicht schafft man es recht einfach, dass, wenn jemand auf "Suche" klickt, zur dynamischen Website umgeleitet wird.

Vielleicht könnte man nachdem "wget" oder "HTTrack" die Site umgewandelt hat, noch einmal mit einem Python-Skript durch die HTML-Seiten fegen und die relativen URLs im Suchformular wieder durch eine absolute URL zur dynamischen Site ersetzen. :-)

Ich arbeite derzeit auch daran. Ich möchte eine einfache Zope-Website, mit wenigen Handgriffen, aber doch automatisch, in eine statische Website umwandeln. Bin gerade beim Konzeptentwurf. Was die Suche und andere dynamische Bereiche betrifft, werde ich es mal wie oben beschrieben versuchen.

lg
Gerold
:-)
http://halvar.at | Kleiner Bascom AVR Kurs
Wissen hat eine wunderbare Eigenschaft: Es verdoppelt sich, wenn man es teilt.
Benutzeravatar
jens
Python-Forum Veteran
Beiträge: 8502
Registriert: Dienstag 10. August 2004, 09:40
Wohnort: duisburg
Kontaktdaten:

gerold hat geschrieben:Man müsste nur eine einfache Lösung finden, wie man trotzdem noch eine Suche in der Website halten kann.
Stimmt, das hatte ich noch nicht überlegt... Interessanter Punkt...

GitHub | Open HUB | Xing | Linked in
Bitcoins to: 1JEgSQepxGjdprNedC9tXQWLpS424AL8cd
tabellar
User
Beiträge: 186
Registriert: Mittwoch 4. September 2002, 15:28

gerold hat geschrieben:Man müsste nur eine einfache Lösung finden, wie man trotzdem noch eine Suche in der Website halten kann.
Eine "einfache" Variante wäre vielleicht, das ganze mit JavaScript (DOM)
und einer flachen XML Suchindex Datei (wird auch gegrabbed) zu machen.
Die XML Datei kann ja auch beliebig generiert werden ... :roll:

Tabellar
Antworten