Webseiten grabben...

Sockets, TCP/IP, (XML-)RPC und ähnliche Themen gehören in dieses Forum
Benutzeravatar
jens
Moderator
Beiträge: 8458
Registriert: Dienstag 10. August 2004, 09:40
Wohnort: duisburg
Kontaktdaten:

Webseiten grabben...

Beitragvon jens » Donnerstag 26. Januar 2006, 13:55

Angeregt von http://www.python-forum.de/viewtopic.php?p=30282#30282 frage ich mich, wie aufwendig die realisierung ist...

Wie kann man auf einer Linux Maschine eine Webseite lokal abspeichern??? Geht das recht einfach mir wget???

Könnte mir nämlich vorstellen ein PyLucid Plugin zu schreiben, was das als Plugin realisiert... d.h. wget oder ein anderes Programm würde per subprocess gestartet und grabbt die gesammte Seite...

CMS in Python: http://www.pylucid.org
GitHub | Open HUB | Xing | Linked in
Bitcoins to: 1JEgSQepxGjdprNedC9tXQWLpS424AL8cd
Benutzeravatar
mitsuhiko
User
Beiträge: 1790
Registriert: Donnerstag 28. Oktober 2004, 16:33
Wohnort: Graz, Steiermark - Österreich
Kontaktdaten:

Beitragvon mitsuhiko » Donnerstag 26. Januar 2006, 14:06

wget --mirror url
TUFKAB – the user formerly known as blackbird
Benutzeravatar
jens
Moderator
Beiträge: 8458
Registriert: Dienstag 10. August 2004, 09:40
Wohnort: duisburg
Kontaktdaten:

Beitragvon jens » Donnerstag 26. Januar 2006, 14:08

Wie jetzt... So einfach ist das???
Dann muß ich mal checken, ob wget beim normalen WebSpace dabei ist/ausführbar ist... Ansonsten kann man das auch sicherlich auch als Linux Binärdatei auf den Server packen, oder???

Wobei... Gibt es evtl. ein fertiges Python Skript, was die Arbeit erledigen kann???

EDIT: Bevor ich damit anfange... Für wie Sinnvoll haltet ihr das ganze???

(Mal verschoben nach Netzwerk)

CMS in Python: http://www.pylucid.org
GitHub | Open HUB | Xing | Linked in
Bitcoins to: 1JEgSQepxGjdprNedC9tXQWLpS424AL8cd
Benutzeravatar
gerold
Python-Forum Veteran
Beiträge: 5554
Registriert: Samstag 28. Februar 2004, 22:04
Wohnort: Telfs (Tirol)
Kontaktdaten:

Beitragvon gerold » Donnerstag 26. Januar 2006, 15:02

jens hat geschrieben:EDIT: Bevor ich damit anfange... Für wie Sinnvoll haltet ihr das ganze???

Hi Jens!

Der Geschwindigkeitsvorteil ist enorm. Es muss ja nicht mehr, für jede Seite einzeln, der Python-Interpreter geladen werden. Nichts ist schneller als eine statische HTML-Seite.

Man müsste nur eine einfache Lösung finden, wie man trotzdem noch eine Suche in der Website halten kann. Vielleicht schafft man es recht einfach, dass, wenn jemand auf "Suche" klickt, zur dynamischen Website umgeleitet wird.

Vielleicht könnte man nachdem "wget" oder "HTTrack" die Site umgewandelt hat, noch einmal mit einem Python-Skript durch die HTML-Seiten fegen und die relativen URLs im Suchformular wieder durch eine absolute URL zur dynamischen Site ersetzen. :-)

Ich arbeite derzeit auch daran. Ich möchte eine einfache Zope-Website, mit wenigen Handgriffen, aber doch automatisch, in eine statische Website umwandeln. Bin gerade beim Konzeptentwurf. Was die Suche und andere dynamische Bereiche betrifft, werde ich es mal wie oben beschrieben versuchen.

lg
Gerold
:-)
http://halvar.at | Kleiner Bascom AVR Kurs
Wissen hat eine wunderbare Eigenschaft: Es verdoppelt sich, wenn man es teilt.
Benutzeravatar
jens
Moderator
Beiträge: 8458
Registriert: Dienstag 10. August 2004, 09:40
Wohnort: duisburg
Kontaktdaten:

Beitragvon jens » Donnerstag 26. Januar 2006, 15:09

gerold hat geschrieben:Man müsste nur eine einfache Lösung finden, wie man trotzdem noch eine Suche in der Website halten kann.

Stimmt, das hatte ich noch nicht überlegt... Interessanter Punkt...

CMS in Python: http://www.pylucid.org
GitHub | Open HUB | Xing | Linked in
Bitcoins to: 1JEgSQepxGjdprNedC9tXQWLpS424AL8cd
Benutzeravatar
tabellar
User
Beiträge: 186
Registriert: Mittwoch 4. September 2002, 15:28

Beitragvon tabellar » Donnerstag 26. Januar 2006, 18:21

gerold hat geschrieben:Man müsste nur eine einfache Lösung finden, wie man trotzdem noch eine Suche in der Website halten kann.


Eine "einfache" Variante wäre vielleicht, das ganze mit JavaScript (DOM)
und einer flachen XML Suchindex Datei (wird auch gegrabbed) zu machen.
Die XML Datei kann ja auch beliebig generiert werden ... :roll:

Tabellar

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder