Autoindex/DirectoryListing von Webserver parsen

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Antworten
fbuchinger
User
Beiträge: 29
Registriert: Donnerstag 7. September 2006, 21:30

Samstag 27. Oktober 2007, 12:35

Hallo,

ist euch eine Bibliothek bekannt, die DirectoryListings/Autoindizes von Webservern (i.b. Apache) auswerten kann und mir nicht nur die Links zu den Dateien, sondern auch Änderungsdatum und Dateigröße (sofern vorhanden) zurückgibt?

Die Challenge dabei ist ja nicht so sehr das HTML-Parsing, sondern vielmehr die Konvertierung der gewonnenen Werte... Es gibt ja dutzende Datums- und Größenformate.

Danke,

Franz
Y0Gi
User
Beiträge: 1454
Registriert: Freitag 22. September 2006, 23:05
Wohnort: ja

Samstag 27. Oktober 2007, 13:51

Ich habe kürzlich meine Apache-Module ausgemistet und dazu auch in der Doku von mod_autoindex geblättert. Kann es nicht sein, dass es einen Schalter gibt, der Darstellung dieser zusätzlichen Details im Listing steuert?

Ansonsten ist das recht schnell selbst gemacht und für Einsteiger eine nette Übung.
Benutzeravatar
jens
Moderator
Beiträge: 8483
Registriert: Dienstag 10. August 2004, 09:40
Wohnort: duisburg
Kontaktdaten:

Montag 29. Oktober 2007, 08:42

Also ich würde da garnichts in Python machen. Mit der "IndexOptions Directive" und einer passenden .htaccess kann man eine menge einstellen. Man kann sich alles recht hübsch machen.

Siehe auch http://de.selfhtml.org/servercgi/server ... m#optionen

Wenn du doch was in Python machen willst: Du musst dich sehr intensiv mit Pfaden auseinander setzten. Schließlich möchte man ja nicht durch eine Python-Web-App mehr Dateien vom Webserver preisgeben als beabsichtigt.

CMS in Python: http://www.pylucid.org
GitHub | Open HUB | Xing | Linked in
Bitcoins to: 1JEgSQepxGjdprNedC9tXQWLpS424AL8cd
BlackJack

Montag 29. Oktober 2007, 08:48

Ich kann mich auch irren, aber eventuell gehen die Antworten etwas an der Frage vorbei.

Es sollen, soweit ich das Verstanden habe, diese Listings nicht *erstellt* sondern *geparst* werden. Und nur so eine Vermutung: sie kommen von einem oder sogar mehreren Rechnern die nicht unter der Kontrolle des Fragestellers stehen. Das heisst er kann dort auch nichts am Webserver einstellen sondern muss nehmen was da kommt.
Benutzeravatar
jens
Moderator
Beiträge: 8483
Registriert: Dienstag 10. August 2004, 09:40
Wohnort: duisburg
Kontaktdaten:

Montag 29. Oktober 2007, 08:51

Ah. falsch verstanden. Sorry. :oops:

CMS in Python: http://www.pylucid.org
GitHub | Open HUB | Xing | Linked in
Bitcoins to: 1JEgSQepxGjdprNedC9tXQWLpS424AL8cd
Leonidas
Administrator
Beiträge: 16024
Registriert: Freitag 20. Juni 2003, 16:30
Kontaktdaten:

Montag 29. Oktober 2007, 09:17

Was ja kein Problem ist, da man so Index-Seiten recht einfach mit Regulären Ausdrücken parsen kann. Habe mir jetzt mal die Standard-Directory Listings von Apache, Lighttpd angeschaut, sowie modifizierte Apache-Varianten wie etwa bei James.

Natürlich, wenn der Betreiber die Datumsfelder komplett durchwürfelt wird es kompliziert, dann muss man versuchen das Tag-Feld vom Monat-Feld zu unterscheiden in dem man schaut, welches nie größer als 12 ist.
My god, it's full of CARs! | Leonidasvoice vs Modvoice
Antworten