Autoindex/DirectoryListing von Webserver parsen

fbuchinger · Samstag 27. Oktober 2007, 12:35

Hallo,

ist euch eine Bibliothek bekannt, die DirectoryListings/Autoindizes von Webservern (i.b. Apache) auswerten kann und mir nicht nur die Links zu den Dateien, sondern auch Änderungsdatum und Dateigröße (sofern vorhanden) zurückgibt?

Die Challenge dabei ist ja nicht so sehr das HTML-Parsing, sondern vielmehr die Konvertierung der gewonnenen Werte... Es gibt ja dutzende Datums- und Größenformate.

Danke,

Franz

Y0Gi · Samstag 27. Oktober 2007, 13:51

Ich habe kürzlich meine Apache-Module ausgemistet und dazu auch in der Doku von mod_autoindex geblättert. Kann es nicht sein, dass es einen Schalter gibt, der Darstellung dieser zusätzlichen Details im Listing steuert?

Ansonsten ist das recht schnell selbst gemacht und für Einsteiger eine nette Übung.

jens · Montag 29. Oktober 2007, 08:42

Also ich würde da garnichts in Python machen. Mit der "IndexOptions Directive" und einer passenden .htaccess kann man eine menge einstellen. Man kann sich alles recht hübsch machen.

Siehe auch http://de.selfhtml.org/servercgi/server ... m#optionen

Wenn du doch was in Python machen willst: Du musst dich sehr intensiv mit Pfaden auseinander setzten. Schließlich möchte man ja nicht durch eine Python-Web-App mehr Dateien vom Webserver preisgeben als beabsichtigt.

BlackJack · Montag 29. Oktober 2007, 08:48

Ich kann mich auch irren, aber eventuell gehen die Antworten etwas an der Frage vorbei.

Es sollen, soweit ich das Verstanden habe, diese Listings nicht *erstellt* sondern *geparst* werden. Und nur so eine Vermutung: sie kommen von einem oder sogar mehreren Rechnern die nicht unter der Kontrolle des Fragestellers stehen. Das heisst er kann dort auch nichts am Webserver einstellen sondern muss nehmen was da kommt.

jens · Montag 29. Oktober 2007, 08:51

Ah. falsch verstanden. Sorry.

Leonidas · Montag 29. Oktober 2007, 09:17

Was ja kein Problem ist, da man so Index-Seiten recht einfach mit Regulären Ausdrücken parsen kann. Habe mir jetzt mal die Standard-Directory Listings von Apache, Lighttpd angeschaut, sowie modifizierte Apache-Varianten wie etwa bei James.

Natürlich, wenn der Betreiber die Datumsfelder komplett durchwürfelt wird es kompliziert, dann muss man versuchen das Tag-Feld vom Monat-Feld zu unterscheiden in dem man schaut, welches nie größer als 12 ist.