Auffinden unverlinkter Dokumente

Alles, was nicht direkt mit Python-Problemen zu tun hat. Dies ist auch der perfekte Platz für Jobangebote.
Antworten
Benutzeravatar
numerix
User
Beiträge: 2696
Registriert: Montag 11. Juni 2007, 15:09

Befinden sich z.B. Fotos in http://www.meinedomain.de/geheimefotos und befindet sich in diesem Verzeichnis eine Datei index.html sowie z.B. eine Datei foto-geheim-001.jpg, auf die jedoch von nirgendwo her verlinkt wird, ist diese Datei dann von einer Suchmaschine auffindbar oder nicht?
Benutzeravatar
Hyperion
Moderator
Beiträge: 7478
Registriert: Freitag 4. August 2006, 14:56
Wohnort: Hamburg
Kontaktdaten:

numerix hat geschrieben:Befinden sich z.B. Fotos in http://www.meinedomain.de/geheimefotos und befindet sich in diesem Verzeichnis eine Datei index.html sowie z.B. eine Datei foto-geheim-001.jpg, auf die jedoch von nirgendwo her verlinkt wird, ist diese Datei dann von einer Suchmaschine auffindbar oder nicht?
Prinzipiell nicht, sofern das Verzeichnis nicht gelistet wird. Da wäre nur brute-force eine Möglichkeit; aber ich denke nicht, dass Suchmaschinen so etwas durchführen.
encoding_kapiert = all(verstehen(lesen(info)) for info in (Leonidas Folien, Blog, Folien & Text inkl. Python3, utf-8 everywhere))
assert encoding_kapiert
Leonidas
Python-Forum Veteran
Beiträge: 16025
Registriert: Freitag 20. Juni 2003, 16:30
Kontaktdaten:

Trotzdem, für das "verstecken" solcher Sachen vor Suchmaschinen würde ich eher auf htaccess setzen. Sonst verlinkt das irgendwer irgendwo und es ist doch auffindbar.
My god, it's full of CARs! | Leonidasvoice vs (former) Modvoice
Benutzeravatar
numerix
User
Beiträge: 2696
Registriert: Montag 11. Juni 2007, 15:09

Danke für eure Einschätzung. Nach dem, was ich über Webcrawler gelesen hatte, war ich zum gleichen Ergebnis gekommen, aber da ich kein Experte auf diesem Gebiet bin, wollte ich sicher gehen.

Könnte man also folgendes sagen:
Definitiv unverlinkte Dokumente in einem nicht gelisteten Ordner (ich nehme an, darauf bezog sich der Hinweis auf .htaccess?) sind für Suchmaschinen unsichtbar.
Man kann also nur dann auf das Dokument zugreifen, wenn man den kompletten Link kennt.
Jemand Unbefugtes könnte z.B. an den Link gelangen über ein Schadprogramm (oder braucht man nicht mal ein solches dafür?), das z.B. die History im Browser ausliest oder mittels eines Programms, das via brute-force und/oder auf gut Glück nach unbekannten Subverzeichnissen und Dateinamen sucht.
sma
User
Beiträge: 3018
Registriert: Montag 19. November 2007, 19:57
Wohnort: Kiel

(Legale) Suchmaschinen probieren nicht einfach wahllos Links aus. Aber wenn du dich auch vor "Hackern" schützen willst, die nach der Datei suchen, funktioniert einfach ein geheimer Name nur beschränkt. Mit wenigen Zeilen Code kann ich ja deinen Server mit HEAD-Requests auf alle Namenskombinationen, die mir so einfallen, bombardieren.

Und es geht aus subtiler. Schaffe ich es, dir eine Webseite zu geben, auf der sich (z.B. per JavaScript generierte) Links auf mögliche Dateien auf deinem Server befinden und wenn du ab und zu auf deine geheimen Dateien mit deinem Browser zugreifst, dann kann ich erkennen, weil der Browser besuchte Dateien anders darstellt als unbesuchte, wo vielversprechende Links lauern.

Schau dir also .htaccess an, was zumindest per BASIC authentication nach einem Kennwort fragt. Beachte jedoch, dass dieses Kennwort, wenn einmal angegeben, vom Browser so lange benutzt wird, wie er läuft. Und das wäre z.B. bei mir 2+ Wochen. Besser also, nach einem Zugriff auf die Dateien den Browser schließen, bzw. den Inkognito/Private/Etc-Modus des Browsers benutzen.

Noch besser wäre es, einen Server mit formularbasierter Anmeldung zu haben, der dann Einmal-URLs herausgibt, über die man eine begrenze Zeit an die Dateien zum Download kommt. Das ganze muss natürlich per https funktionieren, damit nicht jeder im Netzwerk mithören kann.

Stefan
Xynon1
User
Beiträge: 1267
Registriert: Mittwoch 15. September 2010, 14:22

Mit bruteforce kommt man prinzipiell durch alles (faktor zeit) egal mit welchem "schnickschnack" es geschützt wird, zumindest wenn ein Schlüssel als Zugriff benötigt wird.

Aber eine .htaccess Datei kennt Nutzer und Passwörter, so ist es wesentlich sicherer als einfach nur "verstecken". Allerdings sind diese auch nicht, wie oben erwähnt, vollkommen sicher.
Es gibt allerdings die Möglichkeit eine leere .htaccess zunehmen, dann geht auch kein brute force, da niemand Zugang hat.
numerix hat geschrieben:Man kann also nur dann auf das Dokument zugreifen, wenn man den kompletten Link kennt.
JA, aber man braucht auch noch einen Nutzernamen und Passwort.
Traue keinem Computer, den du nicht aus dem Fenster werfen kannst.
Xynon auf GitHub
Antworten