Datenformat für Suchmaschinen-Index...
Verfasst: Samstag 16. April 2005, 18:22
Ich hab mir schon mal eine ganz einfach suche für meine Webseite geschrieben:
http://www.jensdiemer.de/cgi-bin/PyWebS ... bSearch.py
Allerdings ist die ziemlich billig programmiert, weil sie immer für jede Suchanfrage alle Dateien Live auf Dateiebene einliest, um die Ergebnisse zusammen zu stellen...
Nun möchte ich eine neue Variante schreiben, die einen Index benutzt. Ich frage mich nur, wie ich am besten diesen Index Aufbaue.
Bei meinen bisherigen Test's benutze ich anydbm und speichere im Dict jedes Wort, welches in den Index soll, als Key ab und im Value speichere ich die Zusatzinformationen (z.B. die HTML-Datei in dem das Wort vorkommt, Position usw.)
Diese Daten sind auch einfach nur ein Dict, welches ich mit pickle in einen String wandel und mit bz2 komprimiere... Das mache ich, weil wenn ich z.B. shelve benutzen würde, die Index-Datei super groß wird...
Jemand noch eine andere Idee???
http://www.jensdiemer.de/cgi-bin/PyWebS ... bSearch.py
Allerdings ist die ziemlich billig programmiert, weil sie immer für jede Suchanfrage alle Dateien Live auf Dateiebene einliest, um die Ergebnisse zusammen zu stellen...
Nun möchte ich eine neue Variante schreiben, die einen Index benutzt. Ich frage mich nur, wie ich am besten diesen Index Aufbaue.
Bei meinen bisherigen Test's benutze ich anydbm und speichere im Dict jedes Wort, welches in den Index soll, als Key ab und im Value speichere ich die Zusatzinformationen (z.B. die HTML-Datei in dem das Wort vorkommt, Position usw.)
Diese Daten sind auch einfach nur ein Dict, welches ich mit pickle in einen String wandel und mit bz2 komprimiere... Das mache ich, weil wenn ich z.B. shelve benutzen würde, die Index-Datei super groß wird...
Jemand noch eine andere Idee???