Wie am schnellsten 10 GB Text durchsuchen? (Volltextsuche)

epsilon · Dienstag 24. Juni 2008, 19:17

Hallo,

Weiß jemand wie ich am schnellsten 10 bis 15 GB Text durchsuchen kann. Ich möchte die Texte der Wikipedia auf die Anzahl von Vorkommnissen bestimmter Sätze bzw. Wortgruppen untersuchen. Das Ganze muss aber extrem schnell sein, da ich größere Textmengen damit analysieren möchte.

Das Beste, was ich bisher gefunden habe ist xapian (http://xapian.org/)

Kennt jemand noch andere Lösungen die gut geeignet wären bzw. hat jemand irgendwelche Tipps?

PS: die Daten werden von wikimedia in Form großer XML-Dateien bereitgestellt. Eine Konvertierung in andere Formate sollte also kein Problem sein.

Leonidas · Dienstag 24. Juni 2008, 19:39

Schau dir den Indexer-Thread an.

epsilon · Dienstag 24. Juni 2008, 20:05

Danke. Also schau ich mir jetzt xapian etwas genauer an.

nummer9 · Dienstag 24. Juni 2008, 21:26

Dumps von Wikipedia und Wikibooks und so sind auch als SQL verfügbar. Bei dehnen ist das dann halt weniger ein Problem mit dem durchsuchen.

XML geht auch, aber finde ich ein bisschen unständlich.

Wenn es darum geht, häufig auf große Datenbanken zuzugreifen, sollte ein lokaler (My)SQL-Datenbankserver besser sein als eine XML-Datei oder irre ich mich da?

epsilon · Dienstag 24. Juni 2008, 21:48

nummer9 hat geschrieben:Dumps von Wikipedia und Wikibooks und so sind auch als SQL verfügbar.

Die sind seit 2005 nur noch als XML file verfügbar¹. Es gibt allerdings ein tool von wikimedia, um den XML-dump in SQL zu konvertieren.

nummer9 hat geschrieben: Bei dehnen ist das dann halt weniger ein Problem mit dem durchsuchen.

XML geht auch, aber finde ich ein bisschen unständlich.

Wenn es darum geht, häufig auf große Datenbanken zuzugreifen, sollte ein lokaler (My)SQL-Datenbankserver besser sein als eine XML-Datei oder irre ich mich da?

Ich hab zwar sogut wie keine Ahnung von Datenbanken, aber ist es nicht so, dass eine DB einfach nur overhead bedeuten würde? Bis auf die Volltextsuche brauche ich ja nichts von dem, was mir so eine Datenbank bietet. Und in meinem Fall kommt es stark auf performance an.

¹ http://meta.wikimedia.org/wiki/Data_dum ... L_dumps.3F