Wie am schnellsten 10 GB Text durchsuchen? (Volltextsuche)
Verfasst: Dienstag 24. Juni 2008, 19:17
Hallo,
Weiß jemand wie ich am schnellsten 10 bis 15 GB Text durchsuchen kann. Ich möchte die Texte der Wikipedia auf die Anzahl von Vorkommnissen bestimmter Sätze bzw. Wortgruppen untersuchen. Das Ganze muss aber extrem schnell sein, da ich größere Textmengen damit analysieren möchte.
Das Beste, was ich bisher gefunden habe ist xapian (http://xapian.org/)
Kennt jemand noch andere Lösungen die gut geeignet wären bzw. hat jemand irgendwelche Tipps?
PS: die Daten werden von wikimedia in Form großer XML-Dateien bereitgestellt. Eine Konvertierung in andere Formate sollte also kein Problem sein.
Weiß jemand wie ich am schnellsten 10 bis 15 GB Text durchsuchen kann. Ich möchte die Texte der Wikipedia auf die Anzahl von Vorkommnissen bestimmter Sätze bzw. Wortgruppen untersuchen. Das Ganze muss aber extrem schnell sein, da ich größere Textmengen damit analysieren möchte.
Das Beste, was ich bisher gefunden habe ist xapian (http://xapian.org/)
Kennt jemand noch andere Lösungen die gut geeignet wären bzw. hat jemand irgendwelche Tipps?
PS: die Daten werden von wikimedia in Form großer XML-Dateien bereitgestellt. Eine Konvertierung in andere Formate sollte also kein Problem sein.