Indexer

Alles, was nicht direkt mit Python-Problemen zu tun hat. Dies ist auch der perfekte Platz für Jobangebote.
Benutzeravatar
Leonidas
Administrator
Beiträge: 16023
Registriert: Freitag 20. Juni 2003, 16:30
Kontaktdaten:

Indexer

Beitragvon Leonidas » Mittwoch 19. September 2007, 20:20

Hallo!

Da ich in naher Zukunft vermutlich vor dem Problem stehen werde, Datenbestände zu durchsuchen habe ich etwas im Internet geschaut und Lucene gefunden, was wohl der populärste Indexer bei Ohloh ist. Da es in Java geschrieben ist scheitet es mehr oder weniger aus, jedoch gibt es mit Lucy einen C und mit Clucene einen C++-Port (und einen toten C-Port namens Lucene4c).

Dann habe ich noch Hyper Estraier, den Nachfolger von Estraier dem Nachfolger von Snatcher gefunden. Der ist wohl in C oder C++ geschrieben und hat mit hyperestraier und estraiernative gleich zwei Python-Bindings. Die Railser scheinen ihn gegenüber Lucene stark zu bevorzugen, was man als Orientierung nehmen kann.

Zuletzt bin ich durch Pocoo auf das in C++ geschriebene Xapian aufmerksam geworden, welches ein SWIG-Binding hat und ein abgestorbenen Wrapper, Xapwrap drumrum.

Hat jemand Erfahrung mit der Software und kann die Vor- und Nachteile beleuchten?
My god, it's full of CARs! | Leonidasvoice vs Modvoice
HWJ
User
Beiträge: 1
Registriert: Freitag 7. Dezember 2007, 09:29

Re: Indexer

Beitragvon HWJ » Freitag 7. Dezember 2007, 09:43

Leonidas hat geschrieben:Hallo!

Da ich in naher Zukunft vermutlich vor dem Problem stehen werde, Datenbestände zu durchsuchen habe ich etwas im Internet geschaut und Lucene gefunden, was wohl der populärste Indexer bei Ohloh ist. Da es in Java geschrieben ist scheitet es mehr oder weniger aus, jedoch gibt es mit Lucy einen C und mit Clucene einen C++-Port (und einen toten C-Port namens Lucene4c).

Dann habe ich noch Hyper Estraier, den Nachfolger von Estraier dem Nachfolger von Snatcher gefunden. Der ist wohl in C oder C++ geschrieben und hat mit hyperestraier und estraiernative gleich zwei Python-Bindings. Die Railser scheinen ihn gegenüber Lucene stark zu bevorzugen, was man als Orientierung nehmen kann.

Zuletzt bin ich durch Pocoo auf das in C++ geschriebene Xapian aufmerksam geworden, welches ein SWIG-Binding hat und ein abgestorbenen Wrapper, Xapwrap drumrum.

Hat jemand Erfahrung mit der Software und kann die Vor- und Nachteile beleuchten?


Ich stehe z.Z. vor dem gleichen Problem.
Ich habe Hyperstraier ausprobiert (sogar einen eigenen Python wrapper
geschrieben). Unabhängig von anderen Schwierigkeiten
Hyperestraier ist TOT !

CLucene scheint nicht besonders aktiv zu sein, und es unterstützt noch
nicht das 2.x API von Lucene. Es sieht so aus, als ob es zu wenig
Entwickler gibt. Ein Python-binding wäre nicht das Hauptproblem.
Daher habe ich ein Angst, dass es mir genauso wie mit Hyperestraier
geht, der einfach verstorben ist.

Dann bliebt noch PyLucene. Es ist sehr aktuell, da es die Originalversion
von Lucene (SVN) benutzt. Man hat ein Werkzeug (jcc) geschrieben,
das fast vollautomatisch eine Anbindung über C++ an Python erlaubt.
Wie es aussieht funktionieren alle Beispiele aus der Lucene-Bibel
"Lucene in Action". Braucht man jedoch abgeleitete Klassen, so scheint
man einen kleinen Java-Rumpfcode schreiben zu müssen - jedoch
ist Vieles schon da.
Benutzeravatar
Leonidas
Administrator
Beiträge: 16023
Registriert: Freitag 20. Juni 2003, 16:30
Kontaktdaten:

Beitragvon Leonidas » Freitag 7. Dezember 2007, 14:41

Danke für deine Antwort und willkommen im Forum, HWJ!

Also ich muss sagen, PyLucene finde ich vom Ansatz her nicht so prickelnt, das auch daran liegt dass ich Java so weit es geht vermeide. Java-Libs sind für ihre unangenehme, umständliche API recht bekannt - vielleicht ist Lucene da aber eine Ausnahme (log4j, ebenso von der Apache-Foundation ist eben so ein Negativ-Beispiel, welches mehr oder weniger nach Python portiert wurde).

Was meinst du damit, dass Hyper Estraier tot sei? Also das Datum auf der Seite sieht recht aktuell aus und die Wrapper scheinen maintained zu sein. Kann mich natürlich auch irren. Was waren denn (grob) die Probleme damit?
My god, it's full of CARs! | Leonidasvoice vs Modvoice
Benutzeravatar
mitsuhiko
User
Beiträge: 1790
Registriert: Donnerstag 28. Oktober 2004, 16:33
Wohnort: Graz, Steiermark - Österreich
Kontaktdaten:

Beitragvon mitsuhiko » Freitag 7. Dezember 2007, 17:45

Xapian: Sehr genial, leicht erweiterbar, kann utf-8, kann in mehreren Sprachen stemmen, rockt!
Den Wrapper brauchst du nicht, das Interface ist ziemlich einfach.
TUFKAB – the user formerly known as blackbird
apollo13
User
Beiträge: 827
Registriert: Samstag 5. Februar 2005, 17:53

Beitragvon apollo13 » Mittwoch 19. Dezember 2007, 21:23

http://www.sphinxsearch.com/features.html Habs mir noch nicht angeschaut und kann nur in Englisch und Russisch "stemmen" aber zumindest die Leute bei cursegaming sind zufrieden damit ;)

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder