OCR Software: Tesseract

Sr4l · Freitag 12. Januar 2007, 16:50

Hallo ich habe hier mal ein spannendes Thema.

Ich habe vor einiger Zeit den Wunsch einem Python Programm die Fähigkeit der Texterkennung (OCR (Optical Character Recognition) ) zuschenken.

Habe mich mal durch sourceforge.net gesucht und Tesseract gefunden.
( http://sourceforge.net/projects/tesseract-ocr ) hat mir am besten gefallen andere Projekte brauchten bestimmte Bildformate oder haben mir aus einem anderen Grund nicht gefallen. Ich schaffe es aber nicht ein gültige Tif Datei zu erstellen die Tesseract aktzeptier. IrfanView habe ich versucht, Paint.NET und MS Paint doch keine dieser Tiffs konnte ich einlesen.
Laut Tesseract Fehlerausgabe liegt es nur an dem Format des Bildes, und tatsächlich das Beispiel Tif im Ordner funktioniert.

Hat jemand damit Erfahrungen gemacht? Kennt jemand ganz genau was Tesseract haben will?

EDIT:
ohh ich sehe gerade das es am 4 Okt 2006 ne neue Version gab ich teste mal schnell die Neue.

Sr4l · Mittwoch 17. Januar 2007, 21:52

Habe jetzt geht es.
Konnte es aber nicht mit Windows lösen (obwohl ich immer "keine" bei Kompression gewählt habe).
Also mit Debian habe ich es dann zum laufen bekommen habe Tesseract installiert. Gimp Text geschrieben in ein unkomprimiertes TIF gespeichert und schon ging es. Macht man aus dem TIF ein TIFF geht es schon nicht mehr ^^. Kleine aber feine Unterschiede.
Und wieder einmal liebe ich Debian

würde ja sogar wechseln auf meinem Laptop aber......tja

gecko · Samstag 9. Juni 2007, 10:49

PyBindings für Tesser

http://mjtokelly.blogspot.com/2007/05/p ... ython.html

http://code.google.com/p/pytesser/

mdornseif · Montag 11. Juni 2007, 16:40

Ich habe auch erhebliche Probleme gehabt, Tesseract-gerechte TIFF Dateien herzustellen. Ich vermute, ich hätte Tesseract mit libtiff linken müssen, dann soll es sehr viel robuster beim TIFF lesen sein.

Ich habe dann zu OCRopus - http://code.google.com/p/ocropus/ - gegriffen, dass ein "Frontend" (sehr stark vereinfacht) zu Tesseract ist und fast jedes Dateiformat frisst.

Damit habe ich recht schöne Ergebnisse erzieht, siehe http://blogs.23.nu/disLEXiaDE/stories/15173/ und http://blogs.23.nu/disLEXiaDE/stories/15162/

Gruß

md