OCR Software: Tesseract

Alles, was nicht direkt mit Python-Problemen zu tun hat. Dies ist auch der perfekte Platz für Jobangebote.
Antworten
Benutzeravatar
Sr4l
User
Beiträge: 1091
Registriert: Donnerstag 28. Dezember 2006, 20:02
Wohnort: Kassel
Kontaktdaten:

Hallo ich habe hier mal ein spannendes Thema.

Ich habe vor einiger Zeit den Wunsch einem Python Programm die Fähigkeit der Texterkennung (OCR (Optical Character Recognition) ) zuschenken.

Habe mich mal durch sourceforge.net gesucht und Tesseract gefunden.
( http://sourceforge.net/projects/tesseract-ocr ) hat mir am besten gefallen andere Projekte brauchten bestimmte Bildformate oder haben mir aus einem anderen Grund nicht gefallen. Ich schaffe es aber nicht ein gültige Tif Datei zu erstellen die Tesseract aktzeptier. IrfanView habe ich versucht, Paint.NET und MS Paint doch keine dieser Tiffs konnte ich einlesen.
Laut Tesseract Fehlerausgabe liegt es nur an dem Format des Bildes, und tatsächlich das Beispiel Tif im Ordner funktioniert.

Hat jemand damit Erfahrungen gemacht? Kennt jemand ganz genau was Tesseract haben will?

EDIT:
ohh ich sehe gerade das es am 4 Okt 2006 ne neue Version gab ich teste mal schnell die Neue.
Benutzeravatar
Sr4l
User
Beiträge: 1091
Registriert: Donnerstag 28. Dezember 2006, 20:02
Wohnort: Kassel
Kontaktdaten:

Habe jetzt geht es.
Konnte es aber nicht mit Windows lösen (obwohl ich immer "keine" bei Kompression gewählt habe).
Also mit Debian habe ich es dann zum laufen bekommen habe Tesseract installiert. Gimp Text geschrieben in ein unkomprimiertes TIF gespeichert und schon ging es. Macht man aus dem TIF ein TIFF geht es schon nicht mehr ^^. Kleine aber feine Unterschiede.
Und wieder einmal liebe ich Debian :-D würde ja sogar wechseln auf meinem Laptop aber......tja
mdornseif
User
Beiträge: 5
Registriert: Montag 11. Juni 2007, 16:32
Kontaktdaten:

Ich habe auch erhebliche Probleme gehabt, Tesseract-gerechte TIFF Dateien herzustellen. Ich vermute, ich hätte Tesseract mit libtiff linken müssen, dann soll es sehr viel robuster beim TIFF lesen sein.

Ich habe dann zu OCRopus - http://code.google.com/p/ocropus/ - gegriffen, dass ein "Frontend" (sehr stark vereinfacht) zu Tesseract ist und fast jedes Dateiformat frisst.

Damit habe ich recht schöne Ergebnisse erzieht, siehe http://blogs.23.nu/disLEXiaDE/stories/15173/ und http://blogs.23.nu/disLEXiaDE/stories/15162/

Gruß

md
Antworten