OCR Software: Tesseract

Alles, was nicht direkt mit Python-Problemen zu tun hat. Dies ist auch der perfekte Platz für Jobangebote.
Benutzeravatar
Sr4l
User
Beiträge: 1091
Registriert: Donnerstag 28. Dezember 2006, 20:02
Wohnort: Kassel
Kontaktdaten:

OCR Software: Tesseract

Beitragvon Sr4l » Freitag 12. Januar 2007, 16:50

Hallo ich habe hier mal ein spannendes Thema.

Ich habe vor einiger Zeit den Wunsch einem Python Programm die Fähigkeit der Texterkennung (OCR (Optical Character Recognition) ) zuschenken.

Habe mich mal durch sourceforge.net gesucht und Tesseract gefunden.
( http://sourceforge.net/projects/tesseract-ocr ) hat mir am besten gefallen andere Projekte brauchten bestimmte Bildformate oder haben mir aus einem anderen Grund nicht gefallen. Ich schaffe es aber nicht ein gültige Tif Datei zu erstellen die Tesseract aktzeptier. IrfanView habe ich versucht, Paint.NET und MS Paint doch keine dieser Tiffs konnte ich einlesen.
Laut Tesseract Fehlerausgabe liegt es nur an dem Format des Bildes, und tatsächlich das Beispiel Tif im Ordner funktioniert.

Hat jemand damit Erfahrungen gemacht? Kennt jemand ganz genau was Tesseract haben will?

EDIT:
ohh ich sehe gerade das es am 4 Okt 2006 ne neue Version gab ich teste mal schnell die Neue.
Benutzeravatar
Sr4l
User
Beiträge: 1091
Registriert: Donnerstag 28. Dezember 2006, 20:02
Wohnort: Kassel
Kontaktdaten:

Beitragvon Sr4l » Mittwoch 17. Januar 2007, 21:52

Habe jetzt geht es.
Konnte es aber nicht mit Windows lösen (obwohl ich immer "keine" bei Kompression gewählt habe).
Also mit Debian habe ich es dann zum laufen bekommen habe Tesseract installiert. Gimp Text geschrieben in ein unkomprimiertes TIF gespeichert und schon ging es. Macht man aus dem TIF ein TIFF geht es schon nicht mehr ^^. Kleine aber feine Unterschiede.
Und wieder einmal liebe ich Debian :-D würde ja sogar wechseln auf meinem Laptop aber......tja
gecko
User
Beiträge: 47
Registriert: Samstag 9. Juni 2007, 10:48

Beitragvon gecko » Samstag 9. Juni 2007, 10:49

mdornseif
User
Beiträge: 5
Registriert: Montag 11. Juni 2007, 16:32
Kontaktdaten:

Beitragvon mdornseif » Montag 11. Juni 2007, 16:40

Ich habe auch erhebliche Probleme gehabt, Tesseract-gerechte TIFF Dateien herzustellen. Ich vermute, ich hätte Tesseract mit libtiff linken müssen, dann soll es sehr viel robuster beim TIFF lesen sein.

Ich habe dann zu OCRopus - http://code.google.com/p/ocropus/ - gegriffen, dass ein "Frontend" (sehr stark vereinfacht) zu Tesseract ist und fast jedes Dateiformat frisst.

Damit habe ich recht schöne Ergebnisse erzieht, siehe http://blogs.23.nu/disLEXiaDE/stories/15173/ und http://blogs.23.nu/disLEXiaDE/stories/15162/

Gruß

md

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder