Hallo ich habe hier mal ein spannendes Thema.
Ich habe vor einiger Zeit den Wunsch einem Python Programm die Fähigkeit der Texterkennung (OCR (Optical Character Recognition) ) zuschenken.
Habe mich mal durch sourceforge.net gesucht und Tesseract gefunden.
( http://sourceforge.net/projects/tesseract-ocr ) hat mir am besten gefallen andere Projekte brauchten bestimmte Bildformate oder haben mir aus einem anderen Grund nicht gefallen. Ich schaffe es aber nicht ein gültige Tif Datei zu erstellen die Tesseract aktzeptier. IrfanView habe ich versucht, Paint.NET und MS Paint doch keine dieser Tiffs konnte ich einlesen.
Laut Tesseract Fehlerausgabe liegt es nur an dem Format des Bildes, und tatsächlich das Beispiel Tif im Ordner funktioniert.
Hat jemand damit Erfahrungen gemacht? Kennt jemand ganz genau was Tesseract haben will?
EDIT:
ohh ich sehe gerade das es am 4 Okt 2006 ne neue Version gab ich teste mal schnell die Neue.
OCR Software: Tesseract
- Sr4l
- User
- Beiträge: 1091
- Registriert: Donnerstag 28. Dezember 2006, 20:02
- Wohnort: Kassel
- Kontaktdaten:
Habe jetzt geht es.
Konnte es aber nicht mit Windows lösen (obwohl ich immer "keine" bei Kompression gewählt habe).
Also mit Debian habe ich es dann zum laufen bekommen habe Tesseract installiert. Gimp Text geschrieben in ein unkomprimiertes TIF gespeichert und schon ging es. Macht man aus dem TIF ein TIFF geht es schon nicht mehr ^^. Kleine aber feine Unterschiede.
Und wieder einmal liebe ich Debian
würde ja sogar wechseln auf meinem Laptop aber......tja
Konnte es aber nicht mit Windows lösen (obwohl ich immer "keine" bei Kompression gewählt habe).
Also mit Debian habe ich es dann zum laufen bekommen habe Tesseract installiert. Gimp Text geschrieben in ein unkomprimiertes TIF gespeichert und schon ging es. Macht man aus dem TIF ein TIFF geht es schon nicht mehr ^^. Kleine aber feine Unterschiede.
Und wieder einmal liebe ich Debian

PyBindings für Tesser
http://mjtokelly.blogspot.com/2007/05/p ... ython.html
http://code.google.com/p/pytesser/
http://mjtokelly.blogspot.com/2007/05/p ... ython.html
http://code.google.com/p/pytesser/
Ich habe auch erhebliche Probleme gehabt, Tesseract-gerechte TIFF Dateien herzustellen. Ich vermute, ich hätte Tesseract mit libtiff linken müssen, dann soll es sehr viel robuster beim TIFF lesen sein.
Ich habe dann zu OCRopus - http://code.google.com/p/ocropus/ - gegriffen, dass ein "Frontend" (sehr stark vereinfacht) zu Tesseract ist und fast jedes Dateiformat frisst.
Damit habe ich recht schöne Ergebnisse erzieht, siehe http://blogs.23.nu/disLEXiaDE/stories/15173/ und http://blogs.23.nu/disLEXiaDE/stories/15162/
Gruß
md
Ich habe dann zu OCRopus - http://code.google.com/p/ocropus/ - gegriffen, dass ein "Frontend" (sehr stark vereinfacht) zu Tesseract ist und fast jedes Dateiformat frisst.
Damit habe ich recht schöne Ergebnisse erzieht, siehe http://blogs.23.nu/disLEXiaDE/stories/15173/ und http://blogs.23.nu/disLEXiaDE/stories/15162/
Gruß
md