OCR Software: Tesseract
Verfasst: Freitag 12. Januar 2007, 16:50
Hallo ich habe hier mal ein spannendes Thema.
Ich habe vor einiger Zeit den Wunsch einem Python Programm die Fähigkeit der Texterkennung (OCR (Optical Character Recognition) ) zuschenken.
Habe mich mal durch sourceforge.net gesucht und Tesseract gefunden.
( http://sourceforge.net/projects/tesseract-ocr ) hat mir am besten gefallen andere Projekte brauchten bestimmte Bildformate oder haben mir aus einem anderen Grund nicht gefallen. Ich schaffe es aber nicht ein gültige Tif Datei zu erstellen die Tesseract aktzeptier. IrfanView habe ich versucht, Paint.NET und MS Paint doch keine dieser Tiffs konnte ich einlesen.
Laut Tesseract Fehlerausgabe liegt es nur an dem Format des Bildes, und tatsächlich das Beispiel Tif im Ordner funktioniert.
Hat jemand damit Erfahrungen gemacht? Kennt jemand ganz genau was Tesseract haben will?
EDIT:
ohh ich sehe gerade das es am 4 Okt 2006 ne neue Version gab ich teste mal schnell die Neue.
Ich habe vor einiger Zeit den Wunsch einem Python Programm die Fähigkeit der Texterkennung (OCR (Optical Character Recognition) ) zuschenken.
Habe mich mal durch sourceforge.net gesucht und Tesseract gefunden.
( http://sourceforge.net/projects/tesseract-ocr ) hat mir am besten gefallen andere Projekte brauchten bestimmte Bildformate oder haben mir aus einem anderen Grund nicht gefallen. Ich schaffe es aber nicht ein gültige Tif Datei zu erstellen die Tesseract aktzeptier. IrfanView habe ich versucht, Paint.NET und MS Paint doch keine dieser Tiffs konnte ich einlesen.
Laut Tesseract Fehlerausgabe liegt es nur an dem Format des Bildes, und tatsächlich das Beispiel Tif im Ordner funktioniert.
Hat jemand damit Erfahrungen gemacht? Kennt jemand ganz genau was Tesseract haben will?
EDIT:
ohh ich sehe gerade das es am 4 Okt 2006 ne neue Version gab ich teste mal schnell die Neue.