Seite 1 von 1

ocr mit python unter linux

Verfasst: Mittwoch 1. September 2010, 13:19
von Herr Lehmann
Hallo,

ich würde gerne mit einem Script text aus jpeg und png Bilder extrahieren.

Am liebsten wäre mir wenn es so funktioinert wie bei pytesser:

Code: Alles auswählen

>>> from pytesser import *
>>> image = Image.open('fnord.tif')  # Open image object using PIL
>>> print image_to_string(image)     # Run tesseract.exe on image
fnord
>>> print image_file_to_string('fnord.tif')
fnord
also einfach ein "print image_file_to_string(bild.jpg) und ich habe ein Resultat oder eben nicht.

Leider scheint pytesser nur mit tiff Dateien und unter Windows zu funktionieren ;/

Sonstige Module die ich zum Thema gefunden habe, sind auch schon relatv veraltet. Was nimmt man denn heutzutage am besten?

Gruß

Herr Lehmann

Re: ocr mit python unter linux

Verfasst: Mittwoch 1. September 2010, 14:45
von numerix
Spricht denn etwas dagegen, aus deinem Python-Skript heraus ein externes Kommandozeilen-Tool aufzurufen? Da gibt es ja einiges für Linux.

Re: ocr mit python unter linux

Verfasst: Mittwoch 1. September 2010, 14:50
von Herr Lehmann
kannst du mir ein beispiel nennen?

Re: ocr mit python unter linux

Verfasst: Mittwoch 1. September 2010, 16:13
von numerix
Z.B. ocrad und gocr.

Re: ocr mit python unter linux

Verfasst: Sonntag 5. September 2010, 10:27
von lunar
pytesser ist kein gutes Modul. Rufe tesseract lieber selbst über "subprocess" auf.