ocr mit python unter linux

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Antworten
Herr Lehmann
User
Beiträge: 81
Registriert: Samstag 14. August 2010, 22:20

Hallo,

ich würde gerne mit einem Script text aus jpeg und png Bilder extrahieren.

Am liebsten wäre mir wenn es so funktioinert wie bei pytesser:

Code: Alles auswählen

>>> from pytesser import *
>>> image = Image.open('fnord.tif')  # Open image object using PIL
>>> print image_to_string(image)     # Run tesseract.exe on image
fnord
>>> print image_file_to_string('fnord.tif')
fnord
also einfach ein "print image_file_to_string(bild.jpg) und ich habe ein Resultat oder eben nicht.

Leider scheint pytesser nur mit tiff Dateien und unter Windows zu funktionieren ;/

Sonstige Module die ich zum Thema gefunden habe, sind auch schon relatv veraltet. Was nimmt man denn heutzutage am besten?

Gruß

Herr Lehmann
Benutzeravatar
numerix
User
Beiträge: 2696
Registriert: Montag 11. Juni 2007, 15:09

Spricht denn etwas dagegen, aus deinem Python-Skript heraus ein externes Kommandozeilen-Tool aufzurufen? Da gibt es ja einiges für Linux.
Herr Lehmann
User
Beiträge: 81
Registriert: Samstag 14. August 2010, 22:20

kannst du mir ein beispiel nennen?
Benutzeravatar
numerix
User
Beiträge: 2696
Registriert: Montag 11. Juni 2007, 15:09

Z.B. ocrad und gocr.
lunar

pytesser ist kein gutes Modul. Rufe tesseract lieber selbst über "subprocess" auf.
Antworten