ich bin gerade dabei uns versuche das Modul invoce2data in Python in einen Ablauf einzubauen.
Leider komme ich bei der Erkennung mit tesseract nicht weiter.
Die Ausgabe sieht immer wie folgt aus:
Code: Alles auswählen
invoice2data --template-folder /invoice2data --debug --input-reader tesseract rg7.pdf
Error in fopenReadStream: file not found
Error in pixRead: image file not found: Version: ImageMagick 6.9.7-4 Q16 x86_64 20170114 http://www.imagemagick.org
Image file Version: ImageMagick 6.9.7-4 Q16 x86_64 20170114 http://www.imagemagick.org cannot be read!
Error during processing.
DEBUG:invoice2data.main:START pdftotext result ===========================
DEBUG:invoice2data.main:
DEBUG:invoice2data.main:END pdftotext result =============================
DEBUG:invoice2data.main:Testing 113 template files
ERROR:invoice2data.main:No template for rg7.pdf
es geht um folgende Zeilen:
Code: Alles auswählen
convert = ['convert', '-density', '350', path, '-depth', '8', 'png:-']
p1 = subprocess.Popen(convert, stdout=subprocess.PIPE, shell=True)
Code: Alles auswählen
<open file '<fdopen>', mode 'rb' at 0x7f3f58b55150>
Vielen Dank für die Hilfe.