Seite 1 von 1

Modul zum Auslesen eines bestimmten Bereiches einer PDF

Verfasst: Samstag 12. September 2015, 19:41
von crib
Hallo Leute,

ich bin gerade dabei in script zum automatischen Ablegen von PDF's zu schreiben. Die PDF über ocr laufen zu lassen klappt. Jetzt brauche ich nur noch eins:

-> Auf jeder eingescannten Seite steht an einer ganz bestimmten Stelle eine Zahl. Mit welchem Modul bekomme ich es hin, dass immer genau die Zahl, die an dieser Stelle steht ausgegeben wird? (Immer DIN A4)


Besten Dank schonmal

Re: Modul zum Auslesen eines bestimmten Bereiches einer PDF

Verfasst: Sonntag 13. September 2015, 15:00
von crib
Keiner eine Idee?

Re: Modul zum Auslesen eines bestimmten Bereiches einer PDF

Verfasst: Sonntag 13. September 2015, 15:39
von Dav1d
Zu wenige Informationen, liegt deine DIN A4 Seite als Bild vor? Crop den Bereich mit z.B. PIL und jag es durch die OCR engine.

Re: Modul zum Auslesen eines bestimmten Bereiches einer PDF

Verfasst: Sonntag 13. September 2015, 15:42
von /me
crib hat geschrieben:Keiner eine Idee?
Nicht wirklich. Vor etwa 20 Jahren habe ich so etwas mal mit als Bilddatei (Multipage-TIF) vorliegenden Dateien gemacht.

Da haben wir dann mit unserer Software den betreffenden Bereich ausgeschnitten und nur den durch die OCR-Engine gejagt. Um das hier durchführen zu können müsstest du das PDF wohl erst einmal in ein Bildformat verwandeln.

Edit: Also im Endeffekt das gleiche was Dav1d vorgeschlagen hat.