Modul zum Auslesen eines bestimmten Bereiches einer PDF

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Antworten
crib
User
Beiträge: 3
Registriert: Samstag 12. September 2015, 19:26

Hallo Leute,

ich bin gerade dabei in script zum automatischen Ablegen von PDF's zu schreiben. Die PDF über ocr laufen zu lassen klappt. Jetzt brauche ich nur noch eins:

-> Auf jeder eingescannten Seite steht an einer ganz bestimmten Stelle eine Zahl. Mit welchem Modul bekomme ich es hin, dass immer genau die Zahl, die an dieser Stelle steht ausgegeben wird? (Immer DIN A4)


Besten Dank schonmal
crib
User
Beiträge: 3
Registriert: Samstag 12. September 2015, 19:26

Keiner eine Idee?
Dav1d
User
Beiträge: 1437
Registriert: Donnerstag 30. Juli 2009, 12:03
Kontaktdaten:

Zu wenige Informationen, liegt deine DIN A4 Seite als Bild vor? Crop den Bereich mit z.B. PIL und jag es durch die OCR engine.
the more they change the more they stay the same
Benutzeravatar
/me
User
Beiträge: 3552
Registriert: Donnerstag 25. Juni 2009, 14:40
Wohnort: Bonn

crib hat geschrieben:Keiner eine Idee?
Nicht wirklich. Vor etwa 20 Jahren habe ich so etwas mal mit als Bilddatei (Multipage-TIF) vorliegenden Dateien gemacht.

Da haben wir dann mit unserer Software den betreffenden Bereich ausgeschnitten und nur den durch die OCR-Engine gejagt. Um das hier durchführen zu können müsstest du das PDF wohl erst einmal in ein Bildformat verwandeln.

Edit: Also im Endeffekt das gleiche was Dav1d vorgeschlagen hat.
Antworten