PDF lesen mit PyPDF2

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Antworten
Musiker123
User
Beiträge: 40
Registriert: Donnerstag 7. März 2019, 09:48

hallo zusammen,
ich versuche gerade PDF-Files mit PyPDF2 zu verarbeiten.
Bei einigen Dokumenten, die durch Software erstellt wurden funktioniert das auch
und ich erhalte die erkannten Texte als String zurück.
Wenn ich selbst Dokumente einscanne und als PDF speichere gibt PyPDF2 keine
erkannten Texte zurück.
Hat jemand damit Erfahrung bzw. weiss jemand wie ich das ändern kann.
Vielen Dank
__deets__
User
Beiträge: 14545
Registriert: Mittwoch 14. Oktober 2015, 14:29

Die gescannten Dokumente enthalten keinen Text. Sondern eine Grafik. Um daraus Text zu machen, bedarf es OCR. Die bekannteste, freie Engine ist Tesseract. Siehe zb https://stackoverflow.com/questions/620 ... hon-pypdf2
Musiker123
User
Beiträge: 40
Registriert: Donnerstag 7. März 2019, 09:48

Vielen Dank, das werde ich versuchen🙏
Musiker123
User
Beiträge: 40
Registriert: Donnerstag 7. März 2019, 09:48

also, ganz so einfach scheint es nicht zu sein:

pytesseract benötigt noch das Programm: poppler

- pdf2image.exceptions.PDFInfoNotInstalledError: Unable to get page count. Is poppler installed and in PATH?

Hat schon einmal jemand damit gearbeitet?

Ich lade ungern einfach irgendwelche Programme aus dem Internet auf meinen Rechner 🙃
-
Vielen Dank
__deets__
User
Beiträge: 14545
Registriert: Mittwoch 14. Oktober 2015, 14:29

Wie unterscheidet sich poppler von PyPDF, das du aus dem Internet runtergeladen hast, und das dank Python als turing-vollstaendiger Programmiersprache beliebigen Unfug anrichten kann? Paranoia in allen Ehren, aber dann auch bitte richtig.

poppler ist augenscheinlich (ich benutze tesseract direct) ein open source tool. Dem zu misstrauen kann man machen, aber dann wird's eng. Denn auch tesseract kommt irgendwo aus dem Netz.
Antworten