Seite 1 von 1

PDF lesen mit PyPDF2

Verfasst: Freitag 14. April 2023, 08:33
von Musiker123
hallo zusammen,
ich versuche gerade PDF-Files mit PyPDF2 zu verarbeiten.
Bei einigen Dokumenten, die durch Software erstellt wurden funktioniert das auch
und ich erhalte die erkannten Texte als String zurück.
Wenn ich selbst Dokumente einscanne und als PDF speichere gibt PyPDF2 keine
erkannten Texte zurück.
Hat jemand damit Erfahrung bzw. weiss jemand wie ich das ändern kann.
Vielen Dank

Re: PDF lesen mit PyPDF2

Verfasst: Freitag 14. April 2023, 08:41
von __deets__
Die gescannten Dokumente enthalten keinen Text. Sondern eine Grafik. Um daraus Text zu machen, bedarf es OCR. Die bekannteste, freie Engine ist Tesseract. Siehe zb https://stackoverflow.com/questions/620 ... hon-pypdf2

Re: PDF lesen mit PyPDF2

Verfasst: Freitag 14. April 2023, 08:52
von Musiker123
Vielen Dank, das werde ich versuchen🙏

Re: PDF lesen mit PyPDF2

Verfasst: Samstag 15. April 2023, 18:20
von Musiker123
also, ganz so einfach scheint es nicht zu sein:

pytesseract benötigt noch das Programm: poppler

- pdf2image.exceptions.PDFInfoNotInstalledError: Unable to get page count. Is poppler installed and in PATH?

Hat schon einmal jemand damit gearbeitet?

Ich lade ungern einfach irgendwelche Programme aus dem Internet auf meinen Rechner 🙃
-
Vielen Dank

Re: PDF lesen mit PyPDF2

Verfasst: Samstag 15. April 2023, 19:14
von __deets__
Wie unterscheidet sich poppler von PyPDF, das du aus dem Internet runtergeladen hast, und das dank Python als turing-vollstaendiger Programmiersprache beliebigen Unfug anrichten kann? Paranoia in allen Ehren, aber dann auch bitte richtig.

poppler ist augenscheinlich (ich benutze tesseract direct) ein open source tool. Dem zu misstrauen kann man machen, aber dann wird's eng. Denn auch tesseract kommt irgendwo aus dem Netz.