PDF lesen mit PyPDF2

Musiker123 · Freitag 14. April 2023, 08:33

hallo zusammen,
ich versuche gerade PDF-Files mit PyPDF2 zu verarbeiten.
Bei einigen Dokumenten, die durch Software erstellt wurden funktioniert das auch
und ich erhalte die erkannten Texte als String zurück.
Wenn ich selbst Dokumente einscanne und als PDF speichere gibt PyPDF2 keine
erkannten Texte zurück.
Hat jemand damit Erfahrung bzw. weiss jemand wie ich das ändern kann.
Vielen Dank

__deets__ · Freitag 14. April 2023, 08:41

Die gescannten Dokumente enthalten keinen Text. Sondern eine Grafik. Um daraus Text zu machen, bedarf es OCR. Die bekannteste, freie Engine ist Tesseract. Siehe zb https://stackoverflow.com/questions/620 ... hon-pypdf2

Musiker123 · Freitag 14. April 2023, 08:52

Vielen Dank, das werde ich versuchen

Musiker123 · Samstag 15. April 2023, 18:20

also, ganz so einfach scheint es nicht zu sein:

pytesseract benötigt noch das Programm: poppler

- pdf2image.exceptions.PDFInfoNotInstalledError: Unable to get page count. Is poppler installed and in PATH?

Hat schon einmal jemand damit gearbeitet?

Ich lade ungern einfach irgendwelche Programme aus dem Internet auf meinen Rechner

-
Vielen Dank

__deets__ · Samstag 15. April 2023, 19:14

Wie unterscheidet sich poppler von PyPDF, das du aus dem Internet runtergeladen hast, und das dank Python als turing-vollstaendiger Programmiersprache beliebigen Unfug anrichten kann? Paranoia in allen Ehren, aber dann auch bitte richtig.

poppler ist augenscheinlich (ich benutze tesseract direct) ein open source tool. Dem zu misstrauen kann man machen, aber dann wird's eng. Denn auch tesseract kommt irgendwo aus dem Netz.