Das deutsche Python-Forum

hallo zusammen,
ich versuche gerade PDF-Files mit PyPDF2 zu verarbeiten.
Bei einigen Dokumenten, die durch Software erstellt wurden funktioniert das auch
und ich erhalte die erkannten Texte als String zurück.
Wenn ich selbst Dokumente einscanne und als PDF speichere gibt PyPDF2 keine
erkannten Texte zurück.
Hat jemand damit Erfahrung bzw. weiss jemand wie ich das ändern kann.
Vielen Dank

Die gescannten Dokumente enthalten keinen Text. Sondern eine Grafik. Um daraus Text zu machen, bedarf es OCR. Die bekannteste, freie Engine ist Tesseract. Siehe zb https://stackoverflow.com/questions/620 ... hon-pypdf2

Vielen Dank, das werde ich versuchen

also, ganz so einfach scheint es nicht zu sein:

pytesseract benötigt noch das Programm: poppler

- pdf2image.exceptions.PDFInfoNotInstalledError: Unable to get page count. Is poppler installed and in PATH?

Hat schon einmal jemand damit gearbeitet?

Ich lade ungern einfach irgendwelche Programme aus dem Internet auf meinen Rechner

-
Vielen Dank

Wie unterscheidet sich poppler von PyPDF, das du aus dem Internet runtergeladen hast, und das dank Python als turing-vollstaendiger Programmiersprache beliebigen Unfug anrichten kann? Paranoia in allen Ehren, aber dann auch bitte richtig.

poppler ist augenscheinlich (ich benutze tesseract direct) ein open source tool. Dem zu misstrauen kann man machen, aber dann wird's eng. Denn auch tesseract kommt irgendwo aus dem Netz.

Das deutsche Python-Forum

PDF lesen mit PyPDF2

PDF lesen mit PyPDF2

Re: PDF lesen mit PyPDF2

Re: PDF lesen mit PyPDF2

Re: PDF lesen mit PyPDF2

Re: PDF lesen mit PyPDF2