hallo zusammen,
ich versuche gerade PDF-Files mit PyPDF2 zu verarbeiten.
Bei einigen Dokumenten, die durch Software erstellt wurden funktioniert das auch
und ich erhalte die erkannten Texte als String zurück.
Wenn ich selbst Dokumente einscanne und als PDF speichere gibt PyPDF2 keine
erkannten Texte zurück.
Hat jemand damit Erfahrung bzw. weiss jemand wie ich das ändern kann.
Vielen Dank
PDF lesen mit PyPDF2
Die gescannten Dokumente enthalten keinen Text. Sondern eine Grafik. Um daraus Text zu machen, bedarf es OCR. Die bekannteste, freie Engine ist Tesseract. Siehe zb https://stackoverflow.com/questions/620 ... hon-pypdf2
-
- User
- Beiträge: 40
- Registriert: Donnerstag 7. März 2019, 09:48
Vielen Dank, das werde ich versuchen
-
- User
- Beiträge: 40
- Registriert: Donnerstag 7. März 2019, 09:48
also, ganz so einfach scheint es nicht zu sein:
pytesseract benötigt noch das Programm: poppler
- pdf2image.exceptions.PDFInfoNotInstalledError: Unable to get page count. Is poppler installed and in PATH?
Hat schon einmal jemand damit gearbeitet?
Ich lade ungern einfach irgendwelche Programme aus dem Internet auf meinen Rechner
-
Vielen Dank
pytesseract benötigt noch das Programm: poppler
- pdf2image.exceptions.PDFInfoNotInstalledError: Unable to get page count. Is poppler installed and in PATH?
Hat schon einmal jemand damit gearbeitet?
Ich lade ungern einfach irgendwelche Programme aus dem Internet auf meinen Rechner
-
Vielen Dank
Wie unterscheidet sich poppler von PyPDF, das du aus dem Internet runtergeladen hast, und das dank Python als turing-vollstaendiger Programmiersprache beliebigen Unfug anrichten kann? Paranoia in allen Ehren, aber dann auch bitte richtig.
poppler ist augenscheinlich (ich benutze tesseract direct) ein open source tool. Dem zu misstrauen kann man machen, aber dann wird's eng. Denn auch tesseract kommt irgendwo aus dem Netz.
poppler ist augenscheinlich (ich benutze tesseract direct) ein open source tool. Dem zu misstrauen kann man machen, aber dann wird's eng. Denn auch tesseract kommt irgendwo aus dem Netz.