ich beschäftige mich mit der Digitalisierung von PDF-Dokumenten und habe etwas lauffähiges mit pyTesseract geschrieben.
Mein Vorgehen ist sehr einfach und besteht aus folgenden Schritten:
1. PDFs einzeln einlesen und als Bild-Datei abspeichern
2. OCR mit pyTesserace durchführen
3. Erkannte Texte um Noise bereinigen
Da ich einen relativ neuen 6-Core Rechner habe, führe ich alle Schritte per Multiprocessing durch, was die Laufzeiten deutlich reduziert.
Als Projektarbeit in der Uni möchte ich das allerdings als Aufhänger nehmen um noch mehr PDFs in kürzer Zeit zu verarbeiten. Gut wären 100k Seiten PDFs in weniger als 10 Stunden.
Hat jemand von euch einen Ansatz, wie man sowas in Python (ggf. Spark) umsetzen kann? Natürlich habe ich schon gegoogelt, aber scheint wohl nicht gereicht zu haben

Hat sowas jemand von euch schon durchgeführt?
Ich danke vorab für alle Tipps und Erfahrungen!