Probleme mit Druckern und PDF-Dateien

daffyhapless · Donnerstag 11. Juli 2024, 05:25

Hallo zusammen.

Ich beschäftige mich seit längerem mit folgendem Problem. Mein HP Officejet Pro8620 Drucker hat einen Papiereinzug. Dieser Dokumenteneinzug kann jedoch nur einseitiges Scannen durchführen. Um sicherzustellen, dass die Papiere korrekt gescannt werden, muss ich einen kurzen Weg gehen und alle doppelseitigen Dokumente erneut eingeben, sobald sie empfangen werden. Ich möchte ein Python-Programm entwickeln, um dieses Problem zu lösen. Die Anwendung muss zwei Dateien importieren. Eine mit ungeraden Seitenzahlen und die andere mit geraden Seitenzahlen. Anschließend soll die Anwendung die Seiten abwechselnd zu einer einzigen PDF-Datei zusammenführen.

Das wäre das anfängliche Ziel.

Eine weitere Anforderung wäre die Möglichkeit, Seiten, die mehr als einen vorgegebenen Prozentsatz weiß sind, automatisch zu entfernen – also Seiten, die nicht beschrieben sind und nur der Vollständigkeit halber gescannt wurden.

Obwohl ich bereits nach Möglichkeiten gesucht habe, dies zu erreichen, hatte ich mit den bereits verfügbaren Programmen als Ausgangspunkt nicht viel Erfolg. Bei mehreren hundert Seiten muss man sie von Hand abtippen, und dafür habe ich keine Zeit.

Wenn Sie eine gute Bibliothek dafür vorschlagen könnten, wäre ich Ihnen sehr dankbar.

grubenfox · Donnerstag 11. Juli 2024, 09:41

ungeteste Vorschläge zum zusammenfügen von ungeraden und geraden Seiten:
* pdftk (https://www.pdflabs.com/blog/how-to-col ... ned-pages/)
ist zwar kein Python, aber kann man ja zur Not von Python aus aufrufen

* pyPDF (https://pypdf.readthedocs.io/en/stable/ ... -pdfs.html)

__blackjack__ · Donnerstag 11. Juli 2024, 10:50

Beide Vorschläge kann ich unterstützen. Habe so etwas in der Art (das Zusammenfügen) in der Vergangenheit mit beiden schon gemacht.

Wegen dem Aussortieren von Seiten die fast nur weiss sind, würde ich noch PyMuPDF in den Ring werfen, weil das eine Methode hat um PDF-Seiten als Bild zu rendern, wo man dann diesen Test drauf machen kann. Nachteil: Die Bibliothek ist nicht in reinem Python. Vorteil davon dürfte dann wieder sein, dass es vielleicht schneller ist als eine reine Python-Bibliothek.

sparrow · Donnerstag 11. Juli 2024, 11:52

+1 für PyMuPDF.
Damit lassen sich auch komplexe Operationen auf PDFs unglaublich schnell durchführen.