Seite 1 von 1
Mehrseitige PDF ´s trennen und wieder zusammenführen
Verfasst: Donnerstag 30. Januar 2014, 13:12
von python21
Hallo,
mit der Libary PyPDF2 in Python 2.7.6, kann man ja z.B. PDF Dateien trennen oder mehrere PDF´s zusammenführen etc.
Ich habe eine PDF Datei welche einseitige und zweiseitige Briefe enthält.
Diese habe ich mit Hilfe von Python getrennt und in 2 Dateien wieder zusammengeführt.
Also alle 1-stg. Briefe in eine Datei und alle 2-stg. Briefe in eine zweite Datei.
Allerdings werden die PDF´s zur Ursprungs-PDF größer.
Aus 997 kb mit 100 Seiten werden nach dem Trennen und Zusammenführen über 3,5 MB.
Über Adobe PDF kann man das wieder runter reduzieren, würde das aber gerne gleich mit python hinbekommen.
Hat da jemand eine Lösung?
Re: Mehrseitige PDF ´s trennen und wieder zusammenführen
Verfasst: Donnerstag 30. Januar 2014, 15:15
von Krischu
Wenn Du in der Linuxwelt unterwegs bist, pdfsam z.B. erlaubt das splitten und mergen von PDFs.
In der Windowswelt (mal web suche bemühen) gibt es auch einige freeware tools (aber wegen der adware immer fragwürdig).
(ach so, Du wolltest es in python machen...)
Re: Mehrseitige PDF ´s trennen und wieder zusammenführen
Verfasst: Donnerstag 30. Januar 2014, 15:35
von EyDu
In der Linuxwelt gäbe es auch noch pdftk, mit Ghostscript oder ps2pdf (Parameter dPDFSETTINGS) bekommst du die Dateigrößen recht klein.
Re: Mehrseitige PDF ´s trennen und wieder zusammenführen
Verfasst: Freitag 31. Januar 2014, 01:30
von Leonidas
Außerdem gibt es in der Linuxwelt auch pdfjam welches ne Reihe von Tools mitbringt wie etwa pdfjoin. Außerdem hat poppler ein Tool namens pdfseparate dabei. Außerdem kann man auch meist einfach Seitenbereiche in PDF drucken.
Re: Mehrseitige PDF ´s trennen und wieder zusammenführen
Verfasst: Freitag 31. Januar 2014, 09:56
von python21
Danke für die Linux-Empfehlungen

bin aber zur Zeit in der Win-Welt unterwegs.
Habe zwar Linux installiert gehabt aber wegen eines kompletten festplattencrashes erst einmal wieder nur Win installiert.
Möchte das wirklich nur mit Python erledigen.
Bin gestern noch auf weitere PDF libs für python gestoßen muss mich aber erst einmal einlesen.
Mit einigen kann man noch den Textinhalt extrahieren was auch sehr interessant ist...
Werde das dann aber hier auch kommunizieren wenn ich weitergekommen bin.
Muss mein py-Programm noch etwas umbauen, beim zusammenführen von vielen tausenden PDF´s gibt es wohl eine Obergrenze in PyPDF2 (IO Error no 24) oder so...
Oder es hängt mit der Speicherverwaltung zusammenhängt, aber als hobby-Programmierer bin ich da nur auf der vermuten Seite.
Werde diese dann erst mal mit 500er Blöcke zusammenbauen und dann diese Blöcke wieder zusammenführen. Kommt aber wohl auch auf die PDF-Dateigröße etc.Größe drauf an... na ja das macht es aber interessant.