Hallo Forumgemeinde,
ich bin relativ neu in der Python-Welt.
Ich versuche gerade mir das Leben etwas leichter durch ein Script zu machen.
Ich möchte eine Datei z.B. ein PDF einlesen und den Titel + Datum + Version dieses Dokumentes auslesen und dann in eine *.txt Datei oder *.xlsx speichern.
Also auslesen der Dateien klappt schon, jedoch stelle ich mir die Frage, ob es für dieses Problem vielleicht schon eine Lib gibt, die eine solche Funktion schon hat.
Kennt Ihr da vielleicht irgendetwas?
Mit freundlichen Grüßen
0815Joe
Dokumententitel + Datum + Titel automatisch auslesen
- __blackjack__
- User
- Beiträge: 13103
- Registriert: Samstag 2. Juni 2018, 10:21
- Wohnort: 127.0.0.1
- Kontaktdaten:
An die Metadaten in PDFs sollte man mit Bibliotheken wie pdfminer oder PyPDF2 heran kommen können.
„All religions are the same: religion is basically guilt, with different holidays.” — Cathy Ladman
Du meinst, dass die Daten wie Titel oder Versionshistorie als Text im PDF-Dokument stehen? Dafür gibt es keine allgemeingültige Lösung, denn der Text, den Du siehst ist als Graphikbefehle im PDF kodiert, die keine semantische Information enthalten. Das einzige, was Du machen kannst, ist den Text zu extrahieren und anhand irgendwelcher Kriterien (die wir nicht kennen, weil wir die Dokumente nicht kennen) zu bestimmen, welcher Teil des Textes ein Titel sein könnte.