Dokumententitel + Datum + Titel automatisch auslesen

0815Joe · Mittwoch 7. Dezember 2022, 15:16

Hallo Forumgemeinde,

ich bin relativ neu in der Python-Welt.
Ich versuche gerade mir das Leben etwas leichter durch ein Script zu machen.

Ich möchte eine Datei z.B. ein PDF einlesen und den Titel + Datum + Version dieses Dokumentes auslesen und dann in eine *.txt Datei oder *.xlsx speichern.

Also auslesen der Dateien klappt schon, jedoch stelle ich mir die Frage, ob es für dieses Problem vielleicht schon eine Lib gibt, die eine solche Funktion schon hat.

Kennt Ihr da vielleicht irgendetwas?

Mit freundlichen Grüßen
0815Joe

__blackjack__ · Mittwoch 7. Dezember 2022, 15:35

An die Metadaten in PDFs sollte man mit Bibliotheken wie pdfminer oder PyPDF2 heran kommen können.

0815Joe · Mittwoch 7. Dezember 2022, 15:52

Vielen Dank, für die schnelle Antwort, jedoch meine ich nicht die Metadaten, sondern den Titel im Dokument sowie die Versionshistorie des Dokumentes

Sirius3 · Mittwoch 7. Dezember 2022, 15:56

Du meinst, dass die Daten wie Titel oder Versionshistorie als Text im PDF-Dokument stehen? Dafür gibt es keine allgemeingültige Lösung, denn der Text, den Du siehst ist als Graphikbefehle im PDF kodiert, die keine semantische Information enthalten. Das einzige, was Du machen kannst, ist den Text zu extrahieren und anhand irgendwelcher Kriterien (die wir nicht kennen, weil wir die Dokumente nicht kennen) zu bestimmen, welcher Teil des Textes ein Titel sein könnte.

0815Joe · Mittwoch 7. Dezember 2022, 16:25

So ist meine aktuelle Lösung auch, die zu 98% auch klappt

Sind aber Abweichungen im Dokument (z.B. Format) kann nicht mehr alles erkannt werden.

imonbln · Donnerstag 8. Dezember 2022, 09:05

0815Joe hat geschrieben: Mittwoch 7. Dezember 2022, 16:25 So ist meine aktuelle Lösung auch, die zu 98% auch klappt

98 % als Best effort, klingt doch erstmal akzeptable, für die 2 % solltest du eine Schnittstelle schaffen, wo ein Mensch die Daten einfach Korrigieren kann.

0815Joe · Donnerstag 8. Dezember 2022, 21:18

Ja, so etwas ähnliches habe ich, die Daten werden in einer Exceldatei gespeichert. Sieht etwas komisch aus, kann man korrigieren. Schön wäre es noch, wenn ich das auch erkennen und gleich markieren kann.