Seite 1 von 1

Dokumententitel + Datum + Titel automatisch auslesen

Verfasst: Mittwoch 7. Dezember 2022, 15:16
von 0815Joe
Hallo Forumgemeinde,

ich bin relativ neu in der Python-Welt.
Ich versuche gerade mir das Leben etwas leichter durch ein Script zu machen.

Ich möchte eine Datei z.B. ein PDF einlesen und den Titel + Datum + Version dieses Dokumentes auslesen und dann in eine *.txt Datei oder *.xlsx speichern.

Also auslesen der Dateien klappt schon, jedoch stelle ich mir die Frage, ob es für dieses Problem vielleicht schon eine Lib gibt, die eine solche Funktion schon hat.

Kennt Ihr da vielleicht irgendetwas?


Mit freundlichen Grüßen
0815Joe

Re: Dokumententitel + Datum + Titel automatisch auslesen

Verfasst: Mittwoch 7. Dezember 2022, 15:35
von __blackjack__
An die Metadaten in PDFs sollte man mit Bibliotheken wie pdfminer oder PyPDF2 heran kommen können.

Re: Dokumententitel + Datum + Titel automatisch auslesen

Verfasst: Mittwoch 7. Dezember 2022, 15:52
von 0815Joe
Vielen Dank, für die schnelle Antwort, jedoch meine ich nicht die Metadaten, sondern den Titel im Dokument sowie die Versionshistorie des Dokumentes

Re: Dokumententitel + Datum + Titel automatisch auslesen

Verfasst: Mittwoch 7. Dezember 2022, 15:56
von Sirius3
Du meinst, dass die Daten wie Titel oder Versionshistorie als Text im PDF-Dokument stehen? Dafür gibt es keine allgemeingültige Lösung, denn der Text, den Du siehst ist als Graphikbefehle im PDF kodiert, die keine semantische Information enthalten. Das einzige, was Du machen kannst, ist den Text zu extrahieren und anhand irgendwelcher Kriterien (die wir nicht kennen, weil wir die Dokumente nicht kennen) zu bestimmen, welcher Teil des Textes ein Titel sein könnte.

Re: Dokumententitel + Datum + Titel automatisch auslesen

Verfasst: Mittwoch 7. Dezember 2022, 16:25
von 0815Joe
So ist meine aktuelle Lösung auch, die zu 98% auch klappt :-)

Sind aber Abweichungen im Dokument (z.B. Format) kann nicht mehr alles erkannt werden.

Re: Dokumententitel + Datum + Titel automatisch auslesen

Verfasst: Donnerstag 8. Dezember 2022, 09:05
von imonbln
0815Joe hat geschrieben: Mittwoch 7. Dezember 2022, 16:25 So ist meine aktuelle Lösung auch, die zu 98% auch klappt :-)
98 % als Best effort, klingt doch erstmal akzeptable, für die 2 % solltest du eine Schnittstelle schaffen, wo ein Mensch die Daten einfach Korrigieren kann.

Re: Dokumententitel + Datum + Titel automatisch auslesen

Verfasst: Donnerstag 8. Dezember 2022, 21:18
von 0815Joe
Ja, so etwas ähnliches habe ich, die Daten werden in einer Exceldatei gespeichert. Sieht etwas komisch aus, kann man korrigieren. Schön wäre es noch, wenn ich das auch erkennen und gleich markieren kann.