Dokumententitel + Datum + Titel automatisch auslesen

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Antworten
0815Joe
User
Beiträge: 4
Registriert: Mittwoch 7. Dezember 2022, 15:10

Hallo Forumgemeinde,

ich bin relativ neu in der Python-Welt.
Ich versuche gerade mir das Leben etwas leichter durch ein Script zu machen.

Ich möchte eine Datei z.B. ein PDF einlesen und den Titel + Datum + Version dieses Dokumentes auslesen und dann in eine *.txt Datei oder *.xlsx speichern.

Also auslesen der Dateien klappt schon, jedoch stelle ich mir die Frage, ob es für dieses Problem vielleicht schon eine Lib gibt, die eine solche Funktion schon hat.

Kennt Ihr da vielleicht irgendetwas?


Mit freundlichen Grüßen
0815Joe
Benutzeravatar
__blackjack__
User
Beiträge: 13103
Registriert: Samstag 2. Juni 2018, 10:21
Wohnort: 127.0.0.1
Kontaktdaten:

An die Metadaten in PDFs sollte man mit Bibliotheken wie pdfminer oder PyPDF2 heran kommen können.
„All religions are the same: religion is basically guilt, with different holidays.” — Cathy Ladman
0815Joe
User
Beiträge: 4
Registriert: Mittwoch 7. Dezember 2022, 15:10

Vielen Dank, für die schnelle Antwort, jedoch meine ich nicht die Metadaten, sondern den Titel im Dokument sowie die Versionshistorie des Dokumentes
Sirius3
User
Beiträge: 17749
Registriert: Sonntag 21. Oktober 2012, 17:20

Du meinst, dass die Daten wie Titel oder Versionshistorie als Text im PDF-Dokument stehen? Dafür gibt es keine allgemeingültige Lösung, denn der Text, den Du siehst ist als Graphikbefehle im PDF kodiert, die keine semantische Information enthalten. Das einzige, was Du machen kannst, ist den Text zu extrahieren und anhand irgendwelcher Kriterien (die wir nicht kennen, weil wir die Dokumente nicht kennen) zu bestimmen, welcher Teil des Textes ein Titel sein könnte.
0815Joe
User
Beiträge: 4
Registriert: Mittwoch 7. Dezember 2022, 15:10

So ist meine aktuelle Lösung auch, die zu 98% auch klappt :-)

Sind aber Abweichungen im Dokument (z.B. Format) kann nicht mehr alles erkannt werden.
imonbln
User
Beiträge: 149
Registriert: Freitag 3. Dezember 2021, 17:07

0815Joe hat geschrieben: Mittwoch 7. Dezember 2022, 16:25 So ist meine aktuelle Lösung auch, die zu 98% auch klappt :-)
98 % als Best effort, klingt doch erstmal akzeptable, für die 2 % solltest du eine Schnittstelle schaffen, wo ein Mensch die Daten einfach Korrigieren kann.
0815Joe
User
Beiträge: 4
Registriert: Mittwoch 7. Dezember 2022, 15:10

Ja, so etwas ähnliches habe ich, die Daten werden in einer Exceldatei gespeichert. Sieht etwas komisch aus, kann man korrigieren. Schön wäre es noch, wenn ich das auch erkennen und gleich markieren kann.
Antworten