Hallo Forumgemeinde,
ich bin relativ neu in der Python-Welt.
Ich versuche gerade mir das Leben etwas leichter durch ein Script zu machen.
Ich möchte eine Datei z.B. ein PDF einlesen und den Titel + Datum + Version dieses Dokumentes auslesen und dann in eine *.txt Datei oder *.xlsx speichern.
Also auslesen der Dateien klappt schon, jedoch stelle ich mir die Frage, ob es für dieses Problem vielleicht schon eine Lib gibt, die eine solche Funktion schon hat.
Kennt Ihr da vielleicht irgendetwas?
Mit freundlichen Grüßen
0815Joe
Dokumententitel + Datum + Titel automatisch auslesen
- __blackjack__
- User
- Beiträge: 14069
- Registriert: Samstag 2. Juni 2018, 10:21
- Wohnort: 127.0.0.1
- Kontaktdaten:
An die Metadaten in PDFs sollte man mit Bibliotheken wie pdfminer oder PyPDF2 heran kommen können.
“Vir, intelligence has nothing to do with politics!” — Londo Mollari
Du meinst, dass die Daten wie Titel oder Versionshistorie als Text im PDF-Dokument stehen? Dafür gibt es keine allgemeingültige Lösung, denn der Text, den Du siehst ist als Graphikbefehle im PDF kodiert, die keine semantische Information enthalten. Das einzige, was Du machen kannst, ist den Text zu extrahieren und anhand irgendwelcher Kriterien (die wir nicht kennen, weil wir die Dokumente nicht kennen) zu bestimmen, welcher Teil des Textes ein Titel sein könnte.
98 % als Best effort, klingt doch erstmal akzeptable, für die 2 % solltest du eine Schnittstelle schaffen, wo ein Mensch die Daten einfach Korrigieren kann.0815Joe hat geschrieben: Mittwoch 7. Dezember 2022, 16:25 So ist meine aktuelle Lösung auch, die zu 98% auch klappt![]()