Text aus pdf Datei mit Tabelle auslesen

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Antworten
BerndBen
User
Beiträge: 2
Registriert: Donnerstag 15. April 2021, 08:53

Als Python-Einsteiger habe ich das Problem den Text aus eine *.pdf Datei auszulesen,
in der sich auch eine Tabelle befindet.

Ohne Tabelle funktioniert das hier wunderbar:

import pdfplumber
from glob import *

for file in glob(scan_dir + "/*.pdf"):
dateiname = file
print(file)
with pdfplumber.open(file) as temp:
first_page = temp.pages[0]
txt = first_page.extract_text()
print(txt)


Wenn sich in der pdf Datei allerdings eine Tabelle befindet ist txt = ""

Ich danke für eure Hilfe!
einfachTobi
User
Beiträge: 512
Registriert: Mittwoch 13. November 2019, 08:38

Bisher habe ich gute Erfahrungen mit Tabula gemacht. Dafür gibt es auch einen Wrapper in Python: https://pypi.org/project/tabula-py/.
Edit: Allerdings lese ich gerade, dass pdfplumber auch eine Funktion für Tabellen hat: .extract_tables(table_settings).
Antworten