Text aus pdf Datei mit Tabelle auslesen

BerndBen · Mittwoch 12. Januar 2022, 10:09

Als Python-Einsteiger habe ich das Problem den Text aus eine *.pdf Datei auszulesen,
in der sich auch eine Tabelle befindet.

Ohne Tabelle funktioniert das hier wunderbar:

import pdfplumber
from glob import *

for file in glob(scan_dir + "/*.pdf"):
dateiname = file
print(file)
with pdfplumber.open(file) as temp:
first_page = temp.pages[0]
txt = first_page.extract_text()
print(txt)

Wenn sich in der pdf Datei allerdings eine Tabelle befindet ist txt = ""

Ich danke für eure Hilfe!

einfachTobi · Mittwoch 12. Januar 2022, 10:21

Bisher habe ich gute Erfahrungen mit Tabula gemacht. Dafür gibt es auch einen Wrapper in Python: https://pypi.org/project/tabula-py/.
Edit: Allerdings lese ich gerade, dass pdfplumber auch eine Funktion für Tabellen hat: .extract_tables(table_settings).