Als Python-Einsteiger habe ich das Problem den Text aus eine *.pdf Datei auszulesen,
in der sich auch eine Tabelle befindet.
Ohne Tabelle funktioniert das hier wunderbar:
import pdfplumber
from glob import *
for file in glob(scan_dir + "/*.pdf"):
dateiname = file
print(file)
with pdfplumber.open(file) as temp:
first_page = temp.pages[0]
txt = first_page.extract_text()
print(txt)
Wenn sich in der pdf Datei allerdings eine Tabelle befindet ist txt = ""
Ich danke für eure Hilfe!
Text aus pdf Datei mit Tabelle auslesen
-
- User
- Beiträge: 512
- Registriert: Mittwoch 13. November 2019, 08:38
Bisher habe ich gute Erfahrungen mit Tabula gemacht. Dafür gibt es auch einen Wrapper in Python: https://pypi.org/project/tabula-py/.
Edit: Allerdings lese ich gerade, dass pdfplumber auch eine Funktion für Tabellen hat: .extract_tables(table_settings).
Edit: Allerdings lese ich gerade, dass pdfplumber auch eine Funktion für Tabellen hat: .extract_tables(table_settings).