XML einlesen - ein Zeichen am Ende scheint zu stören
Verfasst: Dienstag 2. August 2016, 13:34
Ich verwende zunächst das Tool "pdftotext" um den Inhalt einer PDF-Datei als Text-datei zu speichern.
Schon die PDF-Datei selber enthält XML-Code und dieser soll dann durch mein Python-Skript eingelesen und geparst werden.
Ich erhalte also eine .txt-Datei mit genau dem richtigen Inhalt. 2Dinge sind aber möglicherweise problematisch:
1. Die Einrückungen aus dem Original-PDF fehlen.
2. DIe Datei schein am ENde irgendein Sonderzeichen zu enthlaten. Es sieht aus wie ein kleines Kästchen mit winzigen Zahlen drin.
Sieht für mich aus wie:
0 0
0 C
Ist es möglich, daß das anschliessende EInlesen deswegen fehlschlägt?
DIe Fehlermeldung verweist jedenfalls auf diese Zeile, column 0
Schon die PDF-Datei selber enthält XML-Code und dieser soll dann durch mein Python-Skript eingelesen und geparst werden.
Ich erhalte also eine .txt-Datei mit genau dem richtigen Inhalt. 2Dinge sind aber möglicherweise problematisch:
1. Die Einrückungen aus dem Original-PDF fehlen.
2. DIe Datei schein am ENde irgendein Sonderzeichen zu enthlaten. Es sieht aus wie ein kleines Kästchen mit winzigen Zahlen drin.
Sieht für mich aus wie:
0 0
0 C
Ist es möglich, daß das anschliessende EInlesen deswegen fehlschlägt?
DIe Fehlermeldung verweist jedenfalls auf diese Zeile, column 0