Entfernen von Überschriften in plain text Dateien
Verfasst: Donnerstag 17. November 2022, 10:30
Guten Tag,
zur Zeit probiere ich Texte zu extrahieren, leider habe ich dafür kein HTML, sondern nur ein PDF Format.
Die Texte habe ich in eine plain Text Datei umgewandelt und nun möchte ich sie säubern. In meinem Fall heisst das, Tabellendaten und Inhalte, sowie Überschriften entfernen.
Dafür nutze ich eine replace regex Funktion, die alle alle lines mit weniger als 78 Zeichen entfernen soll. Das hat nach stichprobenartiger Begutachtung der Daten gepasst um beides zu entfernen, leider jedoch auch immer den letzten Teil des Absatzes. Ich habe probiert, noch ein lookahead am Ende einzusetzen, um beispielsweise die regex nicht auf lines anzuwenden, die von einem Punkt abgeschlossen werden. Hier ist die regex:
re.sub(r"(?m)(?<!\S\n)^.{1,78}(?=\n)", "", text)(?!\.)
Es sieht so aus, dass die Funktion den Punkt am Ende nicht nimmt, kann mir jemand sagen wo der Fehler liegt?
zur Zeit probiere ich Texte zu extrahieren, leider habe ich dafür kein HTML, sondern nur ein PDF Format.
Die Texte habe ich in eine plain Text Datei umgewandelt und nun möchte ich sie säubern. In meinem Fall heisst das, Tabellendaten und Inhalte, sowie Überschriften entfernen.
Dafür nutze ich eine replace regex Funktion, die alle alle lines mit weniger als 78 Zeichen entfernen soll. Das hat nach stichprobenartiger Begutachtung der Daten gepasst um beides zu entfernen, leider jedoch auch immer den letzten Teil des Absatzes. Ich habe probiert, noch ein lookahead am Ende einzusetzen, um beispielsweise die regex nicht auf lines anzuwenden, die von einem Punkt abgeschlossen werden. Hier ist die regex:
re.sub(r"(?m)(?<!\S\n)^.{1,78}(?=\n)", "", text)(?!\.)
Es sieht so aus, dass die Funktion den Punkt am Ende nicht nimmt, kann mir jemand sagen wo der Fehler liegt?