Hallo, guter Punkt.
(re.sub(r"(?m)(?<!\S\n)^.{1,78}(?=\n)(?!\.)", "", text))
So hatte ich es probiert.
Die Suche ergab 2 Treffer
- Donnerstag 17. November 2022, 15:24
- Forum: Allgemeine Fragen
- Thema: Entfernen von Überschriften in plain text Dateien
- Antworten: 3
- Zugriffe: 375
- Donnerstag 17. November 2022, 10:30
- Forum: Allgemeine Fragen
- Thema: Entfernen von Überschriften in plain text Dateien
- Antworten: 3
- Zugriffe: 375
Entfernen von Überschriften in plain text Dateien
Guten Tag,
zur Zeit probiere ich Texte zu extrahieren, leider habe ich dafür kein HTML, sondern nur ein PDF Format.
Die Texte habe ich in eine plain Text Datei umgewandelt und nun möchte ich sie säubern. In meinem Fall heisst das, Tabellendaten und Inhalte, sowie Überschriften entfernen.
Dafür ...
zur Zeit probiere ich Texte zu extrahieren, leider habe ich dafür kein HTML, sondern nur ein PDF Format.
Die Texte habe ich in eine plain Text Datei umgewandelt und nun möchte ich sie säubern. In meinem Fall heisst das, Tabellendaten und Inhalte, sowie Überschriften entfernen.
Dafür ...
