Plaintext in Textdatei umwandeln

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Antworten
py47
User
Beiträge: 1
Registriert: Samstag 3. April 2021, 15:20

Hallo zusammen,

ich habe erst vor kurzem begonnen mit Python zu arbeiten und weiß mir an einer Stelle leider selbst nicht zu helfen.

Ich möchte den reinen Plaintext aus mehreren Internet Artikeln in eine Textdatei bringen.
Den Link zu den entsprechenden Artikeldateien habe ich bereits in einer Dateiliste abgespeichert.
Jedoch ist mir nicht ganz klar wie ich das mit Hilfe eines Regulären Ausdrucks
(wie z.B. mit GetFirstRegEx, aTEXT = re.HtmlToText(aTEXT) und aTEXT = aTEXT.replace ("")) machen kann.

Es währe sehr nett, wenn mir jemand dies erklären könnte.

Vielen Dank schon mal im Voraus :)
Sirius3
User
Beiträge: 18274
Registriert: Sonntag 21. Oktober 2012, 17:20

Html bearbeitet man nicht mit regulären Ausdrücken, sondern benutzt einen Parser, wie z.B. beautifulsoup.
Wo hast du denn die Namen GetFirstRegEx oder HtmlToText her?
Benutzeravatar
__blackjack__
User
Beiträge: 14054
Registriert: Samstag 2. Juni 2018, 10:21
Wohnort: 127.0.0.1
Kontaktdaten:

@py47: Hinweis bezüglich der Namen: Style Guide for Python Code.

Da steht noch mehr als nur was zu Namen drin, aber wer weiss was Du sonst noch so machst wenn Du schon mit *solchen* Namen anfängst. 😉

Die kanonische Antwort zum Thema „HTML mit regex parsen“: https://stackoverflow.com/a/1732454/3815611
“Vir, intelligence has nothing to do with politics!” — Londo Mollari
Antworten