Seite 1 von 1

Plaintext in Textdatei umwandeln

Verfasst: Samstag 3. April 2021, 15:39
von py47
Hallo zusammen,

ich habe erst vor kurzem begonnen mit Python zu arbeiten und weiß mir an einer Stelle leider selbst nicht zu helfen.

Ich möchte den reinen Plaintext aus mehreren Internet Artikeln in eine Textdatei bringen.
Den Link zu den entsprechenden Artikeldateien habe ich bereits in einer Dateiliste abgespeichert.
Jedoch ist mir nicht ganz klar wie ich das mit Hilfe eines Regulären Ausdrucks
(wie z.B. mit GetFirstRegEx, aTEXT = re.HtmlToText(aTEXT) und aTEXT = aTEXT.replace ("")) machen kann.

Es währe sehr nett, wenn mir jemand dies erklären könnte.

Vielen Dank schon mal im Voraus :)

Re: Plaintext in Textdatei umwandeln

Verfasst: Montag 5. April 2021, 08:56
von Sirius3
Html bearbeitet man nicht mit regulären Ausdrücken, sondern benutzt einen Parser, wie z.B. beautifulsoup.
Wo hast du denn die Namen GetFirstRegEx oder HtmlToText her?

Re: Plaintext in Textdatei umwandeln

Verfasst: Montag 5. April 2021, 10:56
von __blackjack__
@py47: Hinweis bezüglich der Namen: Style Guide for Python Code.

Da steht noch mehr als nur was zu Namen drin, aber wer weiss was Du sonst noch so machst wenn Du schon mit *solchen* Namen anfängst. 😉

Die kanonische Antwort zum Thema „HTML mit regex parsen“: https://stackoverflow.com/a/1732454/3815611