getText ignoriert <br>

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Antworten
Rotmilan
User
Beiträge: 32
Registriert: Mittwoch 30. Dezember 2020, 21:59
Wohnort: Nordbayern

Hallo,

ich habe mit BeautifulSoup und select eine Webseite ausgelesen:
content1 = soup.select(ident1)
dann extrahiere ich den Text:
text = content1[0].getText()
Das alles funktioniert soweit gut, einziges Manko ist, dass alle <br> ohne Ersatz gelöscht werden. Das heißt, bei der Ausgabe in der Variable "text" hängen die Wörter da aneinander, wo eigentlich ein Zeilenumbruch sein sollte.
Und das schaut leider gar nicht gut aus :evil:

Gibt es einen Anderen Befehl oder ein attribut, mit dem man das steuern kann? Ich habe dazu leider nichts gefunden... :cry:

LG
Benutzeravatar
__blackjack__
User
Beiträge: 12984
Registriert: Samstag 2. Juni 2018, 10:21
Wohnort: 127.0.0.1
Kontaktdaten:

@Rotmilan: `getText()` sollte nicht mehr verwendet werden, das heisst jetzt `get_text()`. Und das ist schon die richtige Methode. Schau mal in die Dokumentation.
“Most people find the concept of programming obvious, but the doing impossible.” — Alan J. Perlis
Antworten