T-Online Haupt-Schlagzeile scrapen

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Antworten
AndiS
User
Beiträge: 24
Registriert: Dienstag 21. September 2021, 20:44

Hallo Forum,

in der Vergangenheit hatte ich auf T-Online die Haupt-Schlagzeile wie folgt ausgelesen:

Code: Alles auswählen

import requests
import bs4 as bs
soup = bs.BeautifulSoup(requests.get("http://www.t-online.de").content)
soup.find_all(class_="Tstage-text")[0].text
Das hat auch prima funktioniert. Jetzt hat T-Online seine Seite umgestellt und ich finden leider keinen Ansatzpunkt, wie ich wieder die Schlagzeile auslesen kann.

Hat jemand vielleicht einen Tipp für mich?

Andi.
Benutzeravatar
__blackjack__
User
Beiträge: 14078
Registriert: Samstag 2. Juni 2018, 10:21
Wohnort: 127.0.0.1
Kontaktdaten:

@AndiS: ``import bs4 as bs`` um das eine Zeichen zu sparen ist ein bisschen unsinnig.

Wenn man nur das erste Element haben will, nimmt man nicht `find_all()` sondern einfach nur `find()`.

Die haben anscheinend das CSS ersetzt und verwenden jetzt kryptische, automatisiert generierte CSS-Klassennamen. Da muss man wohl über die HTML-Struktur gehen und hoffen, dass das sicher genug ist:

Code: Alles auswählen

In [130]: soup.article.a.text                                                   
Out[130]: 'Atomwaffen? Eine andere Option ist für Putin wahrscheinlicher'
“Vir, intelligence has nothing to do with politics!” — Londo Mollari
AndiS
User
Beiträge: 24
Registriert: Dienstag 21. September 2021, 20:44

__blackjack__ hat geschrieben: Donnerstag 5. Mai 2022, 18:30 @AndiS: ``import bs4 as bs`` um das eine Zeichen zu sparen ist ein bisschen unsinnig.

Wenn man nur das erste Element haben will, nimmt man nicht `find_all()` sondern einfach nur `find()`.

Die haben anscheinend das CSS ersetzt und verwenden jetzt kryptische, automatisiert generierte CSS-Klassennamen. Da muss man wohl über die HTML-Struktur gehen und hoffen, dass das sicher genug ist:

Code: Alles auswählen

In [130]: soup.article.a.text                                                   
Out[130]: 'Atomwaffen? Eine andere Option ist für Putin wahrscheinlicher'
Hallo __blackjack__,

Danke für deine Antwort.

Kannst Du bitte mir mal den ganzen Quellcode zur Verfügung stellen?

Gruß, Andi.
Benutzeravatar
__blackjack__
User
Beiträge: 14078
Registriert: Samstag 2. Juni 2018, 10:21
Wohnort: 127.0.0.1
Kontaktdaten:

Naja viel mehr wird das nicht:

Code: Alles auswählen

In [131]: soup = bs4.BeautifulSoup(requests.get("https://www.t-online.de/").content, "html.parser")

In [132]: soup.article.a.text                                                   
Out[132]: 'Kiew: Russland hat bis zum "Tag des Sieges" ein klares Bestreben'
“Vir, intelligence has nothing to do with politics!” — Londo Mollari
AndiS
User
Beiträge: 24
Registriert: Dienstag 21. September 2021, 20:44

__blackjack__ hat geschrieben: Freitag 6. Mai 2022, 00:49 Naja viel mehr wird das nicht:

Code: Alles auswählen

In [131]: soup = bs4.BeautifulSoup(requests.get("https://www.t-online.de/").content, "html.parser")

In [132]: soup.article.a.text                                                   
Out[132]: 'Kiew: Russland hat bis zum "Tag des Sieges" ein klares Bestreben'
Hallo __blackjack__,

vielen Dank für deine Mühe - funktionert!

Noch eine Frage, gibt es denn auch die Möglichkeit, dass Bild zur Schlagzeile zu scrapen?

Andi.
Antworten