T-Online Haupt-Schlagzeile scrapen

AndiS · Donnerstag 5. Mai 2022, 16:58

Hallo Forum,

in der Vergangenheit hatte ich auf T-Online die Haupt-Schlagzeile wie folgt ausgelesen:

import requests
import bs4 as bs
soup = bs.BeautifulSoup(requests.get("http://www.t-online.de").content)
soup.find_all(class_="Tstage-text")[0].text

Das hat auch prima funktioniert. Jetzt hat T-Online seine Seite umgestellt und ich finden leider keinen Ansatzpunkt, wie ich wieder die Schlagzeile auslesen kann.

Hat jemand vielleicht einen Tipp für mich?

Andi.

__blackjack__ · Donnerstag 5. Mai 2022, 18:30

@AndiS: ``import bs4 as bs`` um das eine Zeichen zu sparen ist ein bisschen unsinnig.

Wenn man nur das erste Element haben will, nimmt man nicht `find_all()` sondern einfach nur `find()`.

Die haben anscheinend das CSS ersetzt und verwenden jetzt kryptische, automatisiert generierte CSS-Klassennamen. Da muss man wohl über die HTML-Struktur gehen und hoffen, dass das sicher genug ist:

Code: Alles auswählen

In [130]: soup.article.a.text                                                   
Out[130]: 'Atomwaffen? Eine andere Option ist für Putin wahrscheinlicher'

AndiS · Donnerstag 5. Mai 2022, 20:52

__blackjack__ hat geschrieben: Donnerstag 5. Mai 2022, 18:30 @AndiS: ``import bs4 as bs`` um das eine Zeichen zu sparen ist ein bisschen unsinnig.

Wenn man nur das erste Element haben will, nimmt man nicht `find_all()` sondern einfach nur `find()`.

Die haben anscheinend das CSS ersetzt und verwenden jetzt kryptische, automatisiert generierte CSS-Klassennamen. Da muss man wohl über die HTML-Struktur gehen und hoffen, dass das sicher genug ist:
Code: Alles auswählen
In [130]: soup.article.a.text                                                   
Out[130]: 'Atomwaffen? Eine andere Option ist für Putin wahrscheinlicher'

Hallo __blackjack__,

Danke für deine Antwort.

Kannst Du bitte mir mal den ganzen Quellcode zur Verfügung stellen?

Gruß, Andi.

__blackjack__ · Freitag 6. Mai 2022, 00:49

Naja viel mehr wird das nicht:

Code: Alles auswählen

In [131]: soup = bs4.BeautifulSoup(requests.get("https://www.t-online.de/").content, "html.parser")

In [132]: soup.article.a.text                                                   
Out[132]: 'Kiew: Russland hat bis zum "Tag des Sieges" ein klares Bestreben'

AndiS · Freitag 6. Mai 2022, 15:46

__blackjack__ hat geschrieben: Freitag 6. Mai 2022, 00:49 Naja viel mehr wird das nicht:

Code: Alles auswählen

In [131]: soup = bs4.BeautifulSoup(requests.get("https://www.t-online.de/").content, "html.parser")

In [132]: soup.article.a.text                                                   
Out[132]: 'Kiew: Russland hat bis zum "Tag des Sieges" ein klares Bestreben'

Hallo __blackjack__,

vielen Dank für deine Mühe - funktionert!

Noch eine Frage, gibt es denn auch die Möglichkeit, dass Bild zur Schlagzeile zu scrapen?

Andi.