Web Scraping / T-Online

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Antworten
AndiS
User
Beiträge: 24
Registriert: Dienstag 21. September 2021, 20:44

Hallo Forum,

ich würde gerne - just for fun - die täglichen Schlagzeilen (Top Themen) von T-Online scrapen. Das Bild ist ansich kein Problem und funktioniert auch sehr gut ...
nur würde ich gerne auch die Schlagzeile selbst - die als Text darübergelegt wird - mit sichern. Hat vielleicht jemand eine Idee, wie man sowas lösen könnte?

Vielen Dank ;-)

Andi
einfachTobi
User
Beiträge: 491
Registriert: Mittwoch 13. November 2019, 08:38

Genau so wie du an dein Bild kommst. Schau dir im Browser an, welche Teile der Elemente zur eindeutigen Identifikation taugen und such dir diese raus. So ziemlich alle modernen Browser bieten mit einem Rechtsklick auf das Element die Option "Untersuchen" (oder ähnlich). Dann kannst du bequem mit durch die Elemente blättern.
Beispiel:

Code: Alles auswählen

import requests
import bs4 as bs
soup = bs.BeautifulSoup(requests.get("http://www.t-online.de").content)
soup.find_all(class_="Tstage-text")[0].text
>>> '\n Neue Eiszeit mit den USA?\nHintervorgehaltenerHandbefürchtetEuropadasSchlimmsteVon Patrick Diekmann, New York  '
AndiS
User
Beiträge: 24
Registriert: Dienstag 21. September 2021, 20:44

Hallo Tobi,

danke für deine schnelle Hilfe ;-)

Den Text zu scrapen ist nicht das Problem! Das läuft! Ich würde gerne, dass das Bild inkl. Text (Schlagzeile) in dem Bild mit gespeichert wird!

Gruß, Andi
rogerb
User
Beiträge: 878
Registriert: Dienstag 26. November 2019, 23:24

@AndiS,

Bilder sind nicht im HTML Code enthalten, sondern nur der Download-Link (src-Attribut des img-Tags). Mit der "requests" Library kannst du sie dann über den entsprechenden Link herunterladen.
AndiS
User
Beiträge: 24
Registriert: Dienstag 21. September 2021, 20:44

Hallo,

den Text bzw. das Bild kann ich herunterladen.. das ist nicht das Problem! Ich suche aber nach einer Möglichkeit,
wie ich das Bild inkl. Schlagzeile als Bild speichern kann. Letztendlich wie es auf T-Online angezeigt wird.

Gruß, Andi.
__deets__
User
Beiträge: 14493
Registriert: Mittwoch 14. Oktober 2015, 14:29

Das geht nicht. Das ist per HTML darüber gelegt. Das so zusammen abzugreifen wird über requests niemals gehen.

Laut https://stackoverflow.com/questions/342 ... -webdriver könnte es mit selenium gehen.
rogerb
User
Beiträge: 878
Registriert: Dienstag 26. November 2019, 23:24

@AndiS,
wie ich das Bild inkl. Schlagzeile als Bild speichern kann.
Als wortwörtlich genommen, müsstest du eine Bildverarbeitslibrary verwenden um die Schlagzeile in das Bild einzufügen. Meinst du das?
https://pillow.readthedocs.io/en/stable ... eDraw.text
AndiS
User
Beiträge: 24
Registriert: Dienstag 21. September 2021, 20:44

Hallo rogerb,

wow .. das kommt der Sache schon ziemlich nahe!

Danke für den Tipp ;-)

Gruß, AndiS
Antworten