Web Scraping / T-Online

AndiS · Dienstag 21. September 2021, 21:06

Hallo Forum,

ich würde gerne - just for fun - die täglichen Schlagzeilen (Top Themen) von T-Online scrapen. Das Bild ist ansich kein Problem und funktioniert auch sehr gut ...
nur würde ich gerne auch die Schlagzeile selbst - die als Text darübergelegt wird - mit sichern. Hat vielleicht jemand eine Idee, wie man sowas lösen könnte?

Vielen Dank

Andi

einfachTobi · Mittwoch 22. September 2021, 11:24

Genau so wie du an dein Bild kommst. Schau dir im Browser an, welche Teile der Elemente zur eindeutigen Identifikation taugen und such dir diese raus. So ziemlich alle modernen Browser bieten mit einem Rechtsklick auf das Element die Option "Untersuchen" (oder ähnlich). Dann kannst du bequem mit durch die Elemente blättern.
Beispiel:

Code: Alles auswählen

import requests
import bs4 as bs
soup = bs.BeautifulSoup(requests.get("http://www.t-online.de").content)
soup.find_all(class_="Tstage-text")[0].text
>>> '\n Neue Eiszeit mit den USA?\nHintervorgehaltenerHandbefürchtetEuropadasSchlimmsteVon Patrick Diekmann, New York  '

AndiS · Mittwoch 22. September 2021, 20:15

Hallo Tobi,

danke für deine schnelle Hilfe

Den Text zu scrapen ist nicht das Problem! Das läuft! Ich würde gerne, dass das Bild inkl. Text (Schlagzeile) in dem Bild mit gespeichert wird!

Gruß, Andi

rogerb · Mittwoch 22. September 2021, 20:35

@AndiS,

Bilder sind nicht im HTML Code enthalten, sondern nur der Download-Link (src-Attribut des img-Tags). Mit der "requests" Library kannst du sie dann über den entsprechenden Link herunterladen.

AndiS · Donnerstag 23. September 2021, 21:32

Hallo,

den Text bzw. das Bild kann ich herunterladen.. das ist nicht das Problem! Ich suche aber nach einer Möglichkeit,
wie ich das Bild inkl. Schlagzeile als Bild speichern kann. Letztendlich wie es auf T-Online angezeigt wird.

Gruß, Andi.

__deets__ · Donnerstag 23. September 2021, 21:40

Das geht nicht. Das ist per HTML darüber gelegt. Das so zusammen abzugreifen wird über requests niemals gehen.

Laut https://stackoverflow.com/questions/342 ... -webdriver könnte es mit selenium gehen.

rogerb · Donnerstag 23. September 2021, 22:28

@AndiS,

wie ich das Bild inkl. Schlagzeile als Bild speichern kann.

Als wortwörtlich genommen, müsstest du eine Bildverarbeitslibrary verwenden um die Schlagzeile in das Bild einzufügen. Meinst du das?
https://pillow.readthedocs.io/en/stable ... eDraw.text

AndiS · Freitag 24. September 2021, 21:02

Hallo rogerb,

wow .. das kommt der Sache schon ziemlich nahe!

Danke für den Tipp

Gruß, AndiS