Seite 1 von 1

Web Scraping / T-Online

Verfasst: Dienstag 21. September 2021, 21:06
von AndiS
Hallo Forum,

ich würde gerne - just for fun - die täglichen Schlagzeilen (Top Themen) von T-Online scrapen. Das Bild ist ansich kein Problem und funktioniert auch sehr gut ...
nur würde ich gerne auch die Schlagzeile selbst - die als Text darübergelegt wird - mit sichern. Hat vielleicht jemand eine Idee, wie man sowas lösen könnte?

Vielen Dank ;-)

Andi

Re: Web Scraping / T-Online

Verfasst: Mittwoch 22. September 2021, 11:24
von einfachTobi
Genau so wie du an dein Bild kommst. Schau dir im Browser an, welche Teile der Elemente zur eindeutigen Identifikation taugen und such dir diese raus. So ziemlich alle modernen Browser bieten mit einem Rechtsklick auf das Element die Option "Untersuchen" (oder ähnlich). Dann kannst du bequem mit durch die Elemente blättern.
Beispiel:

Code: Alles auswählen

import requests
import bs4 as bs
soup = bs.BeautifulSoup(requests.get("http://www.t-online.de").content)
soup.find_all(class_="Tstage-text")[0].text
>>> '\n Neue Eiszeit mit den USA?\nHintervorgehaltenerHandbefürchtetEuropadasSchlimmsteVon Patrick Diekmann, New York  '

Re: Web Scraping / T-Online

Verfasst: Mittwoch 22. September 2021, 20:15
von AndiS
Hallo Tobi,

danke für deine schnelle Hilfe ;-)

Den Text zu scrapen ist nicht das Problem! Das läuft! Ich würde gerne, dass das Bild inkl. Text (Schlagzeile) in dem Bild mit gespeichert wird!

Gruß, Andi

Re: Web Scraping / T-Online

Verfasst: Mittwoch 22. September 2021, 20:35
von rogerb
@AndiS,

Bilder sind nicht im HTML Code enthalten, sondern nur der Download-Link (src-Attribut des img-Tags). Mit der "requests" Library kannst du sie dann über den entsprechenden Link herunterladen.

Re: Web Scraping / T-Online

Verfasst: Donnerstag 23. September 2021, 21:32
von AndiS
Hallo,

den Text bzw. das Bild kann ich herunterladen.. das ist nicht das Problem! Ich suche aber nach einer Möglichkeit,
wie ich das Bild inkl. Schlagzeile als Bild speichern kann. Letztendlich wie es auf T-Online angezeigt wird.

Gruß, Andi.

Re: Web Scraping / T-Online

Verfasst: Donnerstag 23. September 2021, 21:40
von __deets__
Das geht nicht. Das ist per HTML darüber gelegt. Das so zusammen abzugreifen wird über requests niemals gehen.

Laut https://stackoverflow.com/questions/342 ... -webdriver könnte es mit selenium gehen.

Re: Web Scraping / T-Online

Verfasst: Donnerstag 23. September 2021, 22:28
von rogerb
@AndiS,
wie ich das Bild inkl. Schlagzeile als Bild speichern kann.
Als wortwörtlich genommen, müsstest du eine Bildverarbeitslibrary verwenden um die Schlagzeile in das Bild einzufügen. Meinst du das?
https://pillow.readthedocs.io/en/stable ... eDraw.text

Re: Web Scraping / T-Online

Verfasst: Freitag 24. September 2021, 21:02
von AndiS
Hallo rogerb,

wow .. das kommt der Sache schon ziemlich nahe!

Danke für den Tipp ;-)

Gruß, AndiS