ich bin relativ neu in Python.
Meine Aufgabe bestand darin, dass ich die Anne Wills Talkshow Website nach den Gästen filter.
ich habe einen Code erstellt, der eigentlich auch einwandfrei funktioniert. Ich habe die Gäste Liste nun als Ergebnis bekommen, aber mit teilen des html codes.
Könnte mir vielleicht jemand erklären wie ich nur die Namen raus bekomme ohne den rest?
Der Code:
Code: Alles auswählen
from bs4 import BeautifulSoup
import requests
html = 'https://daserste.ndr.de/annewill/index.html'
hauptlink = 'https://daserste.ndr.de/'
req_html = requests.get(html).content
soup_html = BeautifulSoup(req_html, 'html.parser')
sendung = hauptlink + soup_html.select_one('div[class="mod modA modStage"] a[class="imglink"]')['href']
req_sendung = requests.get(sendung).content
soup_sendung = BeautifulSoup(req_sendung, 'html.parser')
gaesteseite = hauptlink + soup_sendung.select_one('a[title*="Gäste"]')['href']
req_gaesteseite = requests.get(gaesteseite).content
soup_gaesteseite = BeautifulSoup(req_gaesteseite, 'html.parser')
gaesteliste = soup_gaesteseite.select('h3[class="subtitle small"]')
print(gaesteliste)
[<h3 class="subtitle small"><br/><br/>Olaf Scholz (SPD)</h3>, <h3 class="subtitle small"><br/><br/>Alexander Kekulé</h3>, <h3 class="subtitle small"><br/><br/>Martina Wenker</h3>, <h3 class="subtitle small"><br/><br/>Christel Bienstein</h3>, <h3 class="subtitle small"><br/><br/>Jens Südekum</h3>, <h3 class="subtitle small"><br/><br/>Christian Gerlitz (SPD)</h3>]
Falls jemand so gütig ist und mir helfen kann. Vielen dank.
Mfg