Scraping von Webseite / Übung

Sockets, TCP/IP, (XML-)RPC und ähnliche Themen gehören in dieses Forum
Antworten
pythonschlange
User
Beiträge: 1
Registriert: Montag 23. November 2020, 18:19

Hallo ich bin neu hier im Forum und bei Python.
Mache derweil einen Pythonkurs auf http://www.freecodecamp.org mit.

Grade bin ich am Ausprobieren der verschiedenen Python Scraping Methoden zu Übungszwecken.
Da ich in der Nähe eines Sees wohne und eine Webseite hier die Wassertemperatur listet würde ich sie nun gerne auch spaßeshalber auslesen.

Die Wassertemperatur ist auf:
https://www.goitzsche-tourismus.de/goit ... temperatur

zu finden.

Doch ich bekomme sie weder per Regular Expression noch die "ID" oder "Klasse" mit BeautifulSoup und urrlib.

Könnte es sein, dass der Inhalt asynchron oder nach user-agent geladen wird? Und wenn ja .. wie komme ich dan die Wassertemperatur?
Nochmal: es geht mir dabei lediglich um die Übung und "Herausforderung" , später vielleicht mal meinen privaten Nutzen.

Mein Codebeispiel hier mit BeautifulSoup und id

Code: Alles auswählen

import urllib.request, urllib.parse, urllib.error
from bs4 import BeautifulSoup
import re
import ssl

# Ignore SSL certificate errors
ctx = ssl.create_default_context()
ctx.check_hostname = False
ctx.verify_mode = ssl.CERT_NONE

url = 'https://www.goitzsche-tourismus.de/goitzsche-bitterfeld/specials/172-wassertemperatur'
html = urllib.request.urlopen(url, context=ctx).read()
soup = BeautifulSoup(html, 'html.parser')
text = soup.find(id = 'pegel').text.strip()
print(text)

Sirius3
User
Beiträge: 17711
Registriert: Sonntag 21. Oktober 2012, 17:20

Du mußt die Seite in den Entwicklertools Deines Browsers untersuchen.
Die Daten kommen von https://pegel-muldestausee.de/mwget.php ... 1897ace618
Antworten