Mache derweil einen Pythonkurs auf http://www.freecodecamp.org mit.
Grade bin ich am Ausprobieren der verschiedenen Python Scraping Methoden zu Übungszwecken.
Da ich in der Nähe eines Sees wohne und eine Webseite hier die Wassertemperatur listet würde ich sie nun gerne auch spaßeshalber auslesen.
Die Wassertemperatur ist auf:
https://www.goitzsche-tourismus.de/goit ... temperatur
zu finden.
Doch ich bekomme sie weder per Regular Expression noch die "ID" oder "Klasse" mit BeautifulSoup und urrlib.
Könnte es sein, dass der Inhalt asynchron oder nach user-agent geladen wird? Und wenn ja .. wie komme ich dan die Wassertemperatur?
Nochmal: es geht mir dabei lediglich um die Übung und "Herausforderung" , später vielleicht mal meinen privaten Nutzen.
Mein Codebeispiel hier mit BeautifulSoup und id
Code: Alles auswählen
import urllib.request, urllib.parse, urllib.error
from bs4 import BeautifulSoup
import re
import ssl
# Ignore SSL certificate errors
ctx = ssl.create_default_context()
ctx.check_hostname = False
ctx.verify_mode = ssl.CERT_NONE
url = 'https://www.goitzsche-tourismus.de/goitzsche-bitterfeld/specials/172-wassertemperatur'
html = urllib.request.urlopen(url, context=ctx).read()
soup = BeautifulSoup(html, 'html.parser')
text = soup.find(id = 'pegel').text.strip()
print(text)