ich möchte von einer Website links abgreifen, das Problem ist, das eben das der Content nicht komplett geladen ist zu anfang.
Wenn man auf der Seite das Seitenende erreicht hat wird der restliche Content erst nachgeladen.
Mein Code funktioniert bisher, nur bekomme ich halt nur die ersten paar Links raus, aber eben nicht alle ...
Wie stelle ich es an das ich den gesamten content der html (also auch der der noch nicht nachgeladen wurde) durchsuchen kann.
Mein Code sieht bisher so aus:
Code: Alles auswählen
import urllib.request
import re
#connect to a URL
website = urllib.request.urlopen("URL")
#read html code
html = website.read().decode('utf-8')
#use re.findall to get all the links
links = re.findall('"((http|ftp)s?://scontent.*?)"', html)
print(links)
#print(len(links))