Ich bin neu bei Python und im Forum. Also geht erstmal ein freundlicher Gruss in die Runde.
Meine Frage ist folgende. Ich möchte alle ausgehenden Links zu externen Seiten einer Domain extrahieren und in eine Datei schreiben.
Zu diesem Zweck habe ich mir ein fertiges Snippet gesucht und beschäftige mich nun damit. Allerdings funktioniert es bei mir nicht wie es soll und nun stehe ich ein wenig auf dem Schlauch.
Code: Alles auswählen
import urllib,re
htmlFile = urllib.urlopen("http://www.example.com")
html = htmlFile.read()
regexp_link = r'''</?a((s+w+(s*=s*(?:".*?"|'.*?'|[^'">s]+))?)+s*|s*)/?>w+</a>'''
pattern = re.compile(regexp_link)
links = re.findall(pattern, html)
#print all matches
print links
Code: Alles auswählen
[]
Vielen Dank.