Externe Links aus Domain extrahieren
Verfasst: Freitag 25. Oktober 2013, 07:34
Hallo.
Ich bin neu bei Python und im Forum. Also geht erstmal ein freundlicher Gruss in die Runde.
Meine Frage ist folgende. Ich möchte alle ausgehenden Links zu externen Seiten einer Domain extrahieren und in eine Datei schreiben.
Zu diesem Zweck habe ich mir ein fertiges Snippet gesucht und beschäftige mich nun damit. Allerdings funktioniert es bei mir nicht wie es soll und nun stehe ich ein wenig auf dem Schlauch.
Wenn ich es ausführe erhalte ich lediglich folgende Ausgabe:
Welche Domain ich auch eintrage, das Ergebnis bleibt gleich. Kann mir bitte jemand sagen was hier schief läuft?
Vielen Dank.
Ich bin neu bei Python und im Forum. Also geht erstmal ein freundlicher Gruss in die Runde.
Meine Frage ist folgende. Ich möchte alle ausgehenden Links zu externen Seiten einer Domain extrahieren und in eine Datei schreiben.
Zu diesem Zweck habe ich mir ein fertiges Snippet gesucht und beschäftige mich nun damit. Allerdings funktioniert es bei mir nicht wie es soll und nun stehe ich ein wenig auf dem Schlauch.
Code: Alles auswählen
import urllib,re
htmlFile = urllib.urlopen("http://www.example.com")
html = htmlFile.read()
regexp_link = r'''</?a((s+w+(s*=s*(?:".*?"|'.*?'|[^'">s]+))?)+s*|s*)/?>w+</a>'''
pattern = re.compile(regexp_link)
links = re.findall(pattern, html)
#print all matches
print links
Code: Alles auswählen
[]
Vielen Dank.