bin ziemlich neu dabei und habe eine Frage zu folgendem Code, der die Links einer Seite (NICHT!) ausgeben soll:
Code: Alles auswählen
from httplib import *
import re
def getLinks(url):
verb = HTTPConnection(url)
verb.request('GET','/')
antw = verb.getresponse()
html = antw.read()
p = re.compile('(?<=href=")(.*?)(?=")')
link_matches = p.findall(html)
for a in link_matches:
if a != re.compile('(?<=href=")(.*?)(?=")'):
print a
#print link_matches
getLinks('www.spiegel.de')
Mein Ziel ist es, alle Links auszugeben, bloss nicht die, die auf die Seite selbst zeigen. Um das aber zu verstehen, wollte ich erst mal dieses Verhalten untersuchen ;-P
Vielen Dank...
Jurudoca