auch. Das Problem an dem ich jetzt sitze ist das ich zwar die Links der
StartURL bekomme ich aber diese Links nicht weiterverfolgen kann.
ich speichere die Links alle in temp4 jetzt versuche die Links in temp4
zu öffnen und nacheinander abzuarbeiten. Ich komme im Moment absolut nicht weiter.
Wäre echt toll wenn jemand einen Tipp für mich hat
McAce
Code: Alles auswählen
import urllib, htmllib, formatter
from urlparse import urlparse
class EigenerParser(htmllib.HTMLParser): # Parser Klasse
def __init__(self, formatter): #Initialisieren eines Objects
htmllib.HTMLParser.__init__(self, formatter) #gibt text an die superclasse
self.links = []
def start_a(self, attrs): #start um die Links auf der Startseite in liste zu schreiben
for attr in attrs :
if attr[0] == "href" :
self.links.append(attr[1])
def get_links(self):
return self.links
format = formatter.NullFormatter()
htmlparser = EigenerParser(format)
URL ="http://www.uni-due.de"
temp1 = urlparse(URL)[1]
temp2 = temp1.split(".")
tld = temp2[-1]
domain = temp2[-2]+"."+temp2[-1]
print "domain is: "+domain
f = urllib.urlopen(URL) #Eingabe des Startlinks
htmlparser.feed(f.read())
htmlparser.close()
links = htmlparser.get_links()
for index, line in enumerate(links):
if (line.split(":",1)[0])==("http")or(line.split(":",1)[0]=="https"):
#print links[index]
if (line.find(domain) == -1):
temp3 = urlparse(line)
temp4 = temp3[0]+"://"+temp3[1]
print temp4
for line in temp4:
print line