Also treffen kannst du die Links mit einer regular expression.
Zählen kannst du, indem du erstmal versuchst alle gleichartigen Links zu finden. Das geht mit der Funktion 're.findall'.
Code: Alles auswählen
import re
# die Regex ist nicht funktionstüchtig! :)
link_re = re.compile('^< href="(?P<link>.*)"(.*)?$(?uism)')
txt = '''<a href="pdf_navi.asp?y=2007&m=01&d=31&f=35&ext=.pdf" target="PDF_Navi">35</a>
<a href="pdf_navi.asp?y=2007&m=01&d=31&f=35&ext=.pdf" target="PDF_Navi">35</a>
<a href="pdf_navi.asp?y=2007&m=01&d=31&f=35&ext=.pdf" target="PDF_Navi">35</a>'''
# Bsp...
for line in txt.split('\n'):
c = 0
match = link_re.match(line)
if match is not None:
if len(link_re.findall(txt)) == 1:
c += 1
print 'Anzahl Links %d' % c
Ich muss noch darauf hinweisen, das obiges nicht funktioniert, da ich immo nicht in der Lage bin eine ordentliche Regex aufzubauen...
(müde etc...)
Aber so in dem Dreh sollte es funktionieren.
Wenn nicht... meine Müdigkeit war schuld
MfG EnTeQuAk
fehler ausgebessert...