Links aus einer HTML Datei lesen...
Verfasst: Montag 19. Dezember 2011, 16:48
Hallo,
mir ist bewusst das diese Frage sicherlich schon des öfteren gestellt wurde.
Schließlich kam ich durch folgenden Thread schon recht weit: http://www.python-forum.de/viewtopic.ph ... &view=next
Nun habe ich jedoch folgendes Problem* Script anbei.
Jegliche Links sollen ausgegeben werden, die tatsächliche Ausgabe beinhaltet jedoch lediglich:
Weitere Informationsquelle: http://eshca.net/books/DE/python/python ... 15_002.htm
Würde mich sehr über Hinweise freuen...
Vielen Dank schon mal für eure Aufmerksamkeit!
Gruß
mir ist bewusst das diese Frage sicherlich schon des öfteren gestellt wurde.
Schließlich kam ich durch folgenden Thread schon recht weit: http://www.python-forum.de/viewtopic.ph ... &view=next
Nun habe ich jedoch folgendes Problem* Script anbei.
Jegliche Links sollen ausgegeben werden, die tatsächliche Ausgabe beinhaltet jedoch lediglich:
Irgendwie stehe ich just auf dem Schlauch und dachte mir frage ich mal nach...Name: Navigation, Link: #mw-head
Code: Alles auswählen
from bottle import run, route
import urllib2
import cookielib
import re
@route('/')
def index():
cj = cookielib.LWPCookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
opener.addheaders = [('User-agent', 'Mozilla/5.0 (Windows; U; Windows NT 5.1; de; rv:1.9.0.10) Gecko/2009042316 Firefox/3.0.10')]
url1 = "http://de.wikipedia.org/wiki/Kategorie:Norwegische_Band"
html = opener.open(url1).read()
it = re.finditer(r"<[a].*href=[\"\'](.*?)[\"\'].*>(.*?)</[a]>", html, re.I)
for m in it:
return "Name: %s, Link: %s" % (m.group(2), m.group(1))
run(host='localhost', port=8080)
Würde mich sehr über Hinweise freuen...
Vielen Dank schon mal für eure Aufmerksamkeit!
Gruß