Python und Gewinnung von Webseiteninhalten

mc_mak · Freitag 18. August 2006, 20:42

Hallo,

ich möchte, nachdem ich eine Webseiten (über urllib.urlopen) eingelesen habe alle Teil-Links (z.B. "../images/test.gif", "net.html",..), die auf der Seite vorkommen ersetzen durch den kompletten Pfad (dementsprechend beispielsweise "http://www.test.de/images/test.gif", "http://www.test.de/test/net.html",..). Nun kann man mit BeautifulSoup (http://www.crummy.com/software/BeautifulSoup/) alle "<a href" und "img" links bekommen, aber beispielsweise nicht die background=".." - Links.

Hat jemand eine Idee, wie man so etwas implementieren könnte?