Python und Gewinnung von Webseiteninhalten

Sockets, TCP/IP, (XML-)RPC und ähnliche Themen gehören in dieses Forum
Antworten
mc_mak
User
Beiträge: 9
Registriert: Freitag 4. August 2006, 11:17

Hallo,

ich möchte, nachdem ich eine Webseiten (über urllib.urlopen) eingelesen habe alle Teil-Links (z.B. "../images/test.gif", "net.html",..), die auf der Seite vorkommen ersetzen durch den kompletten Pfad (dementsprechend beispielsweise "http://www.test.de/images/test.gif", "http://www.test.de/test/net.html",..). Nun kann man mit BeautifulSoup (http://www.crummy.com/software/BeautifulSoup/) alle "<a href" und "img" links bekommen, aber beispielsweise nicht die background=".." - Links.

Hat jemand eine Idee, wie man so etwas implementieren könnte?
Antworten