Python und Gewinnung von Webseiteninhalten

Sockets, TCP/IP, (XML-)RPC und ähnliche Themen gehören in dieses Forum
mc_mak
User
Beiträge: 9
Registriert: Freitag 4. August 2006, 11:17

Python und Gewinnung von Webseiteninhalten

Beitragvon mc_mak » Freitag 18. August 2006, 20:42

Hallo,

ich möchte, nachdem ich eine Webseiten (über urllib.urlopen) eingelesen habe alle Teil-Links (z.B. "../images/test.gif", "net.html",..), die auf der Seite vorkommen ersetzen durch den kompletten Pfad (dementsprechend beispielsweise "http://www.test.de/images/test.gif", "http://www.test.de/test/net.html",..). Nun kann man mit BeautifulSoup (http://www.crummy.com/software/BeautifulSoup/) alle "<a href" und "img" links bekommen, aber beispielsweise nicht die background=".." - Links.

Hat jemand eine Idee, wie man so etwas implementieren könnte?

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder