nur site eigene links parsen
Verfasst: Samstag 21. April 2007, 12:56
Hiho, also euer forum hat mir ja schon ganz schön geholfen, nun steh ich leider vor einem problem wo ich keine lösung finde
und zwar, ich möchte aus einer webseite die links rausfiltern, und zwar nur mit RE und nicht mit BeatifulSoup
allerdings ist das problem nicht das ich das garnicht hinbekomme, sondern das es auf der seite 4 "arten" von links gibt:
1. href="irgendwas[...]"
2. href="/irgendwas[...]"
3. href="http://www.site[...]"
und
4. href="http://www.fremdesite[...]"
2. und 3. stellt kein problem dar
aber nun möchte ich nur noch 1. haben
wenn ich mit arbeite bekomme ich ja alle
ich bräuchte also irgendwas in der richtung
aber das geht ja nicht, also irgendwie hängt da grad was bei mir im kopf schief oder ich komm einfach nicht drauf
mfg alo
und zwar, ich möchte aus einer webseite die links rausfiltern, und zwar nur mit RE und nicht mit BeatifulSoup
allerdings ist das problem nicht das ich das garnicht hinbekomme, sondern das es auf der seite 4 "arten" von links gibt:
1. href="irgendwas[...]"
2. href="/irgendwas[...]"
3. href="http://www.site[...]"
und
4. href="http://www.fremdesite[...]"
2. und 3. stellt kein problem dar
aber nun möchte ich nur noch 1. haben
wenn ich mit
Code: Alles auswählen
links.append(re.findall('href="(.+?)"',html))
ich bräuchte also irgendwas in der richtung
Code: Alles auswählen
links.append(re.findall('href="(.+?)"' and not 'href="(http://.+?)"',html))
mfg alo