und zwar, ich möchte aus einer webseite die links rausfiltern, und zwar nur mit RE und nicht mit BeatifulSoup
allerdings ist das problem nicht das ich das garnicht hinbekomme, sondern das es auf der seite 4 "arten" von links gibt:
1. href="irgendwas[...]"
2. href="/irgendwas[...]"
3. href="http://www.site[...]"
und
4. href="http://www.fremdesite[...]"
2. und 3. stellt kein problem dar
aber nun möchte ich nur noch 1. haben
wenn ich mit
Code: Alles auswählen
links.append(re.findall('href="(.+?)"',html))
ich bräuchte also irgendwas in der richtung
Code: Alles auswählen
links.append(re.findall('href="(.+?)"' and not 'href="(http://.+?)"',html))
mfg alo