Seite 1 von 1

Probleme mit Regex

Verfasst: Sonntag 30. Dezember 2007, 13:32
von pythonguy
Es geht um folgendes: Ich will alle externe Links von Google, also z.B. die Seite

http://www.google.de/search?hl=de&q=pyt ... uche&meta=

Dazu habe ich den folgenden Code:

Code: Alles auswählen

findall('<h2 class=r><a href=".+" class=l',google)
Der Interpreter spuckt zwar die externe Links aus, allerdings mit den Formatierungen und Descriptions drum herum, kann mir jemand weiterhelfen?

Verfasst: Sonntag 30. Dezember 2007, 13:56
von michba
Hi, setze runde Klammern um .+

Code: Alles auswählen

findall('<h2 class=r><a href="(.+)" class=l',google)

Verfasst: Sonntag 30. Dezember 2007, 14:02
von schlangenbeschwörer

Code: Alles auswählen

findall('<h2 class=r><a href="(.+?)" class=l',google)
das in runden klammern wird ausgegeben
das ? sorgt für die kleinste gruppe, die passt

Verfasst: Sonntag 30. Dezember 2007, 14:10
von pythonguy
Super dank, hat mich weitergeholfen :-)