Regex Pattern, um alle Domains rauszufiltern

pythonguy · Mittwoch 2. Januar 2008, 17:18

Ich habe wieder mal eine Frage zum Thema Regex an euch, unzwar geht es darum, einen Regex Pattern zu finden, der auf jeder Seite funktioniert (Domains rausfiltern):

<a href="http://(.+?)(/{1}.+?"{1}|"{1})

habe ich, funzt soweit auch, allerdings habe ich durch die zweite () immer eine Tupel mit den Domains und deren Unterseiten, wenn ich allerdings die zweite () weglasse, weiß der Interpreter nicht, worauf sich das Oderzeichen | bezieht, kann mich jemand weiterhelfen?

BlackJack · Mittwoch 2. Januar 2008, 18:44

Warum so umständlich? Tut es '<a href="http://(.+?)"' nicht auch?

Leonidas · Mittwoch 2. Januar 2008, 19:25

Davon mal abgesehen dass es knallt, wenn jemand beim href statt Doppelquotes Einfachquotes verwendet oder die Quotes weglässt.

pythonguy · Mittwoch 2. Januar 2008, 19:36

>> Warum so umständlich? Tut es '<a href="http://(.+?)"' nicht auch?

Habe ich als Test auf 100 Websites angewandt und mich dagegen entschieden:

1. Will ich nur die Domains, da werden auch Unterseiten mitgematcht
2. Versteht der Interpreter die Anweisung manchmal nicht und zeigt mir auch mal die Tags drumherum an...

Zum Thema Quotes: daran habe ich auch schon gedacht, allerdings sollte der Code erstmal bei einfachen Quotes funzen...

BlackJack · Mittwoch 2. Januar 2008, 20:20

Okay, dann halt: '<a href="http://(.+?)(?:/.*)?"

pythonguy · Mittwoch 2. Januar 2008, 21:27

Super dank, das funzt