Das deutsche Python-Forum

Ich habe wieder mal eine Frage zum Thema Regex an euch, unzwar geht es darum, einen Regex Pattern zu finden, der auf jeder Seite funktioniert (Domains rausfiltern):

<a href="http://(.+?)(/{1}.+?"{1}|"{1})

habe ich, funzt soweit auch, allerdings habe ich durch die zweite () immer eine Tupel mit den Domains und deren Unterseiten, wenn ich allerdings die zweite () weglasse, weiß der Interpreter nicht, worauf sich das Oderzeichen | bezieht, kann mich jemand weiterhelfen?

Warum so umständlich? Tut es '<a href="http://(.+?)"' nicht auch?

Davon mal abgesehen dass es knallt, wenn jemand beim href statt Doppelquotes Einfachquotes verwendet oder die Quotes weglässt.

>> Warum so umständlich? Tut es '<a href="http://(.+?)"' nicht auch?

Habe ich als Test auf 100 Websites angewandt und mich dagegen entschieden:

1. Will ich nur die Domains, da werden auch Unterseiten mitgematcht
2. Versteht der Interpreter die Anweisung manchmal nicht und zeigt mir auch mal die Tags drumherum an...

Zum Thema Quotes: daran habe ich auch schon gedacht, allerdings sollte der Code erstmal bei einfachen Quotes funzen...

Okay, dann halt: '<a href="http://(.+?)(?:/.*)?"

Super dank, das funzt

Das deutsche Python-Forum

Regex Pattern, um alle Domains rauszufiltern

Regex Pattern, um alle Domains rauszufiltern