habe ich, funzt soweit auch, allerdings habe ich durch die zweite () immer eine Tupel mit den Domains und deren Unterseiten, wenn ich allerdings die zweite () weglasse, weiß der Interpreter nicht, worauf sich das Oderzeichen | bezieht, kann mich jemand weiterhelfen?<a href="http://(.+?)(/{1}.+?"{1}|"{1})
Regex Pattern, um alle Domains rauszufiltern
Ich habe wieder mal eine Frage zum Thema Regex an euch, unzwar geht es darum, einen Regex Pattern zu finden, der auf jeder Seite funktioniert (Domains rausfiltern):
>> Warum so umständlich? Tut es '<a href="http://(.+?)"' nicht auch?
Habe ich als Test auf 100 Websites angewandt und mich dagegen entschieden:
1. Will ich nur die Domains, da werden auch Unterseiten mitgematcht
2. Versteht der Interpreter die Anweisung manchmal nicht und zeigt mir auch mal die Tags drumherum an...
Zum Thema Quotes: daran habe ich auch schon gedacht, allerdings sollte der Code erstmal bei einfachen Quotes funzen...
Habe ich als Test auf 100 Websites angewandt und mich dagegen entschieden:
1. Will ich nur die Domains, da werden auch Unterseiten mitgematcht
2. Versteht der Interpreter die Anweisung manchmal nicht und zeigt mir auch mal die Tags drumherum an...
Zum Thema Quotes: daran habe ich auch schon gedacht, allerdings sollte der Code erstmal bei einfachen Quotes funzen...
Zuletzt geändert von pythonguy am Mittwoch 2. Januar 2008, 19:38, insgesamt 2-mal geändert.