RegExp um Links aus Webseiten zu parsen?

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
pythonneuling
User
Beiträge: 3
Registriert: Mittwoch 9. November 2005, 22:16

RegExp um Links aus Webseiten zu parsen?

Beitragvon pythonneuling » Mittwoch 14. Dezember 2005, 23:10

Hallo,

ich habe in einem String eine beliebige Webseite eingelesen und möchte daraus nun die Ergebnisse filtern. In dem Fall alle enthaltenen Links extrahieren. Ich mache das mit:

Code: Alles auswählen

...
re = compile('http://.+html?', I)
re.findall(result)
...
...aber das arbeitet nicht sehr zuverlässig. Bei einigen Seiten klappts, bei anderen nicht. Weiß jemand Rat?

Greetz
pythonneuling
Benutzeravatar
Olliminatore
User
Beiträge: 55
Registriert: Montag 30. Mai 2005, 16:03
Wohnort: schönsten Stadt Deutschlands
Kontaktdaten:

Beitragvon Olliminatore » Mittwoch 14. Dezember 2005, 23:45

Vieleicht weil manche Seiten mit ".htm" enden!? :P

Schon komisch, der 3. Thread innerhalb von einem Tag mit dem gleichen Thema.
Love Jamba <!--Olliminatore-->input<?/> Boycott Jamba

Code: Alles auswählen

def olliminiert(optimiert, eliminiert, terminiert):
pythonneuling
User
Beiträge: 3
Registriert: Mittwoch 9. November 2005, 22:16

Beitragvon pythonneuling » Mittwoch 14. Dezember 2005, 23:55

Olliminatore hat geschrieben:Vieleicht weil manche Seiten mit ".htm" enden!? :P


Das wird erkannt. re matched auf alle Strings mit html inklusive htm. Es gibt eher Schwierigkeiten mit den Seiten die keine Endung haben oder in href eingebetet sind.
Benutzeravatar
Olliminatore
User
Beiträge: 55
Registriert: Montag 30. Mai 2005, 16:03
Wohnort: schönsten Stadt Deutschlands
Kontaktdaten:

Beitragvon Olliminatore » Donnerstag 15. Dezember 2005, 00:19

Aja dann wollte ich wohl gerade nur verdeutlichen, dass ich mich mit re nicht auskenne. :?

Vieleicht weil manche Links relative Pfade sind? (also ohne http)
Nagut ich gehe dann mal re anlernen. :P
Love Jamba <!--Olliminatore-->input<?/> Boycott Jamba

Code: Alles auswählen

def olliminiert(optimiert, eliminiert, terminiert):
Benutzeravatar
ello
User
Beiträge: 14
Registriert: Montag 18. Juli 2005, 16:35
Wohnort: Eberswalde
Kontaktdaten:

Beitragvon ello » Donnerstag 15. Dezember 2005, 00:29

Wenn man mal fragen darf...
Wozu brauch man soetwas?

Ich hab von regexp nicht so die Ahung, aber wieso verzichtest du nicht einfach mal auf html und beziehst dich stattdessen auf das href. Denn Links sind doch generell in href="".

Gruß
ello
Losing my passport was the least of my worries,
losing a notebook was a catastrophe

--Bruce Chatwin

Wer ist online?

Mitglieder in diesem Forum: Bing [Bot]