Das wird erkannt. re matched auf alle Strings mit html inklusive htm. Es gibt eher Schwierigkeiten mit den Seiten die keine Endung haben oder in href eingebetet sind.Olliminatore hat geschrieben:Vieleicht weil manche Seiten mit ".htm" enden!?
Die Suche ergab 3 Treffer
- Mittwoch 14. Dezember 2005, 23:55
- Forum: Allgemeine Fragen
- Thema: RegExp um Links aus Webseiten zu parsen?
- Antworten: 4
- Zugriffe: 2029
- Mittwoch 14. Dezember 2005, 23:10
- Forum: Allgemeine Fragen
- Thema: RegExp um Links aus Webseiten zu parsen?
- Antworten: 4
- Zugriffe: 2029
RegExp um Links aus Webseiten zu parsen?
Hallo,
ich habe in einem String eine beliebige Webseite eingelesen und möchte daraus nun die Ergebnisse filtern. In dem Fall alle enthaltenen Links extrahieren. Ich mache das mit: ...
re = compile('http://.+html?', I)
re.findall(result)
... ...aber das arbeitet nicht sehr zuverlässig. Bei einigen ...
ich habe in einem String eine beliebige Webseite eingelesen und möchte daraus nun die Ergebnisse filtern. In dem Fall alle enthaltenen Links extrahieren. Ich mache das mit: ...
re = compile('http://.+html?', I)
re.findall(result)
... ...aber das arbeitet nicht sehr zuverlässig. Bei einigen ...
- Mittwoch 9. November 2005, 22:20
- Forum: Allgemeine Fragen
- Thema: Funktion zur Listenvereinigung
- Antworten: 9
- Zugriffe: 2153