Die Suche ergab 3 Treffer

von pythonneuling
Mittwoch 14. Dezember 2005, 23:55
Forum: Allgemeine Fragen
Thema: RegExp um Links aus Webseiten zu parsen?
Antworten: 4
Zugriffe: 2029

Olliminatore hat geschrieben:Vieleicht weil manche Seiten mit ".htm" enden!? :P
Das wird erkannt. re matched auf alle Strings mit html inklusive htm. Es gibt eher Schwierigkeiten mit den Seiten die keine Endung haben oder in href eingebetet sind.
von pythonneuling
Mittwoch 14. Dezember 2005, 23:10
Forum: Allgemeine Fragen
Thema: RegExp um Links aus Webseiten zu parsen?
Antworten: 4
Zugriffe: 2029

RegExp um Links aus Webseiten zu parsen?

Hallo,

ich habe in einem String eine beliebige Webseite eingelesen und möchte daraus nun die Ergebnisse filtern. In dem Fall alle enthaltenen Links extrahieren. Ich mache das mit: ...
re = compile('http://.+html?', I)
re.findall(result)
... ...aber das arbeitet nicht sehr zuverlässig. Bei einigen ...
von pythonneuling
Mittwoch 9. November 2005, 22:20
Forum: Allgemeine Fragen
Thema: Funktion zur Listenvereinigung
Antworten: 9
Zugriffe: 2153

Da hatte ich wohl 'nen Knick in der Optik. :idea: Hab den Fehler gefunden. Für Menge a muss ich natürlich auch die Abfrage machen ob es schon in der Liste ist. Tja, manchmal sieht man den Wald vor lauter Bäumen nicht. Sinnlos gepostet aber vielleicht interessierts ja doch jemanden.

Grüße