Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
txt="blabla blabla .... und weiteres blabla Und jetzt kommt der Link <a href='http://www.adresse.de/xy.php?go=3478hdb329x98e7'>LINK</a>
Der Link beginnt immer mit "http://www.adresse.de/xy.php?go=" das einzigste was immer variert ist der Parameter-Code.
Welchen Plattern muss ich benutzen um nur den Link herauszufiltern?
Manchmal (vor allem im Perl-Bereich) kommt es mir vor, als benutzten Leute Programmierforen nur, um schnell mal 'ne RegEx ausgespuckt zu bekommen.
Da mach' ich so nicht mit.
Zeig' erstmal, wie weit Du gekommen bist, was Deine bisherige RegEx ausspuckt und wo genau Du angeblich nicht weiterkommst.
import HTMLParser
class MyHTMLParser(HTMLParser.HTMLParser):
def handle_starttag(self, tag, attrs):
if tag != "a":
return
attr = dict(attrs)
if "href" in attr and attr["href"].startswith("http://www.adresse.de/xy.php?go="):
print attr["href"]
txt="blabla blabla .... und weiteres blabla Und jetzt kommt der Link <a href='http://www.adresse.de/xy.php?go=3478hdb329x98e7'>LINK</a>"
MyHTMLParser().feed(txt)
from lxml.html import iterlinks
from operator import itemgetter
print "\n".join(map(itemgetter(2), iterlinks("""blabla blabla .... und weiteres blabla
Und jetzt kommt der Link
<a href='http://www.adresse.de/xy.php?go=3478hdb329x98e7'>
LINK</a>""")))