Ich möchte gerne einen HTML Quelltext nach einem bestimmten textstring durchsuchen.
Also ich habe kein Problem mit dem Zugriff (urllib2) und Einlesen des Quelltextes einer Webseite, dennoch bin ich leider nicht fündig geworden wie ich mir sozusagen einzelne bestimmte Zeilen nach textstrings durchsuchen kann und diese dann gegenfalls weiter verarbeiten kann.
Ich hoffe ich habe mein Problem nicht zu kurz beschrieben
lg
HTML Quelltext Problem mit der Verarbeitung
Das einfachste dürfte die String-Methode find() sein.tehweb hat geschrieben:Ich möchte gerne einen HTML Quelltext nach einem bestimmten textstring durchsuchen.
Wenn es ausgefuchster sein soll, dann schau dir mal Beautiful Soup unter http://www.crummy.com/software/BeautifulSoup/ an.
Es wäre vielleicht noch interessant, wie genau du den Quelltext weiter verarbeiten willst.tehweb hat geschrieben: Ich hoffe ich habe mein Problem nicht zu kurz beschrieben
Je nach Anwendung reichen die Methoden von ``str`` (z.B. str.starts_with, str.find).
Vermutlich ist aber eine ausgereiftere Methodik sinnvoll, entweder der Einsatz von regulären Ausdrücken (``re``) oder eines richtigen HTML-Parsers. In der stdlib gibt es dafür einen Parser (``HTMLParser``), AFAIK ist der aber nicht wirklich elegant, habe aber noch nie damit gearbeitet. Allerdings gibt es dafür einige externe Module, spontan fällt mir "Beautiful Soup" ein.
Edit: Mist, zu langsam...
Ich habe das ganze nun weniger kompliziert gelöst
Ist ein auzug aus einer Schleife
Mir ging es lediglich um bestimmten Text parsen ala den Begriff "Willkommen" in dem Quelltext zu finden.
Habe da selbst erst viel zu kompliziert gedacht -.-
Ist ein auzug aus einer Schleife
Code: Alles auswählen
url = urllib2.urlopen("die url")
urlread = url.read()
if 'Der gesuchte Text' in urlread:
print "Text gefunden"
else:
print "Text nicht gefunden"
pass
Habe da selbst erst viel zu kompliziert gedacht -.-