HTML Quelltext Problem mit der Verarbeitung

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Antworten
tehweb
User
Beiträge: 2
Registriert: Dienstag 10. November 2009, 13:10

Ich möchte gerne einen HTML Quelltext nach einem bestimmten textstring durchsuchen.
Also ich habe kein Problem mit dem Zugriff (urllib2) und Einlesen des Quelltextes einer Webseite, dennoch bin ich leider nicht fündig geworden wie ich mir sozusagen einzelne bestimmte Zeilen nach textstrings durchsuchen kann und diese dann gegenfalls weiter verarbeiten kann.

Ich hoffe ich habe mein Problem nicht zu kurz beschrieben ;)

lg
Benutzeravatar
/me
User
Beiträge: 3554
Registriert: Donnerstag 25. Juni 2009, 14:40
Wohnort: Bonn

tehweb hat geschrieben:Ich möchte gerne einen HTML Quelltext nach einem bestimmten textstring durchsuchen.
Das einfachste dürfte die String-Methode find() sein.

Wenn es ausgefuchster sein soll, dann schau dir mal Beautiful Soup unter http://www.crummy.com/software/BeautifulSoup/ an.
ms4py
User
Beiträge: 1178
Registriert: Montag 19. Januar 2009, 09:37

tehweb hat geschrieben: Ich hoffe ich habe mein Problem nicht zu kurz beschrieben ;)
Es wäre vielleicht noch interessant, wie genau du den Quelltext weiter verarbeiten willst.

Je nach Anwendung reichen die Methoden von ``str`` (z.B. str.starts_with, str.find).
Vermutlich ist aber eine ausgereiftere Methodik sinnvoll, entweder der Einsatz von regulären Ausdrücken (``re``) oder eines richtigen HTML-Parsers. In der stdlib gibt es dafür einen Parser (``HTMLParser``), AFAIK ist der aber nicht wirklich elegant, habe aber noch nie damit gearbeitet. Allerdings gibt es dafür einige externe Module, spontan fällt mir "Beautiful Soup" ein.

Edit: Mist, zu langsam...
tehweb
User
Beiträge: 2
Registriert: Dienstag 10. November 2009, 13:10

Ich habe das ganze nun weniger kompliziert gelöst ;)

Ist ein auzug aus einer Schleife

Code: Alles auswählen


        url = urllib2.urlopen("die url")

        urlread = url.read()

        if 'Der gesuchte Text' in urlread:
            print "Text gefunden"
        else:
            print "Text nicht gefunden"
            pass

Mir ging es lediglich um bestimmten Text parsen ala den Begriff "Willkommen" in dem Quelltext zu finden.
Habe da selbst erst viel zu kompliziert gedacht -.-
Antworten