Das deutsche Python-Forum

Hallo,
Wenn ich eine HTML-Seite online habe, kann ich auf diese mittels urllib zugreifen. Nun möchte ich aber in dem nicht gerade kurzen Dokument einen Wert in einer bestimmten Zeile, an einer bestimmten Stelle auslesen, und diesen dann ohne Tags ausgeben. Wie funktioniert das?

mfg

Nutze einen HTML-Parser (e.g. html5lib, lxml.html)

Ich habe ein Beispiel im Forum gefunden und dieses kurzerhand kopiert.

Code: Alles auswählen

import urllib,re
urllib.urlretrieve("URL","C:/doc.htm")
text = open("C:/doc.html").read()

out = re.search("<td>Name:</td><td>(.*?)</td>",text)
text = text.group()
print text

Das ganze funktioniert ganz gut, nur wird alles ausgegeben (<td>Name:</td><td>(.*?)</td>) und nicht nur das, was mit Regex abgefangen wird. Wie wird nur das gewünschte ausgegeben? Sicher, man könnte am Anfang und am Ende die Tags entfernen, nur gibt es eine schönere Methode?

Code: Alles auswählen

text = text.group(1)

Hier ist das mit den "groups" beschrieben: [mod]re#re.MatchObject.group[/mod]

The_Net hat geschrieben: Das ganze funktioniert ganz gut, nur wird alles ausgegeben (<td>Name:</td><td>(.*?)</td>) und nicht nur das, was mit Regex abgefangen wird.

Das ist ja eben alles, was Du mit der RegExp "abfängst"

Wie wird nur das gewünschte ausgegeben? Sicher, man könnte am Anfang und am Ende die Tags entfernen, nur gibt es eine schönere Methode?

Ja, einen HTML-Parser verwenden, wie oben empfohlen

Das deutsche Python-Forum

Bestimmte Zeile auslesen [URL]

Bestimmte Zeile auslesen [URL]