Hallo,
Wenn ich eine HTML-Seite online habe, kann ich auf diese mittels urllib zugreifen. Nun möchte ich aber in dem nicht gerade kurzen Dokument einen Wert in einer bestimmten Zeile, an einer bestimmten Stelle auslesen, und diesen dann ohne Tags ausgeben. Wie funktioniert das?
mfg
Bestimmte Zeile auslesen [URL]
Ich habe ein Beispiel im Forum gefunden und dieses kurzerhand kopiert.
Das ganze funktioniert ganz gut, nur wird alles ausgegeben (<td>Name:</td><td>(.*?)</td>) und nicht nur das, was mit Regex abgefangen wird. Wie wird nur das gewünschte ausgegeben? Sicher, man könnte am Anfang und am Ende die Tags entfernen, nur gibt es eine schönere Methode?
Code: Alles auswählen
import urllib,re
urllib.urlretrieve("URL","C:/doc.htm")
text = open("C:/doc.html").read()
out = re.search("<td>Name:</td><td>(.*?)</td>",text)
text = text.group()
print text
Code: Alles auswählen
text = text.group(1)
the more they change the more they stay the same
- Hyperion
- Moderator
- Beiträge: 7478
- Registriert: Freitag 4. August 2006, 14:56
- Wohnort: Hamburg
- Kontaktdaten:
Das ist ja eben alles, was Du mit der RegExp "abfängst"The_Net hat geschrieben: Das ganze funktioniert ganz gut, nur wird alles ausgegeben (<td>Name:</td><td>(.*?)</td>) und nicht nur das, was mit Regex abgefangen wird.
Ja, einen HTML-Parser verwenden, wie oben empfohlenWie wird nur das gewünschte ausgegeben? Sicher, man könnte am Anfang und am Ende die Tags entfernen, nur gibt es eine schönere Methode?