Auf Daten einer Website "Zugreifen"

Scriptonator · Dienstag 1. März 2011, 21:51

Hallo, ich weiß nicht genau ob das hier rein soll, aber ich denke das das was mit dem Internet und damit was mit Netzwerken zutun hat.

Man kann doch über urllib.open("http://balblablabla.de")
Eine Website intern aufrufen.
Gibt es da auch ne Möglichkeit, wie man diese von JS her kennt, auf das DOM zuzugreifen, bzw, gibt es eine Str_between-Funktion, um einen bestimmen String zwischen 2 anderen Strings auszufiltern?

Ich hab auf der Seite ein <h5>Hallo Example</h5>
Das würde ich gerne aus der Website "extrahieren", also nur "Hallo Example".

Gruß
Scriptonator

BlackJack · Dienstag 1. März 2011, 23:05

@Scriptonator: Dazu brauchst Du einen HTML-Parser. Die beiden üblichen Alternativen sind `lxml.html` und `BeautifulSoup`.

ms4py · Dienstag 1. März 2011, 23:06

Schau dir mal das Paket lxml an: http://lxml.de/lxmlhtml.html

Falls du keine ext. Tools verwenden kannst, bietet auch die Stdlib einiges an Funktionalität, s. http://docs.python.org/library/markup.html

Achja, das fehlende Stichwort für deine Anfrage lautet "HTML parsen"

Scriptonator · Dienstag 1. März 2011, 23:17

Thx,
werde ich mir mal anschauen, danke :=)

Leonidas · Mittwoch 2. März 2011, 10:35

BlackJack hat geschrieben:Die beiden üblichen Alternativen sind `lxml.html` und `BeautifulSoup`.

Und html5lib.