Seite 1 von 1

Auf Daten einer Website "Zugreifen"

Verfasst: Dienstag 1. März 2011, 21:51
von Scriptonator
Hallo, ich weiß nicht genau ob das hier rein soll, aber ich denke das das was mit dem Internet und damit was mit Netzwerken zutun hat.

Man kann doch über urllib.open("http://balblablabla.de")
Eine Website intern aufrufen.
Gibt es da auch ne Möglichkeit, wie man diese von JS her kennt, auf das DOM zuzugreifen, bzw, gibt es eine Str_between-Funktion, um einen bestimmen String zwischen 2 anderen Strings auszufiltern?

Ich hab auf der Seite ein <h5>Hallo Example</h5>
Das würde ich gerne aus der Website "extrahieren", also nur "Hallo Example".

Gruß
Scriptonator

Re: Auf Daten einer Website "Zugreifen"

Verfasst: Dienstag 1. März 2011, 23:05
von BlackJack
@Scriptonator: Dazu brauchst Du einen HTML-Parser. Die beiden üblichen Alternativen sind `lxml.html` und `BeautifulSoup`.

Re: Auf Daten einer Website "Zugreifen"

Verfasst: Dienstag 1. März 2011, 23:06
von ms4py
Schau dir mal das Paket lxml an: http://lxml.de/lxmlhtml.html

Falls du keine ext. Tools verwenden kannst, bietet auch die Stdlib einiges an Funktionalität, s. http://docs.python.org/library/markup.html

Achja, das fehlende Stichwort für deine Anfrage lautet "HTML parsen" :wink:

Re: Auf Daten einer Website "Zugreifen"

Verfasst: Dienstag 1. März 2011, 23:17
von Scriptonator
Thx,
werde ich mir mal anschauen, danke :=)

Re: Auf Daten einer Website "Zugreifen"

Verfasst: Mittwoch 2. März 2011, 10:35
von Leonidas
BlackJack hat geschrieben:Die beiden üblichen Alternativen sind `lxml.html` und `BeautifulSoup`.
Und html5lib.