Auf Daten einer Website "Zugreifen"

Sockets, TCP/IP, (XML-)RPC und ähnliche Themen gehören in dieses Forum
Antworten
Scriptonator
User
Beiträge: 14
Registriert: Mittwoch 23. Februar 2011, 18:16

Hallo, ich weiß nicht genau ob das hier rein soll, aber ich denke das das was mit dem Internet und damit was mit Netzwerken zutun hat.

Man kann doch über urllib.open("http://balblablabla.de")
Eine Website intern aufrufen.
Gibt es da auch ne Möglichkeit, wie man diese von JS her kennt, auf das DOM zuzugreifen, bzw, gibt es eine Str_between-Funktion, um einen bestimmen String zwischen 2 anderen Strings auszufiltern?

Ich hab auf der Seite ein <h5>Hallo Example</h5>
Das würde ich gerne aus der Website "extrahieren", also nur "Hallo Example".

Gruß
Scriptonator
BlackJack

@Scriptonator: Dazu brauchst Du einen HTML-Parser. Die beiden üblichen Alternativen sind `lxml.html` und `BeautifulSoup`.
ms4py
User
Beiträge: 1178
Registriert: Montag 19. Januar 2009, 09:37

Schau dir mal das Paket lxml an: http://lxml.de/lxmlhtml.html

Falls du keine ext. Tools verwenden kannst, bietet auch die Stdlib einiges an Funktionalität, s. http://docs.python.org/library/markup.html

Achja, das fehlende Stichwort für deine Anfrage lautet "HTML parsen" :wink:
„Lieber von den Richtigen kritisiert als von den Falschen gelobt werden.“
Gerhard Kocher

http://ms4py.org/
Scriptonator
User
Beiträge: 14
Registriert: Mittwoch 23. Februar 2011, 18:16

Thx,
werde ich mir mal anschauen, danke :=)
Leonidas
Python-Forum Veteran
Beiträge: 16025
Registriert: Freitag 20. Juni 2003, 16:30
Kontaktdaten:

BlackJack hat geschrieben:Die beiden üblichen Alternativen sind `lxml.html` und `BeautifulSoup`.
Und html5lib.
My god, it's full of CARs! | Leonidasvoice vs (former) Modvoice
Antworten