Links aus HTML auslesen

danims · Montag 19. Februar 2007, 20:28

Hallo

Nach längerem Suchen bin ich trotzdem nicht fündig geworden.

Ich möchte sämtliche "Link-Konstrukte" einer HTML Seite auslesen.

Die Datei auslesen funktioniert soweit:

Code: Alles auswählen

import urllib
import re

fp = urllib.urlopen(http://........html)
data = fp.read()

Jetzt hat die html seite aber unterschiedliche anzahl an hyperlinks:

<a href="LINK">BESCHREIBUNG</a>

Die kursiv-fetten Angaben möchte ich irgendwie in einem Array haben.

Hat jemand eine Idee oder hat jemand ein Scriptbeispiel zur hand für mich, Python anfänger

?

Besten Dank!

SigMA · Montag 19. Februar 2007, 20:41

benutzt die Forumsuche!

Dafür gibt es 100% eins!

SigMA

rayo · Montag 19. Februar 2007, 20:45

HI

Beautiful Soup ist was für dich

Gruss

sape · Montag 19. Februar 2007, 20:45

Hi und willkommen im Forum:

Lade dir BeautifulSoup runter und lese dir die documentation durch. Das Modul ist richtig gut und intuitive (IMHO) benutzbar

-- Selten so ein einfaches zu benutzendes Modul gesehen, für ein nicht so ganz Triviales Thema.

lg

danims · Montag 19. Februar 2007, 20:45

ja, den da: http://www.python-forum.de/topic-3916.h ... s+auslesen

aber damit komm ich irgendwie auch nicht weiter

gerold · Montag 19. Februar 2007, 23:32

Hallo danims!

Ich bin mal so frei...

http://www.python-forum.de/topic-4664.html

mfg
Gerold

stasikz · Freitag 15. Februar 2008, 21:10

Hallo Community!

ich stehe wieder vor einem Problem. Ich würde gerne die Links aus einer HTML datei auslesen, die als href="....." nur bestimme Adressen haben. Also nur die Adressen rausfiltern, die in meine Suchmaske passen.

http://www.python-forum.de/topic-4664.html
mfg
Gerold

Ich hab schon dieses kleine Tutorial angesehen, aber leider kann ich das noch nicht auf mein Problem anwenden

Bitte um die Hilfe

Edit: habs doch hingekriegt. ich hätte besser von Anfang an die BeautifulSoup Anleitung zu ENDE lesen sollen

hab das so gemacht:

Code: Alles auswählen

import re
from BeautifulSoup import BeautifulSoup, SoupStrainer

html_file = open('datei.html') 
soup = html_file.read()
html_file.close()

links = SoupStrainer('a', href=re.compile('www.bestimme/adresse/de/'))
adressen = [adr for adr in BeautifulSoup(soup, parseOnlyThese=links)]

for i in adressen:
    print i