Mit BeautifulSoup Links aus HTML extrahieren
Verfasst: Dienstag 13. Dezember 2005, 23:45
Hi!
Mit BeautifulSoup lassen sich einzelne Teile der HTML-Struktur ziemlich einfach parsen.
Hier ein Beispiel, das aufzeigt wie einfach es sein kann, A-Tags (Links oder auch Anker-Tags) aus einem HTML-Text heraus zu parsen:
Auch wenn die Tag- oder Attribut-Namen im HTML-Text groß geschrieben sind, werden die Tags gefunden.
lg
Gerold

Mit BeautifulSoup lassen sich einzelne Teile der HTML-Struktur ziemlich einfach parsen.
Hier ein Beispiel, das aufzeigt wie einfach es sein kann, A-Tags (Links oder auch Anker-Tags) aus einem HTML-Text heraus zu parsen:
Code: Alles auswählen
#!/usr/bin/env python
# -*- coding: utf-8 -*-
from BeautifulSoup import BeautifulSoup
html = """<html>
<head>
<title>Hallo Welt</title>
</head>
<body>
<p>
<a href="http://www.bcom.at">Bcom</a>
<a href="http://gerold.bcom.at">Gerold</a>
</p>
<p>
<A ID="sw3" href="http://sw3.at">SW3</A>
</p>
</body>
</html>
"""
soup = BeautifulSoup(html)
# Alle Links raus suchen:
for anker in soup("a"):
print "TEXT:", anker.string
print "HREF:", dict(anker.attrs).get("href")
print "ID: ", dict(anker.attrs).get("id")
lg
Gerold
