Code: Alles auswählen
import html5lib
from html5lib import treebuilders
from xml.etree import cElementTree
f = open("spiegel.html")
parser = html5lib.HTMLParser(tree=treebuilders.getTreeBuilder("etree", cElementTree))
document = parser.parse(f)
Code: Alles auswählen
import html5lib
from html5lib import treebuilders
from xml.etree import cElementTree
f = open("spiegel.html")
parser = html5lib.HTMLParser(tree=treebuilders.getTreeBuilder("etree", cElementTree))
document = parser.parse(f)
Was meinst du? Das XML ausgeben?__marcus__ hat geschrieben:Was muss ich denn jetzt z.B. machen, um mir einfach mal alle Elemente der Website anzuschauen?
Code: Alles auswählen
print document.findall('div')
Ja, das wäre als CSS-Selektor durchgegangen. Die unterstützt ET aber nicht, das ist lxml vorbehalten. Siehe hier, was ET so kann. Bei dir ist <html> das Wurzelelement und es hat kein <div> als Kind, sondern <head> und <body>, daher wird kein <div> gefunden.__marcus__ hat geschrieben:Code: Alles auswählen
print document.findall('div')
Code: Alles auswählen
print document.findall('.//div')
Vielen Dank für die Mühe.Leonidas hat geschrieben:Ja, das wäre als CSS-Selektor durchgegangen. Die unterstützt ET aber nicht, das ist lxml vorbehalten. Siehe hier, was ET so kann. Bei dir ist <html> das Wurzelelement und es hat kein <div> als Kind, sondern <head> und <body>, daher wird kein <div> gefunden.__marcus__ hat geschrieben:Code: Alles auswählen
print document.findall('div')
Um das <div> zu bekommen:Für die Zukunft: Bitte Code mitposten und zwar solchen den man direkt ausführen kann.Code: Alles auswählen
print document.findall('.//div')