BeautifulSoup und Nicht-HTML Content
Verfasst: Sonntag 17. Juli 2011, 18:07
Hallo Leute,
ich schreibe einen Web Spider, um das Web nach bestimmten Inhalten zu durchsuchen. Zum Parsen von HTML Seiten verwende ich BeautifulSoup. BeautifulSoup findet Links im HTML, die dann wiederum geladen werden usw.
Dabei sehe ich allerdings das Problem, dass Links zwar aussehen können, als zeigten sie auf HTML Seiten, in Wirklichkeit aber anderen Content referenzieren, z.B. Bilder mit flascher Dateierweiiterung (z.B. bild.png.html).
Wenn ich diesen Content dann BeautifulSoup füttere, kommt beim Parsen natürlich nur Murx raus. Welche Möglichkeiten habe ich damit umzugehen?
Kann ich eventuell vorher sicher stellen, dass das was ich BeautifulSoup zum parsen gebe auch wirklich HTML ist? Wenn ja, wie würde man das machen?
Oder kann BeautifulSoup eine Exception werfen, wenn es Content nicht parsen kann?
Gruss + Dank, beetronic
ich schreibe einen Web Spider, um das Web nach bestimmten Inhalten zu durchsuchen. Zum Parsen von HTML Seiten verwende ich BeautifulSoup. BeautifulSoup findet Links im HTML, die dann wiederum geladen werden usw.
Dabei sehe ich allerdings das Problem, dass Links zwar aussehen können, als zeigten sie auf HTML Seiten, in Wirklichkeit aber anderen Content referenzieren, z.B. Bilder mit flascher Dateierweiiterung (z.B. bild.png.html).
Wenn ich diesen Content dann BeautifulSoup füttere, kommt beim Parsen natürlich nur Murx raus. Welche Möglichkeiten habe ich damit umzugehen?
Kann ich eventuell vorher sicher stellen, dass das was ich BeautifulSoup zum parsen gebe auch wirklich HTML ist? Wenn ja, wie würde man das machen?
Oder kann BeautifulSoup eine Exception werfen, wenn es Content nicht parsen kann?
Gruss + Dank, beetronic