lxml

StefanLawl · Donnerstag 1. November 2012, 17:04

Hallo, ich möchte gerne von http://9gag.com Bilder herunterladen. Ich hatte vor, das mit lxml anzustellen, allerdings komme ich nicht ganz damit klar

Der HTML Code zu einem Bild sieht beispielsweise so aus:

Code: Alles auswählen

<div class="content">
            <div class="img-wrap">
    <a href="/gag/5730639"  target="_blank"  link="/gag/5730639" onclick="GAG.GA.track('Post', 'Clicked-List-Item', 'List-hot');" class="">
        <img src="http://d24w6bsrhbeh9d.cloudfront.net/photo/5730639_460s_v1.jpg" alt="Happy Halloween, Mom!" style="max-width:460px;"/>
    </a>
</div>
<div class="fatbigdick all-users-expand"></div>

	</div><!--end div.content-->

Jetzt dachte ich mir, ich könnte mit lxml einfach

Code: Alles auswählen

src="http://d24w6bsrhbeh9d.cloudfront.net/photo/5730639_460s_v1.jpg"

filtern, allerdings verstehe ich nicht ganz, wie das gehen soll. Alle Google-Ergebnisse zu "python lxml html" waren keine große Hilfe.

Hier mein gescheiterter Versuch:

Code: Alles auswählen

from lxml import html

url = 'http://9gag.com'
doc = html.parse(url)

r= doc.xpath('//div[@class="content"]/div[@class="img-wrap"]//img[@src]')
print r

Vielen Dank für Antworten im Voraus

BlackJack · Donnerstag 1. November 2012, 19:51

@StefanLawl: Das waren im Grunde ja auch die falschen Suchworte. Du willst nicht wissen wie man das in Python oder `lxml` macht, sondern wie man das in `XPath` formuliert. Das ist vollkommen unabhängig von Python oder einer anderen Programmiersprache.

Du hattest es schon fast. In den eckigen Klammern steht eine Bedingung die aus den Tags nur die auswählt auf welche die Bedingung zutrifft. Wenn man nur ein Attribut dort erwähnt, dann bekommt man alle Tags die dieses Attribut besitzen. Da `src` bei `<img>` AFAIK obligatorisch ist, sollte man damit immer alle Ergebnisse bekommen, die man auch ohne den Test bekommen hätte. Du willst nach dem `img` im nächsten Schritt in dem Pfad das Attribut von den `img`-Knoten haben, die im Schritt davor ausgewählt wurden:

Code: Alles auswählen

In [41]: doc.xpath('//div[@class="content"]/div[@class="img-wrap"]//img/@src')
Out[41]: 
['http://d24w6bsrhbeh9d.cloudfront.net/photo/5734378_460s_v1.jpg',
 'http://d24w6bsrhbeh9d.cloudfront.net/photo/5737011_460s.jpg',
 'http://d24w6bsrhbeh9d.cloudfront.net/photo/5733928_460s.jpg',
 'http://d24w6bsrhbeh9d.cloudfront.net/photo/5733976_460s.jpg',
 'http://d24w6bsrhbeh9d.cloudfront.net/photo/5737472_460s.jpg',
 'http://d24w6bsrhbeh9d.cloudfront.net/photo/5731606_460s_v1.jpg',
 'http://d24w6bsrhbeh9d.cloudfront.net/photo/5736965_460s.jpg',
 'http://d24w6bsrhbeh9d.cloudfront.net/photo/5734847_460s.jpg',
 'http://d24w6bsrhbeh9d.cloudfront.net/photo/5737449_460s.jpg']

StefanLawl · Freitag 2. November 2012, 06:28

BlackJack hat geschrieben:@StefanLawl: Das waren im Grunde ja auch die falschen Suchworte. Du willst nicht wissen wie man das in Python oder `lxml` macht, sondern wie man das in `XPath` formuliert.

Mist, ich dachte xpath wäre schon zu detailliert als Suchbegriff.

BlackJack hat geschrieben:Du hattest es schon fast. In den eckigen Klammern steht eine Bedingung die aus den Tags nur die auswählt auf welche die Bedingung zutrifft. Wenn man nur ein Attribut dort erwähnt, dann bekommt man alle Tags die dieses Attribut besitzen. Da `src` bei `<img>` AFAIK obligatorisch ist, sollte man damit immer alle Ergebnisse bekommen, die man auch ohne den Test bekommen hätte. Du willst nach dem `img` im nächsten Schritt in dem Pfad das Attribut von den `img`-Knoten haben, die im Schritt davor ausgewählt wurden.

Vielen Dank, jetzt versteh ich das endlich!

webspider · Freitag 2. November 2012, 21:17

Alternativ gibts CSS-Selektoren (welche mittlerweile zumindest für Arch in ein seperates Paket verfrachtet wurden und zu XPath kompiliert werden).