Python: HTML quelltext auslehsen

evd · Samstag 19. Oktober 2013, 14:00

hallo zusammen

Ich glaube ich stelle mich dümmer an als ich bin ... hoffe ich zumindest.
Ich bekomme es nicht hin den HTML quelltext von einer Seite aus zu lesen.

benutze gerade Python 3.3

könntet ihr mir da bitte helfen?

mein ziel ist es am ende von den Seiten von amazon, auf denen (74 Seiten ) einige Alben günstiger angeboten werden die Künstler aus zu lesen und dann mit einer von mir erstellten Liste zu vergleichen. Anschließend noch aus zu geben ob jemand dabei ist der mich Interessiert oder eben nicht...
alle Alben einzeln nach zu schauen, das würde gefühlte Jahrtausende dauern.

danke schon ein mal im vorhinaus
evd

ps.:
ist das richtig das es bei python 2.x "urllib.urlopen()" war?
nur so als Rand info ^^

BlackJack · Samstag 19. Oktober 2013, 14:35

@evd: Ich würde unabhängig von der Python-Version das `requests`-Modul verwenden. Das baut auf der jeweligen API aus der Standardbibliothek auf und bietet eine deutlich angenehmere API für den Programmierer.

Zum Verarbeiten des HTMLs sind `lxml.html` oder `BeautifulSoup` dann die beiden gebräuchlichsten Bibliotheken.