Probleme/Fragen zu urllib

johnmay · Samstag 31. Dezember 2016, 01:11

Servus Python-Community,

ich versuche mich gerade an meinen ersten Python-Projekt das mir Bilder von verschiedenen Galerien ( alle von einer Seite, aber von verschieden Usern) herunterladen soll, eigentlich gut machbar in Python wie ich denke, aber irgendwie kommen immer wieder Fragen / Probleme auf bei der Umsetzung. Ich hab mich dazu etwas eingelesen ins Python Thema, mir diverse Code-Beispiele angeschaut da ich noch Anfänger bin ( mit etwas Vorkenntnisse) aber bisher noch keine passende Lösung gefunden. Also nun gut dann mal zum Thema:

Es sollen alle verfügbaren Galerien von einen User heruntergeladen werden. Dafür muss ich mir die Links von der Userseite holen. Hierfür lade ich mir den Quelltext der Seite mit urllib.request und urllib.open und daraus sollen dann die Links zu den Galerien herausgelesen werden. Dort werden die Links immer mit:

<a class "AlbumName" href="//user.domain.bla/galeriename/ angegeben.

Bedeutet also für mich das ich nach

" "AlbumName" href="

den ensprechend den Link erhalte den ich dann in eine Liste (Tulpe?) schreiben um den dann in einer Schleife abarbeiten kann. Nur wie bekomm ich nun das beim lesen hin das nur dieser Teil herausgelesen wird? Ist das überhaupt möglich oder gibt es da einen eleganteren Weg?

Bin mal gespannt was ihr dazu sagt

Danke schon mal im vorraus!

BlackJack · Samstag 31. Dezember 2016, 02:03

@johnmay: Für das parsen von HTML sollte man eine Bibliothek verwenden. Dazu würden sich `lxml.html` oder BeautifulSoup4 (zum Beispiel mit `lxml.html` als eigentlicher Parser) anbieten. Damit kann man dann einfach und zuverlässig beispielsweise alle <a>-Elemente mit der Klasse `AlbumName` heraussuchen und von denen das `href`-Attribut abfragen.