PDF-Dateien auf Unterwebsite downloaden
Verfasst: Sonntag 1. Mai 2022, 16:36
Hallo,
ich benötige als absoluter Neuanfänger Unterstützung der der Umsetzung eines Projektes mit BeautifulSoup.
Ich schaffe es, mit BeautifulSoup alle PDFs einer Seite herunterzuladen, aber wenn sich die PDFs auf Unterseiten befinden, komme ich nicht weiter.
Hier die Aufgabe:
Die Hauptseite ist https://trauer.mittelhessen.de
Über die Suche wird folgende Seite generiert: https://trauer.mittelhessen.de/traueranzeigen-suche/zeitraum-01-01-2010-bis-31-12-2020/seite-1
Es gibt nur ein paar hundert Seiten, die jeweils mit der Adresse: https://trauer.mittelhessen.de/traueranzeigen-suche/zeitraum-01-01-2010-bis-31-12-2020/seite-2, .../seite-3, .../seite-4 aufgerufen werden können.
Pro Seite gibt es 5 Links mit dem Titel "Anzeige(X)", über die man auf jeweils eine Unterseite mit einer oder mehreren Traueranzeigen pro Person kommen, z.B. https://trauer.mittelhessen.de/traueranzeige/heinz-windor/anzeige
<a class="stretched-link pr-2 text-nowrap " href="https://trauer.mittelhessen.de/traueranzeige/heinz-windorf/anzeigen" title="">Anzeigen (1)</a>
Auf diesen Unterseiten gibt es dann einen oder mehrere Link(s) mit dem Tilel "Speichern" über die man die PDFs herunterladen kann.
<a href="https://trauer.mittelhessen.de/MEDIASERVER/content/LH219/obi_new/2022_4/heinz-windorf-traueranzeige-a41279ca-bbd3-40f2-bf99-298e6c8e3930.pdf" rel="noopener" title=" Speichern" data-toggle="tooltip" target="_blank" class="pr-2"><svg class="svg-inline--fa fa-save fa-w-14" aria-hidden="true" data-prefix="fas" data-icon="save" role="img" xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512" data-fa-i2svg=""><path fill="currentColor" d=..."></path></svg><!-- <i class="fas fa-save"></i> --> Speichern</a>
Das Skript sollte über eine Schleife alle Websites automatisch aufrufen, also ../Seite-1, /Seite-2. Den Endpunkt der Schleife (im Beispiel .../Seite-1063) könne ich manuell in das Skript eintragen.
Über die Links Anzeige (1) - wobei auch Anzeige (2,3,4,5 oder 6) als Titel für den Link vorkommen kann - sollen die Unterseiten aufgerufen werden dort die PDF von allen Links mit dem Titel "Speicher" heruntergeladen werden.
Viele Grüße
Willi
ich benötige als absoluter Neuanfänger Unterstützung der der Umsetzung eines Projektes mit BeautifulSoup.
Ich schaffe es, mit BeautifulSoup alle PDFs einer Seite herunterzuladen, aber wenn sich die PDFs auf Unterseiten befinden, komme ich nicht weiter.
Hier die Aufgabe:
Die Hauptseite ist https://trauer.mittelhessen.de
Über die Suche wird folgende Seite generiert: https://trauer.mittelhessen.de/traueranzeigen-suche/zeitraum-01-01-2010-bis-31-12-2020/seite-1
Es gibt nur ein paar hundert Seiten, die jeweils mit der Adresse: https://trauer.mittelhessen.de/traueranzeigen-suche/zeitraum-01-01-2010-bis-31-12-2020/seite-2, .../seite-3, .../seite-4 aufgerufen werden können.
Pro Seite gibt es 5 Links mit dem Titel "Anzeige(X)", über die man auf jeweils eine Unterseite mit einer oder mehreren Traueranzeigen pro Person kommen, z.B. https://trauer.mittelhessen.de/traueranzeige/heinz-windor/anzeige
<a class="stretched-link pr-2 text-nowrap " href="https://trauer.mittelhessen.de/traueranzeige/heinz-windorf/anzeigen" title="">Anzeigen (1)</a>
Auf diesen Unterseiten gibt es dann einen oder mehrere Link(s) mit dem Tilel "Speichern" über die man die PDFs herunterladen kann.
<a href="https://trauer.mittelhessen.de/MEDIASERVER/content/LH219/obi_new/2022_4/heinz-windorf-traueranzeige-a41279ca-bbd3-40f2-bf99-298e6c8e3930.pdf" rel="noopener" title=" Speichern" data-toggle="tooltip" target="_blank" class="pr-2"><svg class="svg-inline--fa fa-save fa-w-14" aria-hidden="true" data-prefix="fas" data-icon="save" role="img" xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512" data-fa-i2svg=""><path fill="currentColor" d=..."></path></svg><!-- <i class="fas fa-save"></i> --> Speichern</a>
Das Skript sollte über eine Schleife alle Websites automatisch aufrufen, also ../Seite-1, /Seite-2. Den Endpunkt der Schleife (im Beispiel .../Seite-1063) könne ich manuell in das Skript eintragen.
Über die Links Anzeige (1) - wobei auch Anzeige (2,3,4,5 oder 6) als Titel für den Link vorkommen kann - sollen die Unterseiten aufgerufen werden dort die PDF von allen Links mit dem Titel "Speicher" heruntergeladen werden.
Viele Grüße
Willi