Automatische Linkabfrage

Rumo24 · Dienstag 8. November 2022, 15:41

Moin

ich sitze momentan vor der Herausforderung, dass ich ein paar tausende Links auf Inhalt überprüfen möchte ... Als Beispiel:
Die Links haben alle das Format 'https://beispiel.de/xxxx/beispielende', dabei steht xxxx immer für eine vierstellige Zahl. Ich möchte gerne alle Links von xxxx=1000 bis xxxx=9999 untersuchen und schauen, hinter welchen Links sich ein Error404 und hinter welchen sich "Inhalt" verbirgt. Am Ende möchte ich einfach eine Auflistung der Links mit "Inhalt" haben, bzw. einfach die passenden xxxx würden es auch tun.

Kann mir jemand dabei weiterhelfen oder hat einen Beitrag/Blog/Video parat? Ich bin selber noch Anfänger und habe mich auch schon auf die Suche begeben, leider aber nichts passendes gefunden.

Ich freue mich auf die Antworten

LG Rumo

__deets__ · Dienstag 8. November 2022, 16:05

Das Stichwort heißt web scraping, und die beiden Pakete, die in Python da am nützlichsten sind, requests und BeautifulSoup

Rumo24 · Dienstag 8. November 2022, 16:15

Hi deets, danke dir schon mal. Da bin ich auch schon hintergekommen, ich hätte mein Problem dahingehen vielleicht etwas genauer beschrieben müssen.
Spezifischer: Ich habe den Link in mein Skript eingefügt und über einen formatierten String dafür gesorgt, dass hinter dem xxxx eine Liste mit den gewünschten zahlen liegt. Jetzt würde ich gerne eine if-Schleife erstellen, bei der geprüft wird, ob der jeweilige Link zu einem Error404 führt oder nicht.

Ich hoffe, dass macht die Sache etwas verständlicher

__blackjack__ · Dienstag 8. November 2022, 16:30

@Rumo24: Das wichtigste zuerst: http://if-schleife.de/

Was ist denn nun das konkrete Problem? Das `requests`-Package wurde ja schon genannt. Einfach abfragen machen und schauen was zurück kommt. Schau Dir an wie so ein `requests.Response`-Objekt aufgebaut ist, dann sollte das eigentlich kein grosses Problem sein anhand so einer Antwort eine Entscheidung zu treffen ob der Link zu regulärem Inhalt führt.

snafu · Mittwoch 9. November 2022, 02:54

Ich finde die Beschreibung verwirrend. Erst heißt es xxxx/beispielende, dann xxxx=1000 bis xxxx=9999. Später heißt es, dass "hinter dem xxxx eine Liste mit den gewünschten zahlen liegt". Wie ist denn das Schema der URLs nun tatsächlich aufgebaut? Und ist das konkrete Problem die Ausformulierung der Schleife für die nötigen Abfragen, weil du nicht weißt wie die einzelnen Strings je Durchlauf zusammengesetzt werden, oder woran hapert es genau?