Automatische Linkabfrage

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Antworten
Rumo24
User
Beiträge: 2
Registriert: Dienstag 8. November 2022, 15:29

Moin :)

ich sitze momentan vor der Herausforderung, dass ich ein paar tausende Links auf Inhalt überprüfen möchte ... Als Beispiel:
Die Links haben alle das Format 'https://beispiel.de/xxxx/beispielende', dabei steht xxxx immer für eine vierstellige Zahl. Ich möchte gerne alle Links von xxxx=1000 bis xxxx=9999 untersuchen und schauen, hinter welchen Links sich ein Error404 und hinter welchen sich "Inhalt" verbirgt. Am Ende möchte ich einfach eine Auflistung der Links mit "Inhalt" haben, bzw. einfach die passenden xxxx würden es auch tun.

Kann mir jemand dabei weiterhelfen oder hat einen Beitrag/Blog/Video parat? Ich bin selber noch Anfänger und habe mich auch schon auf die Suche begeben, leider aber nichts passendes gefunden.

Ich freue mich auf die Antworten :D
LG Rumo
__deets__
User
Beiträge: 14545
Registriert: Mittwoch 14. Oktober 2015, 14:29

Das Stichwort heißt web scraping, und die beiden Pakete, die in Python da am nützlichsten sind, requests und BeautifulSoup
Rumo24
User
Beiträge: 2
Registriert: Dienstag 8. November 2022, 15:29

Hi deets, danke dir schon mal. Da bin ich auch schon hintergekommen, ich hätte mein Problem dahingehen vielleicht etwas genauer beschrieben müssen.
Spezifischer: Ich habe den Link in mein Skript eingefügt und über einen formatierten String dafür gesorgt, dass hinter dem xxxx eine Liste mit den gewünschten zahlen liegt. Jetzt würde ich gerne eine if-Schleife erstellen, bei der geprüft wird, ob der jeweilige Link zu einem Error404 führt oder nicht.

Ich hoffe, dass macht die Sache etwas verständlicher :)
Benutzeravatar
__blackjack__
User
Beiträge: 14069
Registriert: Samstag 2. Juni 2018, 10:21
Wohnort: 127.0.0.1
Kontaktdaten:

@Rumo24: Das wichtigste zuerst: http://if-schleife.de/

Was ist denn nun das konkrete Problem? Das `requests`-Package wurde ja schon genannt. Einfach abfragen machen und schauen was zurück kommt. Schau Dir an wie so ein `requests.Response`-Objekt aufgebaut ist, dann sollte das eigentlich kein grosses Problem sein anhand so einer Antwort eine Entscheidung zu treffen ob der Link zu regulärem Inhalt führt.
“Vir, intelligence has nothing to do with politics!” — Londo Mollari
Benutzeravatar
snafu
User
Beiträge: 6873
Registriert: Donnerstag 21. Februar 2008, 17:31
Wohnort: Gelsenkirchen

Ich finde die Beschreibung verwirrend. Erst heißt es xxxx/beispielende, dann xxxx=1000 bis xxxx=9999. Später heißt es, dass "hinter dem xxxx eine Liste mit den gewünschten zahlen liegt". Wie ist denn das Schema der URLs nun tatsächlich aufgebaut? Und ist das konkrete Problem die Ausformulierung der Schleife für die nötigen Abfragen, weil du nicht weißt wie die einzelnen Strings je Durchlauf zusammengesetzt werden, oder woran hapert es genau?
Antworten