Beautiful -Soup ohne Urllib und Requests

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Antworten
yeet
User
Beiträge: 6
Registriert: Freitag 17. August 2018, 19:36

Hallo,

ich möchte mit Beautiful-Soup Websiten-Inhalte ausgeben. Wenn ich jedoch Urllib ohne UserAgent verwende, werde ich nach ein paar Sekunden von der Website geblockt. mit UserAgent kommen manchmal Websiten-Inhghalte dazu, manchmal nicht so dass die Ergebnisse verfälscht werden. So sieht eine bestimmte Website in Edge z.B. anders aus als in Chrome; verschiedene UserAgents lösen das Problem auch nicht. Bei Requests ist es genau das gleiche Spiel. Gibt es eine andere Möglichkeit Beutiful-Soup zu verwenden, ohne geblockt zu werden oder/und verfälschte Ergebnisse zu erhalten?

MfG
__deets__
User
Beiträge: 14522
Registriert: Mittwoch 14. Oktober 2015, 14:29

Ohne konkrete Seiten zu benennen, auf denen du das probierst, kann man das nur pauschal mit "geht nicht" beantworten. Denn die Seiten koennen beliebig viel Gebrauch von JavaScript machen, um die Darstellung und das DOM nach dem Laden zu verwenden. Meistens kann man darum herumarbeiten, weil die einen interessierenden Informationen ja immer irgendwie vom Server geladen werden muessen, oder schon in der urspruenglichen Seite stecken. Aber wie genau das dann geht haengt halt von der konkreten Seite ab.

Ggf ist es besser, auf Selenium zu setzen: https://medium.com/the-andela-way/intro ... c377a8cf72
Antworten