Seite 1 von 1

Beautiful -Soup ohne Urllib und Requests

Verfasst: Sonntag 26. August 2018, 18:00
von yeet
Hallo,

ich möchte mit Beautiful-Soup Websiten-Inhalte ausgeben. Wenn ich jedoch Urllib ohne UserAgent verwende, werde ich nach ein paar Sekunden von der Website geblockt. mit UserAgent kommen manchmal Websiten-Inhghalte dazu, manchmal nicht so dass die Ergebnisse verfälscht werden. So sieht eine bestimmte Website in Edge z.B. anders aus als in Chrome; verschiedene UserAgents lösen das Problem auch nicht. Bei Requests ist es genau das gleiche Spiel. Gibt es eine andere Möglichkeit Beutiful-Soup zu verwenden, ohne geblockt zu werden oder/und verfälschte Ergebnisse zu erhalten?

MfG

Re: Beautiful -Soup ohne Urllib und Requests

Verfasst: Sonntag 26. August 2018, 20:30
von __deets__
Ohne konkrete Seiten zu benennen, auf denen du das probierst, kann man das nur pauschal mit "geht nicht" beantworten. Denn die Seiten koennen beliebig viel Gebrauch von JavaScript machen, um die Darstellung und das DOM nach dem Laden zu verwenden. Meistens kann man darum herumarbeiten, weil die einen interessierenden Informationen ja immer irgendwie vom Server geladen werden muessen, oder schon in der urspruenglichen Seite stecken. Aber wie genau das dann geht haengt halt von der konkreten Seite ab.

Ggf ist es besser, auf Selenium zu setzen: https://medium.com/the-andela-way/intro ... c377a8cf72