Seite 1 von 1

Google index

Verfasst: Mittwoch 29. März 2017, 10:21
von bouabid
Hallo,

ich wollte gern fragen ob jemand mit google index gearbeitet hat. Ich wollte gern mit "page = urllib.request.urlopen("site:http://"
soup = BeautifulSoup(page,'html.parser') arbeiten leider bekamm immer urllib.error.URLError: <urlopen error unknown url type: site>
kann mir jemand helfen.
Danke

Re: Google index

Verfasst: Mittwoch 29. März 2017, 10:53
von BlackJack
@bouabid: Du musst halt schon eine HTTP- oder HTTPS-URL angeben. Wahrscheinlich bist auf den Browser reingefallen. Viele zeigen ja leider nicht mehr die komplette URL an, sondern verstecken den URL-Typ mindestens wenn er HTTP ist, manche auch bei HTTPS. Tipp die URL nicht ab, sondern kopiere sie über die Zwischenablage, dann sollte sie komplett sein.

Re: Google index

Verfasst: Mittwoch 29. März 2017, 11:52
von bouabid
page = urllib.request.urlopen("site:http://www.ingenieur.de/Arbeit-Beruf/Gr ... -an-Adidas")

Re: Google index

Verfasst: Mittwoch 29. März 2017, 12:09
von BlackJack
@bouabid: Das ist keine URL mit der `urlopen()` etwas anfangen kann und das ist auch nicht die URL die Dein Browser verwendet. Wenn Du das so in den Browser in die ”URL”-Zeile eintippst, und zu der Seite gelangst die Du haben möchtest, dann passiert sogar noch mehr Magie als das der Browser einfach nur den Protokollteil vor Dir versteckt. Er merkt dann das es keine URL ist mit der er etwas anfangen kann und füttert Google damit als Suchbegriff. Die URL die *dabei* heraus kommt ist diejenige die Du verwenden musst.

Was willst Du denn überhaupt machen?

Re: Google index

Verfasst: Mittwoch 29. März 2017, 12:18
von bouabid
Hallo,

zuerst vielen Dank für alle Antworten. Ich wollte google fragen, welche Seiten sind indiziert und welche nicht.

Re: Google index

Verfasst: Mittwoch 29. März 2017, 12:54
von BlackJack
@bouabid: Kann man das überhaupt? Also ist der Unterschied dann ob eine Anfrage mit 'site:url' einen (echten) Treffer bringt oder nicht?

Dann müsstet Du letztendlich eine Suche *bei Google* durchführen. Wobei die auch eine API haben. Da würde ich zuerst schauen bevor ich Webseiten auswerten würde.

Re: Google index

Verfasst: Mittwoch 29. März 2017, 13:41
von bouabid
Danke