Alle Produktlink zu Produkten einer Webseite

Code-Stücke können hier veröffentlicht werden.
Antworten
MarionStorm
User
Beiträge: 11
Registriert: Freitag 3. Juni 2022, 00:05

Hallo Leute,
würde gerne aus der Webseite www.otto.de alle Produktlink scrapen. Ist dies möglich?
Also nicht nur die Links auf der Seite auf der man sich gerade befindet sonder auch die unterseiten die daraus folgen?

Hatte es bereits versucht indem ich in der Suchleiste nur den Buchstaben a eingegeben habe und danach den Buchstaben b aber er zeigt dann nicht alles Produkte mit dem Buchstaben sondern nur paar Stück. Gibt es da eventuell einen Trick das man in einen Code in die Suchleiste eintippt so dass mir die gesamten Produkte des ganzen Shops angezeigt werden?

Ich würde gerne einfach an die URLs aller Produkte des Shops kommen!
Benutzeravatar
__blackjack__
User
Beiträge: 13100
Registriert: Samstag 2. Juni 2018, 10:21
Wohnort: 127.0.0.1
Kontaktdaten:

@MarionStorm: Das ist nicht vorgesehen. Ist ja auch nicht das was menschliche Kunden machen würden. Wofür brauchst Du das als Privatperson denn überhaupt? Die Nutzungsbedingungen schliessen eine gewerbliche Nutzung der Daten ja aus. Wenn man das will, soll man Otto fragen. Und dann stellen die vielleicht auch eine API zur Verfügung.
„All religions are the same: religion is basically guilt, with different holidays.” — Cathy Ladman
Benutzeravatar
DeaD_EyE
User
Beiträge: 1020
Registriert: Sonntag 19. September 2010, 13:45
Wohnort: Hagen
Kontaktdaten:

Mit requests und BeautifulSoup würde ich erst gar nicht anfangen.
So wie das aussieht, werden die Inhalte als JavaScript ausgeliefert.
Solche Seiten zu scrapen macht keinen Spaß. Eine Möglichkeit wäre die Verwendung von Selenium.


Letztendlich ist die Website eine öffentliche API.
Ob die Nutzung einer öffentlichen API illegal sein kann oder nicht, müssten Gerichte mal feststellen.
sourceserver.info - sourceserver.info/wiki/ - ausgestorbener Support für HL2-Server
Benutzeravatar
__blackjack__
User
Beiträge: 13100
Registriert: Samstag 2. Juni 2018, 10:21
Wohnort: 127.0.0.1
Kontaktdaten:

@DeaD_EyE: Die Nutzungsbedingungen sprechen von gewerblicher Nutzung der Daten, und da gibt es einen Schutz für Datenbanken. Das ist das ja am Ende — eine Produktdatenbank. Ansonsten hat der Webseitenanbieter ”Hausrecht” und kann natürlich sagen, dass er das nicht gescraped haben möchte, und kann den Besucher auch ”raus werfen”, a.k.a. die Zugriffe blockieren wenn man was macht, was ihm nicht passt. Nicht nur theoretisch, das wird ja auch ganz praktisch gemacht.
„All religions are the same: religion is basically guilt, with different holidays.” — Cathy Ladman
MarionStorm
User
Beiträge: 11
Registriert: Freitag 3. Juni 2022, 00:05

__blackjack__ hat geschrieben: Freitag 3. Juni 2022, 09:37 @MarionStorm: Das ist nicht vorgesehen. Ist ja auch nicht das was menschliche Kunden machen würden. Wofür brauchst Du das als Privatperson denn überhaupt? Die Nutzungsbedingungen schliessen eine gewerbliche Nutzung der Daten ja aus. Wenn man das will, soll man Otto fragen. Und dann stellen die vielleicht auch eine API zur Verfügung.
Hallo, ich möchte die Daten im Nachhinein scrapen und in einen eigenen Shop übertragen und als Zwischenhändler fungieren.

Hatte OTTO bereits 2x per E-Mail angeschrieben und mitlerweile sind 2 Wochen vergangen ohne eine Rückmeldung bzg. eine API oder einer .csv Datei.

Und Sraping ist im allgemeinen Erlaubt sofern keine technischen Schutzmaßnahmen überwunden werden. Und es besteht das Recht auf Daten.
MarionStorm
User
Beiträge: 11
Registriert: Freitag 3. Juni 2022, 00:05

__blackjack__ hat geschrieben: Freitag 3. Juni 2022, 10:21 @DeaD_EyE: Die Nutzungsbedingungen sprechen von gewerblicher Nutzung der Daten, und da gibt es einen Schutz für Datenbanken. Das ist das ja am Ende — eine Produktdatenbank. Ansonsten hat der Webseitenanbieter ”Hausrecht” und kann natürlich sagen, dass er das nicht gescraped haben möchte, und kann den Besucher auch ”raus werfen”, a.k.a. die Zugriffe blockieren wenn man was macht, was ihm nicht passt. Nicht nur theoretisch, das wird ja auch ganz praktisch gemacht.
Richtig das ist mir ebenfalls bekannt, jedoch würde in unserem Fall die Firma profitieren das wir zwischenhändler währen also Dropshipping bereiben würden. Und diese sperren kann man mir rotierenden Proxys umgehen wie ich gelesen habe.
Jedoch glaube ich das otto nicht sperrt. Habe bereits einige Software ausprobiert um testweise zu scrapen und es funktioniert einwandfrei ohne sperren.

Aufjedenfall beantwortet Ihre Nachricht in keinsterweise meine Frage.
__deets__
User
Beiträge: 14537
Registriert: Mittwoch 14. Oktober 2015, 14:29

MarionStorm hat geschrieben: Freitag 3. Juni 2022, 14:13 Hatte OTTO bereits 2x per E-Mail angeschrieben und mitlerweile sind 2 Wochen vergangen ohne eine Rückmeldung bzg. eine API oder einer .csv Datei.

Und Sraping ist im allgemeinen Erlaubt sofern keine technischen Schutzmaßnahmen überwunden werden. Und es besteht das Recht auf Daten.
Das ist quatsch. In jedweder Hinsicht. Ein "Recht auf Daten" gibt es wenn nur im Kontext von Daten, die der Staat erhebt, und wie sie dann im Informationsfreiheitsgesetz festgelegt sind. Ein Gewerbetreibender ist aber nicht verpflichtet, sich in die Karten schauen zu lassen.

Was die eigentliche Frage angeht: es gibt keine magische URL, mit der man einfach die Daten einer Webseite abgreifen kann. Wie jeder Webscraper werden sie die Seite analysieren muessen, und zB paging entsprechend im Scraping-Tool nachprogrammieren.
Benutzeravatar
__blackjack__
User
Beiträge: 13100
Registriert: Samstag 2. Juni 2018, 10:21
Wohnort: 127.0.0.1
Kontaktdaten:

@MarionStorm: Es besteht ein Recht auf Daten?

Ich habe die Frage beantwortet. Das Dir die Antwort nicht gefällt, ändert daran nichts. Es gibt keinen vorgesehenen Weg alle Produkte aufzulisten auf der Webseite.

Und ob die nun davon profitieren oder nicht, ändert auch nichts daran, dass das gewerbliche Nutzung ist. Und es gibt weiterhin das Urheberrecht. Nur weil die Daten öffentlich angeboten werden, heisst das nicht das man die einfach kopieren und gewerblich verwenden darf, ohne Zustimmung des Urhebers. Der ja extra darauf hinweist, das man ihn für solche Zwecke kontaktieren soll.

Da Du sagst Du *hast* die kontaktiert, die Dich und Dein Anliegen also kennen, heul hinterher nicht wenn deren Anwälte Dir eine Abmahnung zustellen, falls Du gescrapte Daten für ein eigenes Webangebot verwendest.

Selbst wenn die tatsächlich finanziell davon profitieren könnten, kann es auch Gründe dagegen geben, aus Sicht von Otto. Zum Beispiel das sie selbst Daten verwenden, wo sie keine Erlaubnis haben die weiterzugeben. Und das die was dagegen haben, dass die Marke Otto von den angeboten entfernt wird, oder das jemand anders den Namen verwendet, weil sie die Kunden gerne über *ihr* Portal laufen lassen wollen. Da kommen ja auch Daten und Kundenbindung bei herum.
„All religions are the same: religion is basically guilt, with different holidays.” — Cathy Ladman
MarionStorm
User
Beiträge: 11
Registriert: Freitag 3. Juni 2022, 00:05

__blackjack__ hat geschrieben: Freitag 3. Juni 2022, 14:59 @MarionStorm: Es besteht ein Recht auf Daten?

Ich habe die Frage beantwortet. Das Dir die Antwort nicht gefällt, ändert daran nichts. Es gibt keinen vorgesehenen Weg alle Produkte aufzulisten auf der Webseite.

Und ob die nun davon profitieren oder nicht, ändert auch nichts daran, dass das gewerbliche Nutzung ist. Und es gibt weiterhin das Urheberrecht. Nur weil die Daten öffentlich angeboten werden, heisst das nicht das man die einfach kopieren und gewerblich verwenden darf, ohne Zustimmung des Urhebers. Der ja extra darauf hinweist, das man ihn für solche Zwecke kontaktieren soll.

Da Du sagst Du *hast* die kontaktiert, die Dich und Dein Anliegen also kennen, heul hinterher nicht wenn deren Anwälte Dir eine Abmahnung zustellen, falls Du gescrapte Daten für ein eigenes Webangebot verwendest.

Selbst wenn die tatsächlich finanziell davon profitieren könnten, kann es auch Gründe dagegen geben, aus Sicht von Otto. Zum Beispiel das sie selbst Daten verwenden, wo sie keine Erlaubnis haben die weiterzugeben. Und das die was dagegen haben, dass die Marke Otto von den angeboten entfernt wird, oder das jemand anders den Namen verwendet, weil sie die Kunden gerne über *ihr* Portal laufen lassen wollen. Da kommen ja auch Daten und Kundenbindung bei herum.
Ja verstehe schon auf was Sie hinaus wollen und was Sie schreiben ergibt für mich auch vollkommen Sinn der mir bereits durch den Kopf gegangen ist. Andereseits gibt es ja viele Unternehmen die Scraping anbieten und die Daten dann zum Verkauf zur verfügung stellen.
Habe bereits einige Anfragen gemacht und die lassen sich 2.000.000 Produkte mit wöchendlicher aktualisierung was Lagerbestand und aktueller Preis von mit 6000 EUR zum Kasse bitten.

Daher die eigeninziative selbst zu scrapen.

Weiter Punk wo sie mir auch sicher Recht geben würden ist ja auch das Raking von google im algemeinen und doppel Content währe ebenfalls schlecht für otto in diesem Beispiel.

Und so weit ich infomiert bin muss der Inhaber einer Seite es in den Nutzungsbedinungen angeben und bei otto selbst werde ich da nicht fündig. Was bedeutet das es hier erlaubt ist.

Ebenso beziehe ich mich auf folgenden Text:
"Bis 2009 waren Klagen gegen dieses automatische Extrahieren von Daten noch meist erfolgreich – dies hat sich jedoch in jüngerer Vergangenheit geändert. Weitgehender Konsens bei den Gerichten ist heute, dass – wenn weder wesentliche Teile der Datenbanken kopiert werden, noch es zur technischen Überlastung der „gescrapten“ Seite kommt – automatisiertes Sammeln von Daten zulässig ist, solange die Seite rechtlich und technisch frei zugänglich ist. "
MarionStorm
User
Beiträge: 11
Registriert: Freitag 3. Juni 2022, 00:05

DeaD_EyE hat geschrieben: Freitag 3. Juni 2022, 10:03 Mit requests und BeautifulSoup würde ich erst gar nicht anfangen.
So wie das aussieht, werden die Inhalte als JavaScript ausgeliefert.
Solche Seiten zu scrapen macht keinen Spaß. Eine Möglichkeit wäre die Verwendung von Selenium.


Letztendlich ist die Website eine öffentliche API.
Ob die Nutzung einer öffentlichen API illegal sein kann oder nicht, müssten Gerichte mal feststellen.
Könnten Sie es vielleicht etwas näher ausführen wie Sie zum Selenium statt statt zu requests und BeautifulSoup greifen würden.
Danke
__deets__
User
Beiträge: 14537
Registriert: Mittwoch 14. Oktober 2015, 14:29

Weil man dann nicht die requests und Javascript analysieren muss, sondern "einfach" die Webseite bedient, wie sie gedacht ist.

Das ganze wird aber immer ein Katz & Maus Spiel bleiben, wenn es keinen offiziellen Weg gibt von Otto. Und wie ueberall gilt da auch: keine Antwort ist auch eine Antwort.
Benutzeravatar
kbr
User
Beiträge: 1487
Registriert: Mittwoch 15. Oktober 2008, 09:27

Im Quelltext von otto.de ist zu erkennen, dass zusätzlich auch noch das css auszuwerten ist, um mehrdeutige Preisangaben auszuschließen. Zudem ist Otto bereits ein Zwischenhändler, da Otto eine Plattform bereitstellt, deren Bekanntheit und Infrastruktur andere Händler nutzen können (ähnlich wie Amazon). Diese Händler wollen dann auch konkret auf otto.de zu finden sein. An einem weiteren vorgeschalteten Händler werden weder Otto noch deren Kunden ein Interesse haben, was auch die fehlende Antwort erklären dürfte. Mit Otto würde ich mich übrigens nicht anlegen wollen: dies ist einer der weltweit größten Online-Händler (nach meiner Kenntnis sogar der zweitgrößte).
Zuletzt geändert von kbr am Freitag 3. Juni 2022, 15:59, insgesamt 1-mal geändert.
MarionStorm
User
Beiträge: 11
Registriert: Freitag 3. Juni 2022, 00:05

kbr hat geschrieben: Freitag 3. Juni 2022, 15:56 Im Quelltext von otto.de ist zu erkennen, dass zusätzlich auch noch das css auszuwerten ist, um mehrdeutige Preisangaben auszuschließen. Zudem ist Otto bereits ein Zwischenhändler, da Otto eine Plattform bereitstellt, deren Bekanntheit und Infrastruktur andere Händler nutzen können (ähnlich wie Amazon). Diese Händler wollen dann auch konkret auf otto.de zu finden sein. An einem weiteren vorgeschalteten Händler werden weder Otto noch deren Kunden ein Interesse haben, was auch die fehlende Antwort erklären dürfte. Mit Otto würde ich mich übrigens nicht anlegen wollen: dies ist der nach Amazon weltweit zweitgrößte Online-Händler.
Das otto auch einen Marktplatz für Händler bereits ist sehr wohl bekannt. Aus diesem Grund würde ich halt Filter das nur OTTO Produkte geklatt werden.
MarionStorm
User
Beiträge: 11
Registriert: Freitag 3. Juni 2022, 00:05

MarionStorm hat geschrieben: Freitag 3. Juni 2022, 15:17
__blackjack__ hat geschrieben: Freitag 3. Juni 2022, 14:59 @MarionStorm: Es besteht ein Recht auf Daten?

Ich habe die Frage beantwortet. Das Dir die Antwort nicht gefällt, ändert daran nichts. Es gibt keinen vorgesehenen Weg alle Produkte aufzulisten auf der Webseite.

Und ob die nun davon profitieren oder nicht, ändert auch nichts daran, dass das gewerbliche Nutzung ist. Und es gibt weiterhin das Urheberrecht. Nur weil die Daten öffentlich angeboten werden, heisst das nicht das man die einfach kopieren und gewerblich verwenden darf, ohne Zustimmung des Urhebers. Der ja extra darauf hinweist, das man ihn für solche Zwecke kontaktieren soll.

Da Du sagst Du *hast* die kontaktiert, die Dich und Dein Anliegen also kennen, heul hinterher nicht wenn deren Anwälte Dir eine Abmahnung zustellen, falls Du gescrapte Daten für ein eigenes Webangebot verwendest.

Selbst wenn die tatsächlich finanziell davon profitieren könnten, kann es auch Gründe dagegen geben, aus Sicht von Otto. Zum Beispiel das sie selbst Daten verwenden, wo sie keine Erlaubnis haben die weiterzugeben. Und das die was dagegen haben, dass die Marke Otto von den angeboten entfernt wird, oder das jemand anders den Namen verwendet, weil sie die Kunden gerne über *ihr* Portal laufen lassen wollen. Da kommen ja auch Daten und Kundenbindung bei herum.
Ja verstehe schon auf was Sie hinaus wollen und was Sie schreiben ergibt für mich auch vollkommen Sinn der mir bereits durch den Kopf gegangen ist. Andereseits gibt es ja viele Unternehmen die Scraping anbieten und die Daten dann zum Verkauf zur verfügung stellen.
Habe bereits einige Anfragen gemacht und die lassen sich 2.000.000 Produkte mit wöchendlicher aktualisierung was Lagerbestand und aktueller Preis von mit 6000 EUR zum Kasse bitten.

Daher die eigeninziative selbst zu scrapen.

Weiter Punk wo sie mir auch sicher Recht geben würden ist ja auch das Raking von google im algemeinen und doppel Content währe ebenfalls schlecht für otto in diesem Beispiel.

Und so weit ich infomiert bin muss der Inhaber einer Seite es in den Nutzungsbedinungen angeben und bei otto selbst werde ich da nicht fündig. Was bedeutet das es hier erlaubt ist.

Ebenso beziehe ich mich auf folgenden Text:
"Bis 2009 waren Klagen gegen dieses automatische Extrahieren von Daten noch meist erfolgreich – dies hat sich jedoch in jüngerer Vergangenheit geändert. Weitgehender Konsens bei den Gerichten ist heute, dass – wenn weder wesentliche Teile der Datenbanken kopiert werden, noch es zur technischen Überlastung der „gescrapten“ Seite kommt – automatisiertes Sammeln von Daten zulässig ist, solange die Seite rechtlich und technisch frei zugänglich ist. "


Interessanter Umweg um nicht abgemahnt zu werden ist eine Frima in England. Beispielsweise eine Ltd. den dann gelten die Gesetze von England und sowas wie eine Abmahnung wegen dem gescrapen Daten gibt es dort nicht. ;)
Benutzeravatar
sparrow
User
Beiträge: 4193
Registriert: Freitag 17. April 2009, 10:28

Na, wenn das die Grundlage ist, auf der du ein Geschäft aufbauen willst. Viel Erfolg.
MarionStorm
User
Beiträge: 11
Registriert: Freitag 3. Juni 2022, 00:05

sparrow hat geschrieben: Freitag 3. Juni 2022, 18:58 Na, wenn das die Grundlage ist, auf der du ein Geschäft aufbauen willst. Viel Erfolg.
Man nutzt jede Möglichkeit um ein Geschäft aufzubauen und es ist doch legal also verstehe ist jetzt die Missgunst nicht.
__deets__
User
Beiträge: 14537
Registriert: Mittwoch 14. Oktober 2015, 14:29

Omas an der Tür überteuerte Lebensversicherungen aufzuschwatzen ist auch eine der jeden Möglichkeiten. Auch legal. Und trotzdem scheisse.
Benutzeravatar
DeaD_EyE
User
Beiträge: 1020
Registriert: Sonntag 19. September 2010, 13:45
Wohnort: Hagen
Kontaktdaten:

Ich hätte einen Vorschlag. Mach das nicht. Lerne lieber programmieren. Durch eigene Arbeit kann man viel mehr erreichen. Man muss sich die Betreiber der großen Plattformen als bewegliche Ziele vorstellen. Also, selbst wenn das mal funktioniert, wirst du mehr Zeit damit aufbringen, den Code an Änderungen der Betreiber anzupassen, als sich um dein Geschäft zu kümmern.
sourceserver.info - sourceserver.info/wiki/ - ausgestorbener Support für HL2-Server
DasIch
User
Beiträge: 2718
Registriert: Montag 19. Mai 2008, 04:21
Wohnort: Berlin

Die rechtliche Situation ist weitaus komplizierter als hier einige darstellen und hängt davon ab was man mit den Daten nach dem Scraping macht. Da wäre MarionStorm am besten beraten mal mit einem Anwalt zu reden. Im E-Commerce Bereich ist es aber z.B. vollkommen normal dass sich Wettbewerber gegenseitig scrapen um z.B. bei Preisen zu konkurrieren. Es gibt Unternehmen die sowas als Dienstleistung anbieten, auch aus Deutschland.

Wie man sowas ganz praktisch anstellt hängt sehr stark von der Größenordnung ab in der man sowas betreibt. Bis zu einem Gewissen Rahmen ist Scrapy eine sehr gute Lösung für sowas und deutlich einfacher als mit Requests und BeautifulSoup das Rad neuzuerfinden. Sollte JS ein Problem sein, ist es besser man nutzt private APIs, das ist einfacher und effizienter als Javascript auszuführen, nur wenn dass nicht funktioniert würde ich auf sowas wie splash oder Selenium zugreifen dass würde ich aber versuchen möglichst zu vermeiden.
Antworten