isbnlib Gruppenid von gleichen Büchern erstellen

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Antworten
01010100-01000010
User
Beiträge: 4
Registriert: Dienstag 22. November 2022, 17:56

Hi Zusammen
Ich probiere ein Empfehlungssystem mit dem Goodreads Dataset zu erstellen, dafèr wèrde ich gerne das komplette review dataset nutzen (16.7GB)
Da ich mit dieser grossen Datenmenge immer wieder Probleme habe suche ich nach mehreren wegen wie ich das Dataset optimieren kann.

In der Regel werden Bücher in verschiedenen Auflagen und Sprachen veröffentlicht und jede Version erhält eine eigene ISBN Nummer.
Für mein Vorhaben ist es nicht relevant welche Auflage oder welche Sprache ein Buch hat, ich hätte gerne eine Buch-id welche das gleiche Buch zusammenfasst, egal ob Spanisch oder Deutsch und egal ob erste oder neuste Auflage. Das Dataset das ich nutzen möchte hat 2'077'721 Buch-Ids, ich denke mit dem vorgehen könnte ich es auf einen Bruchteil reduzieren und somit die user-item-matrix extrem verkleinern wenn ich alle bücher zusammenfassen könnte.

Ich habe das "isbntools" Package gefunden mit welchem es möglich ist mit dem Befehl "editions('9783257242423')" anhand einer isbn Nummer alle varrianten des angegebenen Buches zu finden (in diesem beispiel gibt es 90! varianten). :o

Da ich neuling bin im Coden bin ich etwas ratlos wie ich das Thema am besten angehen kann, daher bin ich auf der Suche nach einem Hinweis wie ich am besten vorgehen sollte.

Ich freue mich über jede antwort :)
lg
nezzcarth
User
Beiträge: 1634
Registriert: Samstag 16. April 2011, 12:47

Bei Goodreads gibt es eine "work ID", die bereits die Gruppierung, die du glaube ich suchst, abbildet: https://help.goodreads.com/s/article/Wh ... -I-find-it

Bei isbntools/isbnlib musst du bedenken, dass "editions" nichts anderes macht, als API-Anfragen an LibraryThing und OpenLibrary zu stellen und zusammenzufassen. Da kann bei der Menge, von der du redest, schnell Schluss sein. OpenLibrary bittet zum Beispiel explizit darum, von Massenabfragen abzusehen: https://openlibrary.org/developers/api
01010100-01000010
User
Beiträge: 4
Registriert: Dienstag 22. November 2022, 17:56

nezzcarth hat geschrieben: Dienstag 22. November 2022, 19:43 Bei Goodreads gibt es eine "work ID", die bereits die Gruppierung, die du glaube ich suchst, abbildet: https://help.goodreads.com/s/article/Wh ... -I-find-it

Bei isbntools/isbnlib musst du bedenken, dass "editions" nichts anderes macht, als API-Anfragen an LibraryThing und OpenLibrary zu stellen und zusammenzufassen. Da kann bei der Menge, von der du redest, schnell Schluss sein. OpenLibrary bittet zum Beispiel explizit darum, von Massenabfragen abzusehen: https://openlibrary.org/developers/api
oh Wow
Du hast vollkommen recht :shock: die WorkId ist genau das was ich gesucht habe, keine Ahnung wie mir die entgehen konnte.
Vielen Herzlichen Dank! Du hast mir sehr geholfen :D
Antworten