isbnlib Gruppenid von gleichen Büchern erstellen

01010100-01000010 · Dienstag 22. November 2022, 18:15

Hi Zusammen
Ich probiere ein Empfehlungssystem mit dem Goodreads Dataset zu erstellen, dafèr wèrde ich gerne das komplette review dataset nutzen (16.7GB)
Da ich mit dieser grossen Datenmenge immer wieder Probleme habe suche ich nach mehreren wegen wie ich das Dataset optimieren kann.

In der Regel werden Bücher in verschiedenen Auflagen und Sprachen veröffentlicht und jede Version erhält eine eigene ISBN Nummer.
Für mein Vorhaben ist es nicht relevant welche Auflage oder welche Sprache ein Buch hat, ich hätte gerne eine Buch-id welche das gleiche Buch zusammenfasst, egal ob Spanisch oder Deutsch und egal ob erste oder neuste Auflage. Das Dataset das ich nutzen möchte hat 2'077'721 Buch-Ids, ich denke mit dem vorgehen könnte ich es auf einen Bruchteil reduzieren und somit die user-item-matrix extrem verkleinern wenn ich alle bücher zusammenfassen könnte.

Ich habe das "isbntools" Package gefunden mit welchem es möglich ist mit dem Befehl "editions('9783257242423')" anhand einer isbn Nummer alle varrianten des angegebenen Buches zu finden (in diesem beispiel gibt es 90! varianten).

Da ich neuling bin im Coden bin ich etwas ratlos wie ich das Thema am besten angehen kann, daher bin ich auf der Suche nach einem Hinweis wie ich am besten vorgehen sollte.

Ich freue mich über jede antwort

lg

nezzcarth · Dienstag 22. November 2022, 19:43

Bei Goodreads gibt es eine "work ID", die bereits die Gruppierung, die du glaube ich suchst, abbildet: https://help.goodreads.com/s/article/Wh ... -I-find-it

Bei isbntools/isbnlib musst du bedenken, dass "editions" nichts anderes macht, als API-Anfragen an LibraryThing und OpenLibrary zu stellen und zusammenzufassen. Da kann bei der Menge, von der du redest, schnell Schluss sein. OpenLibrary bittet zum Beispiel explizit darum, von Massenabfragen abzusehen: https://openlibrary.org/developers/api

01010100-01000010 · Dienstag 22. November 2022, 20:14

nezzcarth hat geschrieben: Dienstag 22. November 2022, 19:43 Bei Goodreads gibt es eine "work ID", die bereits die Gruppierung, die du glaube ich suchst, abbildet: https://help.goodreads.com/s/article/Wh ... -I-find-it

Bei isbntools/isbnlib musst du bedenken, dass "editions" nichts anderes macht, als API-Anfragen an LibraryThing und OpenLibrary zu stellen und zusammenzufassen. Da kann bei der Menge, von der du redest, schnell Schluss sein. OpenLibrary bittet zum Beispiel explizit darum, von Massenabfragen abzusehen: https://openlibrary.org/developers/api

oh Wow
Du hast vollkommen recht

die WorkId ist genau das was ich gesucht habe, keine Ahnung wie mir die entgehen konnte.
Vielen Herzlichen Dank! Du hast mir sehr geholfen