Ich probiere ein Empfehlungssystem mit dem Goodreads Dataset zu erstellen, dafèr wèrde ich gerne das komplette review dataset nutzen (16.7GB)
Da ich mit dieser grossen Datenmenge immer wieder Probleme habe suche ich nach mehreren wegen wie ich das Dataset optimieren kann.
In der Regel werden Bücher in verschiedenen Auflagen und Sprachen veröffentlicht und jede Version erhält eine eigene ISBN Nummer.
Für mein Vorhaben ist es nicht relevant welche Auflage oder welche Sprache ein Buch hat, ich hätte gerne eine Buch-id welche das gleiche Buch zusammenfasst, egal ob Spanisch oder Deutsch und egal ob erste oder neuste Auflage. Das Dataset das ich nutzen möchte hat 2'077'721 Buch-Ids, ich denke mit dem vorgehen könnte ich es auf einen Bruchteil reduzieren und somit die user-item-matrix extrem verkleinern wenn ich alle bücher zusammenfassen könnte.
Ich habe das "isbntools" Package gefunden mit welchem es möglich ist mit dem Befehl "editions('9783257242423')" anhand einer isbn Nummer alle varrianten des angegebenen Buches zu finden (in diesem beispiel gibt es 90! varianten).

Da ich neuling bin im Coden bin ich etwas ratlos wie ich das Thema am besten angehen kann, daher bin ich auf der Suche nach einem Hinweis wie ich am besten vorgehen sollte.
Ich freue mich über jede antwort

lg