Nun möchte ich die funktionen von tf.data.Dataset (Link: https://www.tensorflow.org/api_docs/pyt ... ta/Dataset) verwendet. Mit den funktionen batch(), shuffle(), repeat() möchte ich die Daten X_train, y_train, etc. mischen und in batches aufsplitten.
Wenn ich die Funktionen auf die einzelnen Datasets anwende, dann wird durch das mischen X_.. und y_... wahrscheinlich unterschiedlich gemischt. Damit steht einem Sample von X_.. nicht mehr das dazugehörige Target von y_... entgegen glaube ich.
Kann ich das problem mit tf.random.set_seed lösen? Also werden die Daten auf gleicher art und weise gemischt, gebatcht und repeated durch tf.random.set_seed
Code: Alles auswählen
# umwandel von numpy arrays in tf.data
X_train = tf.data.Dataset.from_tensor_slices(X_train)
y_train = tf.data.Dataset.from_tensor_slices(y_train)
# analog: y_test, X_test, etc.
# Anwendung der funktinoen von tf.data.Dataset
tf.random.set_seed(31)
X_train= X_train.repeat(5).shuffle(50).batch(20).prefetch(1)
y_train= y_train.repeat(5).shuffle(50).batch(20).prefetch(1)
# analog: y_test, X_test, etc.
Hat jemand vllt eine bessere idee?