Das deutsche Python-Forum

Hallo zusammen,

ich bräuchte hier eine Experten Meinung.
Laut: https://datascience.stackexchange.com/q ... idate-test
ist es sinnvoll CV am Trainingsdatenset anzuwenden. Ist das auch sinnvoll bei einem recht großen Datensatz ?
Wie teste ich dann anschließend den Trainingsdatensatz? Hier meine dezeitigen Ansätze

Code: Alles auswählen

train_X,test_X,train_y,test_y=train_test_split(X,y,test_size=0.3,random_state=0)
svscores = cross_val_score(clf, train_X, train_y, cv=10)
print( np.mean(svscores))

clf.fit(train_X,train_y)
svmpred_y = clf.predict(test_X)
mae=mean_absolute_error(svmpred_y,test_y)
print("SVM Accuracy: %.2f" % ((1-mae)*100), "%")

alternativer Ansatz wobei hier glaube ich CV einfach doppelt angewendet wird

Code: Alles auswählen

train_X,test_X,train_y,test_y=train_test_split(X,y,test_size=0.3,random_state=0)
svscores = cross_val_score(clf, train_X, train_y, cv=10)
print( np.mean(svscores))

y_pred = cross_val_predict(clf, test_X, test_y, cv=10)
mae=mean_absolute_error(y_pred,test_y)
print("SVM Accuracy: %.2f" % ((1-mae)*100), "%")

Bin dankbar für jeden Tipp und Ratschlag

Das deutsche Python-Forum

Train Test Split mit CV

Train Test Split mit CV