ich bräuchte hier eine Experten Meinung.
Laut: https://datascience.stackexchange.com/q ... idate-test
ist es sinnvoll CV am Trainingsdatenset anzuwenden. Ist das auch sinnvoll bei einem recht großen Datensatz ?
Wie teste ich dann anschließend den Trainingsdatensatz? Hier meine dezeitigen Ansätze
Code: Alles auswählen
train_X,test_X,train_y,test_y=train_test_split(X,y,test_size=0.3,random_state=0)
svscores = cross_val_score(clf, train_X, train_y, cv=10)
print( np.mean(svscores))
clf.fit(train_X,train_y)
svmpred_y = clf.predict(test_X)
mae=mean_absolute_error(svmpred_y,test_y)
print("SVM Accuracy: %.2f" % ((1-mae)*100), "%")
Code: Alles auswählen
train_X,test_X,train_y,test_y=train_test_split(X,y,test_size=0.3,random_state=0)
svscores = cross_val_score(clf, train_X, train_y, cv=10)
print( np.mean(svscores))
y_pred = cross_val_predict(clf, test_X, test_y, cv=10)
mae=mean_absolute_error(y_pred,test_y)
print("SVM Accuracy: %.2f" % ((1-mae)*100), "%")