sklearn predict methode funktioniert zu gut?
Verfasst: Dienstag 19. April 2022, 14:22
Hallo,
ich habe die Trainigsdaten aufgesplittet in Labels und Features
Mit den Features (X) wird ein Model trainiert, welches "vorhersagen" treffen kann.
Label (y) sind die tatsächlichen Werte.
z.B.: die Daten über die Temperatur eines Gebiets über einen bestimmten Zeitraum sind Featuren Daten. Anhand dieser soll der Verbrauch an Heizöl in diesem Gebiet(=Label) "vorhergesagt" werden.
Also trainert man ein Model mit den Features. Das Model errechnet dann den Verbrauch an Heizöl der wahrscheinlich verbraucht wird. Die Ergebnisse des Models sollten bestenfalls so nah an den Label Werten sein wie möglich
Unten steht mein code bei dem ich die feature und label voneinander trenne (Achtung der Code unten hat nichts mit dem Heizölbeispiel zu tun)
Dann trainiere ich das model mit den label und feature daten:
Nun möchte ich schauen wie gut die vorhersagen des Models sind:
Die Ausgaben sind komplett identisch. Damit ist die Vorhersage entweder sehr gut oder das model funktioniert nicht so richtig bzw. ich habe einen fehler bei der implementierung der methode gemacht
Weiß jemand was der Grund ist, weshalb die vorhersage genau dem Ergebnis entspricht?
Vielen Dank im Voraus!
ich habe die Trainigsdaten aufgesplittet in Labels und Features
Mit den Features (X) wird ein Model trainiert, welches "vorhersagen" treffen kann.
Label (y) sind die tatsächlichen Werte.
z.B.: die Daten über die Temperatur eines Gebiets über einen bestimmten Zeitraum sind Featuren Daten. Anhand dieser soll der Verbrauch an Heizöl in diesem Gebiet(=Label) "vorhergesagt" werden.
Also trainert man ein Model mit den Features. Das Model errechnet dann den Verbrauch an Heizöl der wahrscheinlich verbraucht wird. Die Ergebnisse des Models sollten bestenfalls so nah an den Label Werten sein wie möglich
Unten steht mein code bei dem ich die feature und label voneinander trenne (Achtung der Code unten hat nichts mit dem Heizölbeispiel zu tun)
Code: Alles auswählen
# erstelle kopie der Trainingsdaten
trainingsdaten_kopie = strat_train_set.copy()
# y=Label, X=feature
y = trainingsdaten_kopie["median_house_value"].copy() #y ist ein Dataframe?
X = columnTransform.fit_transform(trainingsdaten_kopie) # X ist ein np.array
Code: Alles auswählen
# importiere LinearRegression Klasse
from sklearn.linear_model import LinearRegression
# erstelle Instanz der LinearRegressionKlasse
lin_reg = LinearRegression()
# Instanz lernt die Daten mit X
lin_reg.fit(X,y)
Code: Alles auswählen
print("Prediction:", lin_reg.predict(X[:5]))
print("Labels:", list(some_label[:5]))
Die Ausgaben sind komplett identisch. Damit ist die Vorhersage entweder sehr gut oder das model funktioniert nicht so richtig bzw. ich habe einen fehler bei der implementierung der methode gemacht
Weiß jemand was der Grund ist, weshalb die vorhersage genau dem Ergebnis entspricht?
Vielen Dank im Voraus!