Seite 1 von 1

Skalieren von der Target Daten

Verfasst: Mittwoch 8. Juni 2022, 17:04
von nichtSoGuter
Ist es nötig die Target Daten zu skalieren?
In dem Buch woraus ich das ML erlerne wurden Target Daten nie skaliert.
Wenn ich bei dem "California Housing Prices" Dataset nur die Features skaliere , erhalte ich für die Loss Funktion (= Mean Squared Error) große werte als Ergebnis der Loss Funktion (Ergebnis der Loss Funktion bei der ersten Epoche meines DNN: 56100130816). Bei anderen Datasets waren meine Loss Funktionsergebnisse immer so bei 1. Sind große werde für die Loss Funktion (=mse) überhaupt plausibel?

Wenn ich auch die Target Daten skaliere, dann erhalte ich Werte die ich auch bei anderen Datasets erhalten habe (Ergebnis der Loss Funktion bei der ersten Epoche meines DNN, wobei y skaliert ist: 1.6302). Wieso wurde das aber in dem Buch nie gemacht. Ist das skalieren der Target Daten falsch?

Über eine Antwort würde ich mich freuen.

Vielen Dank im Voraus.

Re: Skalieren von der Target Daten

Verfasst: Donnerstag 9. Juni 2022, 08:20
von ThomasL
Moin,
Ist das skalieren der Target Daten falsch?
Sorry das ich so unhöflich bin und dir eine klare Antwort gebe: Alleine das Stellen dieser Frage zeigt, dass du nicht verstanden hast worum es hier geht. Es geht hier um lineare Regression. Da fummelt man nicht an den Zieldaten herum.

Die Targetdaten sind hier Hauspreise und das Ziel ist es ein Modell zu entwickeln, mit dem man bei einem neuen Objekt und dessen Features einen ziemlich genauen Preis bekommt. Wie soll denn das mit skalierten Preisen funktionieren? Ok, im Prinzip ist das Target ja schon skaliert denn die Werte geben ja den Wert in "hundreds of thousands" an, sind also durch 1000 geteilt. Wenn du meinst du hast zu große Werte, dann kannst du sie ja nochmal durch 1000 teilen. Musst du dann das Ergebnis halt mit einer Mio multiplizieren um den Hauspreis zu bekommen. Macht man aber eigentlich nicht.

Hier mal etwas zur linearen Regression:
https://realpython.com/linear-regression-in-python/

Und hier eine gute Einführung an dieses Dataset:
https://inria.github.io/scikit-learn-mo ... using.html