Seite 1 von 1
k Nearest Neighbours
Verfasst: Sonntag 6. Juni 2021, 12:06
von Coderjo
Hi Community,
wisst ihr wie man ein Gefühl dafür bekommt, was der euklidische Distanzmaß, z.B. dist(Punkt1,Punkt2) = 9 aussagt?
Also wenn es 2 Variablen gäbe (2D) und die Distanz zwischen den beiden Punkten eine 9 wäre, wie kann ich dann erfahren, ob die Distanz die Variable 1 oder die Variable 2 meint?

Re: k Nearest Neighbours
Verfasst: Sonntag 6. Juni 2021, 14:04
von rogerb
Hallo Coderjo,
Eine Distanz ist der Abstand zwischen zwei Punkten, bezieht sich also auf beide Punkte!?
... wie man ein Gefühl dafür bekommt
... ob die Distanz die Variable 1 oder die Variable 2 meint?
es ist nicht ganz klar was du meinst, kannst du das anders ausdrücken?
Da die Überschrift "k Nearest Neighbours" lautet könnte ich noch raten, dass der eine Punkt das zu klassifizierende Datum und der andere Punkt ein Trainings Datum ist?
Re: k Nearest Neighbours
Verfasst: Sonntag 6. Juni 2021, 16:48
von Coderjo
Also wenn wir mal annehmen, dass wir 2 Attribute haben. Zu einem wäre das die "Länge" eines Autos zum anderen das "Gewicht". Somit hätten wir ein 2 Dimensionalen Plot mit Punkten: p(Länge,Gewicht).
Jetzt wenn die euklidische Distanz = 9 ergibt, weiß man nicht, ob jetzt eher die Länge mit der Distanz gemeint ist oder das Gewicht, daher normalisiert man die Daten ja, um herauszufinden wie die Distanz sich ausdrückt oder? Und dann kann man das noch mit statistischen Größen wie Standardabweichung sich angucken, um diese Frage zu beantworten, aber ich wüsste jetzt auch nicht wie man das machen kann.
Also ich verstehe das komplett Gebilde nicht so ganz, nur unser Lehrer meinte wir sollten uns mal damit beschäftigen und gucken woher die Distanz kommt? :/ Also ich hoffe Du verstehst mein Anliegen etwas besser.
Re: k Nearest Neighbours
Verfasst: Sonntag 6. Juni 2021, 17:29
von __deets__
Die Distanz meint qua Definition ja nun mal immer beide Dimensionen. Wenn man dir einfach nur eine Distanz berechnet aus unnormalisierten Daten gibt (aber nicht die beiden Punkte), dann ist es mathematisch unmoeglich zu beantworten, welche der beiden Dimensionen jetzt den groesseren Beitrag liefert. Wenn du aber P1/P2 gegeben hast, dann brauchst du dir nur den Abstand in der einen und anderen Dimension anschauen (also zB 8 in x und ~1.15 in y). Damit bekommst du eine Vorstellung, und du kannst das dann auch noch als x_d / d_total und y_d / d_total normalisieren. Wobei das ja letztlich eben genau das ist, was man mit Normalisierung meint.
Re: k Nearest Neighbours
Verfasst: Sonntag 6. Juni 2021, 18:02
von rogerb
Coderjo hat geschrieben: Sonntag 6. Juni 2021, 16:48
Jetzt wenn die euklidische Distanz = 9 ergibt, weiß man nicht, ob jetzt eher die Länge mit der Distanz gemeint ist oder das Gewicht, ...
Rein aus der Distanz kann man keinen Rückschluss auf Länge oder Gewicht ziehen. Daher sollte man sich die Komponenten des Abstandsvektors anschauen.
Gewichtsanteil des normalisierten Abstandsvektors klein gegenüber dem Längenanteil heißt, dass sich beide Autos eher im Gewicht ähneln als in der Länge.
Re: k Nearest Neighbours
Verfasst: Sonntag 6. Juni 2021, 18:18
von Coderjo
__deets__ hat geschrieben: Sonntag 6. Juni 2021, 17:29
Die Distanz meint qua Definition ja nun mal immer beide Dimensionen. Wenn man dir einfach nur eine Distanz berechnet aus unnormalisierten Daten gibt (aber nicht die beiden Punkte), dann ist es mathematisch unmoeglich zu beantworten, welche der beiden Dimensionen jetzt den groesseren Beitrag liefert. Wenn du aber P1/P2 gegeben hast, dann brauchst du dir nur den Abstand in der einen und anderen Dimension anschauen (also zB 8 in x und ~1.15 in y). Damit bekommst du eine Vorstellung, und du kannst das dann auch noch als x_d / d_total und y_d / d_total normalisieren. Wobei das ja letztlich eben genau das ist, was man mit Normalisierung meint.
Okey vielen Dank. Könnte man denn Rückschlüsse aus der Standardabweichung ziehen?
Re: k Nearest Neighbours
Verfasst: Sonntag 6. Juni 2021, 18:27
von Coderjo
rogerb hat geschrieben: Sonntag 6. Juni 2021, 18:02
Coderjo hat geschrieben: Sonntag 6. Juni 2021, 16:48
Jetzt wenn die euklidische Distanz = 9 ergibt, weiß man nicht, ob jetzt eher die Länge mit der Distanz gemeint ist oder das Gewicht, ...
Rein aus der Distanz kann man keinen Rückschluss auf Länge oder Gewicht ziehen. Daher sollte man sich die Komponenten des Abstandsvektors anschauen.
Gewichtsanteil des normalisierten Abstandsvektors klein gegenüber dem Längenanteil heißt, dass sich beide Autos eher im Gewicht ähneln als in der Länge.
Okay und was wäre denn, wenn ich mir die normalisierten Werte beide Attribute angucke, wie müsste ich dann vorfahren?
Re: k Nearest Neighbours
Verfasst: Sonntag 6. Juni 2021, 18:27
von __deets__
Nö. Die SA sagt dir ja nur, wie die Daten in einer Dimension verteilt sind. Nicht, wie zwei Punkte darin zueinander stehen. Wenn die Länge eine SA von 1000 und das Gewicht eine von 10 hat, kannst du mit 9 trotzdem zwei Autos gleicher Länge haben. Da ist nur weniger wahrscheinlich. Und selbst bei vorher normalisierten Daten kannst du nun mal aus einem Skalar nicht Rückschliessen, aus welcher dimension sich der am meisten aufklärt.
Re: k Nearest Neighbours
Verfasst: Sonntag 6. Juni 2021, 18:31
von __deets__
Coderjo hat geschrieben: Sonntag 6. Juni 2021, 18:27
Okay und was wäre denn, wenn ich mir die normalisierten Werte beide Attribute angucke, wie müsste ich dann vorfahren?
Das wurde doch schon gesagt: der Abstand in einer Dimension im Verhältnis zum Gesamtabstand. Das bildet letztlich einen Punkt auf einer n-Dimensionalen Kugel (bei n=2 nennen wir die Kreis), der einem je nach Lage den Beitrag der entsprechenden Dimension erklärt.