k Nearest Neighbours

Coderjo · Sonntag 6. Juni 2021, 12:06

Hi Community,

wisst ihr wie man ein Gefühl dafür bekommt, was der euklidische Distanzmaß, z.B. dist(Punkt1,Punkt2) = 9 aussagt?
Also wenn es 2 Variablen gäbe (2D) und die Distanz zwischen den beiden Punkten eine 9 wäre, wie kann ich dann erfahren, ob die Distanz die Variable 1 oder die Variable 2 meint?

rogerb · Sonntag 6. Juni 2021, 14:04

Hallo Coderjo,

Eine Distanz ist der Abstand zwischen zwei Punkten, bezieht sich also auf beide Punkte!?

... wie man ein Gefühl dafür bekommt

... ob die Distanz die Variable 1 oder die Variable 2 meint?

es ist nicht ganz klar was du meinst, kannst du das anders ausdrücken?

Da die Überschrift "k Nearest Neighbours" lautet könnte ich noch raten, dass der eine Punkt das zu klassifizierende Datum und der andere Punkt ein Trainings Datum ist?

Coderjo · Sonntag 6. Juni 2021, 16:48

Also wenn wir mal annehmen, dass wir 2 Attribute haben. Zu einem wäre das die "Länge" eines Autos zum anderen das "Gewicht". Somit hätten wir ein 2 Dimensionalen Plot mit Punkten: p(Länge,Gewicht).
Jetzt wenn die euklidische Distanz = 9 ergibt, weiß man nicht, ob jetzt eher die Länge mit der Distanz gemeint ist oder das Gewicht, daher normalisiert man die Daten ja, um herauszufinden wie die Distanz sich ausdrückt oder? Und dann kann man das noch mit statistischen Größen wie Standardabweichung sich angucken, um diese Frage zu beantworten, aber ich wüsste jetzt auch nicht wie man das machen kann.
Also ich verstehe das komplett Gebilde nicht so ganz, nur unser Lehrer meinte wir sollten uns mal damit beschäftigen und gucken woher die Distanz kommt? :/ Also ich hoffe Du verstehst mein Anliegen etwas besser.

__deets__ · Sonntag 6. Juni 2021, 17:29

Die Distanz meint qua Definition ja nun mal immer beide Dimensionen. Wenn man dir einfach nur eine Distanz berechnet aus unnormalisierten Daten gibt (aber nicht die beiden Punkte), dann ist es mathematisch unmoeglich zu beantworten, welche der beiden Dimensionen jetzt den groesseren Beitrag liefert. Wenn du aber P1/P2 gegeben hast, dann brauchst du dir nur den Abstand in der einen und anderen Dimension anschauen (also zB 8 in x und ~1.15 in y). Damit bekommst du eine Vorstellung, und du kannst das dann auch noch als x_d / d_total und y_d / d_total normalisieren. Wobei das ja letztlich eben genau das ist, was man mit Normalisierung meint.

rogerb · Sonntag 6. Juni 2021, 18:02

Coderjo hat geschrieben: ↑Sonntag 6. Juni 2021, 16:48 Jetzt wenn die euklidische Distanz = 9 ergibt, weiß man nicht, ob jetzt eher die Länge mit der Distanz gemeint ist oder das Gewicht, ...

Rein aus der Distanz kann man keinen Rückschluss auf Länge oder Gewicht ziehen. Daher sollte man sich die Komponenten des Abstandsvektors anschauen.

Gewichtsanteil des normalisierten Abstandsvektors klein gegenüber dem Längenanteil heißt, dass sich beide Autos eher im Gewicht ähneln als in der Länge.

Coderjo · Sonntag 6. Juni 2021, 18:18

__deets__ hat geschrieben: ↑Sonntag 6. Juni 2021, 17:29 Die Distanz meint qua Definition ja nun mal immer beide Dimensionen. Wenn man dir einfach nur eine Distanz berechnet aus unnormalisierten Daten gibt (aber nicht die beiden Punkte), dann ist es mathematisch unmoeglich zu beantworten, welche der beiden Dimensionen jetzt den groesseren Beitrag liefert. Wenn du aber P1/P2 gegeben hast, dann brauchst du dir nur den Abstand in der einen und anderen Dimension anschauen (also zB 8 in x und ~1.15 in y). Damit bekommst du eine Vorstellung, und du kannst das dann auch noch als x_d / d_total und y_d / d_total normalisieren. Wobei das ja letztlich eben genau das ist, was man mit Normalisierung meint.

Okey vielen Dank. Könnte man denn Rückschlüsse aus der Standardabweichung ziehen?

Coderjo · Sonntag 6. Juni 2021, 18:27

rogerb hat geschrieben: ↑Sonntag 6. Juni 2021, 18:02
Coderjo hat geschrieben: ↑Sonntag 6. Juni 2021, 16:48 Jetzt wenn die euklidische Distanz = 9 ergibt, weiß man nicht, ob jetzt eher die Länge mit der Distanz gemeint ist oder das Gewicht, ...
Rein aus der Distanz kann man keinen Rückschluss auf Länge oder Gewicht ziehen. Daher sollte man sich die Komponenten des Abstandsvektors anschauen.

Gewichtsanteil des normalisierten Abstandsvektors klein gegenüber dem Längenanteil heißt, dass sich beide Autos eher im Gewicht ähneln als in der Länge.

Okay und was wäre denn, wenn ich mir die normalisierten Werte beide Attribute angucke, wie müsste ich dann vorfahren?

__deets__ · Sonntag 6. Juni 2021, 18:27

Nö. Die SA sagt dir ja nur, wie die Daten in einer Dimension verteilt sind. Nicht, wie zwei Punkte darin zueinander stehen. Wenn die Länge eine SA von 1000 und das Gewicht eine von 10 hat, kannst du mit 9 trotzdem zwei Autos gleicher Länge haben. Da ist nur weniger wahrscheinlich. Und selbst bei vorher normalisierten Daten kannst du nun mal aus einem Skalar nicht Rückschliessen, aus welcher dimension sich der am meisten aufklärt.

__deets__ · Sonntag 6. Juni 2021, 18:31

Coderjo hat geschrieben: ↑Sonntag 6. Juni 2021, 18:27 Okay und was wäre denn, wenn ich mir die normalisierten Werte beide Attribute angucke, wie müsste ich dann vorfahren?

Das wurde doch schon gesagt: der Abstand in einer Dimension im Verhältnis zum Gesamtabstand. Das bildet letztlich einen Punkt auf einer n-Dimensionalen Kugel (bei n=2 nennen wir die Kreis), der einem je nach Lage den Beitrag der entsprechenden Dimension erklärt.