Clustering mit K-Means

mit matplotlib, NumPy, pandas, SciPy, SymPy und weiteren mathematischen Programmbibliotheken.
Antworten
123GuteLaune
User
Beiträge: 27
Registriert: Mittwoch 2. November 2016, 22:35

Hallo,

ich würde gerne den K-Means Clusteralgorythmus auf meine Datensäte anwenden.
Und ich würde heraus finden, ob die Daten einer bestimmten Logik folgen.
http://scikit-learn.org/stable/modules/ ... ter.KMeans

Leider hab ich keine Ahnung vom Programmieren.
Die Ausprägungen der Spalten sind wie folgt:
ID: Ein String aus Buchstaben und Nummern
ABC: A, B, C
XYZ: X, Y, Z
UVW: U, V, W
MSE: Nimmt Werte von 0 bis sehr große Zahlen an

Meine Input-Daten schauen wie folgt aus alles ist in CSV-Format gespeichert.

ID ABC XYZ UVW MSE
10 A X U 102000,32
12 B Y V 9000,78

Ich würde gerne als Ergebnis eine CSV-Datei bekommen, wo drin steht ID 10 ist in Cluster 1 usw.
Der Clusterobergrenze sollte bei mir 4 sein.

Nach meiner Recherche kann man metrisch und skalierte Skalen nicht Gruppieren, deswegen wollte ich jetzt versuchen nur die skalierte Spalte (MSE) nutzen und dann darauf Rüchschlüsse auf Ihre Attributen ziehen.

Könnte mir jemand bei der Umsetzung helfen?
123GuteLaune
User
Beiträge: 27
Registriert: Mittwoch 2. November 2016, 22:35

Könnte mir bitte jemand helfen, bin echt verzweifelt?
Das ist das letzte Ergebnisse für eine Arbeit und ich kriegs einfach nicht gebacken.

Allein das Einlesen, leider kann ich SPSS nicht benutzen, da wäre diese Funktion integriet...
  • ID MSE1 MSE2 MSE3 MSE4
    10 1 12 34 102000,32
    12 4 5 32 9000,78
Benutzeravatar
Cronut
User
Beiträge: 34
Registriert: Sonntag 5. Februar 2017, 09:50
Wohnort: HRO, GER

Was ist denn dein Problem konkret? :K

Das Einlesen der CSV-Datei? Das Speichern der CSV-Datei?
Dafür kannst du das Modul 'csv' aus der Standard Library nutzen.

Bei k-means selbst kann ich dir nicht helfen.
Mach dir klar, welche Schritte ausgeführt werden müssen und fang einfach mit dem Einfachsten an.
“Clean code always looks like it was written by someone who cares.” (Michael Feathers)
Check out: https://awesome-python.com/
123GuteLaune
User
Beiträge: 27
Registriert: Mittwoch 2. November 2016, 22:35

Hi,

vielen Dank für Antworten!

Ich hatte das Problem die Daten richtig einzulesen damit der K-means Algorithmus funktioniert.
Habe das ganze jetzt in STATA gemacht um die Ergebnisse zu erhalten.

Trotzdem nochmals vielen Dank.

P.S. Ich weiß ganz genau was der Algorithmus macht nur war mir nicht klar wie ich das PYthon beibringen :oops:
Antworten