ich habe mal wieder eine Frage.
Ich habe auch schon in Stackoverflow gepostet, hier der Link https://stackoverflow.com/questions/472 ... from-array
Und zwar möchte ich die cdf-Funktion anwenden und die dazugehörigen Werte speichern.
Ich habe bspw. eine Spalte "AGE" und die hat sagen wir mal 5 Einträge. Diese werden in ein Array gespeichert und dann mit Hilfe von plt.plot geplottet. Soweit so gut. Ich möchte aber die Werte, die zu der Kurve im Plot führen Speichern.
Code: Alles auswählen
cur.execute("Select AGE From **** ")
output = []
for row in cur:
output.append(float(row[0]))
data_sorted = np.sort(output)
length=len(data_sorted)
yvals = np.arange(len(data_sorted))/float(len(data_sorted))
print yvals
plt.plot(data_sorted, yvals)
plt.show()
Beispiel:
[ 1 2 2 9 58]
ergibt mit meiner bisherigen Vorgehensweise
-->[ 0.2 0.4 0.6 0.8 1]
Soweit so gut. Allerdings gibt es zweimal die 2. Bedeutet das das Array eher so aussehen müsste:
[0.2 0.6 0.6 0.8 1 ]
Meine Frage daher: Was ist der beste Weg die cdf()-Funktion anzuwenden und (ohne zu plotten) die Werte zu speichern?
Am besten noch doppelte Werte mit beachten, um eine möglichst korrekte Form zu bilden.
Ich könnte natürlich die Ergebnisse in SQL speichern und dann anschließend gruppieren auf "AGE" und dann an die Original-Tabelle zurück-joinen.
Aber ich würde das gerne Python-seitig lösen....