Das deutsche Python-Forum

Hallo Leute!
Ich möchte mit Python eine Standardabweichung berechnen - habe es bisher mit
numpy versucht, allerdings wird hier nicht mit n-1 normalisiert, sondern mit n!

Weiß von Euch jemand, wie ich die "richtige"(= std mit n-1) berechnen kann?

Code:

Code: Alles auswählen

from numpy import*
a = array([[1.5, 3.5, 0.5 ]])
print a.std()

liefert statt 1.527-->1.247

Besten Dank!

Hmm, mit Zwölftklassmathematik sieht das so aus:

Code: Alles auswählen

>>> values = [1.5, 3.5, 0.5]
>>> erw = sum(values) / len(values)
>>> erw
1.8333333333333333
>>> erw2 = sum(item**2 for item in values) / len(values)
>>> erw2
4.916666666666667
>>> var = erw2 - erw**2
1.5555555555555562
>>> var**0.5
1.2472191289246475

(Verschiebungsregel, FYI)

Hilft dir das weiter?

Hoi,

Code: Alles auswählen

In [1]: from scipy import *

In [2]: a = array([1.5, 3.5, 0.5 ])

In [3]: stats.std(a)
Out[3]: 1.52752523165

In [4]: stats.stderr(a)
Out[4]: 0.881917103688

In [5]: a.var()
Out[5]: 1.55555555556

Beachte, daß ich für das array eine Ebene Klammern weggelassen habe. Das Verhalten von numpy ist korrekt: numpy.std bezieht sich auf N und nicht N-1.

Gruß,
Christian

edit: Grammatik

@CM

Thats it! Vielen Dank!

merkwürdig finde ich, dass scipy scheinbar länger braucht als numpy...

Das kann ich bei mir nicht nachvollziehen. Aber andererseits finde ich den Namespace nicht konsistent: Zwei verschiedene std()-Funktionen zu haben ist schlicht seltsam. Besser wäre vielleicht std() und stdn() oder die Möglichkeit std() mitteilen zu können, welches Verhalten man wünscht.

Wie seht ihr das? Ist das 'nen Featurerequest wert?

Christian

CM hat geschrieben:Das Verhalten von numpy ist korrekt: numpy.std bezieht sich auf N und nicht N-1.

Ist das irgendwo dokumentiert?

Ja:
- in numpy hat (nahezu) jede Funktion einen Docstring.
- es gibt die API-Documentation (da steht es seltsamerweise nicht drin): http://scipy.org/doc/numpy_api_docs/num ... c.html#std
- vor allem aber gibt es eine Umfangreiche Sammlung von Beispielen, inkl. einer "Docstringwiederholung": http://www.scipy.org/Numpy_Example_List ... 620f804ac2

Vielleicht gibt es noch mehr Anlaufpunkte, aber die fallen mir gerade nicht ein - ist noch früh ...

Gruß,
Christian

Ich hatte die Info aus jener gelisteten Beispielliste!

Und da steht:

The computed standard deviation is biased, i.e., the mean is computed
by dividing by the number of elements, N, rather than by N-1.

CM hat geschrieben:Und da steht:
The computed standard deviation is biased, i.e., the mean is computed
by dividing by the number of elements, N, rather than by N-1.

Hmm, steht bei mir nicht im Docstring. Vielleicht liegts ja daran, dass ich nur Version 1.0.1 habe.

Leonidas hat geschrieben:Hmm, mit Zwölftklassmathematik sieht das so aus:
Code: Alles auswählen
>>> values = [1.5, 3.5, 0.5]
>>> erw = sum(values) / len(values)
>>> erw
1.8333333333333333
>>> erw2 = sum(item**2 for item in values) / len(values)
>>> erw2
4.916666666666667
>>> var = erw2 - erw**2
1.5555555555555562
>>> var**0.5
1.2472191289246475
(Verscheibungsregel, FYI)

Hilft dir das weiter?

Wäre das aber nicht eher:

Code: Alles auswählen

erw2 = sum(((item-erw)**2 for item in values)/(len(values)-1)

Da die Frage mittlerweile (oder schon immer?) technisch gesehen eine noch bessere Antwort verdient hat, und weil sicher immer mal wieder jemand über Google hier landet, hiermit nun ein weiterer Beitrag:

Bei Standard-Abweichung und Varianz gibt es zwei relevante "Methodiken".

Die eine nimmt eine Stichprobe it der Anzahl n, wird auch die empirische Methode genannt, und benutzt einen Faktor von 1/(n-1). (Englisch: unbiased sample variance)
Die andere nimmt die (Grund-)Gesamtheit mit der Anzahl N und benutzt einen Faktor von 1/N. (Englisch: variance, population variance, evtl. auch "basic variance")

Für gängige Formelzeichen, Formeln und weitere Beispiele, siehe auch: https://www.scribbr.de/statistik/standardabweichung/

Code: Alles auswählen

import numpy as np
a = np.array([[1.5, 3.5, 0.5 ]])

print (np.average(a)) # 1.8333333333333333

# ddof int, optional
# Means Delta Degrees of Freedom.
# The divisor used in calculations is N - ddof,
# where N represents the number of elements.
# By default ddof is zero.
# source for this comment: https://numpy.org/doc/stable/reference/generated/numpy.std.html

print (a.std())       # 1.247219128924647
print (a.std(ddof=0)) # 1.247219128924647
print (a.std(ddof=1)) # 1.5275252316519468

print (a.var())       # 1.5555555555555556
print (a.var(ddof=0)) # 1.5555555555555556
print (a.var(ddof=1)) # 2.3333333333333335

print (a)             # [[1.5 3.5 0.5]]

PS: scipy ist dazu über gegangen die betreffenden Funktionen als "deprecated", also abgekündigt zu markieren. Sie verweisen darauf, dass man bitte auf numpy umsteigen soll. Damit bereinigt sich was und der Wartungsaufwand geht auch zurück.

Alternativ kann man auch die entsprechenden Funktion aus dem "statistics"-Modul aus der Standardbibliothek verwenden.

Das deutsche Python-Forum

Standardabweichung mit Python

Standardabweichung mit Python

Re: Standardabweichung mit Python

Re: Standardabweichung mit Python

Re: Standardabweichung mit Python