Dlaczego liczymy odchylenie standardowe?

  • Post author:

Było o średniej i medianie, to teraz o odchyleniu standardowym.

Zakładam, że Czytelnik wie, czym jest odchylenie standardowe i nieraz go używał. Natomiast mimo że jest to bardzo popularna miara, jej interpretacja wcale nie jest taka prosta. Przypomnijmy wzór:

    \[\sqrt{\frac{1}{n}\sum_{i=1}^n(X_i - \bar{X})^2}\]

Od każdej obserwacji odejmujemy średnią, podnosimy do kwadratu, uśredniamy, na końcu bierzemy pierwiastek. Wartość, którą otrzymamy, często interpretuje się jako średnią odchyłkę od średniej. Ale przecież liczymy coś innego. Jest to średni KWADRAT odchyłki, który następnie jest pierwiastkowany.

Pytanie, czemu nie liczyć odchylenia w prostszy sposób, zgodnie z poniższym wzorem:

    \[\frac{1}{n}\sum_{i=1}^n |X_i - \bar{X}|\]

Rzeczywiście bierzemy tu odchyłki i je uśredniamy. Co więcej, taka miara jest znana i używana, nazywamy ją odchyleniem przeciętnym. Pytanie tylko, czemu rzadziej — wręcz znacznie rzadziej — niż odchylenia standardowego.

Jak działa kwadrat

Jakie są konsekwencje tego, że licząc rozrzut, podnosimy odchyłki do kwadratu? Takie, że większą wagę przykładamy od obserwacji, które są daleko. Potęgujemy tę odległość. Jeśli mamy dane odstające, to raczej powinniśmy się ich pozbyć przed policzeniem odchylenia standardowego, bo przesadnie wpłyną na wynik, zawyżą go.

Na podstawie tej własności raczej ciężko stwierdzić, w czym odchylenie standardowe miałoby być lepsze od przeciętnego. Tzn. sam fakt, że obserwacje dalekie mają większy wpływ na odchylenie, może być zarówno dobry, jak i zły. Ale popatrzmy na poniższy wykres, na którym zaznaczyłem wartość jakiejś cechy (przykład stąd).

odchylenie standardowe

W obu przypadkach średnia jest równa 0, a odchylenie przeciętne 2. Czujemy jednak, że różnorodność punktów jest większa w tej drugiej sytuacji. I odchylenie standardowe BĘDZIE większe: 2 dla przypadku A, ale 2,24 dla B.

Twierdzenie Pitagorasa a odchylenie standardowe

Można powiedzieć, że odchylenie standardowe mierzy nie tyle średnią odległość punktów do średniej, ale w pewien sposób średnie odległości między obserwacjami. Zauważmy, że jeśli chcemy policzyć standardową (euklidesową) odległość między dwoma punktami, to z twierdzenia Pitagorasa musimy podnieść do kwadratu różnice we współrzędnych tych punktów, dodać i spierwiastkować. Także jest tu pewien związek między odchyleniem standardowym a odległością (więcej na ten temat np. tutaj).

Związek z medianą

Wyższość odchylenia standardowego nad przeciętnym można jeszcze argumentować w inny sposób. Rozważmy taki problem optymalizacyjny. Szukamy wartości a, która minimalizuje poniższą sumę.

    \[\sum_{i=1}^n(X_i - a)^2\]

Rozwiązaniem jest średnia arytmetyczna, tzn. jeśli podstawimy a = \bar{X}, otrzymamy najmniejszy możliwy wynik. A co, gdy rozważymy sumę wartości bezwzględnych?

    \[\sum_{i=1}^n|X_i - a|\]

Wtedy rozwiązaniem jest mediana.

W takim razie, jeśli uważamy średnią za lepszą miarę przeciętności od mediany (przy pewnych założeniach), to może mieć dla nas znaczenie, że jest ona rozwiązanie problemu KWADRATOWEGO. Tzn. w pewnym sensie problem w języku kwadratów możemy uważać za lepiej postawiony niż w języku wartości bezwzględnych.

Ty tu rządzisz

Istnieją inne argumenty, dlaczego kwadraty są preferowane. Specjalnie nie odwoływałem się do problemu z liczeniem pochodnej dla wartością bezwzględnej, bo to dla mnie słaby argument (przynajmniej w tym kontekście). Ale w największym skrócie, temat można podsumować tak, że odchylenie standardowe ma zwykle lepsze własności statystyczne — i stąd jest częściej używane, niż odchylenie przeciętne.

Natomiast jak najbardziej możemy liczyć to drugie. Albo np. medianę odchyłek od mediany, szczególnie gdy mamy skośne dane. Może nie jest to bardzo popularna miara, natomiast jak najbardziej sensowna i polecam jej używać. Fakt, że większość osób nie korzysta z jakichś miar, nie jest wcale mocnym argumentem, żeby samemu ich nie używać. Większą część analizy danych robimy DLA SIEBIE, żeby lepiej zrozumieć dane. To jest nasz wybór, czego używamy, bylebyśmy wiedzieli, jak zinterpretować wyniki. Celem analizy nie jest przecież policzenie odchylenia standardowego, ale konkretne wnioski — i żeby lepiej zrozumieć dane, można wykorzystać nawet wymyślone przez siebie miary.

A jeśli odchylenie standardowe interesuje Was bardziej, tutaj piszę o konsekwencjach, gdy w jednej grupie jest ono większe.


Jeśli moje teksty są dla Ciebie wartościowe, na podany niżej adres email mogę przesłać Ci wiadomość, gdy pojawią się nowe. Zapraszam też na mój kanał na youtube.