Wyższość średniej nad medianą i czym różni się liczba od cyfry

  • Post author:

Jak wiadomo, różnica między liczbą a cyfrą jest taka, jak między słowem a literą. “A” może oznaczać literę lub słowo, zależnie od kontekstu. Myślę jednak, że w przypadku cyfr, wiele osób rozumie to źle: cyfry są od 0 do 9, a liczby zaczynają się od 10 (pytanie, czym jest np. -2).

Wstęp o liczbach i słowach

Oczywiście, “7” to albo cyfra, albo liczba, zależnie od kontekstu. Nigdy nie rozumiałem, dlaczego jest z tym tyle zamieszania, dopóki nie zacząłem uczyć swojej córki cyfr. Czy może liczb? Z jednej strony pokazywałem jej, jak wygląda cyfra 7, ale z drugiej strony był obrazek przedstawiający 7 przedmiotów (znaczenie — czyli liczba).

Z literami nie miałem takich problemów: to jest litera S, a “słoń” zaczyna się na tę literę. Proste słowa w języku polskim składają się z kilku liter, natomiast proste liczby składają się z tylko jednej cyfry – i to utrudnia sprawę, jeśli chodzi o terminologię.

Ostatecznie stwierdziłem, że córkę bardziej uczę liczb niż cyfr (czy raczej: chciałbym, żeby tak było). W końcu cyfry służą tylko do zapisu, a ważniejsze jest ZNACZENIE: to są dwa jabłka, to trzy gruszki. Gruszek jest więcej niż jabłek. Co za różnica, jak to zapisać — równie dobrze można by użyć dwóch i trzech kresek.

Nie zmienia to faktu, że jak pokazuję w tekście “7”, to nie mogę powiedzieć: “zobacz, to jest liczba 7”, bo wtedy to jest cyfra. To co mam jej powiedzieć, żeby nie wprowadzać zamieszania?

Domyślam się, że zdecydowana większość małych dzieci nie jest w stanie zrozumieć abstrakcyjnego rozróżnienia między cyfrą a liczbą. Mimo to próbuje się tych terminów uczyć bardzo wcześnie. Siłą rzeczy, trzeba to uprościć. Niestety, nie można nazwać uproszczeniem zasady, że 0-9 to cyfry, a dalej są liczby — bo to po prostu nie jest prawda. Natomiast w praktyce ktoś, kto myśli w ten sposób, może w wielu sytuacjach używać tych terminów poprawnie (albo inaczej: nie zdradzi się, że ich nie rozumie).

Średnia i mediana

Średnią i medianę poznajemy już w szkole. Pytanie, czy mieliśmy wtedy wystarczającą wiedzę, żeby dobrze zrozumieć, czym one są? Nie chodzi o definicję czy sposób liczenia, ale o interpretację w konkretnych przypadkach oraz pewną intuicję. Jeśli od szkolnych czasów nie poszerzaliśmy swojej wiedzy na temat tych miar, prawie na pewno nasze zrozumienie jest ubogie. A ponieważ tak często na nich bazujemy, co jakiś czas powinniśmy przemyśleć je od nowa.

Uproszczony sposób podejścia do tego tematu jest następujący: jak dane są ilościowe i rozkładają się symetrycznie, liczymy średnią, jak skośnie lub w skali porządkowej – medianę. W rzeczywistości dla danych skośnych najlepszą miarą może być średnia. Dla porządkowych też. Jeśli nie jest to dla nas jasne, to być może to “uproszczone podejście” jest odpowiednikiem zasady, że 0-9 to cyfry, a dalej są liczby.

Czy średnia zawyża?

Załóżmy, że mamy do czynienia z prawostronnie skośnym rozkładem, takim jak na poniższym wykresie. Są to zarobki w milionach dolarów wśród 573 najlepiej zarabiających koszykarzy NBA w sezonie 2017-18 (źródło). Pomijam sens podsumowywania takich danych (gdybyśmy wybrali tylko 100 najlepiej zarabiających koszykarzy, średnia byłaby większa – ale co z tego). Po prostu chciałem mieć skośny rozkład:

średnia i mediana

Spróbujmy ocenić PRZECIĘTNE zarobki w tej grupie. Mediana wynosi ok. 23,9 mln dolarów, średnia 58,6 mln. Mówimy, że średnia ZAWYŻA przeciętne zarobki. Ale skąd wiadomo, że zawyża – przecież może jest odwrotnie, to mediana zaniża?

Mediana = przeciętność

Mówimy tak dlatego, że tak naprawdę najbardziej naturalną miarą przeciętności jest mediana. Połowa obserwacji jest większa, połowa mniejsza od mediany – myślę, że większość osób w ten sposób myśli o przeciętności. Jeśli policzymy średnie zarobki w Polsce i będziemy pytać przypadkowych ludzi, czy zarabiają powyżej czy poniżej średniej, większość osób (tzn. znacznie powyżej połowy) odpowie, że poniżej średniej. I czujemy, że coś tu nie gra.

W szkole najpierw uczymy się średniej, dopiero potem mediany. Powinno być odwrotnie. Bo czym jest średnia arytmetyczna? Jak o niej myślimy? Że to suma wszystkich obserwacji dzielona przez ich liczbę? Jeśli tak, to myślimy tylko o DEFINICJI. W przypadku mediany, mówiąc, że połowa obserwacji jest większa, połowa mniejsza, co prawda też podajemy definicję, ale jednocześnie INTERPRETACJĘ.

Żeby policzyć medianę, wystarczy umieć uporządkować liczby od najmniejszej do największej. Nie trzeba znać dodawania ani dzielenia.

Po co liczyć średnią?

No dobrze, ale w takim razie po co nam średnia? Mamy taką sytuację: albo mediana jest różna od średniej (rozkład skośny) i wtedy zwykle lepiej używać mediany, albo mediana jest równa średniej, a wtedy przecież nie ma znaczenia, co policzymy. Czy zatem o średniej można zapomnieć i każde dane podsumować medianą?

Po pierwsze, nawet w przypadku skośnego rozkładu z pewnych względów możemy woleć bazować na średniej. Załóżmy, że jesteśmy właścicielami firmy, która zatrudnia 100 pracowników. Chcemy wiedzieć, ile średnio płacimy każdemu pracownikowi. W takim wypadku całkiem możliwe, że to średnia arytmetyczna będzie odpowiednią miarą. Dzięki niej np. szybko policzymy, ile w sumie wydajemy pieniędzy na wynagrodzenia: wystarczy tę średnią pomnożyć przez 100.

Ale załóżmy, że mamy do czynienia z symetrycznym rozkładem, dla którego średnia jest równa medianie. Problem w tym, że tak jest tylko w teorii, tzn. gdy mamy dostęp do nieskończenie wielu obserwacji z takiego rozkładu. W praktyce jedynie SZACUJEMY średnią i medianę. I rzecz w tym, że średnia może lepiej się do tego nadawać, bo jest bardziej czuła (efektywna). Potrzeba mniej obserwacji, żeby dobrze oszacować, gdzie znajduje się centrum rozkładu. Ta czułość wynika stąd, że średnia bierze pod uwagę WARTOŚĆ każdej obserwacji, natomiast mediana jedynie porządek. Jeśli do wszystkich wartości powyżej mediany dodam dowolne dodatnie liczby, mediana tego nie zauważy.

Czyli sytuacja wygląda tak, że jeśli rozkład jest mniej więcej symetryczny, to nawet jeśli zależy nam konkretnie na medianie, możemy policzyć średnią zamiast niej. Bo ona będzie jej lepszym ESTYMATOREM (mówimy tu o sytuacji, w której nasze dane stanowią jedynie próbę z większej populacji i interesują nas statystyki dla tej populacji).

Czułość powodem łamania zasad

Ta czułość średniej jest do tego stopnia korzystna, że czasem naginamy zasady statystyki, żeby tylko móc ją policzyć. Tak jest np. z ocenami w szkole. Ponieważ są one wyrażone w skali porządkowej, zgodnie ze sztuką mamy prawo zastosować jedynie miary pozycyjne, czyli np. medianę. Wyobraźmy sobie jednak ucznia, który na koniec roku ma trójki ze wszystkich dziewięciu przedmiotów. Porównajmy go teraz z innym uczniem, który ma trójki z pięciu przedmiotów, ale oprócz tego trzy piątki i jedną szóstkę:

  • I uczeń: 3, 3, 3, 3, 3, 3, 3, 3, 3.
  • II uczeń: 3, 3, 3, 3, 3, 5, 5, 5, 6

Mediana w obu przypadkach wynosi 3, podczas gdy zgodzimy się, że różnica między tym uczniami jest spora. A w takim razie mediana kiepsko podsumowuje ich osiągnięcia. Natomiast średnia dla I ucznia to również 3, ale dla drugiego 4.

Którą zasadę łamiemy?

Ale tak naprawdę to jaką zasadę statystyki naginamy? Co takiego zakłada średnia, że w teorii nie powinniśmy jej liczyć w tej sytuacji? Tylko to, że RÓŻNICE (odległości) między poszczególnymi liczbami mają sens. Jeśli porównamy ocenę 5 i 4, ta pierwsza jest o 1 większa. Podobnie, ocena 3 jest o 1 większa od 2. Pytanie tylko, czy to “1” ma jakąś rzeczywistą interpretację, jest w pewien sposób tym samym. Jeśli uczeń napisał do tej pory dwa sprawdziany i z obu dostał 3, to jeśli z kolejnych dwóch otrzyma 5, jego średnia zwiększy się o 1. Ale wystarczy, żeby napisał tylko jeden sprawdzian i otrzymał z niego 6 – średnia zwiększy się o tyle samo. Licząc średnią arytmetyczną z ocen, zakładamy, że jest to sprawiedliwe.

Podobnie, możemy być bardziej zainteresowani średnią arytmetyczną, gdy co prawda mamy do czynienia z rozkładem skośnym, ale dyskretnym. Jeśli chcemy porównać przeciętną liczbę dzieci, jakie rodzą są w różnych krajach, to jeśli użyjemy mediany, możemy nie zauważyć różnic. Oprócz tego, średnia (a nie mediana) ma większy sens, jeśli zastanawiamy się nad takimi kwestiami jak np. zastępowalność pokoleń. Nawet jeśli ponad połowa kobiet nie ma dzieci (mediana = 0), to jeśli pozostałe mają ich dużo (tyle, by ŚREDNIA była odpowiednio wysoka), nie wymrzemy.


Jeśli moje teksty są dla Ciebie wartościowe, na podany niżej adres email mogę przesłać Ci wiadomość, gdy pojawią się nowe. Zapraszam też na mój kanał na youtube.