Nie wiem, czy jest jakaś gorsza nazwa w statystyce i być może świat byłby lepszy, gdyby zamiast „rozkład normalny” mówić „rozkład Gaussa” lub „centralny”. Skojarzenie z normą i normalnością jest oczywiste — ale zwodnicze.
Ustawmy od razu te rozważania na właściwe tory: wiele wskazuje na to, że Gauss, pisząc o rozkładzie normalnym, myślał o tzw. równaniach normalnych, które mają ścisły związek z ortogonalnością: https://en.wikipedia.org/wiki/Normal_distribution#Naming. Jest to pojęcie matematyczne, które nie ma nic wspólnego ze „zwykłością”, czy jakimś standardem.
Niestety, potem rzeczywiście zaczęto ten przymiotnik łączyć ze słowem „zwykły”, a co gorsza, odstępstwa od normalności traktować jako nienormalność. (W rzeczywistości to rozkład normalny jest nienormalny, bo ma bardzo konkretne własności, nieznane innym rozkładom).
Czy przyroda jest normalna?
Wyobraźcie sobie dowolną cechę, która występuje w przyrodzie. Masę czegoś, odległość, natężenie jakiegoś zjawiska, temperaturę… Czy będzie rozkładać się normalnie? Raczej nie. Rozkład normalny „powstaje” przy pewnych konkretnych założeniach i świat, który nas otacza, niekoniecznie chce te założenia spełniać.
Czy te rozkłady, np. długości rzek albo masy gwiazd są nienormalne, mówiąc potocznie? Ale jakim prawem? Przecież to właśnie istniejące długości i masy definiują, co jest normalne (przynajmniej jeśli chodzi o przyrodę).
Nienormalność
Przyjrzyjmy się lepiej rozkładowi normalnemu i zastanówmy się trochę nad potocznie rozumianą normalnością i nienormalnością. Załóżmy, że rozkład poniżej tyczy się wzrostu dorosłego mężczyzny. Bo rzeczywiście, akurat ta cecha mniej więcej tak się rozkłada (o ile ustalimy wiek i płeć).
W środku mamy typowe wzrosty — nazwijmy je normalnymi. W takiej nomenklaturze wzrosty po prawej i po lewej stronie można by nazwać nienormalnymi.
Oczywiście te „nienormalne” wzrosty jak najbardziej są zgodne z rozkładem normalnym. Co więcej, co jakiś czas powinniśmy spotkać anomalię, kogoś naprawdę wysokiego. Jeśli nie spotkamy, nie mamy do czynienia z rozkładem normalnym.
Także gdy ktoś mówi, że jest nienormalny, bo odstaje od reszty, to bardzo możliwe, że bez niego nie mielibyśmy rozkładu normalnego…
Środkowość i nieśrodkowość
Pytanie, czy w tym rozumowaniu rozkład normalny był nam do czegoś potrzebny? Nie. W prawie każdym rozkładzie mamy jakiś środek, który możemy zidentyfikować np. medianą, i część osób będzie po lewej, a część po prawej. Zwykle też im dalej od środka, tym takich przypadków będzie coraz mniej (choć tak już być nie musi). I może tę prawdę niektórzy mają na myśli, wierząc w powszechność rozkładu normalnego: że są ludzie o przeciętnej wartości jakiejś cechy, np. wzrostu, ale są też niscy i wysocy. Tylko czy jest to spektakularna własność świata, czy tylko języka?
W poszukiwaniu rozkładu normalnego
W pewnym sensie „generatorem” rozkładu normalnego jest tak zwane Centralne Twierdzenie graniczne. Nie wchodząc w szczegóły, przy pewnych (ważnych!) założeniach sumy zmiennych losowych zaczynają zachowywać się, jakby pochodziły z rozkładu Gaussa. Jeśli u źródeł jakiegoś zjawiska jest addytywność (cecha jest sumą pewnych prostszych cech), można oczekiwać, że będzie rozkładać się normalnie.
W praktyce w wielu przypadkach te założenia wcale nie są spełnione (np. te prostsze cechy nie są niezależne). Co więcej, dane zjawisko może być wynikiem MNOŻENIA, a nie dodawania. Np. liczba czegoś nierzadko rośnie procentowo/względnie, a nie bezwzględnie. Wtedy można co najwyżej oczekiwać rozkładu zbliżonego do logarytmicznie normalnego (lognormal), czy ogólnie skośnego, zwykle prawostronnie (o powszechności skośnych rozkładów tutaj).
Warto też w tym miejscu dodać, że nawet jeśli dana cecha ma „potencjał” na to, by rozkładać się normalnie, to zwykle będzie tak dopiero wtedy, gdy ustalimy pewny czynniki. Na przykład wspomniany już wzrost dorosłych osób jest dwumodalny (jedna moda dla kobiet, druga dla mężczyzn). A skoro dwumodalny, to nie normalny.
Ratunek w statystyce
To czy gdzieś rozkład normalny jest normalny? Tak — w statystyce! Po pierwsze, w teorii, bo założenie rozkładu normalnego jest wygodne, gdy chcemy udowodnić jakieś twierdzenie. Ale w praktyce również, bo jeśli np. używamy testu statystycznego, to wiele z nich bazuje na średniej. I tam rzeczywiście założenia Centralnego Twierdzenia Granicznego są często spełnione.
Inny przykład to błąd pomiaru. Jeśli próbujemy coś zmierzyć i czasem zaniżymy, czasem zawyżymy, to rzeczywiście jest duża szansa, że rozkład błędów będzie normalny.
Weźmy jeszcze różnego rodzaju testy psychologiczne. Zwykle składają się z wielu pytań, na które odpowiada się w skali porządkowej, np. od 1-5 lub 1-7 (skala Likerta). I to jest ciekawa sprawa, bo każda z pojedynczych zmiennych (pytań) na pewno nie ma rozkładu normalnego. Po pierwsze, jest w skali porządkowej, z mocno ograniczonym zbiorem możliwych wartości. Po drugie, jest często skośna. Mimo wszystko, można oczekiwać, że jeśli je dodamy (albo uśrednimy, nie ma znaczenia), to rozkład wyników takiego testu będzie mniej więcej normalny (oczywiście nie dla każdego testu, bo założenia CTG wciąż obowiązują).
Uzupełnienie
Rozkłady, w których oddalając się od środka, wcale nie będziemy napotykać coraz mniej przypadków, to np. jednostajny lub Beta (dla pewnych parametrów). Są też rozkłady o ciężkich ogonach, np. rozkład Cauchy’ego, w których są pewne trudności ze wskazaniem środka.
Z nazwą rozkład centralny jako postulowaną spotkałem się w „Probability Theory: The Logic of Science” (E. T. Jaynes, rozdział 7).
Jeśli moje teksty są dla Ciebie wartościowe, na podany niżej adres email mogę przesłać Ci wiadomość, gdy pojawią się nowe. Zapraszam też na mój kanał na youtube.