• Post author:

Dlaczego w testowaniu hipotez domyślny próg dla p-wartości to 0,05?

Zwykle odpowiada się, że po prostu tak się przyjęło. To i tak nieźle. Całkiem popularne jest traktowanie 0,05 inaczej: że coś się obiektywnie dzieje, gdy przechodzimy ze świata p > 0,05 do p < 0,05. Że to zostało starannie dobrane, by oddzielać sygnał od szumu. Tak oczywiście nie jest, natomiast wciąż warto zapytać, dlaczego „tak się przyjęło”.

Po co nam próg?

Ustalmy najpierw, jaki ma być sens takiego progu. Ma stanowić granicę między tym, co bardzo mało prawdopodobne, a tym, co może się zdarzyć. Choć jest też inne podejście (bardziej mi bliskie), że to po prostu proporcja błędów, na które się godzimy. Zostańmy jednak przy prawdopodobieństwie.

Pewnie zgodzimy się, że np. jeden na milion to „bardzo mało prawdopodobne”. Problem w tym, że podejmując decyzję, czy coś jest sygnałem, czy szumem, możemy popełnić dwa błędy:

  • Uznać szum za sygnał.
  • Uznać sygnał za szum (precyzyjniej: przeoczyć sygnał).

I niestety to kwestia kompromisu: jeśli dopiero przy ekstremalnie małym progu będę coś uznawał za sygnał, bardzo często go przeoczę — stąd próg nie może być tak mały.

To może 0,5? Wtedy, jeśli w rzucie monetą dwa razy pod rząd wypadnie orzeł, już powinniśmy się niepokoić, że z monetą jest coś nie tak (za pierwszym razem wypada cokolwiek, za drugim to samo — stąd prawdopodobieństwo 0,5). Za szybko.

Na przykład 5%…

Wyobraźmy sobie, że Ronald Fisher, zapytany na jakimś wykładzie o próg, rzucił od niechcenia: NA PRZYKŁAD 5%. To zostało podłapane, kolejne osoby tę wartość powtarzały/przepisywały i w ten sposób się utrwaliło (jak fakty historyczne, które zdają się być coraz pewniejsze, bo jeden autor przepisuje od drugiego).

A dlaczego mógłby rzucić to 5%? Bo odpowiada wartości 2 w rozkładzie normalnym (dokładnie 1,96). Z reguły trzech sigm, wartości oddalonych o 2 błędy standardowe od średniej jest ok. 5%. Ma to ścisły związek z testowaniem hipotez, jest łatwe do zapamiętania, na dodatek bardzo praktyczne, jako że w tych czasach dokładne obliczenia to nie była banalna sprawa.

Naturalny próg dla wartości p

Dobrze, może takie były historyczne powody, ale czy da się pokazać, że to 0,05 ma sens, bez odwoływania się do reguły trzech sigm? Badania pokazują, że jeśli sześć razy pod rząd wypadnie orzeł, ludzie naturalnie zaczynają się wahać, czy wszystko jest w porządku z monetą. Odpowiada to p-wartości równej 1/2^5 = 0,031 (podnoszę do potęgi 5, bo tu nie chodzi konkretnie o orła, ale że wypadło za każdym razem to samo).

Inne ciekawe badanie wyglądało tak, że pokazywano wykres rozrzutu, zmienna Y w relacji (rzekomej) do X. I patrząc na taki wykres, trzeba było ocenić, czy widzimy trend, czy nie. I okazuje się, że znów: ludziom naturalnie wydaje się, że jest jakaś zależność dla p bliskiego 0,05. Co więcej, możesz samemu ustalić swój naturalny próg.

Oczywiście takie badania łatwo odrzucić (co z tego, że ludzie coś czują). To przejdźmy do argumentu ostatecznego. Nie tylko 2 jest ładną liczbą, ale 5% również. I cóż, tak się składa, że używamy systemu dziesiętnego. A używamy, bo mamy pięć palców u jednej ręki. Ciekawe, jak wyglądałaby nauka, gdybyśmy mieli tylko cztery, jak w kreskówkach Disneya?

P-wartość próg 0,05

Komentarz

Nie ma dowodów, że Fisher rzucił coś takiego na wykładzie (5%). Natomiast w „Statistical Methods for Research Workers” z 1925 roku napisał: „The value for which P = .05, or 1 in 20, is 1.96 or nearly 2; it is convenient to take this point as a limit in judging whether a deviation is to be considered significant or not”.


Jeśli moje teksty są dla Ciebie wartościowe, na podany niżej adres email mogę przesłać Ci wiadomość, gdy pojawią się nowe. Zapraszam też na mój kanał na youtube.