• Post author:

Mimo że p-wartość to jedno z najpopularniejszych pojęć (czy też narzędzi) w statystyce, często jest traktowane jak jakaś magiczna liczba, dzięki której można udowodnić hipotezę. Pół biedy: w takim wypadku przynajmniej przyznajemy, że nie wiemy, czym ta p-wartość jest. Niestety, chyba jeszcze częściej wydaje nam się, że rozumiemy, co p-wartość oznacza, podczas gdy w rzeczywistości jest inaczej. A to oczywiście musi prowadzić do błędów.

Zacznę od tego, jak NIE należy interpretować p-wartości. Tym samym zakładam, że coś już wiesz na ten temat.

Quiz

Załóżmy, że przeprowadziłem pewien test statystyczny i otrzymałem p = 0,01. Które z poniższych zdań jest prawdziwe? (ten „quiz” przetłumaczyłem z książki “Statistics done wrong” Alexa Reinharta).

  1. Z całkowitą pewnością udowodniłem H0.
  2. Z prawdopodobieństwem 1% H0 jest prawdziwa.
  3. Z całkowitą pewnością udowodniłem H1.
  4. Na podstawie tego wyniku mogę wywnioskować, z jakim prawdopodobieństwem H1 jest prawdziwa.
  5. Jeśli odrzucę H0, wiem, z jakim prawdopodobieństwem jest to zła decyzja.
  6. Mam wiarygodny (rzetelny, godny zaufania) wynik – w tym sensie, że jeśli eksperyment byłby powtarzany wielokrotnie, dostałbym istotny wynik w 99% przypadków.

Wytłumaczmy sobie teraz, dlaczego WSZYSTKIE odpowiedzi są błędne.

Ad 1 i 3

Te punkty oczywiście nie mogą być prawdziwe. Z różnych powodów, ale choćby z tego, że statystycznie nie można nic udowodnić z pewnością. Językiem testowania hipotez jest prawdopodobieństwo. Warto mieć to w pamięci, gdy np. czytamy, że “udowodniono”, by w żadnym wypadku nie jeść X, bo powoduje straszne Y. Zwykle “udowodniono” znaczy “jest wysoce prawdopodobne”. Napisałem “zwykle”, bo jak się okazuje, w praktyce może to nic nie znaczyć. Między innymi z powodu niezrozumienia, czym jest p-wartość.

Ad 2 i 4

To brzmi lepiej, szczególnie punkt 4, w którym nie ma żadnych konkretnych liczb. Problem w tym, że oba punkty zakładają, że można wyznaczyć prawdopodobieństwo którejś z hipotez, a w klasycznym ujęciu (tzw. częstościowym), nie da się tego zrobić. Wynika to chociażby z tego, że licząc p-wartość, ZAKŁADAMY, że H0 jest prawdziwa. Jak można potem określić prawdopodobieństwo takiej hipotezy, skoro całe rozumowanie zaczyna się od założenia jej prawdziwości? Innymi słowy, w pewnym sensie przypisujemy jej prawdopodobieństwo 100%.

Przyznam jednak, że takie wyjaśnienie nigdy nie było dla mnie przekonujące. Co z tego, że w “klasycznym ujęciu” nie możemy nic powiedzieć o prawdopodobieństwach. Nigdzie nie napisałem, że musimy podchodzić do tego klasycznie. Na dodatek na logikę chyba można mówić o prawdopodobieństwie hipotezy? Może nie wynosi ono 1% czy 99%, ale chyba jakoś na podstawie p-wartości da się je przeliczyć? I da się (jedno z podejść opisuję tutaj), natomiast potrzebujemy do tego dodatkowych informacji, które w naszym quizie nie zostały podane. Jedną z nich jest prawdopodobieństwo a priori interesującej nas hipotezy. Na ile wierzymy, że hipoteza jest prawdziwa, zanim jeszcze przeprowadziliśmy badanie? Takie prawdopodobieństwo a priori ma kolosalny wpływ na ostatecznie prawdopodobieństwo. Możemy otrzymać praktycznie dowolny wynik, w zależności od tego, co przyjmiemy na początku.

Ad 5

Ten punkt, mimo że brzmi dobrze, tak naprawdę nie różni się od poprzednich. Nie wiemy, z jakim prawdopodobieństwem w konkretnym przypadku odrzucenie H0 będzie złą decyzją. To wcale nie jest 1% (otrzymana p-wartość). Jeśli udowadniamy hipotezę, która z góry wydaje nam się, że musi być prawdziwa (np. na podstawie teorii czy naszych poprzednich badań), prawdopodobieństwo złej decyzji jest znacznie mniejsze niż 1%. Z kolei jeśli udowadniamy coś absurdalnego, prawdopodobieństwo może być bliskie 100%. I tak, nawet jeśli H1 jest absurdalna, możemy dostać p-wartość równą 0,01. W jednym przypadku na sto tyle dostaniemy.

Ad 6

Ostatni punkt być może brzmi najlepiej, ale odnosi się do zupełnie innego zagadnienia, tzw. mocy testu. Nie ma ona związku z p-wartością.

Jeśli zmartwiło Was, że wskazaliście któryś z tych punktów, dodam, że wielu nauczycieli statystyki również to zrobiło.

Zanim przejdę do tego, jak interpretować p = 0,01, jeszcze jeden przykład, dlaczego p-wartości nie da się łatwo przenieść na prawdopodobieństwo błędu pierwszego rodzaju, czyli błędnego odrzucenia H0.

Lotto

Prawdopodobieństwo, że obstawimy dobre liczby w lotto, jest równe około 1 na 14 milionów. Tzn. tyle wynosi przy założeniu, że obstawiamy losowo (hipoteza zerowa). Dowiedzieliśmy się, że pan X trafił szóstkę. Możemy bardzo prosto policzyć p-wartość dla takiego wyniku – jest ona równa właśnie 1 na 14 milionów. Chyba oczywiste jest, że odrzucamy H0? Przecież p-wartość jest ekstremalnie mała? Ale jakie są konsekwencje tej decyzji, tzn. w co powinniśmy wierzyć, odrzucając H0? Że pan X ma jakieś paranormalne zdolności przewidywania, co wypadnie w czysto losowej grze (dodam, że nie ma tu znaczenia, czy pan X gra “systemem”, czy skreśla liczby związane z datą urodzenia jego żony itp., to wciąż działa dokładnie tak samo, jakby obstawił losowe liczby; w razie gdyby nie było to jasne, poczytaj https://czywartogracwlotto.pl/). Czyli z jednej strony mam silne przesłanki, by odrzucić H0 (bardzo niska p-wartość), z drugiej strony nie chcę tego zrobić, bo nie wierzę, że może być nieprawdziwa (czy też nie wierzę w hipotezę alternatywną).

Powyższy przypadek może wydawać się jakimś paradoksem, ale łatwo go wyjaśnić. Mamy tu bowiem do czynienia z problemem wielokrotnego testowania. P-wartość jest bardzo mała, ale testów (wysłanych kuponów lotto) jest bardzo dużo i ostatecznie komuś się poszczęści. Także nie „musimy” odrzucać hipotezy zerowej.

Co oznacza p = 0,01?

W takim razie czym jest p-wartość? Jak poprawnie interpretować p = 0,01?

Zacznijmy od poziomu istotności, zwykle ustalanego na początku analizy. Jeśli przyjmiemy, że wynosi on 0,05, kontrolujemy błąd pierwszego rodzaju na takim poziomie. Innymi słowy, oczekujemy, że w co najwyżej jednym przypadku na 20 odrzucimy hipotezę zerową, mimo że w rzeczywistości była prawdziwa. Problem w tym, że ta interpretacja nie odnosi się do konkretnej hipotezy, którą badamy, ale do całej procedury testowania. Stosując taką procedurę, nie będziemy zbyt często odrzucać prawdziwych hipotez zerowych. To świetnie, ale ja pytam o konkretną hipotezę i konkretną p-wartość, którą otrzymałem. Co oznacza p = 0,01?

Może pomoże nam definicja? Jeśli założymy, że hipoteza zerowa jest prawdziwa, otrzymanie np. takiej różnicy między średnimi, jaką właśnie dostaliśmy – lub bardziej ekstremalnej – jest mało prawdopodobne, wynosi jedynie 0,01. Rozsądnym wydaje się więc odrzucić tę hipotezę i przyjąć alternatywną. Ale co, jeśli alternatywna jest absurdalna? Czy wtedy też ją przyjmiemy? Czy jednak rozsądniej będzie założyć, że w tym konkretnym badaniu jedynie czystym przypadkiem otrzymaliśmy wynik mocno różniący się od tego, co zakłada H0?

Interpretacja pojedynczej p-wartości jest bardzo problematyczna i w zasadzie najlepiej byłoby powiedzieć, że nie da się tego zrobić. Bo tu nie chodzi o konkretny, pojedynczy wynik, ale o całą procedurę — jedynie ona ma interpretację. Mimo wszystko postaram się ten temat pociągnąć i coś zaproponować.

Pierwsze podejście

Możemy traktować p-wartość jako miarę tego, na ile konkretny wynik, który otrzymaliśmy, jest ZGODNY z założonym przeze nas modelem (H0). Im niższa p-wartość, tym mniejsza zgodność – czyli silniejsze przesłanki, żeby odrzucić H0. Jest to więc jedynie pewna liczba (score) i wcale nie musimy myśleć o niej w kategoriach prawdopodobieństwa. Mogę wybrać pewien próg, np. 0,05, na podstawie którego będę decydował, że któryś konkretny wynik jest warty bliższego spojrzenia (tak właśnie myślał o p-wartości Ronald Fisher: https://www.nature.com/articles/506150a). Ale muszę do tego podejść mądrze, tzn. zastanowić się, czy są inne powody, dla których mogłem otrzymałem niską p-wartość. Bo przy jej pomocy testujemy WSZYSTKIE założenia modelu, który przyjęliśmy. Czyli np. że próba jest reprezentatywna, że nie robię wielokrotnego testowania, czy że hipoteza, którą chcę udowodnić, jest wiarygodna. Co prawda explicite tego ostatniego założenia nie podaje się w książkach do statystyki, natomiast jeśli chcemy ustalić jakiś uniwersalny próg (0,05), jest ono konieczne.

Co warte odnotowania, w takiej interpretacji trudno uznać, że niska p-wartość może stanowić DOWÓD czegoś. I bardzo dobrze. Nie możemy całej analizy sprowadzać do p-wartości, ma to być jedynie pomoc w wyciąganiu wniosków o świecie. Choćby nasza wiedza a priori (teoretyczna, na podstawie innych danych) o danym zagadnieniu jest zdecydowanie ważniejsza i na jej podstawie możemy zignorować prawie każdą p-wartość, nieważne jak niska by była (tzn. uznać, że np. zebrana przez nas próba była obciążona – bo taki wniosek jest bardziej wiarygodny, niż to, co wynikałoby z przyjęcia hipotezy alternatywnej).

Drugie podejście

Poprzednia interpretacja jest bardzo praktyczna i zwykle właśnie w taki sposób myślę o p-wartości. Spróbujmy teraz uwzględnić, że przecież zgodnie z definicją p-wartość JEST prawdopodobieństwem. Jak jednak pisałem w poprzednim wpisie, takie rozumienie p-wartości ma sens w kontekście prawdopodobieństwa a priori naszej hipotezy. To generuje duże problemy, bo jak tu naukowo przyjąć jakąś konkretną wartość dla takiego prawdopodobieństwa. Czy można coś powiedzieć o p-wartości bez wstępnych założeń (wyrażonych ilościowo w formie prawdopodobieństwa) odnośnie do badanej hipotezy? Tak, jeśli potraktujemy p-wartość jako modyfikator naszych wstępnych przypuszczeń. Z jakimś prawdopodobieństwem wierzymy, że hipoteza jest prawdziwa (nawet jeśli nie potrafimy tego wyrazić ilościowo). Mała p-wartość “mnoży” to prawdopodobieństwo – dzięki konkretnemu doświadczeniu, które właśnie przeprowadziliśmy, może być ono większe, niż było przed nim.

Jak to “mnożenie” wygląda, pokazuję w tym wpisie (zakładam w nim znajomość wzoru Bayesa). Tutaj dodam jeszcze, że dzięki takiej interpretacji nie ma problemu z niewiarygodną hipotezą. Niska p-wartość zwiększa prawdopodobieństwo, że jest ona prawdziwa, ale jeśli a priori było ono bardzo niskie, to po doświadczeniu wciąż może być niskie (choć niekoniecznie bardzo). Wciąż nie wierzymy w daną hipotezę, ale może kolejne doświadczenia sprawią, że prawdopodobieństwo z niskiego przejdzie na wysokie i uznamy, że nasze początkowa wizja świata była jednak błędna.


Jeśli moje teksty są dla Ciebie wartościowe, na podany niżej adres email mogę przesłać Ci wiadomość, gdy pojawią się nowe. Zapraszam też na mój kanał na youtube.