W poprzednim wpisie pisałem o błędnych interpretacjach p-wartości. Zastanówmy się teraz, jak traktować p = 0,01.
Zacznijmy od poziomu istotności, zwykle ustalanego na początku analizy. Jeśli przyjmiemy, że wynosi on 0,05, kontrolujemy błąd pierwszego rodzaju na takim poziomie. Innymi słowy, oczekujemy, że w co najwyżej jednym przypadku na 20 odrzucimy hipotezę zerową, mimo że w rzeczywistości była prawdziwa. Problem w tym, że ta interpretacja nie odnosi się do konkretnej hipotezy, którą badamy, ale do całej procedury testowania. Stosując taką procedurę, nie będziemy zbyt często odrzucać prawdziwych hipotez zerowych. To świetnie, ale ja pytam o konkretną hipotezę i konkretną p-wartość, którą otrzymałem. Co oznacza p = 0,01?
Może pomoże nam definicja? Jeśli założymy, że hipoteza zerowa jest prawdziwa, otrzymanie np. takiej różnicy między średnimi, jaką właśnie dostaliśmy – lub bardziej ekstremalnej – jest mało prawdopodobne, wynosi jedynie 0,01. Rozsądnym wydaje się więc odrzucić tę hipotezę i przyjąć alternatywną. Ale co, jeśli alternatywna jest absurdalna? Czy wtedy też ją przyjmiemy? Czy jednak rozsądniej będzie założyć, że w tym konkretnym badaniu jedynie czystym przypadkiem otrzymaliśmy wynik mocno różniący się od tego, co zakłada H0?
Lotto
Prawdopodobieństwo, że obstawimy dobre liczby w lotto, jest równe około 1 na 14 milionów. Tzn. tyle wynosi przy założeniu, że obstawiamy losowo (hipoteza zerowa). Dowiedzieliśmy się, że pan X trafił szóstkę. Możemy bardzo prosto policzyć p-wartość dla takiego wyniku – jest ona równa właśnie 1 na 14 milionów. Chyba oczywiste jest, że odrzucamy H0? Przecież p-wartość jest ekstremalnie mała? Ale jakie są konsekwencje tej decyzji, tzn. w co powinniśmy wierzyć, odrzucając H0? Że pan X ma jakieś paranormalne zdolności przewidywania, co wypadnie w czysto losowej grze (dodam, że nie ma tu znaczenia, czy pan X gra “systemem”, czy skreśla liczby związane z datą urodzenia jego żony itp., to wciąż działa dokładnie tak samo, jakby obstawił losowe liczby; w razie gdyby nie było to jasne, poczytaj https://czywartogracwlotto.pl/). Czyli z jednej strony mam silne przesłanki, by odrzucić H0 (bardzo niska p-wartość), z drugiej strony nie chcę tego zrobić, bo nie wierzę, że może być nieprawdziwa (czy też nie wierzę w hipotezę alternatywną).
Powyższy przypadek może wydawać się jakimś paradoksem, ale łatwo go wyjaśnić. Mamy tu bowiem do czynienia z problemem wielokrotnego testowania. P-wartość jest bardzo mała, ale testów (wysłanych kuponów lotto) jest bardzo dużo i ostatecznie komuś się poszczęści. Uff, nie musimy odrzucać hipotezy zerowej.
Ten przykład miał pokazać, że proste przeniesienie p-wartości na prawdopodobieństwo, że właśnie popełniamy błąd pierwszego rodzaju, jest trudne. Skoro tak, to proponuję tego nie robić.
Pierwsze podejście
Ja traktuję p-wartość jako miarę tego, na ile konkretny wynik, który otrzymałem, jest ZGODNY z założonym przeze mnie modelem (H0). Im niższa p-wartość, tym mniejsza zgodność – czyli silniejsze przesłanki, żeby odrzucić H0. Jest to więc jedynie pewna liczba (score) i wcale nie potrzebuję myśleć o niej w kategoriach prawdopodobieństwa. Mogę wybrać pewien próg, np. 0,05, na podstawie którego będę decydował, że któryś konkretny wynik jest warty bliższego spojrzenia (tak właśnie myślał o p-wartości Ronald Fisher: https://www.nature.com/articles/506150a). Ale muszę do tego podejść mądrze, tzn. zastanowić się, czy są inne powody, dla których mogłem otrzymałem niską p-wartość. Bo przy jej pomocy testujemy WSZYSTKIE założenia modelu, który przyjęliśmy. Czyli np. że próba jest reprezentatywna, że nie robię wielokrotnego testowania, czy że hipoteza, którą chcę udowodnić, jest wiarygodna. Co prawda explicite tego ostatniego założenia nie podaje się w książkach do statystyki, natomiast jeśli chcemy ustalić jakiś uniwersalny próg (0,05), jest ono konieczne.
Co warte odnotowania, w takiej interpretacji trudno uznać, że niska p-wartość może stanowić DOWÓD czegoś. I bardzo dobrze. Nie możemy całej analizy sprowadzać do p-wartości, ma to być jedynie pomoc w wyciąganiu wniosków o świecie. Choćby nasza wiedza a priori o danym zagadnieniu jest zdecydowanie ważniejsza i na jej podstawie możemy zignorować prawie każdą p-wartość, nieważne jak niska by była (tzn. uznać, że np. zebrana przez nas próba była obciążona – bo taki wniosek jest bardziej wiarygodny, niż to, co wynikałoby z przyjęcia hipotezy alternatywnej).
Drugie podejście
Poprzednia interpretacja jest bardzo praktyczna i zwykle właśnie w taki sposób myślę o p-wartości. Spróbujmy teraz uwzględnić, że przecież zgodnie z definicją p-wartość JEST prawdopodobieństwem. Jak jednak pisałem w poprzednim wpisie, takie rozumienie p-wartości ma sens w kontekście prawdopodobieństwa a priori naszej hipotezy. To generuje duże problemy, bo jak tu naukowo przyjąć jakąś konkretną wartość dla takiego prawdopodobieństwa. Czy można coś powiedzieć o p-wartości bez wstępnych założeń (wyrażonych ilościowo w formie prawdopodobieństwa) odnośnie do badanej hipotezy? Tak, jeśli zrozumiemy, że p-wartość działa jak modyfikator naszych wstępnych przypuszczeń. Z jakimś prawdopodobieństwem wierzymy, że hipoteza jest prawdziwa (nawet jeśli nie potrafimy tego wyrazić ilościowo). Mała p-wartość “mnoży” to prawdopodobieństwo – dzięki konkretnemu doświadczeniu, które właśnie przeprowadziliśmy, może być ono większe, niż było przed nim.
Jak to “mnożenie” wygląda, pokazuję w tym wpisie (zakładam w nim znajomość wzoru Bayesa). Tutaj dodam jeszcze, że dzięki takiej interpretacji nie ma problemu z niewiarygodną hipotezą. Niska p-wartość zwiększa prawdopodobieństwo, że jest ona prawdziwa, ale jeśli a priori było ono bardzo niskie, to po doświadczeniu wciąż może być niskie (choć niekoniecznie bardzo). Wciąż nie wierzymy w daną hipotezę, ale może kolejne doświadczenia sprawią, że prawdopodobieństwo z niskiego przejdzie na wysokie i uznamy, że nasze początkowa wizja świata była jednak błędna.
Jeśli moje teksty są dla Ciebie wartościowe, na podany niżej adres email mogę przesłać Ci wiadomość, gdy pojawią się nowe. Zapraszam też na mój kanał na youtube.