Przed czym chroni poziom istotności?

  • Post author:

O p-wartości napisałem już parę historii (np. https://danetyka.com/p-wartosc-ostateczna-interpretacja/). Pokazuję w nich między innymi, że otrzymując p=0{,}01 i odrzucając hipotezą zerową, istnieje dość duże ryzyko (większe, niż może się wydawać), że dokonujemy właśnie fałszywego odkrycia. Ale w takim razie, jak to się ma do kontroli błędu I rodzaju? Czy napisanie na początku analizy statystycznej \alpha = 0{,}05 nie gwarantuje nam, że będzie dobrze? Że błąd I rodzaju popełnimy co najwyżej raz na 20 przypadków?

Czy nie ma w tym pewnej sprzeczności?

Poziom alfa

Spróbujmy dobrze zrozumieć, co tak naprawdę gwarantuje nam ten poziom \alpha. Wyobraźmy sobie statystyka żądnego nowych odkryć. Przygotował 1000 hipotez, które właśnie ma zamiar udowodnić. Część z nich jest rzeczywiście prawdziwa, część nie, jak to w życiu. Załóżmy, że jedynie 10% jest prawdziwych. Statystyk ma zamiar podejść do swojego zadania zgodnie ze sztuką (czy na pewno?), pisze więc \alpha = 0{,}05 i przystępuje do testowania.

Dygresja. Jeśli ktoś widzi tu problem wielokrotnego testowania, to choć co do zasady nie jest to złe skojarzenie, akurat nie jest to kluczowa kwestia w tej historii. Możemy wyobrazić sobie, że mamy do czynienia z tysiącem niezależnych hipotez, które będziemy testować w ciągu całego swojego życia (tzn. nie jest to jedno badanie), ewentualnie że jest to pewien zbiór hipotez badanych przez różnych naukowców. Nie chcemy tu kontrolować tzw. FWER i godzimy się na to, że dokonamy 5% fałszywych odkryć.

No właśnie, 5% fałszywych odkryć — to jest gwarancja, którą daje nam \alpha = 0{,}05. I z tym nie będziemy dyskutować. Ale zobaczmy, jakie będą skutki tych 5% fałszywych odkryć.

Wyniki fałszywie dodatnie

Spójrzmy na poniższy schemat.

istotność statystyczna

Mamy 900 nieprawdziwych hipotez. Niestety, 5% z nich to będą fałszywe odkrycia. Także w 45 przypadkach będziemy twierdzić, że coś odkryliśmy, gdy w rzeczywistości to hipoteza zerowa była prawdziwa. Można powiedzieć, że to nie tak źle, w końcu badamy aż 1000 hipotez. To nawet trochę mniej niż 5%!

Ale idźmy dalej. Co z hipotezami, które są prawdziwe? Czy wszystkie wykryjemy? Na pewno nie — musielibyśmy mieć moc na poziomie 100%. Załóżmy optymistycznie, że wynosi ona 80%. W takim wypadku 80 hipotez słusznie uznamy za prawdziwe. Te pozostałe 20 to będą wyniki fałszywie ujemnie (a wcześniejsze 45 pomyłek fałszywie dodatnie).

Sytuacja jest w takim razie taka: twierdzimy, że 80 + 45 = 125 hipotez jest prawdziwych. Ale wśród nich jedynie 80 jest rzeczywiście prawdziwych. Weźmy zatem konkretne odkrycie. Z jakim prawdopodobieństwem jest prawdziwe? 80/125 = 64%. Tak, tylko 64%. Innymi słowy, mimo że ustaliliśmy poziom istotności na 5%, to ogłaszając wszem wobec, że właśnie coś odkryliśmy, z prawdopodobieństwem aż 36% jest to fałszywe odkrycie…

Tak naprawdę doszliśmy do tych samych wniosków co tutaj, natomiast zamiast analizować konkretną p-wartość, skupiliśmy się na kontroli błędu I rodzaju. I cóż, widać, jakiej jakości jest to kontrola.

Trochę optymizmu

Ale można spojrzeć na to inaczej. Podjęliśmy 1000 decyzji. 80 hipotez poprawnie uznaliśmy za prawdziwe, a 855 hipotez poprawnie nie uznaliśmy za prawdziwe. To 935 dobrych decyzji, czyli tylko 6,5% błędnych! Byłoby 5%, gdybyśmy mieli moc 95%. Problem w tym, że w klasycznym podejściu nie ma symetrii w tych decyzjach. Nie mogłem napisać: „poprawnie uznaliśmy za fałszywe”, a jedynie „poprawnie nie uznaliśmy za prawdziwe”. O ile nie mamy bardzo dużej mocy, nieodrzucenie hipotezy zerowej niewiele mówi. Stąd będziemy się skupiać raczej na „istotnych” wynikach.

Ale mnie to a priori nie interesuje

Czasem stawia się zarzut rozumowaniu, które tu przedstawiłem, że przyjmując z góry pewną liczbę prawdziwych i fałszywych hipotez, zakładam tym samym prawdopodobieństwa a priori ich prawdziwości. I że w takim razie z jednej strony stosuję podejście częstościowe, z drugiej bayesowskie. Jest to zarzut absurdalny. Co z tego, że ktoś stosuje podejście częstościowe — to, że część hipotez jest prawdziwych, a część fałszywych, jest przecież FAKTEM, niezależnym od tego, jak patrzę na prawdopodobieństwo. W klasycznym podejściu częstościowym po prostu ignorujemy ten problem — ale to nie sprawia, że on znika.

Oczywiście, jeśli przyjąć, że wśród tego tysiąca hipotez do zbadania mamy więcej prawdziwych, sytuacja wygląda lepiej. Jeśli np. założyć, że połowa z nich jest prawdziwa, to przy mocy 80% prawdopodobieństwo, że dane odkrycie jest fałszywe, wynosi już tylko 6%, czy blisko poziomu \alpha. Natomiast widać wyraźnie, że to prawdopodobieństwo bardzo mocno zależy od hipotezy, którą badamy. Jeśli chcemy ustalać z góry jakiś poziom istotności i porównywać z nim otrzymanie p-wartości ORAZ ufać, że właśnie wykryty efekt rzeczywiście występuje, musimy badać wiarygodne hipotezy.

I moim zdaniem nie możemy o tym myśleć w taki sposób, że przecież 50% to „na dwoje babka wróżyła”, więc to jest dobry punkt wyjścia dla dowolnej hipotezy. Nie — założenie, że badana przez nas hipoteza już na starcie jest na 50% prawdziwa, to całkiem poważne prawdopodobieństwo. Pamiętajmy, że chcemy tu coś udowodnić, stosując naukowe podejście.

Konkluzja

Podsumowując, poziom \alpha mówi jedynie, ile fałszywych odkryć możemy się spodziewać wśród wszystkich badanych przez nas nieprawdziwych hipotez. Czy 5% to dużo, czy mało, zależy od stosunku prawdziwych hipotez do fałszywych. I niestety, otrzymanie p < \alpha niewiele mówi o tym, czy rozsądnie jest uważać, że TO konkretne odkrycie jest prawdziwe. A chyba to jest najbardziej interesujące?


Jeśli moje teksty są dla Ciebie wartościowe, na podany niżej adres email mogę przesłać Ci wiadomość, gdy pojawią się nowe. Zapraszam też na mój kanał na youtube.