P-wartość — ostateczna interpretacja

  • Post author:

Ten wpis kończy serię o interpretacji p-wartości. Zacząłem od tego, jak NIE należy tego robić. W kolejnym wpisie uzasadniałem, że p-wartość można traktować jako pewien mnożnik, który aktualizuje nasze wstępne przypuszczenia. Żeby tego mnożnika użyć, potrzebny jest wzór Bayesa, o którym pisałem tutaj. A teraz ten wzór zastosujemy, aby p-wartość z konkretnego doświadczenia zmieniła nasze postrzeganie świata.

Czy moje odkrycie jest prawdziwe?

Przeprowadziłem badanie i zaobserwowałem pewne dane D. Podsumowałem je testem statystycznym, otrzymując p = 0{,}01. Ponieważ jest to niska wartość, odrzuciłem hipotezę zerową. Ale czy naprawdę coś odkryłem? Jakie jest ryzyko, że była to błędna decyzja? Że moje odkrycie jest fałszywe? Innymi słowy, jakie jest prawdopodobieństwo, że prawdziwa jest H0, mimo zaobserwowania moich danych, czyli P(H_0|D)?

Jak już wiemy, to wcale nie jest p. Bo p-wartość to prawdopodobieństwo w drugą stronę, czyli P(D|H_0). W takim razie stosujemy wzór Bayesa:

    \[P(H_0|D) = \frac{P(D|H_0)P(H_0)}{P(D)},\]

w którym mianownik możemy rozpisać jako

    \[{P(D) = P(D|H_0)P(H_0) + P(D|H_1)P(H_1)}.\]

Spróbujmy teraz zrozumieć, co oznaczają poszczególne człony.

  1. Jak już powiedzieliśmy, P(D|H_0) to p-wartość. Bo jeśli H0 jest prawdziwa, to właśnie z takim prawdopodobieństwem otrzymam moje dane (precyzyjnie: taki lub bardziej ekstremalny wynik testu statystycznego, który te dane podsumowuje).
  2. P(H_0) to prawdopodobieństwo a priori, że H0 jest prawdziwa. Czyli jest to ilościowe przedstawienie mojej dotychczasowej WIARY w prawdziwość hipotezy. Oczywiście ta wiara może opierać się na solidnych dowodach, np. z poprzednich badań, w każdym razie muszę to wyrazić w języku prawdopodobieństwa — i co ważne, wcześniej, zanim wykonam eksperyment.
  3. Mamy jeszcze P(H_1), ale w klasycznym testowaniu hipotez H1 jest po prostu zaprzeczeniem H0, czyli P(H_1) = 1 - P(H_0).
  4. Zostało P(D|H_1) i o tym członie musimy powiedzieć więcej. Najpierw go przetłumaczmy: jest to prawdopodobieństwo moich danych (niskiej p-wartości), przy założeniu, że H0 NIE jest prawdziwa. Jest to tzw. moc testu.

Moc

Ogólnie rzecz biorąc, w dobrze zaplanowanym eksperymencie moc testu (czyli prawdopodobieństwo P(D|H_1)) powinna być wysoka. W końcu jeśli prawdziwa jest hipoteza alternatywna, powinniśmy to wykryć, otrzymując niską p-wartość. Okazuje się jednak, że w większości badań naukowych jest ona zbyt niska. Czyli już z góry wiadomo, że nie da się zauważyć efektu, który chcemy pokazać. Czemu tak się dzieje? Czemu naukowcy utrudniają sobie życie? Bo niska moc jest prawie zawsze wynikiem zebrania zbyt małej liczby obserwacji. Więc to jest kwestia pieniędzy — wysoka moc więcej kosztuje.

Teoretycznie powinno to działać tak, że zanim przeprowadzimy eksperyment, ustalamy, ile obserwacji należy zebrać. Chcemy tyle, by wystarczyło do wykrycia efektu, który spodziewamy się, że istnieje. Jeśli np. uważamy, że lek X jest o 10% lepszy od placebo, przy pewnej liczbie obserwacji taki efekt będzie istotny.

Problem w tym, że nawet jeśli prawda wygląda tak, jak wyżej, tzn. lek jest o 10% lepszy, to w konkretnym badaniu może wyjść trochę mniej, np. 8% (choć oczywiście może też wyjść więcej). W takim razie jest to kwestia prawdopodobieństwa: potrzebujemy tyle obserwacji, by z dużym prawdopodobieństwem spodziewany efekt był istotny (zwykle p < 0{,}05).

A co to jest duże prawdopodobieństwo w kontekście mocy? Przyjęło się ustalać je na 80%. Czyli jeśli to, co twierdzę, jest prawdą (lek jest lepszy o 10%), 4 eksperymenty na 5 będą go potwierdzać (tzn. otrzymane p-wartości będą odpowiednio małe). Czyli to wcale nie jest tak dużo… Trzeba tu jednak pamiętać, że do testowania hipotez podchodzimy tak, że jeśli czegoś nie odkryjemy (mimo że efekt był), to nie jest to takie straszne. Może ktoś inny to odkryje? Może my w kolejnym eksperymencie? Gorzej, jeśli wszem wobec ogłosimy o jakimś odkryciu, podczas gdy w rzeczywistości nic tam nie było. Mówiąc językiem statystyki, bardziej obawiamy się błędu pierwszego rodzaju niż drugiego.

Odpowiednia perspektywa

Tu jeszcze jedno słowo komentarza, wracając do tematu z poprzednich wpisów, o błędnych interpretacjach p-wartości jako prawdopodobieństwa, że jakaś hipoteza jest prawdziwa. Licząc p-wartość, dowiadujemy się czegoś tylko z jednej perspektywy: przy założeniu, że H0 jest prawdziwa. Żeby mieć pełny obraz sytuacji (i móc coś powiedzieć o tym, czy nasze odkrycie jest prawdziwe), potrzebujemy jeszcze wiedzieć, co się dzieje, gdy prawdziwa jest H1. Stąd w naszym wzorze taki składnik.

Prawdopodobieństwo fałszywego odkrycia

Oznaczmy moc przez \gamma, podstawmy konkretną p-wartość p oraz załóżmy, że prawdopodobieństwo a priori H0 wynosi \pi_0. Nasz wzór przyjmuje wtedy postać

    \[P(H_0|D) = \frac{p\pi_0}{p\pi_0 + \gamma(1-\pi_0)}.\]

I żeby nie umknęło nam sedno tych rozważań: aby na podstawie p-wartości powiedzieć coś o prawdopodobieństwie, że właśnie dokonujemy fałszywego odkrycia, nie wystarczy samo p. Potrzebujemy jeszcze dwóch wartości:

  • prawdopodobieństwa a priori, że H0 jest prawdziwa,
  • prawdopodobieństwa, że jeśli szukany efekt naprawdę istnieje, będziemy w stanie go wykryć.

Przykłady

Zastosujemy teraz wzór dla paru przypadków, żeby zobaczyć, jak się ma p-wartość do prawdopodobieństwa fałszywego odkrycia. Przyjmijmy, że nasz eksperyment jest dobrze zaplanowany, tzn. moc wynosi 80% (w praktyce bardzo optymistyczne założenie). Jeśli H0 i H1 wydają nam się tak samo prawdopodobne, to podstawiając do wzoru \pi_0 = 0{,}5, dostaniemy P(H_0|D) = 0{,}012. Czyli w takim przypadku rzeczywiście interpretacyjne utożsamienie p-wartości z prawdopodobieństwem fałszywego odkrycia nie jest dużym błędem.

Wystarczy jednak, by moc była równa 0{,5} (bardziej realistyczny scenariusz), a P(H_0|D) jest 2 razy większe od p-wartości. To wciąż jednak niskie prawdopodobieństwo i wydaje się rozsądne, by odrzucić H0. Ale rozważmy sytuację, w której nie wierzymy, by H1 była prawdziwa. Jeśli \pi_0 = 0{,}99 i \gamma = 0{,}8, to P(H_0|D) = 0{,}55. Czyli jest bardziej prawdopodobne, że mamy właśnie do czynienia z fałszywym odkryciem! Mówienie w takiej sytuacji, że coś udowodniliśmy, że przecież nauka potwierdziła, jest absurdalne. Nie wierzyłem w H1 i wciąż w nią nie wierzę — choć moje przekonanie co do jej nieprawdziwości powinno zmaleć.

Ale podobnie w drugą stronę. Jeśli na podstawie mojej eksperckiej wiedzy H1 „musi” być prawdziwa (np. \pi_0 = 0{,}01), to nawet jeśli otrzymam dużą p-wartość (np. p = 0{,}5), to P(H_0|D) wynosi 0,006. Czyli taki jeden eksperyment nie powinien zmienić mojego przekonania, co najwyżej zmniejszyć pewność, jaką miałem przed nim.

Kiedy zakładać, że H0 i H1 są równie prawdopodobne?

Pytanie jeszcze, czy jeśli nie wiemy nic, to odpowiada to założeniu, że \pi_0 = 0{,}5. Moim zdaniem zdecydowanie nie. Ale najpierw się zastanówmy, co to znaczy, że nie wiemy nic. Jeśli wybierzemy jakiś losowy produkt i będziemy się zastanawiać, czy jego spożycie zwiększy ryzyko zachorowania na chorobę X, to nie można powiedzieć, że a priori z prawdopodobieństwem 0,5 tak właśnie będzie. Musimy mieć już jakieś przesłanki, by tak DUŻE prawdopodobieństwo temu przypisać.

Rozważmy inną sytuację. Mamy pacjentów zdrowych i chorych na chorobę X. Wyselekcjonowaliśmy zestaw 20 cech, którymi wydaje się nam, że ci pacjenci mogą się różnić. Wszystkimi? Na pewno nie — przypuszczamy, że może połową z nich. Wtedy przyjęcie \pi_0 = 0{,}5 wydaje mi się uprawnione (natomiast występuje tu problem wielokrotnego testowania i koniecznie trzeba wziąć go pod uwagę).

Podsumowując, gdy mamy odpowiednio dużą moc i przypuszczamy, że H1 MOŻE być prawdziwa (choć niekoniecznie mamy na to solidne argumenty), rozsądnie jest traktować małe p-wartości jako rzeczywiście małe — a tym samym nie obawiać się, że jeśli odrzucimy H0, to zrobimy z siebie głupków.

Dla dociekliwych

Jeśli zainteresował Was ten temat, to niestety muszę dodać, że jest on bardziej skomplikowany, niż tu przedstawiłem. Przyjąłem, że P(D|H_0) to p-wartość, podczas gdy to nie do końca tak jest.

Interpretując p-wartość, myślimy o prawdopodobieństwie zaobserwowania takich danych, jakie mamy, LUB bardziej ekstremalnych. W rzeczywistości jednak mamy przecież tylko to, co mamy. Albo patrząc inaczej: otrzymałem konkretną p-wartość, równą 0,01, więc interesuje mnie P(p=0{,}01|H_0), a to wcale nie jest równe p. Tak by było, gdybym rozważał P(p\leq0{,}01|H_0). Jeśli chcemy obliczyć prawdopodobieństwo otrzymania konkretnej p-wartości, jest to bardziej skomplikowane. Po więcej informacji odsyłam do tej publikacji. Wspomnę tylko, że przy takiej interpretacji, jak we wspomnianym artykule, prawdopodobieństwo, że właśnie dokonaliśmy fałszywego odkrycia, jest kilka razy większe, niż u nas. Jednym słowem, powinniśmy być jeszcze ostrożniejsi, twierdząc, że właśnie coś udowodniliśmy.


Jeśli moje teksty są dla Ciebie wartościowe, na podany niżej adres email mogę przesłać Ci wiadomość, gdy pojawią się nowe. Zapraszam też na mój kanał na youtube.