Problem wielokrotnego testowania (lub porównań wielokrotnych) to jeden z powodów kryzysu w nauce, który objawia się tym, że nie da się powtórzyć wielu (w niektórych dziedzinach większości) wyników badań. To znaczy mimo przedstawienia rzekomych statystycznych dowodów, że wnioski z badanej próby przenoszą się na populację, tak wcale nie jest.
Na czym ten problem wielokrotnego testowania polega?
Dobra inwestycja
Powiedzmy, że chcę Wam sprzedać jakieś kursy z inwestowania. Co prawda nie znam się na tym — ale znam się na czymś innym. I dzięki temu na mój newsletter zapisały się 1024 osoby. Chcę zareklamować moje nadzwyczajnie umiejętności inwestycyjne, wybieram więc 10 dóbr i wysyłam do wszystkich maila z prognozami: za miesiąc złoto stanieje, ropa zdrożeje, drewno stanieje itd. Załóżmy, że cena nie może być identyczna, w takim razie istnieje 2^10=1024 możliwości, więc każdemu mogę przesłać inną prognozę. Ponieważ nie znam się na tym, tak właśnie robię.
Jedna osoba otrzyma wszystkie poprawne prognozy. Pewnie zrobi to na niej wrażenie, więc kupi mój kurs. 9 poprawnych prognoz na 10 to też bardzo dobry wynik — a osób, które takie otrzymają, jest już 10. Myślę, że nawet dla części osób (miejmy nadzieję, że niewielkiej :P), u których sprawdzi się połowa prognoz, będzie to jakiś argument, że coś o tym inwestowaniu wiem. Przy założeniu, że te wszystkie osoby nie znają się wzajemnie i nie odkryły mojej strategii, mogę zebrać całkiem sporą grupę klientów. A jeśli moja baza adresów ma 10240 pozycje?
Magik karciany na rozmowie kwalifikacyjnej
Weźmy inny przykład. Chcę Wam udowodnić, że jestem magikiem karcianym. Tasujecie talię 52 kart, a ja w ciemno wyciągnę z niej asa pik. Powiedzmy, że to mi się udaje. Możemy obliczyć p-wartość dla takich danych: wynosi ona 1 na 52, czyli ok. 0,02. Gdyby nie niedorzeczność tego, co chcemy pokazać, moglibyśmy być skłoni do odrzucenia hipotezy zerowej, że wyjmuję karty losowo, na rzecz alternatywnej, że w jakiś sposób potrafię zobaczyć, co jest po drugiej stronie kart.
Załóżmy jednak, że wierzymy w świat, w którym takie umiejętności istnieją i p-wartość na takim poziomie wystarczy, byśmy uznali, że JA je posiadam. Ale powiedzmy, że eksperyment z wyciąganiem asa się nie powiódł, tzn. wyciągnąłem inną kartę. Jakoś to tłumaczę, proszę o powtórzenie eksperymentu i tym razem się udało.
Oczywiście siła dowodu nie może być taka sama — problem wielokrotnego testowania. W końcu każdy tego asa pik wyciągnie!
Sprawa jest tutaj oczywista, ale wyobraźmy sobie trochę inną sytuację. Chcemy zatrudnić magika karcianego w naszej firmie i na rozmowie kwalifikacyjnej ma wyciągnąć asa pik ZA PIERWSZYM RAZEM. Kolejni kandydaci próbują, w końcu któremuś się udało. Mimo że zrobił to za pierwszym razem, tak naprawdę mamy tu ten sam problem, co wcześniej.
No dobrze, to tym razem firma rozmawia tylko z jednym kandydatem i musi on wyciągnąć asa pik za pierwszym razem. Ale jeśli takich firm jest wiele? Co pięćdziesiąta znajdzie takiego magika. Może nawet dowiemy się o tych firmach, bo będą to wszem wobec ogłaszać. I my też uwierzymy, bo nie dowiemy się o innych, którym się nie udało.
Lotto
Jeśli kogoś jeszcze nie przekonuje powszechność problemu porównań wielokrotnych, to weźmy lotto. Prawdopodobieństwo, że obstawimy dobre liczby w dużym lotku, jest równe około 1 na 14 milionów. Tzn. tyle wynosi przy założeniu, że nie mamy jakichś paranormalnych zdolności oraz że maszyna losująca jest poprawnie skalibrowana (hipoteza zerowa). Dowiedzieliśmy się, że pan X trafił szóstkę. Możemy bardzo prosto policzyć p-wartość dla takiego wyniku — jest ona równa właśnie 1 na 14 milionów. Czy odrzucimy hipotezę zerową?
Występuje tu ten sam problem wielokrotnego testowania, który przedstawiłem w dwóch ostatnich historiach. Prawdopodobieństwo, że konkretnie pan X trafi szóstkę, jest rzeczywiście bardzo małe. Ale prawdopodobieństwo, że KTOŚ ją trafi, już nie jest małe — i w ten sposób należy na to patrzeć.
Co robić?
No dobrze, wiemy już, że problem wielokrotnego testowania jest powszechny, ale jakie jest ogólne rozwiązanie tego problemu? Jak poprawnie ocenić, czy konkretne wydarzenie jest spektakularne, czy jest naturalną konsekwencją tego, że wiele razy próbowaliśmy? W nauce stosuje się tzw. poprawkę na wielokrotne testowanie (np. najprostszą, ale też zwykle nieoptymalną poprawkę/korektę Bonferroniego). Żeby jednak móc jej użyć, trzeba znać liczbę testów, jakie wykonaliśmy. W przykładzie z lotto jest to proste: to liczba wszystkich wysłanych kuponów. W innych problemach oszacowanie tej liczby może być znacznie trudniejsze.
Jeśli moje teksty są dla Ciebie wartościowe, na podany niżej adres email mogę przesłać Ci wiadomość, gdy pojawią się nowe. Zapraszam też na mój kanał na youtube.