Załóżmy, że znasz się na psychologii, medycynie, dietetyce, ale niekoniecznie na statystyce. Czytasz publikacje naukowe i znajdujesz coś interesującego: maść z końskiego łajna ISTOTNIE STATYSTYCZNIE wydłuża sen.
Ponieważ założyliśmy, że nie znasz się na statystyce, możesz pomyśleć tak: nie dość, że końskie łajno wydłuża sen, to na dodatek istotnie! Dlatego parę słów na temat tego określenia. Jest to o tyle ważne, że nierzadko jedynie ta informacja (o istotności) pojawia się w abstraktach – a to głównie one są czytane. I potem nieuprawnione wnioski z takich abstraktów pojawiają się tu i ówdzie.
Załóżmy idealną sytuację: wykonano eksperyment i nie ma wątpliwości, że mówimy o wpływie końskiego łajna (tzn. to nie jest tylko korelacja). Grupa, która smarowała się końskim łajnem, spała średnio dłużej. Badacz jednak, z naukowym krytycyzmem, nie uwierzył w tę różnicę od razu, bo to przecież mógł być przypadek. Grając rolę adwokata diabła, założył, że żadnej różnicy nie ma, tzn. średni czas spania dla obu grup jest DOKŁADNIE taki sam.
Termin „statystycznie istotne” oznacza, że to założenie (równość średnich) jest na tyle mało prawdopodobne, że rozsądnie myśleć inaczej.
Pomińmy kwestię, że mówimy jedynie o prawdopodobieństwie i uznajmy, że udowodniliśmy, że to założenie nie może być prawdą. Ale co takiego udowodniliśmy? Że dzięki smarowaniu się końskim łajnem możemy oczekiwać, że długość naszego snu nie będzie DOKŁADNIE taka, jak w sytuacji, gdybyśmy się nie smarowali.
No dobrze, ale o ile się wydłuży? Mam smarować się końskim łajnem, gdy nawet nie wiem, czy będę spać dłużej o pół godziny, czy może o minutę? Przecież to cuchnie!
I tu dochodzimy do pierwszego sedna: ze statystycznej istotności nie wynika tzw. wielkość efektu. Wiemy tylko to, co wiemy: z dużym prawdopodobieństwem średnie długości snu nie są dokładnie takie same (w komentarzu uwagi do tego zdania – i wiele innych).
Dlatego czytamy publikację dalej! Szukamy, jak duży jest efekt i znajdujemy, że 20 minut. Załóżmy, że to dużo. I tu dochodzimy do drugiego sedna: do błędu, który popełniają nawet osoby z doświadczeniem. Otóż interpretują te 20 minut tak, jakby rzeczywiście tyle wynosiła różnica (w populacji). Bo czyż nie udowodniliśmy, że jest ona istotna statystycznie?
Ale przecież wiemy jedynie, że jest różna od zera! Jakim cudem miałoby z tego wynikać, że jest równa 20?
Dlatego potrzebne jest jeszcze coś: przedział ufności. Jeśli wynosi np. 10-30 min, to niegłupio myśleć, że różnica to co najmniej 10 minut. Ale jeśli przedział jest szeroki, np. 1-39 min, to nie możemy powiedzieć, że różnica jest duża (mimo że wciąż istotna statystycznie, bo przedział nie zawiera zera). Takie badanie dowodzi jedynie, że jest powyżej minuty.
Pytanie, czy w takim wypadku warto smarować się końskim łajnem, zostawiam czytelnikowi.
Komentarze
1. Co do ostatniego pytania, to oczywiście można mieć nadzieję, że ten czas jest w rzeczywistości dłuższy, więc warto sprawdzić. Ale zauważmy, że możemy tak do tego podejść nawet wtedy, gdy różnica nie jest istotna!
2. Napisałem, że „z dużym prawdopodobieństwem średnie długości snu nie są dokładnie takie same”. W rzeczywistości to nie musi być duże prawdopodobieństwo, odsyłam tutaj: https://danetyka.com/przed-czym-chroni-poziom-istotnosci/.
3. Wielkość efektu kojarzy się ze miarami typu d Cohena. One mają swoje zastosowania, ale w problemie, który poruszamy, są niepraktyczne. Oczywiście ma sens odnieść średnią różnicę do rozrzutu – w sensie, że to drugie też jest ważne – ale przede wszystkim musimy zrozumieć, jak duży jest efekt w naturalnej jednostce, w tym przypadku w minutach.
4. Przedziały ufności są o tyle wygodne, że w problemie odrzucania lub nie H0 są równoważne p-wartości (o ile konstruujemy przedział odpowiedni do hipotezy, co nie zawsze ma miejsce, np. gdy mamy więcej niż dwie grupy).
5. Jest takie powiedzenie, że wszystkie H0 są fałszywe. Ponieważ są zwykle formułowane tak, że coś jest dokładnie czemuś równe, to przy odpowiednio dużej liczbie obs. łatwo taką H0 odrzucić. Niektórzy dochodzą do wniosku, że w takim razie lepiej badać małe próby, bo wtedy istotność świadczy o tym, że efekt powinien być duży (znaczący praktycznie). Jest to absurdalne: w małych próbach SE jest większe, więc duże efekty można dostać przypadkowo, podobnie jak małe efekty w dużych próbach. Co więcej, w praktyce w małych próbach ryzyko fałszywego odkrycia jest nawet większe (piszę o tym w ostatnim punkcie).
6. Oczywiście czasem w abstraktach informacja o efekcie jest podana. I nierzadko słyszy się, że oprócz p-wartości powinniśmy podawać wielkość efektu, bo to też jest ważne. TEŻ? To jest najważniejsze! Zamieszanie może wynikać z tego, że p-wartość bywa wyznacznikiem, czy nasze badanie zostanie opublikowane (na szczęście to się zmienia). Po drugie, tu nie chodzi o szacowaną wielkość efektu (z próby), bo ona rzeczywiście może nie mieć znaczenia, szczególnie jeśli przedział ufności jest szeroki. Liczy się oczywiście wielkość efektu w populacji. Ale przecież nie jest ważne (zwykle), czy w populacji coś jest różne od zera, ale ile wynosi!
7. Jeśli opisujemy wyniki, to napisanie, że średnia różnica wynosi 20 minut, jest ok – o ile pamiętamy, że mówimy o próbie, nie o populacji. Ale jeśli dla wniosków ważne jest, by różnica była duża (tzn. tak chcemy reklamować nasze wyniki: patrzcie, końskie łajno mocno wydłuża sen), to musimy mieć na to dowody! Czyli nie wystarczy odrzucić H0: m=0, ale np. m=10. Dlatego przedział ufności jest tak wygodny, bo od razu to widać. Przydaje się też, gdy chcemy pokazać, że jakiś efekt JEST niewielki (testy równoważności).
8. Oczywiście problemów z interpretacją wyników takich badań jest znacznie więcej. Poza tym, że mówimy o prawdopodobieństwie, dochodzi choćby fakt, że zwykle atakujemy jedynie równość średnich. Z tego, że średnia długość snu jest większa, nie wynika, że tak będzie u mnie. Może być nawet tak, że u większości badanych sen został skrócony, ale średnia jest większa, bo akurat u tych, którym się poprawiło, ta poprawa była bardzo duża. Innymi słowy, przejście z badań na praktyczne wskazówki, jak żyć, jest trudne i wymaga sporej wiedzy, zarówno dziedzinowej, jak i statystycznej.
9. Napisałem: „Badacz nie uwierzył w tę różnicę od razu, bo to przecież mógł być przypadek”, co sugeruje pewną kolejność, która choć popularna, zwykle nie jest właściwa. Tzn. można to zrozumieć tak, że odkrywamy jakąś zależność, a następnie badamy, czy można temu zaufać – a to nie jest zgodne ze sztuką, jeśli jest robione na tych samych danych. Hipotezy powinniśmy mieć postawione wcześniej i badać istotność tego, co zaplanowaliśmy. To rozróżnienie może wydawać się subtelne, ale w praktyce to pierwsze podejście (eksploracyjne) w zasadzie uniemożliwia poprawne wykorzystanie p-wartości jako narzędzia kontroli błędów pierwszego rodzaju.
10. Szerokie przedziały ufności to skutek zbyt niskiej mocy (zbadaliśmy za mało osób). Ma to poważne konsekwencje, gdy zastanawiamy się, czy warto uwierzyć, że dany efekt naprawdę jest obecny w populacji – nawet jeśli jest istotny. Niska moc zwiększa ryzyko, że to wynik fałszywie dodatni:
https://benthamopenarchives.com/abstract.php?ArticleCode=TOEPIJ-3-16
https://stats.stackexchange.com/questions/176384/do-underpowered-studies-have-increased-likelihood-of-false-positives