Chciałbym dowiedzieć się, ilu Polaków kiedykolwiek strzelało z broni czarnoprochowej. Pytam o to tysiąc losowo napotkanych osób i już, mam oszacowanie proporcji. Że to nie będzie dokładne? Oczywiście, ale tę dokładność również można oszacować (zrobię to zaraz). Natomiast problem z takim pytaniem jest znacznie większy.
Dokładność
Załóżmy, że 1% Polaków strzelało kiedykolwiek z broni czarnoprochowej. Jeśli spytałbym 100 osób, dokładność oszacowania (liczona jako błąd standardowy) wynosi 1%, co jest raczej nieakceptowalne. Bo taka dokładność oznacza, że zamiast rzeczywistej proporcji (1%) mogę otrzymać 2%, a nawet 3% — i nie powinienem być tym zbytnio zdziwiony (to „zdziwienie” można przedstawić formalnie przy pomocy tzw. przedziału ufności).
Ale gorzej: skoro tylko 1 osoba na 100 strzelała, a ja pytam 100 osób, to nie trzeba wielkiej matematyki, żeby zauważyć, że w mojej próbie żadna z takich osób może się nie trafić. A wtedy szacunkową odpowiedzią na tytułowe pytanie będzie „nikt”.
Prawda
No dobrze, ale jeśli spytam 1000 osób, wtedy dokładność wyniesie już 0,3% i sprawa wygląda lepiej. Problem w tym, że wszystkie to obliczenia zakładają, że ludzie powiedzą prawdę. Pokazywałem już, jak można sobie z tym poradzić (https://danetyka.com/szacowanie-trudnych-proporcji), a teraz zobaczymy, jakie będę konsekwencje, jeśli nic z tym nie zrobimy. Co więcej, nie ma znaczenia, jak dużo osób zbadamy — możemy nawet przyjąć, że wszystkich.
Co nam wyjdzie z badań?
Załóżmy, że 1 na 10 osób nie mówi prawdy, nieważne, czy strzelała z broni, czy nie. Czyli mamy pewną symetrię: co dziesiąty strzelający odpowie, że nie strzelał (bo zapomniał; bo nie chce być wpisany na jakąś „listę” itd.), oraz co dziesiąty niestrzelający odpowie, że strzelał (bo „co to nie on”; bo nie wie, co znaczy „czarnoprochowa” itd.).
W takich wypadkach może się wydawać, że wszystko będzie w porządku. Badanie jest obarczone błędem, ale on się zniesie. Jeśli mierzę wzrost miarą, która losowo zawyża o 5 cm, ale z takim samym prawdopodobieństwem zaniża o 5 cm, średni wzrost będzie wiarygodnie oszacowany (jedynie mniej dokładnie). Czy tak będzie w naszej sytuacji?
Policzmy. Mamy 1% rzeczywiście strzelających, ale z tego 1/10 odpowie, że nie strzelała, czyli dostajemy 9/10 * 1% = 0,9% strzelających. Na razie dobrze, niewielka różnica. Ale do tego musimy dodać 1/10 tych, którzy nie strzelali, ale niestety odpowiedzieli inaczej: 1/10 * 99% = 9,9%. Czyli w sumie mamy aż 10,8% strzelających! To prawie 11 razy więcej niż w rzeczywistości.
Wyniki fałszywie dodatnie
Spójrzmy na ten problem ogólniej. Nazwijmy jeden z wyników „dodatnim”, drugi „ujemnym”. Ponieważ niektórzy nie powiedzą prawdy, w praktyce otrzymamy cztery rodzaje odpowiedzi: prawdziwie dodatnia, prawdziwie ujemna, fałszywie dodatnia i fałszywie ujemna. W naszym przypadku, traktując strzelanie jako wynik dodatni, dostaniemy więcej odpowiedzi fałszywie dodatnich, niż fałszywie ujemnych. A przez to oszacowana proporcja będzie zawyżona. Można wziąć na to poprawkę, trzeba jednak wiedzieć, jaka część osób skłamie. I swoją drogą, może rzeczywiście jesteśmy w stanie to oszacować na podstawie innych badań. Co istotne (i ciekawe), nie musimy wiedzieć, czy konkretna odpowiedź jest prawdziwa, wystarczy proporcja kłamiących.
Jeśli moje teksty są dla Ciebie wartościowe, na podany niżej adres email mogę przesłać Ci wiadomość, gdy pojawią się nowe. Zapraszam też na mój kanał na youtube.