Załóżmy, chcielibyśmy oszacować, ile osób uderzyło kiedykolwiek swoje dziecko. Nic prostszego: zadajmy to pytanie losowym rodzicom i podliczmy. Czy jednak uzyskane wyniki będą wiarygodne? Pomijam kwestię liczebności próby i jej reprezentatywności — załóżmy, że o to zadbaliśmy. Sprawa jest poważniejsza: czy ankietowani powiedzą prawdę? Możemy przypuszczać, że część z nich nie będzie chciała się przyznać, że uderzyła dziecko, przez co proporcja będzie zaniżona. Czy da się ten problem rozwiązać?
Poczucie anonimowości
Jednym ze sposobów jest zapewnienie anonimowości. Ale jak to zrobić, jeśli na przykład chcielibyśmy przepytywać ludzi na ulicy? Może niech ankietowany zapisuje odpowiedź na kartce i wrzuca do puszki pełnej kartek od innych osób? Pewnie wiele osób byśmy do tego przekonali, ale tak naprawdę łatwo ich oszukać. Wystarczy wrzucić wcześniej do tej puszki same puste kartki lub wszystkie z jedną odpowiedzią. Albo niech nawet będą to prawdziwe odpowiedzi, ale wcześniej je dokładnie podliczymy.
Przedstawię inny sposób, o którym przeczytałem kiedyś w jednej z książek Hugona Steinhausa. Bazuje on na spostrzeżeniu, że tak naprawdę nie interesują nas odpowiedzi od każdej z osób, jedynie ich średnia. Dajemy ankietowanemu monetę i prosimy, by w tajemnicy nią rzucił (a najlepiej, żeby wyciągnął swoją, bo nasza może być oszukana). Jeśli wypadnie reszka, niech odpowie na nasze pytanie, a jeśli orzeł, na jakieś neutralne, na przykład czy urodził się w miesiącu parzystym. Być może brzmi to dziwnie, ale przeanalizujmy konkretny przykład.
Przykład
Załóżmy, że przepytaliśmy 200 osób i otrzymaliśmy 60 odpowiedzi tak, 140 nie. Mniej więcej połowa z nich to odpowiedzi na pytanie o uderzenie dziecka, połowa na pytanie o miesiąc urodzenia (bo orzeł i reszka są tak samo prawdopodobne). Co więcej, w tej pierwszej połowie powinniśmy otrzymać mniej więcej połowę odpowiedzi tak, połowę nie (bo w przybliżeniu z takim samym prawdopodobieństwem ankietowani urodzili się w miesiącu parzystym lub nieparzystym). Powinniśmy zatem odrzucić 50 odpowiedzi tak, 50 nie, bo nie są to odpowiedzi na interesujące nas pytanie. Zostaje 10 tak, 90 nie — stąd 10% osób uderzyło dziecko.
A poniżej ogólny przepis. Oznaczmy szacowaną proporcję przez , a otrzymaną według schematu wyżej przez . Mamy , a stąd
Czyli żeby otrzymać szukaną proporcję, należy tę uzyskaną powiększyć dwukrotnie i odjąć . W naszym przypadku .
Zastrzeżenia
Oczywiście trzeba pamiętać, że uzyskany wynik nie będzie dokładny, bo w badanej próbie niekoniecznie połowa osób urodzi się w parzystym miesiącu. Choćby dlatego, że liczba dni przypadających na parzyste miesiące jest mniejsza niż na nieparzyste (na to akurat można wziąć poprawkę). Co więcej, niekoniecznie połowie osób wypadnie reszka. Ale przecież i bez tego wynik jest niedokładny, bo obliczamy go tylko na podstawie próby z populacji. Opisana metoda zwiększa tę niedokładność, ale przynajmniej mamy szansę oszacować to, co naprawdę nas interesuje (mówiąc językiem statystyki, zwiększamy wariancję, ale redukujemy obciążenie). Poza tym wystarczy zbadać większą próbę, by tę dodatkową niedokładność zredukować.
Wydaje mi się interesujące, że możemy nie dowiedzieć się niczego o żadnym ankietowanym, a jednak potrafimy powiedzieć, ilu z nich odpowiedziało twierdząco na zadane pytanie.
Jeśli moje teksty są dla Ciebie wartościowe, na podany niżej adres email mogę przesłać Ci wiadomość, gdy pojawią się nowe. Zapraszam też na mój kanał na youtube.