Są dwie szkoły, mała i duża. Do jednej chodzi 60% chłopców. Która to szkoła?
Cóż, nie wiadomo. Jaka będzie jutro pogoda też nie wiadomo, ale może jednak da się coś więcej powiedzieć?
Analizowałem kiedyś dane o ocenach filmów. Posortowałem je według średniej oceny, żeby zobaczyć najlepsze filmy (według widzów). Cóż, byłem wtedy mały, także nie od razu zorientowałem się, co robię źle. Oceny były w skali od 1 do 10 i otrzymałem absolutne top: filmy o średniej 10.
Zaskoczyło mnie, że nic o nich nie słyszałem, z drugiej strony najlepsze mogą być właśnie te, które nie są popularne. Mogą, natomiast filmy, które dostałem, oceniło 5 osób (to było minimum dla tej bazy danych). I DLATEGO miały tak wysoką średnią.
(Użycie słowa „dlatego” jest tu pewnym uproszczeniem, ale wydaje mi się, że w tym problemie jest to dość użyteczne).
Bo zastanówmy się, jaka jest szansa, żeby film otrzymał ŚREDNIĄ ocenę 10/10? Wszyscy muszą taką dać, co jest wielce nieprawdopodobne. Chyba że tych ocen jest tylko kilka…
Jest jeszcze jeden warunek: filmów z niewielką liczbą ocen powinno być bardzo dużo. Wtedy w morzu takich filmów bez problemu znajdziemy taki o bardzo wysokiej (lub niskiej!) średniej.
Jak można temu zaradzić? Np. odsiać filmy o niewielkiej liczbie ocen albo skorygować tę średnią, w jakiś sposób uwzględniając liczbę głosujących (warto tu też zauważyć, że sama liczba ocen w pewnym sensie może być potraktowana jako miara tego, na ile film jest dobry).
Na tę sprawę można spojrzeć jeszcze w taki sposób. Średnia ocena to SZACUNEK tego, na ile film podoba się widzom. Jeśli zebraliśmy tylko 5 ocen, to jest to zbyt mało, by taka estymacja była wiarygodna. (Tu dochodzi też ciekawy problem, że próba oceniających niekoniecznie jest reprezentatywna, bo oceniają tylko chętni).
Błąd polegający na tym, że nie uwzględniamy wielkości zbioru, który podsumowujemy, jest dość popularny. Zastanawiamy się, w jakim miejscu na Ziemi ludzie żyją najdłużej. Znajdujemy jakąś wysepkę, na której średnia długość życia wynosi 100 lat. Co oni jedzą? Jak długo śpią? To pewnie wpływ oceanu.
A być może na tej wyspie żyły dwie osoby, jedna zmarła w wieku 90 lat, a druga 110. Co ważne, wcale nie mówimy tu o szacunkowej średniej z jakiejś próby, ale jest to dokładna wartość (choć można też na to spojrzeć inaczej).
Szukamy województwa, w którym najwięcej osób zagłosowało na kandydata X. Znajdujemy, ale wyniki i tak są dość podobne, jak w całej Polsce. To schodzimy niżej, do powiatów. W końcu znajdziemy jakąś wioskę, w której prawie wszyscy zagłosowali na X. I jedziemy robić wywiady, co to za oszołomy tam mieszkają.
A w moim domu wszyscy zagłosowali na X. Mam nadzieję, że nie wyskoczy mi tu zaraz jakiś dziennikarz!
A odpowiadając na tytułowe pytanie: zgaduję, że jest to mała szkoła. Do szkół chodzi zwykle ok. 50% chłopców, więc jest większa szansa, że tak duże odstępstwo od tej proporcji (60%) będzie w małej szkole.
