Czym są przedziały ufności? Zacznijmy od Adama i Ewy.
Adam otrzymał zadanie od szefa: sprawdzić, czy większość klientów jest zadowolonych z usług firmy i poleciłaby ją komuś innemu. Firmie bardzo zależy, by w materiałach reklamować użyć słowa „większość”. Adam dostał numery telefonów do stu klientów i jego zadaniem było zadzwonić do nich i otrzymać odpowiedź (tak/nie).
Mamy to!
Pomińmy problemy (ogromne!) z uzyskaniem tej informacji — załóżmy, że każdy z pytanych klientów szczerze odpowiedział. Podekscytowany Adam wpada na cotygodniowe spotkanie firmowe i woła: „mamy to!” (nie wiem, czy tylko ja mam alergię na ten zwrot). 55% klientów odpowiedziało twierdząco („większość”).
Szef zaciera ręce, ale nagle drzwi otwiera Ewa, która (na wszelki wypadek) otrzymała to samo zadanie, choć inną listę klientów. Niestety, nie słychać entuzjazmu w jej głosie: tylko 47% poleciłoby firmę.
W pierwszym odruchu szef chce zwolnić Ewę, na szczęście udaje mu się ochłonąć. Sprawdza protokoły i wszystko się zgadza. Któryś z pracowników zauważa, że można by uśrednić oba szacunki i otrzymamy proporcję 51%, a to przecież wystarczy. Niestety, jakiś sceptyk z końca sali zadaje pytanie: a co by było, gdyby spytać innych stu klientów?
Inne dane, inna proporcja
No właśnie, co by było… Może tym razem uzyskalibyśmy proporcję 40% i wnioski byłyby jeszcze trudniejsze do zaakceptowania dla zarządu? To może stwórzmy takie listy stu i zaprzęgnijmy wszystkich pracowników w firmie, by do nich dzwonić! Tyle że nie o to tu chodzi. My naprawdę chcemy zbadać tylko sto osób, bo na więcej nie mamy czasu i pieniędzy. I musimy w jakiś sposób „wyobrazić” sobie, jakie inne proporcje — poza tą, którą rzeczywiście otrzymaliśmy — moglibyśmy dostać.
Przy pomocy przedziałów ufności próbujemy to sobie wyobrazić (z pewnym ważnym zastrzeżeniem, o który zaraz).
Jak to „wyobrażenie” ma działać? Załóżmy, że w rzeczywistości dokładnie połowa klientów poleciłaby usługi naszej firmy. Jeśli zbadamy tylko stu losowo wybranych, możemy otrzymać proporcję 45, 50 czy 55%. Możliwe jest też 0 czy 100%, ale takie rzadkie sytuacje odrzucamy. Ostatecznie otrzymamy pewien przedział proporcji, które mogą się trafić i nie powinniśmy być nimi zdziwieni. Dla stu obserwacji będzie to mniej więcej (40%, 60%).
Przedział ufności w praktyce
Problem w tym, że w praktyce mamy tylko jedną próbę, a niej „złą” proporcję, np. 55%, jak u Adama. Nie jesteśmy w stanie stworzyć takiego przedziału jak wyżej, bo jest on zorientowany wokół rzeczywistej proporcji, której nie znamy. Okazuje się jednak, że możemy dość dobrze oszacować DŁUGOŚĆ tego przedziału — i otrzymamy ok. (45%, 65%). Czyli środek jest w złym miejscu, ale szerokość powinna być ok. I mamy nadzieję, że „zahacza” on o właściwą proporcję.
Co więcej, procedura wyznaczania przedziałów ufności jest taka, że zwykle (np. w 95% przypadków) będą one zahaczać o rzeczywisty parametr.
Czyli w naszej sytuacji, ponieważ uzyskany przedział zahacza o 50% (i mniej) to niestety dla szefa, nie można powiedzieć, że większość klientów poleciłaby firmę. Takie proporcje „nie gryzą się” z zebranymi przez Adama danymi (proporcja 55%). Rzeczywista proporcja poniżej 50% również może wygenerować takie dane, jakie Adam zebrał.
Estymacja punktowa, przedziałowa i poziom ufności
Problem Adama i Ewy można podsumować tak, że zamiast szacować (estymować) punktowo, powinni zrobić to przedziałowo. Ewentualnie mogliby zweryfikować hipotezę, że proporcja jest różna od 50%, przy pomocy odpowiedniego testu. Jest to równoważne sprawdzaniu, że 50% zawiera się w przedziale ufności. Tutaj można też postawić hipotezę jednostronną (proporcja większa od 50%), wtedy równoważny byłby jednostronny przedział ufności.
Napisałem wcześniej: „możliwe jest też 0 czy 100%, ale takie rzadkie sytuacje odrzucamy”. Przy pomocy tzw. poziomu ufności sterujemy, ile takich rzadkich przypadków nie chcemy w przedziale ufności. Zwykle jest on ustalany na 95%, czyli pomijamy wtedy 5% skrajnych wartości, najczęściej symetrycznie (2,5% największych i 2,5% najmniejszych).
Interpretacja
Przechodzimy teraz do drugiej części artykułu, jak się okaże, znacznie trudniejszej: próby interpretacji przedziału ufności.
Jak zinterpretować konkretny przedział, np. (45%, 65%)? Jak już zaproponowałem wyżej, możemy pomyśleć w taki sposób: uzyskaliśmy 55%, ale rzeczywista proporcja może być inna. Przedział ufności to zbiór rzeczywistych proporcji, które nie kłócą się z danymi, które zebraliśmy.
Zauważmy jednak, że w tej interpretacji w ogóle nie nawiązujemy do poziomu ufności, czyli 95%. Innymi słowy, taka interpretacja jest nieprecyzyjna. Jak jednak spróbuję uzasadnić, jeśli chcemy zinterpretować konkretny przedział ufności precyzyjnie, a zarazem praktycznie, jest to NIEWYKONALNE.
Absurdalne przedziały ufności
Zacznę od pewnego dość zaskakującego przykładu. Interesuje nas średnia wartość pewnej ciągłej cechy w populacji. Pobraliśmy próbę, otrzymując wartości x1, x2 itd. Proponuję taką PROCEDURĘ budowy przedziału. Biorę tylko dwie pierwsze wartości, resztę ignoruję. Jeśli x1 jest większe od x2, niech przedział będzie nieskończony, tzn. od minus do plus nieskończoności. W przeciwnym razie, niech przedział będzie zbiorem pustym.
Ponieważ próba jest losowa, to z prawdopodobieństwem 50% x1 będzie większe od x2, czyli otrzymamy przedział nieskończony. Szukana średnia oczywiście musi do takiego przedziału należeć. Z kolei z prawdopodobieństwem 50% otrzymamy zbiór pusty, który oczywiście nie może zawierać rzeczywistej średniej. Czyli w ten sposób otrzymamy przedział ufności na poziomie 50%.
Chcemy na większym? To oprócz x2 weźmy jeszcze obserwacje x3, x4 i x5 i sprawdzajmy, czy x1 jest większe od choć jednej z nich. Jeśli tak, to proponujemy nieskończony przedział ufności, w przeciwnym razie zbiór pusty. Prawdopodobieństwo, że wartość x1 jest mniejsza od wszystkich pozostałych, wynosi 1/2 do czwartej potęgi, czyli ok. 6%. Nas jednak interesuje zdarzenie przeciwne (x1 miało być mniejsze od choć jednej wartości), czyli jego prawdopodobieństwo wynosi 94%. A w takim razie otrzymaliśmy przedział na poziomie 94%.
Czy to są przedziały ufności?
Takie przedziały są oczywiście absurdalne i kompletnie bezużyteczne. Ale dlaczego mogłem je nazwać przedziałami ufności na poziomie 94%? Ponieważ jeśli będę stosował taką procedurę, to mam gwarancję (statystyczną), że w stu tak wyznaczonych przedziałach, średnio aż 94 będzie zawierać rzeczywistą wartość szukanego parametru.
Oczywiście w praktyce nikomu nie sprzedam takiej procedury. Chcemy, by przedziały były możliwie krótkie i symetryczne. I da się to osiągnąć przy tym samym warunku, tzn. tak by większość z nich zawierała rzeczywistą wartość parametru. Widać jednak, że samo takie „pokrycie” nie wystarczy, by przedział był pożyteczny.
Prawdopodobieństwo 95%?
Ale ten przykład pokazuje jeszcze inną, ważną rzecz. Że wbrew powszechnej opinii, jeśli wyznaczymy przedział (a, b) na poziomie 95%, wcale nie oznacza to, że „na 95% szukany parametr mieści się w takim przedziale”. Przecież na 100% należy on do przedziału (-∞, +∞), a na 0% do pustego przedziału, prawda?
Można powiedzieć, że to 95% to „średnie” prawdopodobieństwo przynależenia do jakiegoś przedziału.
I w ten sposób przechodzimy do sedna. Znając takie średnie prawdopodobieństwo, nie mogę nic powiedzieć o konkretnym. Nie należy mylić własności pewnej procedury z interpretacją czegoś, co przy jej pomocy powstało. Przedziały wyznaczone w klasyczny, niebayesowski sposób, są nieinterpretowalne.
Gdy były proponowane, nie o interpretację chodziło, ale o gwarancję, że postępując w pewien konkretny sposób, rzadko będziemy się mylić. Rzecz nie w tym, że z dużym prawdopodobieństwem dany przedział ma zawierać szukany parametr. Po prostu DECYDUJEMY się postępować dalej, jakby taki przedział zawierał rzeczywistą wartość. I mamy silne argumenty, że jest to dobra STRATEGIA.
Jerzy Neyman
Ten akapit wyżej to prawie cytat z oryginalnej pracy Jerzego Neymana (1941 rok!), który zaproponował klasyczne przedziały ufności:
It is not suggested that we can ‘conclude’ that [the interval contains θ], nor that we should ‘believe’ that [the interval contains θ]…[we] decide to behave as if we actually knew that the true value [is in the interval]. This is done as a result of our decision and has nothing to do with ‘reasoning’ or ‘conclusion’. The reasoning ended when the [confidence procedure was derived].
Polecam też tę publikację, z której wziąłem przykład z tym absurdalnym przedziałem ufności (trochę go zmodyfikowałem) oraz cytat z Neymana.
Jak żyć z przedziałami ufności?
Napisałem wyżej o „decydowaniu”, że obliczony przedział zawiera rzeczywistą wartość. Ale chciałem jedynie przedstawić podejście, które leżało u podstaw tej konkretnej (i obecnie najpopularniejszej) metody konstrukcji przedziałów ufności. W praktyce nie muszę przejmować się, że dany przedział ufności zawiera lub nie np. proporcję 50% — i bardziej ufać swojej wiedzy eksperckiej. I to jest jak najbardziej w porządku.
I co ważne, ten artykuł nie miał na celu wykazania, że przedziały ufności wyznaczane w klasyczny sposób są kiepskie. Przeciwnie. Trzeba jednak pamiętać, że jeśli żądamy interpretacji, to ma ją jedynie cała procedura, a nie konkretny przedział. A dokładniej, problem polega na tym, że nie jesteśmy w stanie odnieść poziomu ufności (np. 95%) do konkretnego przedziału. I choć jest to niestety powszechna praktyka, to buntujmy się i nie próbujmy tego robić.
Jeśli moje teksty są dla Ciebie wartościowe, na podany niżej adres email mogę przesłać Ci wiadomość, gdy pojawią się nowe. Zapraszam też na mój kanał na youtube.