Błąd standardowy to koncepcja, na której opiera się duża część klasycznego wnioskowania statystycznego. Mimo że to p-wartość (o której piszę tutaj) ma lepszy „pijar”, to właśnie błąd standardowy jest fundamentem większości testów statystycznych, na podstawie których liczy się p-wartość.
Specjalnie użyłem wyżej słowa „koncepcja”, mimo że technicznie błąd standardowy to tylko pewna miara czy statystyka. Żeby jednak dobrze zrozumieć, czym błąd standardowy jest, trzeba pojąć cały proces wyciągania wniosków na jego podstawie. Ale żeby to było bardziej motywujące, sformułujmy to inaczej: jeśli zrozumiemy, czym jest błąd standardowy, jednocześnie stanie się jasne, na czym polega wnioskowanie statystyczne!
[Jeśli zamiast czytać, wolisz posłuchać o błędzie standardowym, zapraszam tutaj].
Dokładność
I trzeba też sobie od razu powiedzieć, że ten proces, o którym wspomniałem, to nie może być banalna rzecz. Bo co może oznaczać dokładność w statystyce? Czy jeśli dokładność oszacowania średniej wynosi 1, to rzeczywista średnia to tyle, ile wyszło, plus minus 1? To nie może tak działać. Przy pomocy metod statystycznych, gdy wnioskujemy na podstawie relatywnie niewielkiej próby o całej populacji, nie możemy nikomu dać takich gwarancji. Rzeczywista średnia może się różnić o więcej niż 1.
W takim razie cóż ta dokładność, wyrażona jako błąd standardowy, oznacza? Żeby odpowiedzieć na to pytanie, trzeba zrozumieć, jak się ją liczy. Ale nie dla średniej, tylko dowolnego parametru.
Umawiają się i nie przychodzą…
Weźmy konkretne dane. Stąd możemy pobrać informacje o ponad 100 tys. pacjentów z pewnego brazylijskiego szpitala. Między innymi ich wiek, płeć czy dzień wizyty, jak również informację, czy dany pacjent ostatecznie przyszedł na umówioną wizytę, czy bez żadnego ostrzeżenia po prostu się nie pojawił. Chciałbym oszacować proporcję pacjentów, którzy tak się zachowują.
Tu uściślę, że w rzeczywistości będę szacował proporcję wizyt, które się nie odbyły, a nie pacjentów. Bo oczywiście dany pacjent może raz przyjść, raz nie. I w bazie, z której korzystam, jest więcej wizyt dla konkretnego pacjenta.
Wracając do głównego wątku, przed chwilą napisałem, że aby zrozumieć, czym jest błąd standardowy, powinniśmy policzyć go dla dowolnego parametru. A wybrałem sobie proporcję… Natomiast dla procesu, który przedstawię, nie będzie to miało żadnego znaczenia. Równie dobrze może to być współczynnik nachylenia w regresji.
Próba?
Jak powiedziałem, obserwacji jest aż 100 tysięcy. W takich wypadkach mówienie o „próbie” nie do końca ma sens. Można założyć, że cokolwiek nie policzymy, wynik będzie dokładny — o ile te obserwacje są reprezentatywne. Natomiast ja chcę, z powodów dydaktycznych, potraktować te dane jako POPULACJĘ pacjentów i dopiero z niej za chwilę wyciągnę 100-elementową próbę. Także sytuacja jest taka: losujemy 100 pacjentów, liczymy proporcję nieprzyjść na umówioną wizytę i wnioskujemy na jej podstawie, jaka jest rzeczywista proporcja w populacji. A dzięki temu, że tak naprawdę mamy do niej dostęp, będziemy mogli zobaczyć, jak bardzo się pomyliliśmy.
Niedokładność
Rzeczywista proporcja wynosi 20,2%. Wylosowałem próbę i uzyskałem wynik 16%. Pomyliłem się o 4% (w całym tekście, gdy mówię o różnicach w procentach, mam na myśli punkty procentowe). Oczywiście w praktyce nie wiem, jak bardzo się pomyliłem, i cała rzecz w tym, żeby tylko na podstawie próby powiedzieć coś o tym, na ile te 16% może być dokładne.
Możemy poczuć tę niedokładność, biorąc kolejną próbę. Wylosowałem od razu 10 i otrzymałem takie wyniki: . Czyli czasem dostałem niższe proporcje, czasem wyższe, a czasem bardzo bliskie rzeczywistej. Tutaj od razu zauważmy, że nawet gdybyśmy bardzo chcieli, na podstawie 100 obserwacji nie da się uzyskać proporcji 20,2%. Natomiast oczywiście byłbym zadowolony, gdybym pomylił się tylko o dwie dziesiąte.
I teraz kluczowa sprawa. Z mojego punktu widzenia, jak przeprowadzam tego typu badanie, każda z tych proporcji jest tak samo wiarygodna — bo przecież w praktyce mam tylko jedną próbę, którąś z tych. W takim razie fakt, że mogę dostać tak różne wyniki, świadczy o potencjalnej NIEDOKŁADNOŚCI wyniku, który z tej mojej próby uzyskałem. Czyli miarą niedokładności może być ROZRZUT tych proporcji. A jako że najpopularniejszą miarą rozrzutu jest odchylenie standardowe, to właśnie w ten sposób będziemy je mierzyć. I to nazywamy błędem standardowym.
(A jeśli interesuje Was, dlaczego to odchylenie standardowe jest najpopularniejszą miarą rozrzutu, zapraszam tutaj).
Definicja błędu standardowego
Podsumowując, błąd standardowy to odchylenie standardowe, ale liczone nie na pierwotnych danych, ale już w pewien sposób podsumowanych, w tym przypadku przy pomocy proporcji.
Więcej prób
Jeśli komuś zapaliła się lampka, że wszystko fajne, ale przecież w rzeczywistości mam dostęp tylko do jednej próby, a nie do 10 — oczywiście, wrócimy do tego, na razie wyobraźmy sobie, że jakimś cudem możemy sobie losować tyle prób, ile nam się podoba.
I właśnie, policzyliśmy odchylenie z 10 wartości, a to niekoniecznie będzie dokładne. W takim razie, skoro możemy wylosować więcej prób, weźmy ich 10 tysięcy, wynik powinien być dokładniejszy. Zauważcie, że mówimy tu o dokładności oszacowania dokładności. Ale żeby nie komplikować sprawy, nie idźmy dalej w tę stronę i załóżmy, że jedyną niedokładnością, z jaką mamy do czynienia, jest ta związana z oszacowaniem proporcji.
Skoro wylosowałem 10 tys. prób, mam 10 tys. proporcji, to może pokażmy je na histogramie.
Jak widać, mogą trafić się nawet tak kiepskie próby, że tylko poniżej 10% pacjentów nie przyszło na wizytę, albo takie, że powyżej 30%. Ale podsumujmy ten histogram, licząc odchylenie standardowe z tych wszystkich proporcji. Dostałem wynik 0,04. Czyli tyle wynosi błąd standardowy oszacowania proporcji.
Interpretacja błędu standardowego
Jak zinterpretować tę wartość 0,04? Jak każde odchylenie standardowe, np. korzystając z reguły 3 sigm. Pobierając 100-elementową próbę, mogę oczekiwać, że ok. 68% proporcji będzie się mieścić w przedziale +/- 0,04, a 95% w przedziale +/- 0,08. A wracając do mojej wyjściowej, pierwszej próby, szacowana przeze mnie proporcja wynosi 16% +/- 4%. I wiadomo, co to plus/minus oznacza. Nie że rzeczywista, populacyjna proporcja w takim przedziale się znajduje, ale że jest na to duża szansa.
Tak naprawdę udało nam się od razu skonstruować przedział ufności (na poziomie 68%), napiszę o tym więcej w którymś z kolejnych wpisów.
A zobaczmy jeszcze, co się stanie, jeśli zamiast 100 obserwacji pobierzemy 400. Tak zrobiłem i otrzymałem błąd standardowy równy 0,02, czyli 2 razy mniejszy. I to nie jest przypadek: 4 razy więcej obserwacji, to 2 razy mniejszy błąd. Ogólnie: błąd standardowy maleje w tempie pierwiastka z liczby obserwacji — ale do tego jeszcze wrócimy.
Bo teraz musimy zająć się ważniejszą rzeczą. Co z tego, że liczymy sobie w taki sposób błędy standardowe, skoro w praktyce to jest NIEMOŻLIWE, bo przecież mamy dostęp tylko do jednej próby? Oczywiście można by wziąć ich więcej, ale przecież wtedy rozsądniej byłoby je połączyć w jedną, żeby dostać lepsze oszacowanie proporcji.
Jak w praktyce obliczyć błąd standardowy?
Okazuje się, że te dodatkowe próby wcale nie są potrzebne. Bazując na tym, że i tak pochodziłyby z TEJ SAMEJ populacji, dzięki matematyce jesteśmy w stanie podać WZÓR na błąd standardowy. Wzór, który korzysta tylko z danych z naszej próby.
W przypadku proporcji wygląda on tak:
Musimy nasz szacunek proporcji nieprzychodzących pacjentów pomnożyć przez proporcję tych, którzy przychodzą, podzielić przez liczbę wszystkich pacjentów w próbie i całość spierwiastkować. Po zastosowaniu tego wzoru otrzymałem wartość 0,037.
Skomentujemy ten wynik. Nie jest to 0,04, czyli jak widać, wzór nie działa tak dobrze. Wynika to z tego, że bazuje on na obliczonej przez nas proporcji, która przecież jest niedokładna — nawet wiemy, że dość mocno (pomyliliśmy się o 4%). Także na podstawie tego wzoru jedynie SZACUJEMY błąd standardowy. Trzeba jednak przyznać, że mimo tak słabego oszacowania proporcji, akurat wartość błędu standardowego jest bardzo bliska prawdziwemu. A przecież uzyskaliśmy to ZA DARMO, bez pobierania tych wszystkich dodatkowych prób. Także nie ma co narzekać. Jakby się nad tym zastanowić, dokonaliśmy wręcz niemożliwego: przy pomocy jakiegoś magicznego wzoru zastąpiliśmy całą procedurę wyznaczania błędu standardowego.
Wyprowadzenie tego wzoru nie jest trudne, choć w tym wpisie nie będę się tym zajmował.
Wzór a definicja
Natomiast warto tu wyraźnie podkreślić, że ten wzór nie jest definicją błędu standardowego. Definicją jest ta cała procedura. I co ważne, działa ona dla dowolnego parametru. Tu liczyliśmy proporcję, ale równie dobrze mogłaby to być mediana czy korelacja Pearsona. Konkretne wzory w każdym przypadku będą inne, czasem dość skomplikowane, ale istota pozostanie jedna: interesuje nas odchylenie standardowe danego parametru, gdyby pobrać wiele tak samo licznych prób.
To, że nie da się jednym zdaniem wytłumaczyć, czym jest błąd standardowy, wynika stąd, że potrzebny jest pewien eksperyment myślowy. Musimy sobie wyobrazić, że w równoległym Wszechświecie pobieramy inną próbę. Procedura ta sama, próba tak samo liczba, ale z powodów losowych mamy w niej trochę inne obserwacje — i dostajemy trochę inne oszacowanie parametru. Zbieramy oszacowania z wielu Wszechświatów i liczymy ich rozrzut.
A to, że ostatecznie liczymy ten błąd standardowy z jakiegoś prostego wzoru, tylko UTRUDNIA zrozumienie, czym jest błąd standardowy.
Bootstrap
W tym miejscu dodam, że istnieje inny sposób na oszacowanie błędu standardowego. Można w tym celu wykorzystać tzw. metodę bootstrap. Wydaje mi się, że wielu osobom, i to na co dzień zajmującym się statystyką, jawi się ona jako coś zaawansowanego. Tak naprawdę można — i warto — spojrzeć na bootstrap jako wręcz podstawowe podejście do wnioskowania statystycznego. Wynika to z tego, że w bootstrapie próbujemy jak najbliżej odwzorować ten eksperyment myślowy, o którym mówiłem, czyli losowanie wielu prób z populacji. Dzięki czemu tak naprawdę łatwiej pojąć, czym jest błąd standardowy, bo żeby go uzyskać, korzystamy prawie bezpośrednio z definicji.
O wzorach
Na koniec parę słów na temat wzorów, z których w praktyce można korzystać, żeby oszacować błąd standardowy. Podam jeszcze jeden, dla średniej, bo bardzo dobrze pokazuje, co zyskujemy, gdy uśredniamy jakieś wyniki:
Jak widać, wystarczy odchylenie standardowe w próbie podzielić przez pierwiastek z liczby obserwacji (podobnie jak dla proporcji) i mamy oszacowanie błędu standardowego. Jeszcze raz zaznaczę, że to tylko oszacowanie. Gdybyśmy w liczniku mieli rzeczywiste odchylenie w populacji, to inna sprawa.
Tutaj dodam, że tak naprawdę ten wzór na błąd standardowy dla proporcji niczym się nie różni. Jeśli pacjentów, który nie przychodzą do lekarza, oznaczyć przez 1, a tych, którzy przychodzą, przez 0, licznik to po prostu odchylenie standardowe dla takiej zmiennej.
A co ciekawego możemy z tego wzoru wyczytać? W pewnym sensie pokazuje on, po co w ogóle uśredniamy cokolwiek. Jeśli mierzymy jakąś cechę, mamy do czynienia z rozrzutem, który utrudnia sprawę. Załóżmy, że ciśnienie krwi po podaniu jakiegoś leku rzeczywiście spada. Ale z powodu naturalnego rozrzutu, możemy tego nie zauważyć, bo np. u jednego pacjenta spadnie, u innego nie. I teraz zobaczmy, że dzięki uśrednieniu, ten naturalny, wyjściowy rozrzut maleje. W pewien sposób panujemy nad nim. Wciąż jest za duży i chcemy, by był dwukrotnie mniejszy? Zbierzmy cztery razy więcej obserwacji. Także ta operacja uśredniania, ale też szerzej, jakiekolwiek PODSUMOWANIE wyników, pozwala nam dojrzeć coś, co inaczej moglibyśmy przeoczyć.
Czasem statystyce zarzuca się, że używając jej, zbytnio upraszczamy sprawę, że przez nią przestają nas interesować jakieś indywidualne cechy, patrzymy na świat przez pryzmat przeciętnych przedstawicieli jakichś grup. To prawda, bardzo łatwo w tym przesadzić. Ale warto spojrzeć na to inaczej: dzięki takim uproszczeniom możemy też więcej zobaczyć.
Jeśli moje teksty są dla Ciebie wartościowe, na podany niżej adres email mogę przesłać Ci wiadomość, gdy pojawią się nowe. Zapraszam też na mój kanał na youtube.