Wyobraźmy sobie planetę spoza Układu Słonecznego, zamieszkałą przez 40 mln osobników dzielących się na dwie grupy, dokładnie po połowie. Nazwijmy je XX i XY. Interesuje nas pewna cecha tych osobników, nazwijmy ją Z. Powiedzmy, że rozkład tej cechy przedstawia się jak niżej.

Dane symulowałem z rozkładu normalnego. Średnia wartość cechy Z jest taka sama dla obu grup, wynosi 100, natomiast istnieje niewielka różnica w odchyleniu standardowym: 15 dla XX, 16 dla XY. Na tyle niewielka, że aby ją wykryć, trzeba by zbadać kilka tysięcy osobników.
Jakie konsekwencje może mieć taka różnica w rozrzutach?
Ogon rozkładu
Zacznijmy od przybliżenia prawego ogona rozkładu, tak żeby wyraźniej zobaczyć, jak wygląda wykres np. dla cechy większej od 160.

Jeden wykres całkowicie zawiera się w drugim, przez co kolory są mało czytelne. Wartości funkcji gęstości dla grupy XY są co najmniej dwukrotnie większe, niż dla grupy XX. Jakie to może mieć konsekwencje praktyczne?
Rekrutacja na obcej planecie
Powiedzmy, że realizujemy pewien projekt i rekrutujemy do niego osobników z tej planety. Projekt jest bardzo wymagający i aby go zrealizować, potrzebujemy osobników o bardzo wysokich wartościach cechy Z. W której grupie znajdziemy ich więcej?
Myślę, że jest jasne, że w grupie XY, czyli tej o większym rozrzucie. Ale na ile duży jest ten efekt? Poniżej policzyłem proporcje osobników z obu grup, które spełniają zadane kryterium: cecha Z ma być większa od pewnej wartości. W ostatniej kolumnie jest stosunek tych proporcji (tzn. dzielę liczbę osobników z XY przez XX).
| Kryterium | XX | XY | Stosunek |
|---|---|---|---|
| > 100 | 0.500068 | 0.499970 | 1.00 |
| > 110 | 0.252588 | 0.266090 | 1.05 |
| > 120 | 0.091308 | 0.105775 | 1.16 |
| > 130 | 0.022756 | 0.030384 | 1.34 |
| > 140 | 0.003825 | 0.006220 | 1.63 |
| > 150 | 0.000432 | 0.000892 | 2.07 |
| > 160 | 0.000032 | 0.000088 | 2.78 |
Ponieważ rozkłady są symetryczne i mają identyczne średnie, to jak można było się spodziewać, mamy tyle samo przypadków powyżej średniej (100). Idąc jednak dalej, coraz częściej będziemy spotykać osobników z grupy XY. Z początku różnica w proporcjach jest niewielka, ale jeśli potrzebujemy zatrudnić pracowników o cesze Z powyżej 160, kandydatów z grupy XY jest trzykrotnie więcej.
Czyli jeśli nie będziemy preferować z góry żadnej z grup, to jeśli potrzebujemy 30 pracowników, mniej więcej 22 powinno pochodzić z grupy XY, a tylko 8 z grupy XX.
Pytanie jeszcze, czy w ogóle takich osobników znajdziemy? Na tej obcej planecie jest ich 635 w grupie XX, 1766 w grupie XY. Rozkład pracowników w naszej firmie odpowiada właśnie takiemu rozkładowi (proporcji).
Jeszcze ciekawszy przypadek
Nadreprezentacja jednej z grup w prawym ekstremum rozkładu może wystąpić, nawet jeśli średnia wartość cechy dla tej grupy jest mniejsza. Zobaczmy na poniższy rozkład.

Zwiększyłem średnią dla XX do 102, ale odchylenia zostawiłem bez zmian. Widać, że rozkład dla XX jest przesunięty w prawo i jeśli interesują nas osobnicy o cesze Z powyżej 100, znajdziemy ich więcej w grupie XX. Sprawdźmy jednak inne przedziały.
| Kryterium | XX | XY | Stosunek |
|---|---|---|---|
| > 100 | 0.553095 | 0.499970 | 0.90 |
| > 110 | 0.297009 | 0.266090 | 0.90 |
| > 120 | 0.115188 | 0.105775 | 0.92 |
| > 130 | 0.030960 | 0.030384 | 0.98 |
| > 140 | 0.005644 | 0.006220 | 1.10 |
| > 150 | 0.000691 | 0.000892 | 1.29 |
| > 160 | 0.000056 | 0.000088 | 1.57 |
Różnice nie są już tak duże, natomiast w dalszym ciągu od pewnego momentu to osobnicy z grupy XY będą przeważać.
Ten przykład jest o tyle ciekawy, że jak tu odpowiedzieć na pytanie, w której grupie cecha Z jest większa? Średnio w XX, natomiast jeśli interesują nas jedynie wyższe wartości Z, to powinniśmy ich szukać w XY. Warto o tym pamiętać, gdy np. porównujemy dwie grupy testem t-Studenta. I poprawka na nierówności wariancji oczywiście nic tu nie zmieni, bo wciąż taki test porównuje jedynie średnie. A historia może być znacznie ciekawsza.
A jeśli interesuje Was, czemu we wzorze na odchylenie standardowe podnosimy do kwadratu, zapraszam tutaj.
Jeśli moje teksty są dla Ciebie wartościowe, na podany niżej adres email mogę przesłać Ci wiadomość, gdy pojawią się nowe. Zapraszam też na mój kanał na youtube.
