O regresji liniowej i stereotypach

  • Post author:

Zgodnie ze słownikiem języka polskiego, stereotyp to

funkcjonujący w świadomości społecznej uproszczony i zabarwiony wartościująco obraz rzeczywistości.

Zostawmy na bok zabarwienie wartościujące i zajmijmy się uproszczonym obrazem rzeczywistości. Czy z tego wynika, że taki obraz jest błędny? Myślę, że w powszechnej świadomości tak właśnie jest. Intencją osoby, która mówi, że „to tylko stereotyp”, jest zwykle pokazanie, że coś nie jest prawdą. Oczywiście, jeśli zdefiniujemy stereotyp jako błędne uproszczenie, to nie ma o czym dyskutować. Taką definicję podaje np. wikipedia:

uproszczona konstrukcja myślowa zawierająca irracjonalne bądź fałszywe przeświadczenie dotyczące różnych zjawisk, instytucji, osób, a najczęściej innych grup społecznych.

Pytanie tylko, w jak wielu sytuacjach, gdy używamy tego terminu w takim znaczeniu, robimy to poprawnie. Zgodnie z tym artykułem, wiele stereotypów odzwierciedla rzeczywiste różnice między grupami. W tym wpisie skupię się jednak na samym zjawisku upraszczania. Narzędziem, którego użyję, będzie model regresji liniowej.

Regresja liniowa

Załóżmy, że interesuje nas pewna cecha człowieka, np. wzrost. Zależy on od wielu czynników, np. wzrostu matki, ojca i płci. Skoro istnieje relacja między tymi czynnikami a wzrostem, może być opisana przez pewną funkcję f. Oczywiście wzrost zależy też od innych parametrów — i te pozostałe oznaczmy przez eps. Podsumowując, możemy napisać następujące równanie:

wzrost = f(wzrost_ojca, wzrost_matki, płeć) + eps.

Jeśli założymy, że funkcja f jest postaci

f(wzrost_ojca, wzrost_matki, płeć) = b0 + b1wzrost_ojca + b2wzrost_matki + b3płeć,

gdzie b0, b1, b2, b3 to pewne liczby, mówimy o modelu regresji liniowej. W naszym kontekście możemy myśleć o f jak o obrazie rzeczywistości. Jest on uproszczony pod dwoma względami. Po pierwsze, funkcja jest liniowa, gdy rzeczywista relacja może być znacznie bardziej skomplikowana. Po drugie, jest szereg czynników, których nie uwzględniamy (eps).

Prognoza

Na podstawie powyższego modelu możemy oszacować, ile wynosi oczekiwany wzrost człowieka przy zadanych parametrach. Jeśli znamy płeć danej osoby oraz wzrost jej rodziców, na podstawie tych informacji możemy wydać osąd o jej wzroście. Najpewniej będzie on niedokładny, z drugiej strony optymalny, biorąc pod uwagę informacje, które posiadamy (i zakładając, że podejście liniowe ma sens). Czy ten osąd można nazwać stereotypem? Wątpię, żeby ktoś tak do tego podszedł. A jeśli wykorzystam jedynie informację o płci? Raczej też nie, bo sądy o wzroście nie są w żaden sposób „kontrowersyjne”, czy też „zabarwione wartościująco”.

Rozpatrzmy jednak tezę, że mężczyźni bardziej nadają się do zawodu X niż kobiety. Po pierwsze, przetłumaczmy to zdanie: jeśli „nadawanie się do zawodu X” jesteśmy w stanie wyrazić przy pomocy pewnej zmiennej, to mężczyzn cechuje średnio wyższa wartość tej zmiennej (oczywiście nie jest to jedyne możliwe tłumaczenie). Naturalnie, jeśli oceniam czyjeś predyspozycje do zawodu tylko na podstawie płci, najpewniej robię to bardzo niedokładnie — ale wciąż może to być optymalne, gdy płeć jest jedyną informacją, którą posiadam. Ktoś może też powiedzieć, że mój osąd będzie nie tyle niedokładny, co błędny (tzn. prawie na pewno popełnię błąd w oszacowaniu poziomu interesującej nas zmiennej). Ale czy w tym kontekście optymalny osąd można nazwać błędnym?

Współczynnik R2

Poziom, w jaki jesteśmy w stanie wyjaśnić interesującą nas cechę przy pomocy innych, możemy mierzyć przy pomocy współczynnika R2. Jeśli wynosi on 0%, nie wyjaśniliśmy nic, jeśli 100% — wszystko. W przypadku wzrostu, wartość 100% oznaczałaby, że możemy dokładnie przewidzieć wzrost dziecka na podstawie pozostałych zmiennych. Praktycznie żaden model nie osiąga 100% — więc muszę popełniać jakieś błędy, używając go. Prawie każdy nasz osąd jest obarczony błędem, bo nie posiadamy wszystkich potrzebnych informacji. Być może stereotypem można by nazwać taki model rzeczywistości, który ma niski współczynnik R2, gdy w zasięgu ręki istnieje model lepszy. Mamy wtedy do czynienia z nadmiernym i niepotrzebnym uproszczeniem.

Mam jednak wrażenie, że w praktyce o stereotypach mówi się często wtedy, gdy zmienne wyjaśniające (argumenty funkcji f) są w czyimś mniemaniu nieodpowiednie, niezależnie od wielkości R2. Tylko czy nie ma sytuacji, gdy wnioskowanie np. tylko na podstawie płci (przy braku lepszych zmiennych), nie jest po prostu rozsądne?


Jeśli moje teksty są dla Ciebie wartościowe, na podany niżej adres email mogę przesłać Ci wiadomość, gdy pojawią się nowe. Zapraszam też na mój kanał na youtube.