Modele nie przewidują wzrostów, jutrzejszej temperatury ani liczby sprzedanych produktów. Przewidują tylko ŚREDNIĄ wartość tych cech.
Weźmy poniższy model
przewidywany_wzrost = a + b*czy_M + c*wzrost_ojca + d*wzrost_matki
Jest to regresja liniowa, na którą z kolei można spojrzeć, jak na średnią ważoną (polecam wcześniej przeczytać ten wpis). Co prawda formalnie tak nie jest, ale da się do tego doprowadzić po odpowiedniej standaryzacji. A przedstawienie regresji jako średniej jest pouczające z wielu powodów.
Średnia ważona
Po pierwsze, zwykle w podręcznikach wprowadza się regresję, rysując prostą przechodzącą jak najbliżej punktów. I to jest w porządku, ale wydaje mi się, że wiele osób ma potem wbite w głowę, że regresja to „linia prosta” (szczególnie że mówimy o regresji LINIOWEJ). Problem w tym, że wystarczy dorzucić drugą zmienną, a regresja staje się płaszczyzną. Dobra, to jeszcze da się przyjąć, ale po dodaniu kolejnej zmiennej mamy hiperpłaszczyznę… I intuicja szybko się kończy.
A regresja jako średnia ważona? Na nasz wzrost wpływają różne czynnik, z różną WAGĄ. I nie ma znaczenia, jak dużo jest tych czynników — po prostu liczymy średnią z większej liczby składników.
Ale to jest jeszcze dość oczywiste (choć jak do tego dochodziłem, to nie było :P). Być może ważniejsza jest świadomość, że to, co przewiduje regresja, to naprawdę jest ŚREDNIA. Tylko że warunkowa (formalnie: warunkowa wartość oczekiwana).
Warunkowa wartość oczekiwana
Przewidując wzrost nieznanej osoby przy pomocy średniego wzrostu, mamy do czynienia ze zwyczajną średnią. Gdy dorzucamy informację, że chodzi o kobietę, liczymy średnią warunkową (warunkiem jest płeć kobieca). A co, gdy dodatkowo wiemy, że ojciec miał 180 cm? Moglibyśmy po prostu poszukać takich osób w danych: tzn. kobiet, których ojcowie mieli 180 cm. Następnie uśredniamy ich wzrosty i to jest nasze przewidywanie dla osób o takiej charakterystyce. Proste i sensowne.
Tutaj jednak regresja jest subtelniejsza. A co, gdy nie znajdziemy nikogo o wzroście dokładnie 180 cm? A jeszcze dodatkowo matka ma mieć 167,42 cm? Dlatego liczymy średnią nie tylko dla osób o DOKŁADNIE takich parametrach, ale też o podobnych (otoczenie). Tak naprawdę bierzemy pod uwagę WSZYSTKIE osoby, nawet zupełnie niepasujące, ale im bardziej są niepodobne, tym mniejsze znaczenie mają dla naszych szacunków. Dlatego właśnie regresja jest lepsza (zwykle), niż takie proste podejście z uśrednianiem identycznych przypadków — bo bierze pod uwagę wszystkie obserwacje.
Ale teraz najlepsze. W takim razie to przewidywanie regresji (ale też każdego innego modelu!) to TYLKO średnia. Model nie powie, jakiego wzrostu będzie moja córka, jak dorośnie, a jedynie że kobiety podobne do niej miały ŚREDNIO 170 cm. Pogoda się nie sprawdziła? Ale ja mówiłem tylko, że przy takich warunkach atmosferycznych następnego dnia zwykle (średnio) było 15 stopni. Nie udało się sprzedać tylu produktów, co przewidywałem? Cóż, innym się udało…
Uwagi
Tu można mieć zastrzeżenie, że okej, modele zwracają jakieś średnie, ale skoro potem używam je do przewidywania nieznanych wartości, to w takim razie nie ma błędu w stwierdzeniu, że modele przewidują te wartości. I porządku, można powiedzieć. Natomiast technicznie wygląda to inaczej i to jest WAŻNE. Bo modele wcale nie zwracają rzeczywistych średnich, które następnie są używane od przewidywane. One SZACUJĄ średnią (wartość oczekiwaną) i przy pomocy tego szacunku następuje kolejne szacowanie. I możemy popełnić błąd już w tym pierwszym kroku, a wtedy ten drugi może kompletnie od czapy (tak się dzieje np. wtedy, gdy dane są obciążone albo zmieniła się relacja).
Druga uwaga. Oczywiście ta średnia może bardzo dobrze szacować rzeczywiste wartości. Ale jest ona równa tym wartościom dopiero wtedy, gdy mamy dostęp do wszystkich czynników, które są związane z przewidywaną cechą, i dopiero gdy uda nam się odnaleźć właściwą relację z tymi czynnikami. A taka sytuacja nie występuje prawie nigdy.
Jeśli moje teksty są dla Ciebie wartościowe, na podany niżej adres email mogę przesłać Ci wiadomość, gdy pojawią się nowe. Zapraszam też na mój kanał na youtube.