Można tu podać różne matematycznie wyjaśnienia, ale moim zdaniem, używając takiego modelu w praktyce (proponując go dla konkretnych danych), musimy myśleć inaczej. Trzeba umieć odnieść matematyczne własności do rzeczywistych problemów — i właśnie w tym tkwi trudność.
Na potrzeby tego przykładu załóżmy, że da się zmierzyć szczęście. Weźmy zależność szczęście ~ zarobki. Zastosowaliśmy regresję liniową i wyszło nam, że szczęście = 0,001*zarobki. Zakładamy tym samym, że każde 1000 zł więcej zarobków to 1 punkt do szczęścia.
Liniowość po raz pierwszy
Wydaje mi się, że każdy, kto uczył się regresji, umie powtórzyć to zdanie wyżej. Ale to, co może umknąć, to następujący fakt: NIEWAŻNE, czy zarabiasz 3 czy 30 tys. — 1000 zł większe zarobki, 1 punkt do szczęścia.
To jest liniowość. I w takim razie relacja szczęścia z zarobkami na pewno taka nie jest i model
szczęście = a + b*zarobki
ciężko obronić (choć wrócę do tego).
Liniowość po raz drugi
Ale to jeszcze mało. Rozważmy model
szczęście = 0,001*zarobki + 0,5*wiek.
Po pierwsze, dla relacji z wiekiem stosuje się to samo założenie, co wyżej. Ale skupmy się na zarobkach. Nie dość, że wpływ podwyżki jest niezależny od tego, ile już zarabiamy, to na dodatek nie ma żadnego znaczenia, czy mamy 20 lat, czy 80! Co oczywiście znów jest nie do obrony (przypuszczam, że dla 80-latków inne rzeczy mają znaczenie).
To też jest liniowość.
Ograniczenie czy wybór?
Tutaj parę rzeczy wymaga uzupełniania, zrobię to na koniec. A teraz jeszcze o jednym ważnym aspekcie. Jeśli otrzymaliśmy model szczęście = 0,001*zarobki, to oczywiście nie znaczy, że tak jest (tzn. że relacja jest liniowa i ta podana wyżej interpretacja prawdziwa). Co prawda współczynnik 0,001 najpewniej ma sens (minimalizuje średni błąd), natomiast specyfikacja jest zła. Model szczęście = a + b*zarobki nie jest w stanie kwestionować swoich założeń — a one są bardzo silnie i w tym przypadku nieprawdziwe.
Ale spójrzmy na to inaczej. Liniowość w regresji niekoniecznie trzeba traktować jak założenie, ale WYBÓR. Taki prosty model ma tak dużo zalet, że mogą przeważyć nad niedokładnością takiej aproksymacji. Oczywiście w pewnych przypadkach będzie to zwyczajnie głupie, ale nikt nam nie może tego zabronić. Regresja liniowa to najlepsze liniowe przybliżenie danej relacji — i nawet jeśli głupie, to wciąż najlepsze.
Pamiętam, że myślenie o liniowości w regresji jako moim wyborze (tak chcę!) wiele zmieniło w moim myśleniu o statystyce w ogóle. Okazało się, że jednak ja tym rządzę 😉
Komentarz
W nauce, gdy próbujemy jak najlepiej poznać rzeczywistą relację (jak działa świat), liniowość w regresji można potraktować jako sztywne założenie. Tzn. brak jego spełnienia może wykluczać zastosowanie modelu. Choć oczywiście mamy mnóstwo możliwości, by wewnątrz tej liniowej struktury odwzorować bardziej skomplikowane relacje. Wystarczy np. dorzuć kwadrat zmiennej lub interakcje.
Trzeba też pamiętać, że przy złej specyfikacji modelu, mimo że wciąż będzie to najlepsze liniowe odwzorowanie relacji, może być problem z interpretacją p-wartości (tu akurat założenia są ważne).
Napisałem, że w modelu szczęście = 0,001*zarobki + 0,5*wiek zakładam, że relacja między szczęściem a zarobkami nie zależy od wieku. Ale w pewnym sensie można powiedzieć, że w modelu szczęście = 0,001*zarobki też tak zakładałem (współczynnik przy wieku jest równy 0).
Interpretując te modele, sugerowałem, że jeśli dostaniesz 1000 zł podwyżki, Twoje szczęście zwiększy się o 1 punkt. Pomijając, że oczywiście tak może być co najwyżej średnio, to na dodatek w ogóle tak nie musi być (nawet jeśli model jest ok!). Bo to zdanie z podwyżką zakłada związek przyczynowo-skutkowy. Może taki jest, ale regresja nam tego nie powie. Jedynie zauważamy, że ludzie, którzy zarabiali 1000 zł więcej, byli średnio bardziej szczęśliwi.
Kącik matematyczny
Z liniowością jest trochę zamieszania, bo np. funkcja liniowa, o ile tylko zawiera stałą (wyraz wolny w regresji) nie jest przekształceniem liniowym. Nie jest ani addytywna, ani jednorodna. Dalej, na przybliżenie relacji (f) z daną zmienną przy pomocy regresji możemy spojrzeć jak na zastosowanie wzoru/wielomianu Taylora (i od nas zależy wybór rzędu).
Jeśli moje teksty są dla Ciebie wartościowe, na podany niżej adres email mogę przesłać Ci wiadomość, gdy pojawią się nowe. Zapraszam też na mój kanał na youtube.
