• Post author:

Przeanalizujmy bardzo proste dane o szczepieniach przeciw COVID. Pochodzą z Wielkiej Brytanii i zawierają informacje o 268166 osobach, z których 734 zmarło na COVID. Mniej więcej połowa wszystkich osób przyjęła szczepionkę. Jeśli obliczymy proporcję śmierci z rozbiciem na tę informację, otrzymamy następujące wyniki:

Wśród niezaszczepionych zmarło 0,17% osób.
Wśród zaszczepionych zmarło 0,41% osób.

Ha, widzicie, to wcale nie było tak, że próbowano wcisnąć nam coś, co nie działa. Przecież czarno na białym widać, że szczepionka ZWIĘKSZA ryzyko zgonu!

Zanim jednak wyciągniemy wnioski, zauważmy, że jest to tylko KORELACJA. Paradoks Simpsona to tak naprawdę jedna z manifestacji starej prawdy, że korelacja to nie przyczynowość. Powyższe przedstawienie (prawdziwe!) miałoby sens wtedy, gdyby wykonano eksperyment: szczepionkę otrzymałaby LOSOWA grupa osób. A są to dane obserwacyjne, a nie eksperymentalne.

Oprócz informacji o szczepieniu i śmierci, znamy jeszcze wiek każdej osoby, w formie: poniżej lub powyżej 50 lat. I zauważmy, że fakt szczepienia jest silnie z tą zmienną związany:

Wśród niezaszczepionych było 2,3% osób w wieku powyżej 50 lat.
Wśród zaszczepionych było 23,3% osób w wieku powyżej 50 lat.

Choćby po tym widać, próba na mogła być losowa. Natomiast to jeszcze nie musi być problem. Będzie wtedy, jeśli ryzyko zgonu jest związane z wiekiem. To jasne, mimo to sprawdźmy, jak bardzo:

Wśród osób w wieku poniżej 50 lat zmarło 0,03% osób.
Wśród osób w wieku powyżej 50 lat zmarło 2,16% osób.

Znaleźliśmy zatem cechę (wiek), która koreluje zarówno z przyjęciem szczepionki, jak i śmiercią. Co w takiej sytuacji robią ludzie dorośli? Liczą proporcję śmierci, uwzględniające obie te zmienne JEDNOCZEŚNIE:

Poniżej 50 lat: wśród zaszczepionych zmarło 0,023%, niezaszczepionych 0,032%.
Powyżej 50 lat: wśród zaszczepionych zmarło 1,68%, niezaszczepionych 5,96%.

Innymi słowy, w obu grupach wiekowych proporcja zgonów jest niższa po szczepieniu, wbrew temu, co mogło się wydawać z tej pierwszej, prostej korelacji — paradoks Simpsona.

Czy w takim razie udowodniliśmy, że szczepionka działa? Człowiek dorosły, ale i dojrzały, powie, że nie. Bo to przecież wciąż KORELACJA. Można ją nazwać warunkową, bo warunkujemy (uwzględniamy, kontrolujemy) jeden czynnik: wiek. Pytanie, ile jeszcze ich jest? A ile z nich jesteśmy w stanie zmierzyć, żeby móc uwzględnić w modelu?

Czy relacja może odwrócić się ponownie, jeśli uwzględnimy kolejne czynniki? Może. To byłby dopiero paradoks.

Komentarz

Dotykamy tu problemu przyczynowości i jak na podstawie danych obserwacyjnych (korelacyjnych) dojść do tego, czy i w jakim stopniu jedna zmienna wpływa na drugą. To trudny temat i z samego faktu, że jakaś trzecia zmienna koreluje z obiema, nie wynika, że trzeba ją uwzględniać.

Dodajmy, że osób poniżej 50 lat, które zmarły, jest w danych niewiele (69), także porównywanie proporcji między zaszczepionymi i niezaszczepionych w tej grupie jest obarczone dużym błędem.