Kontrola czynników zakłócających

  • Post author:

W pewnym szpitalu w Brazylii, jak w każdym innym, umówieni pacjenci nie przychodzą na wizyty. Szpital próbuje zmniejszyć odsetek nieprzyjść, zaczyna więc wysyłać SMSy z przypomnieniem o wizycie. Na ile to pomogło? To zadanie dla Ciebie, drogi czytelniku!

Otrzymujesz dane, ponad 100 tys. zaplanowanych wizyt. Wyglądają całkiem prosto: data umówienia i data wizyty, informacja o pojawieniu się (lub nie) i otrzymaniu SMSa (lub nie) oraz cechy typu wiek i płeć. Dane można pobrać stąd.

Co robisz? Bierzesz informację o wizycie i wiążesz ją z informacją o otrzymaniu SMSa. Wyniki są następujące:

Wśród pacjentów, którzy nie otrzymali SMSa, odsetek nieprzyjść wynosi 17%.
Wśród pacjentów, którzy otrzymali SMSa, odsetek nieprzyjść wynosi 28%.

Ponieważ to Twoja pierwsza przygoda z analizą danych, biegniesz do dyrektora i z pewnością siebie (opartą na danych!) wołasz: „O wy szaleńcy! Wysyłanie SMSa zniechęca pacjentów do przyjścia!”.

Załóżmy jednak, że coś tam wiesz o statystyce i przypuszczasz, że SMSy nie były wysyłane losowo i to może być tylko korelacja. Świetnie, ale dyrektor wciąż chce wiedzieć – a zwrot „to tylko korelacja” nie jest żadną odpowiedzią. Dlatego spróbujmy zrobić drugi krok, ten trudniejszy.

Zastanawiasz się: może SMSy były częściej wysyłane pewnej grupie osób, która z kolei częściej nie przychodziła? Jeśli tak, cechę identyfikującą tę grupę należałoby uwzględnić (kontrolować) przy szacowaniu, na ile SMSy pomogły.

Jak dojść do tego, jakie cechy uwzględnić? Można się zastanowić, które z nich korelują z obiema informacjami: z przyjściem na wizytę i otrzymaniem SMSa. Czy będzie to rudy kolor włosów? Wątpliwe. Płeć? Być może jest jakiś związek z nieprzyjściem, ale z otrzymaniem SMSa?

W końcu doznajesz olśnienia: czas między umówieniem a wizytą. Im krótszy, tym mniejsze ryzyko, że ktoś nie przyjdzie – ale też mniejsza potrzeba wysyłania SMSa. Przeglądasz dane i wynika z nich, że pacjenci, którzy umówili się tego samego dnia lub dzień wcześniej, w ogóle go nie otrzymali (logiczne!).

Innymi słowy, informacja o otrzymaniu SMSa jest jednocześnie informacją, że ktoś umówił się co najmniej dwa dni wcześniej – a to zwiększa ryzyko nieprzyjścia.

Statystyka zna wiele metod, jak sobie z tym radzić – tzn. jak kontrolować takie zmienne zakłócające. Ale Ty nie znasz się na tym tak dobrze, więc robisz, co umiesz. Szukasz w danych tylko tych pacjentów, którzy umówili się pięć dni temu (kontrolujesz czas!) i liczysz:

Wśród pacjentów, którzy nie otrzymali SMSa, odsetek nieprzyjść wynosi 30%.
Wśród pacjentów, którzy otrzymali SMSa, odsetek nieprzyjść wynosi 25%.

Sprawdzasz dla innych czasów i różnice są podobne: w grupie, która dostała SMSa, odsetek nieprzyjść jest o około 5 p.p. mniejszy.

I mimo że to nie jest optymalne podejście, to powiedzmy to głośno, choćby na zachętę: to był kawał dobrej roboty, drogi czytelniku!

Komentarz

Problem z zaproponowanym podejściem jest taki, że po pierwsze, potrzebujemy odpowiednio dużo danych dla każdego czasu, po drugie, trudno uwzględnić więcej czynników zakłócających jednocześnie. Dlatego są lepsze metody, np. regresja (w tym przypadku logistyczna).

Dodajmy, że ważnych czynników zakłócających może nie być w naszej bazie. Na analizę danych musimy spojrzeć szerzej: pozyskanie dodatkowych informacji jest częścią procesu. Chcemy możliwie wiarygodnie odpowiedzieć na zadanie pytanie, a nie „analizować dane”. Być może będziemy w stanie odpowiedzieć na nie dopiero za rok, a może w ogóle.