• Post author:

Dr. Kontek w swoim artykule używa dość ciekawej metody detekcji anomalii, opierającej się na założeniu, że w geograficznie bliskich komisjach wyborcy głosują podobnie, a przynajmniej brak jest komisji, która odstawałaby od reszty w sposób naturalny. Autor nie uzasadnia tego założenie i jak jest komentowane w innych miejscach, jest ono fałszywe.

W tym artykule pokażę, że nawet jeśli to założenie dałoby się wybronić, dr Kontek popełnił rażące błędy statystyczne, które dyskwalifikują jego podejście.

Ile anomalii możemy wykryć?

Autor zidentyfikował aż 3679 komisji, w których wystąpiły anomalie (a w mniej konserwatywnej wersji nawet 5453). Już te liczby budzą poważne wątpliwości, bo ta druga stanowi 17% wszystkich analizowanych komisji, więc nie można tu mówić o “anomaliach” (w statystycznym sensie). W modelowaniu statystycznym takie liczby są argumentem za tym, że przyjęto złe założenia, a nie, że w danych znajduje się dużo odstających obserwacji (anomalii).

Możemy też w ten sposób na to spojrzeć: próbujemy wykryć anomalie, bazując na parametrach, które są szacowane z danych. Ale czy można im zaufać, skoro znajdują się w nich anomalie? Tak, jeśli są one czymś wyjątkowym, bo wtedy nie mają istotnego wpływu na te parametry. Jeśli są typowe, nie jesteśmy w stanie wiarygodnie oszacować parametrów, które mają posłużyć do wyznaczenia anomalii. Innymi słowy, wskazując tak dużą ich liczbę (17%), zaprzeczamy założeniu, na którym opiera się detekcja anomalii.

Ten argument w zupełności wystarczy, mimo wszystko postaram się uzasadnić, dlaczego autor otrzymał aż tak duże liczby. Zaczynając od tego, że da się to podsumować jednym zdaniem: dr Kontek przyjął tak liberalne kryteria, że nawet lekkie niepodobieństwo skutkuje zakwalifikowaniem wyników w danej komisji jako anomalii.

Niski próg detekcji

Grupy komisji zostały tak zdefiniowane, że ich wielkość w większości przypadków zawiera się w przedziale 10-16 (są to więc małe grupy, co swoją drogą też jest problematyczne ze statystycznego punktu widzenia). Dla każdej komisji jest liczona pewna cecha, np. “poparcie dla Nawrockiego”. Jeśli to poparcie jest “nadmiernie” większe, niż w bliskich komisjach, jest to anomalia.

Według autora, nadmierne poparcie jest wtedy, kiedy po pewnej standaryzacji jest większe od ustalonego progu: 2, 2,5 lub 3 (ten ostatni próg autor traktuje jako “konserwatywne” podejście). Standaryzacja polega na tym, że od wyniku w danej komisji odejmuje się medianę z grupy, a następnie dzieli przez rozrzut w tej grupie, liczony jako MAD (mediana odchyleń bezwzględnych). Jest to alternatywa dla odchylenia standardowego, stosowana czasem dla niesymetrycznych rozkładów. Procedura przypomina zastosowanie tzw. reguły trzech sigm: w standardowym rozkładzie normalnym mamy jedynie ok. 0,13% wartości, które są większe od 3, przez co w niektórych zastosowaniach można takie wartości potraktować jako anomalie.

Pierwszy problem polega na tym, że ta reguła nie działa dla MAD. Należy przynajmniej uwzględnić, że np. dla rozkładu normalnego MAD jest ok. 1,5 razy mniejsze od SD. Innymi słowy, rzekomo konserwatywne podejście z progiem 3 wcale takie nie jest, bo de facto jest on równy 2. Takich “odstających” obserwacji jest w rozkładzie normalnym ok. 2%, co daje prawie 700 komisji uznanych za anomalie, mimo że oczywiście takimi nie są. Co więcej, w rzeczywistości rozkład wyników na pewno nie jest normalny, a np. w rozkładzie lognormalnym takich rzekomo odstających obserwacji będzie 21,5%, czyli prawie 7000 komisji.

Co prawda w pewnych sytuacjach rozkład może być taki, że obserwacji powyżej ustalonego powinno być mniej, w pracy nie ma jednak żadnego uzasadnienia, że mamy do czynienia z taką sytuacją. Autor po prostu przyjmuje pewne liczby i w ogóle tego nie komentuje.

Istnieje też pewna szansa, że ten współczynnik 1,5 został uwzględniony w obliczeniach (np. w języku R jest stosowany domyślnie), ale w pracy nie ma żadnej wzmianki na ten temat, a w definicji MAD żaden taki parametr nie występuje.

Problemem porównań wielokrotnych

Mamy tu do czynienia z tzw. problemem porównań wielokrotnych. Wykonujemy ponad 30 tysięcy porównań (każda komisja), więc powinno się ten fakt uwzględnić w przyjętym progu (inaczej musi to prowadzić do dużej liczby wyników fałszywie dodatnich). Pokrywa się to z tym, o czym pisałem wyżej, natomiast ten problem występuje dwukrotnie, bo autor sprawdza niezależnie cztery cechy mające świadczyć o anomalii i ostatecznie raportuje wszystkie przypadki, dla których choć jedna z nich miałaby świadczyć o anomalii (tzn. w pracy jest to rozbite, ale wnioski są wyciąganie na podstawie sumy). Jest oczywiste, że im więcej damy sobie możliwości kwalifikacji danej obserwacji jako anomalii, tym więcej ich będzie. To miałoby sens, gdyby za anomalię traktować tylko taką komisję, która została wskazane np. przy pomocy co najmniej trzech cech.

Flip

Jedna z cech, jakie bada autor, jest nazwana “flip” i nie ma nic wspólnego z wyżej podaną standaryzacją i progami. Autor za anomalię uznaje każdy przypadek, w którym “Nawrocki wygrywa lokalnie, mimo że mediana wyników w grupie wskazuje przewagę Trzaskowskiego”. Załóżmy, że procenty poparcia dla Nawrockiego w danej grupie wynoszą: 45, 46, 47, 48, 49, 51, 52, 53, 54. Mediana wynosi 49%, więc “mediana wyników w grupie wskazuje przewagę Trzaskowskiego”, a zatem te cztery komisje, w których Nawrockich otrzymał ponad 50% to anomalie, co oczywiście nie ma żadnego sensu. Ta cecha jest odpowiedzialna za ponad połowę (!) wskazań.

Jednostronność

Algorytm wyznacza jedynie anomalie na korzyść Nawrockiego. Nie ma żadnej wzmianki o tym, jakie wyniki otrzymamy, gdyby przeprowadzić podobną analizę na korzyść Trzaskowskiego.

Zostawiłem tę kwestię na koniec, bo jest tak oczywista, że nawet ciężko uznać, że to problem “statystyczny”. Od razu dodajmy, że jeśli autor otrzymałby zbliżoną liczbę anomalii, to nie byłby dowód, że w takim razie w ogromnej liczbie komisji doszło do naruszeń (tylko że symetrycznie), ale kolejny argument za tym, że przyjęto zły próg detekcji.

Warto tu jednak zaznaczyć, że należy spodziewać się, że tych “anomalii” na korzyść Trzaskowskiego będzie mniej. Autor szuka nadmiernych wzrostów poparcia, a ogólny wzrost poparcia Nawrockiego był większy oraz wygrał on w znacznie większej liczbie małych komisji. Łatwiej zatem wykryć “anomalie” na jego korzyść (przy tak liberalnym progu).