Wykresy kołowe są super. Już z daleka widać, że nie warto czegoś czytać albo podchodzić do plakatu na konferencji. Wbrew pozorom, to nie takie śmieszne. W zalewie informacji, kluczem jest selekcja.
Taki wykres kołowy rzuca się w oczy i już wiem, żeby pójść gdzieś indziej. Gdyby autorzy użyli słupkowego, zacząłbym czytać i kto wie, kiedy bym się zorientował, że niewiele w tym sensu. Może w ogóle?
Kiedy można
Z drugiej strony, można spotkać się z tezą, że jak zrobimy wykres kołowy, to pójdziemy do piekła. Wydaje się jednak, że jest to zbyt radykalne podejście. Gdy chcemy zilustrować proporcję (jedną!), da się taki wykres obronić (tzn. proporcji może być więcej, ale chcemy podkreślić jedną). Kilka takich wykresów obok siebie też nie wygląda źle. Widziałem też wykres z większą liczbą kategorii, który miał pokazywać optymalne dzienne proporcje produktów spożywczych („talerz zdrowego żywienia”). Jako że talerz ma zwykle kształt koła, miało to sens (choć same proporcje już nie :P). Ciekawy przykład jest też pokazany w tej książce: https://clauswilke.com/dataviz/visualizing-proportions.html.
Są to jednak szczególne przypadki i moim zdaniem wykres kołowy nigdy nie powinien być domyślnym wyborem. No chyba że naszym celem jest manipulacja odbiorcą, jak w słynnym „apple pie” z prezentacji Jobsa (choć oczywiście tam głównym problemem była perspektywa; jak wiadomo, gorszy od wykresu kołowego jest tylko wykres kołowy 3D).
O wykresach
Swoją drogą, wspomnianą książkę polecam każdemu, kto analizuje dane (jest napisana ogólnie, tzn. nieważne, w jakim programie/języku pracujesz). Bo wykresy nie są po to, żeby praca magisterska miała więcej stron, ale jest to najpotężniejsze narzędzie w rękach analityka. Z wielu powodów. Jednym z mniej oczywistych jest to, że są osadzone w znacznie mniejszej liczbie założeń, niż inne techniki (statystyki, modele). Ale ich głównym celem wcale nie jest sprawdzenie tych założeń, tylko po prostu wyciąganie wniosków — na podstawie informacji, które nie zostały jeszcze brutalnie zagregowane do średnich.
Ale w czym problem?
Powodów, dla których wykresy kołowe są złe, jest wiele i można je łatwo znaleźć w internecie. Spójrzmy na konkretny przykład poniżej (pochodzi z stąd).
Na górze mamy kołowe, na dole te same dane, ale na słupkowych. Pierwszy z nich wyraźnie pokazuje, że kolejne kategorie są coraz liczniejsze. Jeśli dodatkowo jest to zmienna porządkowa, te różnice prawie na pewno nie są przypadkowe. Ostatni wykres pokazuje odwrotny trend. Różnica między nimi jest kolosalna.
A co pokazują wykresy kołowe? Że w każdym przypadku mamy tyle samo obserwacji w grupach.
I teraz uwaga: jeśli dołożymy ekspercką wiedzę (lub wnioski z innej „części” danych), może taki właśnie powinien być ogólny wniosek? W porządku, pokaż wtedy szefowi wykres kołowy. Ale który z wykresów powinien być zrobiony jako pierwszy?
Prezentacja a szukanie prawdy
Zauważmy też, że to „pokazanie szefowi” (czy też jakakolwiek prezentacja dla niekoniecznie „statystycznej” publiczności) to zupełnie inny cel wizualizacji — propagandowy. Ubolewałem wcześniej, że wykresy są często postrzegane jedynie jako ilustracja czyichś wniosków. To jest jakieś ich zastosowanie (choć dla mnie to są wtedy bardziej grafiki, niż wykresy). Ale drugie zastosowanie, znacznie ważniejsze dla osoby, która z surowych danych próbuje wyciągnąć wnioski, to przekształcenie ich do formy, która pozwoli to zrobić lepiej. W tym sensie wybór wykresu jest jak wybór, jakiego modelu statystycznego użyjemy, czy lepsza będzie średnia czy mediana itp. I tu chyba jasne, że powinny decydować kwestie statystyczne. Chcemy to robić zgodnie ze sztuką. Nie chcemy, żeby dane nas oszukały. Chcemy, by wykres jak najbardziej odpowiadał PRAWDZIE.
Zasady tworzenia wykresów
Jest taka zasada, że gdy pokazuje się wykresy słupkowe, oś zaczyna się od zera. Jest to rozsądna zasada. Bardzo często, gdy ktoś się do niej nie stosuje, mamy do czynienia z manipulacją (różnice wydają się większe, niż w rzeczywistości). Jeśli zaczynam słupki od zera, wtedy zero jest w pewnym sensie częścią danych, które prezentuję. Wbijam kotwicę w tym zerze i zmuszam innych, by widzieli prezentowane różnice, mając „brak” za referencję. Ale czy to zawsze jest najlepsze rozwiązanie? Nie. Bo czasem minimalna różnica ma ogromne znaczenie praktyczne i chcę, żeby ktoś potraktował ją poważnie. Chcę zmienić referencję.
I podobnie patrzę na wykresy kołowe. Moim zdaniem zasadą powinno być ich unikanie na rzecz słupkowych, żebyśmy sami sobie nie zrobili krzywdy. Inaczej: wykres słupkowy powinien być DOMYŚLNY w badaniu rozkładu zmiennych kategorialnych. Ale jeśli jesteśmy „mądrzejsi od danych” (wiedza ekspercka), to w porządku: zróbmy kołowy, zastanówmy się, czy lepiej pokazuje prawdę i jeśli tak, zaprezentujmy.
A jeśli chcemy z takiej prezentacji zrobić ładny plakat, to możemy nawet dorzucić kotka w rogu dashboardu, który pożera te wszystkie pie charty.
Jeśli moje teksty są dla Ciebie wartościowe, na podany niżej adres email mogę przesłać Ci wiadomość, gdy pojawią się nowe. Zapraszam też na mój kanał na youtube.