Poniżej umieszczam przykłady swoich analiz. Moim celem jest pokazanie jak najwięcej rzeczywistych problemów, z jakimi spotykam się, analizując dane. Tego typu opracowań, w tym bardzo dobrych, jest w internecie wiele. W większości przypadków można jednak odnieść wrażenie, że analiza jest liniowym procesem, w którym każdy kolejny krok przybliża nas do celu. W rzeczywistości popełnia się mnóstwo błędów, a wiele obranych dróg prowadzi donikąd. Nierzadko okazuje się, że całą analizę musimy zacząć od początku, bo nie uwzględniliśmy jakiejś ważnej informacji, która zupełnie zmienia wnioski.  Po takiej walce można jednak przedstawić tylko tę jedyną słuszną drogę, która zaprowadziła nas do celu, i przekonać samego siebie, że to przecież było oczywiste, by podążyć nią od początku. To jest w porządku i takie opracowania dobrze się czyta, wydaje mi się jednak, że ich wartość dydaktyczna jest mniejsza. Dlatego w poniższych tekstach będę starał się przedstawić jak najwięcej z rzeczywistego procesu analizy danych, włączając w to błędne decyzje. Wszystkie pliki potrzebne do utworzenia każdej z analiz są dostępne na github.

Metoda Monte Carlo w praktyce: jak policzyć oczekiwaną długość gry w wojnę? I jaka jest szansa na remis?

Mój model, który zdobył pierwsze miejsce na jednym z turniejów na kaggle.com. Oraz o pulsarach i zaletach modelu GAM.

Problem wyboru zmiennych do modelu, gdy kandydatów jest pół miliona, a tylko niewielka część jest rzeczywiście ważna.

Chcesz, by Twoje dziecko odniosło sukces w sporcie? Sprawdź, co możesz dla niego zrobić, jeszcze przed poczęciem.

Przykład prostej inżynierii cech, która poprawia dokładność modelu z 84% do 95%.

Pokazuję przy pomocy odpowiednich testów, że granie w lotto naprawdę nie ma sensu.

Które imiona były popularne w USA i w jakim okresie? Które zdobyły popularność dopiero niedawno, a które odeszły w zapomnienie?