Statystyka w data science

  • Wymagania. Nie zakładam żadnej wstępnej wiedzy ze statystyki i prawdopodobieństwa. Przyda się praktyka w data science.
  • Czas. Spotykamy się tak długo, jak uznasz, że jest to dla Ciebie wartościowe.
  • Koszt. 240 zł za spotkanie (45 minut).
rachunek prawdopodobieństwa i statystyka w data science

Mimo że większość metod wykorzystywanych w data science (w szczególności modele uczenia maszynowego) to narzędzie statystyczne, to sama statystyka niekoniecznie jest dobrze znana przez praktyków. A świadomość, że najprostsza sieć neuronowa (perceptron) to zwykła regresja liniowa (lub logistyczna), znacznie zwiększa naszą pewność, że rozumiemy działanie metod, których używamy.

Ale jeszcze ważniejsze wydają się bardziej fundamentalne kwestie: czym jest prawdopodobieństwo, jak obliczyć wartość oczekiwaną, do czego służy wzór Bayesa czy metoda Monte Carlo. Możesz nawet nie wiedzieć, że na niektóre z problemów, które napotkałaś/napotkałeś, statystyka od dawna zna rozwiązania. Ewentualnie że zamiast liczyć coś na wszystkich dostępnych danych (co może być kosztowne), wystarczy, że wybierzesz ich niewielką część i użyjesz odpowiednich technik statystycznych, by móc uogólnić wnioski na całe dane.

Istnieje też wiele zagadnień, w których praktycy wykorzystują klasyczne wnioskowanie statystyczne, ale w sposób mechaniczny, bez zrozumienia, jak się to liczy i jak poprawnie interpretuje. Jednym z przykładów są bardzo popularne obecnie testy A/B, w których oceniamy, czy wprowadzić jakąś modyfikację na stronie internetowej, mając do dyspozycji jedynie wyniki dla próby klientów. Ciężko znaleźć osobę, który używa tych testów i potrafi wytłumaczyć, czym jest p-wartość, nie popełniając przy tym szeregu błędów.

Czego się nauczysz?

Kurs zaczyna się od bardzo podstawowych rzeczy, jak miary położenia i rozrzutu, natomiast przedstawiam je w mniej tradycyjny i głębszy sposób. Między innymi wyjaśnię, dlaczego we wzorze na odchylenie standardowego podnosimy do kwadratu, zamiast brać wartość bezwzględną, która wydaje się bardziej naturalna.

Powiemy sobie o tym, jak mogą rozkładać się cechy w Twoich danych i jak dzięki znajomość konkretnych rozkładów (np. Poissona), można rozwiązać bardzo praktyczne problemy. Dowiesz się, że Twoje prognozy są kiepskie być może dlatego, że masz do czynienia z rozkładem o ciężkim ogonie.

Następnie przejdziemy do bardziej klasycznego zastosowania statystyki, czyli wnioskowania o populacji na podstawie próby. Opiera się ono na koncepcji błędu standardowego, na podstawie którego konstruuje się rozmaite testy statystyczne, a następnie oblicza p-wartość. Z tą ostatnią miarą wiążę się dużo nieporozumień, dlatego poświecimy trochę czasu, żeby dobrze zrozumieć, czym ona jest, a czym nie.

Na koniec zajmiemy się regresją liniową i logistyczną (lub jak wolisz: najprostszymi sieciami neuronowymi). Skupimy się na tym, w jaki sposób wyznaczane są współczynniki i jak się je poprawnie interpretuje (w regresji logistycznej nie jest to łatwe), szczególnie w obecności innych zmiennych i interakcji. W razie zainteresowania możemy też powiedzieć coś więcej o pewnych modyfikacjach regresji, jak np. LASSO czy regresja grzbietowa (ridge regression). Są to świetnie modele, dzięki którym można lepiej zrozumieć, czym jest regularyzacja, kary L1 i L2 oraz bias/variance trade-off.

Uwaga. Niektóre tematy mogą już być Ci dobrze znane, ewentualnie nie będą Cię interesować. Nie ma problemu, po prostu je pominiemy.

Program

1. Podstawy statystyki

- Miary położenia i miary rozrzutu
- Proporcja
- Korelacja
- Standaryzacja (normalizacja), z-score

2. Rozkłady zmiennych

- Rozkład empiryczny i teoretyczny
- Wartość oczekiwana i wariancja
- Rozkład dwumianowy i Poissona
- Funkcja gęstości
- Rozkład normalny
i Centralne Twierdzenie Graniczne
- Rozkłady o ciężkich ogonach

3. Wnioskowanie statystyczne

- Próba i populacja
- Estymator, obciążenie, wariancja

- Kompromis między obciążeniem a wariancją (bias/variance trade-off)
- Błąd standardowy
- Przedział ufności
- Metoda bootstrap

4. Testowanie hipotez

- Hipoteza zerowa i alternatywna
- P-wartość i istotność statystyczna
- Test t-Studenta
- Porównanie proporcji i testy A/B
- Testy permutacyjne
- Moc testu i minimalna liczebność próby
- Problem wielokrotnego testowania

5. Prawdopodobieństwo

- Podejście częstościowe i bayesowskie
- Dodawanie i mnożenie prawdopodobieństw
- Metoda Monte Carlo
- Prawdopodobieństwo warunkowe i wzór Bayesa
- Metoda największej wiarygodności

6. Regresja liniowa

- Metoda najmniejszych kwadratów
- Interpretacja współczynników i R^2
- Prognozowanie, przedziały ufności
- Kryteria wyboru modelu

- Transformacje nieliniowe i interakcje
- Współliniowość
- LASSO i regresja grzbietowa

7. Regresja logistyczna

- Związek między regresją logistyczną i liniową
- Interpretacja współczynników
- Macierz błędów,
wyniki fałszywie dodatnie i fałszywie ujemne
- Czułość, swoistość, precyzja i recall
- Pole pod krzywą ROC (AUC)