Statystyka i modelowanie w języku R

  • Wymagania. Materiał ze szkolenia Analiza danych.
  • Czas. Spotkania indywidualne: 10-15 tygodni. Szkolenia dla grup: 3 dni po 6 godzin.
  • Koszt. Spotkania indywidualne: 10 x 320 zł. Szkolenia: do ustalenia.
szkolenie model regresji liniowej
Statystyka daje nam metody, dzięki którym możemy ocenić, czy relacje zaobserwowane na posiadanych przez nas danych można uogólnić na inne. Jest to wykorzystywane zarówno w nauce, gdy analizujemy dane eksperymentalne, jak również w biznesie. Na przykład najpopularniejszą obecnie metodą oceny, czy warto wprowadzić jakąś modyfikację na stronie internetowej, jest wykonanie odpowiedniego testu statystycznego na próbie klientów.
 
Statystyka to też jedno z najlepszych narzędzi, dzięki któremu można podejść do danego problemu wielowymiarowo: ustalić (kontrolować) pewne czynniki (tzw. zakłócające), które utrudniają zrozumienie relacji i zbadać jej sedno. Większość danych, z jakimi mamy do czynienia, nie pochodzi z eksperymentu. Na ich podstawie możemy powiedzieć coś o korelacjach, ale bardzo trudno wnioskować o przyczynach interesującego nas zjawiska. Chyba że potrafimy zastosować odpowiedni model. Najbardziej uniwersalna jest tu regresja (liniowa i logistyczna).
 

Regresja jest też podstawowym algorytmem uczenia maszynowego i możemy jej użyć np. do prognozowania, z jakim prawdopodobieństwem klient banku spłaci kredyt. Więcej: najprostszą siecią neuronową jest właśnie regresja liniowa, także jeśli chcesz iść w stronę deep learningu, właśnie tutaj jest początek tej drogi.

Czego się nauczysz?

Zaczniemy od wyjaśnienia, jak to w ogóle działa, że na podstawie niewielkiego zbioru obserwacji (próby) można coś powiedzieć o całej populacji. Kluczowa jest tutaj koncepcja rozkładu i błędu standardowego. Z doświadczenia wiem, że choć błąd standardowy jest jednym z najbardziej podstawowych i najważniejszych pojęć w statystyce, to większość osób ma mgliste pojęcie, czym on tak naprawdę jest — dlatego poświęcimy temu tematowi więcej czasu, niż to się zazwyczaj robi.

Przejdziemy przez procedurę weryfikowania hipotez, z rozróżnieniem podejść Neymana-Pearsona oraz Fishera (które niestety są zwykle mylone). Ponieważ oba
opierają się na p-wartości, która jest chyba najgorzej rozumianą koncepcją, spędzimy trochę czasu na dyskusji, czym tak naprawdę jest p-wartość i jak do niej podchodzić. Powiemy o problemie wielokrotnego testowania i wyjaśnimy, dlaczego tak wiele publikacji podaje wyniki, których potem nie da się powtórzyć.

Nauczysz się, czym jest model i kiedy warto go użyć (jak się przekonasz, prawie zawsze). Wytłumaczę, czym jest regresja liniowa, jak ją interpretować i jak wykorzystać do prognozowania. Powiemy też, jak taki model rozszerzyć, aby w pewnym sensie przestał być liniowy. Dzięki temu będziesz w stanie modelować relacje prawie dowolnego typu.

Regresja liniowa może być używana do problemów, w których badana przez nas cecha jest ilościowa. Gdy pytamy o spłatę kredytu czy wystąpienie dowolnego zdarzenia, odpowiednim narzędziem jest regresja logistyczna. Powiemy, jak ją zinterpretować (co jest trudniejsze, niż w przypadku regresji liniowej) oraz jak na jej podstawie podejmować decyzje biznesowe i naukowe.

Program

1. Rozkłady zmiennych

- Rozkład empiryczny i teoretyczny
- Wartość oczekiwana i dystrybuanta
- Rozkład dwumianowy i Poissona
- F
unkcja gęstości i rozkład normalny

2. Estymacja

- Jak na podstawie wyników z próby wnioskować o całej populacji?
- Błąd standardowy
- Dlaczego metoda bootstrap jest naturalna?
- Przedział ufności

3. Weryfikacja hipotez

- Logika/filozofia hipotez statystycznych
- Procedura weryfikowania hipotez, p-wartość
- Podejście Neymana-Pearsona kontra Fishera -- i dlaczego wszyscy je mylą
- Test t-Studenta

4. Dyskusja o p-wartości

- O czym tak naprawdę mówi p-wartość?
- Problem wielokrotnego testowania
- Dlaczego tak dużo publikacji zawiera fałszywe odkrycia?
- Wzór Bayesa

5. Testy A/B

- Jak się przekonać, czy warto zmienić przycisk na stronie internetowej?
- Testy permutacyjne
- Moc testu i minimalna liczebność próby
- Porównanie proporcji i test chi-kwadrat
- Test t-Studenta

6. Na czym polega modelowanie?

- Podsumowanie relacji
- Prognozowanie
- Wyjaśnianie
- Przyczynowość
- Błędy redukowalne i nieredukowalne

7. Regresja liniowa

- Jak znaleźć parametry modelu regresji?
- Interpretacja (wersja uproszczona i precyzyjna)
- Jak podsumować model?
- Prognoza, przedział ufności
- Reszty -- jak można je wykorzystać?
- Kryteria wyboru modelu
- Skąd nazwa “regresja”?

8. Zależności nieliniowe

- Transformacje: logarytm, wielomian, pierwiastek
- Czym są interakcje i dlaczego są takie ważne?
- Przykład biznesowy (problem optymalizacyjny)
- Współliniowość

9. Regresja logistyczna

- Związek między regresją logistyczną i liniową
- Interpretacja
- Jak podsumować model?
- Macierz błędów

10. Problemy klasyfikacyjne

- Wynik fałszywie dodatni i fałszywie ujemny
- Czułość, swoistość, precyzja i recall
- Pole pod krzywą ROC (AUC)
- Przy jakim prawdopodobieństwie spłaty udzielać kredytów?

- Klasyfikacja niebinarna