Podstawy uczenia maszynowego

Na szkoleniu dowiecie się, że uczenie maszynowe to nie zbiór magicznych zaklęć, ale zestaw dość podstawowych technik, wcale nietrudnych do opanowania. Przekonacie się, że temat nie jest tak ciężki, jak go przedstawiają, a możliwe zastosowania naprawdę potężne. Głównym celem jest poznanie jednego z najpopularniejszych i najlepszych algorytmów, tzw. lasu losowego (Random Forest). Po szkoleniu powinniście móc z powodzeniem zbudować model, który będzie można komercyjnie wykorzystać.

Wymagania. Szkolenie z podstaw R i analizy danych oraz szkolenie z modelowania. W szczególności zakładam znajomość regresji liniowej i logistycznej.

Czas. Lekcje indywidualne:  16 lekcji po 45 minut.  Szkolenia dla grup:  3 dni po 6 godzin.

1. Na czym polega uczenie maszynowe?

- Problemy regresyjne i klasyfikacyjne
- Rodzina pakietów *tidymodels*
- Regresja liniowa i logistyczna jako algorytmy uczenia maszynowego

2. Najprostsze algorytmy uczenia maszynowego

- Naiwny klasyfikator bayesowski
- Metoda k najbliższych sąsiadów

3. Nadmierne dopasowanie (overfitting)

- Podejście parametrycznie i nieparametryczne
- Under- i overfitting
- Podział na zbiór treningowy i testowy
- Kroswalidacja

4. Drzewo decyzyjne

- Algorytm rpart
- Hiperparametry
- Drzewo regresyjne
- Ważność zmiennych

5. Las losowy

- Mądrość tłumu
- Bagging
- Partial dependence plot
- Czy las losowy to najlepszy algorytm?

6. Przykład budowy modelu od A do Z

- Tworzenie cech (feature engineering)