Podstawy R i analizy danych

  • Wymagania. Nie zakładam żadnej wstępnej wiedzy z programowania i statystyki.
  • Czas. Spotkania indywidualne: 10-15 tygodni. Szkolenia dla grup: 3 dni po 6 godzin.
  • Koszt. Spotkania indywidualne: 10 x 320 zł. Szkolenia: do ustalenia.
analiza danych kurs

Najważniejsze szkolenie w ofercie. Zaczynamy od podstaw — a podstawą w analizie danych i statystyce jest praktyczna praca z danymi. Celem szkolenia jest nauka najważniejszej umiejętności w pracy z danymi: przekształcenia ich do takiej formy, która będzie bardziej przydatna w odpowiedzi na zadane pytania biznesowe lub naukowe. Przy okazji nauczysz się języka R — jest to jedyny język programowania, którego można nauczyć się „przy okazji”.

Szkolenie opiera się na przykładach rzeczywistych analiz, ale zajmiemy się również fundamentami programowania w ogóle, niezależnie od języka. Program kursu powstał z myślą o osobach, które albo nigdy wcześniej nie programowały, albo czują, że to chyba nie dla nich. Oczywiście jeśli znasz już któryś z języków programowania, skupimy się na samej analizie danych. Podobnie, jeśli umiesz analizować dane, choć do tej pory używałaś/używałeś Excela, najważniejsza będzie nauka samego języka R.

Czego się nauczysz?

Zaczniemy od najważniejszych operacji na danych: filtrowanie wierszy, tworzenie nowych kolumn i modyfikacja istniejących, liczenie miar statystycznych (mediana, odchylenie standardowe itd.) z podziałem na grupy.

Wytłumaczę, czym jest rozkład zmiennej i dlaczego tak ważne jest, by analizę danych rozpocząć od jego zbadania. Dowiesz się, dlaczego warto logarytmować dane i kiedy ma to sens. Poznasz najważniejsze techniki badania zależności między cechami. Zobaczysz, jak dzięki pakietowi ggplot2 wykonać naprawdę zaawansowane (i nadające się wprost do prezentacji lub publikacji naukowej) wykresy. Pokażę, jak dzięki wielowymiarowemu podejściu do badania zależności uniknąć wyciągania zbyt uproszczonych wniosków, co jest częstym błędem analityków.

Zajmiemy się bardziej zaawansowanymi przekształceniami danych, tzw. piwotowaniem (tabele przestawne). Będziemy łączyć dane z różnych plików (operacje join). Na życzenie pokażę, jak w R połączyć się z bazą SQL i na niej pracować, bez znajomości komend SQL.

Na koniec omówimy techniki typowo programistyczne: pętle, instrukcje warunkowe, pisanie własnych funkcji. To może być zaskakujące, że jest to ostatni punkt kursu, ale jak się przekonacie, to, co w innych językach programowania wykonuje się pętlą, w R robi się inaczej, znacznie bardziej intuicyjnie.

Program

1. Analiza popularności imion

- Instalacja i ładowanie pakietów
- Filtrowanie, porządkowanie, podsumowanie danych
- Grupowanie danych
- Wykresy liniowe
- Korzystanie z pomocy R

2. Pacjenci nieprzychodzący na wizyty

- Wczytywanie danych
- Modyfikacja zmiennych i tworzenie nowych
- Tabela krzyżowa i analiza proporcji
- Wykres punktowy

- Zmienne zakłócające (confounders)
- Dane eksperymentalne a korelacyjne

3. Jak ludzie oceniają filmy?

- Problemy z wczytaniem danych
- Łączenie danych z kilku baz
- Zmienne klasy factor
- Operator %>% (pipe)
- Wygładzanie

- Wykres słupkowy

4. Na ile nasz wzrost zależy od wzrostu rodziców?

- Korelacja
- Histogram i wykres gęstości
-
Zmienne jakościowe i ilościowe, dyskretne i ciągłe
- Kwartyle, odchylenie standardowe
-
Rozkład normalny

5. Co łączy zarobki koszykarzy i masy planet?

- Rozkład jednostajny i skośny
- Średnia czy mediana?

- Dane odstające
- Transformacja logarytmiczna i kiedy można jej używać

6. Od czego zależy cena używanego auta?

- Łączenie rzadkich kategorii
- Braki danych

- Wykres pudełkowy
-
Modyfikacja wykresów

7. Analiza danych demograficznych

- Zmiana kształtu danych (piwotowanie)
- Wyrażenia regularne (regex)

- Róże typy łączenia danych (left_join, inner_join, full_join)
-
Tworzenie własnych danych
- Format rds

8. Dlaczego ludzie przestali latać samolotami?

- Składowe szeregu czasowego
- Usuwanie trendu i sezonowości

- Prognozowanie strat
-
Operacje na datach

9. Lokalizacja genów

- Pisanie własnych funkcji
- Instrukcje warunkowe

- Pętla
- Praca na dużych danych

10. Jak obniżyć wskaźnik odpływu w naszej firmie?

- Jak dobrze analizować dane?
- Iteracyjny proces analizy danych
- Pytania biznesowe i naukowe

- Wiedza ekspercka czy dane?