Podstawy R i analizy danych

Najważniejsze szkolenie w ofercie. Żeby pokazać, że analiza danych w R nie musi być trudna, zaczniemy od razu od konkretnego przykładu. Jak zobaczycie, nawet jeśli nigdy wcześniej nie mieliście do czynienia z R, kod będzie całkiem zrozumiały — to jest główna zaleta tego języka. Na kolejnych lekcjach omówimy każdy z aspektów tego przykładu szczegółowo, żebyście mogli przeprowadzić podobną analizę na swoich danych.

Mimo że szkolenie jest nastawione na praktykę i zawiera dużo przykładów rzeczywistych analiz, zajmiemy się również fundamentami języka R i programowania w ogóle. Szkolenie powstało z myślą o osobach. które albo nigdy wcześniej nie programowały, albo czują, że to chyba nie dla nich, bo R w każdej linijce znajduje jakieś niezrozumiałe błędy — i pisanie kodu jest jedynie źródłem frustracji. Oczywiście jeśli znasz już któryś z języków programowania, to świetnie: będziemy mogli skupić się na samej analizie danych.

Przechodząc do konkretów, na szkoleniu nauczymy się, jak wczytywać dane i wykonywać najważniejsze operacje na nich: filtrowanie wierszy, tworzenie nowych kolumn i modyfikacja istniejących, liczenie miar statystycznych (średnia, odchylenie standardowe itd.) z podziałem na grupy. Jak zobaczycie, wszystkie to operacje można wykonać, używając dosłownie kilku funkcji.

Dalej, szczegółowo omówimy, jak analizować rozkład każdej zmiennej, aby wyciągnąć jak najwięcej wniosków oraz wiedzieć, jak miary i wykresy wybrać do dalszej analizy. Ten etap analizy jest często zaniedbywany (również przez doświadczone osoby), co skutkuje analizowaniem nie tego, co tak naprawdę chcemy. Pamiętajmy, że interesuje nas odpowiedź na pytanie biznesowe lub naukowe, a nie policzenie średniej lub mediany! Omówię też, dlaczego warto logarytmować dane, co to dokładnie oznacza i kiedy ma to sens. Wytłumaczę niektóre pojęcia z klasycznej statystyki, jak kwantyl czy dystrybuanta. Jak się pozna je z praktycznej strony, okażą się oczywiste i sami byśmy wpadli, że warto coś takiego policzyć.

Następnie przejdziemy do najciekawszej części analiz danych, badania zależności między cechami. Najczęściej właśnie po to są nam dane: żebyśmy na ich podstawie ocenili (lub potwierdzili naukowo), czy jednak cecha jest związana z drugą i w jakim stopniu. Podstawowym narzędziem do tego jest wykres. Dzięki pakietowi ggplot2, jesteśmy w stanie wykonać naprawdę zaawansowane (i świetnie wyglądające, nadające się wprost do publikacji czy prezentacji) wykresy. Najważniejszą cechą ggplot2 jest jednak to, że w bardzo prosty sposób możemy uwzględnić trzecią czy kolejną cechę, która potencjalnie może mieć kluczowy wpływ na badaną relację (tzw. interakcja). Bez tego wielu analityków dochodzi do błędnych, bo zbyt uproszczonych wniosków. Pokażę, jak uniknąć takich pomyłek.

Na koniec omówimy podstawy programowania: pętle, instrukcje warunkowe, pisanie własnych funkcji. To może być zaskakujące, że jest to ostatni punkt kursu, ale jak się przekonacie, to, co w innych językach programowania wykonuje się przy pomocy pętli, w R robi się inaczej, znacznie bardziej intuicyjnie (i dlatego jest to najlepsze narzędzie do analizy danych).

Mimo że jest to szkolenie podstawowe, po jego ukończeniu powinniście być w stanie przeprowadzić analizę statystyczną na własnych danych — taką, która nie wymaga zaawansowanego podejścia analitycznego i zaawansowanych przekształceń danych. Pod programem znajdziecie wskazówki, czego warto nauczyć się dalej.

Wymagania. Brak.

Czas. 16 lekcji po 45 minut.  Szkolenie dla firm/uczelni:  3 dni po 6 godzin.

1. Wprowadzenie

- Przykład analizy danych
- Jak uczyć się i używać R?
- R jako kalkulator
- Czym są funkcje i jak ich używać w R?
- R a Python
- Polecana literatura i inne materiały

2. Podstawowe operacje na danych

- Sortowanie, wybór wierszy i kolumn
- Filtrowanie
- Łączenie funkcji (operator %>%)
- Grupowanie i podsumowanie
- Zliczenia
- Modyfikacja zmiennych i tworzenie nowych

3. Rozkład -- analiza jednowymiarowa

- Czym jest rozkład zmiennej?
- Skale pomiaru
- Podsumowanie danych jakościowych
- Podsumowanie danych ilościowych
- Rozkład skośny
- Kwantyl, dystrybuanta, rangowanie, standaryzacja
-
Błędy, ostrzeżenia, wiadomości
- Wczytywanie i zapisywanie danych
- Dostosowanie środowiska

4. Zależności między zmiennymi

- Pakiet ggplot2
-
Jak badać zależności między zmiennymi ilościowymi
-
Jak badać zależności między zmiennymi jakościowymi
-
Jak badać zależności między zmienną jakościową i ilościową
-
Wykresy dla prezentacji
-
Czy analiza danych jest łatwa?

5. Programowanie

- Rodzaje obiektów w R
- Klasy

- Przykrywanie funkcji
- Pisanie własnych funkcji
- Instrukcje warunkowe (if, else)
- Pętla

Co dalej? Jeśli będziecie dużo pracować z danymi, najpewniej będą się znajdować w kilku bazach, co więcej, nie w takiej formie (kształcie), jak byście chcieli. Stąd konieczna jest umiejętność łączenia danych i zmiany kształtu (po części odpowiada to tabelom przestawnym w Excelu). Co więcej, z dużym prawdopodobieństwem w Waszej przyszłej firma dane będą trzymane w bazie SQL. W R można się z taką bazą połączyć i pracować przy pomocy funkcji z tidyverse. Te i inne tematy omawiamy w naturalnej kontynuacji powyższego szkolenia, Analizie danych. Ponadto zajmiemy się konkretnym przygotowaniem pod rozmowę kwalifikacyjną, omówimy pytania, które się na takich rozmowach pojawiają oraz projekty, które często dostają kandydaci przed właściwą rozmową.

Jeśli chcielibyście pójść w bardziej zaawansowanym kierunku, używać w analizie danych narzędzi związanych z modelowaniem (regresja liniowa i logistyczna), nauczycie się tego na szkoleniu Modelowanie. Tematy w nim poruszane są też podstawą uczenia maszynowego (czy też sztucznej inteligencji, jak się lubi to nazywać).

Możecie jednak wybrać inną drogę i nauczyć się tworzenia aplikacji. R ma wspaniały pakiet do tego, shiny, w którym stworzycie profesjonalną aplikację i udostępnicie ją w internecie w zaskakująco prosty sposób. Nie jest mi znane narzędzie, które mogłoby konkurować z shiny w tej prostocie (niektórzy uczą się R tylko po to, by móc tworzyć w nim aplikacje). Parę przykładów tutaj. Taka aplikacja robi wrażenie na rekruterach, bo sprawia wrażenie, że wymagała wiele pracy i wiedzy wykraczającej poza analizę danych i programowanie (gdy w rzeczywistości jest inaczej i aby taką aplikację wykonać, wystarczy znajomość R). Jeśli to Was przekonuje, zapraszam na kurs Aplikacje shiny.