Statystyka dla naukowców

Program przeznaczony dla pracowników naukowych oraz ambitnych studentów, którzy chcieliby zrozumieć, jak weryfikuje się hipotezy, czym są przedziały ufności, p-wartość, testy t-Studenta, ANOVA czy regresja liniowa. Materiał pokrywa się mniej więcej z kursami statystyki na studiach, z tą różnicą, że naprawdę staram się wytłumaczyć, o co w tym chodzi. W szczególności na szkoleniu zyskać mogą osoby, które chcą przeprowadzić analizę statystyczną i poprawnie opisać wyniki do publikacji naukowej, jak również obronić się przed zarzutami recenzentów.

Wymagania. Szkolenie z podstaw R i analizy danych.

Czas. Lekcje indywidualne:  26 lekcji po 45 minut.  Szkolenia dla grup:  5 dni po 6 godzin.

1. Estymacja

- Próba i populacja
- Dokładność
- Bootstrap
- Błąd standardowy, przedział ufności

2. Weryfikacja hipotez, p-wartość

- Logika/filozofia hipotez statystycznych
- Procedura
- Proste przykłady
- Różnica między średnimi
- Test t-Studenta
- Różnica między proporcjami
- Dyskusja o p-wartości

3. Jak badać zależności między zmiennymi

- Ogólny schemat
- Porównanie średnich
- Test Manna-Whitneya dla prób niezależnych
- Próby zależne
- Tabela krzyżowa i test chi-kwadrat
- Korelacja Pearsona
- Wielkość efektu
- Równość średnich

4. ANOVA

- Problem wielokrotnego testowania
- ANOVA 1-czynnikowa
- ANOVA 2-czynnikowa
- Testy post-hoc

5. Na czym polega modelowanie?

- Podsumowanie relacji
- Prognozowanie
- Wyjaśnianie
- Przyczynowość
- Dwa rodzaje błędów

6. Regresja liniowa

- Jak znaleźć parametry modelu regresji?
- Interpretacja (wersja uproszczona i precyzyjna)
- Jak podsumować model?
- Prognoza, przedział ufności
- Reszty -- jak można je wykorzystać?
- Skąd nazwa “regresja”?
- Zależności nieliniowe i interakcje
- Przykład biznesowy (problemy optymalizacyjne)
- Współliniowość
- Kryteria wyboru modelu

7. Regresja logistyczna

- Związek między regresją logistyczną i liniową
- Interpretacja
- Jak podsumować model?
- Macierz błędów
- Czułość i swoistość, precyzja i recall
- Pole pod krzywą ROC (AUC)
- Co zrobić, gdy mamy więcej niż dwie klasy?

8. Jak opisać wyniki do publikacji

- Reprodukowalność
- Tworzenie wykresów i tabel nadających się do publikacji
- Słupki błędów na wykresie
- Udostępnianie kodu

- Jak odpowiadać na uwagi recenzentów?