Czym jest nauka o danych?

Nauka o danych (data science, danetyka, danologia) to dziedzina, która zajmuje się badaniem danych w celu uzyskania z nich wiedzy (praktycznych wniosków). Z jednej strony nic nowego: czyż nie każda wiedza pochodzi z jakichś danych? W data science staramy się jednak wydobywać tę wiedzę w pewien ustrukturyzowany („naukowy”) sposób, bazując na danych w konkretnej formie (np. tabularycznej), korzystając z narzędzi programistycznych, metod statystycznych czy uczenia maszynowego.

Czy to jest łatwe? W tej pracy autorzy podsumowują wnioski, do jakich doszło 161 badaczy, którzy weryfikowali tę samą hipotezę na podstawie tych samych danych. I były to wnioski zupełnie rozbieżne: badany związek u części badaczy został uznany za pozytywny, u części za negatywny, a u części nie został potwierdzony.

W publikacji próbuje się znaleźć ogólne czynniki/podejścia, które wyjaśniają tę wariancję — i to się praktycznie nie udaje. Czyli za te rozbieżności odpowiadają indywidualne decyzje badaczy, których nie da się pogrupować, skodyfikować. Nie da się podać ogólnego przepisu na analizę danych, którego wystarczy się trzymać, by wykonać „poprawną” analizę danych.


Ale prawda jest jedna, czyż nie? Mimo że wszyscy analitycy byli profesjonalistami, część z nich nie mogła mieć racji. A w takim razie: nie, analizowanie danych nie jest łatwe. I warto się tego cały czas uczyć, by podejmować lepsze decyzje — i ostatecznie wyciągać bliższe prawdy wnioski.

Statystyka

Materiały do nauki statystyki i uczenia maszynowego

Artykuły

Analizy statystyczne oparte na ogólnodostępnych danych

O mnie

Kim jestem i jak się ze mną skontaktować