W Polsce mamy dostęp do coraz większej ilości danych, z których można wyciągnąć naprawdę przydatne wnioski. Przydatne nie tylko dla wąskiej grupy, ale może nawet dla wszystkich Polaków. Mamy też analityków, którzy potrafią to zrobić. Problemem może być brak świadomości, że takie dane istnieją. Dlatego przesyłam parę linków.
1. Wyniki matur i egzaminów ósmoklasisty: https://mapa.wyniki.edu.pl/MapaEgzaminow/.
2. Dane o każdej szkole w Polsce: https://rspo.gov.pl/zaawansowana. Można pobrać wszystko do csv (kliknijcie „szukaj”, nie podając niczego w formularzu).
3. Absolwenci studiów: https://ela.nauka.gov.pl/pl/experts/source-data. Ilu z nich pracuje po ukończeniu studiów i ile zarabiają, wszystko w zależności od ukończonego kierunku i uczelni.
4. Dane z NFZ: https://ezdrowie.gov.pl/portal/home/badania-i-dane/zdrowe-dane. Sporo raportów, ale bardziej surowe dane też są. I nawet w przypadku raportów są podane dane, które zostały użyte np. do stworzenia wykresów.
5. GUS. Danych jest ogrom i są dostępne na różnych stronach. Ja najczęściej korzystam z Banku Danych Lokalnych, „według dziedzin”: https://bdl.stat.gov.pl/bdl/dane/podgrup/temat. Ciekawe są też dane z bazy Demografia: https://demografia.stat.gov.pl/BazaDemografia/Tables.aspx.
6. Otwarte Dane: https://dane.gov.pl/pl/dataset. Sporo surowych danych z bardzo różnych dziedzin. W lewym panelu są filtry i polecam zacząć od określenia kategorii danych.
7. Dane przestrzenne GIS: https://gis-support.pl/baza-wiedzy-2/dane-do-pobrania/. Stąd biorę granice gmin/powiatów, ale jest tam znacznie więcej danych.
8. Wyniki wyborów: https://wybory.gov.pl. Po wybraniu konkretnych (np. do PE, sejmu itp.) kliknijcie w zakładkę „Arkusze danych”. To nie są tylko wyniki wyborów, ale np. informacje o każdym obwodzie głosowania.
Takich ciekawych źródeł jest oczywiście więcej, przesłałem jedynie te, z których sam korzystam.
Uwaga. Jeśli dopiero uczycie się, jak analizować dane, i np. tworzycie portfolio, to zamiast budować kolejny model prognostyczny na danych z katastrofy Titanica, polecam zmierzyć się z takimi właśnie danymi. Praktycznie wszystkie są w formie tabelarycznej i nie wymagają czyszczenia, także dość szybko można przejść do szukania zależności.
W danych NFZ można znaleźć np. coś takiego: https://ezdrowie.gov.pl/portal/home/badania-i-dane/zdrowe-dane/monitorowanie/porody-opieka-okoloporodowa. Są to dane na temat porodów i opieki okołoporodowej, lata 2010-2023, kilkaset tysięcy wierszy.