Analiza wyników egzaminów ósmoklasisty z matematyki z lat 2021-2024

Autor

Piotr Szulc

Celem badania jest próba powiązania charakterystyk gmin (takich jak gęstość zaludnienia, przeciętne wynagrodzenie itp.) ze średnim wynikiem egzaminu matematyki z lat 2021-2024, przy pomocy wielowymiarowej analizy (model GAM), uwzględniającej wiele charakterystyk jednocześnie. Następnie, na podstawie zbudowanego modelu zostanie policzony wskaźnik, na ile szkoła wyróżnia się, porównując jej wyniki z przeciętnymi wynikami dla podobnych gmin.

Tego typy porównania są czasem wykonywane przez szkoły, ale w bardzo uproszczony sposób: zestawia się średni wynik dla szkoły ze średnim wynikiem dla gminy i powiatu. W przypadku mniejszych gmin jest to niewiarygodne (a czasem niemożliwe, gdy w gminie jest tylko jedna szkoła), z kolei powiaty mogą być zbyt niejednorodne (składać się z mocno różniących się gmin). Przy pomocy zaproponowanego podejścia możemy porównać się z podobnymi gminami w całej Polsce.

Analiza podzielona jest na dwie części: zaczynam od uśrednionych wyników dla gmin, potem przechodzę do wyników szkół. Analizuję tylko wyniki z matematyki w szkołach publicznych.

Wyniki dla gmin

Mapa

Poniżej prezentacja uśrednionych wyników z matematyki z lat 2021-2024 dla gmin. Uwzględniłem tylko szkoły publiczne, bez szkół dla dorosłych. Ponieważ wyniki z różnych lat nie są porównywalne, przed uśrednieniem dokonałem normalizacji1. Wykorzystałem średnie dla szkół, które następnie uśredniłem dla każdej gminy2.

Wykres 1. Średni wyniki egzaminów ósmoklasisty z matematyki dla gmin, lata 2021-2024

Najlepszy wyniki uzyskano w dużych miastach i ich sąsiedztwie, jak również na południu (południowym wschodzie) Polski. Wrócimy jeszcze do tej mapy w dalszej części analizy i spojrzymy na te wyniki z trochę innej perspektywy.

Stabilność

Powyższa mapa ma sens przy założeniu, że średnia z kilku lat jest stosunkowo dobrym reprezentantem wyników dla gmin (jeśli z roku na roku wyniki dość mocno się różnią, to raczej tak nie będzie). Sprawdziłem, na ile wyniki z lat 2023-24 są podobne do 2021-22. Na poniższym wykresie na osi Y zaznaczyłem nowsze, na osi X starsze. Uwzględniłem tylko gminy, z których mamy co najmniej 50 wyników.

Wykres 2. Zależność między średnią wyników egzaminu z matematyki w gminie dla lat 2021-22 oraz 23-24

Korelacja jest wysoka (\(r=0{,}81\)), w takim razie istnieje spore podobieństwo (stabilność) wyników. Dodatkowo, na podstawie takiego wykresu możemy zidentyfikować gminy, w których uzyskano lepsze wyniki w latach 2023-24 (nad czerwoną linią) lub gorsze (poniżej). Bardziej interesujące wydaje się jednak spojrzenie na to z perspektywy pojedynczych szkół, a nie gmin, a do tego przejdę później.

Język polski

Analizuję tylko wyniki z matematyki, natomiast najpewniej wiele z odkrytych relacji występuje również dla języka polskiego. Podobnie jak istnieje wysoka korelacja między średnimi wynikami w kolejnych latach, tak również między wynikami z języka polskiego i matematyki (\(r=0{,}76\)). Poniżej średnie z tych przedmiotów z lat 2021-24 (tylko dla gmin, w których pisało co najmniej 100 uczniów w sumie w czterech latach). Wyniki z języka polskiego zostały tak przeskalowane, by można je było porównać z matematyką.

Wykres 3. Średnie wyniki egzaminu z matematyki i języka polskiego w gminie dla lat 2021-24

Korelacje

Wyniki dla gmin można skorelować z ich charakterystykami z danych GUS. Poniżej przedstawiam wybrane: z gęstością zaludnienia, procentem mieszkańców z wyższym wykształceniem oraz z medianą wynagrodzeń. Ograniczyłem się do gmin, dla których mamy co najmniej 200 wyników (w sumie z czterech lat), więc brak tu najmniejszych gmin.

Wykres 4. Średnia z egzaminu z matematyki z lat 2021-24 dla gmin vs. gęstość zaludnienia. Oś X w skali logarytmicznej.

Wykres 5. Średnia z egzaminu z matematyki z lat 2021-24 dla gmin vs. procent mieszkańców z wyższym wykształceniem. Oś X w skali logarytmicznej.

Wykres 6. Średnia z egzaminu z matematyki z lat 2021-24 dla gmin vs. mediana wynagrodzeń.

Takich korelacji można znaleźć wiele, ale nie ma to większego sensu. Zauważmy, że korelacja z medianą wynagrodzeń może wynikać wyłącznie z korelacji z wyższym wykształceniem. W ten sposób nie dowiemy się, czy jest jakiś związek “sam w sobie”, np. czy w gminach o podobnym poziomie wykształcenia mediana wynagrodzeń dodatkowo koreluje z wynikami egzaminu. Aby to zbadać, należy zbudować odpowiedni model3.

Model

Przejdźmy do próby “wyjaśnienia” różnic w wynikach między gminami przy pomocy ich wybranych charakterystyk. W tym celu zbudowałem model, wykorzystując następujące zmienne:

  • Procent bezrobotnych kobiet i mężczyzn.
  • Gęstość zaludnienia, wskaźnik urbanizacji.
  • Procent kobiet.
  • Liczba małżeństw, procent małżeństw z dziećmi, liczba związków niesformalizowanych.
  • Liczba nowych mieszkań, średnia powierzchnia nowych mieszkań, średnia liczba pokoi.
  • Średni czas budowy domu jednorodzinnego.
  • Migracje wewnętrzne na pobyt stały (napływ i odpływ).
  • Imigracja i emigracja.
  • Liczba nauczycieli, procent nauczycielek.
  • Skolaryzacja – liczby osób uczących się na danym poziomie kształcenia (w danej grupie wieku) do liczby ludności w grupie wieku określonej jako odpowiadająca temu poziomowi nauczania.
  • Liczba obiektów sportowych (boiska, korty itp.).
  • Liczba uczniów przypadających na jeden oddział w szkołach podstawowych.
  • Urodzenia i zgony.
  • Struktura wieku (procent osób w przedziałach 0-4, 5-9, 10-14, 15-19, 20-29, 30-49, 50-69, 70+).
  • Struktura wykształcenia (procent osób z wykształceniem wyższym, średnim, zawodowym, podstawowym i nieukończonym; dane z Narodowego Spisu Powszechnego 2021).
  • Liczba żłobków i klubów dziecięcych, liczba miejsc w żłobkach i klubach.
  • Beneficjenci środowiskowej pomocy społecznej.
  • Liczba radnych.
  • Wykształcenie radnych (procent z wykształceniem wyższym, średnim, zawodowym i podstawowym).
  • Liczba przestępstw stwierdzonych przez policję, w tym przestępstw drogowych.
  • Wykrywalność sprawców przestępstw.
  • Liczba rozwodów i separacji.
  • Średnie miesięczne wynagrodzenie brutto.
  • Frekwencja w wyborach do Parlamentu Europejskiego (2024), procent głosów nieważnych.
  • Procent głosów oddanych na PIS, PO, Trzecią Drogę, Konfederację i Lewicę w wyborach do Parlamentu Europejskiego.

Zmienne pochodzą z lat 2021-2023 (poza wyborami z 2024). Wybierałem najnowsze, które w tym momencie były dostępne, natomiast w niektórych przypadkach najpewniej warto rozważyć starsze, jak również ich dynamikę (zmianę w okresie np. 10 lat), bo wyniki egzaminu mogą być konsekwencją stanu z przeszłości (ale w tej analizie nie robię tego4).

W przypadku niektórych cech uwzględniłem “punkt odniesienia”, który wydawał mi się najrozsądniejszy, np. liczbę przestępstw przeliczyłem na 1000 mieszkańców. Starałem się wybrać takie charakterystyki, które są powiązane ze “środowiskiem”, w którym dorastali uczniowie. Są to cechy, które nie zmieniają się szybko, mają dużą “bezwładność”.

Oczywiście można wskazać na charakterystyki, które powinny być silniej związane z wynikiem egzaminu, jak np. dotyczące kadry nauczycielskiej oraz indywidualnych cech uczniów. Na tym etapie jednak cel był inny, tzn. interesowało mnie “środowisko”, które powinno być stosunkowo stałe (oczywiście w pewnym okresie).

Liczba cech jest duża5, mimo to z pewnością można by uwzględnić ich więcej. Częściowo byłem ograniczony danymi zbieranymi przez GUS, z drugiej strony wiele charakterystyk, które mogłoby być bardziej interesujące (lepiej odzwierciedlać środowisko) wynika (a przynajmniej silnie koreluje) z tych, które uwzględniam.

Użyłem modelu lasu losowego6 do rankingu zmiennych (które z nich są najważniejsze w wyjaśnianiu wyników egzaminu). Poniżej lista 15 najważniejszych zmiennych (hasłowo; później pojawi się dokładniejszy opis). Im dłuższy słupek, tym ważniejsza cecha (model więcej traci na jej usunięciu7).

Wykres 7. Ważność zmiennych w modelu wyjaśniającym średni wynik egzaminu z matematyki w gminach (lata 2021-24). Na osi X spadek błędu MSE po usunięciu danej zmiennej.

Uwaga, czynniki, które znajdują się na dole wykresu, nie są “najmniej ważne”, ponieważ w sumie w modelu użyto ich 50 (tak że jeśli któregoś brakuje, można go traktować jako mniej ważnego od ostatniego na wykresie). Oprócz tego z wykresu nie odczytamy, na czym polega wpływ danego czynnika (w szczególności czy jest pozytywny, czy negatywny), zostało to zbadane przy pomocy innego modelu.

Zależności

Model lasu losowego jest dobry w prognozowaniu i ustalaniu ważności zmiennych, ale niekoniecznie w badaniu wniosków co do postaci zależności z poszczególnymi cechami. Dlatego dla 25 najważniejszych cech (według lasu losowego) zbudowałem uogólniony model addytywny (GAM8). Współczynnik \(R^2\) wynosi 53%, czyli rozważane cechy wyjaśniają mniej więcej połowę zmienności średnich wyników egzaminu w gminach (w mojej ocenie to bardzo dużo). Inaczej, dzięki modelowi jesteśmy w stanie przewidzieć średni wynik egzaminu w gminie, myląc się średnio o 4,4 punktu procentowego (średni błąd bezwzględny).

Poniżej szukane zależności według modelu GAM. Zanim je przedstawię, parę ważnych uwag.

  1. Pokazuję tylko te zależności, dla których p-wartość jest poniżej 0,001. W przypadku pozostałych cech uznałem, że nie mamy wystarczających dowodów, by mówić o jakiejkolwiek relacji i ich przedstawienie nie ma sensu9. Każdą z zależności pokazuję wraz z błędami standardowymi.

  2. Przy interpretacji zależności pamiętajmy o najważniejszym: ponieważ korzystam z modelu, wszystkie pozostałe czynniki są kontrolowane. Czyli analizując daną zależność, możemy wyobrazić sobie, że porównujemy gminy o podobnym poziomie wykształcenia, bezrobocia itd., różniące się jedynie zmienną na osi X10. Dzięki temu niektóre z tych zależności (na pewno nie wszystkie) można interpretować jako przyczynowe – choć z pewnym zastrzeżeniem. Zwykle nie rozważna cecha “sama w sobie” jest przyczyną czegoś, ale bardziej złożona charakterystyka, która jest z nią związana. Na przykład wynik egzaminu nie zależy bezpośrednio od frekwencji w wyborach, ale taka a nie inna frekwencja z czegoś wynika – i te czynniki już mogą wpływać na wyniki. I przypomnijmy, że mówimy o ósmoklasistach, tak że ten wpływ – jeśli rzeczywiście istnieje – jest poprzez rodziców i szersze środowisko11.

  3. Wszystkie zmienne to agregaty, a nie cechy poszczególnych osób. Relacje chciałoby się interpretować w taki sposób, że rozważane charakterystyki są cechami np. rodziców/dziadków dzieci, które zdawały egzamin. Częściowo tak może być (tzn. relacje obserwowane na agregatach mogą wynikać z zależności indywidualnych), ale są to głównie cechy szerszego otoczenia, w jakim dorastają dzieci.

  4. W niektórych przypadkach skala osi X jest logarytmiczna. Oprócz tego zmienia się skala osi Y: poza pierwszym wykresem (wykształcenie) jest tak dobrana, by różnica między największa a najmniejszą wartością wynosiła 10 p.p. (dzięki czemu siła związku jest porównywalna i im bardziej stroma krzywa, tym silniejsza zależność), ale zmienia się minimalna i maksymalna wartość.

  5. Poza wykształceniem i frekwencją zależności nie są silne (samo wykształcenie wyjaśnia 31% zmienności wyników egzaminu, a wraz z frekwencją 37%). Na wykresach zaznaczono błędy standardowe, które obrazują naszą niepewność w określeniu danej relacji. Zwykle w pobliżu obu ekstremów (najmniejsze i największe wartości danej zmiennej) są one najmniej pewne, bo takich przypadków (gmin) jest niewiele12.

  6. Ranking ważności zmiennych wyznaczony przy pomocy lasu losowego nie musi zgadzać się z modelem GAM. Ważność mówi jedynie o tym, jak mocno konkretny model wykorzystuje każdą ze zmiennych. Dlatego niektóre z relacji oszacowanych przez GAM mogą wyglądać na silniejsze, niż wynikałoby to z podanego wcześniej rankingu, a inne słabsze (w szczególności GAM uznał gęstość zaludnienia za nieważną zmienną). Moim zdaniem bardziej wiarygodne jest to, co wynika z GAM.

Związki pozytywne

Poniżej związki, które można zaliczyć do pozytywnych, tzn. wraz ze wzrostem danej cechy, zwiększa się średni wynik egzaminu w danej gminie.

Wykres 8. Średnia z egzaminu z matematyki z lat 2021-24 dla gmin vs. procent osób posiadających wyższe wykształcenie. Model GAM, pozostałe zmienne ustalone na medianę.

Wykres 9. Średnia z egzaminu z matematyki z lat 2021-24 dla gmin vs. frekwencja w wyborach do Parlamentu Europejskiego (2024). Model GAM, pozostałe zmienne ustalone na medianę.

Wykres 10. Średnia z egzaminu z matematyki z lat 2021-24 dla gmin vs. procent małżeństw posiadających dzieci. Model GAM, pozostałe zmienne ustalone na medianę.

Wykres 11. Średnia z egzaminu z matematyki z lat 2021-24 dla gmin vs. procent kobiet w gminie. Model GAM, pozostałe zmienne ustalone na medianę.

Wykres 12. Średnia z egzaminu z matematyki z lat 2021-24 dla gmin vs. procent małżeństw (wśród rodzin). Model GAM, pozostałe zmienne ustalone na medianę.

Związki negatywne

Wykres 13. Średnia z egzaminu z matematyki z lat 2021-24 dla gmin vs. procent bezrobotnych kobiet. Model GAM, pozostałe zmienne ustalone na medianę. Oś X w skali logarytmicznej.

Wykres 14. Średnia z egzaminu z matematyki z lat 2021-24 dla gmin vs. liczba beneficjentów środowiskowej pomocy społecznej na 10 tysięcy osób. Model GAM, pozostałe zmienne ustalone na medianę. Oś X w skali logarytmicznej.

Wykres 15. Średnia z egzaminu z matematyki z lat 2021-24 dla gmin vs. liczba rozwodów na 10 tysięcy osób. Model GAM, pozostałe zmienne ustalone na medianę.

Wykres 16. Średnia z egzaminu z matematyki z lat 2021-24 dla gmin vs. liczba związków niesformalizowanych przypadających na tysiąc małżeństw. Model GAM, pozostałe zmienne ustalone na medianę. Oś X w skali logarytmicznej.

Wykres 17. Średnia z egzaminu z matematyki z lat 2021-24 dla gmin vs. procent głosów nieważnych w wyborach do Parlamentu Europejskiego (2024). Model GAM, pozostałe zmienne ustalone na medianę. Oś X w skali logarytmicznej.

Wykres 18. Średnia z egzaminu z matematyki z lat 2021-24 dla gmin vs. liczba przestępstw na tysiąc osób. Model GAM, pozostałe zmienne ustalone na medianę. Oś X w skali logarytmicznej.

Wykres 19. Średnia z egzaminu z matematyki z lat 2021-24 dla gmin vs. migracje wewnętrzne (odpływ) na pobyt stały na tysiąc osób. Model GAM, pozostałe zmienne ustalone na medianę.

Brak określonego kierunku

Niemonotoniczność związków oczywiście może mieć dobre uzasadnienie, ale może też wynikać z niewystarczającej kontroli zmiennych zakłócających, przez co wciąż taka cecha “zbiera” korelacje z innymi zmiennymi. W przypadku dwóch pierwszych wykresów związek jest raczej negatywny, ale nie jest to wyraźne, dlatego umieszczam tutaj.

Wykres 20. Średnia z egzaminu z matematyki z lat 2021-24 dla gmin vs. liczba przestępstw drogowych na tysiąc osób. Model GAM, pozostałe zmienne ustalone na medianę.

Wykres 21. Średnia z egzaminu z matematyki z lat 2021-24 dla gmin vs. procent głosów oddanych na Lewicę w wyborach do Parlamentu Europejskiego (2024). Model GAM, pozostałe zmienne ustalone na medianę.

Wykres 22. Średnia z egzaminu z matematyki z lat 2021-24 dla gmin vs. liczba przestępstw na tysiąc osób. Model GAM, pozostałe zmienne ustalone na medianę.

Wykres 23. Średnia z egzaminu z matematyki z lat 2021-24 dla gmin vs. liczba nowych mieszkań na tysiąc osób. Model GAM, pozostałe zmienne ustalone na medianę. Oś X w skali logarytmicznej.

Korelacja kontrolowana

Mimo że podkreślałem już tę kwestię, dla lepszego zrozumienia porównajmy jeszcze związek, który szacujemy przy pomocy modelu, z prostą korelacją. Poniżej przykład dla frekwencji.

Wykres 24. Średnia z egzaminu z matematyki z lat 2021-24 dla gmin vs. frekwencja w wyborach do Parlamentu Europejskiego. Czarną linią zaznaczono model GAM ze wszystkimi zmiennymi, niebieską model GAM tylko dla frekwencji.

Korelacja jest silna, natomiast najprawdopodobniej wynika z takich czynników, jak np. wykształcenie (w gminach, w których więcej osób ma wyższe wykształcenie, jest też większa frekwencja), co z kolei jest silnie związane z wyższym wynikiem egzaminu. Budując model, kontrolujemy wpływ wykształcenia (porównujemy gminy o podobnym poziomie), dzięki czemu można powiedzieć coś więcej o samej frekwencji.

Na wykresie widać bardzo dużą różnicę w sile zależności i można podejść do tego dwojako. Albo że frekwencja nie ma prawie żadnego znaczenia (to była tylko korelacja, która po skontrolowaniu jeszcze większej liczby zmiennych zupełnie by zanikła), albo że nawet przy kontroli tak wielu czynników, zależność z frekwencją wciąż jest pozytywna. Osobiście skłaniam się ku drugiej interpretacji.

Poniżej jeszcze jedno tego typu porównanie, które wydaje mi się bardzo ciekawe. Mimo wysokiej korelacji wyniku egzaminu z medianą wynagrodzeń w gminie, w modelu jest on nieistotny (p-wartość = 0,09).

Wykres 25. Średnia z egzaminu z matematyki z lat 2021-24 dla gmin vs. mediana wynagrodzeń brutto. Czarną linią zaznaczono model GAM ze wszystkimi zmiennymi, niebieską model GAM tylko dla wynagrodzeń.

Co więcej, wystarczy bardzo prosty model, w którym uwzględniamy tylko wykształcenie, by związek z wynagrodzeniem praktycznie zniknął. Jest to interesujące, bo dość powszechnie uważa się, że przyczyną dobrych wyników części uczniów są wysokie zarobki rodziców (dzięki czemu dzieci mogą np. korzystać z korepetycji). Oczywiście na podstawie tego wykresu nie można tej tezy odrzucić, bo operujemy na agregatach (związek między średnimi może nie istnieć, ale między indywidualnymi wynikami uczniów i zarobkami ich rodziców już tak). Mimo wszystko jest to jakaś przesłanka, że być może pieniądze nie są tak ważne jak na przykład wykształcenie (które dopiero wpływa na zarobki).

Wyniki dla szkół

Szkoły muzyczne

Na poniższym wykresie wyniki egzaminu z matematyki (tylko z roku 2024) z podziałem na szkoły muzyczne i pozostałe (na osi X dokładna liczba punktów, nie procenty).

Wykres 26. Wyniki egzaminu z matematyki z roku 2024 dla szkół muzycznych i pozostałych.

Wykres umieszczam głównie po to, żeby podkreślić, jak ta analiza NIE będzie wyglądać – ewentualnie z jak trudnym problemem mierzymy się, próbując odpowiedzieć na pytanie, dlaczego niektóre szkoły wypadają lepiej od innych.

Taki wykres łatwo zinterpretować w taki sposób, że szkoły muzyczne lepiej uczą matematyki (albo przynajmniej lepiej przygotowują do egzaminu). Oczywiście żadnego takiego wniosku nie można wyciągnąć, ponieważ w takich szkołach nie uczą się “losowe” dzieci z populacji (już połowę tej różnicy można wyjaśnić faktem, że szkoły muzyczne znajdują się głównie w większych miastach). W rzeczywistości wpływ szkół muzycznych może być nawet negatywny i wciąż będzie to spójne z taką korelacją.

W tej analizie szukam związków, które są bliższe przyczynowym (ze wszystkimi zastrzeżeniami, które podałem w poprzedniej części), choć jest to trudne z powodu braku dostępu do odpowiednich danych.

Poprawa

Zacznijmy od porównania wyników egzaminu z matematyki dla szkół dla lat 2021-22 i 2023-24. Rozważam tylko przypadki, dla których mamy co najmniej 50 wyników (łącznie z dwóch lat).

Wykres 27. Zależność między średnią wyników egzaminu z matematyki dla lat 2021-22 oraz 23-24

Podobny wykres już się pojawił, ale dla gmin. Dla szkół korelacja jest jeszcze wyższa (\(r=0{,}87\)). Przedstawiając to inaczej, znając średni wyniki z lat 2021-22, jesteśmy w stanie przewidzieć średni wynik z lat 2023-24, myląc się średnio jedynie o 4,8 p.p.

Możemy teraz wskazać szkoły w których uzyskano lepsze wyniki w latach 2023-24 (znajdują się nad czerwoną linią) lub gorsze (poniżej). W poniższej tabeli szkoły, w których odnotowano największą poprawę. Trzeba jednak mieć na uwadze, że największa szansa na ekstremalne różnice jest w szkołach, w których zdawało najmniej osób – i ograniczenie się do tych, dla których mamy co najmniej 50 wyników, to może być wciąż mało (z drugiej strony w takich szkołach może być najłatwiej wprowadzić zmiany, stąd podane różnice mogą nie być przypadkowe).

Tabela 1. Szkoły z największą dodatnią różnicą między średnimi wynikami egzaminu z matematyki dla lat 23-24 w porównaniu do 21-22. Średni wynik w procentach, różnica w punktach procentowych, podano również liczbę zdających (N). Nazwa gminy w formacie: województwo, powiat, gmina.
Lata 21-22
Lata 23-24
Szkoła Gmina Średnia N Średnia N Różnica
Szkoła Podstawowa im. Królowej Jadwigi Małopolskie, Wielicki, Biskupice 43,5 60 73,1 52 29,6
Szkoła Podstawowa Mazowieckie, Sierpecki, Zawidz 35,9 52 62,2 66 26,3
Szkoła Podstawowa im. Odkrywców i Podróżników Dolnośląskie, Wrocławski, Długołęka 35,5 66 60,6 72 25,1
Publiczna Szkoła Podstawowa im. Jana Pawła II Mazowieckie, Przysuski, Odrzywół 55,2 57 79,0 52 23,8
Szkoła Podstawowa im. Jana Pawła II Dolnośląskie, Złotoryjski, Pielgrzymka 30,8 64 53,9 66 23,0
Szkoła Podstawowa nr 2 im. Józefa Pukowca Śląskie, Pszczyński, Pawłowice 33,3 106 55,1 79 21,8
Szkoła Podstawowa nr 1 im. Władysława Jagiełły Małopolskie, Nowosądecki, Kamionka Wielka 46,5 60 68,0 62 21,4
Szkoła Podstawowa Lubelskie, Chełmski, Ruda-Huta 35,3 83 56,5 59 21,2
Szkoła Podstawowa nr 10 im. Arkadego Fiedlera Wielkopolskie, Poznań, Poznań 28,5 59 49,4 58 20,9
Szkoła Podstawowa im. Marii Dąbrowskiej Lubelskie, Zamojski, Sitno 41,6 74 61,7 51 20,1

Poniżej szkoły, w których wyniki najbardziej się pogorszyły.

Tabela 2. Szkoły z największą ujemną różnicą między średnimi wynikami egzaminu z matematyki dla lat 23-24 w porównaniu do 21-22. Średni wynik w procentach, różnica w punktach procentowych, podano również liczbę zdających (N). Nazwa gminy w formacie: województwo, powiat, gmina.
Lata 21-22
Lata 23-24
Szkoła Gmina Średnia N Średnia N Różnica
Szkoła Podstawowa im. Juliana Tuwima Wielkopolskie, Szamotulski, Obrzycko 58,0 60 32,9 61 -25,2
Szkoła Podstawowa nr 4 im. Bohaterów Lotnictwa Polskiego Lubelskie, Rycki, Dęblin 68,9 100 45,0 72 -23,9
Szkoła Podstawowa im. Anastazji Milewskiej Podlaskie, Augustowski, Lipsk 60,3 80 37,3 62 -23,0
Szkoła Podstawowa im. Karola Kurpińskiego Wielkopolskie, Leszczyński, Włoszakowice 61,0 107 38,4 73 -22,6
Szkoła Podstawowa nr 2 im. Bronisława Czecha Małopolskie, Tatrzański, Zakopane 57,4 71 36,8 74 -20,6
Szkoła Podstawowa nr 1 im. Janusza Korczaka Śląskie, Rybnik, Rybnik 55,1 100 34,9 70 -20,2
Szkoła Podstawowa im. Jana Pawła II - Papieża Polaka Mazowieckie, Ostrowski, Stary Lubotyń 46,4 83 26,3 62 -20,2
Szkoła Podstawowa im. Kazimierza Wielkiego Kujawsko-Pomorskie, Włocławski, Kowal 56,0 78 36,6 73 -19,5
Szkoła Podstawowa nr 4 im. Generała Władysława Andersa Podlaskie, Łomża, Łomża 54,5 137 35,4 109 -19,1
Szkoła Podstawowa im. Henryka Sienkiewicza Małopolskie, Oświęcimski, Oświęcim 64,1 84 45,8 70 -18,4

Do pobrania pełna lista, uporządkowana względem numeru RSPO. Tak obliczone różnice można próbować powiązać z ewentualnymi zmianami, które nastąpiły w danej szkole, np. zatrudnieniem nowych nauczycieli (takie dane nie są ogólnodostępne).

Lepiej niż otoczenie

Od tego momentu będę wykorzystywał model zbudowany w pierwszej części analizy. Przy jego pomocy możemy poszukać szkół, które uzyskały lepsze wyniki, niż wynikałoby to z modelu – czyli lepiej, niż wskazywałoby na to środowisko. Ta różnica musi więc wynikać z czynników, których nie uwzględniliśmy w takim modelu: z cech konkretnych uczniów lub – i co jest bardziej interesujące – z cech konkretnej szkoły/nauczycieli. Poniżej 10 szkół, dla których ta różnica jest największa (uwzględniam tylko te, dla których jest co najmniej 100 wyników z lat 2021-24).

Tabela 3. Szkoły wyróżniające się pozytywnie pod względem wyniku egzaminu z matematyki dla lat 21-24, biorąc pod uwagę, gdzie się znajdują (tzn. z największą różnicą w porównaniu z przeciętnymi wynikami dla podobnych gmin, w których znajduje się szkoła). Średni wynik w procentach, różnica w punktach procentowych, podano również liczbę zdających (N). Nazwa gminy w formacie: województwo, powiat, gmina.
Szkoła Gmina N Wynik Różnica
Szkoła Podstawowa nr 6 Zachodniopomorskie, Szczecin, Szczecin 198 103,8 48,8
Szkoła Podstawowa Sióstr Urszulanek Unii Rzymskiej Śląskie, Rybnik, Rybnik 195 87,1 38,3
Zespół Szkół Ogólnokształcących nr 2 Podlaskie, Białystok, Białystok 293 97,4 38,3
Publiczna Szkoła Podstawowa im. Księdza Jana Długosza Kujawsko-Pomorskie, Włocławek, Włocławek 222 78,0 36,8
Szkoła Podstawowa Stowarzyszenia Rodzin Katolickich Śląskie, Chorzów, Chorzów 148 82,2 36,3
Szkoła Podstawowa Zgromadzenia Córek Bożej Miłości im. Franciszki Lechner Śląskie, Bielsko-Biała, Bielsko-Biała 109 90,3 35,7
Publiczna Katolicka Szkoła Podstawowa im. Św. Stanisława Kostki Zachodniopomorskie, Szczecin, Szczecin 136 88,8 33,8
Katolicka Szkoła Podstawowa Pomorskie, Tczewski, Tczew 227 80,5 33,4
Katolicka Szkoła Podstawowa im. Świętej Rodziny Zachodniopomorskie, Szczecin, Szczecin 107 88,1 33,1
Publiczna Szkoła Podstawowa im. Matki Zofii Szulc Sióstr Zmartwychwstanek Śląskie, Częstochowa, Częstochowa 115 85,7 32,8

Zatrzymajmy się na chwilę, żeby dobrze zrozumieć wyniki, szczególnie że wartość “103,8” dla szkoły ze Szczecina jest zaskakująca. Jak opisywałem wcześniej, ponieważ uwzględniam wyniki z czterech lat, musiałem je znormalizować (bo trudność egzaminu nie jest stała). Zrobiłem to w taki sposób, by średnia i odchylenie standardowe w każdym roku były takie, jak w 2024. Przez to szkoły, który uzyskały bardzo dobry wynik we wcześniejszych latach (w stosunku do innych szkół), po takim skalowaniu mogą mieć średnią nawet powyżej 100.

Do pobrania pełna lista. Umieściłem na niej wszystkie szkoły, ale pamiętajmy, że różnic w przypadku niewielkiej liczby uczniów raczej nie ma sensu interpretować (w kolumnie “N” jest suma uczniów z czterech lat).

Zanim przejdziemy dalej, podkreślmy jedną rzecz. Dobre wyniki szkoły to efekt szkoły (np. nauczycieli) oraz uczniów – i bardzo trudno to rozdzielić. Co więcej, w pewnych przypadkach to może być tylko efekt uczniów. Wyobraźmy sobie, że szkoła jest znana z tego, że ma dobre wyniki, przez co przyciąga dobrych uczniów. Ta opinia mogła wynikać z tego, że rzeczywiście w takiej szkole zatrudnieni byli dobrzy nauczyciele. Ale nawet jak zostaną zwolnieni i na ich miejsce przyjdą znacznie słabsi, szkoła wciąż może osiągać wysokie wyniki (bo chodzą do niej dobrzy uczniowie), przyciągając kolejnych dobrych uczniów. Oprócz tego duże znaczenie ma, ile jest dobrych szkół w danej gminie: jeśli tylko jedna, jest większa szansa, że trafią do niej prawie wszyscy dobrzy uczniowie w tej gminie, a wtedy łatwo o dobre wyniki.

Cechy szkoły

Aby sprawdzić, czy pewne cechy szkoły mogą wpływać na wyniki egzaminu, zastosowałem podobną procedurę, jak w przypadku wyników dla gmin – to znaczy zbudowałem odpowiedni model (las losowy do selekcji cech oraz model GAM). Różnica polega na tym, że teraz operuję na poziomie szkół (więc danych jest znacznie więcej, około 11 tysięcy po pominięciu niektórych przypadków). Oprócz tego cechą, którą wyjaśniam, nie jest średni wynik z lat 2021-2024 ale reszta z poprzedniego modelu (wyjaśniającego wyniki dla gmin). Innymi słowy, rozważamy różnice, które posłużyły nam wyżej do odszukania szkół, które napisały znacznie lepiej, niż wynikałoby z otoczenia. Te różnice (reszty) można traktować jak skorygowane wyniki egzaminu13.

Dlaczego nie rozważamy pierwotnych wyników? Ponieważ za ich część – i jak wynika z poprzedniego modelu, całkiem dużą – odpowiada ogólniejsze otoczenie (poziom wykształcenia, procent małżeństw itd.). Chcemy abstrahować od tych czynników i spróbować znaleźć niezależnie cechy, które mogą wpływać na wynik konkretnej szkoły. Innymi słowy, podobnie jak poprzednio, celem jest próba odkrycia relacji, które byłyby bliższe przyczynowym.

Poniżej lista rozważanych cech.

  • Typ organu prowadzącego (np. gmina, miasto, stowarzyszenie, organizacja wyznaniowa).
  • Oddziały w szkole (np. sportowy, dwujęzyczny).
  • Rodzaj szkoły (samodzielna lub złożona).
  • Całkowita liczba uczniów w szkole.
  • Liczba uczniów przypadająca na jednego nauczyciela oraz na jeden oddział (klasę).
  • Procent nauczycieli zatrudnionych na niepełny etat.
  • Procent uczniów w oddziałach przedszkolnych.
  • Ile lat ma szkoła.
  • Czy w szkole jest psycholog, pedagog, logopeda.
  • Proporcja dziewcząt w szkole.
  • Jakich języków obcych uczy się w szkole.
  • Czy szkoła ma swoją stronę internetową i faks.

W sumie jest to 25 zmiennych, bo na przykład każdy język obcy to osobna zmienna (czy w szkole uczy się angielskiego, niemieckiego itd.). Niektóre mogą wydawać się niepoważne (czy szkoła ma faks), ale wciąż może to być informacja, która o czymś świadczy (koreluje z ważniejszymi cechami). Zostawiłem je też dlatego, że dostępne dane są mocno ograniczone: brakuje wielu informacji, które powinny być bardziej pomocne w wyjaśnieniu, z czego wynika lepszy wynik szkoły, np. wykształcenia i doświadczenia nauczycieli. Niestety, nie znalazłem takich danych – tak że póki co na tę analizę lepiej spojrzeć jak na próbę odpowiedzi na pytanie, w jaki sposób wymienione wyżej cechy wiążą się z wynikiem szkoły (zamiast ogólnego zbadania, od czego zależy dobry wynik szkoły). Liczę też na to, że znajdą się lepsze dane – i tę analizę będzie można uzupełnić.

W tej części analizy pominąłem szkoły z oddziałami specjalnymi (2,3%), bo ich wyniki znacznie odbiegały od pozostałych14, oraz szkoły o skorygowanym wyniku egzaminu powyżej 40 lub poniżej -40, traktując je jako odstające (16 szkół).

Poniżej wykres ważności dla 8 najważniejszych zmiennych (pozostałe nie miały praktycznie żadnego znaczenia dla modelu).

Wykres 28. Ważność zmiennych w modelu wyjaśniającym skorygowane (niewyjaśnione) wyniki egzaminu. Na osi X spadek MSE po usunięciu danej zmiennej.

Za interesujące można uznać, że pewne cechy w ogóle nie są ważne z punktu widzenia modelu (wszystkie, które nie pojawiły się na powyższym wykresie) lub że ich ważność jest bardzo mała (ostatnie zmienne).

Zależności

Podobnie jak poprzednio, zbudowałem model GAM dla 8 najważniejszych cech. Wyjaśnia on jedynie 6% zmienność skorygowanych wyników egzaminu (czyli niewyjaśnionych przez poprzedni model dla gmin). Niski wynik potwierdza, że brakuje nam ważnych zmiennych (z drugiej strony cały czas musimy pamiętać, że po pierwsze, pracujemy na resztach, po drugie, za część zmienności odpowiadają cechy uczniów, a nie szkoły). Poniżej prezentuję związki wynikające z modelu, dla których p-wartość jest mniejsza od 0,001.

Wykres 29. Skorygowane (niewyjaśnione) wyniki egzaminu z matematyki z lat 2021-24 dla szkół vs. liczba uczniów w szkole. Model GAM, pozostałe zmienne ustalone na medianę. Oś X w skali logarytmicznej.

Wyniki nie pogarszają się wraz ze wzrostem wielkości szkoły (a w pewnych przedziałach widać zależność odwrotną). Tu pamiętajmy, że powodem nie jest to, że np. duże szkoły są w miastach, bo ten fakt uwzględniamy. Natomiast to nie wyklucza, że gdy szkoła jest bardzo dobra, to mogłaby być jeszcze lepsza, gdyby była mniejsza – ale w skali kraju (uśredniając), nie widać takich zależności. Może to jednak wynikać z niedostatecznej kontroli czynników zakłócających.

Wykres 30. Skorygowane (niewyjaśnione) wyniki egzaminu z matematyki z lat 2021-24 dla szkół vs. liczba uczniów przypadających na jeden oddział. Model GAM, pozostałe zmienne ustalone na medianę.

Ta zmienna ma nam powiedzieć o tym, jak liczne są klasy w szkołach, natomiast nie jest dla mnie jasne, w jakim stopniu można ją tak traktować (utworzyłem ją sam, dzieląc całkowitą liczbę uczniów przez liczbę oddziałów). Zakładając, że przynajmniej istnieje silna pozytywna korelacja z wielkością klasy, lepiej wypadają szkoły, w których klasy są duże. Dodajmy, że w danych jest silna pozytywna korelacja między tą zmienną a całkowitą liczbą uczniów w szkole (czyli duże klasy są w dużych szkołach), ale ponieważ działamy w obrębie modelu, to porównujemy szkoły o podobnej wielkości. Byłbym jednak ostrożny w interpretowaniu tej zależności przyczynowo (przypuszczam, że wynika ona z niedostatecznej kontroli czynników zakłócających).

Została jeszcze zależność z typem organu prowadzącego, ale spójrzmy najpierw, jak częste są poszczególne typy. Na kategorię “Inne” składają się głównie: “Minister ds. sprawiedliwości” (9), “Powiat ziemski” (9), “Spółki handlowe” (5) (sporo z nich to szkoły wychowawcze).

Tabela 4. Liczba szkół publicznych w zależności od organu prowadzącego.
Typ organu prowadzącego Liczba Procent
Gmina 8782 79,4
Miasto na prawach powiatu 1739 15,7
Stowarzyszenie 354 3,2
Organizacja wyznaniowa 69 0,6
Osoba fizyczna 40 0,4
Inne 38 0,3
Fundacja 32 0,3

Na poniższym wykresie wartości szacowane przez model wraz błędami standardowymi.

Wykres 31. Skorygowane (niewyjaśnione) wyniki egzaminu z matematyki z lat 2021-24 dla szkół vs. typ organu prowadzącego. Model GAM, pozostałe zmienne ustalone na medianę.

Podsumowanie i źródła

  • Średnie wyniki z matematyki dla szkół w latach 2023-24 są bardzo podobne do wyników z lat 2021-22 (korelacja 0,87 dla szkół). Podobne w tym sensie, że jeśli w danej gminie/szkole uzyskano wyższe wyniki, niż w innych gminach/szkołach, to w późniejszych latach również są wyższe (nie wynika z tego, że poziom uczniów się nie zmienił: być może w każdym miejscu spadł/wzrósł w podobnym stopniu).

  • Około połowy różnic w średnich wynikach dla gmin da się wyjaśnić przy pomocy ogólnych charakterystyk gmin, takich jak procent osób z wyższym wykształceniem (najważniejsza cecha; im większy procent, tym wyższa średnia), frekwencja w wyborach (im większa, tym wyższa średnia), procent małżeństw posiadających dzieci (im większy, tym wyższa średnia), liczba rozwodów na 10 tysięcy mieszkańców (im większa, tym niższa średnia).

  • Związek między medianą wynagrodzeń w gminie a średnim wynikiem egzaminu znika, gdy uwzględniamy procent osób z wyższym wykształceniem. Średnie wyniki egzaminu w gminach z wysokimi wynagrodzeniami nie są większe, niż w gminach z niskimi wynagrodzeniami.

  • Opisany w artykule model umożliwia wskazanie szkół, które wyróżniają się wynikami. Możemy porównać średni wynik egzaminu w szkole z przeciętnymi wynikami, które uzyskuje się w szkołach usytuowanych w “podobnym otoczeniu” (tzn. w gminach o podobnej charakterystyce do gminy, w której znajduje się dana szkoła). Inaczej: z charakterystyki gminy (np. dużo osób z wyższym wykształceniem) wynika, że średni wynik szkoły powinien być wysoki (bo jest to typowe dla takich gmin). Jeśli rzeczywisty wynik jest wyższy, to taka szkoła się wyróżnia – i można ilościowo określić, jak bardzo (również negatywnie). W udostępnionych materiałach obliczono taki wskaźnik dla każdej szkoły.

  • Zastosowany model wyjaśnia około połowy różnic, w takim razie druga połowa wynika z innych czynników: cech gmin, których nie wzięto pod uwagę, cech szkół/nauczycieli lub indywidualnych cech uczniów, którzy pisali egzamin. Próbowano znaleźć cechy szkół, które byłyby powiązane z tymi niewyjaśnionymi różnicami, ale nie udało się tego zrobić (wyjaśniono jedynie 6% zmienności). Najprawdopodobniej wynika to z niedostępności ważnych cech (np. poziomu kadry nauczycielskiej) lub z faktu, że takie cechy nie mają dużego wpływu na średni wynik egzaminu (który może wynikać prawie wyłącznie z cech uczniów).

  • Za niewielką część tych niewyjaśnionych różnic odpowiada wielkość szkoły i liczebność klas. Co ciekawe, wyniki nie pogarszają się wraz ze wzrostem wielkości szkoły i klas, a w pewnych przedziałach zależność jest raczej odwrotna (mimo że uwzględnia się fakt, że większe szkoły są zwykle w miastach itd.). Oprócz tego zdecydowanie lepsze wyniki osiągnęły szkoły prowadzone przez organizacje wyznaniowe, choć jest ich bardzo mało (0,6%).

Źródła

Dane, z których korzystałem:

Footnotes

  1. Egzaminy w różnych latach mogą mieć inny stopień trudność, przez co z inną wagą wejdą do średniej. Przeskalowałem je tak, by średnia i odchylenie standardowego były jak w roku 2024.↩︎

  2. Jest to średnia ważona, bo poszczególnych szkołach jest różna liczba zdających.↩︎

  3. Oczywiście wciąż możemy mówić jedynie o korelacjach, ale warunkowych, tzn. przy kontroli pozostałych charakterystyk gmin. Takim korelacjom zwykle bliżej do związków przyczynowych, choć istnieją przypadki, w których może być nawet odwrotnie (“zablokujemy” wpływ jakiejś cechy przez nadmierną kontrolę). Najlepiej byłoby najpierw zbudować model przyczynowy (na podstawie wiedzy eksperckiej), niestety dla rozważanych tu związków jest to trudne. Dlatego tę część analizy najlepiej traktować eksploracyjnie.↩︎

  4. Dziękuję Andrzejowi Porębskiemu za tę uwagę. Dodam, że mimo wszystko analiza opiera się na pewnej “bezwładności” (stabilności) rozważanych cech. Poza tym, jeśli występuje stały trend, podobny w każdej gminie, to dla modelu nie ma znaczenia, czy uwzględnimy wskaźnik z roku 2023, czy 2018, bo to jedynie kwestia skali.↩︎

  5. Liczba danych (ponad 3 tysiące obserwacji) oraz zastosowany wstępny model (las losowy) pozwalają na użycie tak dużej liczby zmiennych. Niektóre z nich są silnie skorelowane, co może utrudniać interpretację, dlatego usunąłem je lub przekształciłem. Aby sprawdzić, czy korelacje są zbyt wysokie, zastosowałem model regresji liniowej i policzyłem współczynnik VIF. Następnie usuwałem zmienne, dla których VIF było wysokie. W ten sposób usunąłem procent osób w wieku 15-19 i 70+, bo były skorelowane z pozostałymi zmiennymi odnoszącymi się do struktury wieku. Na podobnej zasadzie usunąłem procent osób z wykształceniem średnim, procent radnych z wykształceniem podstawowym i zawodowym oraz liczbę miejsc w żłobkach i klubach dziecięcych. Procent głosów oddanych na PIS był silnie skorelowany z PO, ale w tym przypadku obliczyłem różnicę między wynikami PIS i PO.↩︎

  6. Hiperparametry (minimalna liczbą obserwacji w liściu oraz liczba losowanych zmiennych) zostały wybrane przy pomocy walidacji krzyżowej oraz optymalizacji Bayesowskiej. Liczbę drzew ustaliłem na 500.↩︎

  7. Oś X można interpretować jako zmniejszenie błędu średniokwadratowego, gdy pominiemy daną zmienną. Nie jest to “obiektywna” ważność danego czynnika, jedynie jej przydatność w modelu dla przewidywania wyników egzaminu. Wciąż jednak można taki ranking interpretować – z pewną dozą ostrożności – jako próbę odpowiedzi na pytanie: od czego zależy średni wynik egzaminu w gminie?↩︎

  8. Teoretycznie mogłem poprzestać na modelu lasu losowego i skorzystać z tzw. partial dependence plot w celu zbadania relacji. Nie zrobiłem tego z kilku powodów. Po pierwsze, las losowy jest oparty na drzewach decyzyjnych, które dzielą zmienne na przedziały i modelują relacje “schodkowo”, podczas gdy w rzeczywistości prawie na pewno mają one ciągła naturę. Po drugie, jest większe ryzyko, że las losowy, zamiast wykryć istotę zależności, jedynie dopasuje się do dostępnych danych. Po trzecie, zależało mi na modelu addytywnym, dzięki któremu interpretacja jest znacznie prostsza (możemy badać związek z każdą cechą niezależnie, bez interakcji). Oczywiście interakcje mogą i najpewniej występują, choć niekoniecznie są silne: R^2 dla lasu losowego wynosi 53% i tyle samo dla GAM (i to po ograniczeniu liczby zmiennych). Można było zaproponować jeszcze prostszy model (regresję liniową), ale nie chciałem wymuszać liniowych zależności (jeśli takowe wystąpią, GAM sam powinien to wykryć).↩︎

  9. Standardowo używa się wyższych progów, najczęściej 0,05, ale tutaj byłoby to zdecydowanie za dużo, tzn. skutkowałoby zbyt dużą liczbą fałszywych relacji. Wynika to z co najmniej trzech czynników. Po pierwsze, na tych samych danych, na których dopasowuję model (i liczę p-wartości), dokonuję selekcji zmiennych (co efektywnie “zaniża” p-wartości). Po drugie, stosuję model GAM, w którym przy pomocy walidacji krzyżowej wybiera się parametr wygładzenia, co też skutkuje zaniżonymi p-wartościami. Po trzecie, danych jest dużo, więc nawet jeśli pewne zależności mogą być istotne statystycznie, mogą nie mieć znaczenie praktycznego.↩︎

  10. Precyzyjnie: wartości Y na wykresach są obliczone na podstawie modelu, gdy za wartości wszystkich pozostałych zmiennych ustalono na medianę.↩︎

  11. Drugie zastrzeżenie: trzeba pamiętać, że poza zależnością z wynikami egzaminu, istnieją zależności między zmiennymi, których używam do wyjaśnienia tych różnic, w szczególności niektóre z nich mogą być przyczynowe. Na wykresach zmieniamy wartości na osi X, zakładając, że nie ma to wpływu na pozostałe zmienne (są cały czas ustalone na medianę), co w praktyce może być nienaturalne: wzrost jednej cechy może “wymuszać” zmiany w innej.↩︎

  12. W przypadku wielu cech wystąpiły dane odstające, np. bardzo wysokie bezrobocie. Takie wartości “przyciąłem”, tzn. zamieniłem na wartości bliższe tym, które nie odstawały (decyzje podejmowałem na podstawie histogramów). Są to pojedyncze przypadki i takie przekształcenie nie powinno zaburzać relacji wyznaczony przez GAM, szczególnie że w większości są monotoniczne (być może będą minimalnie słabsze). Zdecydowałem się na to głównie ze względu na czytelność wykresów: takie obserwacje mocno rozciągają oś X, a z powodu ich niewielkiej liczby niewiele można powiedzieć o zależnościach na takim obszarze zmienności danej cech (bardzo duży błąd standardowy).↩︎

  13. Uwaga, nazywam te wyniki skorygowanymi, ale nie powinniśmy traktować je jako “lepszych” (“poprawionych”) niż te pierwotne. Ta korekta jest specyficzna, pokazuje pewien aspekt problemu (składową wyniku, która się wyróżnia).↩︎

  14. Te wyniki dało się wyjaśnić przy pomocy prostej zmiennej “czy szkoła ma oddział specjalny”, ale to prowadziło do w pewnym sensie zawyżonego współczynnika R^2. Oprócz tego szkoły te odbiegały pod względem niektórych zmiennych wyjaśniających.↩︎