Predikce studijní neúspěšnosti
Jaká je pravděpodobnost, že nový student dokončí své studium? Přečtěte si článek o projektu Virtuální univerzita, který se blíže zabývá faktory, které tuto pravděpodobnost ovlivňují.
Predikce studijní neúspěšnosti
Virtuální univerzita (VU) je platformou, která ukazuje možnosti data science v univerzitním prostředí. Na příkladu analýzy dat bakalářských studií Provozně ekonomické fakulty se zaměřuje na predikci studijní neúspěšnosti a využívá metod strojového učení s učitelem i bez učitele. Projekt je rozdělen do dvou částí – explorativní analýzy a tvorby prediktivního modelu. Výsledky mohou pomoci univerzitám zlepšit výsledky svých studentů.
Projekt je rozdělen do dvou hlavních částí. První část se věnuje explorativní analýze, která zkoumá faktory, které ovlivňují pravděpodobnost, že student dokončí studium. Tyto faktory mohou zahrnovat například průměr známek, absenci na přednáškách nebo množství času stráveného studiem. Druhá část se zaměřuje na tvorbu prediktivního modelu s využitím metod strojového učení s učitelem i bez učitele. Tento model je vytvářen a optimalizován tak, aby byl co nejvíce přesný v predikci studijního úspěchu.
Explorační analýza
Při analýze dat je důležité začít s prvním krokem – explorativní analýzou. Tento proces nám pomáhá porozumět datům, s nimiž pracujeme, a vybrat ty nejvhodnější nástroje pro tvorbu prediktivního modelu. V našem projektu jsme se zaměřili na analýzu dat bakalářských studií a zkoumali jsme, jaké faktory ovlivňují úspěšnost studentů. Mezi klíčové proměnné patří: věk, počet dostudovaných předmětů za semestr, město původu studentů, předchozí vzdělání, obor studia a pohlaví. Abychom získali co nejlepší výsledky, využili jsme jednoduchý, ale efektivní nástroj – vizualizaci dat.
Obr. 1 Procentuální úspěšnosti studia podle oboru
Obr. 2 Procentuální úspěčnosti studia podle předchozího vzdělení
Dalším krokem, kterým jsme se v analýze dat posunuli dál, je Principal Component Analysis (PCA). Tato metoda nám umožňuje snížit počet proměnných u vícerozměrných dat a odhalit tak skryté proměnné, které jsou klíčové pro interpretaci dat. V našem případě jsme pomocí PCA identifikovali clustery průměrů známek za semestr, které nám poskytly ucelený pohled na vztah mezi semestry a umožnily nám sestavit přesnější prediktivní model. S ohledem na příliš velký počet předmětů jsme využili klasifikaci a rozdělili je do 25 skupin clusterů. Tyto clustery nám umožňují efektivně shlukovat podobné předměty a usnadnit tak další analýzu dat.
Příklady 2 clusterů
Vývoj prediktivního modelu
Pro vývoj prediktivního modelu jsme provedli několik kroků. Nejprve jsme data rozdělili podle semestrů a provedli úpravy, aby byla zohledněna skutečnost, že někteří studenti už studium dokončili. Dále jsme vytvořili několik modelů a porovnali je pomocí metriky Area Under Curve (AUC), abychom získali co nejlepší výsledky. Při vývoji modelů jsme také využili ladění hyperparametrů, aby byly výsledky co nejvíce přesné a spolehlivé.
Výsledky
V následující tabulce můžete vidět výsledky AUC pro jednotlivé metody na celých datech. Je zajímavé si všimnout, že metoda logistické regrese (benchmark) dosahuje nejvyšší přesnosti predikce 91,8%. Nicméně, jakmile data rozdělíme po semestrech, přesnost logistické regrese klesá.
Porovnání Modelů | Neoptimalizováno | Optimalizováno |
Logistická Regrese | 0.918 | |
Decision Tree | 0.944 | 0.953 |
Bagging | 0.945 | 0.967 |
Random Forrest | 0.970 | 0.998 |
Gradient Boosting | 0.955 | 0.967 |
Přesnost predikce podle semestru | Logit | RandomForrest |
Semestr2 | 0.960 | 0.969 |
Semestr3 | 0.952 | 0.959 |
Semestr4 | 0.917 | 0.942 |
Semestr5 | 0.791 | 0.965 |
Semestr6 | 0.679 | 0.930 |
Významnosti proměnných
Pro sledování vlivu jednotlivých faktorů na úspěšnost dokončení studia je možné použít Variables importance. Tato metoda umožňuje určit, jaký vliv má každý prediktor na rozdělení dat dle algoritmu. Tím lze zjistit, které faktory nejvíce ovlivňují schopnost studenta dokončit studium a využít tuto informaci pro zaměření se a případnou eliminaci těchto faktorů.
Závěr
Pro vysoké školy může být využití metod datascience na datech studentů velmi prospěšné. Tento projekt ukazuje, že díky predikci úspěšnosti studia je možné lépe plánovat finance a identifikovat rizikové studenty s pravděpodobností nedokončení v rozmezí 40-60%. Tímto způsobem lze pracovat s těmito studenty a pomoci jim úspěšně dokončit studium. Výsledky projektu také ukazují, že využití metod datascience vede k lepším výsledkům než tradiční metody. Tento projekt tedy poskytuje příklad toho, jak využití datascience může přinést výhody v oblasti vzdělávání a pomoci vylepšit úspěšnost studentů na vysokých školách.