摘要:隨著教育信息化的持續(xù)推進(jìn),教育領(lǐng)域產(chǎn)生了大量數(shù)據(jù),如學(xué)生的基本信息、考試成績(jī)、答題記錄、課堂行為、學(xué)習(xí)情感等。這些數(shù)據(jù)包含了豐富的信息,反映了學(xué)生的知識(shí)水平、能力素質(zhì)、學(xué)習(xí)風(fēng)格、興趣愛(ài)好等方面。利用數(shù)據(jù)挖掘技術(shù),可以從這些數(shù)據(jù)中提取有用的特征和模式,構(gòu)建有效的預(yù)測(cè)模型,為教育管理和決策提供支持。本文使用機(jī)器學(xué)習(xí)方法對(duì)學(xué)生的數(shù)學(xué)成績(jī)進(jìn)行預(yù)測(cè),并比較和分析不同算法在預(yù)測(cè)性能和效率方面的差異。
關(guān)鍵詞:機(jī)器學(xué)習(xí);數(shù)學(xué)成績(jī)預(yù)測(cè);GBDT;隨機(jī)森林
一、引言
(一)研究背景及意義
隨著教育信息化的發(fā)展,教育數(shù)據(jù)的規(guī)模和復(fù)雜度不斷增加。如何有效地利用這些數(shù)據(jù)提高教學(xué)質(zhì)量和效果,成了教育領(lǐng)域的一個(gè)重要課題。教育數(shù)據(jù)挖掘(Educational Data Mining, EDM)是一門(mén)運(yùn)用數(shù)據(jù)挖掘技術(shù)和方法,對(duì)教育數(shù)據(jù)進(jìn)行分析和挖掘,從中發(fā)現(xiàn)有價(jià)值的知識(shí)和規(guī)律,以支持教育決策和改進(jìn)教育過(guò)程的學(xué)科[1]。
(二)國(guó)內(nèi)外研究現(xiàn)狀
學(xué)生成績(jī)預(yù)測(cè)是教育數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)重要課題,旨在利用學(xué)生的歷史數(shù)據(jù)和個(gè)人特征,構(gòu)建有效的預(yù)測(cè)模型,從而為教育決策和教學(xué)改進(jìn)提供參考和支持[4]。近年來(lái),隨著教育信息化的發(fā)展和大數(shù)據(jù)技術(shù)的普及應(yīng)用,對(duì)學(xué)生成績(jī)預(yù)測(cè)的研究也取得了一定的進(jìn)展,主要表現(xiàn)在以下幾個(gè)方面:1.數(shù)據(jù)來(lái)源和類(lèi)型的多樣化。2.方法的創(chuàng)新和技術(shù)的改進(jìn)。3.應(yīng)用場(chǎng)景的拓展和目標(biāo)的深化。
(三)本文創(chuàng)新點(diǎn)
本文在基于機(jī)器學(xué)習(xí)的數(shù)學(xué)成績(jī)預(yù)測(cè)研究方面,具有以下幾個(gè)創(chuàng)新點(diǎn):
1.本文利用了一種新穎的數(shù)據(jù)集,即來(lái)自中國(guó)教育部發(fā)布的全國(guó)中學(xué)生數(shù)學(xué)能力測(cè)試(National Mathematics Ability Test for Middle School Students, NMATMS)的數(shù)據(jù)集。該數(shù)據(jù)集包含了2019年和2020年兩屆全國(guó)中學(xué)生數(shù)學(xué)能力測(cè)試的參考資料、試題、答案、評(píng)分標(biāo)準(zhǔn)、成績(jī)分布等信息,以及參加測(cè)試的學(xué)生的基本信息、答題記錄、成績(jī)等信息。該數(shù)據(jù)集具有規(guī)模大、覆蓋廣、質(zhì)量高、結(jié)構(gòu)完整等特點(diǎn),可以為數(shù)學(xué)成績(jī)預(yù)測(cè)提供豐富的數(shù)據(jù)源。
2.本文采用了一種先進(jìn)的機(jī)器學(xué)習(xí)技術(shù),即GBDT算法。該算法是一種集成式學(xué)習(xí)方法,通過(guò)迭代生成多棵決策樹(shù),并將它們加權(quán)組合起來(lái),形成一個(gè)強(qiáng)預(yù)測(cè)模型。該算法具有處理高維數(shù)據(jù)、處理非線性關(guān)系、處理缺失值、提高泛化能力等優(yōu)點(diǎn),可以為數(shù)學(xué)成績(jī)預(yù)測(cè)提供高效的技術(shù)手段。
3.本文針對(duì)一個(gè)具有實(shí)際意義和挑戰(zhàn)性的問(wèn)題,即預(yù)測(cè)中學(xué)生在全國(guó)數(shù)學(xué)能力測(cè)試中的表現(xiàn)。該問(wèn)題涉及對(duì)中學(xué)生數(shù)學(xué)水平和能力的評(píng)估及提升,對(duì)于教育改革和發(fā)展具有重要價(jià)值。本文不僅預(yù)測(cè)了學(xué)生在總分和等級(jí)上的表現(xiàn),還根據(jù)預(yù)測(cè)結(jié)果提出了個(gè)性化的教育建議。
二、相關(guān)概念和理論技術(shù)
(一)教育數(shù)據(jù)挖掘相關(guān)概念
教育數(shù)據(jù)挖掘(Educational Data Mining, EDM)是一門(mén)運(yùn)用數(shù)據(jù)挖掘技術(shù)和方法,對(duì)教育數(shù)據(jù)進(jìn)行分析和挖掘,從中發(fā)現(xiàn)有價(jià)值的知識(shí)和規(guī)律,以支持教育決策和改進(jìn)教育過(guò)程的學(xué)科[8]。
教育數(shù)據(jù)包含在教育活動(dòng)中產(chǎn)生或收集的各種類(lèi)型和形式的數(shù)據(jù),包括學(xué)生的基本信息、學(xué)習(xí)行為、學(xué)習(xí)表現(xiàn)、學(xué)習(xí)反饋等,以及教師的教學(xué)行為、教學(xué)評(píng)價(jià)、教學(xué)資源、課程內(nèi)容、考試題目等[9]。數(shù)據(jù)挖掘是指從大量復(fù)雜的數(shù)據(jù)中提取隱含的、有用的、潛在的信息和知識(shí)的過(guò)程,包括數(shù)據(jù)預(yù)處理、數(shù)據(jù)模式挖掘、數(shù)據(jù)模式評(píng)價(jià)和知識(shí)表示等步驟[10]。
(二)機(jī)器學(xué)習(xí)相關(guān)技術(shù)
機(jī)器學(xué)習(xí)算法是指根據(jù)不同的學(xué)習(xí)任務(wù)和目標(biāo),設(shè)計(jì)并實(shí)現(xiàn)數(shù)據(jù)分析和數(shù)據(jù)挖掘的算法,以發(fā)現(xiàn)數(shù)據(jù)中的知識(shí)和規(guī)律,或進(jìn)行預(yù)測(cè)和分類(lèi)等。機(jī)器學(xué)習(xí)算法可以分為以下幾種類(lèi)型:
1.監(jiān)督學(xué)習(xí):監(jiān)督學(xué)習(xí)是指利用帶有標(biāo)簽的訓(xùn)練數(shù)據(jù)來(lái)學(xué)習(xí)一個(gè)函數(shù),然后用該函數(shù)對(duì)新的數(shù)據(jù)進(jìn)行預(yù)測(cè)或分類(lèi)。2.無(wú)監(jiān)督學(xué)習(xí):無(wú)監(jiān)督學(xué)習(xí)是指不需要事先給定數(shù)據(jù)的標(biāo)簽,而是根據(jù)數(shù)據(jù)本身的特征來(lái)發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在結(jié)構(gòu)或模式。3.強(qiáng)化學(xué)習(xí):強(qiáng)化學(xué)習(xí)是指通過(guò)與環(huán)境進(jìn)行交互,不斷地嘗試、探索和學(xué)習(xí),以達(dá)到最大化累積獎(jiǎng)勵(lì)或最小化累積代價(jià)的目標(biāo)。
(三)GBDT算法
GBDT算法是一種基于梯度提升(Gradient Boosting)思想的集成學(xué)習(xí)方法,它使用多棵回歸樹(shù)(Regression Tree)作為基學(xué)習(xí)器,通過(guò)迭代地?cái)M合損失函數(shù)的負(fù)梯度來(lái)提升模型的性能。GBDT算法具有以下特點(diǎn):
1.GBDT算法是一種加法模型,即每一棵樹(shù)都是在前面所有樹(shù)的基礎(chǔ)上進(jìn)行優(yōu)化,形成一個(gè)累加的效果。
2.GBDT算法是一種前向分布算法,即每一步只學(xué)習(xí)一個(gè)基學(xué)習(xí)器,并將其加入集成模型中,而不調(diào)整之前已經(jīng)學(xué)習(xí)的基學(xué)習(xí)器。
3.GBDT算法使用了梯度提升的策略,即每一步都利用損失函數(shù)的負(fù)梯度作為殘差來(lái)擬合新的基學(xué)習(xí)器,從而使得損失函數(shù)下降最快。
4.GBDT算法使用了回歸樹(shù)作為基學(xué)習(xí)器。回歸樹(shù)可以處理數(shù)值型和類(lèi)別型特征,可以自動(dòng)進(jìn)行特征組合和非線性擬合,可以通過(guò)剪枝和正則化來(lái)防止過(guò)擬合。
GBDT算法在數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、計(jì)算廣告等領(lǐng)域有著廣泛的應(yīng)用,它可以有效地提高預(yù)測(cè)準(zhǔn)確性、降低泛化誤差、增強(qiáng)模型魯棒性。同時(shí),GBDT算法也有一些局限性,比如它需要較長(zhǎng)的訓(xùn)練時(shí)間、不能處理高維稀疏特征、不能在線更新等。因此,針對(duì)GBDT算法的不足,出現(xiàn)了許多改進(jìn)和優(yōu)化的方法和變體,如XGBoost、 LightGBM、 CatBoost等。
三、 數(shù)據(jù)集處理與學(xué)生成績(jī)分析
(一)數(shù)據(jù)集描述
本文使用的數(shù)據(jù)集是來(lái)自中國(guó)教育部發(fā)布的全國(guó)中學(xué)生數(shù)學(xué)能力測(cè)試的數(shù)據(jù)集。該數(shù)據(jù)集包含了2019年和2020年兩屆全國(guó)中學(xué)生數(shù)學(xué)能力測(cè)試的參考資料、試題、答案、評(píng)分標(biāo)準(zhǔn)、成績(jī)分布等信息,以及參加測(cè)試的學(xué)生的基本信息、答題記錄、成績(jī)等信息。
(二)學(xué)生成績(jī)分析
為了幫助教師了解學(xué)生的學(xué)習(xí)狀況,提高教學(xué)質(zhì)量和效果;幫助學(xué)生了解自己的學(xué)習(xí)情況,提高學(xué)習(xí)興趣和效率;幫助家長(zhǎng)了解孩子的學(xué)習(xí)情況,讓家長(zhǎng)提供合理的教育支持和引導(dǎo),本節(jié)運(yùn)用數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等方法,對(duì)學(xué)生的考試成績(jī)、學(xué)習(xí)行為、學(xué)習(xí)態(tài)度等數(shù)據(jù)進(jìn)行分析和挖掘,以發(fā)現(xiàn)學(xué)生的學(xué)習(xí)特點(diǎn)、能力水平、優(yōu)勢(shì)劣勢(shì)、進(jìn)退步情況等,從而為教育教學(xué)提供科學(xué)的依據(jù)和指導(dǎo)。
(三)數(shù)據(jù)集處理
數(shù)據(jù)集處理是指對(duì)原始數(shù)據(jù)進(jìn)行一系列的操作,以提高數(shù)據(jù)的質(zhì)量和適用性,為后續(xù)的機(jī)器學(xué)習(xí)建模和分析提供有效的數(shù)據(jù)輸入。為了構(gòu)建有效且準(zhǔn)確的成績(jī)預(yù)測(cè)模型,本文對(duì)數(shù)據(jù)集中的原始數(shù)據(jù)進(jìn)行了標(biāo)準(zhǔn)化處理,將標(biāo)稱類(lèi)型和二元類(lèi)型數(shù)據(jù)統(tǒng)一轉(zhuǎn)換為數(shù)值型數(shù)據(jù)。以下是經(jīng)過(guò)統(tǒng)一數(shù)值轉(zhuǎn)換后的數(shù)據(jù)集屬性特征說(shuō)明,詳見(jiàn)表1。
(四)預(yù)測(cè)模型評(píng)價(jià)指標(biāo)
在本文的學(xué)生成績(jī)預(yù)測(cè)模型評(píng)估中,選用了幾個(gè)常見(jiàn)的分類(lèi)模型效果評(píng)價(jià)指標(biāo),即準(zhǔn)確率、精確度、召回率和F1分?jǐn)?shù)。這些指標(biāo)的選擇至關(guān)重要,因?yàn)闄C(jī)器學(xué)習(xí)任務(wù)的最終目標(biāo)是構(gòu)建具有強(qiáng)泛化能力的模型。
1.準(zhǔn)確率(Accuracy):表示所有預(yù)測(cè)正確的樣本數(shù)量與總樣本數(shù)量之間的比例。準(zhǔn)確率是評(píng)估模型整體性能的重要指標(biāo),其值越高越好。
2.精確度(Precision)**:精確度反映了模型預(yù)測(cè)為某一類(lèi)別的樣本中有多少是真正屬于該類(lèi)別的。這個(gè)指標(biāo)衡量了模型的精確性,即模型的預(yù)測(cè)是否可靠。
3.召回率(Recall)**:召回率表示實(shí)際屬于某一類(lèi)別的樣本中,有多少被模型正確檢測(cè)出來(lái)了。這個(gè)指標(biāo)幫助我們了解模型對(duì)于某一類(lèi)別的覆蓋程度。
4.F1分?jǐn)?shù)(F1-score):F1分?jǐn)?shù)是精確度和召回率的綜合考量,它平衡了模型的精確性和覆蓋率。F1分?jǐn)?shù)值越高,表示模型在精確性和覆蓋率之間的平衡越好。
上述公式中,TN是指模型將負(fù)類(lèi)別樣本正確地預(yù)測(cè)為負(fù)類(lèi)別;FP是指模型將負(fù)類(lèi)別樣本錯(cuò)誤地預(yù)測(cè)為正類(lèi)別;FN是指模型將正類(lèi)別樣本錯(cuò)誤地預(yù)測(cè)為負(fù)類(lèi)別。
考慮到數(shù)據(jù)處理可能導(dǎo)致正負(fù)樣本不均衡問(wèn)題,選擇這些評(píng)價(jià)指標(biāo)有助于全面評(píng)估模型的性能,確保模型在不同方面均表現(xiàn)出色。這四個(gè)指標(biāo)的目標(biāo)都是追求最大化,即其值越高越好,以確保構(gòu)建具有強(qiáng)泛化能力的學(xué)生成績(jī)預(yù)測(cè)模型。
四、 基于GBDT的數(shù)學(xué)成績(jī)預(yù)測(cè)研究
(一)實(shí)驗(yàn)設(shè)計(jì)
本文使用了全國(guó)中學(xué)生數(shù)學(xué)能力測(cè)試(NMATMS)的數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù),該數(shù)據(jù)集包含了2019年和2020年兩屆全國(guó)中學(xué)生數(shù)學(xué)能力測(cè)試的參考資料、試題、答案、評(píng)分標(biāo)準(zhǔn)、成績(jī)分布等信息,以及參加測(cè)試的學(xué)生的基本信息、歷史成績(jī)、家庭情況等信息。本文選取了2020年八年級(jí)學(xué)生的數(shù)據(jù)作為實(shí)驗(yàn)對(duì)象,共有79078名學(xué)生,每個(gè)學(xué)生有13個(gè)特征和一個(gè)目標(biāo)變量。特征包括性別、年齡、父母和睦關(guān)系、母親受教育程度、父親受教育程度、母親工作類(lèi)型、父親工作類(lèi)型、每周學(xué)習(xí)時(shí)長(zhǎng)、學(xué)習(xí)遇挫次數(shù)、是否想要接受高等教育、上課缺勤次數(shù)、第一階段歷史成績(jī)、第二階段歷史成績(jī)等。目標(biāo)變量是學(xué)生在數(shù)學(xué)能力測(cè)試中的總分,范圍是0-100分。
(二)實(shí)驗(yàn)結(jié)果
本文使用Python語(yǔ)言和scikit-learn庫(kù)實(shí)現(xiàn)GBDT和隨機(jī)森林算法,并比較GBDT和隨機(jī)森林算法在數(shù)學(xué)成績(jī)預(yù)測(cè)方面的準(zhǔn)確性。隨機(jī)森林算法是一種平均模型,即每一棵樹(shù)都是通過(guò)獨(dú)立的訓(xùn)練并給出預(yù)測(cè)結(jié)果,然后對(duì)所有樹(shù)的結(jié)果進(jìn)行平均或投票。隨機(jī)森林算法是一種自助聚合算法,即每一步都從原始數(shù)據(jù)集中有放回地抽取一個(gè)子集,并用該子集訓(xùn)練一個(gè)基學(xué)習(xí)器。隨機(jī)森林算法使用了自主采樣和特征子空間采樣的方法引入隨機(jī)性,從而降低模型的方差和過(guò)擬合風(fēng)險(xiǎn)。隨機(jī)森林算法也使用了回歸樹(shù)作為基學(xué)習(xí)器,但與GBDT不同的是,隨機(jī)森林中的回歸樹(shù)不進(jìn)行剪枝,而是完全生長(zhǎng),以保證每棵樹(shù)的高偏差和低方差。
(三)結(jié)果分析
1.性能:GBDT模型在準(zhǔn)確率、精確度、召回率以及F1分?jǐn)?shù)等評(píng)價(jià)指標(biāo)上均優(yōu)于隨機(jī)森林模型。這說(shuō)明,在學(xué)生數(shù)學(xué)成績(jī)的預(yù)測(cè)任務(wù)中,GBDT模型能更準(zhǔn)確地捕捉和學(xué)習(xí)數(shù)據(jù)之間的復(fù)雜關(guān)系。
2.計(jì)算效率:盡管GBDT在性能上表現(xiàn)更佳,但它在訓(xùn)練階段所需的時(shí)間是隨機(jī)森林的兩倍。在需要快速迭代的場(chǎng)景中,其較長(zhǎng)的模型訓(xùn)練時(shí)間會(huì)成為制約應(yīng)用的因素。在測(cè)試時(shí)間(預(yù)測(cè)時(shí)間)方面兩者相差不大,但隨機(jī)森林略快。
五、結(jié)束語(yǔ)
本文基于全國(guó)中學(xué)生數(shù)學(xué)能力測(cè)試(NMATMS)的數(shù)據(jù)集,使用了GBDT和隨機(jī)森林算法,對(duì)學(xué)生的數(shù)學(xué)成績(jī)進(jìn)行預(yù)測(cè),并對(duì)兩種算法的性能進(jìn)行了對(duì)比和分析。實(shí)驗(yàn)結(jié)果表明,GBDT在準(zhǔn)確率、精確度、召回率和F1分?jǐn)?shù)四種指標(biāo)上都優(yōu)于隨機(jī)森林,說(shuō)明GBDT在學(xué)生數(shù)學(xué)成績(jī)預(yù)測(cè)方面有更好的準(zhǔn)確性和泛化能力。但隨機(jī)森林在訓(xùn)練時(shí)間上明顯優(yōu)于GBDT,說(shuō)明隨機(jī)森林有更高的計(jì)算效率。此外,本文使用了國(guó)內(nèi)最大規(guī)模的中學(xué)生數(shù)學(xué)能力測(cè)試數(shù)據(jù)集,覆蓋了不同地區(qū)、不同類(lèi)型、不同水平的中學(xué)生,反映了全國(guó)中學(xué)生數(shù)學(xué)能力的整體狀況和分布特征,具有較高的代表性和普遍性。
作者單位:朱梓銘 上海市寶山區(qū)上大附中
參考文獻(xiàn)
[1] 張文奇,王海瑞,朱貴富.基于因果推斷和多頭自注意力機(jī)制的學(xué)生成績(jī)預(yù)測(cè)[J].現(xiàn)代電子技術(shù),2023,46(17):111-116.
[2] 李果,張萌,康瑞.基于logistic回歸的學(xué)生成績(jī)預(yù)測(cè)模型研究[J].中國(guó)信息技術(shù)教育,2023(15):77-80.
[3] 陳亞文. 基于機(jī)器學(xué)習(xí)的中職學(xué)生成績(jī)預(yù)測(cè)與分層教學(xué)實(shí)踐研究[D].山東師范大學(xué),2023.
[4] 朱迪安. 數(shù)據(jù)驅(qū)動(dòng)下高校學(xué)生畫(huà)像構(gòu)建和成績(jī)預(yù)測(cè)方法研究[D].太原科技大學(xué),2023.
[5] 郭鳴飛. 基于成績(jī)?cè)鲋档母咝=處熃虒W(xué)質(zhì)量評(píng)價(jià)研究[D].浙江科技學(xué)院,2022.
[6] 楊淑瑩,李軍廣.基于注意力機(jī)制的門(mén)控循環(huán)單元網(wǎng)絡(luò)學(xué)生成績(jī)預(yù)測(cè)[J].天津理工大學(xué)學(xué)報(bào),2022,38(04):32-37.
[7] 王博.基于機(jī)器學(xué)習(xí)的數(shù)學(xué)成績(jī)預(yù)測(cè)系統(tǒng)設(shè)計(jì)[J].電腦知識(shí)與技術(shù),2022,18(25):26-28+32.
[8] 單春宇,張怡文,張婷,等.融合時(shí)間序列和協(xié)同過(guò)濾的學(xué)生成績(jī)預(yù)測(cè)方法[J].淮北師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2022,43(03):69-74.
[9] 徐琦,劉興紅,余亞烽,等.在線教育環(huán)境下基于學(xué)習(xí)者畫(huà)像的成績(jī)預(yù)測(cè)研究[J].考試研究,2022(05):89-99.
[10] 章劉,陳逸菲,袁加偉,等.Stacking集成學(xué)習(xí)模型在混合式成績(jī)分類(lèi)預(yù)測(cè)中的應(yīng)用[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2022,31(07):325-332.