杜佳恒 邱飛岳
摘要:學(xué)生的成績是教師優(yōu)化教學(xué)過程、調(diào)整教學(xué)決策的重要標準,文章運用了多種機器學(xué)習(xí)算法對學(xué)生的數(shù)學(xué)成績進行建模,通過比較模型的準確率、精確率、召回率、F1-Score,最終確定了人工神經(jīng)網(wǎng)絡(luò)是最優(yōu)的模型。通過對數(shù)據(jù)特征重要性評估,得出了影響學(xué)生成績的主要因素是母親的工作、父親的工作、出勤量、掛科數(shù)、健康狀況、出去玩的頻率及周飲酒量的結(jié)論。
關(guān)鍵詞:機器學(xué)習(xí);成績預(yù)測;支持向量機;樸素貝葉斯網(wǎng)絡(luò);決策樹;神經(jīng)網(wǎng)絡(luò)
中圖分類號:G642.0? ? ?文獻標志碼:A? ? ?文章編號:1674-9324(2020)16-0101-02
一、引言
近年來,隨著信息技術(shù)的發(fā)展,人類正從IT時代走向DT時代,教育相關(guān)的數(shù)據(jù)在內(nèi)容與數(shù)量上有了巨大的增長,越來越多的研究者開始對教育數(shù)據(jù)進行探索和分析,目的是發(fā)現(xiàn)教育的新特點、新規(guī)律,以提高教學(xué)水平和教育質(zhì)量。本研究將機器學(xué)習(xí)算法方面的內(nèi)容應(yīng)用到教育領(lǐng)域中,通過對學(xué)生數(shù)學(xué)成績數(shù)據(jù)進行預(yù)處理、特征選擇、模型構(gòu)建及評估來預(yù)測學(xué)生的成績,從而為老師提高學(xué)生成績提供一定的建議。
二、研究方法
本次研究將采用多種機器學(xué)習(xí)算法對學(xué)生的成績進行預(yù)測,包括支持向量機、樸素貝葉斯網(wǎng)絡(luò)、決策樹、人工神經(jīng)網(wǎng)絡(luò)。通過對各個模型的對比,最終選擇出一個最優(yōu)的模型,并根據(jù)該最優(yōu)模型為老師的教和學(xué)生的學(xué)提供一定的指導(dǎo)。
三、實驗數(shù)據(jù)
本次研究中用到的數(shù)據(jù)集來源UCIMachineLearningRepository,它是一個多變量數(shù)據(jù)集,由30個特征列和一個目標列構(gòu)成,包括395條學(xué)生數(shù)學(xué)成績及一些影響成績的相關(guān)數(shù)據(jù),如人口統(tǒng)計學(xué)、社會和學(xué)校相關(guān)的數(shù)據(jù)等。
四、數(shù)據(jù)預(yù)處理與特征選擇
首先對數(shù)據(jù)進行探索性分析,檢查數(shù)據(jù)集有沒有空缺值及異常值;對于目標列,這里按照大于10分設(shè)為1,其他為0的方式進行量化,目的是通過訓(xùn)練,找出可以預(yù)測分數(shù)的模型。由于該數(shù)據(jù)集包含不同內(nèi)容和范圍的數(shù)據(jù),所以如何對其進行歸一化就顯得特別重要,因為進行了歸一化后的數(shù)據(jù)可以使模型更加有效地進行建模。對于文本數(shù)據(jù),我們首先可以將其數(shù)字化,而后對其進行獨熱編碼。
其次是特征選擇,特征選擇主要的特點是選擇一個子類的特性,可以作為一個輸入數(shù)據(jù),并減少不合適的數(shù)據(jù),此步驟有助于提高對給定數(shù)據(jù)集預(yù)測的準確性。在本研究中,我們采用隨機森林計算特征重要性程度,以檢驗?zāi)男┨卣鲗W(xué)生的成績最重要。圖1顯示了基于熵的特征重要性。在特征選擇過程中,需要選擇高等級特征,排除其他特征。
五、成績預(yù)測模型構(gòu)建
基于上述預(yù)處理后的數(shù)據(jù),采用10折交叉驗證的方式,分別采用支持向量機、樸素貝葉斯網(wǎng)絡(luò)、決策樹和神經(jīng)網(wǎng)絡(luò)進行了實驗。
實驗運行的環(huán)境是:Windows10家庭版、Python3.7、Inteli7-7500U以及8G內(nèi)存。預(yù)測模型各個指標的性能如表1和表2所示。這里使用的性能評價標準為準確率、精確率、召回率、F1-Score。準確率是用來衡量模型對數(shù)據(jù)集中樣本預(yù)測正確的比例;精確率是指被預(yù)測為正例的樣本中有多少是真正的正例;召回率是用來評判你有沒有把樣本中所有的真的正例全部找出來,指的是預(yù)測為某一類別的真實類別占所有真實類別的比例;F1-Score是指精確率與召回率的調(diào)和平均值。
六、總結(jié)
本文通過多種算法對學(xué)生成績進行了建模,通過比較模型的準確率、精確率、召回率、F值,確定了人工神經(jīng)網(wǎng)絡(luò)為最佳的分類模型,并得出了影響成績的主要特征。通過實驗結(jié)果,可以為學(xué)校管理者、教師開展精準教學(xué)提供一定的參考,由于本次數(shù)據(jù)集不大,會影響模型的準確率,接下來將會收集更多數(shù)據(jù)進行建模。
參考文獻:
[1]胡祖輝,徐毅.大數(shù)據(jù)背景下高校教育數(shù)據(jù)的分析與應(yīng)用研究[J].現(xiàn)代教育科學(xué),2017,(01):109-114.
[2]徐瑋.大數(shù)據(jù)對高等教育的影響和挑戰(zhàn)[J].教育教學(xué)論壇,2013,(37):4-5.
[3]ROMERO C,LOPEZ MI.Predictingstudents'final performance from participation in on-line discussion forums[J].Computers & Education,2013,(68):458-472.
Research on the Application of Machine Learning in Mathematics Achievement Prediction
DU Jia-heng,QIU Fei-yue
(Zhejiang University Technology,Hangzhou,Zhejiang 310014,Chian)
Abstract:Students' performance is an important standard for teachers to optimize teaching process and adjust teaching decision-making.In this paper,a variety of machine learning algorithms are used to model students' mathematical performance.By comparing the accuracy,accuracy,recall rate and F1 score of the model,it is finally determined that the artificial neural network is the optimal model.Through the evaluation of the importance of data characteristics,the main factors affecting students' performance are mother's work,father's work,attendance,number of subjects,health status,frequency of going out to play and weekly alcohol consumption.
Key words:machine learning;performance prediction;support vector machine;naive bayesian network;decision tree;neural network
收稿日期:2019-06-10
作者簡介:杜佳恒(1994-),男(漢族),浙江杭州人,浙江工業(yè)大學(xué)教育科學(xué)與技術(shù)學(xué)院,碩士研究生在讀,研究方向:教育大數(shù)據(jù)與學(xué)習(xí)分析。
通訊作者:邱飛岳。