馮廣 羅時強(qiáng) 陳卓 江家懿 伍文燕
摘? ?要:針對目前成績預(yù)測方法中存在準(zhǔn)確率不高、實(shí)施性不強(qiáng)、可行性不佳等問題,文章提出一種基于淺層神經(jīng)網(wǎng)絡(luò)的預(yù)測模型。該模型采用調(diào)整的共軛梯度優(yōu)化算法,將輸入層與輸出層進(jìn)行連接,然后應(yīng)用感知器進(jìn)行學(xué)習(xí)成績預(yù)測。與傳統(tǒng)方法相比,該預(yù)測方法精度和準(zhǔn)確率更高,而且實(shí)用性更強(qiáng),能為后續(xù)優(yōu)化與發(fā)展網(wǎng)絡(luò)在線教育提供參考。
關(guān)鍵詞:淺層神經(jīng)網(wǎng)絡(luò);優(yōu)化算法;成績預(yù)測;在線教育
中圖分類號:G434;TP183? ?文獻(xiàn)標(biāo)志碼:A? ? 文章編號:1673-8454(2022)08-0086-09
一、引言
隨著信息化教育的快速發(fā)展,越來越多的線下教育方式轉(zhuǎn)變成線上或者線上線下融合的方式。線上教育發(fā)展如此之快,源于線上教育的幾個優(yōu)點(diǎn):線上教育無時間空間限制;多元化課程體系;可緩解教育資源不均問題。但是,在網(wǎng)絡(luò)帶來好處的同時,在線教育也存在弊端,很多學(xué)生存在學(xué)習(xí)注意力不集中、自制力不夠、學(xué)習(xí)效率低等問題,導(dǎo)致學(xué)習(xí)進(jìn)度跟不上,通常使用在線學(xué)習(xí)預(yù)警與干預(yù)系統(tǒng)來解決上述問題,而在線學(xué)習(xí)預(yù)測是該系統(tǒng)的核心。現(xiàn)有的在線學(xué)習(xí)系統(tǒng)預(yù)測模型有準(zhǔn)確率不高、實(shí)施性不強(qiáng)、可行性不佳等三個問題,不利于實(shí)踐應(yīng)用。
本文分析學(xué)習(xí)管理系統(tǒng)(Learning Management System,簡稱LMS)提供的數(shù)據(jù)集,采用淺層神經(jīng)網(wǎng)絡(luò)(Shallow Neural Network,簡稱SNN)模型,通過學(xué)習(xí)數(shù)據(jù)集進(jìn)行預(yù)測學(xué)習(xí)者未來學(xué)習(xí)情況的相關(guān)性研究,為教師后期干預(yù)學(xué)習(xí)者學(xué)習(xí)進(jìn)度提供理論依據(jù)。在線成績預(yù)測方法采用淺層神經(jīng)網(wǎng)絡(luò)模型研究準(zhǔn)確率高、實(shí)用性強(qiáng)、可行性好,這也是本文采用SNN預(yù)測模型的主要原因。
二、預(yù)測模型研究分析
(一)相關(guān)研究
目前,已有很多研究者對教育大數(shù)據(jù)分析相關(guān)工作進(jìn)行了大量研究,教育大數(shù)據(jù)的研究也從理論層面走向應(yīng)用層面。[1]如何對在線學(xué)習(xí)行為數(shù)據(jù)進(jìn)行提取和有效的分析評價,是目前在線教育平臺共同面臨的一個難題。[2]研究者基于教室監(jiān)控視頻分析教學(xué)主題與學(xué)生集中度的關(guān)系。例如,有學(xué)者為了更好地提高學(xué)生線上學(xué)習(xí)的集中程度,通過檢測和跟蹤學(xué)生的臉部表情,分析教學(xué)主題集中程度與教師教學(xué)特征的關(guān)系,更好地提高學(xué)生的注意力集中水平。[3]還有研究者通過研究學(xué)生行為特征數(shù)據(jù)集,來探討各種行為特征與學(xué)習(xí)的影響。例如,有學(xué)者以edX數(shù)據(jù)集為基礎(chǔ),探討與分析學(xué)生各種學(xué)習(xí)行為屬性數(shù)據(jù)之間的關(guān)聯(lián)性,以及學(xué)生的各種特征屬性對學(xué)習(xí)效果的影響。[4]也有研究者使用動態(tài)貝葉斯算法,提出一種條件概率預(yù)測模型。例如,有學(xué)者構(gòu)建貝葉斯模型,預(yù)測學(xué)生未來成績的概率分布情況。[5]有學(xué)者通過MOOC的學(xué)生行為數(shù)據(jù),進(jìn)行認(rèn)知診斷分析,用來確定學(xué)生的學(xué)習(xí)情況,分析出互動的學(xué)生更有機(jī)會通過這門課程。[6]有學(xué)者采集823名大學(xué)生在線學(xué)習(xí)數(shù)據(jù)、一卡通消費(fèi)和借閱圖書數(shù)據(jù),通過五種機(jī)器學(xué)習(xí)模型對學(xué)習(xí)績效進(jìn)行預(yù)測分析,構(gòu)建一種決策樹和深度神經(jīng)網(wǎng)絡(luò)結(jié)合的學(xué)習(xí)診斷模型,來實(shí)現(xiàn)教學(xué)干預(yù)。[7]有學(xué)者指出,通過分析學(xué)生學(xué)習(xí)行為數(shù)據(jù),預(yù)測學(xué)生的表現(xiàn)情況能夠幫助教師更有效地了解學(xué)生的具體學(xué)習(xí)情況,并能夠?qū)ζ溥M(jìn)行干預(yù)教學(xué),以提高學(xué)生成績。[8]通過在線學(xué)習(xí)數(shù)據(jù)預(yù)測建模找出影響學(xué)生學(xué)習(xí)成績的因素,為教師了解學(xué)生實(shí)際學(xué)習(xí)情況提供幫助,也助于推進(jìn)學(xué)生學(xué)業(yè)預(yù)警,為提高網(wǎng)絡(luò)教學(xué)質(zhì)量提供策略。[9-14]在預(yù)測準(zhǔn)確率提升方法上,有學(xué)者采用樸素貝葉斯、前饋反向傳播神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、決策樹四種機(jī)器學(xué)習(xí)的分類算法,分析出四種方法的準(zhǔn)確度、召回率、F值的精確度在84.96%~99.99%之間。[14]
(二)研究模型
在線教學(xué)主要是學(xué)生基于線上教育資源展開的自主學(xué)習(xí)活動,這要求學(xué)生自制能力強(qiáng)、學(xué)習(xí)注意力集中且不受外界環(huán)境影響,有效地完成在線學(xué)習(xí)任務(wù)、達(dá)到預(yù)期目標(biāo)。在線學(xué)習(xí)也需要學(xué)生具備一些簡單的計(jì)算機(jī)操作能力,并且學(xué)習(xí)環(huán)境、網(wǎng)絡(luò)問題、學(xué)習(xí)設(shè)備等在一定程度上會影響學(xué)生的在線學(xué)習(xí)效率。因此,本文將影響學(xué)生在線學(xué)習(xí)成績的16個特征屬性作為研究對象,分析學(xué)生特征屬性與學(xué)生成績之間的關(guān)聯(lián)性。模型先從16個特征屬性中提取出影響學(xué)習(xí)成績的主要特征屬性,通過感知器模型訓(xùn)練一組數(shù)據(jù),并得到一個分類模型,將未訓(xùn)練的數(shù)據(jù)導(dǎo)入分類模型,通過分類模型預(yù)測學(xué)生成績,調(diào)整學(xué)生學(xué)習(xí)屬性與學(xué)習(xí)成績之間的關(guān)系,可以對成績較差的學(xué)生進(jìn)行預(yù)警并提供相應(yīng)的幫助。
三、學(xué)習(xí)行為特征數(shù)據(jù)提取與分析
(一)數(shù)據(jù)來源
本研究采用LMS提供的數(shù)據(jù)集,數(shù)據(jù)來源于加州大學(xué)歐文分校的機(jī)器學(xué)習(xí)庫[15][16](UC Irvine Machine Learning Repository),記錄學(xué)生學(xué)業(yè)成績數(shù)據(jù)集(xAPI-Edu-Data),該數(shù)據(jù)集記錄480條數(shù)據(jù),涉及學(xué)生16個特征屬性及其成績等級。成績屬性:成績?yōu)镠(成績在90到100之間)的人數(shù)為142人、成績?yōu)镸(成績在70到89之間)的人數(shù)為211人、成績?yōu)長(成績在0到69)的人數(shù)為127人;性別屬性:男生305人,女生175人;國籍屬性:來自科威特(179人)、約旦(172人)等主要國家;教育階段:高中33人、初中284人、小學(xué)199人。還包括教育階段、舉手發(fā)言次數(shù)、訪問資源次數(shù)、查看公告次數(shù)、參加討論小組次數(shù)、學(xué)生缺席天數(shù)等特征屬性。對數(shù)據(jù)集進(jìn)行分析,這16個特征屬性與學(xué)生成績有相關(guān)性或者弱相關(guān)性,基于此進(jìn)行相關(guān)性分析,提取與學(xué)習(xí)成績相關(guān)的主要特征屬性。
(二)數(shù)據(jù)標(biāo)準(zhǔn)化
因?yàn)楸疚牡臄?shù)據(jù)集中包含數(shù)值特征屬性和字符特征屬性,并且不同屬性數(shù)值大小不能直接進(jìn)行比較,為了避免不同類型的特征屬性和不同單位對預(yù)測模型的干擾,所以在進(jìn)行數(shù)據(jù)分析時先對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,目的就是將原始數(shù)據(jù)經(jīng)過處理使其處于一定范圍內(nèi),比如[0,1]或[-1,1]之間。這種標(biāo)準(zhǔn)化處理能消除不同特征屬性之間維度不同對結(jié)果造成的影響,并且能夠更有效地減少后續(xù)算法迭代次數(shù),加快尋求最優(yōu)解的速度。本文對原始數(shù)據(jù)使用Z-Score標(biāo)準(zhǔn)化,采用的軟件為SPSS,基于原始數(shù)據(jù)計(jì)算出均值μ(Mean)和標(biāo)準(zhǔn)差σ(Standard Deviation),然后進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化。經(jīng)過處理的數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布,即Xi~μ(0,1),處理數(shù)據(jù)的均值為0,標(biāo)準(zhǔn)差為1。 Z-Score標(biāo)準(zhǔn)化公式如下:
Yi=■(1)
(三)數(shù)據(jù)處理
數(shù)據(jù)集中包含學(xué)生學(xué)業(yè)成績外的16個特征數(shù)據(jù),為了更好地研究和分析數(shù)據(jù),減少特征數(shù)據(jù)屬性的個數(shù),本文采用相關(guān)性分析法提取出影響最終考試的特征屬性。將已經(jīng)進(jìn)行標(biāo)準(zhǔn)化的學(xué)生特征屬性數(shù)據(jù)與考試最終等級(Grade)進(jìn)行Pearson相關(guān)性分析,相關(guān)分析采用皮爾遜積差相關(guān)法[17][18],相關(guān)系數(shù)的計(jì)算公式如下:
ρXY=■(2)
當(dāng)相關(guān)系數(shù)ρXY的值越接近于1,表示兩個變量之間的正相關(guān)程度越高;當(dāng)相關(guān)系數(shù)ρXY的值越接近于-1,表示兩個變量之間的負(fù)相關(guān)程度越高;當(dāng)相關(guān)系數(shù)ρXY的值越接近于0,表示兩個變量之間的相關(guān)程度越低;當(dāng)相關(guān)系數(shù)ρXY=0時,表明變量X和變量Y之間不存在相關(guān)關(guān)系,對16個特征屬性與考試等級進(jìn)行Pearson相關(guān)性分析,分析結(jié)果如表1所示。
由Pearson相關(guān)性分析的結(jié)果可知,在置信度(雙側(cè))為0.01時,選取出9個特征屬性作為最終影響成績的主要指標(biāo)。影響成績等級的9個具體指標(biāo)如表2所示,為方便數(shù)據(jù)分析,下面的數(shù)據(jù)分析結(jié)果均以字母簡稱形式出現(xiàn)。基于皮爾遜積差相關(guān)分析可知,這9個特征屬性與成績等級(Grade)相關(guān)性是顯著的。
從數(shù)據(jù)分析可知,這九個特征屬性與學(xué)生學(xué)業(yè)成績是有關(guān)聯(lián)性的,這些特征屬性從學(xué)習(xí)態(tài)度、學(xué)習(xí)環(huán)境、學(xué)習(xí)效率等方面對學(xué)生學(xué)業(yè)成績造成影響。因此,可以提取出這九個屬性作為主要影響因素,方便統(tǒng)計(jì)分析和減少計(jì)算維度問題。
四、預(yù)測模型建立
(一)神經(jīng)網(wǎng)絡(luò)算法
神經(jīng)網(wǎng)絡(luò)作為機(jī)器學(xué)習(xí)的重要技術(shù),融合多種學(xué)科領(lǐng)域的算法,包括輸入層、隱含層、輸出層,通過該結(jié)構(gòu)能夠進(jìn)行復(fù)雜數(shù)據(jù)信息處理。其中,輸入層和輸出層分別具有接收輸入的外部信息、輸出神經(jīng)網(wǎng)絡(luò)的處理結(jié)果的功能。三層均可由若干個神經(jīng)元構(gòu)成,將這三層以特定的方法連接起來,并且設(shè)置偏移量和權(quán)重,這樣就能形成神經(jīng)網(wǎng)絡(luò)。[19]這樣的連接關(guān)系使神經(jīng)網(wǎng)絡(luò)可以處理復(fù)雜的問題,本文通過神經(jīng)網(wǎng)絡(luò)預(yù)測功能,來預(yù)測學(xué)生學(xué)業(yè)成績等級。
(二)初始化權(quán)重
數(shù)據(jù)初始值選取適當(dāng)?shù)臄?shù)值非常重要,不恰當(dāng)?shù)剡x擇初始值可能最后導(dǎo)致模型不能收斂。初始化權(quán)重不會取同一個值,也不會取0,在選擇權(quán)重時權(quán)重初始值為非常接近0的小數(shù)。本文采用調(diào)整的共軛梯度優(yōu)化算法,具體初始化權(quán)重?cái)?shù)值如表3所示。
(三)淺層神經(jīng)網(wǎng)絡(luò)SNN模型
本文數(shù)據(jù)分析采用的激活函數(shù)為雙曲正切函數(shù),激活函數(shù)公式如下:
φ(x)=Tanh■=■(3)
在人工智能領(lǐng)域,Tanh函數(shù)是一種常見的激活函數(shù),對于解決梯度消失問題很有幫助,所以,本文采用Tanh作為淺層神經(jīng)網(wǎng)絡(luò)隱藏層的激活函數(shù)。
本文神經(jīng)網(wǎng)絡(luò)將采用三層神經(jīng)網(wǎng)絡(luò),包含輸入層、隱藏層、輸出層,即淺層神經(jīng)網(wǎng)絡(luò)。圖1中輸入為9個,即上文分析提取的9個特征屬性作為輸入變量;輸出為3個,即H(成績在90到100之間)、M(成績在70到89之間)、L(成績在0到69之間)。為了敘述方便,此處引入如下約定:設(shè)輸入單元特征變量為Ik(k=1,2,……,9),分別對應(yīng)提取出來的9個特征變量。相應(yīng)的輸出單元狀態(tài)記為Oi(i=1,2,3),分別對應(yīng)學(xué)生的三個成績等級:H、M、L。從中間層到輸出層的權(quán)記為Wij,從輸出層到中間層的權(quán)記為Wjk,隱藏層的特征變量為Hj(j=1,2,……,n),神經(jīng)網(wǎng)絡(luò)預(yù)測模型如圖1所示。
如果Wij、■均已給定,那么對應(yīng)于任何一組確定的輸入(I1,I2,……,I9),網(wǎng)絡(luò)中所有單元的取值不難確定。從輸入層到隱藏層的輸出函數(shù)如下:
■=■I1+■I2 +……+■I9 +b1
■=■I1+■I2 +……+■I9 +b2(4)
■=■I1+■I2 +……+■I9 +bj
此時,隱藏層相應(yīng)的輸入函數(shù)為:
H1=φ(■)=φ(■I1+■I2+……+■I9+b1)
H2=φ(■)=φ(■I1+■I2+……+■I9+b2)(5)
Hj=φ(■)=φ(■I1+■I2+……+■I9+bj)
由此可得,從隱藏層到輸出層的輸出單元所接到的疊加信號函數(shù)如下:
h1=■WijH1=■Wijφ(H1)
h2=■WijH2=■Wijφ(H2)(6)
hj=■WijHj=■Wijφ(Hj)
得到神經(jīng)網(wǎng)絡(luò)的最終輸出函數(shù)如下:
O1=φ(h1)=φ■Wij φ(■■I1)
O2=φ(h2)=φ■Wij φ(■■I2)(7)
O3=φ(h3)=φ■Wij φ(■■I3)
五、實(shí)驗(yàn)結(jié)果
(一)預(yù)測結(jié)果分析
驗(yàn)證本文所提出的成績預(yù)測模型,先對數(shù)據(jù)中成績等級的高(H)、中(M)、低(L)分別采用3、2、1替代。使用SPSS軟件中的“分析—神經(jīng)網(wǎng)絡(luò)—多層感知器”功能,對9個特征屬性進(jìn)行數(shù)據(jù)分析,構(gòu)建出三層神經(jīng)網(wǎng)絡(luò)模型——“輸入層—隱藏層—輸出層”,即淺層神經(jīng)網(wǎng)絡(luò),實(shí)驗(yàn)仿真結(jié)果如圖2所示。
從圖2中的神經(jīng)網(wǎng)絡(luò)預(yù)測模型可知,本研究模擬出的隱藏層的層數(shù)為1,隱藏層神經(jīng)元的個數(shù)為6。由SPSS數(shù)據(jù)分析軟件預(yù)測出學(xué)習(xí)者成績等級分布,因?yàn)閿?shù)據(jù)較多,所以本文只展示部分實(shí)際值與預(yù)測值的結(jié)果,預(yù)測結(jié)果如表4所示。
將480份學(xué)生特征數(shù)據(jù)集分成兩大部分:訓(xùn)練集和驗(yàn)證集。在實(shí)際分析過程中,采取67.90%的數(shù)據(jù)作為訓(xùn)練集,即326份數(shù)據(jù)作為訓(xùn)練集;32.10%的數(shù)據(jù)作為驗(yàn)證集,即154份數(shù)據(jù)作為驗(yàn)證集。
在訓(xùn)練集中,SNN模型下分類預(yù)測成績等級為H的召回率和精確率為(63.81%,74.40%)、成績等級為M的召回率和精確率為(87.6%,73.44%)、成績等級為L的召回率和精確率為(63.90%,73.44%),準(zhǔn)確率為73.3%,訓(xùn)練集分類結(jié)果的混淆矩陣如表5所示。
在驗(yàn)證集中,SNN模型下分類預(yù)測成績等級為H的召回率和精確率為(75.00%,72.22%)、成績等級為M的召回率和精確率為(84.20%,86.49%)、成績等級為L的召回率和精確率為(68.80%,69.84%),準(zhǔn)確率為74.70%,驗(yàn)證集分類結(jié)果的混淆矩陣如表6所示。
(二)數(shù)據(jù)集分析
從缺席天數(shù)與成績等級的關(guān)系進(jìn)行分析,由數(shù)據(jù)分析結(jié)果可知,缺席天數(shù)在7天以下的學(xué)習(xí)成績大部分集中于H(成績在90到100之間)和M(成績在70到89之間),大部分學(xué)生成績都是屬于中等偏上;缺席天數(shù)在7天以上的成績大部分集中于L(成績在0到69之間),大部分學(xué)生學(xué)習(xí)成績都是較差的。所以針對教師,建議應(yīng)該對學(xué)生上課缺席管理制度加以完善,督促學(xué)生完成正常上課任務(wù)。缺席天數(shù)人數(shù)與成績等級關(guān)系數(shù)據(jù)分析結(jié)果如表7所示。
從父母對學(xué)校滿意程度與成績等級的關(guān)系進(jìn)行分析,由數(shù)據(jù)分析結(jié)果可知,父母對學(xué)校滿意,其子女即學(xué)生學(xué)習(xí)成績大部分集中于H(成績在90到100之間)和M(成績在70到89之間);發(fā)現(xiàn)父母對學(xué)校不滿意,相關(guān)學(xué)生成績大部分集中于M(成績在70到89之間)和L(成績在0到69之間)。所以對于父母來說,建議他們應(yīng)該傳播積極的思想,使其子女即學(xué)生能對學(xué)校擁有自信心。父母對學(xué)校滿意程度人數(shù)與學(xué)習(xí)成績關(guān)系數(shù)據(jù)分析結(jié)果如表8所示。
從參加討論小組與學(xué)習(xí)成績等級的關(guān)系進(jìn)行分析,由數(shù)據(jù)分析結(jié)果可知,參加討論小組次數(shù)在70~99次的學(xué)生學(xué)習(xí)成績大部分集中于H(成績在90到100之間)和M(成績在70到89之間),只有個位數(shù)的人數(shù)處于L(成績在0到69之間);而參加討論小組次數(shù)在70次以下的學(xué)生成績大部分集中于M(成績在70到89之間)和L(成績在0到69之間)。所以針對學(xué)生,應(yīng)該增強(qiáng)學(xué)生對討論活動的積極性,使其在學(xué)習(xí)時更加投入。學(xué)生參加討論小組次數(shù)與學(xué)生成績關(guān)系數(shù)據(jù)分析結(jié)果如表9所示。
從訪問資源情況與成績等級的關(guān)系進(jìn)行分析,由數(shù)據(jù)分析結(jié)果可知,訪問資源次數(shù)在70~99次的學(xué)生的成績分布在H(成績在90到100之間)和M(成績在70到89之間),并且只有5個學(xué)生成績?yōu)長(成績在0到69之間);訪問資源次數(shù)在70次以下的學(xué)生等級大多數(shù)分布在M(成績在70到89之間)與L(成績在0到69之間),少數(shù)成績較高。所以,針對學(xué)生的主動性問題,教師可以督促學(xué)生訪問和下載學(xué)習(xí)資源,父母也可以督促學(xué)生主動獲取學(xué)習(xí)資源。訪問資源次數(shù)與成績等級關(guān)系如表10所示。
(三)模型驗(yàn)證
本文提出采用淺層神經(jīng)網(wǎng)絡(luò)預(yù)測模型,根據(jù)特征數(shù)據(jù)集擬合出該模型的ROC(Receiver Operating Characteristic)曲線,如圖3所示。ROC曲線所圍成的面積AUC(Area Under Curve)可以用來評價模型的好壞,曲線距離越靠近左上方時AUC面積越接近1,預(yù)測的準(zhǔn)確率越高;反之,曲線越靠近右下方時AUC面積越接近0,預(yù)測的準(zhǔn)確率越低。本文淺層神經(jīng)網(wǎng)絡(luò)模型成績?nèi)齻€等級H、M、L靠近左上角,表明模型預(yù)測準(zhǔn)確率較高。學(xué)習(xí)成績等級為H的AUC值為91.50%、成績等級為M的AUC值為97.00%、成績?yōu)長的AUC值為83.50%,該數(shù)據(jù)結(jié)果表明神經(jīng)網(wǎng)絡(luò)能夠?qū)崿F(xiàn)預(yù)測,達(dá)到預(yù)期想要的結(jié)果。
Lift是用來評價預(yù)測模型的結(jié)果是否有效的一個標(biāo)準(zhǔn)。Lift衡量的是一個模型(或規(guī)則)對目標(biāo)中“響應(yīng)”的預(yù)測能力優(yōu)于隨機(jī)選擇的倍數(shù),1作為界線,大于1的Lift表示該模型比隨機(jī)選擇捕捉更多的“響應(yīng)”,等于1的Lift表示該模型的表現(xiàn)獨(dú)立于隨機(jī)選擇,小于1則表示該模型比隨機(jī)選擇捕捉更少的“響應(yīng)”。因此,當(dāng)Lift(提升指數(shù))越大,模型的預(yù)測效果就越好,當(dāng)Lift一直保持大于1的數(shù)值時,即曲線足夠陡峭時,所得的預(yù)測模型的效果比較好。提升曲線如圖4所示,該曲線的Lift都大于1,預(yù)測模型的效果比較好。所以,采用淺層神經(jīng)網(wǎng)絡(luò)模型預(yù)測該數(shù)據(jù)集的真實(shí)性非常高,能夠在學(xué)習(xí)行為分析方面處于一定的應(yīng)用價值水平。
(四)模型對比
從神經(jīng)網(wǎng)絡(luò)的預(yù)測效果來看,采用感知器構(gòu)建預(yù)測模型,預(yù)測模型的精確率達(dá)到(72.22%,86.49%,69.84%),準(zhǔn)確率百分比為74.70%,相比其他學(xué)者研究在線學(xué)業(yè)成績采用神經(jīng)網(wǎng)絡(luò)模型的準(zhǔn)確率為65.81%和決策樹算法的準(zhǔn)確率為69.73%,[20]本文的總體預(yù)測成績準(zhǔn)確率分別提升8.89%和4.97%;還有學(xué)者采用8種分類算法進(jìn)行學(xué)習(xí)成績預(yù)測,[21]采用不同的算法工具的學(xué)習(xí)結(jié)果預(yù)測準(zhǔn)確率均在60.19%~73.15%,本文的預(yù)測水平提升1.55%~14.51%;還有學(xué)者采用4種機(jī)器學(xué)習(xí)分類預(yù)測,結(jié)果在68.50%~72.40%,本文的預(yù)測水平提升2.30%~6.20%;本文淺層神經(jīng)網(wǎng)絡(luò)在準(zhǔn)確率、召回率方面,與其他機(jī)器學(xué)習(xí)算法預(yù)測效果對比如圖5所示。由圖5可知,本文的淺層神經(jīng)網(wǎng)絡(luò)從準(zhǔn)確率和召回率兩個方面比較,準(zhǔn)確率和召回率都有所提升,優(yōu)于其他機(jī)器學(xué)習(xí)預(yù)測算法,能夠用于學(xué)習(xí)行為診斷和學(xué)習(xí)干預(yù)的界定。并且為了驗(yàn)證模型的預(yù)測性能,本文計(jì)算淺層神經(jīng)網(wǎng)絡(luò)的ROC面積下的AUC值為(91.50%,97.00%,83.50%),并且分類的三個成績預(yù)測等級AUC值均在80.00%以上,表示預(yù)測性能較好,相比上述學(xué)者的ROC面積為85.00%,本文的預(yù)測穩(wěn)定性也有提升。
六、結(jié)語
學(xué)生學(xué)習(xí)成績預(yù)測和評價是所有教育行業(yè)研究者共同關(guān)注的話題,而在當(dāng)今網(wǎng)絡(luò)在線學(xué)習(xí)教育快速發(fā)展的時代背景下,學(xué)生在網(wǎng)絡(luò)教育平臺上積累多特征屬性數(shù)據(jù)信息,記錄學(xué)習(xí)者的在線學(xué)習(xí)行為數(shù)據(jù)并加以分類,對研究學(xué)生學(xué)習(xí)成績預(yù)測具有重要意義。[22]學(xué)習(xí)成績預(yù)測不止步于計(jì)算準(zhǔn)確率,更重要的是根據(jù)預(yù)測結(jié)果給學(xué)生提供個性化教學(xué)。本研究提供的利用淺層神經(jīng)網(wǎng)絡(luò)方法,能對學(xué)生學(xué)習(xí)的成績進(jìn)行有效預(yù)測。從數(shù)據(jù)結(jié)果可以看出,該模型可以針對不同學(xué)生的學(xué)習(xí)行為數(shù)據(jù)加以分析,來有效預(yù)測學(xué)生的成績等級;教師可以通過學(xué)習(xí)管理系統(tǒng)的數(shù)據(jù)進(jìn)行跟蹤,并針對學(xué)習(xí)進(jìn)度較慢的學(xué)生進(jìn)行提醒、對學(xué)習(xí)較差的學(xué)生進(jìn)行適當(dāng)人為干預(yù),引導(dǎo)學(xué)生與教師進(jìn)行交流互動,激發(fā)學(xué)生的學(xué)習(xí)興趣,優(yōu)化學(xué)生的學(xué)習(xí)行為路徑與方向,幫助其合理安排學(xué)習(xí)計(jì)劃,采取不同的策略,實(shí)現(xiàn)個性化學(xué)習(xí)。
參考文獻(xiàn):
[1]王文晶,閆俊伢.基于大數(shù)據(jù)的在線學(xué)習(xí)行為分析與干預(yù)研究[J].山西電子技術(shù),2020(6):69-71.
[2]曾海,鄭燕芬,黃月盈.基于大數(shù)據(jù)理念的教師在線學(xué)習(xí)行為分析與研究[J].廣州廣播電視大學(xué)學(xué)報,2020(6):29-33.
[3]BOHONGYANG, ZEPINGYAOHONG, LU YAQIAN,et al. In-classroom learning analytics based on student behavior, topic and teaching characteristic mining[J]. Pattern Recognition Letters, 2020,129:224-231.
[4]孫琳,張巧榮,鄭婭峰.基于edX開放數(shù)據(jù)的學(xué)習(xí)者在線學(xué)習(xí)行為分析[J].軟件導(dǎo)刊, 2020(12):190-194.
[5]樊一娜,郎波.利用動態(tài)貝葉斯網(wǎng)絡(luò)實(shí)現(xiàn)網(wǎng)絡(luò)在線學(xué)習(xí)成績的概率預(yù)測方法[J].計(jì)算機(jī)與數(shù)字工程,2020,48(10):2313-2315,2326.
[6]HONGLI LI, MIN KYU KIM, YAO XIONG. Individual learning vs interactive learning: a cognitive diagnostic analysis of MOOC students learning behaviors[J]. American Journal of Distance Education, 2020,34(2):121-136.
[7]胡航,杜爽,梁佳柔,等.學(xué)習(xí)績效預(yù)測模型構(gòu)建:源于學(xué)習(xí)行為大數(shù)據(jù)分析[J].中國遠(yuǎn)程教育,2021(4):8-20,76.
[8]DIETZ-UHLER B, HURN JANET E. Using learning analytics to predict (and improve) student success: a faculty perspective[J]. Journal of Interactive Online Learning, 2013,12(1):17-26.
[9]陳子健,朱曉亮.基于教育數(shù)據(jù)挖掘的在線學(xué)習(xí)者學(xué)業(yè)成績預(yù)測建模研究[J].中國電化教育,2017(12):75-81,89.
[10]羅達(dá)雄,葉俊民,郭霄宇,等.ARPDF:基于對話流的學(xué)習(xí)者成績等級預(yù)測算法[J].小型微型計(jì)算機(jī)系統(tǒng),2019,40(2):267-274.
[11]王鳳芹,李瑛,韓慶龍.基于k-近鄰優(yōu)化算法慕課學(xué)習(xí)成績預(yù)測研究[J].計(jì)算機(jī)與數(shù)字工程,2019,47(4):785-788.
[12]田浩,武法提.學(xué)習(xí)分析視域下學(xué)習(xí)預(yù)測研究的發(fā)展圖景[J].現(xiàn)代教育技術(shù),2020,30(11):98-104.
[13]張冰珠,李浩,侯賀祥,等.基于數(shù)據(jù)庫和機(jī)器學(xué)習(xí)技術(shù)的高校學(xué)生成績預(yù)警系統(tǒng)設(shè)計(jì)[J].中醫(yī)教育,2021,40(3):63-67.
[14]龔藝,楊娟,紀(jì)娟.基于學(xué)習(xí)分析技術(shù)的學(xué)習(xí)預(yù)警系統(tǒng)研究與設(shè)計(jì)[J].太原城市職業(yè)技術(shù)學(xué)院學(xué)報,2021(2):53-56.
[15]AMRIEH, ELAF ABU, THAIR HAMTINI, et al. Mining educational data to predict students academic performance using ensemble methods[J]. International Journal of Database Theory and Application,2016,9(8):119-136.
[16]AMRIEH, ELAF ABU, THAIR HAMTINI,et al. Preprocessing and analyzing educational data set using X-API for improving students performance[C]. 2015 IEEE Jordan Conference on Applied Electrical Engineering and Computing Technologies (AEECT). IEEE, 2015.
[17]沈恒范.概率論與數(shù)理統(tǒng)計(jì)教程[M].北京:高等教育出版社,1997.
[18]張敬,蘆雪娟,田巍.混合式教學(xué)模式中在線學(xué)習(xí)行為與高等數(shù)學(xué)成績的相關(guān)性分析[J].高師理科刊,2020,40(6):65-68.
[19]周飛燕,金林鵬,董軍.卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計(jì)算機(jī)學(xué)報,2017,40(6):1229-1251.
[20]孫發(fā)勤,馮銳.基于學(xué)習(xí)分析的在線學(xué)業(yè)成就影響因素研究[J].中國電化教育,2019,4(3):48-54.
[21]武法提,田浩.挖掘有意義學(xué)習(xí)行為特征:學(xué)習(xí)結(jié)果預(yù)測框架[J].開放教育研究,2019,25(6):75-82.
[22]NING YAN, OLIVER TAT-SHEUNG AU. Online learning behavior analysis based on machine learning[J].Asian Association of Open Universities Journal, 2019,14(2):97-100.
作者簡介:
馮廣,教授,博士,主要研究方向?yàn)榫W(wǎng)絡(luò)控制、機(jī)器學(xué)習(xí)、大數(shù)據(jù),郵箱: von@gut.edu.cn;
羅時強(qiáng),碩士研究生,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)、大數(shù)據(jù)分析,郵箱:502796375@qq.com;
陳卓,碩士研究生,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)、大數(shù)據(jù)分析,郵箱: 656768194@qq.com;
江家懿,碩士研究生,主要研究方向?yàn)槎嗄B(tài)情感分析,郵箱:1067119003@qq.com;
伍文燕,高級工程師,博士研究生,通訊作者,主要研究方向?yàn)榻逃畔⒒⑷斯ぶ悄?、大?shù)據(jù),郵箱:wuwy@gdut.edu.cn。
Grade Prediction Method Based on Online Learning Behavior Data
Guang FENG1, Shiqiang LUO1, Zhuo CHEN1, Jiayi JIANG2, Wenyan WU3*
(1.School of Automation, Guangdong University of Technology, Guangzhou Guangdong 510006;
2.School of Computer Science, Guangdong University of Technology, Guangzhou Guangdong 510006;
3.Network Information and Modern Education Technology Center, Guangdong University of Technology, Guangzhou Guangdong 510006)
Abstract: To solve such problems as low accuracy, low implementability and feasibility of the current performance prediction methods, this paper, based on Shallow Neural Network (SNN), proposes a prediction model. The model uses an adjusted conjugate gradient optimization algorithm to connect the input layer with the output layer, and then applies the perceptron for learning performance prediction. Compared with traditional method, the prediction method in this paper has higher precision and accuracy, and is more practical, which thus guarantees itself a reference for the subsequent optimization and development of online education.
Keywords: Shallow neural network; Optimization algorithm; Grade prediction; Online education
編輯:王天鵬? ?校對:王曉明