劉 靜,由志勛
(1.西安工程大學(xué),陜西西安 710048;2.西安熱工研究院有限公司,陜西西安 710000)
近年來(lái),隨著“互聯(lián)網(wǎng)+”概念的不斷發(fā)展,數(shù)字化教學(xué)對(duì)教育,尤其是高等教育產(chǎn)生了重要影響。而各領(lǐng)域的網(wǎng)課層出不窮,為人們的學(xué)習(xí)提供了新方式[1-4]。自新冠肺炎疫情爆發(fā)以來(lái),全國(guó)各大高校相繼調(diào)整了返校時(shí)間。而為保證大學(xué)生們的學(xué)習(xí)進(jìn)度,教育部提出了“停課不停學(xué)”的行動(dòng)計(jì)劃,這一計(jì)劃也引發(fā)了社會(huì)各界對(duì)互聯(lián)網(wǎng)在線課程資源的關(guān)注[5-7]。
互聯(lián)網(wǎng)在線課程在我國(guó)已有十余年的發(fā)展歷史,在這期間輟學(xué)率和流失率是該課程所面臨的主要問題[8]。使用網(wǎng)絡(luò)教學(xué)中的學(xué)生行為數(shù)據(jù),來(lái)預(yù)測(cè)學(xué)生的學(xué)習(xí)效果并進(jìn)行精準(zhǔn)教學(xué)干預(yù),已成為當(dāng)前相關(guān)學(xué)者研究的熱門課題之一[9-10]。上述相關(guān)文獻(xiàn)均已實(shí)現(xiàn)并取得了一定的效果。但在影響因素方面,仍未能給出影響學(xué)習(xí)效果的關(guān)鍵指標(biāo),且在評(píng)估各個(gè)指標(biāo)的影響時(shí),定性與定量的評(píng)估相交雜,故主觀因素影響較大。
文中采用智能化的深度學(xué)習(xí)技術(shù),對(duì)學(xué)習(xí)成績(jī)實(shí)現(xiàn)預(yù)測(cè),且構(gòu)建了學(xué)習(xí)效果評(píng)估模型。利用數(shù)據(jù)挖掘技術(shù)對(duì)可能影響成績(jī)的各種因素進(jìn)行聚類分析,并總結(jié)出了關(guān)鍵指標(biāo)。在分析各個(gè)關(guān)鍵指標(biāo)的影響權(quán)重與成績(jī)預(yù)測(cè)時(shí),采用梯度漸進(jìn)回歸樹構(gòu)建預(yù)測(cè)模型,從而實(shí)現(xiàn)成績(jī)預(yù)測(cè)。
網(wǎng)絡(luò)課程這種全新的教學(xué)方法與學(xué)習(xí)體驗(yàn),對(duì)教師和學(xué)生而言均是一種挑戰(zhàn)。如何根據(jù)學(xué)生在網(wǎng)課上的交互行為及相關(guān)數(shù)據(jù)來(lái)預(yù)測(cè)學(xué)習(xí)效果,并對(duì)學(xué)生的學(xué)習(xí)狀態(tài)進(jìn)行評(píng)估與干預(yù),成為該文研究的重點(diǎn)[11-12]。
文中所提出的高校學(xué)生成績(jī)預(yù)測(cè)評(píng)估模型可分為兩個(gè)部分:一是總結(jié)出影響學(xué)生成績(jī)的關(guān)鍵因素、指標(biāo);二是對(duì)學(xué)生成績(jī)進(jìn)行預(yù)測(cè)和評(píng)估,具體如圖1所示[13-14]。根據(jù)預(yù)設(shè)的變量,利用聚類分析法,從學(xué)生網(wǎng)課的平時(shí)考核成績(jī)、學(xué)習(xí)行為歸類出影響學(xué)生成績(jī)的關(guān)鍵因素以及各個(gè)因素的影響權(quán)重,進(jìn)而構(gòu)建成績(jī)影響因素體系,將其作為成績(jī)預(yù)測(cè)模型的輸入信息與初始參數(shù);再使用深度學(xué)習(xí)中的梯度漸進(jìn)回歸樹算法深度挖掘數(shù)據(jù)背后的邏輯,并對(duì)初始參數(shù)進(jìn)行修正。當(dāng)預(yù)測(cè)結(jié)果與實(shí)際成績(jī)的差異低于閾值時(shí),制定提高學(xué)習(xí)成績(jī)的干預(yù)措施;而當(dāng)預(yù)測(cè)結(jié)果與實(shí)際成績(jī)的差異大于閾值時(shí),則篩選變量,且重新構(gòu)建成績(jī)影響因素體系。
圖1 成績(jī)預(yù)測(cè)評(píng)估模型框架示意圖
學(xué)習(xí)成績(jī)預(yù)測(cè)與評(píng)估模型的構(gòu)建需要明確關(guān)鍵影響因素的個(gè)數(shù)和權(quán)重,在此過(guò)程中使用的數(shù)據(jù)主要分為學(xué)生的平時(shí)考核成績(jī)與在線學(xué)習(xí)行為。平時(shí)考核成績(jī)?yōu)槎繑?shù)據(jù),僅需對(duì)數(shù)據(jù)是否重復(fù)、缺失進(jìn)行檢查后,便可進(jìn)行聚類分析;而學(xué)習(xí)行為則是定性數(shù)據(jù),需要將其通過(guò)編碼轉(zhuǎn)換為定量數(shù)據(jù)。文中所研究的學(xué)習(xí)行為數(shù)據(jù)分為以下幾類,如表1 所示。
表1 學(xué)習(xí)行為數(shù)據(jù)
通過(guò)平時(shí)考核成績(jī)能夠直觀地了解學(xué)生的學(xué)習(xí)效果,而學(xué)習(xí)行為則比較抽象,故文中使用數(shù)據(jù)挖掘中的K-means 算法來(lái)挖掘各類學(xué)習(xí)行為與學(xué)習(xí)成績(jī)之間的關(guān)系[15],以明確關(guān)鍵影響因素,并提高學(xué)習(xí)成績(jī)預(yù)測(cè)的準(zhǔn)確率。
該文所采用的K-means 算法,又被稱為K-均值算法[16],其設(shè)計(jì)的核心思想:預(yù)設(shè)聚類的個(gè)數(shù),依據(jù)事先設(shè)定的規(guī)則,持續(xù)將在距離種子點(diǎn)一定范圍內(nèi)的個(gè)體劃分成指定簇;再通過(guò)迭代更新的方式,事先指定簇的劃分個(gè)數(shù)。在每次迭代過(guò)程中,選用的參考點(diǎn)為上一次迭代簇的質(zhì)心。具體的算法流程如圖2所示。
圖2 K-means算法流程圖
從圖2 可以看出,K-means 算法的終止條件是算法收斂。因此文中采用畸變函數(shù)來(lái)判斷算法是否收斂,具體表達(dá)式如下:
式中,J函數(shù)表示各個(gè)個(gè)體到達(dá)質(zhì)心的距離平方和。當(dāng)J函數(shù)為最小值時(shí),代表K-means 算法收斂,即質(zhì)心μi和類別ci分別收斂。當(dāng)J函數(shù)不是最小值時(shí),通過(guò)固定每個(gè)簇質(zhì)心μi或類別ci,調(diào)整另一個(gè)變量,直至J函數(shù)為最小值。
在篩選出關(guān)鍵影響因素后,再使用深度學(xué)習(xí)中的梯度漸進(jìn)回歸樹來(lái)分析關(guān)鍵影響因素與成績(jī)之間的聯(lián)系。梯度漸進(jìn)回歸樹是一種以決策樹為基礎(chǔ)的Boosting 算法,其本質(zhì)為新生成的樹均通過(guò)父代樹的殘差來(lái)進(jìn)行學(xué)習(xí),且利用損失函數(shù)的負(fù)梯度作為整個(gè)算法殘差的近似值,并擬合成一棵回歸樹。故最終的預(yù)測(cè)結(jié)果為所有回歸樹預(yù)測(cè)結(jié)果的疊加。具體過(guò)程如下所示:
設(shè)定成績(jī)預(yù)測(cè)的數(shù)據(jù)集為D={(x1,y1),(x2,y2),…,(xn,yn)},損失函數(shù)被定義為L(zhǎng)(y,f(x)),回歸樹的最大深度數(shù)值為S。
1)依據(jù)式(2)預(yù)設(shè)常數(shù)因子c,使得損失函數(shù)最小。
2)以迭代的方式建立M棵回歸樹,對(duì)于每一個(gè)樣本數(shù)據(jù),均利用式(3)計(jì)算損失函數(shù)的負(fù)梯度在回歸樹的數(shù)值,作為殘差的初始估計(jì)值。
同時(shí)將{xi,rmi}用回歸樹擬合,以得到第m棵回歸樹h(xi,λm),回歸樹中λm為模型參數(shù)。
3)損失函數(shù)的最小化由模型參數(shù)權(quán)重得到βm,并使用線性搜索來(lái)計(jì)算權(quán)重βm:
4)在得到βm之后,利用更新步長(zhǎng)α將模型更新如下:
5)完成所有迭代次數(shù)后,即可輸出最終模型:
在內(nèi)容交互行為中,在線時(shí)長(zhǎng)t是以分鐘為單位進(jìn)行統(tǒng)計(jì)的。為避免因數(shù)據(jù)單位不一致而導(dǎo)致預(yù)測(cè)結(jié)果的差異性,需要將在線時(shí)長(zhǎng)數(shù)據(jù)進(jìn)行歸一化處理,得到分布在[-1,1]之間的數(shù)據(jù):
由上述分析可知,梯度漸進(jìn)回歸樹模型的建立需要3 個(gè)參數(shù):回歸樹數(shù)量M、每棵回歸樹的最大深度S和更新步長(zhǎng)α,且回歸樹的數(shù)量決定了迭代次數(shù)。為防止模型訓(xùn)練時(shí)出現(xiàn)過(guò)擬合現(xiàn)象,每棵回歸樹的最大深度初始值為一個(gè)較小的數(shù)值。更新步長(zhǎng)的大小決定著模型收斂速度的快慢。文中采用參數(shù)枚舉的方式來(lái)選定M、S、α這3 個(gè)參數(shù),并以交叉驗(yàn)證的方式對(duì)其進(jìn)行考核,考核評(píng)分高的組合作為最終模型參數(shù)的數(shù)值??己藰?biāo)準(zhǔn)為擬合優(yōu)度,如式(8):
式中,R2代表擬合優(yōu)度,m為樣本個(gè)數(shù),Yi為樣本實(shí)際數(shù)值,yi為樣本預(yù)測(cè)值。而y′為預(yù)測(cè)平均值,該值越趨近于1,則表示擬合效果越好。
參數(shù)枚舉優(yōu)化過(guò)程如下:
1)初始化參數(shù)M、S、α,M=[M1,M2,…,MK1],S=[S1,S2,…,SK2],α=[α1,α2,…,αK3],參數(shù)枚舉數(shù)量分別為K1、K2、K3。
2)將樣本數(shù)據(jù)分為n份進(jìn)行交叉驗(yàn)證。選擇任意一組樣本數(shù)據(jù)作為目標(biāo)集合,利用其余的樣本數(shù)據(jù)對(duì)步驟1)中的某一組參數(shù)進(jìn)行優(yōu)化訓(xùn)練與計(jì)算擬合優(yōu)度,并將平均擬合優(yōu)度作為該組參數(shù)的最終評(píng)估結(jié)果。重復(fù)此操作,直至每一組樣本數(shù)據(jù)均可作為目標(biāo)集。
3)選擇步驟1)中的另一組參數(shù)組合,進(jìn)行步驟2)的操作,直至所有的參數(shù)組合均得到平均擬合優(yōu)度。
4)比較各個(gè)參數(shù)組合的平均擬合優(yōu)度數(shù)值大小,且將最高數(shù)值對(duì)應(yīng)的參數(shù)組合定為模型的最終參數(shù)。
為了測(cè)試文中所提成績(jī)預(yù)測(cè)評(píng)估模型的性能,選取了某所高校共計(jì)2 358 名大學(xué)生的網(wǎng)絡(luò)課程學(xué)習(xí)數(shù)據(jù),且該數(shù)據(jù)分為70%的畢業(yè)生數(shù)據(jù)與30%的在校生數(shù)據(jù)。畢業(yè)生數(shù)據(jù)被用來(lái)訓(xùn)練成績(jī)預(yù)測(cè)評(píng)估模型的參數(shù);而在校生的學(xué)習(xí)數(shù)據(jù)則用來(lái)驗(yàn)證模型的有效性。在進(jìn)行模型訓(xùn)練前,使用Notepad++工具及R 語(yǔ)言對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理:清除重復(fù)、無(wú)效的數(shù)據(jù)并對(duì)各類數(shù)據(jù)進(jìn)行歸一化處理。通過(guò)K-means聚類算法得到關(guān)鍵影響因素后,再將這些因素作為梯度漸進(jìn)回歸樹模型的輸入。文中采用枚舉的形式,對(duì)訓(xùn)練樣本進(jìn)行交叉驗(yàn)證。
文中使用Matlab2016仿真軟件平臺(tái)作為模型訓(xùn)練的軟件環(huán)境,硬件環(huán)境配置了64 bit、32 GB內(nèi)存與1 TB機(jī)械硬盤以滿足高速、海量的模型訓(xùn)練計(jì)算資源需求。
在模型訓(xùn)練前,依據(jù)經(jīng)驗(yàn)設(shè)定K-means 算法的聚類個(gè)數(shù)及梯度漸進(jìn)回歸樹模型各個(gè)參數(shù)的范圍。為了篩選出影響成績(jī)的關(guān)鍵因素,各簇之間的相似程度應(yīng)較低,而簇內(nèi)的個(gè)體相似程度則較高。將K值的初始范圍設(shè)定為[3,6],并根據(jù)不同的K值,計(jì)算各個(gè)個(gè)體到相應(yīng)質(zhì)心的均值距離,結(jié)果如表2 所示。
表2 不同K值下個(gè)體到質(zhì)心的均值距離
從表2 可以看出,當(dāng)K值為5 時(shí),各個(gè)體到質(zhì)心的均值距離最小。這表明將學(xué)生的學(xué)習(xí)行為特征劃分為5 個(gè)類別,對(duì)成績(jī)的預(yù)測(cè)效果最佳。
梯度漸進(jìn)回歸樹的參數(shù)初始范圍設(shè)定為M={10,30,70,100},S={2,3,5},α={0.05,1,2,4}。在梯度漸進(jìn)回歸樹模型訓(xùn)練過(guò)程中,使用均方根誤差來(lái)描述迭代精度,計(jì)算方式如下:
式中,m表示的是樣本數(shù)量,為樣本實(shí)際數(shù)值,yi為預(yù)測(cè)數(shù)值。RMSE 的數(shù)值越小,則表明預(yù)測(cè)值越接近實(shí)際數(shù)值。訓(xùn)練及預(yù)測(cè)樣本在模型迭代過(guò)程中的誤差變化曲線如圖3 所示。
圖3 梯度漸進(jìn)回歸樹均方根誤差
從圖中可以看出,訓(xùn)練和測(cè)試樣本在迭代45 次后仍有下降的趨勢(shì),但變化較為緩慢。這表明模型已經(jīng)趨于收斂,且此時(shí)的均方根誤差約為0.004 5。值得注意的是,測(cè)試樣本曲線與訓(xùn)練樣本曲線走向一致,且測(cè)試樣本曲線低于訓(xùn)練樣本。這是因?yàn)闇y(cè)試樣本的數(shù)量顯著低于訓(xùn)練樣本,所以在訓(xùn)練過(guò)程中訓(xùn)練樣本RMSE 誤差的降低未引發(fā)過(guò)擬合,因此也沒有導(dǎo)致預(yù)測(cè)結(jié)果出現(xiàn)較大的偏差。
針對(duì)在線網(wǎng)絡(luò)課程僅使用在線數(shù)據(jù),難以預(yù)測(cè)學(xué)生成績(jī)的問題,文中利用K-means 算法和梯度漸進(jìn)回歸樹,構(gòu)建出了一套成績(jī)?cè)u(píng)估預(yù)測(cè)模型,并利用該模型對(duì)進(jìn)行在線學(xué)習(xí)用戶的成績(jī)進(jìn)行了預(yù)測(cè)。測(cè)試結(jié)果表明,所設(shè)計(jì)的模型能夠?qū)崿F(xiàn)較為精準(zhǔn)的預(yù)測(cè)。但是需要注意的是,該研究結(jié)果僅適用于對(duì)一門課程的數(shù)據(jù)進(jìn)行分析,因此該模型仍存在一定的局限性,有待于進(jìn)一步研究實(shí)現(xiàn)多學(xué)科的綜合評(píng)估。