魏迪海
(樂(lè)山開(kāi)放大學(xué),四川 樂(lè)山 614800)
為了探索適合學(xué)生的最優(yōu)學(xué)習(xí)要素,一門(mén)被稱(chēng)為教育數(shù)據(jù)挖掘(Educational Data Mining,EDM)的新學(xué)科產(chǎn)生。教育數(shù)據(jù)挖掘?qū)嶋H上就是基于計(jì)算機(jī)技術(shù)的學(xué)習(xí)系統(tǒng),交互學(xué)習(xí)環(huán)境,模擬學(xué)習(xí)環(huán)境,現(xiàn)有學(xué)校學(xué)習(xí)系統(tǒng)等采集用戶(hù)學(xué)習(xí)行為數(shù)據(jù)。在心理學(xué)和學(xué)習(xí)科學(xué)的理論指導(dǎo)下,利用計(jì)算機(jī)科學(xué)、數(shù)據(jù)挖掘等領(lǐng)域的知識(shí),發(fā)現(xiàn)學(xué)生是如何學(xué)習(xí)。EDM 的優(yōu)勢(shì)體現(xiàn)在可以把不同領(lǐng)域的各種數(shù)據(jù)連接在一起。它關(guān)注從研究所提供的大量數(shù)據(jù)中提取特征以支持教育過(guò)程的進(jìn)展。
EDM 與傳統(tǒng)數(shù)據(jù)庫(kù)技術(shù)不同,它可以回答問(wèn)題,例如誰(shuí)是潛在的課程成績(jī)不及格學(xué)生?EDM 可以回答更深層次的問(wèn)題,例如預(yù)測(cè)學(xué)生的成績(jī)(如果他在考試中通過(guò)或失?。?。研究人員還可以建立學(xué)生模型來(lái)單獨(dú)預(yù)測(cè)每個(gè)學(xué)生的特征和表現(xiàn)。因此,參與EDM 領(lǐng)域的研究人員使用不同的數(shù)據(jù)挖掘技術(shù)來(lái)評(píng)估講師,以便提高他們的教育能力。
由于當(dāng)前教育系統(tǒng)并沒(méi)有重視對(duì)學(xué)生表現(xiàn)的預(yù)測(cè),因此這些系統(tǒng)效率并不高。預(yù)測(cè)學(xué)生感興趣的課程并了解他在教學(xué)活動(dòng)過(guò)程的學(xué)習(xí)行為可以提高教育效率。結(jié)合深度學(xué)習(xí)和EDM 技術(shù),完成學(xué)生的評(píng)估過(guò)程,可以更好地提高學(xué)生的表現(xiàn)以及優(yōu)化教育過(guò)程。此外,深度學(xué)習(xí)還可以用在更廣泛的教育數(shù)據(jù),通過(guò)模式識(shí)別、圖像處理、對(duì)象檢測(cè)和自然語(yǔ)言處理等方法。通過(guò)機(jī)器學(xué)習(xí)技術(shù)實(shí)現(xiàn)的學(xué)習(xí)管理系統(tǒng),可以利用數(shù)據(jù)挖掘來(lái)獲得更好、更準(zhǔn)確的結(jié)果。
本文提出一種深度學(xué)習(xí)方法,通過(guò)在長(zhǎng)短期記憶(LSTM)上實(shí)施卷積神經(jīng)網(wǎng)絡(luò)來(lái)構(gòu)建學(xué)生表現(xiàn)的預(yù)測(cè)模型,可以基于學(xué)生數(shù)據(jù)預(yù)測(cè)他將來(lái)的學(xué)習(xí)表現(xiàn)。本文還引入了數(shù)據(jù)預(yù)處理技術(shù)(如mini-max scaler 和quantile transforms)以提高結(jié)果的準(zhǔn)確性。本研究的目的是提取新特征并找到它們的權(quán)重,以根據(jù)從特征中導(dǎo)出的權(quán)重來(lái)構(gòu)建變量節(jié)點(diǎn)和隱藏層的神經(jīng)網(wǎng)絡(luò)系統(tǒng)。然后,在構(gòu)建系統(tǒng)后使用這些特征及其權(quán)重來(lái)預(yù)測(cè)有關(guān)學(xué)生的信息。
數(shù)據(jù)科學(xué)和現(xiàn)代技術(shù)(如大數(shù)據(jù)和高性能計(jì)算機(jī))的發(fā)展為機(jī)器學(xué)習(xí)提供了通過(guò)復(fù)雜系統(tǒng)理解數(shù)據(jù)及其行為的機(jī)會(huì)。機(jī)器學(xué)習(xí)使計(jì)算機(jī)能夠在不同的算法中學(xué)習(xí),而無(wú)須嚴(yán)格執(zhí)行來(lái)自某個(gè)程序或有限指令集。
深度學(xué)習(xí)是直接從不同媒介的數(shù)據(jù)學(xué)習(xí)有用特征的機(jī)器學(xué)習(xí)技術(shù),其利用許多神經(jīng)網(wǎng)絡(luò)層來(lái)進(jìn)行無(wú)監(jiān)督或有監(jiān)督的非線(xiàn)性數(shù)據(jù)處理,以進(jìn)行分類(lèi)和模式識(shí)別任務(wù),模擬了人腦分析、決策和學(xué)習(xí)方面的能力。深度學(xué)習(xí)的目標(biāo)是模擬人腦直接從無(wú)監(jiān)督數(shù)據(jù)中提取特征。
深度學(xué)習(xí)的核心是對(duì)信息的特征和表示進(jìn)行分層計(jì)算,例如對(duì)低層到高層的特征分別進(jìn)行定義。雖然機(jī)器學(xué)習(xí)獲得大量學(xué)生的前期學(xué)習(xí)表現(xiàn)數(shù)據(jù),但執(zhí)行時(shí)由于忽略了數(shù)據(jù)行為特征常常不能得到理想的效果。而深度學(xué)習(xí)的特征是從特定的學(xué)生數(shù)據(jù)中自動(dòng)提取的。這種特征方法是深度學(xué)習(xí)系統(tǒng)獨(dú)立的一部分。
可見(jiàn),利用輸入數(shù)據(jù)計(jì)算表示特征是預(yù)測(cè)學(xué)生未來(lái)表現(xiàn)的關(guān)鍵。本文通過(guò)大量的實(shí)際學(xué)生課程數(shù)據(jù),例如學(xué)生之前學(xué)期的平均成績(jī)績(jī)點(diǎn)和所獲得學(xué)分,作為深度學(xué)習(xí)的提取特征,來(lái)進(jìn)行學(xué)生學(xué)習(xí)表現(xiàn)的預(yù)測(cè)研究。
2.2.1 深度神經(jīng)網(wǎng)絡(luò)(DNN)
DNN 是一個(gè)具有多個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò)。它的模型在復(fù)雜的數(shù)據(jù)和非線(xiàn)性函數(shù)下表現(xiàn)更好。這種類(lèi)型的深度學(xué)習(xí)可以適應(yīng)訓(xùn)練期間對(duì)隱藏層的任何改進(jìn),并且訓(xùn)練通過(guò)反向傳播算法進(jìn)行。由于DNN 在使用復(fù)雜數(shù)據(jù)的預(yù)測(cè)模型時(shí)具有良好的可擴(kuò)展性,因此被認(rèn)為適用于教育深度學(xué)習(xí)預(yù)測(cè)。
2.2.2 卷積神經(jīng)網(wǎng)絡(luò)(CNN)
CNN 由于能夠識(shí)別各種完整的特征行為而被廣泛應(yīng)用于圖像識(shí)別的各個(gè)領(lǐng)域。因此,它的用途被擴(kuò)展到包括教育和學(xué)習(xí)預(yù)測(cè)過(guò)程。從這個(gè)意義上說(shuō),CNN 與神經(jīng)網(wǎng)絡(luò)類(lèi)似,一般是由連接的多個(gè)神經(jīng)元以分層的形式組成,通過(guò)訓(xùn)練完成分層結(jié)構(gòu)。DNN 在連接上與網(wǎng)絡(luò)不同,例如深度信念網(wǎng)絡(luò)、反向傳播和稀疏自動(dòng)編碼器;網(wǎng)絡(luò)中的每一層可以共享每個(gè)神經(jīng)元的權(quán)重,因此權(quán)重可以控制網(wǎng)絡(luò)中的層。CNN 通過(guò)在特定時(shí)間點(diǎn)提取新特征用于學(xué)生行為,該特征考慮了教育狀況的特征。
2.2.3 遞歸神經(jīng)網(wǎng)絡(luò)(RNN)
RNN 考慮了一種神經(jīng)網(wǎng)絡(luò)算法,并在數(shù)據(jù)序列方面表現(xiàn)良好。該算法的優(yōu)點(diǎn)之一是它記錄了當(dāng)前狀態(tài)或下一個(gè)狀態(tài)中使用的先前狀態(tài)。除隱藏層外,還有動(dòng)態(tài)輸入輸出層;在隱藏層內(nèi)部,輸入和輸出情況由一個(gè)節(jié)點(diǎn)到另一個(gè)節(jié)點(diǎn)的輸出權(quán)重表示。由于隱藏層中的連接和反饋路徑,此類(lèi)算法在訓(xùn)練期間的優(yōu)勢(shì)適用于預(yù)測(cè)。
2.2.4 長(zhǎng)短期記憶(LSTM)
LSTM 模型被定義為RNN 的變體。該算法的價(jià)值在于在隱藏層中創(chuàng)建了自環(huán)。它在系統(tǒng)運(yùn)行過(guò)程中自動(dòng)生成路徑,并在每次迭代中生成短路徑。它類(lèi)似于DNN,但在更新影響神經(jīng)網(wǎng)絡(luò)中排序路徑的權(quán)重方面有所不同。這種類(lèi)型使用歷史中的先前數(shù)據(jù)來(lái)提取有用的信息(通常為特征),以實(shí)現(xiàn)更好的學(xué)生行為預(yù)測(cè)。
本研究的主要目的是通過(guò)考慮以長(zhǎng)短期記憶(LSTM)為代表的深度學(xué)習(xí)技術(shù)并利用基于時(shí)間的特征提出一種新方法。
為了從前一門(mén)課程的表現(xiàn)中預(yù)測(cè)學(xué)生下一門(mén)課程的表現(xiàn),本文利用收集的數(shù)據(jù)去訓(xùn)練所提出的模型。從多學(xué)科大學(xué)采集真實(shí)數(shù)據(jù)后,進(jìn)行數(shù)據(jù)預(yù)處理,去除冗余屬性、噪聲等。然后,根據(jù)數(shù)據(jù)獲取日期將數(shù)據(jù)分為兩組:第一個(gè)數(shù)據(jù)集來(lái)自2007年到2016年,用于訓(xùn)練,而第二個(gè)數(shù)據(jù)集來(lái)自2016年到2019年,用于測(cè)試所提出模型的預(yù)測(cè)能力。測(cè)試過(guò)程一些評(píng)價(jià)指標(biāo)評(píng)估所提出的預(yù)測(cè)模型的準(zhǔn)確能力。
本文提出的整體模型框架如圖1所示,包含四個(gè)階段。第一階段為收集數(shù)據(jù),并建立一個(gè)簡(jiǎn)單的學(xué)生數(shù)據(jù)庫(kù)。第二階段為數(shù)據(jù)預(yù)處理過(guò)程,提取操作數(shù)據(jù)和有用信息數(shù)據(jù)并進(jìn)行預(yù)處理操作,包括對(duì)它們的權(quán)重根據(jù)特征進(jìn)行計(jì)算。第三階段為把這些特征輸入到神經(jīng)網(wǎng)絡(luò),然后創(chuàng)建多個(gè)隱藏層來(lái)處理數(shù)據(jù)。第四階段是模型評(píng)估,包括訓(xùn)練模式和帶有評(píng)價(jià)指標(biāo)的測(cè)試模式。
圖1 學(xué)生成績(jī)預(yù)測(cè)網(wǎng)絡(luò)流程圖
本文從某所大學(xué)收集數(shù)據(jù),包含2007年至2019年的課程、學(xué)生、分?jǐn)?shù)等信息,有4 699 個(gè)科目(課程)、83 993 名學(xué)生和3 828 879 條記錄。除了訓(xùn)練和測(cè)試樣本之外,這些數(shù)據(jù)集還使用樣本信息描述數(shù)據(jù)分布。還考慮了訓(xùn)練率和總樣本數(shù)。
該數(shù)據(jù)集代表16個(gè)學(xué)術(shù)單位(學(xué)院/研究所/學(xué)院)的學(xué)生表現(xiàn)。數(shù)據(jù)分為兩個(gè)不相等的部分。主要部分(從2007年到2016年收集的數(shù)據(jù))用于訓(xùn)練,而剩余的樣本部分(從2017年到2019年收集的數(shù)據(jù))用于測(cè)試。訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集的課程績(jī)點(diǎn)的統(tǒng)計(jì)直方圖分別如圖2和圖3所示。其中,經(jīng)濟(jì)學(xué)教育的數(shù)據(jù)占比最高,約為18%,而物理教育的占比最低,僅為0.9%??梢钥吹?,約89.7%的訓(xùn)練數(shù)據(jù)集的課程績(jī)點(diǎn)水平等于或大于中等等級(jí),而測(cè)試數(shù)據(jù)集等于或大于中等等級(jí)的百分比為88.6%。
圖2 訓(xùn)練數(shù)據(jù)集的統(tǒng)計(jì)直方圖
圖3 測(cè)試數(shù)據(jù)集的統(tǒng)計(jì)直方圖
由于收集的數(shù)據(jù)包含冗余信息,需要通過(guò)預(yù)處理解決數(shù)據(jù)冗余屬性和噪聲等。主要步驟如下:(1)清除課程名稱(chēng)、講師姓名、學(xué)生姓名等冗余屬性;(2)清除學(xué)生已注冊(cè)但考試、免修課程等未完成的冗余或噪音記錄;(3)清除一些上課學(xué)生總數(shù)少于15人時(shí)的課程;(4)將字符串或文本值轉(zhuǎn)換為數(shù)值。
對(duì)整個(gè)輸入數(shù)據(jù)進(jìn)行分析后選擇學(xué)習(xí)模型輸入屬性,見(jiàn)表1,為本文使用的數(shù)據(jù)集樣本。這些選定的屬性是根據(jù)實(shí)驗(yàn)結(jié)果和一些以前的學(xué)生表現(xiàn)預(yù)測(cè)模型選擇的。
表1 部分訓(xùn)練集內(nèi)容
由于各種屬性存在不同的分布,對(duì)預(yù)測(cè)模型使用分位數(shù)變換法(Quantile Trans Formation,QTF)和最小最大縮放法(Min-Max Scaler,MMS)來(lái)生成和轉(zhuǎn)換深度學(xué)習(xí)網(wǎng)絡(luò)收斂的值范圍。
由于非線(xiàn)性變換QTF 可以顯著減少異常值的影響,因此它被認(rèn)為是目前最好的預(yù)處理技術(shù)之一。高于或低于擬合界限的驗(yàn)證數(shù)據(jù)/測(cè)試數(shù)據(jù)的值被設(shè)置為輸出分布范圍。在數(shù)據(jù)轉(zhuǎn)換之前,每個(gè)特征的分布和范圍都有顯著差異。QTF數(shù)據(jù)將被轉(zhuǎn)換到0 和1 之間。例如,對(duì)于工程技術(shù)課程,其訓(xùn)練數(shù)據(jù)如圖4所示,而測(cè)試數(shù)據(jù)如圖5所示。可見(jiàn),經(jīng)過(guò)對(duì)特征執(zhí)行MMS 后,數(shù)據(jù)更接近正態(tài)分布。
圖4 工程技術(shù)課程訓(xùn)練數(shù)據(jù)集的統(tǒng)計(jì)直方圖
圖5 工程技術(shù)專(zhuān)業(yè)測(cè)試數(shù)據(jù)集的統(tǒng)計(jì)直方圖
MMS 具體針對(duì)每幅圖像創(chuàng)建區(qū)間,通過(guò)使用式(1)和式(2),把每個(gè)特征的轉(zhuǎn)換到給定范圍內(nèi):
通過(guò)這些算法,本文的實(shí)驗(yàn)結(jié)果與回歸任務(wù)中的原始數(shù)據(jù)相比,有較好的效果了可喜的成績(jī)。通過(guò)從訓(xùn)練集中學(xué)習(xí),將縮放器應(yīng)用于測(cè)試集。
使用深度學(xué)習(xí)和線(xiàn)性回歸兩種算法來(lái)實(shí)現(xiàn)學(xué)生成績(jī)預(yù)測(cè)模型。1D-CNN 接收21 個(gè)特征的1D 數(shù)據(jù)向量;然后,它將通過(guò)一個(gè)卷積層的堆棧,該卷積層有64 個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)有3 個(gè)內(nèi)核。然后,在每次卷積之后,將執(zhí)行整流線(xiàn)性單元(rectified linear unit,ReLU)激活函數(shù),如圖6所示。
圖6 本文實(shí)施的整體架構(gòu)
其中,LSTM 包括64 個(gè)Tanh 單元和單次步長(zhǎng)。在1D-CNN 和LSTM 上使用式(3)所示的Sigmoid 函數(shù)產(chǎn)生范圍為0 到1 的輸出。為了模擬范圍為0.0 到4.0 的學(xué)生成績(jī),方程(3)的輸出將乘以4.0:
在本文的深度學(xué)習(xí)模型中,使用均方根傳播(RMSProp)算法或Adam 算法,作為優(yōu)化函數(shù),學(xué)習(xí)率為0.000 1。在500 個(gè)epoch 到達(dá)之前,獲得了16 000 epoch 的大小。為了減少過(guò)擬合的影響,把5 個(gè)epoch 作為迭代停止條件。如果在每個(gè)連續(xù)的epoch 之后損失沒(méi)有減少,也會(huì)停止模型的訓(xùn)練。此外,Scaler 算法針對(duì)訓(xùn)練集執(zhí)行,同時(shí)對(duì)訓(xùn)練集和測(cè)試集進(jìn)行轉(zhuǎn)換。
回歸的性能可以通過(guò)MAE 和RMSE 在測(cè)試集上平均運(yùn)行5次來(lái)評(píng)估。MAE和RMSE可以分別使用式(4)和式(5)計(jì)算:
其中y是學(xué)生的真實(shí)成績(jī)值(范圍從0.0 到4.0),是學(xué)生的預(yù)測(cè)成績(jī)值。
實(shí)驗(yàn)結(jié)果由以下部分給出。可以看出QTF 對(duì)回歸任務(wù)的預(yù)處理數(shù)據(jù)有不錯(cuò)的性能表現(xiàn)。選擇的縮放器與RMSProp和Adam 一起運(yùn)行,作為兩個(gè)優(yōu)化器進(jìn)行比較。該研究是通過(guò)線(xiàn)性回歸和深度學(xué)習(xí)以及優(yōu)化器函數(shù)和最佳縮放器對(duì)不同教學(xué)單位的所有16 個(gè)數(shù)據(jù)集進(jìn)行的,并將合并的16 個(gè)數(shù)據(jù)集作為一個(gè)數(shù)據(jù)集進(jìn)行預(yù)測(cè)。
結(jié)果由多種縮放器計(jì)算獲得。很明顯,縮放器可以提高深度學(xué)習(xí)性能。在使用的縮放器中,QTF 的表現(xiàn)最好,在16 個(gè)數(shù)據(jù)集中,它得出的15 個(gè)數(shù)據(jù)集通過(guò)1D-CNN 和LSTM 方法,在CNN 的一層(1D)有明顯的改進(jìn)。
Adam 優(yōu)化器函數(shù)和RMSProp 的比較結(jié)果如表2所示。通過(guò)使用RMSProp,16 個(gè)數(shù)據(jù)集中有14 個(gè)得到了改進(jìn),所有數(shù)據(jù)集的平均改進(jìn)約為3.3%。
在測(cè)試模式和訓(xùn)練模式下,不同算法中,結(jié)果略有不同。相比其他方法,它們?cè)谙嗤臈l件有更好的性能表現(xiàn)。本文將所得結(jié)果與現(xiàn)有數(shù)據(jù)集進(jìn)行比較,圖7說(shuō)明了本文方法與訓(xùn)練集基本同質(zhì)。
圖7 在同一數(shù)據(jù)集上測(cè)試和訓(xùn)練不同方法的模式
對(duì)于所提出的系統(tǒng),我們有兩種模式,首先是訓(xùn)練模式,使用標(biāo)記數(shù)據(jù)提前學(xué)習(xí)系統(tǒng),并使用表2中所示的標(biāo)準(zhǔn)數(shù)據(jù)集運(yùn)行系統(tǒng)。然后是測(cè)試模式,對(duì)所需專(zhuān)業(yè)學(xué)生進(jìn)行成績(jī)預(yù)測(cè)。
表2 預(yù)測(cè)性能最優(yōu)函數(shù)
本文提出了一種應(yīng)用于高等教育方面的深度神經(jīng)網(wǎng)絡(luò),并通過(guò)比較學(xué)生的水平和成績(jī)來(lái)識(shí)別和預(yù)測(cè)學(xué)生學(xué)習(xí)表現(xiàn)行為。本文的深度神經(jīng)網(wǎng)絡(luò)構(gòu)建有四個(gè)步驟,包括數(shù)據(jù)初始化和預(yù)處理,在神經(jīng)網(wǎng)絡(luò)中構(gòu)建隱藏層的過(guò)程,為每個(gè)層提取有用的特征和權(quán)重。為了提高預(yù)測(cè)精度,我們使用了Adams 和RMSProp 兩種模型在網(wǎng)絡(luò)訓(xùn)練過(guò)程。所提出的方法從所取得的結(jié)果中證明了它的價(jià)值,并且可以在實(shí)際中使用。通過(guò)這些結(jié)果,在教職員工和學(xué)生方面幫助教育機(jī)構(gòu)很容易。將來(lái),可能需要提取的更新特征,并仔細(xì)選擇它們的權(quán)重;通過(guò)更新神經(jīng)網(wǎng)絡(luò)中的隱藏層,可以使系統(tǒng)更加可靠。