王 娜,李勁松,潘子堯,姚明海*
(1.渤海大學 信息科學與技術(shù)學院,遼寧 錦州 121013;2.渤海大學 數(shù)學科學學院,遼寧 錦州 121013)
2022年10月16日,習近平總書記在中國共產(chǎn)黨第二十次全國代表大會上的報告中明確提出“高質(zhì)量發(fā)展是全面建設社會主義現(xiàn)代化國家的首要任務”[1]。推進“高質(zhì)量發(fā)展”離不開高質(zhì)量的人才隊伍,所以提升教學質(zhì)量具有重大的現(xiàn)實意義[2]。早在2019年中共中央、國務院印發(fā)的《中國教育現(xiàn)代化2035》中就明確指出,要充分“利用現(xiàn)代技術(shù)加快推動人才培養(yǎng)模式改革,實現(xiàn)規(guī)?;逃c個性化培養(yǎng)的有機結(jié)合”著力提高教育質(zhì)量?;跀?shù)據(jù)挖掘相關理論的教育數(shù)據(jù)挖掘(Educational Data Mining,EDM)可以從各種教育數(shù)據(jù)中挖掘數(shù)據(jù)背后的教育規(guī)律,并可以為提高教育質(zhì)量提供數(shù)據(jù)支撐,已經(jīng)成為當前教育工作者們關注的焦點[3-4]。成績預測或成績預警作為EDM的熱門研究領域之一,通過構(gòu)建有效的預測或預警模型預測其學習成績,發(fā)現(xiàn)成績可能不理想甚至有輟學風險的學生,為教師提供精確的教學指導,為學生改變學習方式提供重要的參考依據(jù),對提高教學質(zhì)量具有重要的應用價值和現(xiàn)實意義[5-6]。
近年來,國內(nèi)外學者在成績預測和成績預警方面開展了相關研究工作。劉曉雲(yún)等人利用多元線性回歸方法構(gòu)建預測高校學生畢業(yè)成績的模型[7]。Chen等人基于梯度提升決策樹算法、人工神經(jīng)網(wǎng)絡算法和K-means算法,構(gòu)建了一個基于學生行為特征的分析預測平臺[8]。雖然國內(nèi)外學者已經(jīng)對成績預測展開了相關研究,但是隨著大數(shù)據(jù)時代的到來,與學生成績相關如學生行為記錄、學生消費習慣等教育數(shù)據(jù)變得越來越龐大。因為課程相關性,數(shù)據(jù)存在冗余信息等原因會影響基于這些數(shù)據(jù)構(gòu)建的成績預測或預警模型的性能。因此,有些學者開始嘗試利用特征選擇的方法對數(shù)據(jù)進行篩選。Gitinabard等人采用特征選擇和邏輯回歸的方法來預測學生是否退課[9]。Thaher等人利用改進的鯨魚優(yōu)化算法從學生成績中選擇出有助于構(gòu)建精準預測模型的特征[10]。雖然國內(nèi)外學者已經(jīng)開展了相關的研究工作,但如何構(gòu)建更為精準的成績預測或預警模型仍是關注重點。
眾所周知,學位能否順利獲得深刻地影響著學生的未來發(fā)展[11]。如果能在大學初期就可以向獲得學位存在風險的同學發(fā)出預警,就可以督促學生及時改進學習方式,保證其順利畢業(yè)。因此,提出基于特征選擇方法構(gòu)建更為精準的學位預警模型。
特征選擇是為了構(gòu)建更精準的學習模型而從原始特征中選擇出一個特征子集的理論方法。在特征選擇的過程中可以有效地去除噪聲、冗余等干擾信息,高效地進行維數(shù)約簡,進而提高學習性能,增加對學習結(jié)果的理解[12]。
基于Fisher得分的特征選擇方法是依據(jù)Fisher得分來尋找一組具有最好判別能力的特征子集的有監(jiān)督特征選擇方法[13]。其定義如公式(1)所示:
(1)
基于Fisher的特征選擇過程描述如下:
輸入:訓練樣本集。其中,X表示n個具有d維特征的樣本;Q是全體特征集合。
輸出:選擇出的特征集D。
Fisher特征選擇方法通過計算原始特征的重要性得分來進行特征選擇,方法簡單、直觀。因此,為了消除原始課程數(shù)據(jù)間的冗余信息,采用Fisher特征選擇方法來為構(gòu)建的學位預警模型篩選特征信息。
基于結(jié)構(gòu)風險最小化理論的支持向量機(Support Vector Machine,SVM)算法[14]是一個高效的有監(jiān)督分類算法。其核心思想是在特征空間中建構(gòu)最優(yōu)分割超平面,使得分類器能夠得到全局最優(yōu)解。對于線性不可分的問題,SVM使用各種核函數(shù)將低維空間線性不可分的數(shù)據(jù)映射到高維特征空間,達到線性可分的結(jié)果。二維數(shù)據(jù)的SVM分類效果如圖1所示,圖中最優(yōu)超平面的方程為:
圖1 二維數(shù)據(jù)的SVM分類示意圖
f(x)=w·x+b=0
(2)
其中,樣本(xi,yi),xi∈Rd,yi∈{+1, -1},i=1,2,…,N,w是權(quán)重向量,b為尺度因子,權(quán)重向量和尺度因子決定了超平面的位置。
因SVM采用結(jié)構(gòu)風險最小準則來訓練分類器,能較好地處理樣本特征非線性、維數(shù)高等問題,使其具有精準的分類能力[15]。因此,提出基于SVM構(gòu)建學位預警模型。
提出的基于Fisher特征選擇的學位預警模型主要包括數(shù)據(jù)預處理、模型構(gòu)建和學分預警三個部分,其算法流程如圖2所示。考慮到學生成績樣本的特殊性,在數(shù)據(jù)預處理階段要確保樣本數(shù)據(jù)的規(guī)范化。要對學生成績進行篩選,例如,刪除選擇人數(shù)較少的課程數(shù)據(jù),刪除選課較少的學生(如退學、休學等)成績數(shù)據(jù)。此外,還要根據(jù)公式(3)對數(shù)據(jù)進行歸一化處理。
(3)
在模型構(gòu)建階段首先利用Fisher算法進行特征選擇;然后利用選擇后的特征構(gòu)建學位預警模型。在學位預警階段,首先將測試樣本依據(jù)特征選擇規(guī)則得到新的測試樣本;然后根據(jù)構(gòu)建好的預警模型判斷是否對學生進行學位預警。
該文利用某高校2018級軟件工程專業(yè)、化學專業(yè)、會計學專業(yè)、漢語言文學專業(yè)學生的真實成績構(gòu)建學位預警模型,通過統(tǒng)計大量的隨機實驗結(jié)果來驗證用特征選擇的方法構(gòu)建預警模型的可行性和有效性。
實驗數(shù)據(jù)為某高校開設的包括工學類、理學類、管理學類、文學類在內(nèi)的軟件工程專業(yè)、化學專業(yè)、會計學專業(yè)、漢語言文學專業(yè)學生在1、2、3學期所獲得的非學位課課程成績和最終的平均學位績點成績,并分別對各專業(yè)學生成績進行如下處理:
(1)刪除選課人數(shù)過少(專業(yè)人數(shù)的10%)的課程;
(2)將格式為“優(yōu)秀”“良好”“中等”“及格”和“不及格”的等級成績替換為“95”“85”“75”“65”和“55”百分制成績;
(3)為了避免不同課程成績間數(shù)量級對實驗結(jié)果的影響,將學生分數(shù)成績歸一化到[0,1]區(qū)間內(nèi)。
最終,利用處理后的1、2、3學期非學位課課程成績和學位績點成績構(gòu)建各專業(yè)的學位預警模型,數(shù)據(jù)情況如表1所示。
表1 數(shù)據(jù)情況匯總
該文選用了有效、直觀的錯誤率(ER)作為評價指標,其計算公式如公式(4)所示。此外,由于需要給出預警的樣本僅占總樣本的5%,使得正負樣本間存在嚴重的不平衡問題。因此,該文還用查全率(Recall)、查準率(Precision)、錯誤拒絕率(FRR)和錯誤接受率(FAR)共同作為評價指標。其中,錯誤率值越低說明預警模型的預警準確率越高;召回率又被稱為查全率,表示需要給出預警的樣本被正確給出預警的概率;查準率又被稱為精準率,表示被預警模型給出預警的樣本中真正需要做出預警的概率。錯誤拒絕率預警模型判斷無需做出預警的樣本中實際應該給出預警的概率;錯誤接受率表示無需給出預警的而被錯誤做出預警的概率。它們的計算公式分別為:
(4)
(5)
(6)
(7)
(8)
其中,TP和FN分別表示預警模型對應該給出學位預警的樣本正確做出預警(正確預測)的樣本數(shù)量和沒有做出預警(錯誤預測)的樣本數(shù)量;FP和TN分別表示預警模型對無需給出學位預警的樣本錯誤給出預警(錯誤預測)的樣本數(shù)量和沒有做出預警(正確預測)的樣本數(shù)量;TP+FN即正樣本的數(shù)量,TN+FP即負樣本的數(shù)量。
為了確保實驗結(jié)果的穩(wěn)定性和證明算法的有效性,分別對每個專業(yè)進行6組實驗。實驗1到實驗6分別利用不同的訓練樣本數(shù)量來構(gòu)建預警模型,6組實驗中分別隨機選擇總樣本的40%、50%、60%、70%、80%和90%作為訓練集,其余樣本數(shù)據(jù)作為測試集。每組實驗都重復100次隨機選樣本,并將多次實驗結(jié)果的平均值作為最終的統(tǒng)計結(jié)果。實驗結(jié)果如表2至表6所示。
表2 各專業(yè)學位預警錯誤率結(jié)果統(tǒng)計
從表2中可以看出,隨著訓練樣本的增加,各專業(yè)構(gòu)建的學位預警模型的錯誤率普遍呈現(xiàn)下降趨勢。其中,基于特征選擇的預警模型明顯具有更低的預警誤差和更高的穩(wěn)定性。
從表3到表6中也同樣可以發(fā)現(xiàn),各專業(yè)的成績數(shù)據(jù)經(jīng)過特征選擇后構(gòu)建的學位預警模型其查全率和查準率都高于沒有進行特征選擇的模型;而基于特征選擇構(gòu)建的學位預警模型的錯誤接受率和錯誤拒絕率則明顯低于沒有進行特征選擇的模型。
表3 各專業(yè)學位預警查全率結(jié)果統(tǒng)計
表4 各專業(yè)學位預警查準率結(jié)果統(tǒng)計
表5 各專業(yè)學位預警錯誤拒絕率結(jié)果統(tǒng)計
表6 各專業(yè)學位預警錯誤接收率結(jié)果統(tǒng)計
綜上所述,從表2至表6中的各項指標的統(tǒng)計結(jié)果顯示,基于Fisher特征選擇的學位預警模型具有更低的錯誤率和更高的穩(wěn)定性。表明基于特征選擇的方法可以選擇出更有效的課程來構(gòu)建更為精準的學位預警模型,其構(gòu)建模型給出的預警結(jié)果更為可信,更有助于學生和教師及時地調(diào)整教學方式。
高校擴招政策的連年實施在為提升國內(nèi)人口素質(zhì)的同時,也對現(xiàn)有高校教學管理模型帶來了更高的挑戰(zhàn)。探索學生學習的一般規(guī)律,挖掘和分析學生特征和成績的關系,構(gòu)建更為精準的學位預警模型可以更好地提高教學質(zhì)量,對完善高校學位預警機制有重要的應用價值和現(xiàn)實意義,因此提出基于Fisher特征選擇的學位預警模型方法。實驗結(jié)果表明,構(gòu)建的學位預警模型能更好地從現(xiàn)有成績數(shù)據(jù)中挖掘有效信息,使預警模型具有更低的預警誤差和更高的穩(wěn)定性,能夠更好地完成學位預警工作。但成績預測或預警工作不僅會受到前期成績的單一影響,還可能受到學習背景、行為習慣等因素的影響。因此,成績預測、預警等工作仍是一個較為復雜的課題,在下一步的研究中將會利用特征選擇方法充分挖掘?qū)W習背景、學習環(huán)境、行為習慣等更多因素,以構(gòu)建更加精準有效的成績預測或預警模型。