郭佳君,楊波,朱劍林,朱連淼,余輝
(中南民族大學(xué) 計算機科學(xué)學(xué)院,武漢 430074)
學(xué)生資助是教育領(lǐng)域中一項不可或缺的重要工作.我國相關(guān)政府部門非常重視貧困生的問題.《2020年中國學(xué)生資助發(fā)展報告》指出,2020年全國累計資助學(xué)生14617.50萬人次,增幅38.02%,資助資金2408.20億元,增幅13.27%[1].但由于傳統(tǒng)助學(xué)金評定方式存在貧困生認(rèn)定依據(jù)片面、部分困難學(xué)生隱瞞不報、助學(xué)金分配名額不合理等問題,高校難以主動識別貧困學(xué)生.本文針對高校學(xué)生資助的問題,基于數(shù)據(jù)挖掘技術(shù)分析學(xué)生的在校行為,量化學(xué)生的人格特征,在高校學(xué)生資助樣本不平衡的情況下實現(xiàn)精準(zhǔn)資助,為高校學(xué)生資助工作提供參考.
目前數(shù)據(jù)挖掘技術(shù)廣泛應(yīng)用于教育領(lǐng)域中.CHUI等人提出一種改進的基于條件生成對抗網(wǎng)絡(luò)的深度支持向量機算法,為解決樣本數(shù)據(jù)量較小的問題,結(jié)合CGAN,InfoGAN,ACGAN提出ICGAN生成更多訓(xùn)練數(shù)據(jù),同時采用DSVM進行學(xué)生成績的預(yù)測[2];郭鵬等人優(yōu)化了K-means算法,去除離群點后基于樣本分布密度選取初始聚類中心,采用改進的K-means算法對學(xué)生成績離散化;后引入興趣度,通過考慮興趣度閾值的方式優(yōu)化Apriori算法;通過挖掘分析得到課程之間的相關(guān)性以及不同課程的重要程度,進一步指導(dǎo)個性化教學(xué)工作[3].
在教育數(shù)據(jù)挖掘領(lǐng)域,有關(guān)學(xué)生資助的研究主要集中在我國,依據(jù)我國的資助政策,許多研究學(xué)者提出將大數(shù)據(jù)技術(shù)應(yīng)用到高校精準(zhǔn)資助工作中[4-5].
針對判斷貧困生的特征指標(biāo),GUAN等人通過學(xué)生的校園卡使用行為、互聯(lián)網(wǎng)使用行為和數(shù)字軌跡提取特征,結(jié)合學(xué)生之間的相關(guān)性和標(biāo)簽之間的相關(guān)性,預(yù)測學(xué)生應(yīng)獲得的助學(xué)金組合[6];針對校園卡中學(xué)生數(shù)據(jù)的異常情況,李克華提出改進的離群點檢測算法識別噪聲數(shù)據(jù),然后提出面向?qū)W生軌跡序列的頻繁模式挖掘方法提取特征,放入基于置信度融合的助學(xué)金預(yù)測模型中預(yù)測[7];針對用于助學(xué)金預(yù)測的算法模型,MA等人提出Apriori平衡算法,通過提出的平衡支持度對貧困生進行關(guān)聯(lián)規(guī)則挖掘,然后使用半監(jiān)督的K-means算法識別貧困生[8].
雖然當(dāng)前方法在高校貧困生評定過程中取得了一定的成果,但仍存在特征維度單一的局限性.本文提出假設(shè),除消費水平外,學(xué)生的人格特征與其經(jīng)濟狀況存在一定的相關(guān)性.羅伏生等人的調(diào)查研究顯示,貧困生的大五人格中的社交性、利他性和道德性與SCL-90總分呈負相關(guān),適應(yīng)性與除恐怖因子和軀體化外的其他因子呈正相關(guān)[9].宋傳穎的研究表明,在卡特爾16型人格上,貧困生的獨立性、聰慧性、敢為性、穩(wěn)定性上得分較低,而在懷疑性、憂慮性和自律性上得分較高[10].本文結(jié)合大五人格理論與卡特爾16型人格量化學(xué)生人格特征.
同時上述相關(guān)工作忽略學(xué)生受資助情況不平衡的問題.根據(jù)《學(xué)生資助資金管理辦法》,本??粕鷩抑鷮W(xué)金資助面約為普通高校全日制本??圃谛I倲?shù)的20%[11].按照受資助等級情況對學(xué)生進行分類,整體樣本呈不平衡分布狀態(tài).因此本文在模型設(shè)計中融入解決數(shù)據(jù)不平衡的算法.
針對當(dāng)前研究的不足,本文從特征維度和類別失衡兩個方面進行改進,技術(shù)路線如圖1所示.原始數(shù)據(jù)預(yù)處理后進入特征工程,其中將量化后的人格作為一部分特征以豐富特征維度.采用重采樣的方式進行失衡處理以解決數(shù)據(jù)分布不平衡的問題.失衡處理結(jié)束后基于上下文信息構(gòu)建模型,最后通過測試集進行模型的評估.
圖1 技術(shù)路線圖Fig.1 Technology roadmap
依據(jù)大五人格理論,將人格特征描述為5個方面,分別是:開放性(Openness to experience)、嚴(yán)謹(jǐn)性(Conscientiousness)、外向性(Extroversion)、宜人性(Agreeableness)、神經(jīng)質(zhì)(Neuroticism).本文選擇更符合助學(xué)金評選標(biāo)準(zhǔn)的嚴(yán)謹(jǐn)性進行研究.DUDLEY等人將嚴(yán)謹(jǐn)性細分為4個狹義特征,分別是努力性(Achievement)、可 靠 性(Dependability)、有 序 性(Order)、謹(jǐn)慎性(Cautiousness)[12].由于努力性和有序性更能反映出學(xué)生的行為習(xí)慣,因此本文對嚴(yán)謹(jǐn)性中的努力性和有序性進行量化,努力性和有序性的量化方式參考曹奕提出的量化方法[13].在本文中,努力性通過學(xué)生進出圖書館總次數(shù)以及借書總數(shù)量進行量化,以反映學(xué)生的努力程度.有序性通過學(xué)生就餐以及淋浴行為的真實熵進行量化,以反映學(xué)生行為的規(guī)律性.信息熵可以衡量信息的不確定程度,而真實熵則可以結(jié)合事件的時間順序特征.以下是具體步驟.
首先將一天的24個小時按照每半個小時進行劃分,劃分成48個時間段,分別以1,2,3,……表示.例如凌晨00:15被表示為1,凌晨01:20被表示為3.將學(xué)生每天的就餐和淋浴時間計算出其所在的時間段后分別組成一個序列,然后通過真實熵衡量其自律程度.真實熵的計算公式如下:
其中S表示真實熵,n表示序列的長度,Λi表示從i開始的、之前未出現(xiàn)過的最短子序列長度.例如,假設(shè)經(jīng)過時間分區(qū)后,某學(xué)生某項行為的時間序列為[1,2,1,1],Λ的具體計算過程如圖2所示.由圖2計算得出Λ=[1,1,2,0],因此得到該學(xué)生真實熵的值約為1.3863.真實熵越小,表明學(xué)生的有序性越高.
圖2 Λ計算過程圖Fig.2 The calculation process diagram of Λ
依據(jù)卡特爾16型人格,本文選取更符合助學(xué)金評選標(biāo)準(zhǔn)的因素B聰慧性、因素G有恒性、因素Q3自律性進行量化.針對聰慧性,本文采用數(shù)據(jù)集中的學(xué)生成績排名進行量化,由于學(xué)生所在學(xué)院不同、人數(shù)不同,因此將學(xué)生的排名根據(jù)公式(2)進行標(biāo)準(zhǔn)化處理:
x'表示標(biāo)準(zhǔn)化后的成績排名,x表示數(shù)據(jù)集中的排名情況,xˉ表示平均值,σ表示標(biāo)準(zhǔn)差.針對有恒性,本文采用某時間段內(nèi)學(xué)生按時吃早飯、午飯、晚飯,按時洗浴的頻率進行量化.由于學(xué)生一餐內(nèi)可能會有多次刷卡的記錄,因此在數(shù)據(jù)處理的過程中只保留短時間內(nèi)的第一次刷卡記錄.Q3自律性與大五人格的有序性視為一致,不再單獨量化Q3自律性.
FENG等人提出的基于上下文感知的特征交互網(wǎng) 絡(luò)(Context-aware Feature Interaction Network,CFIN)用于分析學(xué)生線上學(xué)習(xí)的行為活動,從而預(yù)測輟學(xué)率的問題[14].CFIN模型包括上下文平滑和基于注意力機制的特征交互兩個部分,其中上下文平滑包括特征增強、特征嵌入和特征融合.使用MOOC中的用戶信息和課程信息,結(jié)合注意力機制來學(xué)習(xí)不同活動的重要性,最后通過深度神經(jīng)網(wǎng)絡(luò)進行輟學(xué)率的預(yù)測.
CFIN模型能夠較好預(yù)測線上學(xué)生的輟學(xué)率,但在長尾分布下分類性能不佳,本文基于CFIN模型針對助學(xué)金資助面小的特點,提出長尾分布下的基于上下文信息的特征交互網(wǎng)絡(luò)模型LT-CFIN(Context?aware Feature Interaction Network for the Long-Tailed Problem).
3.2.1 樣本重采樣
在特征提取之后,首先通過BoderLine-SMOTE方法將樣本數(shù)據(jù)進行重采樣.BoderLine-SMOTE是使用處于邊界的少數(shù)類樣本進行新樣本的合成[15].BoderLine-SMOTE將少數(shù)類樣本分成safe、danger、noise三類,針對少數(shù)類樣本來說,若樣本周圍有超過一半以上的樣本為少數(shù)類的話就將其稱為safe類;若樣本周圍有超過一半以上的樣本是多數(shù)類的話,則將其稱為danger類,也即邊界上的類;若樣本周圍都是多數(shù)類的話,則將其稱為noise類.BoderLine-SMOTE方法只針對danger類進行合成.生成新樣本時,通過K近鄰的方法選擇少數(shù)類樣本進行合成.BoderLine-SMOTE方法流程圖如圖3所示.以鄰近樣本屬于多數(shù)類的比例為依據(jù),創(chuàng)建danger類樣本集合,并在該集合上合成新樣本,進而組成樣本數(shù)據(jù)進行后續(xù)實驗.
圖3 BoderLine-SMOTE方法流程圖Fig.3 Flow chart of BoderLine-SMOTE method
3.2.2 上下文平滑與注意力機制
在提取特征時,通過人格量化的方式進行了特征增強的過程,在上下文平滑的部分只采用特征嵌入與特征融合.每位學(xué)生的消費特征如公式(3)所示:
其中Vi表示不同的消費活動,i=1,2,…,m.通過特征嵌入和一維卷積神經(jīng)網(wǎng)絡(luò)將Vi轉(zhuǎn)化成一個稠密向量V(i)d.基于注意力機制的特征交互的過程是首先將學(xué)生的人格特征以及所屬學(xué)生類別等上下文信息特征放入嵌入層,再送入全連接層中得到稠密向量Vz.然后結(jié)合Vz和V(i)d計算注意力分?jǐn)?shù).注意力打分函數(shù)如公式(4)所示:
其中VT、W、b均為模型參數(shù),σ(·)表示激活函數(shù).通過公式(5)計算得到每個特征向量Vi的注意力分?jǐn)?shù)αi:
用加權(quán)平均的方式對輸入信息進行匯總,根據(jù)att=得到權(quán)重和,之后輸入L層的深度神經(jīng)網(wǎng)絡(luò)中進行訓(xùn)練得到預(yù)測值.
LT-CFIN模型訓(xùn)練圖如圖4所示.首先通過BoderLine-SMOTE進行數(shù)據(jù)重采樣,重采樣后將數(shù)據(jù)特征分為消費特征和上下文信息特征兩部分,經(jīng)過上下文平滑以及基于注意力機制的交互過程后,采用深度神經(jīng)網(wǎng)絡(luò)進行助學(xué)金等級的預(yù)測.
圖4 LT-CFIN模型訓(xùn)練圖Fig.4 Training diagram of LT-CFIN
本模型針對不平衡數(shù)據(jù)集提出,選擇AUC值作為評價指標(biāo).AUC是ROC曲線下的面積,同時考慮了分類器對各個類別的分類能力,即使樣本不平衡,評價也較合理.AUC值越接近于1,表明分類器的效果越好.除此之外,選擇打印混淆矩陣以直觀地觀察各類別的分類準(zhǔn)確率.
學(xué)生在校園內(nèi)活動時,消費、圖書館和宿舍等一些場所進出都會被記錄下來,并保存在校園卡數(shù)據(jù)中心,同時學(xué)生的成績數(shù)據(jù)和受資助情況也分別被保存在學(xué)工部與資助中心.本文所采用的數(shù)據(jù)集為DataCastle官網(wǎng)提供的某高校2014、2015年的學(xué)生校園卡數(shù)據(jù),該數(shù)據(jù)集已經(jīng)過脫敏處理,數(shù)據(jù)內(nèi)容包括書籍借閱數(shù)據(jù)、一卡通消費數(shù)據(jù)、寢室進出數(shù)據(jù)、圖書館進出數(shù)據(jù)、成績數(shù)據(jù)以及受資助情況.數(shù)據(jù)集具體情況如表1所示.
表1 數(shù)據(jù)集描述Tab.1 Data set description
本文的研究目的是發(fā)現(xiàn)潛在的貧困生.在形式上,定義一組學(xué)生U={u1,u2,……,uN},N為學(xué)生總數(shù).每位學(xué)生un的行為特征均包含消費行為相關(guān)特征XC(un)與上下文信息XZ(un),其中上下文信息包括學(xué)生的人格特征以及所屬學(xué)生類別.根據(jù)上述相關(guān)特征學(xué)習(xí)函數(shù)f,預(yù)測每位學(xué)生資助檔次y(un).數(shù)據(jù)集中學(xué)生受資助金額分別為0元、1000元、1500元、2000元,本文將其資助檔次分別定義為第0檔,第1檔,第2檔,第3檔,因此y(un)∈(0,1,2,3).本問題可形式化描述為:
圖5表示資助檔次的分布情況,其中第0檔資助類別占比86%,而第3檔僅占3%,樣本數(shù)據(jù)嚴(yán)重不平衡.因此本文所解決的問題是一個不平衡樣本下的多分類問題.
圖5 資助檔次分布Fig.5 Funding level distribution
在數(shù)據(jù)集中存在完全相同的兩條或多條數(shù)據(jù),首先對數(shù)據(jù)集進行去重操作.
數(shù)據(jù)集中缺失值的處理均在去重操作之后,具體處理方式如表2所示.
表2 缺失值處理方式Tab.2 Processing methods of missing values
在一卡通消費數(shù)據(jù)中,消費類型除“POS消費”外,還包括“圈存轉(zhuǎn)賬”、“卡充值”、“卡掛失”等17種消費類型,本文只研究消費類型是“POS消費”的消費數(shù)據(jù),因此消費方式的缺失率基于消費類型為“POS消費”的數(shù)據(jù).寢室進出數(shù)據(jù)、成績數(shù)據(jù)和受資助情況均未出現(xiàn)缺失值.
本文所采用特征為消費行為相關(guān)特征XC(un)和上下文信息XZ(un).
消費行為相關(guān)特征XC(un)的構(gòu)建方法如下.將消費記錄分為生活、學(xué)習(xí)和其他三個類別.根據(jù)學(xué)生的id和消費類別,統(tǒng)計每位學(xué)生在各類別上消費金額的總和、最大值、最小值、平均值以及中位數(shù).除此之外,對每位學(xué)生的消費金額和余額分別做各維度統(tǒng)計和消費總次數(shù)統(tǒng)計.消費行為相關(guān)特征及其含義如表3所示.
表3 消費行為相關(guān)特征及其含義Tab.3 Characteristics and implications of consumption behavior
上下文信息XZ(un)的構(gòu)建方法如下.上下文信息包括學(xué)生的人格特征及所屬學(xué)生群體.人格特征依據(jù)第二部分人格量化的方法進行構(gòu)建.對于所屬學(xué)生群體,本文根據(jù)學(xué)生學(xué)習(xí)類平均消費金額、生活類平均消費金額、其他類平均消費金額、努力性、有序性這些特征,采用K-means聚類方法對學(xué)生進行聚類,得到學(xué)生所屬群體.聚類結(jié)果雷達圖如圖6所示,高校學(xué)生被分為4個類別.根據(jù)圖6對每類學(xué)生進行分析,分析結(jié)果如表4所示.
圖6 學(xué)生聚類結(jié)果雷達圖Fig.6 Student clustering results radar diagram
表4 各類學(xué)生分析描述Tab.4 Analytical description of the student categories
從表4可以得到,類別為1的學(xué)生群體,消費水平較低,且綜合素質(zhì)比較好,但成績較差,可能有一部分原因來自家庭的壓力,因此在相應(yīng)資助時應(yīng)該多關(guān)注學(xué)生類別為1的群體.而類別為0的學(xué)生群體,整體消費水平較高,因此考慮不需要得到資助.
上下文信息相關(guān)特征及其含義如表5所示.共包括12個特征,特征范圍涵蓋學(xué)生的生活習(xí)慣、努力程度、成績排名以及學(xué)生所屬類別.
表5 上下文信息相關(guān)特征及其含義Tab.5 Context information related characteristics and their meanings
本文所采用的操作系統(tǒng)為Windows 10,計算機內(nèi) 存 為8 GB,處 理 器 為Intel(R)Core(TM)i5-9300H CPU@2.40 GHz,編程環(huán)境為Python 3.7.LTCFIN模型基于TensorFlow實現(xiàn),采用線性整流函數(shù)(Rectified Linear Unit,ReLU)作為激活函數(shù),并采用自適應(yīng)距估計(Adaptive Moment Estimation,Adam)進行優(yōu)化,epoch設(shè)置為300,學(xué)習(xí)率設(shè)為0.0001.
為全面驗證LT-CFIN的有效性,本文設(shè)計了3組對比實驗,分別進行模型對比驗證、失衡處理對比驗證以及人格量化對比驗證.
4.4.1 模型對比驗證
將 決 策 樹(Decision Tree,DT)、隨 機 森 林(Random Forest,RF)、邏輯回歸(Logistic Regression,LR)、梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)作為對比模型,將所有特征作為模型的輸入,并采用基于網(wǎng)格搜索和五折交叉驗證進行各模型參數(shù)的調(diào)整.各模型的實驗結(jié)果如表6所示.根據(jù)實驗結(jié)果可以看出LT-CFIN模型在預(yù)測學(xué)生的助學(xué)金等級情況時有較好的表現(xiàn),與對比模型相比,AUC值有3.24%~4.81%的提升,證明了本文提出的LT-CFIN模型的有效性.
表6 不同模型實驗結(jié)果對比Tab.6 Comparison of experimental results of different models
4.4.2 失衡處理對比驗證
在不平衡數(shù)據(jù)集下,模型訓(xùn)練過程中會更多地關(guān)注數(shù)據(jù)樣本較多的頭部數(shù)據(jù),但在現(xiàn)實生活中,高校資助部門需要更關(guān)注數(shù)量較少的貧困生.本文將LT-CFIN與未經(jīng)過重采樣處理的CFIN模型、采用SMOTE進行過采樣后的CFIN模型、采用ADASYN進行過采樣后的CFIN模型進行實驗對比,實驗結(jié)果見表7.可以看出未考慮數(shù)據(jù)不平衡的情況下,預(yù)測結(jié)果的AUC值為0.9158,通過使用SMOTE過采樣方法,AUC值 達到0.9765,經(jīng) 過ADASYN方 法 達到0.9768,但使用BoderLine-SMOTE僅對少數(shù)類的danger類過采樣,AUC值比未經(jīng)過處理的CFIN方法提升了6.7%.
表7 不同過采樣方式下模型實驗結(jié)果Tab.7 Experimental results under different over-sampling methods
由于本文更多關(guān)注學(xué)生獲得助學(xué)金等級的情況,因此輸出各類別的預(yù)測情況.圖7(a)~(d)分別表示使用CFIN模型、SMOTE處理后的CFIN模型、ADASYN處理后的CFIN模型、LT-CFIN模型預(yù)測學(xué)生助學(xué)金的混淆矩陣結(jié)果圖.其中混淆矩陣M第i行第j列的元素值M[i][j]表示真實類別為i的所有樣本中被預(yù)測為類別j的樣本比例.
圖7 不同過采樣方式下模型混淆矩陣結(jié)果圖Fig.7 Results of confusion matrix under different oversampling methods
由圖7可知,不平衡數(shù)據(jù)集下,CFIN模型將大部分樣本預(yù)測為第一類,即未獲得助學(xué)金,這樣會導(dǎo)致準(zhǔn)確率雖然較高,但在實際應(yīng)用中存在較大誤差的情況.經(jīng)過數(shù)據(jù)重采樣后,模型對原始數(shù)據(jù)集中的頭部數(shù)據(jù)和尾部數(shù)據(jù)關(guān)注度相當(dāng),因此對實際應(yīng)用也更具有參考價值.而LT-CFIN模型基于的BodelLine-SMOTE方法會解決SMOTE導(dǎo)致的生成樣本重疊的問題,而且相對于ADASYN方法不易受離群點的影響.
4.4.3 人格量化對比驗證
為證明學(xué)生人格特征對助學(xué)金預(yù)測的影響,本文進行了消融實驗,只將有關(guān)消費信息的特征作為模型輸入.表8表示將僅包含消費信息的特征作為輸入和加入人格量化信息的特征作為輸入的實驗結(jié)果.
表8 人格量化前后實驗結(jié)果 %Tab.8 Experimental results before and after personality quantification
由表8可以看出,通過對學(xué)生的人格特征進行量化,輸入模型后,模型的預(yù)測效果有一定的提升,AUC值提升了0.74%,在各類別上,F(xiàn)1值提升幅度從2%至3.11%,實驗結(jié)果驗證了人格量化的有效性.
由于學(xué)生助學(xué)金評定過程中存在主觀的判斷,本文基于數(shù)據(jù)挖掘技術(shù)預(yù)測潛在的貧困生,可為助學(xué)金的評定工作提供一定的參考.除考慮學(xué)生的經(jīng)濟狀況外,量化學(xué)生的人格特征以反映學(xué)生的綜合素質(zhì),從定量的角度為貧困生認(rèn)定指標(biāo)提供參考;結(jié)合學(xué)生的消費行為以及上下文信息,構(gòu)建分類模型,實現(xiàn)對高校學(xué)生助學(xué)金等級的分類.實驗結(jié)果表明:本文提出的LFCFIN模型可以有效掌握學(xué)生的經(jīng)濟情況,給出貧困生認(rèn)定的建議,為進一步補充和完善貧困生的認(rèn)定標(biāo)準(zhǔn)提供參考,同時能提高貧困生管理工作的效率.