張芳娟,楊 燕,杜圣東
(1.西南交通大學(xué) 信息科學(xué)與技術(shù)學(xué)院,成都 611756; 2.四川省云計(jì)算與智能技術(shù)高校重點(diǎn)實(shí)驗(yàn)室(西南交通大學(xué)),成都 611756)(*通信作者電子郵箱yyang@swjtu.edu.cn)
隨著信息技術(shù)的發(fā)展,特別是教育信息化的發(fā)展,數(shù)據(jù)驅(qū)動下的教育改革逐漸成為研究熱點(diǎn)。助學(xué)金評定工作作為高等院校一項(xiàng)重要的工作,傳統(tǒng)的評定方法大多是通過大量的學(xué)生個人問卷調(diào)查及其他相關(guān)信息來完成,評定過程工作量大且管理效率低。在高校管理逐漸數(shù)字化的背景下,使得高校學(xué)生助學(xué)金的便捷、高效預(yù)測成為可能。國內(nèi)外有關(guān)助學(xué)金評定方法的研究和相關(guān)工作很少,因此,對于助學(xué)金評定方法的研究具有很大實(shí)際意義。
學(xué)生的經(jīng)濟(jì)情況跟學(xué)生的在校行為(一卡通的消費(fèi)金額、消費(fèi)方式、學(xué)習(xí)習(xí)慣等)是緊密相關(guān)的。利用學(xué)生的生活行為數(shù)據(jù)和學(xué)習(xí)表現(xiàn)數(shù)據(jù)能夠更加真實(shí)和準(zhǔn)確地預(yù)測需要資助的學(xué)生。學(xué)生在校行為數(shù)據(jù)是多源異構(gòu)數(shù)據(jù),如果將數(shù)據(jù)集進(jìn)行簡單的組合,不能充分利用數(shù)據(jù)間的關(guān)聯(lián)、互補(bǔ)信息,而多視圖學(xué)習(xí)能在學(xué)習(xí)過程中考慮到不同視圖信息間的相互聯(lián)系[1-2],因此,將學(xué)生在校行為數(shù)據(jù)從學(xué)習(xí)維度和生活維度劃分為兩個不同視圖,增強(qiáng)判別典型相關(guān)方法利用視圖間的關(guān)聯(lián)、互補(bǔ)信息,獲得優(yōu)于僅僅基于單視圖數(shù)據(jù)學(xué)習(xí)的性能[3]。
典型相關(guān)分析(Canonical Correlation Analysis, CCA)[4]通過最大化視圖間的相關(guān)性獲得較單一視圖更好的學(xué)習(xí)效果, 但是作為無監(jiān)督特征處理方法,基于CCA建立分類模型未必會獲得好效果。Sun等[3]在CCA的基礎(chǔ)上提出了判別典型相關(guān)分析(Discriminative Canonical Correlation Analysis, DCCA),DCCA的優(yōu)化目標(biāo)在于使得類內(nèi)相關(guān)性最大的同時類間相關(guān)性最小,但是沒有針對分類預(yù)測任務(wù)優(yōu)化組合特征本身; 周旭東等[5]也在CCA的基礎(chǔ)上提出了增強(qiáng)視圖組合特征判別性的典型相關(guān)分析(Combined-feature-discriminability Enhanced Canonical Correlation Analysis,CECCA),其優(yōu)化目標(biāo)考慮了視圖組合特征的判別性,但是忽略了類別之間的相關(guān)性; Xing等[6]在CCA的基礎(chǔ)上提出了完善的典型相關(guān)分析(Complete Canonical Correlation Analysis, C3A),C3A在計(jì)算耗時、耗資源方面得到了優(yōu)化,該優(yōu)化目標(biāo)并不是專門針對分類預(yù)測任務(wù)。上述方法雖然都各有優(yōu)點(diǎn),但并不是專門針對分類預(yù)測任務(wù),沒有綜合考慮視圖組合特征的判別性和視圖類別相關(guān)性, 因此,本文提出一種增強(qiáng)判別性的典型相關(guān)算法。一方面將視圖的類間和類內(nèi)相關(guān)性考慮進(jìn)來,在最大化類內(nèi)相關(guān)的同時最小化類間相關(guān); 另一方面考慮了視圖組合特征的判別性,從而達(dá)到增強(qiáng)特征判別性的目的,提高分類預(yù)測性能。
分類集成通過組合多個個體分類器來構(gòu)建一個高精度的分類器,從而改善單個分類器的不穩(wěn)定性同時提升分類預(yù)測準(zhǔn)確率[7]。文獻(xiàn)[8-10]基于單一分類器構(gòu)建集成模型,主要針對文本分類問題;文獻(xiàn)[11]采用加權(quán)投票法將支持向量機(jī)(Support Vector Machine, SVM)、樸素貝葉斯(Naive Bayes, NB)和邏輯回歸三種不同方法進(jìn)行集成,獲得優(yōu)于單個分類器的結(jié)果。相比上述幾種集成方法, 分類熵集成(Classification Entry, CE)[12]方法不僅考慮分類器的整體性能,而且還考慮了個體分類器的局部性能,可以自適應(yīng)地為各個分類器分配權(quán)值,因此,高校助學(xué)金的預(yù)測模型基于EN-DCCA和分類熵集成策略構(gòu)建。K最近鄰(K-Nearest Neighbor,KNN)方法簡單, 適用于大部分樣本集;隨機(jī)森林(Random Forest, RF)本身作為一種集成方法,能獲得較好的分類預(yù)測性能;樸素貝葉斯在小樣本集上也能獲得較好的效果,所以利用KNN、RF和NB三種方法作為個體分類器[13-14]。
設(shè)有來自c個類別的n對數(shù)據(jù)樣本集{(xi,yi)}∈Rp×Rq,其中,xi和yi分別來自兩個不同的視圖。記樣本集X=[x1,x2,…,xn]∈Rp×n,表示X有n個樣本,每個樣本有p個特征屬性; 記樣本集Y=[y1,y2,…,yn]∈Rq×n,Y也有n個樣本,每個樣本有q個特征屬性。
DCCA的優(yōu)化函數(shù)是最大化類內(nèi)相關(guān)且同時最小化類間相關(guān),在該目標(biāo)下獲得樣本集X和樣本集Y的投影向量wx和wy,DCCA的優(yōu)化目標(biāo)定義為:
s.t.wxTCxxwx=1,wyTCyywy=1
(1)
其中:Cw為類內(nèi)相關(guān)矩陣,E[·]是數(shù)學(xué)期望,Cxx、Cyy分別為樣本集X、Y的自協(xié)方差矩陣,且Cxx=E[XXT]=XXT、Cyy=E[YYT]=YYT。
通過使用Lagrange乘子法,該問題的求解可通過解式(2)廣義特征值問題得到:
(2)
跟DCCA定義方式相同,且記X=[x1,x2,…,xn]∈Rp×n,Y=[y1,y2,…,yn]∈Rq×n。設(shè)樣本集X、Y來自c個不同的類別,CECCA算法的優(yōu)化目標(biāo)是在CCA的優(yōu)化目標(biāo)函數(shù)中加入線性判別分析項(xiàng),由于樣本X、Y的組合特征有并行化組合和串行組合兩種組合方式,因此,CECCA對應(yīng)有CECCA_P和CECCA_S兩種具體算法,分別對并行組合特征和串行組合特征進(jìn)行優(yōu)化,從而得到視圖X、Y的投影向量wx和wy。
下面以CECCA_P進(jìn)行說明,并行化組合特征的CECCA優(yōu)化目標(biāo)為:
s.t.wxTCxxwx=1,wyTCyywy=1
(3)
利用Lagrange乘子法,該優(yōu)化問題可通過求解式(4)廣義特征值得到:
(4)
Sun等[15]首次使用CCA方法實(shí)現(xiàn)了信息的特征融合。特征投影向量wx和wy將數(shù)據(jù)集X、Y分別映射為典型相關(guān)屬性特征wxTX、wyTY,wxTX和wyTY有串行組合和并行組合兩種方式。
串行融合:
(5)
并行融合:
(6)
基于分類建立模型時,利用上述信息融合方法便可得到融合之后的組合屬性特征,再將該組合特征用于分類預(yù)測任務(wù)。
分類熵集成[12]同時考慮分類器的整體性能和個體分類器的局部性能,并且可以自適應(yīng)分配權(quán)值。文獻(xiàn)[12]對該算法進(jìn)行了詳細(xì)描述,設(shè)L為類別個數(shù),算法主要包括以下4個步驟:
1)計(jì)算個體分類器的混淆矩陣;
2)計(jì)算全局準(zhǔn)確率和局部準(zhǔn)確率;
3)根據(jù)全局準(zhǔn)確率和局部準(zhǔn)確率計(jì)算個體分類器輸出類別的權(quán)重,在此基礎(chǔ)上計(jì)算分類熵CEj,j表示類別;
4)集成分類器輸出類別。
(7)
增強(qiáng)特征判別性的典型相關(guān)分析(Enhanced-Discriminative Canonical Correlations Analysis, EN-DCCA)算法在判別典型相關(guān)分析(DCCA)方法的基礎(chǔ)上引入判別分析項(xiàng),同時考慮了視圖類別的相關(guān)性和視圖組合特征的判別性,可求得更具有判別性的典型相關(guān)特征,從而提高分類預(yù)測性能。
同樣設(shè)有來自c個類別的n對數(shù)據(jù)樣本集{(xi,yi)}∈Rp×Rq,其中,xi和yi分別來自兩個不同的視圖。記樣本集X=[x1,x2,…,xn]∈Rp×n,表示X有n個樣本,每個樣本有p個特征屬性,記樣本集Y=[y1,y2,…,yn]∈Rq×n,Y也有n個樣本,每個樣本有q個特征屬性。
EN-DCCA的優(yōu)化目標(biāo)最大化類內(nèi)相關(guān)的同時最小化類間相關(guān),而且考慮了組合特征的判別性,在這兩者目標(biāo)下獲得兩個視圖的投影向量wx和wy;EN-DCCA屬性特征并行組合的優(yōu)化目標(biāo)定義為:
s.t.wxTCxxwx=1,wyTCyywy=1
(8)
則EN-DCCA的優(yōu)化目標(biāo)可進(jìn)一步簡化為:
s.t.wxTCxxwx=1,wyTCyywy=1
(9)
2wxTXAYTwy
s.t.wxTCxxwx=1,wyTCyywy=1
(10)
其中:A=2U-I,I為單位矩陣。
利用Lagrange乘子法,對優(yōu)化目標(biāo)建立Lagrange函數(shù):
L(λ,wx,wy)=wxTCwwy+wxTXAXTwx+wyTYAYTwy+
2wxTXAYTwy-λ(wxTCxxwx+wyTCyywy-2)
(11)
對wx求偏導(dǎo):
2XAYTwy-λ(XXTwx+wxTXXT)
(12)
化簡則有:
(13)
同理可得:
(14)
(15)
(16)
因此EN-DCCA的優(yōu)化模型可通過求解式(17)廣義特征值問題得到。
(17)
本文基于提出的增強(qiáng)視圖特征判別性的典型相關(guān)分析算法EN-DCCA和分類集成方法來構(gòu)建高校學(xué)生助學(xué)金預(yù)測模型。針對分類任務(wù),EN-DCCA方法可以獲得更具判別性的特征,利用分類集成方法進(jìn)行預(yù)測,進(jìn)一步提升預(yù)測準(zhǔn)確率。
基于EN-DCCA和分類集成的高校助學(xué)金預(yù)測模型如圖1所示。
圖1 高校助學(xué)金預(yù)測模型
圖1 所示的預(yù)測模型實(shí)施步驟如下:
1)數(shù)據(jù)預(yù)處理并獲得判別典型相關(guān)特征。
學(xué)生在校行為數(shù)據(jù)一般都是多源異構(gòu)數(shù)據(jù),首先將數(shù)據(jù)預(yù)處理,得到生活行為和學(xué)習(xí)表現(xiàn)兩個視圖數(shù)據(jù),然后利用EN-DCCA算法進(jìn)行特征學(xué)習(xí),獲得增強(qiáng)判別性的典型相關(guān)特征。
2)構(gòu)建分類集成模型實(shí)現(xiàn)資助金預(yù)測。
利用k-折交叉采樣方法[17]對EN-DCCA方法學(xué)習(xí)的特征進(jìn)行抽樣,得到k個數(shù)據(jù)子集用于訓(xùn)練個體分類器,最后用分類熵集成策略實(shí)現(xiàn)助學(xué)金預(yù)測,并輸出預(yù)測結(jié)果。
基于EN-DCCA和分類集成的助學(xué)金預(yù)測具體算法如下。
1) 基于EN-DCCA方法提取判別典型相關(guān)特征。
輸入:視圖X、Y,樣本類別個數(shù)c;
輸出:視圖X、Y的投影矩陣wx、wy。
a)構(gòu)建增強(qiáng)視圖特征判別性優(yōu)化目標(biāo);
b)計(jì)算Cw、Cxx、Cyy、A;
c)代入b)步計(jì)算的參數(shù)求解wx、wy;
d)計(jì)算判別典型相關(guān)特征wxTX、wyTY;
e)wxTX和wyTY信息融合;
2) 用分類集成方法完成預(yù)測。
輸出:預(yù)測結(jié)果。
b)基于數(shù)據(jù)子集訓(xùn)練個體分類器;
c)利用分類熵集成方法對分類結(jié)果集成,最后輸出預(yù)測結(jié)果。
本實(shí)驗(yàn)利用的數(shù)據(jù)來自多個學(xué)院8 376名本科生在校行為記錄,主要包括6部分:一卡通消費(fèi)記錄、圖書借閱記錄、寢室門禁數(shù)據(jù)、圖書館門禁數(shù)據(jù)、學(xué)生成績數(shù)據(jù)、助學(xué)金信息數(shù)據(jù)。其中學(xué)生的消費(fèi)信息、圖書借閱信息、寢室門禁、圖書館門禁數(shù)據(jù)來自學(xué)生的校園一卡通,每個數(shù)據(jù)集包含幾百萬條記錄,按學(xué)生的ID號進(jìn)行處理。通過一卡通的消費(fèi)記錄,可以提取出學(xué)生平均每周去食堂的消費(fèi)次數(shù)、每次消費(fèi)的金額、學(xué)校超市購物金額、打印資料費(fèi)用等其他生活消費(fèi)支出;寢室和圖書館門禁數(shù)據(jù)可以得到學(xué)生去圖書館自習(xí)的頻次、自習(xí)時間長短以及學(xué)生早出晚歸的時間等信息;圖書借閱記錄可以大致了解學(xué)生借閱的數(shù)量等信息。學(xué)生的助學(xué)金獲得情況作為類別標(biāo)簽,分為4個類別:沒有助學(xué)金、三等助學(xué)金、二等助學(xué)金和一等助學(xué)金。另外,考慮到學(xué)生隱私問題,學(xué)號、成績等信息都經(jīng)過脫敏處理。
為了能夠充分利用數(shù)據(jù)之間的相關(guān)、互補(bǔ)信息,將多維度學(xué)生在校行為數(shù)據(jù)從學(xué)習(xí)和生活方面劃分為兩個不同視圖,利用本文提出的EN-DCCA方法選擇出更具判別性的特征,并與CCA[4]、DCCA[3]、CECCA[5]方法進(jìn)行對比;然后利用基于KNN、RF、Naive Bayes的分類集成方法進(jìn)行預(yù)測,并與基于單分類器的預(yù)測結(jié)果對比。
為了驗(yàn)證EN-DCCA算法特征提取的有效性,使用樣本分布圖展示效果。樣本分布圖是對特征利用主成分分析(Principal Component Analysis, PCA)[20]方法提取最重要的2維或3維特征展示樣本的分離性或者聚集現(xiàn)象,以此觀察目標(biāo)特征是否具有判別性。本文分別選擇了CCA、DCCA、CECCA方法與本文提出的EN-DCCA算法進(jìn)行對比, 結(jié)果如圖2所示。
圖2 不同特征學(xué)習(xí)方法的樣本分布情況
圖2(a)是將學(xué)生生活視圖數(shù)據(jù)和學(xué)生行為視圖數(shù)據(jù)并行組合的原始樣本分布情況;通過圖2(b)可以看出, CCA僅考慮了視圖數(shù)據(jù)間的相關(guān)性,并不具有判別性;從圖2(c)和圖2(d)可以發(fā)現(xiàn), DCCA和CECCA不僅考慮了視圖數(shù)據(jù)間的相關(guān)性而且考慮了視圖的判別性;圖2(e)說明EN-DCCA算法效果較DCCA和CECCA,類內(nèi)更緊湊,類間差距更大,因此具有更強(qiáng)的類別判別性。類別1樣本個數(shù)最多,表示不能獲得助學(xué)金學(xué)生,類別4樣本個數(shù)最少,代表能夠獲得一等助學(xué)金的學(xué)生,類別2和類別3分別代表獲得三等和二等助學(xué)金的學(xué)生。
為了說明本文提出的EN-DCCA和分類集成助學(xué)金預(yù)測模型的有效性,將EN-DCCA提取的增強(qiáng)判別性特征用分類集成模型(記為RKN-CE)識別,并與RF、KNN、NB等不同單分類算法的預(yù)測效果進(jìn)行對比;選擇CCA、DCCA、CECCA與EN-DCCA算法作對比。同時,為了說明將學(xué)生在校行為數(shù)據(jù)劃分為兩個不同視圖先進(jìn)行特征學(xué)習(xí)再識別的優(yōu)越性,與單個視圖也作了對比,單視圖數(shù)據(jù)集是將數(shù)據(jù)集X、Y并行組合,記為XY[5],其中,數(shù)據(jù)集X是學(xué)生的在校行為數(shù)據(jù),數(shù)據(jù)集Y是學(xué)生的學(xué)習(xí)表現(xiàn)數(shù)據(jù)。對比方式是將單視圖數(shù)據(jù)集XY不作任何處理,直接進(jìn)行分類預(yù)測,并與EN-DCCA在相同分類集成方法下進(jìn)行對比。先用訓(xùn)練數(shù)據(jù)集訓(xùn)練本文提出的預(yù)測模型,然后用測試數(shù)據(jù)集驗(yàn)證該模型的有效性,為了能夠直觀展示預(yù)測結(jié)果,用預(yù)測準(zhǔn)確率來評價該模型的有效性。
圖3給出了在RKN-CE集成方法下,對數(shù)據(jù)集XY,用CCA、DCCA、CECCA與EN-DCCA方法的10次實(shí)驗(yàn)結(jié)果對比,可以看出EN-DCCA方法的效果比CCA、DCCA、CECCA方法要好;同時,基于EN-DCCA特征學(xué)習(xí)的預(yù)測效果比XY單視圖直接預(yù)測效果更優(yōu)。圖4給出了用EN-DCCA方法獲得判別典型相關(guān)特征,然后用分類集成RKN-CE方法預(yù)測,并與單個分類算法RF、KNN、Naive Bayes的10次實(shí)驗(yàn)預(yù)測結(jié)果對比,可以看出分類集成RKN-CE模型較其他單分類器能獲得更好的結(jié)果。
圖3 EN-DCCA與其他方法識別率對比
圖4 RKN-CE與單分類算法識別率對比曲線
表1是單視圖數(shù)據(jù)集XY、典型相關(guān)特征學(xué)習(xí)方法CCA、DCCA、CECCA、EN-DCCA處理的數(shù)據(jù)集分別用單分類器RF、KNN、NB和分類集成RKN-CE方法進(jìn)行10次實(shí)驗(yàn)得到的平均結(jié)果。最后一行的平均值表示同一種特征學(xué)習(xí)方法在不同分類器下的一個平均結(jié)果,加粗的值表示同一種分類方法針對不同特征學(xué)習(xí)算法的最好預(yù)測結(jié)果。本文提出的EN-DCCA和RKN-CE模型的預(yù)測平均值為90.01%,較其他典型相關(guān)特征學(xué)習(xí)方法和分類方法組合效果都好,且EN-DCCA特征學(xué)習(xí)方法在不同分類方法下的預(yù)測平均值為86.33%,平均識別效果優(yōu)于其他特征學(xué)習(xí)方法。
表1 助學(xué)金預(yù)測平均識別準(zhǔn)確率 %
本文提出一種多視圖特征判別方法EN-DCCA,同時考慮了視圖特征間的相關(guān)性和視圖組合特征的判別性,并結(jié)合分類集成方法,構(gòu)建了一種高校助學(xué)金預(yù)測模型。首先,將學(xué)生在校行為數(shù)據(jù)從生活和學(xué)習(xí)兩方面處理為兩個不同視圖; 然后用EN-DCCA特征判別方法對兩個視圖數(shù)據(jù)進(jìn)行特征學(xué)習(xí),將得到的增強(qiáng)判別典型相關(guān)特征用分類集成方法進(jìn)行預(yù)測識別。為了說明EN-DCCA方法的有效性,分別與已有的典型相關(guān)分析方法DCCA、CECCA等進(jìn)行了對比,實(shí)驗(yàn)結(jié)果表明,基于EN-DCCA的特征學(xué)習(xí)方法識別率更好;同時,為了說明分類集成方法的優(yōu)越性,與單分類算法進(jìn)行了對比,最終實(shí)驗(yàn)結(jié)果表明基于EN-DCCA和分類集成模型能有效實(shí)現(xiàn)高校助學(xué)金預(yù)測。EN-DCCA方法主要針對兩個視圖進(jìn)行特征學(xué)習(xí),在后續(xù)的研究中希望將該方法擴(kuò)展到三個及以上視圖中。