周曉霞,張治飛,楊赫祎,黃 磊
(西南交通大學(xué) 數(shù)學(xué)學(xué)院, 成都 611756)
數(shù)據(jù)形式多種多樣,涉及領(lǐng)域也越來(lái)越廣泛,將各個(gè)領(lǐng)域的數(shù)據(jù)與高性能的機(jī)器學(xué)習(xí)模型相結(jié)合已經(jīng)成為廣大學(xué)者的研究范疇之一。Breiman于2001年提出的隨機(jī)森林(random forest,RF)算法由于具備較高的分類精度而受到各界學(xué)者青睞[1]。隨機(jī)森林是多棵決策樹的組合體,要理解隨機(jī)森林算法可以先從理解決策樹算法入手。決策樹學(xué)習(xí)算法主要包含選擇特征、生成樹以及對(duì)樹進(jìn)行修剪這3個(gè)步驟,比較常用有ID3算法、C4.5算法以及CART算法[2]。決策樹算法的計(jì)算所需時(shí)間相對(duì)來(lái)說(shuō)不是很大,且算法原理簡(jiǎn)單,但由于決策樹是單分類器,一般來(lái)說(shuō),單分類器在進(jìn)行分類時(shí)不僅分類精度不夠高,而且模型也易出現(xiàn)過(guò)擬合的問(wèn)題[3]。集成學(xué)習(xí)作為一種分類準(zhǔn)確率較高的機(jī)器學(xué)習(xí)策略[4],它通過(guò)某種規(guī)則將多個(gè)相同或不同的學(xué)習(xí)算法組合起來(lái)解決問(wèn)題。研究表明,集成學(xué)習(xí)方法往往比單一模型的分類精度更高且泛化能力更加顯著[5]。此外,前人依照一定規(guī)則將集成學(xué)習(xí)分為兩大學(xué)習(xí)策略,即Boosting學(xué)習(xí)策略和Bagging學(xué)習(xí)策略[5],隨機(jī)森林就是Bagging學(xué)習(xí)策略中比較常用的算法之一。
隨機(jī)森林作為一種基于決策樹且更加完善的集成學(xué)習(xí)策略,采用投票的方式對(duì)內(nèi)部多棵決策樹預(yù)測(cè)的結(jié)果進(jìn)行綜合處理[6],從而得到穩(wěn)健性強(qiáng)、分類精度高、分類效果更好的分類模型。鑒于此,隨機(jī)森林算法被廣泛應(yīng)用于多個(gè)工作領(lǐng)域。例如:當(dāng)前股票市場(chǎng)由于種種原因具有較大的波動(dòng)性,而一個(gè)良好的股票預(yù)測(cè)模型往往需要較好的泛化能力[7]。鑒于隨機(jī)森林算法具有較好的穩(wěn)健性和容錯(cuò)性[8],且泛化能力強(qiáng),因此在股市中可以利用隨機(jī)森林算法對(duì)股票未來(lái)的走勢(shì)進(jìn)行預(yù)測(cè)。此外,由于隨機(jī)森林分類效果較好,也常常被應(yīng)用于銀行信貸分析。一般地,銀行通過(guò)分析貸款客戶的基本情況,對(duì)其信用程度進(jìn)行等級(jí)劃分,再結(jié)合隨機(jī)森林算法預(yù)測(cè)貸款客戶是否能如期還款,從而降低銀行信貸業(yè)務(wù)的風(fēng)險(xiǎn),提高銀行的收益。眾所周知,隨機(jī)森林算法分類效果的好壞離不開重要特征變量的構(gòu)建和篩選,這也是關(guān)注的主要內(nèi)容。
如何系統(tǒng)地構(gòu)建和篩選特征變量,即特征工程,也是機(jī)器學(xué)習(xí)值得重點(diǎn)研討的領(lǐng)域之一。一般地,原始數(shù)據(jù)中往往包含部分冗余特征變量,若能在原始特征變量中篩選出與響應(yīng)變量相關(guān)性更強(qiáng)的特征變量,將大大減少后期建模預(yù)測(cè)的計(jì)算工作量?;バ畔?mutual information,MI)作為一種變量間獨(dú)立性的度量[9],兼具衡量變量間線性以及非線性的依賴性的優(yōu)點(diǎn),可用于度量隨機(jī)變量間相互的依賴水平,因此可將MI作為一種重要變量的選擇工具(劃分指標(biāo))。一般地,當(dāng)MI作為劃分指標(biāo)時(shí),在劃分過(guò)程中MI越大,說(shuō)明劃分結(jié)果越好[9]。但目前大部分學(xué)者在進(jìn)行MI估計(jì)時(shí),特別是連續(xù)型隨機(jī)變量,往往依賴于參數(shù)的調(diào)優(yōu)估計(jì),調(diào)參在許多估計(jì)方法中都有涉及,例如在離散化過(guò)程中k-近鄰(k-nearest-neighbor,kNN)估計(jì)器中的鄰居數(shù)量以及核密度估計(jì)(kernel-density estimator,KDE)中的帶寬等[9]。在調(diào)參過(guò)程中,當(dāng)參數(shù)不同時(shí)得到的結(jié)果會(huì)產(chǎn)生差異,從而導(dǎo)致得到的MI估計(jì)值可能不太穩(wěn)定或者有較大偏差。鑒于此,為了使MI估計(jì)值不受參數(shù)選擇的約束,Zeng等[10]提出基于刀切(Jackknife)思想的MI估計(jì)(JMI)。JMI不需要產(chǎn)生預(yù)先確定的調(diào)優(yōu)參數(shù),具有自動(dòng)糾偏和獨(dú)立性檢驗(yàn)的高局域性等優(yōu)點(diǎn)。近期,張治飛等[9]提出將確定獨(dú)立篩選(sure independence screening,SIS)與JMI相結(jié)合的辦法,以達(dá)到超高維空間中非線性回歸模型的變量選擇的目的,但該學(xué)者并未考慮當(dāng)特征變量為含秩序多項(xiàng)(ordinal multinomial,OM)特征變量時(shí)的情況。OM特征變量廣泛存在于實(shí)際數(shù)據(jù)中,例如在醫(yī)學(xué)方面,何小群等[11]對(duì)瘤-肺交界面處的顯示情況進(jìn)行主觀評(píng)分,將瘤-肺所有交界面從“均難以分辨”到“均清晰可辨”分為4個(gè)等級(jí)(記為1~4分),再根據(jù)這些評(píng)分等級(jí)(秩序多項(xiàng)的另一種稱呼)判別瘤-肺交界面檢出為陽(yáng)性(+)還是陰性(-)。
在統(tǒng)計(jì)學(xué)中,當(dāng)響應(yīng)變量是二分類時(shí),學(xué)者常用回歸模型解決問(wèn)題,例如logistic回歸模型[12]和probit回歸模型[13]。由于OM特征變量在實(shí)際數(shù)據(jù)中廣泛存在,而OM特征變量的某2個(gè)或多個(gè)相鄰特征變量可能對(duì)響應(yīng)變量具有幾乎相同甚至等價(jià)的影響,即這些相鄰類別之間存在偽項(xiàng),但大多數(shù)學(xué)者在建立回歸模型時(shí)沒(méi)有處理偽項(xiàng),直接將OM特征變量作為標(biāo)度變量來(lái)建立和預(yù)測(cè)模型,導(dǎo)致建立的模型出現(xiàn)過(guò)擬合問(wèn)題。因此,對(duì)于含有偽項(xiàng)的線性回歸模型中的特征變量,很有必要對(duì)偽項(xiàng)進(jìn)行識(shí)別及融合,例如,在統(tǒng)計(jì)學(xué)中,若一個(gè)線性回歸模型含有一個(gè)OM特征變量,且該OM變量有6個(gè)等級(jí),此OM特征變量中等級(jí)3和等級(jí)4為偽項(xiàng),則可將其和等級(jí)2融合;等級(jí)6為偽項(xiàng),則可將其與等級(jí)5融合為新的一個(gè)等級(jí),具體如圖1所示。
圖1 包含偽項(xiàng)的OM特征變量示意圖
然而,在實(shí)際含OM特征變量的數(shù)據(jù)中,對(duì)于含偽項(xiàng)的線性回歸模型具體該怎么識(shí)別及融合呢?早期,Walter等[14]提出用啞變量編碼的方式處理OM特征變量,該方法能夠解釋估計(jì)出的參數(shù),但當(dāng)OM特征變量較多時(shí),該方法易產(chǎn)生過(guò)擬合的問(wèn)題。Tibshirani等[15]提出采用fused-LASSO方法對(duì)線性回歸模型的相鄰系數(shù)之差以及回歸系數(shù)進(jìn)行懲罰,從而避免模型過(guò)擬合問(wèn)題的發(fā)生,且達(dá)到了變量選擇的目的,但該方法不能對(duì)同時(shí)含有OM特征變量以及數(shù)值變量的數(shù)據(jù)集進(jìn)行偽項(xiàng)的識(shí)別及融合。Gertheiss等[16]提出利用嶺回歸方法對(duì)OM特征變量相鄰系數(shù)之差進(jìn)行壓縮,從而進(jìn)行變量選擇,但當(dāng)OM特征變量中存在偽項(xiàng)時(shí)該方法會(huì)導(dǎo)致得到的模型呈現(xiàn)出過(guò)擬合的問(wèn)題。Tian等[17]借鑒Walter等[14]和Gertheiss等[16]的思想提出了TD-BIC(transformed dummy-BIC)方法,該方法結(jié)合了啞變量線性變換以及BIC篩選準(zhǔn)則。由于BIC篩選準(zhǔn)則具備模型選擇的相合性[18],從而TD-BIC方法不僅能很好地避免模型過(guò)擬合問(wèn)題的發(fā)生,還能提高模型的預(yù)測(cè)精度。近期,晁越等[19]針對(duì)含OM特征變量的logistic回歸模型,借鑒前人的思想提出了一種新的偽項(xiàng)識(shí)別方法,即LTD-BIC(logistic transformed dummy-BIC)方法,該方法能識(shí)別出logistic回歸模型中的偽項(xiàng),但該方法并沒(méi)有對(duì)特征變量進(jìn)行初步降維篩選,從而導(dǎo)致建模過(guò)程中模型的計(jì)算量過(guò)大。
在實(shí)際數(shù)據(jù)分析中,通常大部分學(xué)者在對(duì)含高維OM特征變量數(shù)據(jù)集建立隨機(jī)森林模型時(shí),并沒(méi)有同時(shí)對(duì)特征變量進(jìn)行初步篩選以及對(duì)OM特征變量的偽項(xiàng)進(jìn)行識(shí)別及融合。一旦數(shù)據(jù)中含有高維OM特征變量,則極易造成建立的隨機(jī)森林模型過(guò)擬合或者模型的樣本外預(yù)測(cè)能力下降。一般地,對(duì)于維度較大的數(shù)據(jù),學(xué)者常用皮爾森相關(guān)系數(shù)方法對(duì)變量進(jìn)行篩選,該方法簡(jiǎn)單且能較好地反應(yīng)特征變量與響應(yīng)變量之間的關(guān)系,但也有局限性,它僅適用于線性關(guān)系,當(dāng)變量間是非線性關(guān)系時(shí)則不再適用[20]??紤]到JMI可以描述變量之間的非線性關(guān)系,且JMI完全是由數(shù)據(jù)驅(qū)動(dòng)的,不需要產(chǎn)生預(yù)定的調(diào)優(yōu)參數(shù),具有自動(dòng)糾偏和獨(dú)立性檢驗(yàn)的高局域性的優(yōu)點(diǎn)[9]。鑒于此,針對(duì)維度較大且含有OM特征變量的數(shù)據(jù),提出先用JMI方法對(duì)數(shù)據(jù)進(jìn)行初步篩選,用較少的變量取代原來(lái)較多的變量,從而實(shí)現(xiàn)降維[7],再利用TD-BIC方法對(duì)特征變量進(jìn)行偽項(xiàng)識(shí)別及融合,最后結(jié)合隨機(jī)森林算法對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)分類。將此改進(jìn)的算法簡(jiǎn)記為:改進(jìn)算法JMI-TD-RF,并將改進(jìn)算法JMI-TD-RF應(yīng)用于含OM特征變量的銀行信貸數(shù)據(jù)和學(xué)生成績(jī)調(diào)查數(shù)據(jù),從而證明了改進(jìn)算法JMI-TD-RF的有效性。所提出的改進(jìn)算法JMI-TD-RF主要通過(guò)R及Python語(yǔ)言進(jìn)行實(shí)現(xiàn)。
剩余部分安排如下:第1節(jié)對(duì)提到的隨機(jī)森林算法的原理進(jìn)行簡(jiǎn)單闡述;第2節(jié)介紹并詳細(xì)描述了所提出處理含高維OM特征變量的改進(jìn)算法JMI-TD-RF;第3節(jié)應(yīng)用改進(jìn)算法JMI-TD-RF進(jìn)行了實(shí)例分析;第4節(jié)則對(duì)全文進(jìn)行了總結(jié)。
作為一種以決策樹為基學(xué)習(xí)器的集成學(xué)習(xí)算法[5],隨機(jī)森林算法具備了更高的分類精度[21]。想要更好地了解隨機(jī)森林算法就必須得先了解決策樹算法。決策樹算法將數(shù)據(jù)集根據(jù)某種規(guī)則分裂,形成樹的結(jié)構(gòu),從而進(jìn)行決策。但是,單棵決策樹(單分類器)由于結(jié)構(gòu)單一,往往容易導(dǎo)致最終分類模型的精度不夠高,模型容易出現(xiàn)過(guò)擬合的問(wèn)題[22]。為了避免模型因過(guò)擬合而導(dǎo)致模型泛化能力不強(qiáng)的現(xiàn)象發(fā)生,很有必要在對(duì)實(shí)際數(shù)據(jù)建模時(shí)引入集成學(xué)習(xí)算法。在實(shí)際數(shù)據(jù)分類過(guò)程中,隨機(jī)森林算法的每一個(gè)基學(xué)習(xí)器都給選擇的類別進(jìn)行“投票”,之后按照少數(shù)服從多數(shù)的原則決定隨機(jī)森林算法的最終預(yù)測(cè)結(jié)果,具體如圖2所示。
圖2 隨機(jī)森林原理框圖
隨機(jī)森林算法步驟如下:
步驟1用bootstrap重抽樣法[8]對(duì)總數(shù)據(jù)集進(jìn)行隨機(jī)抽樣[5],得到bootstrap樣本集Si,i=1,2,…,m[23]。并將Si,i=1,2,…,m作為這棵決策樹的訓(xùn)練集。
步驟2在Si,i=1,2,…,m上訓(xùn)練得到?jīng)Q策樹Ti,i=1,2,…,m。
步驟3分類問(wèn)題中,決策函數(shù)為:
f(x)=mode(T1(x),T2(x),…,Tm(x))
隨機(jī)森林算法不僅具備很高的預(yù)測(cè)精度也具備較好的穩(wěn)健性和容錯(cuò)性[8],且具備較好的泛化能力[24]。值得注意的是,在對(duì)含高維OM特征變量的二分類數(shù)據(jù)建立隨機(jī)森林模型時(shí),學(xué)者通常會(huì)不加任何處理地直接將其當(dāng)作標(biāo)量進(jìn)行建模,從而導(dǎo)致所建立的模型呈現(xiàn)出過(guò)擬合現(xiàn)象,以至于模型的泛化能力不高。因此,在處理含高維OM特征變量的數(shù)據(jù)時(shí),很有必要引入接下來(lái)提出的改進(jìn)算法JMI-TD-RF。
2.1.1MI的定義
隨機(jī)變量X=(X1,X2,…,Xp)T,Y=(Y1,Y2,…,YQ)T,定義X、Y的MI為:
(1)
式(1)中:fX、fY分別是隨機(jī)變量X、Y的邊緣概率密度函數(shù);fXY是隨機(jī)變量X、Y的聯(lián)合密度函數(shù),值得注意的是式(1)中X、Y也可以是離散型隨機(jī)變量。由式(1)可知MI≥0,且MI=0時(shí)說(shuō)明X、Y相互獨(dú)立,且MI越接近于0則預(yù)示著隨機(jī)變量X、Y之間的依賴關(guān)系越弱。因而,可以用MI對(duì)變量間的非線性關(guān)系進(jìn)行度量研究。
2.1.2MI的刀切估計(jì)
JMI方法是對(duì)MI的核密度估計(jì)(KDE)的一種改進(jìn)方法,與核密度方法的不同之處在于對(duì)其中4個(gè)帶寬矩陣的設(shè)置。Zeng等[10]通過(guò)理論推斷以及獨(dú)立性檢驗(yàn)的經(jīng)驗(yàn)從而得出結(jié)論:4個(gè)帶寬矩陣應(yīng)相等?;诖?,Zeng等[10]在KDE的基礎(chǔ)上設(shè)置4個(gè)相等的帶寬矩陣,對(duì)MI進(jìn)行刀切估計(jì)從而得到JMI。具體如下:
X=(X1,X2,…,XP)T與Y=(Y1,Y2,…,YQ)T相互獨(dú)立,對(duì)角帶寬矩陣HX、HY、BX、BY分別為:
對(duì)角矩陣A的核函數(shù)為:
X=(xip),i=1,2,…,n;p=1,2,…,P
Y=(yiq),i=1,2,…,n;q=1,2…,Q
則隨機(jī)變量X、Y、(X,Y)的概率密度函數(shù)的KDE為:
則MI(X,Y)的KDE為:
(2)
在式(2)的基礎(chǔ)上引入copula函數(shù),并引入刀切法思想對(duì)MI進(jìn)行估計(jì),從而得到JMI。由于MI具有嚴(yán)格單調(diào)轉(zhuǎn)換不變的性質(zhì)[10],且概率分布服從U(0,1),則:
U=(U1,…,UP)T=(FX1(X1),…,FXP(XP))
V=(V1,V2,V3,…,VQ)T=
(FY1(Y1),FY2(Y2),…,FYQ(YQ))T
其中:FXp(x),p=1,2,…,P,FYq(y),q=1,2,…,Q分別是Xp、Yq的概率分布函數(shù)。則U~U(0,1),V~U(0,1),且滿足:MI(X,Y)=MI(U,V)。
FY1,n(y1),…,FYQ,n(yQ))
對(duì)U、V的邊緣以及聯(lián)合copula密度函數(shù)進(jìn)行KDE,得到copula密度函數(shù)在刀切法下的KDE為:
參見(jiàn)Zeng等[10]得出的結(jié)論,設(shè)帶寬矩陣:
HX=HY=BX=BY=diag(h2,h2,…,h2)
則可得到JMI的數(shù)學(xué)定義為:
(3)
(4)
鑒于JMI方法具有3個(gè)優(yōu)點(diǎn):其一,它完全是由數(shù)據(jù)驅(qū)動(dòng)的,避免了對(duì)參數(shù)進(jìn)行調(diào)優(yōu)的過(guò)程;其二,它具有良好的統(tǒng)計(jì)特性,如獨(dú)立性檢驗(yàn)的高局域性和自動(dòng)糾偏;其三,它通過(guò)采用唯一的最大值,可使JMI(X,Y)在數(shù)值上保持穩(wěn)定。因此,考慮用JMI方法對(duì)高維數(shù)據(jù)進(jìn)行特征變量的選擇,從而達(dá)到降低數(shù)據(jù)維度這一目標(biāo)。
通常,若OM特征變量X*具有k個(gè)分類,k>2,則有k-1個(gè)啞變量X2,…,Xk,且X*的第k個(gè)啞變量Xk的第n個(gè)分量Xk,n可定義為:
當(dāng)logistic回歸模型中只含有一個(gè)OM特征變量X*時(shí),如式(5)所示:
(5)
其中N表示樣本量。定義模型(5)中相鄰系數(shù)之差為:Δβj=βj-βj-1,j=2,3,…,k且定義β1=0,若Δβj=0,則說(shuō)明βj對(duì)應(yīng)的分類為偽項(xiàng)[19]。對(duì)于如何識(shí)別及融合這些偽項(xiàng),借鑒Tian等[17]提出的TD-BIC算法,下面將展示提出的處理高維OM特征變量的改進(jìn)算法JMI-TD-RF。
本小節(jié)將展示如何利用2.1小節(jié)JMI方法以及2.2小節(jié)中OM特征變量建模對(duì)隨機(jī)森林進(jìn)行改進(jìn),具體改進(jìn)算法JMI-TD-RF步驟如下:
步驟1用R語(yǔ)言中的JMI函數(shù)計(jì)算JMI(Xi,Y),i=1,2,…,t。其中t (6) (7) 步驟5若logistic回歸模型中含r(r≥2)個(gè)OM特征變量,則將其看作是r個(gè)含一個(gè)OM特征變量的logistic回歸模型,重復(fù)上述步驟2— 4,逐個(gè)對(duì)模型中的偽項(xiàng)進(jìn)行識(shí)別及融合。 此外,將模型(7)改寫為矩陣形式: Q=Z*β (8) Z*=(1,I-1,I-2,…,I-(k-1)) (9) 其中: (10) 則模型(7)的對(duì)數(shù)似然函數(shù)如式(11)所示: (11) βnew=(Z*TWZ*)-1Z*TWM (12) M=βoldZ*+W-1(Y-P) W=diag{P1(1-P1),…,PN(1-PN)}, (13) 其中h表示逐步回歸中每一步回歸系數(shù)的總個(gè)數(shù)。 數(shù)據(jù)來(lái)源于UCI數(shù)據(jù)集——Default of Credit Card Clients數(shù)據(jù)集[26]。該數(shù)據(jù)的下載網(wǎng)址為:https://archi-ve.ics.uci.edu/ml/machine-learning-databases/00350/。李莉[27]利用ID3算法根據(jù)該數(shù)據(jù)集判斷用戶下個(gè)月是否會(huì)出現(xiàn)違約的情況,但是該學(xué)者并沒(méi)有對(duì)數(shù)據(jù)集進(jìn)行特征變量的降維處理以及對(duì)其中的OM特征變量的偽項(xiàng)進(jìn)行識(shí)別及融合。同樣也是根據(jù)這一數(shù)據(jù)集判斷該用戶下一個(gè)月是否會(huì)出現(xiàn)信用卡違約的情況,但對(duì)數(shù)據(jù)的預(yù)處理方式以及建模方法與前人不同。該數(shù)據(jù)集中共有30 000個(gè)客戶的信息,客戶年齡包括21~80歲,考慮根據(jù)年齡將信貸數(shù)據(jù)分為6組,其中:A組包含21~30歲的客戶,共11 013條數(shù)據(jù);B組包含31~40歲的客戶,共10 713條數(shù)據(jù);C組包含41~50歲的客戶,共6 005條數(shù)據(jù);D組包含51~60歲的客戶,共1 997條數(shù)據(jù);E組包含61~70歲的客戶,共257條數(shù)據(jù);F組數(shù)據(jù)包含71~80歲的客戶,由于只有15條數(shù)據(jù),樣本量少,不具有說(shuō)服力,因此不對(duì)該組數(shù)據(jù)進(jìn)行實(shí)例分析。為了考察改進(jìn)算法JMI-TD-RF對(duì)隨機(jī)數(shù)據(jù)的泛化能力,分別對(duì)A、B、C、D 4組數(shù)據(jù)進(jìn)行樣本抽樣,隨機(jī)抽取500個(gè)樣本數(shù)據(jù)。E組數(shù)據(jù)不變。每組數(shù)據(jù)的初始特征變量如表1所示。 以A組數(shù)據(jù)為例,A組數(shù)據(jù)變量的描述性分析如表2所示。 表1 初始特征變量 續(xù)表(表1) 表2 變量的描述性分析 首先用R語(yǔ)言中的JMI函數(shù)對(duì)A組數(shù)據(jù)進(jìn)行初步高維特征變量的篩選,將得到的各個(gè)特征變量的JMI估計(jì)值按照從大到小排序,如表3所示。 表3 A組數(shù)據(jù)特征變量的JMI值 值得注意的是,由于MI沒(méi)有對(duì)(X,Y)做參數(shù)假設(shè),是非參的方法,因此JMI估計(jì)值越大,P值不一定越小。此外,當(dāng)P值滿足P<0.05時(shí),則拒絕原假設(shè)H0:X與Y獨(dú)立。因此,JMI方法后篩選出的特征變量集為:XN×d={X1,X2,X6,X7,X8,X9,X10,X11,X18,X19,X21,X22,X23},即含t=23個(gè)特征變量的特征變量集經(jīng)過(guò)JMI初步篩選后變成了d=13的特征變量集。 接下來(lái)對(duì)XN×d中的特征變量進(jìn)行偽項(xiàng)的識(shí)別及融合,其中,對(duì)于X1這樣的非等級(jí)劃分的特征變量,根據(jù)四分位數(shù)將其劃分為4個(gè)等級(jí),從而使其成為OM特征變量,之后再對(duì)其進(jìn)行偽項(xiàng)的識(shí)別及融合。根據(jù)改進(jìn)算法JMI-TD-RF,這里通過(guò)依次考慮含一個(gè)OM特征變量的logistic回歸模型進(jìn)行偽項(xiàng)識(shí)別及融合,參照式(5),將包含一個(gè)OM特征變量的表達(dá)式記為: (14) 表4 OM特征變量X1的參數(shù)估計(jì)結(jié)果 其他數(shù)據(jù)中的每個(gè)OM特征變量做同樣的步驟進(jìn)行偽項(xiàng)的識(shí)別及融合,最后再利用融合后的每組數(shù)據(jù)進(jìn)行隨機(jī)森林分類模型的建立。選擇準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1-分?jǐn)?shù)(F1_score)、AUC值作為模型評(píng)估指標(biāo)[28],基于Python中的scikit-learn庫(kù),利用帶5折交叉驗(yàn)證的網(wǎng)格搜索法對(duì)隨機(jī)森林模型的最優(yōu)參數(shù)進(jìn)行選擇[29],再計(jì)算模型的預(yù)測(cè)精度,并對(duì)計(jì)算結(jié)果根據(jù)四舍五入法保留4位小數(shù)[22],則含高維OM特征變量的各組數(shù)據(jù)在進(jìn)行JMI方法前后以及使用改進(jìn)算法JMI-TD-RF前后隨機(jī)森林模型的各評(píng)估指標(biāo)如表5所示。 表5 A組數(shù)據(jù)隨機(jī)森林模型評(píng)估指標(biāo) 對(duì)其他組數(shù)據(jù)進(jìn)行同樣的處理,最后可得結(jié)果如表6—9所示。 表6 B組數(shù)據(jù)隨機(jī)森林模型評(píng)估指標(biāo) 表7 C組數(shù)據(jù)隨機(jī)森林模型評(píng)估指標(biāo) 表8 D組數(shù)據(jù)隨機(jī)森林模型評(píng)估指標(biāo) 表9 E組數(shù)據(jù)隨機(jī)森林模型評(píng)估指標(biāo) 各組數(shù)據(jù)的AUC值如圖3所示。從上述分組實(shí)驗(yàn)結(jié)果來(lái)看,大部分?jǐn)?shù)據(jù)在JMI以及JMI-TD-RF后各個(gè)評(píng)估指標(biāo)都有上升。值得注意的是,選擇的5個(gè)模型評(píng)估指標(biāo)都是非常重要的度量,單看某一個(gè)指標(biāo)是無(wú)法判定模型的好壞的。例如在D組數(shù)據(jù)中JMI-TD-RF后數(shù)據(jù)的Recall和F1_score值比JMI后數(shù)據(jù)的Recall和F1_score小,但是其他指標(biāo)在JMI-TD-RF后都比JMI后大。一般來(lái)說(shuō),對(duì)于二分類模型的評(píng)估,在5個(gè)評(píng)估指標(biāo)之間,更加偏向于選擇AUC值對(duì)模型進(jìn)行評(píng)估。因此,從綜合評(píng)比角度可知改進(jìn)算法JMI-TD-RF對(duì)于提高含高維OM特征變量的二分類隨機(jī)森林模型精度是有效的。 圖3 各組數(shù)據(jù)篩選前后的AUC值 數(shù)據(jù)來(lái)源于UCI數(shù)據(jù)集——Student-por,且下載網(wǎng)址為:http://archive.ics.uci.edu/ml/datasets/Student+Performance。該數(shù)據(jù)共649個(gè)樣本,包括性別(sex)、年齡(age)、學(xué)校(school)、母親教育水平(Mdeu)、父親教育水平(Fedu)等31個(gè)特征變量以及第一階段成績(jī)(G1)、第二階段成績(jī)(G2)、最終成績(jī)(G3)3個(gè)變量。從中選擇部分變量進(jìn)行實(shí)例分析。選擇的數(shù)據(jù)特征變量如表10所示。 首先,利用R語(yǔ)言中的JMI函數(shù),計(jì)算特征變量的JMI估計(jì)值,并依據(jù)從大到小的順序進(jìn)行排序,如表11所示。 表10 學(xué)生成績(jī)調(diào)查數(shù)據(jù)的特征變量 表11 學(xué)生成績(jī)調(diào)查數(shù)據(jù)各個(gè)特征變量的JMI值 續(xù)表(表11) 根據(jù)JMI方法篩選準(zhǔn)則,當(dāng)P<0.05時(shí),則拒絕原假設(shè),則篩選出的特征變量為:XN×d={X1,X2,X3,X4,X7,X8,X9,X10,X11,X12,X13,X14,X17,X19,X20,X23,X24,X25,X26,X27,X28}。即原數(shù)據(jù)的t=28個(gè)特征變量在經(jīng)過(guò)JMI方法初步篩選后變成了含d=21個(gè)特征變量的數(shù)據(jù)集。再對(duì)XN×d中的OM特征變量如案例1一樣進(jìn)行偽項(xiàng)識(shí)別及融合,最后再結(jié)合隨機(jī)森林模型,得到結(jié)果如表12所示。 表12 學(xué)生成績(jī)調(diào)查數(shù)據(jù)隨機(jī)森林結(jié)果 學(xué)生成績(jī)調(diào)查數(shù)據(jù)變量篩選(JMI)以及偽項(xiàng)識(shí)別及融合(JMI-TD-RF)前后各指標(biāo)值變化情況如圖4所示。 圖4 學(xué)生成績(jī)調(diào)查數(shù)據(jù)篩選前后直方圖 由表12和圖4可以看出,雖然Accuracy和Precision指標(biāo)在JMI-TD-RF后比對(duì)數(shù)據(jù)進(jìn)行JMI篩選后更低,但是其他指標(biāo)都有上升,且在原數(shù)據(jù)的基礎(chǔ)上,數(shù)據(jù)在使用改進(jìn)算法JMI-TD-RF 后各個(gè)指標(biāo)明顯提升了,因此綜合來(lái)看,所提出的改進(jìn)算法JMI-TD-RF對(duì)含有高維OM特征變量的二分類隨機(jī)森林模型是有效的。 基于含高維OM特征變量的logistic回歸模型,首先運(yùn)用JMI方法對(duì)模型中高維OM特征變量進(jìn)行初步篩選,篩選出相關(guān)性更強(qiáng)的OM特征變量,再利用TD-BIC方法對(duì)OM特征變量的偽項(xiàng)進(jìn)行識(shí)別及融合,最后再對(duì)偽項(xiàng)融合后的數(shù)據(jù)結(jié)合隨機(jī)森林進(jìn)行預(yù)測(cè)。在2個(gè)實(shí)際數(shù)據(jù)集上,通過(guò)對(duì)比:① 含OM特征變量的數(shù)據(jù)未進(jìn)行降維以及偽項(xiàng)識(shí)別及融合的處理的方法;② 僅采用JMI降維處理的方法;③ 既采用JMI降維又配合偽項(xiàng)識(shí)別及融合的改進(jìn)算法JMI-TD-RF。展示了3種方法對(duì)應(yīng)的隨機(jī)森林預(yù)測(cè)模型的精度,發(fā)現(xiàn)改進(jìn)算法JMI-TD-RF對(duì)應(yīng)的隨機(jī)森林模型更精簡(jiǎn)且在交叉驗(yàn)證預(yù)測(cè)結(jié)果中綜合表現(xiàn)最優(yōu)。說(shuō)明了改進(jìn)算法JMI-TD-RF對(duì)于此類數(shù)據(jù)集的二分類任務(wù)具有良好的應(yīng)用價(jià)值。3 實(shí)例分析
3.1 案例1
3.2 案例2
4 結(jié)論