亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

針對(duì)秩序多項(xiàng)特征變量的一種改進(jìn)隨機(jī)森林算法

2022-10-26 10:53:20周曉霞張治飛楊赫祎

重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)) 2022年9期

周曉霞,張治飛,楊赫祎,黃磊

(西南交通大學(xué) 數(shù)學(xué)學(xué)院，成都 611756)

0 引言

數(shù)據(jù)形式多種多樣，涉及領(lǐng)域也越來(lái)越廣泛，將各個(gè)領(lǐng)域的數(shù)據(jù)與高性能的機(jī)器學(xué)習(xí)模型相結(jié)合已經(jīng)成為廣大學(xué)者的研究范疇之一。Breiman于2001年提出的隨機(jī)森林(random forest,RF)算法由于具備較高的分類精度而受到各界學(xué)者青睞[1]。隨機(jī)森林是多棵決策樹的組合體，要理解隨機(jī)森林算法可以先從理解決策樹算法入手。決策樹學(xué)習(xí)算法主要包含選擇特征、生成樹以及對(duì)樹進(jìn)行修剪這3個(gè)步驟，比較常用有ID3算法、C4.5算法以及CART算法[2]。決策樹算法的計(jì)算所需時(shí)間相對(duì)來(lái)說(shuō)不是很大，且算法原理簡(jiǎn)單，但由于決策樹是單分類器，一般來(lái)說(shuō)，單分類器在進(jìn)行分類時(shí)不僅分類精度不夠高，而且模型也易出現(xiàn)過(guò)擬合的問(wèn)題[3]。集成學(xué)習(xí)作為一種分類準(zhǔn)確率較高的機(jī)器學(xué)習(xí)策略[4]，它通過(guò)某種規(guī)則將多個(gè)相同或不同的學(xué)習(xí)算法組合起來(lái)解決問(wèn)題。研究表明，集成學(xué)習(xí)方法往往比單一模型的分類精度更高且泛化能力更加顯著[5]。此外，前人依照一定規(guī)則將集成學(xué)習(xí)分為兩大學(xué)習(xí)策略，即Boosting學(xué)習(xí)策略和Bagging學(xué)習(xí)策略[5]，隨機(jī)森林就是Bagging學(xué)習(xí)策略中比較常用的算法之一。

隨機(jī)森林作為一種基于決策樹且更加完善的集成學(xué)習(xí)策略，采用投票的方式對(duì)內(nèi)部多棵決策樹預(yù)測(cè)的結(jié)果進(jìn)行綜合處理[6]，從而得到穩(wěn)健性強(qiáng)、分類精度高、分類效果更好的分類模型。鑒于此，隨機(jī)森林算法被廣泛應(yīng)用于多個(gè)工作領(lǐng)域。例如：當(dāng)前股票市場(chǎng)由于種種原因具有較大的波動(dòng)性，而一個(gè)良好的股票預(yù)測(cè)模型往往需要較好的泛化能力[7]。鑒于隨機(jī)森林算法具有較好的穩(wěn)健性和容錯(cuò)性[8]，且泛化能力強(qiáng)，因此在股市中可以利用隨機(jī)森林算法對(duì)股票未來(lái)的走勢(shì)進(jìn)行預(yù)測(cè)。此外，由于隨機(jī)森林分類效果較好，也常常被應(yīng)用于銀行信貸分析。一般地，銀行通過(guò)分析貸款客戶的基本情況，對(duì)其信用程度進(jìn)行等級(jí)劃分，再結(jié)合隨機(jī)森林算法預(yù)測(cè)貸款客戶是否能如期還款，從而降低銀行信貸業(yè)務(wù)的風(fēng)險(xiǎn)，提高銀行的收益。眾所周知，隨機(jī)森林算法分類效果的好壞離不開重要特征變量的構(gòu)建和篩選，這也是關(guān)注的主要內(nèi)容。

如何系統(tǒng)地構(gòu)建和篩選特征變量，即特征工程，也是機(jī)器學(xué)習(xí)值得重點(diǎn)研討的領(lǐng)域之一。一般地，原始數(shù)據(jù)中往往包含部分冗余特征變量，若能在原始特征變量中篩選出與響應(yīng)變量相關(guān)性更強(qiáng)的特征變量，將大大減少后期建模預(yù)測(cè)的計(jì)算工作量?；バ畔?mutual information，MI)作為一種變量間獨(dú)立性的度量[9]，兼具衡量變量間線性以及非線性的依賴性的優(yōu)點(diǎn)，可用于度量隨機(jī)變量間相互的依賴水平，因此可將MI作為一種重要變量的選擇工具(劃分指標(biāo))。一般地，當(dāng)MI作為劃分指標(biāo)時(shí)，在劃分過(guò)程中MI越大，說(shuō)明劃分結(jié)果越好[9]。但目前大部分學(xué)者在進(jìn)行MI估計(jì)時(shí)，特別是連續(xù)型隨機(jī)變量，往往依賴于參數(shù)的調(diào)優(yōu)估計(jì)，調(diào)參在許多估計(jì)方法中都有涉及，例如在離散化過(guò)程中k-近鄰(k-nearest-neighbor，kNN)估計(jì)器中的鄰居數(shù)量以及核密度估計(jì)(kernel-density estimator，KDE)中的帶寬等[9]。在調(diào)參過(guò)程中，當(dāng)參數(shù)不同時(shí)得到的結(jié)果會(huì)產(chǎn)生差異，從而導(dǎo)致得到的MI估計(jì)值可能不太穩(wěn)定或者有較大偏差。鑒于此，為了使MI估計(jì)值不受參數(shù)選擇的約束，Zeng等[10]提出基于刀切(Jackknife)思想的MI估計(jì)(JMI)。JMI不需要產(chǎn)生預(yù)先確定的調(diào)優(yōu)參數(shù)，具有自動(dòng)糾偏和獨(dú)立性檢驗(yàn)的高局域性等優(yōu)點(diǎn)。近期，張治飛等[9]提出將確定獨(dú)立篩選(sure independence screening，SIS)與JMI相結(jié)合的辦法，以達(dá)到超高維空間中非線性回歸模型的變量選擇的目的，但該學(xué)者并未考慮當(dāng)特征變量為含秩序多項(xiàng)(ordinal multinomial，OM)特征變量時(shí)的情況。OM特征變量廣泛存在于實(shí)際數(shù)據(jù)中，例如在醫(yī)學(xué)方面，何小群等[11]對(duì)瘤-肺交界面處的顯示情況進(jìn)行主觀評(píng)分，將瘤-肺所有交界面從“均難以分辨”到“均清晰可辨”分為4個(gè)等級(jí)(記為1～4分)，再根據(jù)這些評(píng)分等級(jí)(秩序多項(xiàng)的另一種稱呼)判別瘤-肺交界面檢出為陽(yáng)性(+)還是陰性(-)。

在統(tǒng)計(jì)學(xué)中，當(dāng)響應(yīng)變量是二分類時(shí)，學(xué)者常用回歸模型解決問(wèn)題，例如logistic回歸模型[12]和probit回歸模型[13]。由于OM特征變量在實(shí)際數(shù)據(jù)中廣泛存在，而OM特征變量的某2個(gè)或多個(gè)相鄰特征變量可能對(duì)響應(yīng)變量具有幾乎相同甚至等價(jià)的影響，即這些相鄰類別之間存在偽項(xiàng)，但大多數(shù)學(xué)者在建立回歸模型時(shí)沒(méi)有處理偽項(xiàng)，直接將OM特征變量作為標(biāo)度變量來(lái)建立和預(yù)測(cè)模型，導(dǎo)致建立的模型出現(xiàn)過(guò)擬合問(wèn)題。因此，對(duì)于含有偽項(xiàng)的線性回歸模型中的特征變量，很有必要對(duì)偽項(xiàng)進(jìn)行識(shí)別及融合，例如，在統(tǒng)計(jì)學(xué)中，若一個(gè)線性回歸模型含有一個(gè)OM特征變量，且該OM變量有6個(gè)等級(jí)，此OM特征變量中等級(jí)3和等級(jí)4為偽項(xiàng)，則可將其和等級(jí)2融合；等級(jí)6為偽項(xiàng)，則可將其與等級(jí)5融合為新的一個(gè)等級(jí)，具體如圖1所示。

圖1 包含偽項(xiàng)的OM特征變量示意圖

然而，在實(shí)際含OM特征變量的數(shù)據(jù)中，對(duì)于含偽項(xiàng)的線性回歸模型具體該怎么識(shí)別及融合呢？早期，Walter等[14]提出用啞變量編碼的方式處理OM特征變量，該方法能夠解釋估計(jì)出的參數(shù)，但當(dāng)OM特征變量較多時(shí)，該方法易產(chǎn)生過(guò)擬合的問(wèn)題。Tibshirani等[15]提出采用fused-LASSO方法對(duì)線性回歸模型的相鄰系數(shù)之差以及回歸系數(shù)進(jìn)行懲罰，從而避免模型過(guò)擬合問(wèn)題的發(fā)生，且達(dá)到了變量選擇的目的，但該方法不能對(duì)同時(shí)含有OM特征變量以及數(shù)值變量的數(shù)據(jù)集進(jìn)行偽項(xiàng)的識(shí)別及融合。Gertheiss等[16]提出利用嶺回歸方法對(duì)OM特征變量相鄰系數(shù)之差進(jìn)行壓縮，從而進(jìn)行變量選擇，但當(dāng)OM特征變量中存在偽項(xiàng)時(shí)該方法會(huì)導(dǎo)致得到的模型呈現(xiàn)出過(guò)擬合的問(wèn)題。Tian等[17]借鑒Walter等[14]和Gertheiss等[16]的思想提出了TD-BIC(transformed dummy-BIC)方法，該方法結(jié)合了啞變量線性變換以及BIC篩選準(zhǔn)則。由于BIC篩選準(zhǔn)則具備模型選擇的相合性[18]，從而TD-BIC方法不僅能很好地避免模型過(guò)擬合問(wèn)題的發(fā)生，還能提高模型的預(yù)測(cè)精度。近期，晁越等[19]針對(duì)含OM特征變量的logistic回歸模型，借鑒前人的思想提出了一種新的偽項(xiàng)識(shí)別方法，即LTD-BIC(logistic transformed dummy-BIC)方法，該方法能識(shí)別出logistic回歸模型中的偽項(xiàng)，但該方法并沒(méi)有對(duì)特征變量進(jìn)行初步降維篩選，從而導(dǎo)致建模過(guò)程中模型的計(jì)算量過(guò)大。

在實(shí)際數(shù)據(jù)分析中，通常大部分學(xué)者在對(duì)含高維OM特征變量數(shù)據(jù)集建立隨機(jī)森林模型時(shí)，并沒(méi)有同時(shí)對(duì)特征變量進(jìn)行初步篩選以及對(duì)OM特征變量的偽項(xiàng)進(jìn)行識(shí)別及融合。一旦數(shù)據(jù)中含有高維OM特征變量，則極易造成建立的隨機(jī)森林模型過(guò)擬合或者模型的樣本外預(yù)測(cè)能力下降。一般地，對(duì)于維度較大的數(shù)據(jù)，學(xué)者常用皮爾森相關(guān)系數(shù)方法對(duì)變量進(jìn)行篩選，該方法簡(jiǎn)單且能較好地反應(yīng)特征變量與響應(yīng)變量之間的關(guān)系，但也有局限性，它僅適用于線性關(guān)系，當(dāng)變量間是非線性關(guān)系時(shí)則不再適用[20]?？紤]到JMI可以描述變量之間的非線性關(guān)系，且JMI完全是由數(shù)據(jù)驅(qū)動(dòng)的，不需要產(chǎn)生預(yù)定的調(diào)優(yōu)參數(shù)，具有自動(dòng)糾偏和獨(dú)立性檢驗(yàn)的高局域性的優(yōu)點(diǎn)[9]。鑒于此，針對(duì)維度較大且含有OM特征變量的數(shù)據(jù)，提出先用JMI方法對(duì)數(shù)據(jù)進(jìn)行初步篩選，用較少的變量取代原來(lái)較多的變量，從而實(shí)現(xiàn)降維[7]，再利用TD-BIC方法對(duì)特征變量進(jìn)行偽項(xiàng)識(shí)別及融合，最后結(jié)合隨機(jī)森林算法對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)分類。將此改進(jìn)的算法簡(jiǎn)記為：改進(jìn)算法JMI-TD-RF，并將改進(jìn)算法JMI-TD-RF應(yīng)用于含OM特征變量的銀行信貸數(shù)據(jù)和學(xué)生成績(jī)調(diào)查數(shù)據(jù)，從而證明了改進(jìn)算法JMI-TD-RF的有效性。所提出的改進(jìn)算法JMI-TD-RF主要通過(guò)R及Python語(yǔ)言進(jìn)行實(shí)現(xiàn)。

剩余部分安排如下：第1節(jié)對(duì)提到的隨機(jī)森林算法的原理進(jìn)行簡(jiǎn)單闡述；第2節(jié)介紹并詳細(xì)描述了所提出處理含高維OM特征變量的改進(jìn)算法JMI-TD-RF；第3節(jié)應(yīng)用改進(jìn)算法JMI-TD-RF進(jìn)行了實(shí)例分析；第4節(jié)則對(duì)全文進(jìn)行了總結(jié)。

1 隨機(jī)森林算法原理簡(jiǎn)述

作為一種以決策樹為基學(xué)習(xí)器的集成學(xué)習(xí)算法[5]，隨機(jī)森林算法具備了更高的分類精度[21]。想要更好地了解隨機(jī)森林算法就必須得先了解決策樹算法。決策樹算法將數(shù)據(jù)集根據(jù)某種規(guī)則分裂，形成樹的結(jié)構(gòu)，從而進(jìn)行決策。但是，單棵決策樹(單分類器)由于結(jié)構(gòu)單一，往往容易導(dǎo)致最終分類模型的精度不夠高，模型容易出現(xiàn)過(guò)擬合的問(wèn)題[22]。為了避免模型因過(guò)擬合而導(dǎo)致模型泛化能力不強(qiáng)的現(xiàn)象發(fā)生，很有必要在對(duì)實(shí)際數(shù)據(jù)建模時(shí)引入集成學(xué)習(xí)算法。在實(shí)際數(shù)據(jù)分類過(guò)程中，隨機(jī)森林算法的每一個(gè)基學(xué)習(xí)器都給選擇的類別進(jìn)行“投票”，之后按照少數(shù)服從多數(shù)的原則決定隨機(jī)森林算法的最終預(yù)測(cè)結(jié)果，具體如圖2所示。

圖2 隨機(jī)森林原理框圖

隨機(jī)森林算法步驟如下：

步驟1用bootstrap重抽樣法[8]對(duì)總數(shù)據(jù)集進(jìn)行隨機(jī)抽樣[5]，得到bootstrap樣本集Si,i=1,2,…,m[23]。并將Si,i=1,2,…,m作為這棵決策樹的訓(xùn)練集。

步驟2在Si,i=1,2,…,m上訓(xùn)練得到?jīng)Q策樹Ti,i=1,2,…,m。

步驟3分類問(wèn)題中，決策函數(shù)為：

f(x)=mode(T1(x),T2(x),…,Tm(x))

隨機(jī)森林算法不僅具備很高的預(yù)測(cè)精度也具備較好的穩(wěn)健性和容錯(cuò)性[8]，且具備較好的泛化能力[24]。值得注意的是，在對(duì)含高維OM特征變量的二分類數(shù)據(jù)建立隨機(jī)森林模型時(shí)，學(xué)者通常會(huì)不加任何處理地直接將其當(dāng)作標(biāo)量進(jìn)行建模，從而導(dǎo)致所建立的模型呈現(xiàn)出過(guò)擬合現(xiàn)象，以至于模型的泛化能力不高。因此，在處理含高維OM特征變量的數(shù)據(jù)時(shí)，很有必要引入接下來(lái)提出的改進(jìn)算法JMI-TD-RF。

2 改進(jìn)算法JMI-TD-RF

2.1 JMI原理簡(jiǎn)述

2.1.1MI的定義

隨機(jī)變量X=(X1,X2,…,Xp)T,Y=(Y1,Y2,…,YQ)T,定義X、Y的MI為：

(1)

式(1)中：fX、fY分別是隨機(jī)變量X、Y的邊緣概率密度函數(shù)；fXY是隨機(jī)變量X、Y的聯(lián)合密度函數(shù)，值得注意的是式(1)中X、Y也可以是離散型隨機(jī)變量。由式(1)可知MI≥0，且MI=0時(shí)說(shuō)明X、Y相互獨(dú)立，且MI越接近于0則預(yù)示著隨機(jī)變量X、Y之間的依賴關(guān)系越弱。因而，可以用MI對(duì)變量間的非線性關(guān)系進(jìn)行度量研究。

2.1.2MI的刀切估計(jì)

JMI方法是對(duì)MI的核密度估計(jì)(KDE)的一種改進(jìn)方法，與核密度方法的不同之處在于對(duì)其中4個(gè)帶寬矩陣的設(shè)置。Zeng等[10]通過(guò)理論推斷以及獨(dú)立性檢驗(yàn)的經(jīng)驗(yàn)從而得出結(jié)論：4個(gè)帶寬矩陣應(yīng)相等?；诖?，Zeng等[10]在KDE的基礎(chǔ)上設(shè)置4個(gè)相等的帶寬矩陣，對(duì)MI進(jìn)行刀切估計(jì)從而得到JMI。具體如下：

X=(X1,X2,…,XP)T與Y=(Y1,Y2,…,YQ)T相互獨(dú)立，對(duì)角帶寬矩陣HX、HY、BX、BY分別為：

對(duì)角矩陣A的核函數(shù)為：

X=(xip),i=1,2,…,n;p=1,2,…,P

Y=(yiq),i=1,2,…,n;q=1,2…,Q

則隨機(jī)變量X、Y、(X,Y)的概率密度函數(shù)的KDE為：

則MI(X,Y)的KDE為：

(2)

在式(2)的基礎(chǔ)上引入copula函數(shù)，并引入刀切法思想對(duì)MI進(jìn)行估計(jì)，從而得到JMI。由于MI具有嚴(yán)格單調(diào)轉(zhuǎn)換不變的性質(zhì)[10]，且概率分布服從U(0,1),則：

U=(U1,…,UP)T=(FX1(X1),…,FXP(XP))

V=(V1,V2,V3,…,VQ)T=

(FY1(Y1),FY2(Y2),…,FYQ(YQ))T

其中：FXp(x),p=1,2,…,P,FYq(y),q=1,2,…,Q分別是Xp、Yq的概率分布函數(shù)。則U～U(0,1)，V～U(0,1)，且滿足：MI(X,Y)=MI(U,V)。

FY1,n(y1),…,FYQ,n(yQ))

對(duì)U、V的邊緣以及聯(lián)合copula密度函數(shù)進(jìn)行KDE，得到copula密度函數(shù)在刀切法下的KDE為：

參見(jiàn)Zeng等[10]得出的結(jié)論，設(shè)帶寬矩陣：

HX=HY=BX=BY=diag(h2,h2,…,h2)

則可得到JMI的數(shù)學(xué)定義為：

(3)

(4)

鑒于JMI方法具有3個(gè)優(yōu)點(diǎn)：其一，它完全是由數(shù)據(jù)驅(qū)動(dòng)的，避免了對(duì)參數(shù)進(jìn)行調(diào)優(yōu)的過(guò)程；其二，它具有良好的統(tǒng)計(jì)特性，如獨(dú)立性檢驗(yàn)的高局域性和自動(dòng)糾偏；其三，它通過(guò)采用唯一的最大值，可使JMI(X,Y)在數(shù)值上保持穩(wěn)定。因此，考慮用JMI方法對(duì)高維數(shù)據(jù)進(jìn)行特征變量的選擇，從而達(dá)到降低數(shù)據(jù)維度這一目標(biāo)。

2.2 OM特征變量建模簡(jiǎn)述

通常，若OM特征變量X*具有k個(gè)分類,k>2,則有k-1個(gè)啞變量X2,…,Xk，且X*的第k個(gè)啞變量Xk的第n個(gè)分量Xk,n可定義為：

當(dāng)logistic回歸模型中只含有一個(gè)OM特征變量X*時(shí)，如式(5)所示：

(5)

其中N表示樣本量。定義模型(5)中相鄰系數(shù)之差為：Δβj=βj-βj-1,j=2,3,…,k且定義β1=0，若Δβj=0,則說(shuō)明βj對(duì)應(yīng)的分類為偽項(xiàng)[19]。對(duì)于如何識(shí)別及融合這些偽項(xiàng)，借鑒Tian等[17]提出的TD-BIC算法，下面將展示提出的處理高維OM特征變量的改進(jìn)算法JMI-TD-RF。

2.3 改進(jìn)算法JMI-TD-RF

本小節(jié)將展示如何利用2.1小節(jié)JMI方法以及2.2小節(jié)中OM特征變量建模對(duì)隨機(jī)森林進(jìn)行改進(jìn)，具體改進(jìn)算法JMI-TD-RF步驟如下：

步驟1用R語(yǔ)言中的JMI函數(shù)計(jì)算JMI(Xi,Y),i=1,2,…,t。其中t

(6)

(7)

步驟5若logistic回歸模型中含r(r≥2)個(gè)OM特征變量，則將其看作是r個(gè)含一個(gè)OM特征變量的logistic回歸模型，重復(fù)上述步驟2— 4，逐個(gè)對(duì)模型中的偽項(xiàng)進(jìn)行識(shí)別及融合。

此外，將模型(7)改寫為矩陣形式：

Q=Z*β

(8)

Z*=(1,I-1,I-2,…,I-(k-1))

(9)

其中:

(10)

則模型(7)的對(duì)數(shù)似然函數(shù)如式(11)所示：

(11)

βnew=(Z*TWZ*)-1Z*TWM

(12)

M=βoldZ*+W-1(Y-P)

W=diag{P1(1-P1),…,PN(1-PN)},

(13)

其中h表示逐步回歸中每一步回歸系數(shù)的總個(gè)數(shù)。

3 實(shí)例分析

3.1 案例1

數(shù)據(jù)來(lái)源于UCI數(shù)據(jù)集——Default of Credit Card Clients數(shù)據(jù)集[26]。該數(shù)據(jù)的下載網(wǎng)址為：https://archi-ve.ics.uci.edu/ml/machine-learning-databases/00350/。李莉[27]利用ID3算法根據(jù)該數(shù)據(jù)集判斷用戶下個(gè)月是否會(huì)出現(xiàn)違約的情況，但是該學(xué)者并沒(méi)有對(duì)數(shù)據(jù)集進(jìn)行特征變量的降維處理以及對(duì)其中的OM特征變量的偽項(xiàng)進(jìn)行識(shí)別及融合。同樣也是根據(jù)這一數(shù)據(jù)集判斷該用戶下一個(gè)月是否會(huì)出現(xiàn)信用卡違約的情況，但對(duì)數(shù)據(jù)的預(yù)處理方式以及建模方法與前人不同。該數(shù)據(jù)集中共有30 000個(gè)客戶的信息，客戶年齡包括21～80歲，考慮根據(jù)年齡將信貸數(shù)據(jù)分為6組，其中：A組包含21～30歲的客戶，共11 013條數(shù)據(jù)；B組包含31～40歲的客戶，共10 713條數(shù)據(jù)；C組包含41～50歲的客戶，共6 005條數(shù)據(jù)；D組包含51～60歲的客戶，共1 997條數(shù)據(jù)；E組包含61～70歲的客戶，共257條數(shù)據(jù)；F組數(shù)據(jù)包含71～80歲的客戶，由于只有15條數(shù)據(jù)，樣本量少，不具有說(shuō)服力，因此不對(duì)該組數(shù)據(jù)進(jìn)行實(shí)例分析。為了考察改進(jìn)算法JMI-TD-RF對(duì)隨機(jī)數(shù)據(jù)的泛化能力，分別對(duì)A、B、C、D 4組數(shù)據(jù)進(jìn)行樣本抽樣，隨機(jī)抽取500個(gè)樣本數(shù)據(jù)。E組數(shù)據(jù)不變。每組數(shù)據(jù)的初始特征變量如表1所示。

以A組數(shù)據(jù)為例，A組數(shù)據(jù)變量的描述性分析如表2所示。

表1 初始特征變量

續(xù)表(表1)

表2 變量的描述性分析

首先用R語(yǔ)言中的JMI函數(shù)對(duì)A組數(shù)據(jù)進(jìn)行初步高維特征變量的篩選，將得到的各個(gè)特征變量的JMI估計(jì)值按照從大到小排序，如表3所示。

表3 A組數(shù)據(jù)特征變量的JMI值

值得注意的是，由于MI沒(méi)有對(duì)(X,Y)做參數(shù)假設(shè)，是非參的方法，因此JMI估計(jì)值越大，P值不一定越小。此外，當(dāng)P值滿足P<0.05時(shí)，則拒絕原假設(shè)H0：X與Y獨(dú)立。因此，JMI方法后篩選出的特征變量集為：XN×d={X1,X2,X6,X7,X8,X9,X10，X11,X18，X19,X21,X22,X23}，即含t=23個(gè)特征變量的特征變量集經(jīng)過(guò)JMI初步篩選后變成了d=13的特征變量集。

接下來(lái)對(duì)XN×d中的特征變量進(jìn)行偽項(xiàng)的識(shí)別及融合，其中，對(duì)于X1這樣的非等級(jí)劃分的特征變量，根據(jù)四分位數(shù)將其劃分為4個(gè)等級(jí)，從而使其成為OM特征變量，之后再對(duì)其進(jìn)行偽項(xiàng)的識(shí)別及融合。根據(jù)改進(jìn)算法JMI-TD-RF,這里通過(guò)依次考慮含一個(gè)OM特征變量的logistic回歸模型進(jìn)行偽項(xiàng)識(shí)別及融合，參照式(5)，將包含一個(gè)OM特征變量的表達(dá)式記為：

(14)

表4 OM特征變量X1的參數(shù)估計(jì)結(jié)果

其他數(shù)據(jù)中的每個(gè)OM特征變量做同樣的步驟進(jìn)行偽項(xiàng)的識(shí)別及融合，最后再利用融合后的每組數(shù)據(jù)進(jìn)行隨機(jī)森林分類模型的建立。選擇準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1-分?jǐn)?shù)(F1_score)、AUC值作為模型評(píng)估指標(biāo)[28]，基于Python中的scikit-learn庫(kù)，利用帶5折交叉驗(yàn)證的網(wǎng)格搜索法對(duì)隨機(jī)森林模型的最優(yōu)參數(shù)進(jìn)行選擇[29]，再計(jì)算模型的預(yù)測(cè)精度，并對(duì)計(jì)算結(jié)果根據(jù)四舍五入法保留4位小數(shù)[22]，則含高維OM特征變量的各組數(shù)據(jù)在進(jìn)行JMI方法前后以及使用改進(jìn)算法JMI-TD-RF前后隨機(jī)森林模型的各評(píng)估指標(biāo)如表5所示。

表5 A組數(shù)據(jù)隨機(jī)森林模型評(píng)估指標(biāo)

對(duì)其他組數(shù)據(jù)進(jìn)行同樣的處理，最后可得結(jié)果如表6—9所示。

表6 B組數(shù)據(jù)隨機(jī)森林模型評(píng)估指標(biāo)

表7 C組數(shù)據(jù)隨機(jī)森林模型評(píng)估指標(biāo)

表8 D組數(shù)據(jù)隨機(jī)森林模型評(píng)估指標(biāo)

表9 E組數(shù)據(jù)隨機(jī)森林模型評(píng)估指標(biāo)

各組數(shù)據(jù)的AUC值如圖3所示。從上述分組實(shí)驗(yàn)結(jié)果來(lái)看，大部分?jǐn)?shù)據(jù)在JMI以及JMI-TD-RF后各個(gè)評(píng)估指標(biāo)都有上升。值得注意的是，選擇的5個(gè)模型評(píng)估指標(biāo)都是非常重要的度量，單看某一個(gè)指標(biāo)是無(wú)法判定模型的好壞的。例如在D組數(shù)據(jù)中JMI-TD-RF后數(shù)據(jù)的Recall和F1_score值比JMI后數(shù)據(jù)的Recall和F1_score小，但是其他指標(biāo)在JMI-TD-RF后都比JMI后大。一般來(lái)說(shuō)，對(duì)于二分類模型的評(píng)估，在5個(gè)評(píng)估指標(biāo)之間，更加偏向于選擇AUC值對(duì)模型進(jìn)行評(píng)估。因此，從綜合評(píng)比角度可知改進(jìn)算法JMI-TD-RF對(duì)于提高含高維OM特征變量的二分類隨機(jī)森林模型精度是有效的。

圖3 各組數(shù)據(jù)篩選前后的AUC值

3.2 案例2

數(shù)據(jù)來(lái)源于UCI數(shù)據(jù)集——Student-por，且下載網(wǎng)址為：http://archive.ics.uci.edu/ml/datasets/Student+Performance。該數(shù)據(jù)共649個(gè)樣本，包括性別(sex)、年齡(age)、學(xué)校(school)、母親教育水平(Mdeu)、父親教育水平(Fedu)等31個(gè)特征變量以及第一階段成績(jī)(G1)、第二階段成績(jī)(G2)、最終成績(jī)(G3)3個(gè)變量。從中選擇部分變量進(jìn)行實(shí)例分析。選擇的數(shù)據(jù)特征變量如表10所示。

首先，利用R語(yǔ)言中的JMI函數(shù)，計(jì)算特征變量的JMI估計(jì)值，并依據(jù)從大到小的順序進(jìn)行排序，如表11所示。

表10 學(xué)生成績(jī)調(diào)查數(shù)據(jù)的特征變量

表11 學(xué)生成績(jī)調(diào)查數(shù)據(jù)各個(gè)特征變量的JMI值

續(xù)表(表11)

根據(jù)JMI方法篩選準(zhǔn)則，當(dāng)P<0.05時(shí)，則拒絕原假設(shè)，則篩選出的特征變量為：XN×d={X1,X2,X3,X4,X7,X8,X9,X10,X11,X12,X13,X14,X17,X19,X20,X23,X24,X25,X26,X27,X28}。即原數(shù)據(jù)的t=28個(gè)特征變量在經(jīng)過(guò)JMI方法初步篩選后變成了含d=21個(gè)特征變量的數(shù)據(jù)集。再對(duì)XN×d中的OM特征變量如案例1一樣進(jìn)行偽項(xiàng)識(shí)別及融合，最后再結(jié)合隨機(jī)森林模型，得到結(jié)果如表12所示。

表12 學(xué)生成績(jī)調(diào)查數(shù)據(jù)隨機(jī)森林結(jié)果

學(xué)生成績(jī)調(diào)查數(shù)據(jù)變量篩選(JMI)以及偽項(xiàng)識(shí)別及融合(JMI-TD-RF)前后各指標(biāo)值變化情況如圖4所示。

圖4 學(xué)生成績(jī)調(diào)查數(shù)據(jù)篩選前后直方圖

由表12和圖4可以看出，雖然Accuracy和Precision指標(biāo)在JMI-TD-RF后比對(duì)數(shù)據(jù)進(jìn)行JMI篩選后更低，但是其他指標(biāo)都有上升，且在原數(shù)據(jù)的基礎(chǔ)上，數(shù)據(jù)在使用改進(jìn)算法JMI-TD-RF 后各個(gè)指標(biāo)明顯提升了，因此綜合來(lái)看，所提出的改進(jìn)算法JMI-TD-RF對(duì)含有高維OM特征變量的二分類隨機(jī)森林模型是有效的。

4 結(jié)論

基于含高維OM特征變量的logistic回歸模型，首先運(yùn)用JMI方法對(duì)模型中高維OM特征變量進(jìn)行初步篩選，篩選出相關(guān)性更強(qiáng)的OM特征變量，再利用TD-BIC方法對(duì)OM特征變量的偽項(xiàng)進(jìn)行識(shí)別及融合，最后再對(duì)偽項(xiàng)融合后的數(shù)據(jù)結(jié)合隨機(jī)森林進(jìn)行預(yù)測(cè)。在2個(gè)實(shí)際數(shù)據(jù)集上，通過(guò)對(duì)比：① 含OM特征變量的數(shù)據(jù)未進(jìn)行降維以及偽項(xiàng)識(shí)別及融合的處理的方法;② 僅采用JMI降維處理的方法；③ 既采用JMI降維又配合偽項(xiàng)識(shí)別及融合的改進(jìn)算法JMI-TD-RF。展示了3種方法對(duì)應(yīng)的隨機(jī)森林預(yù)測(cè)模型的精度，發(fā)現(xiàn)改進(jìn)算法JMI-TD-RF對(duì)應(yīng)的隨機(jī)森林模型更精簡(jiǎn)且在交叉驗(yàn)證預(yù)測(cè)結(jié)果中綜合表現(xiàn)最優(yōu)。說(shuō)明了改進(jìn)算法JMI-TD-RF對(duì)于此類數(shù)據(jù)集的二分類任務(wù)具有良好的應(yīng)用價(jià)值。