亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        針對(duì)秩序多項(xiàng)特征變量的一種改進(jìn)隨機(jī)森林算法

        2022-10-26 10:53:20周曉霞張治飛楊赫祎
        關(guān)鍵詞:分類特征方法

        周曉霞,張治飛,楊赫祎,黃 磊

        (西南交通大學(xué) 數(shù)學(xué)學(xué)院, 成都 611756)

        0 引言

        數(shù)據(jù)形式多種多樣,涉及領(lǐng)域也越來(lái)越廣泛,將各個(gè)領(lǐng)域的數(shù)據(jù)與高性能的機(jī)器學(xué)習(xí)模型相結(jié)合已經(jīng)成為廣大學(xué)者的研究范疇之一。Breiman于2001年提出的隨機(jī)森林(random forest,RF)算法由于具備較高的分類精度而受到各界學(xué)者青睞[1]。隨機(jī)森林是多棵決策樹的組合體,要理解隨機(jī)森林算法可以先從理解決策樹算法入手。決策樹學(xué)習(xí)算法主要包含選擇特征、生成樹以及對(duì)樹進(jìn)行修剪這3個(gè)步驟,比較常用有ID3算法、C4.5算法以及CART算法[2]。決策樹算法的計(jì)算所需時(shí)間相對(duì)來(lái)說(shuō)不是很大,且算法原理簡(jiǎn)單,但由于決策樹是單分類器,一般來(lái)說(shuō),單分類器在進(jìn)行分類時(shí)不僅分類精度不夠高,而且模型也易出現(xiàn)過(guò)擬合的問(wèn)題[3]。集成學(xué)習(xí)作為一種分類準(zhǔn)確率較高的機(jī)器學(xué)習(xí)策略[4],它通過(guò)某種規(guī)則將多個(gè)相同或不同的學(xué)習(xí)算法組合起來(lái)解決問(wèn)題。研究表明,集成學(xué)習(xí)方法往往比單一模型的分類精度更高且泛化能力更加顯著[5]。此外,前人依照一定規(guī)則將集成學(xué)習(xí)分為兩大學(xué)習(xí)策略,即Boosting學(xué)習(xí)策略和Bagging學(xué)習(xí)策略[5],隨機(jī)森林就是Bagging學(xué)習(xí)策略中比較常用的算法之一。

        隨機(jī)森林作為一種基于決策樹且更加完善的集成學(xué)習(xí)策略,采用投票的方式對(duì)內(nèi)部多棵決策樹預(yù)測(cè)的結(jié)果進(jìn)行綜合處理[6],從而得到穩(wěn)健性強(qiáng)、分類精度高、分類效果更好的分類模型。鑒于此,隨機(jī)森林算法被廣泛應(yīng)用于多個(gè)工作領(lǐng)域。例如:當(dāng)前股票市場(chǎng)由于種種原因具有較大的波動(dòng)性,而一個(gè)良好的股票預(yù)測(cè)模型往往需要較好的泛化能力[7]。鑒于隨機(jī)森林算法具有較好的穩(wěn)健性和容錯(cuò)性[8],且泛化能力強(qiáng),因此在股市中可以利用隨機(jī)森林算法對(duì)股票未來(lái)的走勢(shì)進(jìn)行預(yù)測(cè)。此外,由于隨機(jī)森林分類效果較好,也常常被應(yīng)用于銀行信貸分析。一般地,銀行通過(guò)分析貸款客戶的基本情況,對(duì)其信用程度進(jìn)行等級(jí)劃分,再結(jié)合隨機(jī)森林算法預(yù)測(cè)貸款客戶是否能如期還款,從而降低銀行信貸業(yè)務(wù)的風(fēng)險(xiǎn),提高銀行的收益。眾所周知,隨機(jī)森林算法分類效果的好壞離不開重要特征變量的構(gòu)建和篩選,這也是關(guān)注的主要內(nèi)容。

        如何系統(tǒng)地構(gòu)建和篩選特征變量,即特征工程,也是機(jī)器學(xué)習(xí)值得重點(diǎn)研討的領(lǐng)域之一。一般地,原始數(shù)據(jù)中往往包含部分冗余特征變量,若能在原始特征變量中篩選出與響應(yīng)變量相關(guān)性更強(qiáng)的特征變量,將大大減少后期建模預(yù)測(cè)的計(jì)算工作量?;バ畔?mutual information,MI)作為一種變量間獨(dú)立性的度量[9],兼具衡量變量間線性以及非線性的依賴性的優(yōu)點(diǎn),可用于度量隨機(jī)變量間相互的依賴水平,因此可將MI作為一種重要變量的選擇工具(劃分指標(biāo))。一般地,當(dāng)MI作為劃分指標(biāo)時(shí),在劃分過(guò)程中MI越大,說(shuō)明劃分結(jié)果越好[9]。但目前大部分學(xué)者在進(jìn)行MI估計(jì)時(shí),特別是連續(xù)型隨機(jī)變量,往往依賴于參數(shù)的調(diào)優(yōu)估計(jì),調(diào)參在許多估計(jì)方法中都有涉及,例如在離散化過(guò)程中k-近鄰(k-nearest-neighbor,kNN)估計(jì)器中的鄰居數(shù)量以及核密度估計(jì)(kernel-density estimator,KDE)中的帶寬等[9]。在調(diào)參過(guò)程中,當(dāng)參數(shù)不同時(shí)得到的結(jié)果會(huì)產(chǎn)生差異,從而導(dǎo)致得到的MI估計(jì)值可能不太穩(wěn)定或者有較大偏差。鑒于此,為了使MI估計(jì)值不受參數(shù)選擇的約束,Zeng等[10]提出基于刀切(Jackknife)思想的MI估計(jì)(JMI)。JMI不需要產(chǎn)生預(yù)先確定的調(diào)優(yōu)參數(shù),具有自動(dòng)糾偏和獨(dú)立性檢驗(yàn)的高局域性等優(yōu)點(diǎn)。近期,張治飛等[9]提出將確定獨(dú)立篩選(sure independence screening,SIS)與JMI相結(jié)合的辦法,以達(dá)到超高維空間中非線性回歸模型的變量選擇的目的,但該學(xué)者并未考慮當(dāng)特征變量為含秩序多項(xiàng)(ordinal multinomial,OM)特征變量時(shí)的情況。OM特征變量廣泛存在于實(shí)際數(shù)據(jù)中,例如在醫(yī)學(xué)方面,何小群等[11]對(duì)瘤-肺交界面處的顯示情況進(jìn)行主觀評(píng)分,將瘤-肺所有交界面從“均難以分辨”到“均清晰可辨”分為4個(gè)等級(jí)(記為1~4分),再根據(jù)這些評(píng)分等級(jí)(秩序多項(xiàng)的另一種稱呼)判別瘤-肺交界面檢出為陽(yáng)性(+)還是陰性(-)。

        在統(tǒng)計(jì)學(xué)中,當(dāng)響應(yīng)變量是二分類時(shí),學(xué)者常用回歸模型解決問(wèn)題,例如logistic回歸模型[12]和probit回歸模型[13]。由于OM特征變量在實(shí)際數(shù)據(jù)中廣泛存在,而OM特征變量的某2個(gè)或多個(gè)相鄰特征變量可能對(duì)響應(yīng)變量具有幾乎相同甚至等價(jià)的影響,即這些相鄰類別之間存在偽項(xiàng),但大多數(shù)學(xué)者在建立回歸模型時(shí)沒(méi)有處理偽項(xiàng),直接將OM特征變量作為標(biāo)度變量來(lái)建立和預(yù)測(cè)模型,導(dǎo)致建立的模型出現(xiàn)過(guò)擬合問(wèn)題。因此,對(duì)于含有偽項(xiàng)的線性回歸模型中的特征變量,很有必要對(duì)偽項(xiàng)進(jìn)行識(shí)別及融合,例如,在統(tǒng)計(jì)學(xué)中,若一個(gè)線性回歸模型含有一個(gè)OM特征變量,且該OM變量有6個(gè)等級(jí),此OM特征變量中等級(jí)3和等級(jí)4為偽項(xiàng),則可將其和等級(jí)2融合;等級(jí)6為偽項(xiàng),則可將其與等級(jí)5融合為新的一個(gè)等級(jí),具體如圖1所示。

        圖1 包含偽項(xiàng)的OM特征變量示意圖

        然而,在實(shí)際含OM特征變量的數(shù)據(jù)中,對(duì)于含偽項(xiàng)的線性回歸模型具體該怎么識(shí)別及融合呢?早期,Walter等[14]提出用啞變量編碼的方式處理OM特征變量,該方法能夠解釋估計(jì)出的參數(shù),但當(dāng)OM特征變量較多時(shí),該方法易產(chǎn)生過(guò)擬合的問(wèn)題。Tibshirani等[15]提出采用fused-LASSO方法對(duì)線性回歸模型的相鄰系數(shù)之差以及回歸系數(shù)進(jìn)行懲罰,從而避免模型過(guò)擬合問(wèn)題的發(fā)生,且達(dá)到了變量選擇的目的,但該方法不能對(duì)同時(shí)含有OM特征變量以及數(shù)值變量的數(shù)據(jù)集進(jìn)行偽項(xiàng)的識(shí)別及融合。Gertheiss等[16]提出利用嶺回歸方法對(duì)OM特征變量相鄰系數(shù)之差進(jìn)行壓縮,從而進(jìn)行變量選擇,但當(dāng)OM特征變量中存在偽項(xiàng)時(shí)該方法會(huì)導(dǎo)致得到的模型呈現(xiàn)出過(guò)擬合的問(wèn)題。Tian等[17]借鑒Walter等[14]和Gertheiss等[16]的思想提出了TD-BIC(transformed dummy-BIC)方法,該方法結(jié)合了啞變量線性變換以及BIC篩選準(zhǔn)則。由于BIC篩選準(zhǔn)則具備模型選擇的相合性[18],從而TD-BIC方法不僅能很好地避免模型過(guò)擬合問(wèn)題的發(fā)生,還能提高模型的預(yù)測(cè)精度。近期,晁越等[19]針對(duì)含OM特征變量的logistic回歸模型,借鑒前人的思想提出了一種新的偽項(xiàng)識(shí)別方法,即LTD-BIC(logistic transformed dummy-BIC)方法,該方法能識(shí)別出logistic回歸模型中的偽項(xiàng),但該方法并沒(méi)有對(duì)特征變量進(jìn)行初步降維篩選,從而導(dǎo)致建模過(guò)程中模型的計(jì)算量過(guò)大。

        在實(shí)際數(shù)據(jù)分析中,通常大部分學(xué)者在對(duì)含高維OM特征變量數(shù)據(jù)集建立隨機(jī)森林模型時(shí),并沒(méi)有同時(shí)對(duì)特征變量進(jìn)行初步篩選以及對(duì)OM特征變量的偽項(xiàng)進(jìn)行識(shí)別及融合。一旦數(shù)據(jù)中含有高維OM特征變量,則極易造成建立的隨機(jī)森林模型過(guò)擬合或者模型的樣本外預(yù)測(cè)能力下降。一般地,對(duì)于維度較大的數(shù)據(jù),學(xué)者常用皮爾森相關(guān)系數(shù)方法對(duì)變量進(jìn)行篩選,該方法簡(jiǎn)單且能較好地反應(yīng)特征變量與響應(yīng)變量之間的關(guān)系,但也有局限性,它僅適用于線性關(guān)系,當(dāng)變量間是非線性關(guān)系時(shí)則不再適用[20]??紤]到JMI可以描述變量之間的非線性關(guān)系,且JMI完全是由數(shù)據(jù)驅(qū)動(dòng)的,不需要產(chǎn)生預(yù)定的調(diào)優(yōu)參數(shù),具有自動(dòng)糾偏和獨(dú)立性檢驗(yàn)的高局域性的優(yōu)點(diǎn)[9]。鑒于此,針對(duì)維度較大且含有OM特征變量的數(shù)據(jù),提出先用JMI方法對(duì)數(shù)據(jù)進(jìn)行初步篩選,用較少的變量取代原來(lái)較多的變量,從而實(shí)現(xiàn)降維[7],再利用TD-BIC方法對(duì)特征變量進(jìn)行偽項(xiàng)識(shí)別及融合,最后結(jié)合隨機(jī)森林算法對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)分類。將此改進(jìn)的算法簡(jiǎn)記為:改進(jìn)算法JMI-TD-RF,并將改進(jìn)算法JMI-TD-RF應(yīng)用于含OM特征變量的銀行信貸數(shù)據(jù)和學(xué)生成績(jī)調(diào)查數(shù)據(jù),從而證明了改進(jìn)算法JMI-TD-RF的有效性。所提出的改進(jìn)算法JMI-TD-RF主要通過(guò)R及Python語(yǔ)言進(jìn)行實(shí)現(xiàn)。

        剩余部分安排如下:第1節(jié)對(duì)提到的隨機(jī)森林算法的原理進(jìn)行簡(jiǎn)單闡述;第2節(jié)介紹并詳細(xì)描述了所提出處理含高維OM特征變量的改進(jìn)算法JMI-TD-RF;第3節(jié)應(yīng)用改進(jìn)算法JMI-TD-RF進(jìn)行了實(shí)例分析;第4節(jié)則對(duì)全文進(jìn)行了總結(jié)。

        1 隨機(jī)森林算法原理簡(jiǎn)述

        作為一種以決策樹為基學(xué)習(xí)器的集成學(xué)習(xí)算法[5],隨機(jī)森林算法具備了更高的分類精度[21]。想要更好地了解隨機(jī)森林算法就必須得先了解決策樹算法。決策樹算法將數(shù)據(jù)集根據(jù)某種規(guī)則分裂,形成樹的結(jié)構(gòu),從而進(jìn)行決策。但是,單棵決策樹(單分類器)由于結(jié)構(gòu)單一,往往容易導(dǎo)致最終分類模型的精度不夠高,模型容易出現(xiàn)過(guò)擬合的問(wèn)題[22]。為了避免模型因過(guò)擬合而導(dǎo)致模型泛化能力不強(qiáng)的現(xiàn)象發(fā)生,很有必要在對(duì)實(shí)際數(shù)據(jù)建模時(shí)引入集成學(xué)習(xí)算法。在實(shí)際數(shù)據(jù)分類過(guò)程中,隨機(jī)森林算法的每一個(gè)基學(xué)習(xí)器都給選擇的類別進(jìn)行“投票”,之后按照少數(shù)服從多數(shù)的原則決定隨機(jī)森林算法的最終預(yù)測(cè)結(jié)果,具體如圖2所示。

        圖2 隨機(jī)森林原理框圖

        隨機(jī)森林算法步驟如下:

        步驟1用bootstrap重抽樣法[8]對(duì)總數(shù)據(jù)集進(jìn)行隨機(jī)抽樣[5],得到bootstrap樣本集Si,i=1,2,…,m[23]。并將Si,i=1,2,…,m作為這棵決策樹的訓(xùn)練集。

        步驟2在Si,i=1,2,…,m上訓(xùn)練得到?jīng)Q策樹Ti,i=1,2,…,m。

        步驟3分類問(wèn)題中,決策函數(shù)為:

        f(x)=mode(T1(x),T2(x),…,Tm(x))

        隨機(jī)森林算法不僅具備很高的預(yù)測(cè)精度也具備較好的穩(wěn)健性和容錯(cuò)性[8],且具備較好的泛化能力[24]。值得注意的是,在對(duì)含高維OM特征變量的二分類數(shù)據(jù)建立隨機(jī)森林模型時(shí),學(xué)者通常會(huì)不加任何處理地直接將其當(dāng)作標(biāo)量進(jìn)行建模,從而導(dǎo)致所建立的模型呈現(xiàn)出過(guò)擬合現(xiàn)象,以至于模型的泛化能力不高。因此,在處理含高維OM特征變量的數(shù)據(jù)時(shí),很有必要引入接下來(lái)提出的改進(jìn)算法JMI-TD-RF。

        2 改進(jìn)算法JMI-TD-RF

        2.1 JMI原理簡(jiǎn)述

        2.1.1MI的定義

        隨機(jī)變量X=(X1,X2,…,Xp)T,Y=(Y1,Y2,…,YQ)T,定義X、Y的MI為:

        (1)

        式(1)中:fX、fY分別是隨機(jī)變量X、Y的邊緣概率密度函數(shù);fXY是隨機(jī)變量X、Y的聯(lián)合密度函數(shù),值得注意的是式(1)中X、Y也可以是離散型隨機(jī)變量。由式(1)可知MI≥0,且MI=0時(shí)說(shuō)明X、Y相互獨(dú)立,且MI越接近于0則預(yù)示著隨機(jī)變量X、Y之間的依賴關(guān)系越弱。因而,可以用MI對(duì)變量間的非線性關(guān)系進(jìn)行度量研究。

        2.1.2MI的刀切估計(jì)

        JMI方法是對(duì)MI的核密度估計(jì)(KDE)的一種改進(jìn)方法,與核密度方法的不同之處在于對(duì)其中4個(gè)帶寬矩陣的設(shè)置。Zeng等[10]通過(guò)理論推斷以及獨(dú)立性檢驗(yàn)的經(jīng)驗(yàn)從而得出結(jié)論:4個(gè)帶寬矩陣應(yīng)相等?;诖?,Zeng等[10]在KDE的基礎(chǔ)上設(shè)置4個(gè)相等的帶寬矩陣,對(duì)MI進(jìn)行刀切估計(jì)從而得到JMI。具體如下:

        X=(X1,X2,…,XP)T與Y=(Y1,Y2,…,YQ)T相互獨(dú)立,對(duì)角帶寬矩陣HX、HY、BX、BY分別為:

        對(duì)角矩陣A的核函數(shù)為:

        X=(xip),i=1,2,…,n;p=1,2,…,P

        Y=(yiq),i=1,2,…,n;q=1,2…,Q

        則隨機(jī)變量X、Y、(X,Y)的概率密度函數(shù)的KDE為:

        則MI(X,Y)的KDE為:

        (2)

        在式(2)的基礎(chǔ)上引入copula函數(shù),并引入刀切法思想對(duì)MI進(jìn)行估計(jì),從而得到JMI。由于MI具有嚴(yán)格單調(diào)轉(zhuǎn)換不變的性質(zhì)[10],且概率分布服從U(0,1),則:

        U=(U1,…,UP)T=(FX1(X1),…,FXP(XP))

        V=(V1,V2,V3,…,VQ)T=

        (FY1(Y1),FY2(Y2),…,FYQ(YQ))T

        其中:FXp(x),p=1,2,…,P,FYq(y),q=1,2,…,Q分別是Xp、Yq的概率分布函數(shù)。則U~U(0,1),V~U(0,1),且滿足:MI(X,Y)=MI(U,V)。

        FY1,n(y1),…,FYQ,n(yQ))

        對(duì)U、V的邊緣以及聯(lián)合copula密度函數(shù)進(jìn)行KDE,得到copula密度函數(shù)在刀切法下的KDE為:

        參見(jiàn)Zeng等[10]得出的結(jié)論,設(shè)帶寬矩陣:

        HX=HY=BX=BY=diag(h2,h2,…,h2)

        則可得到JMI的數(shù)學(xué)定義為:

        (3)

        (4)

        鑒于JMI方法具有3個(gè)優(yōu)點(diǎn):其一,它完全是由數(shù)據(jù)驅(qū)動(dòng)的,避免了對(duì)參數(shù)進(jìn)行調(diào)優(yōu)的過(guò)程;其二,它具有良好的統(tǒng)計(jì)特性,如獨(dú)立性檢驗(yàn)的高局域性和自動(dòng)糾偏;其三,它通過(guò)采用唯一的最大值,可使JMI(X,Y)在數(shù)值上保持穩(wěn)定。因此,考慮用JMI方法對(duì)高維數(shù)據(jù)進(jìn)行特征變量的選擇,從而達(dá)到降低數(shù)據(jù)維度這一目標(biāo)。

        2.2 OM特征變量建模簡(jiǎn)述

        通常,若OM特征變量X*具有k個(gè)分類,k>2,則有k-1個(gè)啞變量X2,…,Xk,且X*的第k個(gè)啞變量Xk的第n個(gè)分量Xk,n可定義為:

        當(dāng)logistic回歸模型中只含有一個(gè)OM特征變量X*時(shí),如式(5)所示:

        (5)

        其中N表示樣本量。定義模型(5)中相鄰系數(shù)之差為:Δβj=βj-βj-1,j=2,3,…,k且定義β1=0,若Δβj=0,則說(shuō)明βj對(duì)應(yīng)的分類為偽項(xiàng)[19]。對(duì)于如何識(shí)別及融合這些偽項(xiàng),借鑒Tian等[17]提出的TD-BIC算法,下面將展示提出的處理高維OM特征變量的改進(jìn)算法JMI-TD-RF。

        2.3 改進(jìn)算法JMI-TD-RF

        本小節(jié)將展示如何利用2.1小節(jié)JMI方法以及2.2小節(jié)中OM特征變量建模對(duì)隨機(jī)森林進(jìn)行改進(jìn),具體改進(jìn)算法JMI-TD-RF步驟如下:

        步驟1用R語(yǔ)言中的JMI函數(shù)計(jì)算JMI(Xi,Y),i=1,2,…,t。其中t

        (6)

        (7)

        步驟5若logistic回歸模型中含r(r≥2)個(gè)OM特征變量,則將其看作是r個(gè)含一個(gè)OM特征變量的logistic回歸模型,重復(fù)上述步驟2— 4,逐個(gè)對(duì)模型中的偽項(xiàng)進(jìn)行識(shí)別及融合。

        此外,將模型(7)改寫為矩陣形式:

        Q=Z*β

        (8)

        Z*=(1,I-1,I-2,…,I-(k-1))

        (9)

        其中:

        (10)

        則模型(7)的對(duì)數(shù)似然函數(shù)如式(11)所示:

        (11)

        βnew=(Z*TWZ*)-1Z*TWM

        (12)

        M=βoldZ*+W-1(Y-P)

        W=diag{P1(1-P1),…,PN(1-PN)},

        (13)

        其中h表示逐步回歸中每一步回歸系數(shù)的總個(gè)數(shù)。

        3 實(shí)例分析

        3.1 案例1

        數(shù)據(jù)來(lái)源于UCI數(shù)據(jù)集——Default of Credit Card Clients數(shù)據(jù)集[26]。該數(shù)據(jù)的下載網(wǎng)址為:https://archi-ve.ics.uci.edu/ml/machine-learning-databases/00350/。李莉[27]利用ID3算法根據(jù)該數(shù)據(jù)集判斷用戶下個(gè)月是否會(huì)出現(xiàn)違約的情況,但是該學(xué)者并沒(méi)有對(duì)數(shù)據(jù)集進(jìn)行特征變量的降維處理以及對(duì)其中的OM特征變量的偽項(xiàng)進(jìn)行識(shí)別及融合。同樣也是根據(jù)這一數(shù)據(jù)集判斷該用戶下一個(gè)月是否會(huì)出現(xiàn)信用卡違約的情況,但對(duì)數(shù)據(jù)的預(yù)處理方式以及建模方法與前人不同。該數(shù)據(jù)集中共有30 000個(gè)客戶的信息,客戶年齡包括21~80歲,考慮根據(jù)年齡將信貸數(shù)據(jù)分為6組,其中:A組包含21~30歲的客戶,共11 013條數(shù)據(jù);B組包含31~40歲的客戶,共10 713條數(shù)據(jù);C組包含41~50歲的客戶,共6 005條數(shù)據(jù);D組包含51~60歲的客戶,共1 997條數(shù)據(jù);E組包含61~70歲的客戶,共257條數(shù)據(jù);F組數(shù)據(jù)包含71~80歲的客戶,由于只有15條數(shù)據(jù),樣本量少,不具有說(shuō)服力,因此不對(duì)該組數(shù)據(jù)進(jìn)行實(shí)例分析。為了考察改進(jìn)算法JMI-TD-RF對(duì)隨機(jī)數(shù)據(jù)的泛化能力,分別對(duì)A、B、C、D 4組數(shù)據(jù)進(jìn)行樣本抽樣,隨機(jī)抽取500個(gè)樣本數(shù)據(jù)。E組數(shù)據(jù)不變。每組數(shù)據(jù)的初始特征變量如表1所示。

        以A組數(shù)據(jù)為例,A組數(shù)據(jù)變量的描述性分析如表2所示。

        表1 初始特征變量

        續(xù)表(表1)

        表2 變量的描述性分析

        首先用R語(yǔ)言中的JMI函數(shù)對(duì)A組數(shù)據(jù)進(jìn)行初步高維特征變量的篩選,將得到的各個(gè)特征變量的JMI估計(jì)值按照從大到小排序,如表3所示。

        表3 A組數(shù)據(jù)特征變量的JMI值

        值得注意的是,由于MI沒(méi)有對(duì)(X,Y)做參數(shù)假設(shè),是非參的方法,因此JMI估計(jì)值越大,P值不一定越小。此外,當(dāng)P值滿足P<0.05時(shí),則拒絕原假設(shè)H0:X與Y獨(dú)立。因此,JMI方法后篩選出的特征變量集為:XN×d={X1,X2,X6,X7,X8,X9,X10,X11,X18,X19,X21,X22,X23},即含t=23個(gè)特征變量的特征變量集經(jīng)過(guò)JMI初步篩選后變成了d=13的特征變量集。

        接下來(lái)對(duì)XN×d中的特征變量進(jìn)行偽項(xiàng)的識(shí)別及融合,其中,對(duì)于X1這樣的非等級(jí)劃分的特征變量,根據(jù)四分位數(shù)將其劃分為4個(gè)等級(jí),從而使其成為OM特征變量,之后再對(duì)其進(jìn)行偽項(xiàng)的識(shí)別及融合。根據(jù)改進(jìn)算法JMI-TD-RF,這里通過(guò)依次考慮含一個(gè)OM特征變量的logistic回歸模型進(jìn)行偽項(xiàng)識(shí)別及融合,參照式(5),將包含一個(gè)OM特征變量的表達(dá)式記為:

        (14)

        表4 OM特征變量X1的參數(shù)估計(jì)結(jié)果

        其他數(shù)據(jù)中的每個(gè)OM特征變量做同樣的步驟進(jìn)行偽項(xiàng)的識(shí)別及融合,最后再利用融合后的每組數(shù)據(jù)進(jìn)行隨機(jī)森林分類模型的建立。選擇準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1-分?jǐn)?shù)(F1_score)、AUC值作為模型評(píng)估指標(biāo)[28],基于Python中的scikit-learn庫(kù),利用帶5折交叉驗(yàn)證的網(wǎng)格搜索法對(duì)隨機(jī)森林模型的最優(yōu)參數(shù)進(jìn)行選擇[29],再計(jì)算模型的預(yù)測(cè)精度,并對(duì)計(jì)算結(jié)果根據(jù)四舍五入法保留4位小數(shù)[22],則含高維OM特征變量的各組數(shù)據(jù)在進(jìn)行JMI方法前后以及使用改進(jìn)算法JMI-TD-RF前后隨機(jī)森林模型的各評(píng)估指標(biāo)如表5所示。

        表5 A組數(shù)據(jù)隨機(jī)森林模型評(píng)估指標(biāo)

        對(duì)其他組數(shù)據(jù)進(jìn)行同樣的處理,最后可得結(jié)果如表6—9所示。

        表6 B組數(shù)據(jù)隨機(jī)森林模型評(píng)估指標(biāo)

        表7 C組數(shù)據(jù)隨機(jī)森林模型評(píng)估指標(biāo)

        表8 D組數(shù)據(jù)隨機(jī)森林模型評(píng)估指標(biāo)

        表9 E組數(shù)據(jù)隨機(jī)森林模型評(píng)估指標(biāo)

        各組數(shù)據(jù)的AUC值如圖3所示。從上述分組實(shí)驗(yàn)結(jié)果來(lái)看,大部分?jǐn)?shù)據(jù)在JMI以及JMI-TD-RF后各個(gè)評(píng)估指標(biāo)都有上升。值得注意的是,選擇的5個(gè)模型評(píng)估指標(biāo)都是非常重要的度量,單看某一個(gè)指標(biāo)是無(wú)法判定模型的好壞的。例如在D組數(shù)據(jù)中JMI-TD-RF后數(shù)據(jù)的Recall和F1_score值比JMI后數(shù)據(jù)的Recall和F1_score小,但是其他指標(biāo)在JMI-TD-RF后都比JMI后大。一般來(lái)說(shuō),對(duì)于二分類模型的評(píng)估,在5個(gè)評(píng)估指標(biāo)之間,更加偏向于選擇AUC值對(duì)模型進(jìn)行評(píng)估。因此,從綜合評(píng)比角度可知改進(jìn)算法JMI-TD-RF對(duì)于提高含高維OM特征變量的二分類隨機(jī)森林模型精度是有效的。

        圖3 各組數(shù)據(jù)篩選前后的AUC值

        3.2 案例2

        數(shù)據(jù)來(lái)源于UCI數(shù)據(jù)集——Student-por,且下載網(wǎng)址為:http://archive.ics.uci.edu/ml/datasets/Student+Performance。該數(shù)據(jù)共649個(gè)樣本,包括性別(sex)、年齡(age)、學(xué)校(school)、母親教育水平(Mdeu)、父親教育水平(Fedu)等31個(gè)特征變量以及第一階段成績(jī)(G1)、第二階段成績(jī)(G2)、最終成績(jī)(G3)3個(gè)變量。從中選擇部分變量進(jìn)行實(shí)例分析。選擇的數(shù)據(jù)特征變量如表10所示。

        首先,利用R語(yǔ)言中的JMI函數(shù),計(jì)算特征變量的JMI估計(jì)值,并依據(jù)從大到小的順序進(jìn)行排序,如表11所示。

        表10 學(xué)生成績(jī)調(diào)查數(shù)據(jù)的特征變量

        表11 學(xué)生成績(jī)調(diào)查數(shù)據(jù)各個(gè)特征變量的JMI值

        續(xù)表(表11)

        根據(jù)JMI方法篩選準(zhǔn)則,當(dāng)P<0.05時(shí),則拒絕原假設(shè),則篩選出的特征變量為:XN×d={X1,X2,X3,X4,X7,X8,X9,X10,X11,X12,X13,X14,X17,X19,X20,X23,X24,X25,X26,X27,X28}。即原數(shù)據(jù)的t=28個(gè)特征變量在經(jīng)過(guò)JMI方法初步篩選后變成了含d=21個(gè)特征變量的數(shù)據(jù)集。再對(duì)XN×d中的OM特征變量如案例1一樣進(jìn)行偽項(xiàng)識(shí)別及融合,最后再結(jié)合隨機(jī)森林模型,得到結(jié)果如表12所示。

        表12 學(xué)生成績(jī)調(diào)查數(shù)據(jù)隨機(jī)森林結(jié)果

        學(xué)生成績(jī)調(diào)查數(shù)據(jù)變量篩選(JMI)以及偽項(xiàng)識(shí)別及融合(JMI-TD-RF)前后各指標(biāo)值變化情況如圖4所示。

        圖4 學(xué)生成績(jī)調(diào)查數(shù)據(jù)篩選前后直方圖

        由表12和圖4可以看出,雖然Accuracy和Precision指標(biāo)在JMI-TD-RF后比對(duì)數(shù)據(jù)進(jìn)行JMI篩選后更低,但是其他指標(biāo)都有上升,且在原數(shù)據(jù)的基礎(chǔ)上,數(shù)據(jù)在使用改進(jìn)算法JMI-TD-RF 后各個(gè)指標(biāo)明顯提升了,因此綜合來(lái)看,所提出的改進(jìn)算法JMI-TD-RF對(duì)含有高維OM特征變量的二分類隨機(jī)森林模型是有效的。

        4 結(jié)論

        基于含高維OM特征變量的logistic回歸模型,首先運(yùn)用JMI方法對(duì)模型中高維OM特征變量進(jìn)行初步篩選,篩選出相關(guān)性更強(qiáng)的OM特征變量,再利用TD-BIC方法對(duì)OM特征變量的偽項(xiàng)進(jìn)行識(shí)別及融合,最后再對(duì)偽項(xiàng)融合后的數(shù)據(jù)結(jié)合隨機(jī)森林進(jìn)行預(yù)測(cè)。在2個(gè)實(shí)際數(shù)據(jù)集上,通過(guò)對(duì)比:① 含OM特征變量的數(shù)據(jù)未進(jìn)行降維以及偽項(xiàng)識(shí)別及融合的處理的方法;② 僅采用JMI降維處理的方法;③ 既采用JMI降維又配合偽項(xiàng)識(shí)別及融合的改進(jìn)算法JMI-TD-RF。展示了3種方法對(duì)應(yīng)的隨機(jī)森林預(yù)測(cè)模型的精度,發(fā)現(xiàn)改進(jìn)算法JMI-TD-RF對(duì)應(yīng)的隨機(jī)森林模型更精簡(jiǎn)且在交叉驗(yàn)證預(yù)測(cè)結(jié)果中綜合表現(xiàn)最優(yōu)。說(shuō)明了改進(jìn)算法JMI-TD-RF對(duì)于此類數(shù)據(jù)集的二分類任務(wù)具有良好的應(yīng)用價(jià)值。

        猜你喜歡
        分類特征方法
        分類算一算
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        久久亚洲第一视频黄色| 国产精品毛片完整版视频| 国产啪精品视频网站| 久久无码高潮喷水免费看| 韩国女主播一区二区三区在线观看 | 男女视频一区二区三区在线观看| 亚洲精品人成中文毛片| 亚洲熟女乱色综合亚洲av| 99热视热频这里只有精品 | 日本不卡不二三区在线看| 国产suv精品一区二区四| 亚洲欧洲日产国码av系列天堂 | 久久综合给合久久狠狠狠9| 亚洲国产中文字幕九色| 亚洲av片无码久久五月| 青青草97国产精品免费观看| 欧美日韩一区二区三区色综合| 白色白色白色在线观看视频 | 在线亚洲日本一区二区| 老子影院午夜伦不卡| 亚洲国产美女精品久久久久| 无码人妻丰满熟妇区免费| 在教室轮流澡到高潮h免费视| 国产激情久久久久久熟女老人av| 欧美午夜刺激影院| 国产成人a人亚洲精品无码| 亚洲av之男人的天堂| 中文字幕一区二区三区在线视频| 国产女同舌吻1区2区| 亚洲熟妇久久国产精品| 人妻无码视频| 亚洲自偷自拍另类第一页| 女人的精水喷出来视频| 久久久久久久久888| 国产高清天干天天视频| 亚洲av人片在线观看| 亚洲精品无人区| 久久半精品国产99精品国产| 日韩精品视频av在线观看| 免费国产黄网站在线观看视频| 色老汉免费网站免费视频|