亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于加權(quán)Jaccard距離的決策樹(shù)集成選擇方法

        2020-05-25 08:21:44王立宏
        關(guān)鍵詞:決策樹(shù)度量分類(lèi)器

        于 凱,王立宏

        (煙臺(tái)大學(xué)計(jì)算機(jī)與控制工程學(xué)院,山東 煙臺(tái) 264005)

        在數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)中,決策樹(shù)是常用的分類(lèi)方法.它利用現(xiàn)有數(shù)據(jù)構(gòu)建具有較強(qiáng)泛化能力的預(yù)測(cè)模型,對(duì)未知的對(duì)象進(jìn)行預(yù)測(cè)分析[1].決策樹(shù)學(xué)習(xí)算法是不穩(wěn)定的,因?yàn)橛?xùn)練數(shù)據(jù)集的微小變化都可能導(dǎo)致決策樹(shù)形態(tài)上的很大差異[2-3].對(duì)決策樹(shù)的研究一方面在于如何度量決策樹(shù)的穩(wěn)定性或多樣性[2-5],另一方面在于如何給出穩(wěn)定的預(yù)測(cè)結(jié)果[6-9].現(xiàn)有文獻(xiàn)中定義了2種類(lèi)型的多樣性:結(jié)構(gòu)多樣性和語(yǔ)義多樣性.例如,RCJac[3]和TMD[4]是結(jié)構(gòu)多樣性度量,而kappa[5]是語(yǔ)義多樣性度量.結(jié)構(gòu)類(lèi)似的決策樹(shù)可能會(huì)給出類(lèi)似的分類(lèi)結(jié)果(語(yǔ)義),而反之則不一定成立.多分類(lèi)器集成(Ensemble)是機(jī)器學(xué)習(xí)中的研究熱點(diǎn),決策樹(shù)的集成可以整合各個(gè)決策樹(shù),給未知對(duì)象一個(gè)可信的預(yù)測(cè)結(jié)果.研究表明,為了獲得較好的泛化能力,決策樹(shù)集成的準(zhǔn)確性、多樣性和間隔等都是關(guān)鍵因素[10].決策樹(shù)的準(zhǔn)確性可以用訓(xùn)練誤差來(lái)度量,而多樣性需要深入的研究.目前多樣性的研究主要集中在以下3個(gè)方面:(1)各決策樹(shù)的生成過(guò)程,如Bagging[6]、隨機(jī)森林[7-8]、Adaboost[9]、權(quán)重優(yōu)化[10]等;(2)各決策樹(shù)在驗(yàn)證數(shù)據(jù)集上的預(yù)測(cè)結(jié)果差異,如kappa[5];(3)各決策樹(shù)的形態(tài)差異,如RCJac[3]和TMD[4].周志華等基于樹(shù)匹配多樣性來(lái)度量決策樹(shù)的結(jié)構(gòu)多樣性,同時(shí)考慮結(jié)構(gòu)和語(yǔ)義多樣性,以選擇預(yù)測(cè)能力強(qiáng)的集成[4].本文提出的加權(quán)Jaccard距離WJD(weighted Jaccard distance)從決策樹(shù)的形態(tài)和在驗(yàn)證集合上的預(yù)測(cè)類(lèi)別兩方面來(lái)度量決策樹(shù)的多樣性,是決策樹(shù)之間語(yǔ)義和結(jié)構(gòu)的綜合多樣性度量.考慮到不同的決策樹(shù)對(duì)驗(yàn)證集合產(chǎn)生的劃分不同,而每個(gè)劃分塊都帶有類(lèi)別標(biāo)簽,因此通過(guò)加權(quán)比較有相同標(biāo)簽的劃分塊組成的子劃分之間的Jaccard距離就可以度量決策樹(shù)之間的差異.在UCI數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)表明,WJD是一種有效的多樣性度量方法,基于WJD的決策樹(shù)集成選擇能夠提高集成的分類(lèi)精度.

        1 加權(quán)Jaccard距離

        1.1 基本概率分配之間的Jaccard距離

        Jaccard指數(shù)是一種經(jīng)典的相似性度量.2個(gè)有限集A和B之間的Jaccard指數(shù)JI計(jì)算如下:

        (1)

        設(shè)數(shù)據(jù)集D={x1,x2,…,xN},其冪集為2D,其中N=|D|.Jaccard指數(shù)矩陣J是一個(gè)(2N-1)×(2N-1)矩陣,A行B列對(duì)應(yīng)的元素為JI(A,B),其中A和B是非空集合,A?D,B?D.已有文獻(xiàn)證明J是正定的[11].

        (2)

        設(shè)m1和m2是數(shù)據(jù)集D上的2個(gè)BPA,m1和m2之間的Jaccard距離定義如下[12]:

        (3)

        其中,J是Jaccard矩陣.

        1.2 決策樹(shù)之間的加權(quán)Jaccard距離

        本文定義了一種新的加權(quán)Jaccard距離WJD來(lái)比較決策樹(shù),WJD是決策樹(shù)之間的語(yǔ)義和結(jié)構(gòu)的綜合多樣性度量,它涉及到?jīng)Q策樹(shù)葉子的標(biāo)簽和葉子上實(shí)例的分布.在對(duì)WJD進(jìn)行性能分析后,我們還用它選擇多樣化的決策樹(shù),并對(duì)決策樹(shù)的集成進(jìn)行實(shí)驗(yàn)分析.

        設(shè)數(shù)據(jù)集D如上定義,標(biāo)簽集為C={c1,c2,…,ck},T1和T2是2棵決策樹(shù).如果用T1來(lái)測(cè)試數(shù)據(jù)集D,D中的每個(gè)實(shí)例都會(huì)落到一個(gè)相應(yīng)的葉節(jié)點(diǎn)中.這樣一個(gè)葉節(jié)點(diǎn)就對(duì)應(yīng)一些實(shí)例的集合,各葉子形成D的一個(gè)劃分P1={P1,1,P1,2,…,P1,M},與P1相對(duì)應(yīng)的標(biāo)簽為L(zhǎng)1=,即P1,j的標(biāo)簽為L(zhǎng)1,j,其中L1,j∈C,j=1,…,M,M是非空葉節(jié)點(diǎn)的個(gè)數(shù).同理用T2來(lái)測(cè)試可得到(P2,L2).

        對(duì)決策樹(shù)T1和T2的比較可以通過(guò)比較(P1,L1)和(P2,L2)來(lái)完成.需要注意的是,必須是同一標(biāo)簽的子劃分進(jìn)行比較.因?yàn)樵诜诸?lèi)時(shí),不同標(biāo)簽的子劃分給出不同的預(yù)測(cè),它們之間的相似性計(jì)算沒(méi)有意義.

        例如,D={1,2,…,12}有2個(gè)帶標(biāo)簽的劃分:

        (P1,L1)=({{1,2,3},{4,5,6},{7,8,9,10},

        {11,12}},),

        (P2,L2)=({{1,2,4,5},{3,6,11,12},{7,8,

        9,10}},).

        此時(shí)P1中的{{1,2,3},{7,8,9,10}}與P2中的{{1,2,4,5},{7,8,9,10}}進(jìn)行比較,P1中的{{4,5,6},{11,12}}與P2中的{{3,6,11,12}}進(jìn)行比較.顯然,這是不同集合的劃分之間的比較.常用的劃分比較方法如ARI[13]和Jaccard指數(shù)[14]都不適用.因此,本文定義了一種新的加權(quán)Jaccard距離來(lái)比較(P1,L1)和(P2,L2).

        定義1 加權(quán)Jaccard距離(WJD)

        (4)

        其中:γc是加權(quán)系數(shù),m1,c和m2,c分別是P1和P2標(biāo)簽為c的dBPA的約束項(xiàng).

        加權(quán)系數(shù)γc定義如下:

        (5)

        其中:P1,i是P1的第i個(gè)劃分塊,P2,j是P2的第j個(gè)劃分塊.

        對(duì)于上例,可以得出:

        m1,c1是P1中標(biāo)簽為c1的約束B(niǎo)PA,m1,c1的非零項(xiàng)如下:

        m1,c1({1,2,3})=3/12=0.250,

        m1,c1({7,8,9,10})=4/12=0.333.

        類(lèi)似地,m2,c1的非零項(xiàng)如下:

        m2,c1({1,2,4,5})=4/12=0.333,

        m2,c1({7,8,9,10})=4/12=0.333.

        在2個(gè)子劃分中{7,8,9,10}相同,m函數(shù)相減后{7,8,9,10}的函數(shù)值為0,因此,

        dBPA(m1,c1,m2,c1)=

        同理,m1,c2和m2,c2如下:

        m1,c2({4,5,6})=3/12=0.250,

        m1,c2({11,12})=2/12=0.167,

        m2,c2({3,6,11,12})=4/12=0.333.

        于是可得dBPA(m1,c2,m2,c2)=0.343.

        最后加權(quán)Jaccard距離為:JW(P1,P2,L1,L2)=0.625×0.327+0.375×0.343=0.333.

        WJD與文獻(xiàn)[3]中的RCJac是不同的.如果不考慮劃分的標(biāo)簽,或認(rèn)為每個(gè)劃分塊標(biāo)記為相同的標(biāo)簽,則WJD與RCJac是相等的.在分類(lèi)問(wèn)題中WJD更有意義,它涉及到劃分塊的標(biāo)簽并比較有相同標(biāo)簽的劃分塊組成的子劃分.另外,WJD與加權(quán)的Jaccard系數(shù)[15]從定義上看也是完全不同的.

        1.3 加權(quán)Jaccard距離的性質(zhì)

        定理1 如果P1中標(biāo)簽為c的子劃分與P2中相同標(biāo)簽的子劃分相等,那么dBPA(m1,c,m2,c)=0,反之亦然.

        證明已知矩陣J是正定的,則dBPA(m1,c,m2,c)=0當(dāng)且僅當(dāng)m1,c=m2,c(見(jiàn)公式(3)),根據(jù)公式(2)對(duì)m的定義可知,P1中標(biāo)簽為c的子劃分與P2中標(biāo)簽為c的子劃分相等.

        其中,

        (6)

        (7)

        推論設(shè)S1,c和S2,c分別表示P1和P2中標(biāo)簽為c的子劃分.如果S1,c∩S2,c={P1,i1,P1,i2,…,P1,ik},那么

        其中

        證明與定理2的證明類(lèi)似.

        從定理2及其推論可知,S1,c與S2,c之間相同的部分越多,它們之間的dBPA就越小.

        定理3 如果P1和P2是數(shù)據(jù)集D的2個(gè)劃分,L1和L2是對(duì)應(yīng)的標(biāo)簽集合,那么JW(P1,P2,L1,L2)=0當(dāng)且僅當(dāng)P1=P2,L1=L2.

        證明因?yàn)閐BPA(m1,c,m2,c)≥0且γc>0,所以JW(P1,P2,L1,L2)=0當(dāng)且僅當(dāng)對(duì)每個(gè)標(biāo)簽c,dBPA(m1,c,m2,c)=0.根據(jù)定理1,dBPA(m1,c,m2,c)=0當(dāng)且僅當(dāng)P1中標(biāo)簽為c的子劃分與P2中相同標(biāo)簽的子劃分相等.所以,JW(P1,P2,L1,L2)=0當(dāng)且僅當(dāng)P1=P2,L1=L2.

        定理3說(shuō)明2個(gè)帶標(biāo)簽的劃分之間的WJD是正定的,并且WJD的值越大,2個(gè)劃分之間的差異越大.因此,我們能夠通過(guò)比較WJD來(lái)比較決策樹(shù)的差異,進(jìn)而挑選差異較大的成員構(gòu)成決策樹(shù)的集成.

        2 決策樹(shù)的集成選擇

        研究表明,一個(gè)精確的、多樣性的子集成可能會(huì)比整個(gè)集成有更高的預(yù)測(cè)精度,因此選擇性集成或者集成的剪枝成為了研究熱點(diǎn)[16-17].本文以提出的WJD為決策樹(shù)之間的距離,采用層次聚類(lèi)算法選擇部分決策樹(shù),形成一個(gè)集成子集.

        2.1 決策樹(shù)的生成

        給定數(shù)據(jù)集D,本文使用10折交叉驗(yàn)證的方法進(jìn)行實(shí)驗(yàn)測(cè)試.

        首先,將數(shù)據(jù)集D隨機(jī)分成大小相等的10份,每次選用其中1份作為測(cè)試集De,剩余部分作為訓(xùn)練集和驗(yàn)證集Dt,D=De∪Dt.

        然后,用數(shù)據(jù)集Dt生成決策樹(shù),并用生成的決策樹(shù)對(duì)Dt進(jìn)行預(yù)測(cè)以獲得Dt的劃分.在實(shí)驗(yàn)中使用了2種決策樹(shù)生成方式:Bagging[6]和AdaBoost[9].在使用Bagging時(shí),對(duì)數(shù)據(jù)集Dt進(jìn)行放回式抽樣(Bootstrap),訓(xùn)練得到?jīng)Q策樹(shù)模型.重復(fù)這個(gè)過(guò)程100次,得到含有100棵樹(shù)的決策樹(shù)池.在使用AdaBoost時(shí),先將訓(xùn)練樣本進(jìn)行初始化,使每個(gè)樣本的權(quán)重相等,訓(xùn)練得到一棵決策樹(shù),然后更新樣本權(quán)重,增大分類(lèi)錯(cuò)誤的樣本的權(quán)重,減小分類(lèi)正確的樣本的權(quán)重,最后得到有100棵樹(shù)的決策樹(shù)池.決策樹(shù)池的大小設(shè)定為100棵樹(shù)是參照文獻(xiàn)[18-19]的做法.

        最后,對(duì)于數(shù)據(jù)集D的剩余9份分別使用上述過(guò)程,得到10個(gè)含有100棵樹(shù)的決策樹(shù)池.

        關(guān)于訓(xùn)練集、驗(yàn)證集和測(cè)試集的設(shè)計(jì)問(wèn)題,通常的做法是將整個(gè)數(shù)據(jù)集隨機(jī)劃分成3個(gè)彼此不相交的部分,各部分占的比例是60∶20∶20[20]或者1∶1∶1[4]等.但是當(dāng)數(shù)據(jù)集較小時(shí),這樣的劃分會(huì)導(dǎo)致訓(xùn)練數(shù)據(jù)集過(guò)小,訓(xùn)練得到的模型擬合不足.還可以將訓(xùn)練集全部用來(lái)作為驗(yàn)證集,這樣能充分利用訓(xùn)練數(shù)據(jù),但是容易導(dǎo)致模型對(duì)訓(xùn)練數(shù)據(jù)的過(guò)擬合[21].

        在實(shí)驗(yàn)中,訓(xùn)練集是Dt的子集.由于對(duì)數(shù)據(jù)集Dt進(jìn)行放回式抽樣,Bagging中實(shí)際訓(xùn)練決策樹(shù)模型的數(shù)據(jù)大約占Dt的63%[6].WJD是計(jì)算同一個(gè)數(shù)據(jù)集的2個(gè)不同劃分P1和P2之間的距離,如果直接將Dt的剩余部分(約占37%)定義為驗(yàn)證集,那么每次抽樣都會(huì)使其發(fā)生變化,不能滿足對(duì)WJD的定義要求,因此驗(yàn)證集取Dt.Adaboost也是放回式抽樣,驗(yàn)證集也取Dt.

        2.2 決策樹(shù)的多樣性選擇

        在集成中決策樹(shù)的準(zhǔn)確性和多樣性都是必不可少的,因此在用Bagging方法得到的10個(gè)決策樹(shù)池中,從每個(gè)決策樹(shù)池中選擇50棵對(duì)Dt預(yù)測(cè)精度最高的樹(shù),然后構(gòu)建成一個(gè)新的決策樹(shù)池.本文使用單鏈接的層次聚集聚類(lèi)的方法選擇決策樹(shù)[22],2棵樹(shù)之間的距離定義為它們的WJD.得到K個(gè)簇后,每個(gè)簇中選取與簇中其他樹(shù)平均距離最小的樹(shù)來(lái)代表這個(gè)簇.最后,將得到的K棵樹(shù)組成集成,過(guò)程如圖1所示.在這里,K的數(shù)值表示的是對(duì)新的決策樹(shù)池(由選擇的50棵精度較高的樹(shù)構(gòu)成)剪枝后子集成的大小,K<50.

        在用AdaBoost算法得到的決策樹(shù)池中,決策樹(shù)是通過(guò)迭代的方式生成的,與Bagging算法的生成方式不同,因此我們并沒(méi)有從池中的100棵決策樹(shù)中挑選出50棵樹(shù)出來(lái),而是直接對(duì)池中的100棵樹(shù)進(jìn)行聚類(lèi),得到K個(gè)簇,然后從每個(gè)簇中選取一個(gè)與該簇中其他樹(shù)平均距離最小的樹(shù)構(gòu)成集成.此處,K的數(shù)值表示對(duì)AdaBoost算法得到的決策樹(shù)池剪枝后得到的子集成大小.

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 數(shù)據(jù)集

        使用UCI上的6個(gè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)測(cè)試.表1是對(duì)所使用的UCI數(shù)據(jù)集的一些特征描述.

        表1 實(shí)驗(yàn)數(shù)據(jù)集描述Tab.1 Description of datasets

        3.2 實(shí)驗(yàn)方案

        對(duì)比算法包括MDM[18,23]及2種多樣性度量技術(shù)kappa[5]和RCJac[3].MDM是通過(guò)啟發(fā)式方法從候選池中逐個(gè)選擇分類(lèi)器來(lái)構(gòu)建有序子集成的;kappa是基于語(yǔ)義多樣性度量的,只考慮了樣本的標(biāo)簽;RCJac是基于結(jié)構(gòu)多樣性度量的,只考慮了葉節(jié)點(diǎn)上的實(shí)例分布,并未使用葉節(jié)點(diǎn)的標(biāo)簽;而WJD是語(yǔ)義和結(jié)構(gòu)的多樣性度量,它涉及到?jīng)Q策樹(shù)葉子的標(biāo)簽和葉子上實(shí)例的分布.

        為了保證對(duì)這些技術(shù)進(jìn)行公平的實(shí)驗(yàn)比較,本文采用相同的實(shí)驗(yàn)方案,使用相同的決策樹(shù)池,使用相同的數(shù)據(jù)集進(jìn)行驗(yàn)證和測(cè)試.給定數(shù)據(jù)集D,用10折交叉驗(yàn)證的方式生成決策樹(shù)池,使用了Bagging和AdaBoost 2種算法構(gòu)建集成,如2.1節(jié)所述.與常用的靜態(tài)分類(lèi)器選擇方法相同,我們先在驗(yàn)證集上找到精度最高的子集成,然后用得到的子集成來(lái)預(yù)測(cè)未知樣本.

        文獻(xiàn)[18]提出在Bagging集成中,20%~40%的分類(lèi)器就能構(gòu)成一個(gè)較高精度的子集成.在本文實(shí)驗(yàn)中對(duì)更大的范圍(10%~60%)進(jìn)行了測(cè)試,以找到一個(gè)精度最高的子集成,然后對(duì)未知樣本進(jìn)行測(cè)試.在AdaBoost算法得到的決策樹(shù)池中,對(duì)10%~80%的范圍進(jìn)行了實(shí)驗(yàn),測(cè)試能否對(duì)其進(jìn)行剪枝,期望得到一個(gè)精度更高的子集成.

        使用基于聚類(lèi)的方法構(gòu)建子集成,子集成的大小是聚類(lèi)的簇個(gè)數(shù)(見(jiàn)2.2節(jié)),也是MDM中用于構(gòu)建子集成的決策樹(shù)的數(shù)量.根據(jù)文獻(xiàn)[18]和[23],將MDM的參數(shù)p設(shè)置為0.075.對(duì)Bagging算法生成的子集成,使用多數(shù)投票方法來(lái)對(duì)測(cè)試樣本進(jìn)行預(yù)測(cè);對(duì)AdaBoost算法生成的子集成,使用相應(yīng)的加權(quán)投票方法對(duì)測(cè)試樣本進(jìn)行預(yù)測(cè).

        多數(shù)投票及加權(quán)投票都是用于分類(lèi)器的靜態(tài)選擇方法,本文還測(cè)試了一種動(dòng)態(tài)集成方法LCA(local class accuracy)[24].LCA先讓分類(lèi)器對(duì)待測(cè)樣本做出預(yù)測(cè),然后找出待測(cè)樣本在驗(yàn)證集中的k近鄰內(nèi)被預(yù)測(cè)為與待測(cè)樣本相同類(lèi)別的樣本,并計(jì)算出分類(lèi)器對(duì)這些樣本的分類(lèi)準(zhǔn)確率,最后選擇準(zhǔn)確率最高的那一個(gè)分類(lèi)器.競(jìng)爭(zhēng)域RoC(region of competence)定義為測(cè)試樣本的k近鄰,其中k值范圍是3~10,測(cè)試數(shù)據(jù)集中使用性能最佳的k值.我們沒(méi)有考慮k值小于3的情況,因?yàn)橥ǔ?huì)出現(xiàn)所有的候選樹(shù)對(duì)k近鄰內(nèi)樣本預(yù)測(cè)正確率為零的情況.根據(jù)文獻(xiàn)[24],將k的最大值設(shè)置為10.

        3.3 結(jié)果分析

        表2給出了各算法在采用Bagging生成的決策樹(shù)池上使用Majority Voting的平均預(yù)測(cè)精度,MVall是選出的50棵精度最高的決策樹(shù)的Majority Voting結(jié)果.從W/T/L(Wins,Ties and Losses)指標(biāo)可以看出,WJD表現(xiàn)要比kappa(語(yǔ)義多樣性)和RCJac(結(jié)構(gòu)多樣性)好,與MDM具有相似的性能.WJD在3個(gè)數(shù)據(jù)集上表現(xiàn)優(yōu)于MVall.

        表2 對(duì)Bagging生成的決策樹(shù)池使用多數(shù)投票預(yù)測(cè)精度,并根據(jù)(W/T/L)進(jìn)行性能比較Tab.2 Prediction accuracy using Majority Voting for Bagging and performance comparison in terms of (W/T/L)

        表3給出了各算法在采用Bagging生成的決策樹(shù)池上使用LCA的平均預(yù)測(cè)精度,可以看出WJD的表現(xiàn)是最好的.WJD在5個(gè)數(shù)據(jù)集上表現(xiàn)優(yōu)于MVall.

        表4給出了各算法在采用AdaBoost生成的決策樹(shù)池上使用加權(quán)投票方式的平均預(yù)測(cè)精度,WVall是決策樹(shù)池中的100棵樹(shù)的加權(quán)投票結(jié)果.可以看出,WJD的表現(xiàn)要優(yōu)于MDM和kappa,與RCJac的性能相似.WJD在4個(gè)數(shù)據(jù)集上表現(xiàn)比WVall要好,在1個(gè)數(shù)據(jù)集上表現(xiàn)相當(dāng).

        表3 在Bagging算法生成的決策樹(shù)池中,使用LCA預(yù)測(cè)精度,并根據(jù)(W/T/L)進(jìn)行性能比較Tab.3 Prediction accuracy using LCA for Bagging and performance comparison in terms of (W/T/L)

        表4 在AdaBoost算法生成的決策樹(shù)池中,使用加權(quán)投票預(yù)測(cè)精度,并根據(jù)(W/T/L)進(jìn)行性能比較Tab.4 Prediction accuracy using Weighed Voting for AdaBoost and performance comparison in terms of (W/T/L)

        表5給出了在用AdaBoost算法生成的決策樹(shù)池上使用LCA的平均正確率.可以看出,WJD的表現(xiàn)明顯優(yōu)于其他3種方法,在4個(gè)數(shù)據(jù)集上表現(xiàn)優(yōu)于WVall,在1個(gè)數(shù)據(jù)集上與WVall相當(dāng).

        表5 對(duì)AdaBoost生成的決策樹(shù)池使用LCA預(yù)測(cè)精度,并根據(jù)(W/T/L)進(jìn)行性能比較Tab.5 Prediction accuracy using LCA for AdaBoost and performance comparison in terms of (W/T/L)

        從表2—5中可以看出,本文提出的WJD比其他3種方法有更好的表現(xiàn).kappa是語(yǔ)義多樣性度量,RCJac是結(jié)構(gòu)多樣性度量.實(shí)驗(yàn)表明,本文提出的語(yǔ)義和結(jié)構(gòu)多樣性度量方法WJD能夠更好地對(duì)測(cè)試數(shù)據(jù)進(jìn)行預(yù)測(cè).從實(shí)驗(yàn)中可以看出,使用合適的相似性度量方法,基于聚類(lèi)的剪枝算法會(huì)比有序剪枝算法MDM有更好的表現(xiàn).此外,與所有樹(shù)的預(yù)測(cè)結(jié)果相比較,本文方法對(duì)Bagging和AdaBoost的剪枝是有效的,可以得到精度較高的子集成.

        4 結(jié) 論

        在決策樹(shù)集成系統(tǒng)中,多樣性是重要的特征.本文中提出的加權(quán)Jaccard距離是基于決策樹(shù)中帶標(biāo)簽劃分的多樣性度量.我們分析了WJD的性質(zhì),總結(jié)了3個(gè)定理并予以證明.接下來(lái)的實(shí)驗(yàn)中,采用MDM算法及2種多樣性度量方法kappa和RCJac與WJD進(jìn)行實(shí)驗(yàn)對(duì)比.實(shí)驗(yàn)結(jié)果表明,本文提出的WJD對(duì)測(cè)試數(shù)據(jù)的預(yù)測(cè)精度更高.

        猜你喜歡
        決策樹(shù)度量分類(lèi)器
        有趣的度量
        模糊度量空間的強(qiáng)嵌入
        迷向表示分為6個(gè)不可約直和的旗流形上不變愛(ài)因斯坦度量
        一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
        決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        BP-GA光照分類(lèi)器在車(chē)道線識(shí)別中的應(yīng)用
        加權(quán)空-譜與最近鄰分類(lèi)器相結(jié)合的高光譜圖像分類(lèi)
        結(jié)合模糊(C+P)均值聚類(lèi)和SP-V-支持向量機(jī)的TSK分類(lèi)器
        基于決策樹(shù)的出租車(chē)乘客出行目的識(shí)別
        地質(zhì)異常的奇異性度量與隱伏源致礦異常識(shí)別
        欧美黑人又粗又大久久久| 水蜜桃在线视频在线观看| 亚洲啪啪AⅤ一区二区三区| 久久久国产精品五月天伊人| 美女福利视频在线观看网址| 蜜桃av中文字幕在线观看| 丁香花五月六月综合激情| 亚洲精品久久久久avwww潮水| 亚洲av色无码乱码在线观看| 国产强伦姧在线观看| 国产内射一级一片高清内射视频 | 欧洲freexxxx性少妇播放 | 少妇人妻偷人中文字幕| 国产亚洲自拍日本亚洲 | 丝袜美腿亚洲一区二区| 久久久久久伊人高潮影院| 国产精品久久久久影视不卡| 一区二区在线观看日本免费| 国产一区二区三区视频在线观看| 亚洲中文字幕无码av| 人妻丰满av∨中文久久不卡| 亚洲成a人网站在线看| 亚洲中文字幕在线精品2021| 日本久久伊人特级黄色| 国产一区二区三精品久久久无广告| 中国精品久久精品三级| 国产精品女同一区二区久| 中文字幕漂亮人妻在线| 亚洲av无码久久| 少妇的丰满3中文字幕| 日韩少妇人妻一区二区| 国语对白福利在线观看| 人妻插b视频一区二区三区| 99精品国产兔费观看久久99| 人人爽亚洲aⅴ人人爽av人人片 | 国色天香社区视频在线| 免费观看又污又黄的网站 | 国产亚洲精品久久久久久国模美| 国产精品久久婷婷六月丁香| 亚洲熟妇夜夜一区二区三区| 国产手机在线观看一区二区三区|