亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于主動(dòng)學(xué)習(xí)不平衡多分類AdaBoost算法的心臟病分類

        2017-09-22 13:44:04王莉莉付忠良
        計(jì)算機(jī)應(yīng)用 2017年7期
        關(guān)鍵詞:小類代價(jià)識(shí)別率

        王莉莉,付忠良,陶 攀,胡 鑫

        (1.中國科學(xué)院 成都計(jì)算機(jī)應(yīng)用研究所,成都 610041; 2.中國科學(xué)院大學(xué),北京 100049) (*通信作者電子郵箱wanglili8773@163.com)

        基于主動(dòng)學(xué)習(xí)不平衡多分類AdaBoost算法的心臟病分類

        王莉莉1,2*,付忠良1,2,陶 攀1,2,胡 鑫1,2

        (1.中國科學(xué)院 成都計(jì)算機(jī)應(yīng)用研究所,成都 610041; 2.中國科學(xué)院大學(xué),北京 100049) (*通信作者電子郵箱wanglili8773@163.com)

        針對不平衡分類中小類樣本識(shí)別率低問題,提出一種基于主動(dòng)學(xué)習(xí)不平衡多分類AdaBoost改進(jìn)算法。首先,利用主動(dòng)學(xué)習(xí)方法通過多次迭代抽樣,選取少量的、對分類器最有價(jià)值的樣本作為訓(xùn)練集;然后,基于不確定性動(dòng)態(tài)間隔的樣本選擇策略,降低訓(xùn)練集的不平衡性;最后,利用代價(jià)敏感方法對多分類AdaBoost算法進(jìn)行改進(jìn),對不同的類別給予不同的錯(cuò)分代價(jià),調(diào)整樣本權(quán)重更新速度,強(qiáng)迫弱分類器“關(guān)注”小類樣本。在臨床經(jīng)胸超聲心動(dòng)圖(TTE)測量數(shù)據(jù)集上的實(shí)驗(yàn)分析表明:與多分類支持向量機(jī)(SVM)相比,心臟病總體識(shí)別率提升了5.9%,G-mean指標(biāo)提升了18.2%,瓣膜病(VHD)識(shí)別率提升了0.8%,感染性心內(nèi)膜炎(IE)(小類)識(shí)別率提升了12.7%,冠心病(CAD)(小類)識(shí)別率提升了79.73%;與SMOTE-Boost相比,總體識(shí)別率提升了6.11%,G-mean指標(biāo)提升了0.64%,VHD識(shí)別率提升了11.07%,先心病(CHD)識(shí)別率提升了3.69%。在TTE數(shù)據(jù)集和4個(gè)UCI數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該算法在不平穩(wěn)多分類時(shí)能有效提高小類樣本識(shí)別率,并且保證其他類別識(shí)別率不會(huì)大幅度降低,綜合提升分類器性能。

        主動(dòng)學(xué)習(xí);不平衡分類;多分類AdaBoost;多類別分類;心臟病分類

        0 引言

        不平衡數(shù)據(jù)集通常指類別間數(shù)量相差較大的數(shù)據(jù)集,稱具有少量樣本的那些類為小類,而具有大量樣本的那些類為大類,傳統(tǒng)分類方法追求的是整體識(shí)別率,而對小類的識(shí)別率一般較低。目前,對于不平衡數(shù)據(jù)集的分類問題的研究主要分為兩大類:一類是改變訓(xùn)練集樣本分布,降低不平衡程度;另一類是適當(dāng)修改現(xiàn)有算法,使之適應(yīng)不平衡分類問題。

        降低不平衡度的方法包括訓(xùn)練集重采樣方法和訓(xùn)練集劃分方法。SMOTE(Synthetic Minority Over-sampling Technique)算法[1]是一種簡單有效的上采樣方法,首先為每個(gè)小類樣本隨機(jī)選出幾個(gè)鄰近樣本,并在該樣本與這些鄰近樣本的連線上隨機(jī)取點(diǎn),生成無重復(fù)的新的小類樣本。Japkowicz等[2]的實(shí)驗(yàn)研究了不平衡數(shù)據(jù)對經(jīng)典算法的影響,包括決策樹C4.5、BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)(Support Vector Machine, SVM)等,由于支持向量機(jī)對分類性能影響較大的是少數(shù)的支持向量,因此該方法對數(shù)據(jù)不平衡度相對不敏感。Chen等[3]通過修剪大類的支持向量,使支持向量個(gè)數(shù)平衡,提高稀有類的識(shí)別率。Chan等[4]將大類樣本按照合理的類別樣本分布比例隨機(jī)地劃分成一系列不相交子集,并分別與小類樣本融合,組成一系列平衡的分類子問題,訓(xùn)練成子分類器,最后通過元學(xué)習(xí)將這些子分類器集成組合分類器。Lu等[5-6]采用最小最大模塊化SVM模型,提出了“部分對部分”任務(wù)分解策略,控制每個(gè)子問題的規(guī)模和平衡度,并根據(jù)先驗(yàn)知識(shí)和訓(xùn)練集的樣本分布,制定有效的分解規(guī)則。SMOTEBoost(Synthetic Minority Over-sampling Technique and Boosting)算法[7]的每次迭代使用SMOTE生成新的樣本,不再使用AdaBoost(Adaptive Boosting)集成算法中的權(quán)值調(diào)整規(guī)則,使Boosting算法更專注于小類樣本中的難分樣本。這些方法雖然能有效地提升小類的識(shí)別率,但同時(shí)也忽略了很多潛在有用的大類樣本信息,造成大類識(shí)別率降低。

        算法自適應(yīng)方法包括分類器集成[8]和代價(jià)敏感學(xué)習(xí)[9]等。Zhou等[10]提出了代價(jià)敏感神經(jīng)網(wǎng)絡(luò)與分類器集成相結(jié)合的方法,實(shí)驗(yàn)表明,分類器集成對二分類不平衡問題和多分類不平衡問題同樣有效。文獻(xiàn)[11]提出了AdaBoost.MLR算法解決多類別分類問題,對識(shí)別率較低的類別給予較高的錯(cuò)分代價(jià),提高“難分”類別的識(shí)別精度,但提升幅度有限。AdaCost[12]算法在AdaBoost算法[13]的權(quán)值更新規(guī)則中引入錯(cuò)分代價(jià)因子,提高了小類樣本的查全率和查準(zhǔn)率。這些方法在模型訓(xùn)練過程中引入了錯(cuò)分代價(jià)因子,強(qiáng)迫分類器“關(guān)注”錯(cuò)分代價(jià)較高的小類樣本,能在確保大類樣本識(shí)別率的前提下,提升小類樣本的識(shí)別率,但由于類別不平衡性和模型自身的原因,對小類識(shí)別率的提升是有限的。

        多分類SVM算法[14]采用一對一、一對其余的方法將二分類SVM擴(kuò)展到多類別分類問題中,在不平衡數(shù)據(jù)分類中表現(xiàn)出很好的分類性能。文獻(xiàn)[15]采用主動(dòng)學(xué)習(xí)方法構(gòu)造平衡的訓(xùn)練集,并提出了一種基于SVM的主動(dòng)學(xué)習(xí)樣本選擇策略,實(shí)驗(yàn)表明,主動(dòng)學(xué)習(xí)方法能用較少的樣本獲得較高的分類性能,但是主動(dòng)學(xué)習(xí)需要迭代多次選擇最有價(jià)值的樣本,進(jìn)行多次模型訓(xùn)練,而SVM的非線性模型優(yōu)化過程對計(jì)算和存儲(chǔ)要求太高。AdaC2.M1算法[16]針對多類別不平衡分類問題,提出了基于代價(jià)敏感的AdaBoost集成學(xué)習(xí)方法,采用遺傳算法搜索各個(gè)類別的錯(cuò)分代價(jià),實(shí)驗(yàn)表明代價(jià)敏感方法很難較好地適用于多類別不平衡分類問題。

        研究分析表明,單一地使用重采樣方法改變訓(xùn)練集樣本分布,雖然能提升小類樣本的識(shí)別率,但也會(huì)大幅度降低大類樣本的識(shí)別率;單一地使用代價(jià)敏感方法雖然保證了大類樣本識(shí)別率不會(huì)降低,但對小類樣本的識(shí)別率提升是有限的,因此,本文采用主動(dòng)學(xué)習(xí)方法,選擇最有潛在價(jià)值的樣本,充分利用稀有的小類樣本,降低數(shù)據(jù)集的不平衡性,并結(jié)合代價(jià)敏感方法,在多分類AdaBoost算法弱分類器的迭代訓(xùn)練中,對小類樣本給予較高的錯(cuò)分代價(jià),對大類樣本給予較低的錯(cuò)分代價(jià),動(dòng)態(tài)調(diào)整樣本權(quán)值更新速度,實(shí)現(xiàn)主動(dòng)學(xué)習(xí)方法、代價(jià)敏感方法和多分類AdaBoost方法的融合,在保證大類樣本識(shí)別率不會(huì)降低的前提下,大幅度提高小類樣本的識(shí)別率。

        1 傳統(tǒng)多分類AdaBoost算法

        AdaBoost算法是目前應(yīng)用最廣泛的機(jī)器學(xué)習(xí)方法之一,基本思想是將若干個(gè)弱分類器按照某種規(guī)則組合起來,集成為一個(gè)分類能力很強(qiáng)的強(qiáng)分類器,最初應(yīng)用于二分類問題,多類別分類問題是二分類問題的擴(kuò)展。假設(shè)訓(xùn)練樣本集X={(x1,y1),(x2,y2),…,(xm,ym)},其中yi∈{1,2,…,K}。對于樣本xi,若l=yi,則Yi(l)=1,否則Yi(l)=-1。集成學(xué)習(xí)算法通常指通過某種方式得到T個(gè)弱分類器ht(x):X×Y→R,弱分類器權(quán)重αt,然后進(jìn)行組合得到強(qiáng)分類器,即

        (1)

        多分類AdaBoost算法如下。

        輸入:訓(xùn)練樣本集X={(x1,Y1),…,(xm,Ym)},樣本權(quán)重D,弱分類器h(x):X×Y→R,迭代次數(shù)T。 初始化:D1(i,l)=1/(mK),其中i=1,2,…,m,l=1,2,…,K。

        AdaBoost算法中T個(gè)不同的弱分類器是通過改變數(shù)據(jù)分布來實(shí)現(xiàn)的,樣本權(quán)重更新是根據(jù)弱分類器對樣本的分類情況來確定的,具體來說,如果弱分類器對某個(gè)樣本的某個(gè)標(biāo)簽分類正確,則對應(yīng)的權(quán)重減少,如果分類錯(cuò)誤,則對應(yīng)權(quán)重增加,權(quán)重減少與增加的速度只與弱分類器有關(guān),每次權(quán)重改變的速度是一樣的。

        2 主動(dòng)學(xué)習(xí)不平衡多分類方法

        在傳統(tǒng)的主動(dòng)學(xué)習(xí)任務(wù)中,往往選擇對分類器最有價(jià)值的樣本加入訓(xùn)練集參與訓(xùn)練,以更新分類器,但在不平衡多分類問題中,如果仍采用傳統(tǒng)的樣本選擇方法,可能會(huì)導(dǎo)致訓(xùn)練集中大類的樣本一直更新,而小類的樣本一直得不到更新,即分類器的更新存在不平衡性。針對這個(gè)問題,本文提出一種新的基于不確定性動(dòng)態(tài)間隔的樣本選擇策略,從原始訓(xùn)練集中挑選那些更有意義的樣本,選擇數(shù)量最小但信息量最大的子集作為最終訓(xùn)練集,降低類別之間數(shù)據(jù)的不平衡性。

        2.1 主動(dòng)學(xué)習(xí)多分類AdaBoost算法

        設(shè)有標(biāo)注樣本集為X={(x1,y1),(x2,y2),…,(xm,ym)},首先抽取部分最有價(jià)值的樣本作為初始訓(xùn)練集,且類別之間樣本均衡。設(shè)Lk、Uk分別為第k次學(xué)習(xí)時(shí)的訓(xùn)練集和非訓(xùn)練集,滿足X=Lk∪Uk。用多分類AdaBoost算法對Lk樣本集進(jìn)行訓(xùn)練,得到強(qiáng)分類器,并對樣本集Uk進(jìn)行預(yù)測,按照某種樣本選擇策略選擇最有價(jià)值的樣本加入到Lk+1中,重復(fù)上述過程直到滿足停止條件。

        2.1.1 樣本選擇策略

        本文采用基于Margin策略的不確定性來選擇待標(biāo)注的樣本,如式(2)所示:

        (2)

        其中:l1和l2分別是最具有最大和第二大值的置信度輸出值,即當(dāng)前分類模型最確定的兩個(gè)類別,二者的差值越小說明模型對樣本的不確定性越大,則對樣本進(jìn)行標(biāo)注獲得的信息量越多;βx為數(shù)據(jù)平衡控制因子,目的是保證類別之間的數(shù)據(jù)平衡性。

        2.1.2 基于主動(dòng)學(xué)習(xí)的訓(xùn)練集選擇方法

        輸入:有標(biāo)注樣本集X={(x1,y1),(x2,y2),…,(xm,ym)},其中yi∈{1,2,…,K},初始訓(xùn)練集L1,非訓(xùn)練集U1=X-L1。 Fork=1,2,…,iter1)在訓(xùn)練集Lk上訓(xùn)練多分類AdaBoost分類器f; 2)統(tǒng)計(jì)訓(xùn)練集Lk中各類別包含樣本個(gè)數(shù),記包含樣本數(shù)最少的類別為c1,包含樣本數(shù)最大的類別為c2; 3)用分類器f對非訓(xùn)練集Uk中樣本預(yù)測,如果分類模型滿足停止條件,循環(huán)終止; 4)如果c2/c1>thresh,且非訓(xùn)練集Uk中樣本x對應(yīng)的類別為c1,則令βx=ε;否則βx=1;對每個(gè)樣本計(jì)算βx(f(x,l1)-f(x,l2)),l1和l2分別是最具有最大和第二大值的置信度輸出值,選擇最小的N個(gè)樣本,記為S; 5)更新Lk+1=Lk∪S,Uk+1=UkS; End輸出:訓(xùn)練集L。

        2.2 基于代價(jià)敏感的不平衡多分類AdaBoost算法

        分類算法總是希望平均錯(cuò)分代價(jià)最小,即希望式(3)最小:

        (3)

        對于δ(π)函數(shù),當(dāng)π為真時(shí),δ(π)為1;否則為0。在多分類AdaBoost算法中引入動(dòng)態(tài)代價(jià)調(diào)整函數(shù),可以得到代價(jià)敏感多分類AdaBoost算法。

        2.2.1 改進(jìn)算法流程

        2.2.2 如何選擇αt

        3 實(shí)驗(yàn)與分析

        3.1 評價(jià)指標(biāo)

        3.2 實(shí)驗(yàn)數(shù)據(jù)集

        本文實(shí)驗(yàn)使用數(shù)據(jù)包括TTE測量數(shù)據(jù)集和4個(gè)UCI(University of California Irvine)數(shù)據(jù)集,其中TTE數(shù)據(jù)集來源于華西醫(yī)院,34個(gè)屬性,共有2 214個(gè)心臟疾病病例,包括感染性心內(nèi)膜炎(Infective Endocarditis, IE)58例,冠心病(Coronary Artery Disease, CAD)169例,先心病(Congenital Heart Disease, CHD)733例,瓣膜病(Valvular Heart Disease, VHD)1 177例,每個(gè)病例只患有一種疾病,最大不平衡度為20.3。詳細(xì)的數(shù)據(jù)集信息如表1所示。

        表1 數(shù)據(jù)集信息

        3.3 在TTE數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果與分析

        3.3.1 基于主動(dòng)學(xué)習(xí)的訓(xùn)練集選擇

        實(shí)驗(yàn)過程中,訓(xùn)練集和測試集比例按照6∶4劃分,然后在訓(xùn)練集上采用基于不確定性動(dòng)態(tài)間隔的樣本選擇策略選擇新的訓(xùn)練集。

        初始訓(xùn)練集L1的選擇:在全部訓(xùn)練集上訓(xùn)練多分類AdaBoost分類器f,然后調(diào)用分類器f對訓(xùn)練集中全部樣本進(jìn)行預(yù)測,對每個(gè)樣本計(jì)算f(x,l1)-f(x,l2),其中l(wèi)1和l2分別是最具有最大和第二大值的置信度輸出值,對每個(gè)類別選擇f(x,l1)-f(x,l2)值最小的10個(gè)樣本,共得到40個(gè)樣本作為初始訓(xùn)練集;

        訓(xùn)練集選擇過程:按照2.1.2節(jié)的訓(xùn)練集選擇方法,結(jié)合數(shù)據(jù)集實(shí)際情況,每次迭代選擇4個(gè)最有價(jià)值的樣本加入訓(xùn)練集,令ε=0.005,控制訓(xùn)練集平衡度,一定程度上保證每次迭代都能選擇到小類樣本加入訓(xùn)練集。訓(xùn)練集選擇前后及測試集樣本個(gè)數(shù)如表2所示。

        3.3.2 錯(cuò)分代價(jià)因子c的調(diào)節(jié)

        本文采用2.2.1節(jié)中描述的改進(jìn)算法,選擇每個(gè)類別的查準(zhǔn)率作為評價(jià)指標(biāo)來驗(yàn)證改進(jìn)算法對各個(gè)類別的性能影響。在對參數(shù)c的最優(yōu)選擇實(shí)驗(yàn)時(shí),錯(cuò)分代價(jià)調(diào)整因子c值在[1,30]區(qū)間內(nèi)以步長1變化,找出較小的最合適的c值范圍,然后在小范圍內(nèi)以0.1步長變化,尋找最合適的c值。以下僅列出c=22,23,24,25,26時(shí)的實(shí)驗(yàn)結(jié)果,具體如表3所示,可知最可能的c在區(qū)間[23,24]內(nèi)。

        表2 訓(xùn)練集選擇結(jié)果(TTE)

        表3 不同參數(shù)c的識(shí)別率(TTE)

        3.3.3 與其他算法的對比實(shí)驗(yàn)結(jié)果

        在對參數(shù)c的最優(yōu)選擇實(shí)驗(yàn)時(shí),錯(cuò)分代價(jià)調(diào)整因子c值在[23,24]區(qū)間內(nèi)以步長0.1變化,尋找最合適的參數(shù)c。通過實(shí)驗(yàn)可知,當(dāng)c=23.8時(shí),總體識(shí)別率最高可達(dá)88.34%,VHD識(shí)別率為92.62%,CHD識(shí)別率為85.76%,IE識(shí)別率為76.85%,CAD識(shí)別率為80.14%。

        在最優(yōu)參數(shù)下,將本文算法與SMOTEBoost、AdaBoost.MLR、多分類SVM和ML-KNN(Multi-LabelK-Nearest Neighbor)[17]進(jìn)行比較,每個(gè)類別的詳細(xì)識(shí)別率和總體分類識(shí)別率如表4所示。

        表4 不同算法的識(shí)別率(TTE)

        從表4可以看出,ML-KNN算法和AdaBoost.MLR算法對IE和CAD的識(shí)別率很低,這是因?yàn)檫@兩種算法的分類性能跟訓(xùn)練集有關(guān);由于SVM模型只與少數(shù)支持向量有關(guān),分類性能較好一些,但對CAD的識(shí)別率較低,對IE的識(shí)別率僅稍好于隨機(jī)猜測;SMOTEBoost算法雖然能提升小類樣本識(shí)別率,但其他類別的樣本識(shí)別率也會(huì)很大幅度地降低。本文算法相較于多分類SVM,心臟病總體識(shí)別率提升了5.9%,G-mean指標(biāo)提升了18.2%,VHD識(shí)別率提升了0.8%,IE(小類)識(shí)別率提升了12.7%,CAD(小類)識(shí)別率提升了79.73%;相較于SMOTEBoost,總體識(shí)別率提升了6.11%,G-mean指標(biāo)提升了0.64%,VHD識(shí)別率提升了11.07%,CHD識(shí)別率提升了3.69%。

        3.4 在UCI數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果與分析

        實(shí)驗(yàn)過程中,分別對4個(gè)UCI數(shù)據(jù)集按照6∶4劃分訓(xùn)練集和測試集,首先按照2.1.2節(jié)中的樣本選擇方法,產(chǎn)生新的訓(xùn)練集,然后在新的訓(xùn)練集上采取和3.3.2節(jié)類似的步驟,尋找最佳錯(cuò)分代價(jià)因子c。對于每個(gè)數(shù)據(jù)集,選擇前后訓(xùn)練集的樣本個(gè)數(shù)和最佳參數(shù)c值如表5所示。

        表5 訓(xùn)練集選擇結(jié)果和參數(shù)c設(shè)置(UCI)

        只有當(dāng)各個(gè)類別的查準(zhǔn)率都很高時(shí)G-mean才會(huì)高,因此實(shí)驗(yàn)采用G-mean指標(biāo)對本文算法和ML-KNN、多分類SVM、SMOTEBoost、AdaBoost.MLR算法進(jìn)行對比,各算法的G-mean值如表6所示。

        表6 各算法的G-mean值對比(UCI)

        從表6可以看出有些數(shù)據(jù)集的G-mean值為0,這是由于小類樣本的查準(zhǔn)率為0造成的,這也說明小類樣本的分類性能影響算法的整體性能。

        本文算法在TTE、abalone和ecoli數(shù)據(jù)集上取得最高的G-mean值;相較于多分類SVM算法,TTE數(shù)據(jù)集上的G-mean值提升了18.2%,相較于SMOTEBoost算法,G-mean值提升了0.64%。

        4 結(jié)語

        本文針對多類別不平衡分類中小類樣本識(shí)別率低問題,采用主動(dòng)學(xué)習(xí)思想,選擇少量的最有價(jià)值的樣本作為訓(xùn)練集,并將不平衡分類問題轉(zhuǎn)化為代價(jià)敏感分類問題。在多分類AdaBoost算法弱分類器的迭代訓(xùn)練時(shí),對小類樣本給予較高的錯(cuò)分代價(jià),在可行的代價(jià)選擇空間內(nèi),尋找能使得分類性能最優(yōu)的錯(cuò)分代價(jià)調(diào)整因子,調(diào)整樣本權(quán)重更新速度,對多分類AdaBoost算法進(jìn)行改進(jìn)。在心臟病TTE測量數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該方法對小類樣本識(shí)別率有較大幅度的提升,還能保證其他類別的識(shí)別率不會(huì)大幅降低,綜合提升了分類器的性能。綜合UCI數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文算法在TTE、abalone和ecoli數(shù)據(jù)集上的G-mean值最高,而且訓(xùn)練集只需要少量的有價(jià)值的樣本,模型訓(xùn)練效率高、速度快、識(shí)別率高,性能更優(yōu)。

        References)

        [1] CHAWLA N V, BOWYER K W, HALL L O, et al. SMOTE: synthetic minority over-sampling technique [J]. Journal of Artificial Intelligence Research, 2002, 16(1): 321-357.

        [2] JAPKOWICZ N, STEPHEN S. The class imbalance problem: a systematic study [J]. Intelligent Data Analysis, 2002, 6(5): 429-449.

        [3] CHEN X, GERLACH B, CASASENT D. Pruning support vectors for imbalanced data classification [C]// IJCNN 2005: Proceedings of the 2005 International Joint Conference on Neural Networks. Piscataway, NJ: IEEE, 2005, 3: 1883-1888.

        [4] CHAN P K, STOLFO S J. Toward scalable learning with non-uniform class and cost distributions: a case study in credit card fraud detection [C]// KDD 1998: Proceedings of the 1998 ACM SIGKDD Conference on Knowledge Discovery and Data Mining. Menlo Park, CA: AAAI Press, 1998: 164-168.

        [5] LU B L, ITO M. Task decomposition and module combination based on class relations: a modular neural network for pattern classification [J]. IEEE Transactions on Neural Networks, 1999, 10(5): 1244-1256.

        [6] LU B L, WANG K A, UTIYAMA M, et al. A part-versus-part method for massively parallel training of support vector machines [C]// IJCNN 2004: Proceedings of the 2004 International Joint Conference on Neural Networks. Piscataway, NJ: IEEE, 2004, 1: 735:740.

        [7] CHAWLA N V, LAZAREVIC A, HALL L O, et al. SMOTEBoost: improving prediction of the minority class in boosting [C]// PKDD 2003: Proceedings of the 2003 European Conference on Principles of Data Mining and Knowledge Discovery. Berlin: Springer, 2003: 107-119.

        [8] FU Z, WANG L, ZHANG D. An improved multi-label classification ensemble learning algorithm [C]// CCPR 2014: Proceedings of the 6th Chinese Conference on Pattern Recognition. Berlin: Springer, 2014: 243-252.

        [9] 付忠良.多分類問題代價(jià)敏感AdaBoost算法[J].自動(dòng)化學(xué)報(bào),2011,37(8):973-983.(FU Z L. Cost-sensitive AdaBoost algorithm for multi-class classification problems [J]. Acta Automatica Sinica, 2011, 37(8): 973-983.)

        [10] ZHOU Z H, LIU X Y. Training cost-sensitive neural networks with methods addressing the class imbalance problem [J]. IEEE Transactions on Knowledge and Data Engineering, 2006, 18(1): 63-77.

        [11] 王莉莉,付忠良.基于標(biāo)簽相關(guān)性的多標(biāo)簽分類AdaBoost算法[J].四川大學(xué)學(xué)報(bào)(工程科學(xué)版),2016,48(5):91-97.(WANG L L, FU Z L. Multi-label AdaBoost algorithm based on label correlations [J]. Journal of Sichuan University (Engineering Science Edition), 2016, 48(5): 91-97.)

        [12] FAN W, STOLFO S J, ZHANG J, et al. AdaCost: misclassification cost-sensitive boosting [C]// ICML 1999: Proceedings of the 1999 International Conference on Machine Learning. San Francisco, CA: Morgan Kaufmann, 1999: 97-105.

        [13] SCHAPIRE R E, SINGER Y. Improved boosting algorithms using confidence-rated predictions [J]. Machine Learning, 1999, 37(3): 297-336.

        [14] WU T F, LIN C J, WENG R C. Probability estimates for multi-class classification by pairwise coupling [J]. Journal of Machine Learning Research, 2004, 5: 975-1005.

        [15] ERTEKIN S, HUANG J, GILES C L. Active learning for class imbalance problem [C]// SIGIR 2007: Proceedings of the 2007 International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2007: 823-824.

        [16] SUN Y, KAMEL M S, WANG Y. Boosting for learning multiple classes with imbalanced class distribution [C]// ICDM 2006: Proceedings of the 2006 International Conference on Data Mining. Washington, DC: IEEE Computer Society, 2006: 592-602.

        [17] ZHANG M L, ZHOU Z H. ML-KNN: a lazy learning approach to multi-label learning [J]. Pattern Recognition, 2007, 40(7): 2038-2048.

        This work is partially supported by the Sichuan Science and Technology Support Project (2016JZ0035), West Light Foundation of Chinese Academy of Sciences.

        WANGLili, born in 1987, Ph. D. candidate. Her research interests include machine learning, pattern recognition, data mining.

        FUZhongliang, born in 1967, M. S., professor. His research interests include machine learning, pattern recognition.

        TAOPan, born in 1988, Ph. D. candidate. His research interests include machine learning, data mining.

        HUXin, born in 1987, M. S. candidate. His research interests include data warehouse, data mining.

        Heartdiseaseclassificationbasedonactiveimbalancemulti-classAdaBoostalgorithm

        WANG Lili1,2*, FU Zhongliang1,2, TAO Pan1,2, HU Xin1,2

        (1.ChengduInstituteofComputerApplication,ChineseAcademyofSciences,ChengduSichuan610041,China;2.UniversityofChineseAcademyofSciences,Beijing100049,China)

        An imbalance multi-class AdaBoost algorithm with active learning was proposed to improve the recognition accuracy of minority class in imbalance classification. Firstly, active learning was adopted to select the most informative samples for classifiers through multiple iterations of sampling. Secondly, a new sample selection strategy based on uncertainty of dynamic margin was proposed to tackle the problem of data imbalance in the multi-class case. Finally, the cost sensitive method was adopted to improve the multi-class AdaBoost algorithm: giving different class with different misclassification cost, adjusting sample weight update speed, and forcing weak learners to “concern” minority class. The experimental results on clinical TransThoracic Echocardiography (TTE) data set illustrate that, when compared with multi-class Support Vector Machine (SVM), the total recognition accuracy of heart disease increases by 5.9%, G-mean improves by 18.2%, the recognition accuracy of Valvular Heart Disease (VHD) improves by 0.8%, the recognition accuracy of Infective Endocarditis (IE) (minority class) improves by 12.7% and the recognition accuracy of Coronary Artery Disease (CAD) (minority class) improves by 79.73%; compared with SMOTE-Boost, the total recognition accuracy of heart disease increases by 6.11%, the G-mean improves by 0.64%, the recognition accuracy of VHD improves by 11.07%, the recognition accuracy of Congenital Heart Disease (CHD) improves by 3.67%. The experiment results on TTE data and 4 UCI data sets illustrate that when used in imbalanced multi-class classification, the proposed algorithm can improve the recognition accuracy of minority class effectively, and upgrade the overall classifier performance while guaranteeing the recognition accuracy of other classes not to be decreased dramatically.

        active learning; imbalance classification; multi-class AdaBoost; multi-class classification; heart disease classification

        TP391.4; TP181

        :A

        2017- 01- 12;

        :2017- 02- 27。

        四川省科技支撐計(jì)劃項(xiàng)目(2016JZ0035);中國科學(xué)院西部之光項(xiàng)目。

        王莉莉(1987—),女,河南周口人,博士研究生,主要研究方向:機(jī)器學(xué)習(xí)、模式識(shí)別、數(shù)據(jù)挖掘; 付忠良(1967—),男,重慶合川人,教授,碩士,主要研究方向:機(jī)器學(xué)習(xí)、模式識(shí)別; 陶攀(1988—),男,河南安陽人,博士研究生,主要研究方向:機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘; 胡鑫(1987—),男,貴州遵義人,碩士研究生,主要研究方向:數(shù)據(jù)倉庫、數(shù)據(jù)挖掘。

        1001- 9081(2017)07- 1994- 05

        10.11772/j.issn.1001- 9081.2017.07.1994

        猜你喜歡
        小類代價(jià)識(shí)別率
        基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測
        基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識(shí)別率的關(guān)系
        提升高速公路MTC二次抓拍車牌識(shí)別率方案研究
        愛的代價(jià)
        海峽姐妹(2017年12期)2018-01-31 02:12:22
        浙江配電網(wǎng)物資標(biāo)準(zhǔn)化研究與應(yīng)用
        代價(jià)
        高速公路機(jī)電日常維護(hù)中車牌識(shí)別率分析系統(tǒng)的應(yīng)用
        成熟的代價(jià)
        代價(jià)
        小類:年輕人要多努力
        大學(xué)(2008年10期)2008-10-31 12:51:10
        av网址不卡免费在线观看| 亚洲国产一区二区三区| 国产精品国产亚洲精品看不卡| 欧美精品videossex少妇| 欧美在线a| 久久国产精品av在线观看| 亚洲人妻调教中文字幕| 国产深夜男女无套内射| 国产精品入口牛牛影视| 日本不卡的一区二区三区| 午夜少妇高潮在线观看| 国产精品一区二区无线| 精品久久久久久无码不卡| 亚洲av毛片一区二区久久| 亚洲中文字幕av天堂自拍| 亚洲美腿丝袜 欧美另类| 亚洲第一无码精品久久| 亚洲少妇一区二区三区老| 国产午夜免费高清久久影院| 人人玩人人添人人澡| 2021久久精品国产99国产| 成人水蜜桃视频在线观看| 无码国产精品久久一区免费| 少妇激情av一区二区| 精品熟妇av一区二区三区四区| 国产毛片av一区二区| 三年在线观看免费大全下载| av无码精品一区二区乱子| 国产又大大紧一区二区三区| 日韩精品专区av无码| 精品国产黑色丝袜高跟鞋| 亚洲日本va99在线| 国产亚洲精品一区二区在线播放| 九九九免费观看视频| 亚洲国产精品嫩草影院久久| 亚洲综合综合在线| 亚洲sm另类一区二区三区| 精东天美麻豆果冻传媒mv| 久久99精品久久久久久齐齐百度| 性色国产成人久久久精品二区三区 | 麻婆视频在线免费观看|