亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        動態(tài)平衡采樣的不平衡數(shù)據(jù)集成分類方法

        2016-05-24 12:06:00胡小生溫菊屏鐘勇
        智能系統(tǒng)學(xué)報(bào) 2016年2期
        關(guān)鍵詞:集成學(xué)習(xí)隨機(jī)森林分類

        胡小生,溫菊屏,鐘勇

        (佛山科學(xué)技術(shù)學(xué)院 電子與信息工程學(xué)院,廣東 佛山 528000)

        ?

        動態(tài)平衡采樣的不平衡數(shù)據(jù)集成分類方法

        胡小生,溫菊屏,鐘勇

        (佛山科學(xué)技術(shù)學(xué)院 電子與信息工程學(xué)院,廣東 佛山 528000)

        摘要:傳統(tǒng)分類算法假定平衡的類分布或相同的誤分類代價,處理不平衡數(shù)據(jù)集時,少數(shù)類識別精度過低。提出一種動態(tài)平衡數(shù)據(jù)采樣與Boosting技術(shù)相結(jié)合的不平衡數(shù)據(jù)集成分類算法。在每次迭代初始,綜合使用隨機(jī)欠采樣和SMOTE過采樣獲得平衡規(guī)模的訓(xùn)練數(shù)據(jù),各類別樣本數(shù)據(jù)比例保持隨機(jī)性以體現(xiàn)訓(xùn)練數(shù)據(jù)的差異性,為子分類器提供更好的訓(xùn)練平臺;子分類器形成后,利用加權(quán)投票得到最終強(qiáng)分類器。實(shí)驗(yàn)結(jié)果表明,該方法具有處理類別不平衡數(shù)據(jù)分類問題的優(yōu)勢。

        關(guān)鍵詞:分類;不平衡數(shù)據(jù);重采樣;集成學(xué)習(xí);隨機(jī)森林

        中文引用格式:胡小生,溫菊屏,鐘勇. 動態(tài)平衡采樣的不平衡數(shù)據(jù)集成分類方法[J]. 智能系統(tǒng)學(xué)報(bào), 2016, 11(2): 257-263.

        英文引用格式:HU Xiaosheng, WEN Juping, ZHONG Yong. Imbalanced data ensemble classification using dynamic balance sampling[J]. CAAI transactions on intelligent systems, 2016, 11(2): 257-263.

        分類是機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘領(lǐng)域的重要研究內(nèi)容,通過對輸入的訓(xùn)練樣本數(shù)據(jù)進(jìn)行分析、學(xué)習(xí)后獲得決策模型,隨后即可對未知樣本進(jìn)行預(yù)測。目前,已經(jīng)有許多經(jīng)典的分類算法,例如決策樹、支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò),這些算法在類別數(shù)據(jù)分布均勻的條件下具有良好的分類性能,得到了廣泛應(yīng)用。但是,在許多實(shí)際應(yīng)用領(lǐng)域中,存在著非常明顯的類別不平衡數(shù)據(jù),例如信用卡欺詐檢測、醫(yī)療疾病診斷、網(wǎng)絡(luò)入侵檢測等,在這些情況的分類處理過程中,少數(shù)類需要受到特別關(guān)注,往往具有更大的誤分類代價,然而傳統(tǒng)分類算法基于平衡的數(shù)據(jù)分布或者相等的誤分類代價之基本假設(shè),為保證算法總體分類準(zhǔn)確率,通常將少數(shù)類錯分至多數(shù)類,從而導(dǎo)致少數(shù)類識別準(zhǔn)確率過低。因此,傳統(tǒng)分類算法面對類不平衡數(shù)據(jù),分類效果不佳。

        當(dāng)前,不平衡數(shù)據(jù)分類問題的解決方法主要有3個方面:1) 數(shù)據(jù)層面,移除部分多數(shù)類樣本或者增加新的合成樣例,改變數(shù)據(jù)分布,降低不平衡度,稱之為重采樣方法[1-5];2) 算法層面,分析已有算法在面對不平衡數(shù)據(jù)分類的缺陷,改進(jìn)算法或者提出新算法來提升少數(shù)類的分類準(zhǔn)確率,例如代價敏感學(xué)習(xí)[6]、集成學(xué)習(xí)[7-8]、單類學(xué)習(xí)[9]等;3) 評價標(biāo)準(zhǔn)層面,提出新的適合不平衡數(shù)據(jù)分類的分類器性能評價標(biāo)準(zhǔn),常見的有基于混淆矩陣基礎(chǔ)上的少數(shù)類精確度與召回率的調(diào)和均值Fmeasure[10],幾何均值Gmean[11]和ROC曲線等。

        本文從數(shù)據(jù)層面和算法層面著手,融合數(shù)據(jù)采樣和boosting技術(shù),提出在動態(tài)平衡采樣基礎(chǔ)上集成提升的不平衡數(shù)據(jù)分類算法,目標(biāo)旨在提高小類樣本的分類精度。為了論述方便,后續(xù)部分將少數(shù)類稱之為正類,多數(shù)類稱之為負(fù)類。

        1采樣方法

        數(shù)據(jù)層面的采樣技術(shù)針對不平衡數(shù)據(jù)特點(diǎn),通過過采樣、欠采樣等方式進(jìn)行數(shù)據(jù)處理,以期獲得一個相對均衡的數(shù)據(jù)分布。相關(guān)研究表明,平衡的數(shù)據(jù)分布更加有利于提高傳統(tǒng)算法的分類性能[12-13]。

        1.1過采樣

        最簡單的過采樣是隨機(jī)過采樣,其隨機(jī)選擇若干正類樣本,隨后簡單復(fù)制該樣本,添加至訓(xùn)練集。隨機(jī)過采樣僅僅復(fù)制正類樣本,沒有增加任何新的額外合成樣例,對于提高正類識別率沒有多大幫助;另外,當(dāng)數(shù)據(jù)不平衡度非常高時,需要在正類上進(jìn)行多倍采樣才能使最終數(shù)據(jù)分布趨于平衡,結(jié)果使得訓(xùn)練數(shù)據(jù)規(guī)模變大,分類器學(xué)習(xí)到的決策域變小,容易導(dǎo)致過擬合。

        針對隨機(jī)過采樣的不足,Chawla等[3]提出一種SMOTE(synthetic minority over-sampling technique)方法,該方法為每個正類樣本選擇若干(5或者7)個近鄰,隨后在選定樣本與近鄰樣本之間進(jìn)行線性插值,生成無重復(fù)的合成樣例。SMOTE方法能夠使正類的決策邊界遠(yuǎn)離負(fù)類空間,正類具有更大泛化空間;但是其缺點(diǎn)是沒有考慮近鄰樣本的分布特點(diǎn),合成樣例具有一定的盲目性,容易產(chǎn)生噪聲樣例,以及出現(xiàn)類間混疊現(xiàn)象,影響后續(xù)分類器的分類性能。

        為了解決SMOTE方法的不足之處,基于SMOTE的改進(jìn)算法相繼被提出。Han等[10]提出僅為靠近類邊界的正類樣本生成合成樣例的Borderline-SMOTE方法,更有利于分類器的學(xué)習(xí),但是需要依據(jù)輸入的近鄰參數(shù)k來確定正類邊界樣本集合,如何合理確定參數(shù)k以及科學(xué)判斷邊界有待深入研究。He等[14]提出ADASYN算法,將輸入數(shù)據(jù)的密度分布作為確定合成樣例數(shù)目的依據(jù),自適應(yīng)方式控制正類樣本的分布。Batista等[15]提出SMOTE+Tomek算法,該方法利用SMOTE生成合成樣例;利用Tomek算法對連接樣例進(jìn)行移除,較好地克服了SMOTE帶來的噪聲問題。

        1.2欠采樣

        隨機(jī)欠采樣是隨機(jī)性減少負(fù)類樣本,其方法簡單,操作容易,但是存在去除樣本的盲目性和去除樣本比例參數(shù)不確定問題,以及代表性樣本的丟失而影響分類精度。

        Kubat等[16]將在負(fù)類上的單邊采樣與Tomek links相結(jié)合,利用Tomek link刪除噪聲樣本,利用壓縮最近鄰算法刪除遠(yuǎn)離邊界區(qū)域的樣本,將剩下的負(fù)類樣本與所有正類樣本一起構(gòu)成訓(xùn)練集,用于分類器學(xué)習(xí)。

        文獻(xiàn)[17-20]提出利用聚類提取代表性樣本的平衡數(shù)據(jù)分布的方法。算法首先對負(fù)類樣本進(jìn)行聚類操作,聚類個數(shù)與正類樣本數(shù)目相同,然后提取各個聚類質(zhì)心作為聚簇的代表樣本,與所有正類樣本一起組成平衡訓(xùn)練集。由于用聚類質(zhì)心代表聚簇內(nèi)的所有樣本,不可避免地?fù)p失了數(shù)據(jù)分布的特征信息,使得抽樣后的數(shù)據(jù)分布與原始數(shù)據(jù)分布出現(xiàn)一定的差異,從而影響算法的分類性能。

        由上述分析可知,過采樣和欠采樣均存在一定的局限性:

        1)過采樣不斷合成新的正類合成樣例使得數(shù)據(jù)規(guī)模變大,增加了算法的學(xué)習(xí)時間;

        2)過采樣使得分類器訓(xùn)練得到的決策域變小,容易導(dǎo)致過擬合;

        3)欠采樣存在富含分類信息樣本丟失問題,特別是在高度不平衡數(shù)據(jù)集中,移除過多負(fù)類樣本使得信息丟失嚴(yán)重,造成樣本代表性差,嚴(yán)重背離初始數(shù)據(jù)分布;

        4)欠采樣難以合理確定抽樣比例參數(shù)。

        針對過采樣和欠采樣方法存在的局限性,本文提出基于動態(tài)平衡采樣的不平衡數(shù)據(jù)集成分類方法,在集成迭代的每次數(shù)據(jù)采樣過程中,無需給定抽樣比例參數(shù),而是基于隨機(jī)生成的樣本規(guī)模數(shù)值,或者對正類進(jìn)行過采樣,或者在負(fù)類上進(jìn)行欠采樣,獲得類別平衡的訓(xùn)練集,然后參與后續(xù)的集成算法訓(xùn)練。

        2動態(tài)平衡采樣不平衡數(shù)據(jù)分類方法

        本文算法包括動態(tài)平衡采樣的訓(xùn)練數(shù)據(jù)獲取和子分類器學(xué)習(xí)2個步驟,主要包括4個階段:1)對初始數(shù)據(jù)集的各個樣本設(shè)置相同的初始權(quán)值;2)調(diào)用動態(tài)平衡采樣算法,生成合成樣例,組成樣本規(guī)模一致的訓(xùn)練集,對于新生成的合成樣例,需要賦予權(quán)值;3)應(yīng)用AdaBoost算法,生成子分類器,之后根據(jù)子分類器的分類情況對初始訓(xùn)練集的各個樣本進(jìn)行權(quán)值更新,以及權(quán)值歸一化;2)、3)重復(fù)迭代執(zhí)行T次;最后將T個子分類器集成。

        2.1動態(tài)平衡采樣

        作為數(shù)據(jù)預(yù)處理的采樣技術(shù),需要預(yù)先確定數(shù)據(jù)采樣參數(shù),不合理的數(shù)據(jù)采樣參數(shù)會導(dǎo)致生成的數(shù)據(jù)分布嚴(yán)重背離初始數(shù)據(jù)分布,進(jìn)而影響算法的分類性能。動態(tài)平衡采樣依賴隨機(jī)函數(shù)產(chǎn)生的數(shù)值確定各類別的采樣方式及采樣比例,通過重復(fù)多次的動態(tài)提取初始數(shù)據(jù)集的樣本,獲取充分的數(shù)據(jù)分布特性信息,降低富含分類信息樣本點(diǎn)丟失現(xiàn)象。整體算法如算法1所示。

        算法1動態(tài)平衡采樣算法

        輸出新數(shù)據(jù)集S′。

        1) 計(jì)算集合S中的樣本數(shù)目,負(fù)類樣本集合SN,其數(shù)量記為a,正類樣本集合SP的樣本數(shù)記為b,m=a+b;

        2) 利用隨機(jī)函數(shù),生成一個隨機(jī)整數(shù)k,2

        3)如果k

        4) 如果k≥a,則從數(shù)據(jù)集SP中進(jìn)行隨機(jī)欠采樣,采樣數(shù)目為m-k,將其加入集合S′,在集合SN中應(yīng)用SMOTE進(jìn)行過采樣,生成k-a個合成樣例,連同SN中的a個樣本,都加入集合S′;

        5)輸出集合S′ 。

        算法依據(jù)2)中所產(chǎn)生的隨機(jī)整數(shù)值大小來決定相應(yīng)的采樣操作,如果產(chǎn)生的隨機(jī)數(shù)k小于初始數(shù)據(jù)集的負(fù)類樣本數(shù)量,則在負(fù)類樣本集進(jìn)行欠采樣,在正類樣本集進(jìn)行過采樣,使得最終輸出集合S′的樣本數(shù)量與初始數(shù)據(jù)集數(shù)量一致,反之,則進(jìn)行相反的采樣。與傳統(tǒng)的采樣方法不同的是,在步驟4中對正類樣本進(jìn)行欠采樣,對負(fù)類樣本進(jìn)行過采樣,通過隨機(jī)函數(shù)產(chǎn)生的隨機(jī)數(shù),使得輸出集合S′在總數(shù)量一定的情況下保持對對各類別樣本的中立性。

        2.2訓(xùn)練樣例權(quán)值更新

        在第t次迭代過程中,需要對兩個集合中的樣例權(quán)重進(jìn)行更新,分別是動態(tài)平衡采樣后的輸出集合S′和子分類器形成之后的初始數(shù)據(jù)集S。

        分析動態(tài)平衡采樣算法過程可知,經(jīng)過數(shù)據(jù)采樣之后,新數(shù)據(jù)集S′的樣例總數(shù)與初始數(shù)據(jù)集S一致,均為m,其中包括從數(shù)據(jù)集S抽取的部分樣例,以及部分由SMOTE方法產(chǎn)生的合成樣例。S′中的樣本權(quán)值按照式(1)更新:

        (1)

        第t次迭代訓(xùn)練結(jié)束時,AdaBoost分類算法在數(shù)據(jù)集S′進(jìn)行學(xué)習(xí)后得到子分類器ht:x→{-1,+1},t=1,2,…,T,ht(x)給出數(shù)據(jù)集S中的樣例x的所屬類別,根據(jù)子分類器的分類情況,更新樣本權(quán)值,增加錯分樣本的權(quán)值,減少正確分類樣本權(quán)值,以便下次迭代時,“錯分”樣本得到更多關(guān)注。

        計(jì)算子分類器ht(x)的分類錯誤率εt:

        (2)

        如果εt>0.5,終止此輪迭代。

        計(jì)算子分類器投票權(quán)重αt:

        (3)

        更新樣例權(quán)值:

        (4)

        式中Zt是歸一化常數(shù)。

        完整算法如算法2所示。

        算法2動態(tài)平衡采樣的不平衡分類算法

        2) for t=1,2,…,T

        ① 調(diào)用動態(tài)平衡采樣算法,獲得數(shù)據(jù)集S′;

        ② 利用式(1)設(shè)置S′中的樣例權(quán)值;

        ③ 使用數(shù)據(jù)集S′及其中的樣例權(quán)值,訓(xùn)練基于AdaBoost算法的子分類器ht(x);

        ④ 按照式(2)計(jì)算分類器ht(x)的誤差εt,按照式(3)計(jì)算ht(x)的投票權(quán)重αt;

        ⑤ 按照式(4)更新數(shù)據(jù)集S中的樣本權(quán)重;

        3實(shí)驗(yàn)結(jié)果與分析

        3.1評價度量

        傳統(tǒng)分類器采用分類精度指標(biāo)衡量分類性能,其追求整體分類準(zhǔn)確率,忽略了在不平衡數(shù)據(jù)分類過程中需要特別關(guān)注的正類分類準(zhǔn)確率。針對不平衡數(shù)據(jù),許多學(xué)者提出了在兩類混淆矩陣基礎(chǔ)上的Fmeasure[10]、Gmean[11]等評價方法。

        在混淆矩陣中,TP(true positive)、FN(false negative)、TN(true negative)、FP(false positive)分別代表分類正確的正類樣本、假的負(fù)類樣本、正確的負(fù)類樣本以及假的正類樣本的數(shù)目。基于混淆矩陣,F(xiàn)measure定義如下:

        Fmeasure定義說明:較大值表示Recall和Precision都較大,因此,其能夠較好評價正類分類性能。

        Gmean其定義如下:

        式中

        Gmean兼顧了正類準(zhǔn)確率和負(fù)類準(zhǔn)確率,比整體分類準(zhǔn)確率更適合于不平衡數(shù)據(jù)分類評價。

        本文使用Fmeasure準(zhǔn)則來衡量正類的分類性能,使用Gmean準(zhǔn)則來衡量數(shù)據(jù)集整體分類性能。

        3.2UCI數(shù)據(jù)

        為了檢驗(yàn)本文所提方法的有效性,選擇6組具有實(shí)際工程應(yīng)用背景的UCI數(shù)據(jù)[21]進(jìn)行測試,對于含有多個類別的數(shù)據(jù),取其中某個類為正類,合并其余類為負(fù)類,各數(shù)據(jù)集的基本信息見表1。

        表1 UCI數(shù)據(jù)集信息

        3.3實(shí)驗(yàn)結(jié)果及分析

        實(shí)驗(yàn)中對比算法如下:

        1)隨機(jī)森林(random forest,RF)算法,RF算法作為一種集成算法,在處理不平衡數(shù)據(jù)時有獨(dú)特的優(yōu)勢,能夠在某種程度上減少不均衡數(shù)據(jù)帶來的影響[22],因此將其直接應(yīng)用在初始不平衡數(shù)據(jù)集進(jìn)行分類。

        2)SMOTEBoost[23]算法,將SMOTE方法與AdaBoost.M2結(jié)合,在每次集成迭代中生成新的合成樣例,使得分類器更加關(guān)注小類樣本。

        3)RUSBoost[24],與SMOTEBoost方法相類似,采用隨機(jī)欠采樣從負(fù)類樣本中隨機(jī)移除樣例,然后應(yīng)用AdaBoost進(jìn)行多次迭代。

        4)文獻(xiàn)[4]提出的集成方法K-means+Bagging,首先在負(fù)類樣本上應(yīng)用K-means聚類,提取與正類樣本數(shù)量一致的聚類質(zhì)心,組成平衡訓(xùn)練集,參與Bagging集成。

        上述3種集成方法以及本文算法均使用C4.5決策樹算法作為基分類器算法。

        為客觀對比上述不平衡數(shù)據(jù)分類方法,實(shí)驗(yàn)數(shù)據(jù)采用10折交叉驗(yàn)證方式,重復(fù)10次,以平均值作為最終的分類結(jié)果。

        表2和表3分別列出5種方法在6個UCI數(shù)據(jù)集上的正類Fmeasure值和數(shù)據(jù)集整體的Gmean值,最后一行列出每種方法在所有數(shù)據(jù)集上的平均結(jié)果。

        表2 5種方法的Fmeasure值比較

        表3 5種方法的Gmean值比較

        從表2的Fmeasure值可以看出,本文方法除了在sick數(shù)據(jù)集稍微低于SMOTEBoost算法之外,在其他5個數(shù)據(jù)集上均有最佳表現(xiàn),比較各種算法在6組UCI數(shù)據(jù)上的平均值,本文方法比隨機(jī)森林RF算法有14.2%的提升,與基于聚類欠采樣的集成算法相比有27.3%的提升,說明本文所提方法在少數(shù)類分類性能方面有巨大的提升。

        比較各個算法的整體分類性能Gmean,從表3可以看出,本文方法也僅在sick數(shù)據(jù)集上稍遜于最優(yōu)算法SMOTEBoost,二者精度相差不超過1‰;在6個數(shù)據(jù)集上的平均分類性能上,本文方法獲得最優(yōu)精度。

        結(jié)合表1~3可以看出,隨著數(shù)據(jù)不平衡度的提高,無論是隨機(jī)欠采樣還是基于聚類的欠采樣,由于都會對原始數(shù)據(jù)集造成樣本丟失,分類性能都有所下降,特別是在letter和page-blocks數(shù)據(jù)集上,差距比較明顯。與之對比,本文方法在數(shù)據(jù)采樣過程中也需要對某類樣本進(jìn)行欠采樣,通過多次動態(tài)、隨機(jī)性采樣調(diào)和,使得抽樣數(shù)據(jù)能夠較好地保持對原始數(shù)據(jù)的分布;與此同時,對另外一類樣本進(jìn)行SMOTE過采樣,在沒有增加數(shù)據(jù)規(guī)模條件下,保持對各類樣本的中立性,或者對正類過采樣,或者對負(fù)類過采樣。從最終分類結(jié)果來看,本文方法在不降低數(shù)據(jù)集整體Gmean值的基礎(chǔ)上,提高了正類的Fmeasure值,對正類和負(fù)類都具有較高的識別率。

        本文算法中經(jīng)過動態(tài)平衡采樣后參與基分類器訓(xùn)練的數(shù)據(jù)集樣本規(guī)模與初始數(shù)據(jù)集一致,即集合數(shù)據(jù)大小比例為100%,為考察參與訓(xùn)練的不同數(shù)據(jù)規(guī)模比例對算法分類性能的影響,選取本文算法、隨機(jī)森林和SMOTEBoost 3種算法,同時選擇以letter數(shù)據(jù)集為例,在20%~100%范圍內(nèi)每次增加20%比例的數(shù)據(jù),參與集成學(xué)習(xí),迭代10次,相關(guān)算法的Fmeasure、Gmean均值如圖1所示。

        圖1 不同數(shù)據(jù)規(guī)模對分類性能影響Fig.1 Performance measures of different ensemble size

        從圖1可看出,隨著參與訓(xùn)練數(shù)據(jù)集比例的增大,無論是正類分類性能還是整體分類精度,都有所上升,但是隨著數(shù)據(jù)比例的增大,相應(yīng)的分類性能提升幅度有限。另外,在數(shù)據(jù)比例為20%、40%時,3種算法相對應(yīng)的Fmeasure和Gmean值幾乎是線性提升,這說明過低比例的抽樣數(shù)據(jù)由于損失太大的原始數(shù)據(jù)分布信息,會嚴(yán)重影響算法的分類性能。

        4結(jié)束語

        針對類別不平衡數(shù)據(jù)分類問題,本文提出了一種混合數(shù)據(jù)采樣與Boosting技術(shù)相結(jié)合的集成分類方法。該方法統(tǒng)籌運(yùn)用欠采樣和過采樣,在保持訓(xùn)練集數(shù)據(jù)規(guī)模一致條件下,靈活調(diào)整各類別樣本數(shù)量比例,較好地保持原始數(shù)據(jù)分布,然后采用Boosting技術(shù)進(jìn)行多次迭代學(xué)習(xí),獲得更強(qiáng)性能分類器。實(shí)驗(yàn)結(jié)果表明,該方法能夠有效提高正類樣本的分類性能。

        由于數(shù)據(jù)集本身的多樣性和復(fù)雜性,諸如類重疊分布、噪聲樣本等均會影響不平衡數(shù)據(jù)性能,如果進(jìn)行有針對性的數(shù)據(jù)預(yù)處理工作,將會使得動態(tài)平衡采樣的數(shù)據(jù)分布更加合理,對正類的分類性能將會進(jìn)一步提高。此外,將本文方法應(yīng)用于多類別不平衡數(shù)據(jù)分類,也是今后需要進(jìn)一步研究的方向。

        參考文獻(xiàn):

        [1]CATENI S, COLLA V, VANNUCCI M. A method for resampling imbalanced datasets in binary classification tasks for real-world problems[J]. Neurocomputing, 2014, 135: 32-41.

        [2]ZHANG Huaxiang, LI Mingfang. RWO-Sampling: a random walk over-sampling approach to imbalanced data classification[J]. Information fusion, 2014, 20: 99-116.

        [3]CHAWLA N V, BOWYER K W, HALL L O, et al. SMOTE: synthetic minority over-sampling technique[J]. Journal of artificial intelligence research, 2002, 16(1): 321-357.

        [4]郭麗娟, 倪子偉, 江弋, 等. 集成降采樣不平衡數(shù)據(jù)分類方法研究[J]. 計(jì)算機(jī)科學(xué)與探索, 2013, 7(7): 630-638.

        GUO Lijuan, NI Ziwei, JIANG Yi, et al. Research on imbalanced data classification based on ensemble and under-sampling[J]. Journal of frontiers of computer and technology, 2013, 7(7): 630-638.

        [5]李雄飛, 李軍, 董元方, 等. 一種新的不平衡數(shù)據(jù)學(xué)習(xí)算法PCBoost[J]. 計(jì)算機(jī)學(xué)報(bào), 2012, 35(2): 202-209.

        LI Xiongfei, LI Jun, DONG Yuanfang, et al. A new learning algorithm for imbalanced data-PCBoost[J]. Chinese journal of computers, 2012, 35(2): 202-209.

        [6]CHEN Xiaolin, SONG Enming, MA Guangzhi. An adaptive cost-sensitive classifier[C]//Proceedings of the 2nd International Conference on Computer and Automation Engineering. Singapore: IEEE, 2010, 1: 699-701.

        [7]李倩倩, 劉胥影. 多類類別不平衡學(xué)習(xí)算法: EasyEnsemble. M[J]. 模式識別與人工智能, 2014, 27(2): 187-192.

        LI Qianqian, LIU Xuying. EasyEnsemble. M for multiclass imbalance problem[J]. Pattern recognition and artificial intelligence, 2014, 27(2): 187-192.

        [8]韓敏, 朱新榮. 不平衡數(shù)據(jù)分類的混合算法[J]. 控制理論與應(yīng)用, 2011, 28(10): 1485-1489.

        HAN Min, ZHU Xinrong. Hybrid algorithm for classification of unbalanced datasets[J]. Control theory & applications, 2012, 28(10): 1485-1489.

        [9]WANG Shijin, XI Lifeng. Condition monitoring system design with one-class and imbalanced-data classifier[C]//Proceedings of the 16th International Conference on Industrial Engineering and Engineering Management. Beijing, China: IEEE, 2009: 779-783.

        [10]葉志飛, 文益民, 呂寶糧. 不平衡分類問題研究綜述[J]. 智能系統(tǒng)學(xué)報(bào), 2009, 4(2): 148-156.

        YE Zhifei, WEN Yimin, LV Baoliang. A survey of imbalanced pattern classification problems[J]. CAAI transactions on intelligent systems, 2009, 4(2): 148-156.

        [11]翟云, 楊炳儒, 曲武. 不平衡類數(shù)據(jù)挖掘研究綜述[J]. 計(jì)算機(jī)科學(xué), 2010, 37(10): 27-32.

        ZHAI Yun, YANG Bingyu, QU Wu. Survey of mining imbalanced datasets[J]. Computer science, 2010, 37(10): 27-32.

        [12]HAN Hui, WANG Wenyuan, MAO Binghuan. Borderline-SMOTE: a new over-sampling method in imbalanced data sets learning[C]//International Conference on Intelligent Computing. Berlin Heidelberg, Germany: Springer, 2005: 878-887.

        [13]HE Haibo, BAI Yang, GARCIA E A, et al. ADASYN: adaptive synthetic sampling approach for imbalanced learning[C]//Proceedings of IEEE International Joint Conference on Neural Networks. Hong Kong, China: IEEE, 2008: 1322-1328.

        [14]BATISTA G, PRATI R C, MONARD M C. A study of the behavior of several methods for balancing machine learning training data[J]. ACM SIGKDD explorations newsletter, 2004, 6(1): 20-29.

        [15]KUBAT M, MATWIN S. Addressing the curse of imbalanced training sets: one-sided selection[C]//Proceedings of the 14th International Conference on Machine Learning. San Francisco, USA: Morgan Kaufmann, 1997: 179-186.

        [16]蔣盛益, 苗邦, 余雯. 基于一趟聚類的不平衡數(shù)據(jù)下抽樣算法[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2012, 33(2): 232-236.

        JIANG Shengyi, MIAO Bang, YU Wen. Under-sampling method based on one-pass clustering for imbalanced data distribution[J]. Journal of Chinese computer systems, 2012, 32(2): 232-236.

        [17]胡小生, 鐘勇. 基于加權(quán)聚類質(zhì)心的SVM不平衡分類方法[J]. 智能系統(tǒng)學(xué)報(bào), 2013, 8(3): 261-265.

        HU Xiaosheng, ZHONG Yong. Support vector machine imbalanced data classification based on weighted clustering centroid[J]. CAAI transactions on intelligent systems, 2013, 8(3): 261-265.

        [18]胡小生, 張潤晶, 鐘勇. 兩層聚類的類別不平衡數(shù)據(jù)挖掘算法[J]. 計(jì)算機(jī)科學(xué), 2013, 40(11): 271-275.

        HU Xiaosheng, ZHANG Runjing, ZHONG Yong. Two-tier clustering for mining imbalanced datasets[J]. Computer science, 2013, 40(11): 271-275.

        [19]陳思, 郭躬德, 陳黎飛. 基于聚類融合的不平衡數(shù)據(jù)分類方法[J]. 模式識別與人工智能, 2010, 23(6): 772-780.

        CHEN Si, GUO Gongde, CHEN Lifei. Clustering ensembles based classification method for imbalanced data sets[J]. Pattern recognition and artificial intelligence, 2010, 23(6): 772-780.

        [20]UCI machine learning repository[EB/OL]. (2009-10-16)[2015-3-20]. http://archive.ics.uci.edu/ml.

        [21]李建更, 高志坤. 隨機(jī)森林針對小樣本數(shù)據(jù)類權(quán)重設(shè)置[J]. 計(jì)算機(jī)工程與應(yīng)用, 2009, 45(26): 131-134.

        LI Jiangeng, GAO Zhikun. Setting of class weights in random forest for small-sample data[J]. Computer engineering and applications, 2009, 45(26): 131-134.

        [22]CHAWLA N V, LAZAREVIC A, HALL L O, et al. SMOTBoost: improving prediction of the minority class in boosting[C]//Proceedings of the 7th European Conference on Principles and Practice of Knowledge Discovery in Databases. Berlin Heidelberg: Springer, 2003, 2838: 107-119.

        [23]SEIFFERT C, KHOSHGOFTAAR T M, VAN HULSE J, et al. RUSBoost: a hybrid approach to alleviating class imbalance[J]. IEEE transactions on system, man and cybernetics-part a: systems and humans, 2010, 40(1): 185-197.

        胡小生,男,1978年生,講師/高級工程師,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、人工智能。主持廣東省教育廳育苗工程項(xiàng)目1項(xiàng),參與省級、市廳級科研項(xiàng)目6項(xiàng),發(fā)表學(xué)術(shù)論文12篇,其中被EI、ISTP檢索4篇。

        溫菊屏, 女,1979年生,講師,主要研究方向?yàn)樘摂M現(xiàn)實(shí)、數(shù)據(jù)挖掘。主持廣東省教育廳科研項(xiàng)目1項(xiàng),參與省級、廳級科研和教改項(xiàng)目4項(xiàng),發(fā)表學(xué)術(shù)論文9篇。

        鐘勇, 男,1970年生,教授,博士,主要研究方向?yàn)樵L問控制、隱私保護(hù)、信息檢索、云計(jì)算。主持和參與國家自然科學(xué)基金、國家星火科技計(jì)劃、省自然科學(xué)基金等國家級、省級科研項(xiàng)目10余項(xiàng),發(fā)表學(xué)術(shù)論文30多篇,其中被SCI、EI檢索10篇。

        Imbalanced data ensemble classification using dynamic balance sampling

        HU Xiaosheng, WEN Juping, ZHONG Yong

        (College of Electronic and Information Engineering, Foshan University, Foshan 528000, China)

        Abstract:Traditional classification algorithms assume balanced class distribution or equal misclassification costs, which result in poor predictive accuracy of minority classes when handling imbalanced data. A novel imbalanced data classification method that combines dynamic balance sampling with ensemble boosting classifiers is proposed. At the beginning of each iteration, each member of the dynamic balance ensemble is trained with under-sampled data from the original training set and is augmented by artificial instances obtained using SMOTE . The distribution proportion of each class sample is randomly chosen to reflect the diversity of the training data and to provide a better training platform for the ensemble sub-classifier. Once the sub-classifiers are trained, a strong classifier is obtained using a weighting vote. Experimental results show that the proposed method provides better classification performance than other approaches.

        Keywords:data mining; imbalanced data; re-sampling; ensemble; random forest

        作者簡介:

        中圖分類號:TP181

        文獻(xiàn)標(biāo)志碼:A

        文章編號:1673-4785(2016)02-0257-07

        通信作者:胡小生. E-mail:feihu@fosu.edu.cn.

        基金項(xiàng)目:國家星火計(jì)劃項(xiàng)目(2014GA780031);廣東省自然科學(xué)基金項(xiàng)目(2015A030313638);廣東高校優(yōu)秀青年創(chuàng)新人才培養(yǎng)計(jì)劃資助項(xiàng)目(2013LYM_0097,2014KQNCX184,2015KQNCX180) ;佛山科學(xué)技術(shù)學(xué)院校級科研項(xiàng)目.

        收稿日期:2015-07-09. 網(wǎng)絡(luò)出版日期:2016-03-14.

        DOI:10.11992/tis.201507015

        網(wǎng)絡(luò)出版地址:http://www.cnki.net/kcms/detail/23.1538.TP.20160314.1431.002.html

        猜你喜歡
        集成學(xué)習(xí)隨機(jī)森林分類
        分類算一算
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        基于稀疏編碼器與集成學(xué)習(xí)的文本分類
        基于屬性權(quán)重的Bagging回歸算法研究
        隨機(jī)森林在棉蚜蟲害等級預(yù)測中的應(yīng)用
        基于二次隨機(jī)森林的不平衡數(shù)據(jù)分類算法
        軟件(2016年7期)2017-02-07 15:54:01
        拱壩變形監(jiān)測預(yù)報(bào)的隨機(jī)森林模型及應(yīng)用
        基于隨機(jī)森林算法的飛機(jī)發(fā)動機(jī)故障診斷方法的研究
        精品日韩在线观看视频| 国产丝袜视频一区二区三区| 欧美多毛肥胖老妇做爰| 久久精品熟女不卡av高清| 91麻豆精品激情在线观最新| 久久女人精品天堂av影院麻| 成人乱码一区二区三区av| 处破痛哭a√18成年片免费| 久久久久国产亚洲AV麻豆| 国产av熟女一区二区三区老牛| 成年人干逼视频水好多| 亚洲日韩国产欧美一区二区三区 | 免费夜色污私人影院在线观看| 国产av专区一区二区三区| 女同重口味一区二区在线| 国产午夜激无码av毛片不卡| 4hu四虎永久在线观看| 久久精品国产99国产精2020丨| 人妻精品一区二区三区视频| 国产一区二区三区护士| 免费无遮挡无码永久在线观看视频| 亚洲精品久久久久久久久av无码| 国产内射XXXXX在线| 亚洲av午夜福利一区二区国产| 日韩人妻另类中文字幕| 亚洲av无码一区二区三区人妖| 久久久久欧洲AV成人无码国产| av免费在线手机观看| 久久久精品国产亚洲av网深田| 国产午夜福利100集发布| 久久久久中文字幕精品无码免费| 一本之道加勒比在线观看| 香蕉成人伊视频在线观看| 熟妇的荡欲色综合亚洲| 国产精品白浆无码流出| 日韩一区二区中文天堂| av无码一区二区三区| 亚洲尺码电影av久久| 中文字幕乱码中文乱码毛片 | 国产丝袜长腿美臀在线观看| 天堂中文最新版在线中文|