亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        不平衡數(shù)據(jù)集的混合采樣方法

        2017-04-15 21:19:58尚旭

        尚旭

        摘要:不平衡數(shù)據(jù)集中,由于某類別數(shù)量的不平衡,使得類別數(shù)量少的容易被誤分,導(dǎo)致其分類準(zhǔn)確率不高。處理不平衡數(shù)據(jù)集的方法,可以分為算法方面和數(shù)據(jù)方面,在數(shù)據(jù)方面中,主要分為兩種方法:過采樣和欠采樣,但是對(duì)于將這兩種方法結(jié)合的研究不是很多,過采樣和欠采樣都具有一定的優(yōu)勢(shì),因此設(shè)想將這兩種方法結(jié)合起來,希望可以找到更好的方法。提出兩種混合采樣方法:Random-SMOTE+ENN和Random-SMOTE+TNS,并與幾種典型的抽樣方法在數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)對(duì)比,實(shí)驗(yàn)結(jié)果表明提出的兩種方法是可行有效的。

        關(guān)鍵詞:不平衡數(shù)據(jù)集 過采樣 欠采樣

        中圖分類號(hào):TP181 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2016)12-0068-04

        引言

        不平衡數(shù)據(jù)集[1-2]是指在一個(gè)數(shù)據(jù)集中,有些類別的樣本數(shù)量很多,有些類別的樣本數(shù)量很少,這就形成了數(shù)據(jù)集各類別樣本的不均衡,一般稱樣本數(shù)量少的一類為少數(shù)類,有時(shí)也可稱為正類,樣本數(shù)量多的一類為多數(shù)類,有時(shí)也稱為負(fù)類[3]。在許多不平衡數(shù)據(jù)集的實(shí)際分類中,樣本數(shù)量少的一類往往對(duì)分類來說更重要。在現(xiàn)實(shí)生活中,存在著許多數(shù)據(jù)不平衡的例子,如醫(yī)療診斷[4],垃圾信息的識(shí)別,客戶信譽(yù)識(shí)別[5]。例如在醫(yī)療診斷中,一個(gè)沒有病的人被醫(yī)生診斷為有病,這會(huì)使人承受精神的壓力,然而假如醫(yī)生把一個(gè)有病的患者診斷為沒有病可能就會(huì)耽誤治療,有可能會(huì)危及病人的生命。正如這些實(shí)例,少類數(shù)據(jù)所擁有的信息往往是所需要的,因此怎樣能在分類過程中正確識(shí)別這些數(shù)據(jù)是應(yīng)該關(guān)注和解決的問題。

        目前,已經(jīng)有很多這方面的處理方法[6]可以從兩方面考慮:算法方面和數(shù)據(jù)處理方面。算法方面就是不斷完善已有的算法和提出新的分類算法[7],如代價(jià)敏感學(xué)習(xí)、Bagging算法[8]等。數(shù)據(jù)方面的方法有兩種[9]:過采樣方法和欠采樣方法[10-11]。常用的采樣方法是隨機(jī)過采樣、隨機(jī)欠采樣、Tomeklinks[12]、壓縮最近鄰(CNN)[13]、鄰域清理(NCL)[14]、(Synthetic Minority Over-Sampling Techique)SMOTE[15]、Borderline-Smote(BSM)[16]、one-sided selection(OSS)[17]等,還有一些組合算法,如Gustavo[18]等人提出的SMOTE+ENN和SMOTE+Tomeklink。

        文中主要研究了過采樣和欠采樣相結(jié)合的方法,分別將過采樣方法Random-SMOTE和欠采樣ENN方法、(Total under sampling)TNS方法結(jié)合,即Random-SMOTE+ENN方法和Random-SMOTE+TNS方法。將過采樣和欠采樣這兩種方法相結(jié)合是因?yàn)樵跇颖緮?shù)較少的數(shù)據(jù)集,這兩種方法都有不足,過采樣或欠采樣的效果不好,過采樣會(huì)使樣本數(shù)據(jù)集的少數(shù)類過擬合,而欠采樣方法會(huì)丟許多樣本的信息,組合方法能夠有效的解決這兩種問題,其次,已經(jīng)有人研究過將這兩種采樣方法結(jié)合,實(shí)驗(yàn)結(jié)果表現(xiàn)出良好的效果,最后,這幾種方法在單獨(dú)執(zhí)行時(shí)就表現(xiàn)出了較好的效果,所以將這兩種采樣方法組合起來,希望會(huì)使不平衡數(shù)據(jù)集的分類效果好。

        在預(yù)處理階段采用了6種采樣方法,其中包括文章提出的兩種對(duì)不平衡數(shù)據(jù)預(yù)處理的方法,在選取的9種不同程度數(shù)據(jù)集上進(jìn)行預(yù)處理及分類實(shí)驗(yàn),最后給出6種采樣方法預(yù)處理后的分類結(jié)果以及實(shí)驗(yàn)結(jié)論。

        1 相關(guān)介紹

        目前,在已有的處理不平衡數(shù)據(jù)分類問題的數(shù)據(jù)處理方法有兩方面,一方面是過采樣方法,另一方面欠采樣方法。隨機(jī)過采樣是對(duì)少數(shù)類樣本進(jìn)行復(fù)制,這會(huì)引起樣本數(shù)據(jù)的重疊和過擬合現(xiàn)象,而隨機(jī)欠采樣方法,是隨機(jī)的刪除一些多數(shù)類的數(shù)據(jù),使各類別的樣本數(shù)量平衡,然而這會(huì)使一些重要樣本數(shù)據(jù)信息丟失,會(huì)影響分類時(shí)的判斷。2002年Chawla N V等人提出了一種啟發(fā)式方法:(Synthetic Minority Over-Sampling Techique)SMOTE,這種方法與隨機(jī)過采樣方法不同,人為的在同類近鄰樣本間線性插值來生成新的樣本,有效的解決了數(shù)據(jù)重疊現(xiàn)象。針對(duì)SMOTE方法的提出,研究者們對(duì)SMOTE進(jìn)行了許多的改進(jìn)工作,取得了非常好的效果。

        下面介紹幾種采樣方法:

        1.1 SMOTE

        SMOTE方法的基本思路是在近鄰少數(shù)類樣本之間進(jìn)行線性插值,合成新的少數(shù)類樣本。具體方案是:對(duì)數(shù)據(jù)集中少數(shù)類的每一個(gè)樣本尋找其(通常取5)個(gè)同類最近鄰樣本,根據(jù)采樣倍率,在其個(gè)同類最近鄰樣本中隨機(jī)選擇個(gè)同類樣本,記作,在少數(shù)類樣本,之間連線上進(jìn)行隨機(jī)線性插值,生成少數(shù)類樣本。

        其中 是(0,1)內(nèi)一個(gè)隨機(jī)數(shù),表示為新的生成的樣本。

        1.2 (edited nearest neighbor)ENN

        ENN[19]的基本意思是若樣本的3個(gè)最近鄰樣本中2個(gè)或以上的樣本類別和它不一樣,則刪除此樣本。ENN方法是一種欠采樣算法,首先搜索多數(shù)類樣本的3個(gè)最近鄰樣本,若該樣本的3個(gè)最近鄰樣本中有兩個(gè)或以上和該樣本類別不一樣則刪除這個(gè)樣本,此算法意在刪除多數(shù)類樣本,然而多數(shù)類樣本附近往往都是多數(shù)類樣本,因此ENN去掉的樣本非常有限的。

        1.3 (Neighborhood Cleaning Rule)NCL

        NCL方法是在ENN方法的基礎(chǔ)上提出的,以能夠刪除更多的多數(shù)類樣本。其基本方案如下:對(duì)訓(xùn)練集中的每個(gè)樣本找出它的最近鄰的3個(gè)樣本,若該樣本是多數(shù)類,且3個(gè)最近鄰樣本中有2個(gè)或以上與其類別不一樣,則刪除;若屬于少數(shù)類,且3個(gè)最近鄰樣本中有2個(gè)或以上與其類別不同,則刪除3個(gè)最近鄰樣本中的多數(shù)類樣本。

        1.4 Random-SMOTE

        Random-SMOTE[20]采樣方法的基本思想是:對(duì)于每個(gè)少數(shù)類樣本,找其個(gè)同類最近鄰樣本,從最近鄰少數(shù)類樣本集中隨機(jī)選出兩個(gè)樣本、;以、、三點(diǎn)圍成一個(gè)三角形區(qū)域;若向上采樣倍率在該三角形區(qū)域內(nèi)隨機(jī)生成個(gè)新的少數(shù)類樣本。

        生成新的少數(shù)類樣本具體步驟如下:

        a)在兩個(gè)最近鄰樣本、之間生成個(gè)臨時(shí)樣本

        b)然后在臨時(shí)樣本之間進(jìn)行隨機(jī)線性插值,生成新的少數(shù)類樣本

        其中:其中表示為(0,1)內(nèi)一個(gè)隨機(jī)數(shù)。

        以上是基于數(shù)據(jù)采樣的幾種處理不平衡數(shù)據(jù)的基本方法,近幾年研究者們?cè)谶@些方法的基礎(chǔ)上提出了新的處理方法。如Gustaro等人將提出了兩種組合方法:SMOTE+Tomeklink和SMOTE+ENN方法,取得了不錯(cuò)的效果,但對(duì)于其他的算法組合研究的很少,所以文章就Random-SMOTE與ENN和TNS組合并驗(yàn)證此方法的可行性,通過研究工作發(fā)現(xiàn)將過采樣和欠采樣結(jié)合是可行的有意義的。

        文中提出的兩種組合方法Random-SMOTE+ENN:首先利用Random-SMOTE對(duì)少數(shù)類樣本進(jìn)行過采樣,然后利用ENN方法對(duì)多數(shù)類數(shù)據(jù)進(jìn)行欠采樣處理,Random-SMOTE+TNS:首先利用Random-SMOTE對(duì)少數(shù)類數(shù)據(jù)進(jìn)行過采樣,然后對(duì)少數(shù)類樣本和多數(shù)類樣本均實(shí)行欠采樣處理,方法:對(duì)數(shù)據(jù)集中的每個(gè)樣本,尋找其最近鄰的3個(gè)樣本,比較若3個(gè)最近鄰樣本中有兩個(gè)或以上的樣本和該樣本的類別不同,則刪除該樣本,稱之為Total under sampling(TNS)。并且通過實(shí)驗(yàn)和其他幾種方法對(duì)比驗(yàn)證文中提出的方法是有效的。

        2 評(píng)價(jià)標(biāo)準(zhǔn)度量

        評(píng)價(jià)標(biāo)準(zhǔn)對(duì)分類器的性能好壞和指導(dǎo)分類器做出判斷有著重要的作用。對(duì)于不平衡數(shù)據(jù)分類來說,常用評(píng)價(jià)標(biāo)準(zhǔn)包括ROC曲線、基于混淆矩陣的若干度量,如查全率、查準(zhǔn)率、和等。

        在兩分類的情形下。將少數(shù)類稱為正類。多數(shù)類稱為負(fù)類。經(jīng)過分類以后,數(shù)據(jù)的分類為混淆矩陣中表示的4種情況[21](見表1)。

        利用混淆矩陣,可以派生出以下度量:

        在信息檢索領(lǐng)域,將真實(shí)正類率定義為查全率,表示在檢索到的相關(guān)對(duì)象所占的比例:

        將正類預(yù)測(cè)值定義為查準(zhǔn)率,表示相關(guān)對(duì)象占檢索出的所有對(duì)象的比例:

        另一種評(píng)價(jià)標(biāo)準(zhǔn)是查全率和查準(zhǔn)率的調(diào)和均值:

        上式中,表示和之間的相對(duì)重要程度,大于1時(shí)表示更重要,小于1時(shí)表示更重要。通常為1,表示兩者都重要。

        是一個(gè)衡量整體分類性能的評(píng)價(jià)指標(biāo),為少數(shù)類的分類精度, 是多數(shù)類的分類精度,只有當(dāng)二者的值都大時(shí),的值才會(huì)大,因此,能衡量不平衡數(shù)據(jù)集的整體分類性能。

        3 仿真實(shí)驗(yàn)

        3.1 數(shù)據(jù)集

        實(shí)驗(yàn)驗(yàn)證的數(shù)據(jù)集來自UCI數(shù)據(jù)庫(kù)中的9個(gè)數(shù)據(jù)集,每個(gè)數(shù)據(jù)集的基本信息如表2所示。

        3.2 實(shí)驗(yàn)結(jié)果分析

        不平衡數(shù)據(jù)的分類學(xué)習(xí)中,標(biāo)準(zhǔn)的分類精度準(zhǔn)則不適合評(píng)估不平衡數(shù)據(jù)集的分類效果,本實(shí)驗(yàn)選取F-value準(zhǔn)則,G-mean準(zhǔn)則和少數(shù)類的分類準(zhǔn)確率acc+來對(duì)實(shí)驗(yàn)結(jié)果綜合分析。

        在實(shí)驗(yàn)中,選擇了近鄰算法作為分類算法,然后對(duì)選取6種不同的采樣方法進(jìn)行實(shí)驗(yàn)對(duì)比,分別是:隨機(jī)過采樣、SMOTE、Random-SMOTE、SMOTE+ENN、Random-SMOTE+ENN、Random-SMOTE+TNS,上述不平衡分類方法所使用近鄰算法的近鄰選取5,在各個(gè)數(shù)據(jù)集上所有采樣方法所設(shè)置的采樣率相同,為實(shí)驗(yàn)客觀公正,實(shí)驗(yàn)通過五折交叉驗(yàn)證得到實(shí)驗(yàn)結(jié)果。

        表3、表4列出個(gè)不平衡分類方法在9個(gè)UCI數(shù)據(jù)集上的G-mean和F-value值。

        從表3、表4給出的F-value值和G-mean值可以看出,對(duì)于組合方法的分類效果在大多數(shù)數(shù)據(jù)集上優(yōu)于過采樣方法的分類效果,尤其在于不平衡度較小的數(shù)據(jù)集上組合方法的效果更明顯,組合方法先通過過采樣對(duì)于少類數(shù)據(jù)處理,然后對(duì)于多類數(shù)據(jù)進(jìn)行欠采樣處理,不僅增加了少類數(shù)據(jù)數(shù)目,而且盡可能的刪除處于邊界的多類數(shù)據(jù),大大提高了少類分類正確率,分類效果明顯更好。文中提出的兩種分類方法也具有很好的分類效果,其中Random-smote+TNS的分類效果在9個(gè)數(shù)據(jù)集上的表現(xiàn)均好于其他幾種分類方法的表現(xiàn)。另一種組合方法Random-SMOTE+ENN的分類效果低于SMOTE+ENN的分類效果,但和其他三種方法分類效果對(duì)比具有一定的優(yōu)勢(shì),只在數(shù)據(jù)集glass-I比SMOTE和Random-SMOTE低,在數(shù)據(jù)集Balance-II上比隨機(jī)過采樣低。文中提出的分類方法分類效果良好。

        不平衡數(shù)據(jù)集中,少數(shù)類往往是我們感興趣的類別,因此對(duì)于少數(shù)類的分類準(zhǔn)確率acc+是衡量不平衡分類性能的重要指標(biāo),圖1給出了各采樣方法的acc+圖,由圖可知,除了數(shù)據(jù)集Feritilty和Balance-II上,Random-smote+TNS的acc+值低于隨機(jī)過采樣,在其他數(shù)據(jù)集上Random-smote+TNS的acc+值均大于其他采樣方法,特別在Pima數(shù)據(jù)集和blood數(shù)據(jù)上,acc+值明顯高于其他采樣方法。另一種組合方法Random-smote+ENN的acc+和Somte+ENN表現(xiàn)持平,但好于過采樣方法Random-smote,可見組合方法的分類率好于單純的過采樣方法。從整個(gè)實(shí)驗(yàn)數(shù)據(jù)的分析得出文中的兩種組合方法是可行有效的。

        4 結(jié)語

        文章通過在多個(gè)數(shù)據(jù)上使用多種數(shù)據(jù)采樣方法,進(jìn)行仿真實(shí)驗(yàn)對(duì)比得到兩種較好混合采樣方法和有效的結(jié)果,通過實(shí)驗(yàn)數(shù)據(jù)分析得出這兩種混合采樣方法在試驗(yàn)中大多數(shù)據(jù)集上具有良好的分類效果,然而也可以看出所提出的方法并不是在所有的數(shù)據(jù)集上具有好的效果。其次,沒有研究其他采樣方法組合的合理性,希望在下一步研究中能將過采樣和欠采樣方法進(jìn)行不同的組合嘗試,希望能夠找到更好的處理方法在保證整體正確率的前提下提高少數(shù)類的分類正確率。

        參考文獻(xiàn)

        [1]Han Jiawei, KAMBER M.數(shù)據(jù)挖掘概念與技術(shù)[M].范明,孟小峰,譯.北京:機(jī)械工業(yè)出版,2001.

        [2]楊明,尹軍梅,吉銀林.不平衡數(shù)據(jù)分類方法綜述[J].南京師范大學(xué)學(xué)報(bào):工程技術(shù)版,2008,8(4):7-12.

        [3]Paolo S. A multi-objective optimization approach for class imbalance learning [J]. Pattern Recognition, 2011, 44(8):1801-1810.

        [4]Li DC,Liu CW,Susan CH.A learning method for the class imbalance problem with medical data sets [J]. Computers in biology and medicine, 2010, 40(5):509-518.

        [5]徐麗麗,閆德勤,高晴.基于聚類欠采樣的極端學(xué)習(xí)機(jī)[J].微型機(jī)與應(yīng)用,2015(17):81-84.

        [6]王和勇,范泓坤,姚正安,等.不平衡數(shù)據(jù)集分類方法研究[J]計(jì)算機(jī)應(yīng)用研究,2008,25(5):1301-1308.

        [7]胡小生,張潤(rùn)晶,鐘勇.一種基于聚類提升的不平衡數(shù)據(jù)分類算法[J].集成技術(shù),2014(2):35-41.

        [8]李明方,張華祥.針對(duì)不平衡數(shù)據(jù)的Bagging改進(jìn)算法[J].計(jì)算機(jī)工程應(yīng)用,2013,49(2):40-42.

        [9]吳磊,房斌,刁麗萍,等.融合過抽樣和欠抽樣的不平衡數(shù)據(jù)重抽樣方法[J].計(jì)算機(jī)工程與應(yīng)用,2013,49(21):172-176.

        [10]丁福利,孫立民.處理不平衡樣本集的欠采樣算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2013,34(12):4345-4350.

        [11]林舒楊,李翠華,江戈,等.不平衡數(shù)據(jù)的降采樣方法研究[J].計(jì)算機(jī)研究與發(fā)展,2011,48(2):47-53.

        [12]TOMEK I. Two modifications of CNN[J].IEEE Trans on Systems, Man and Communications, 1976, 6:769-772.

        [13]HART P E. The condensed nearest neighbor rule[J]. IEEE Trans on Information Theory, 1968,14(3):515-516.

        [14]LAURIKKALA J. Improving identification of difficult small classes by balancing class distribution[C]. Proc of the 8th Conference on AI in Medicine. Europe, Artificial Intelligence Medicine, 2001:63-66.

        [15]Chawla N V, Bowyer K W, Hall L O, et al. SMOTE: Synthetic Minority Over-sampling Technique[J]. Journal of Artificial Intelligence Research, 2002, 16:321-357.

        [16]Han H, Want W Y, Mao B H. Borderline-SMOTE: a new over-sampling method in imbalanced data sets learning[C]//LNCS 3644:ICIC 2005,Part I,2005:878-887.

        [17]KUBAT M, MATWIN S. Addressing the course of imbalanced training sets: one-sided selection[C]. Proc of the 14th International Conference on Machine learning. San Francisco, Morgan Kaufmann, 1997:179-186.

        [18]Gustavo E A, Batista P A, Ronaldo C,et al A study of the behavior of several methods for balancing machine learning training data[J]. SIGKDD Explorations, 2004,6(1):20-29.

        [19]WISON D L. Asymptotic properties of nearest neighbor rules using edited data [J].IEEE Trans on Systems, Man and Communications, 1972,2(3):408-421.

        [20]Dong Yanjie,WangXuehua. A new over-sampling approach:Random-SMOTE for learning from imbalanced data sets [C]//LNCS 7091: Proceedings of the 5th International Conference on Knowledge Science, Engineering and Management(KSEM11). Berlin,Heidelberg:Springer-Verlag 2011:343-352.

        [21]董元方,李雄飛,李軍.一種不平衡數(shù)據(jù)漸進(jìn)學(xué)習(xí)算法[J].計(jì)算機(jī)工程,2010,36(24):161-163.

        日本视频一区二区三区| 丰满熟女高潮毛茸茸欧洲视频 | 欧美日韩亚洲国产精品| 亚洲中文字幕无码永久在线| 日本香蕉久久一区二区视频| 一本色道久久综合亚洲精品蜜臀| 免费av网址一区二区| 亚洲精品国产熟女久久久| 亚洲精品女同一区二区三区| 国产欧美亚洲精品第一页| 精品国产一区av天美传媒| 午夜成人理论无码电影在线播放| 一本大道久久a久久综合| 蜜桃一区二区三区自拍视频| 亚洲av综合色一区二区| 人妻中文字幕无码系列| 三级在线看中文字幕完整版| 亚洲中文无码成人影院在线播放| 久久久精品国产亚洲麻色欲| av网站免费在线浏览| 国产综合在线观看| 麻豆国产成人精品午夜视频| 欧美日韩a级a| 午夜黄色一区二区不卡| 亚洲一区在线观看中文字幕| 含紧一点h边做边走动免费视频 | 国产欧美成人一区二区a片| 好大好硬好爽免费视频| 国产精品午夜波多野结衣性色| 国产精品老女人亚洲av无| 亚洲国产av一区二区三区精品| 乱色欧美激惰| 国产精品天天狠天天看| 国产成人精品一区二免费网站| 一区二区三区在线日本视频| 国产免费又爽又色又粗视频| 国产精品亚洲一区二区在线观看 | 久久精品夜夜夜夜夜久久 | 国产剧情麻豆女教师在线观看| 精品国产av无码一道| 国产三级国产精品三级在专区|