亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        處理不平衡樣本集的欠采樣算法

        2013-11-30 05:31:16丁福利孫立民
        關(guān)鍵詞:間距準(zhǔn)確率向量

        丁福利,孫立民

        (煙臺(tái)大學(xué) 計(jì)算機(jī)學(xué)院,山東 煙臺(tái)264005)

        0 引 言

        傳統(tǒng)的分類算法是以提高樣本的總體分類準(zhǔn)確率為目標(biāo),且假定樣本集中各類樣本的數(shù)量是平衡的。然而在實(shí)際問(wèn)題中卻存在著大量不平衡樣本集:某一類的樣本數(shù)量遠(yuǎn)少于其他類的樣本數(shù)量。例如,信用卡欺詐行為檢測(cè)、網(wǎng)絡(luò)入侵檢測(cè)[1]、醫(yī)學(xué)疾病診斷[2]等。大多數(shù)分類算法在對(duì)這些樣本集進(jìn)行分類時(shí),往往對(duì)多類樣本的分類準(zhǔn)確率較高,而對(duì)少類樣本的分類準(zhǔn)確率偏低。然而在很多實(shí)際問(wèn)題中,少數(shù)類的分類準(zhǔn)確率往往比多數(shù)類的分類準(zhǔn)確率更為重要。因此,提高少數(shù)類的分類準(zhǔn)確率成為分類問(wèn)題中的一個(gè)研究熱點(diǎn)。

        支持向量機(jī)是以統(tǒng)計(jì)學(xué)習(xí)理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則為基礎(chǔ)的學(xué)習(xí)機(jī)器[3],雖然在分類領(lǐng)域有著廣泛的應(yīng)用,但是支持向量機(jī)在處理不平衡樣本集時(shí),對(duì)少類樣本的分類效果也不理想。為此,研究者們提出了很多處理不平衡樣本分類的算法,其中以欠采樣算法較為常用。目前常用的欠采樣算法有隨機(jī)欠采樣和Tomek Link欠采樣[4],這兩種算法雖然對(duì)少類樣本的分類準(zhǔn)確率有著較大的提高,但由于欠采樣算法較多地刪減多類樣本點(diǎn),反而造成了多類樣本分類準(zhǔn)確率的大幅度下降。對(duì)此,本文提出一種欠采樣算法,首先選取恰當(dāng)?shù)暮撕瘮?shù)[5]找到最佳映射空間,其次再使用欠采樣算法對(duì)多類樣本進(jìn)行刪減。

        本文的第一部分對(duì)支持向量機(jī)作一簡(jiǎn)單的介紹,第二部分對(duì)分類準(zhǔn)確率不平衡問(wèn)題進(jìn)行了原因分析,第三部分介紹欠采樣算法以及實(shí)驗(yàn)驗(yàn)證。文章最后,給出了本文的結(jié)論。在以下分析中,對(duì)不平衡樣本集都是設(shè)定正類樣本的個(gè)數(shù)大于負(fù)類樣本的個(gè)數(shù)。即,正類為多類,負(fù)類為少類,并且正類樣本的個(gè)數(shù)記為N+,負(fù)類樣本的個(gè)數(shù)記為N-。

        1 支持向量機(jī)簡(jiǎn)介

        設(shè)已知訓(xùn)練集T={(x1,y1),(x2,y2),…(xl,yl)∈ (X×Y)l}。其中xi∈X=Rn,yi={1,-1},i=1,2,……,l。支持向量機(jī)首先通過(guò)核函數(shù)將輸入空間中的映射到特征空間[5]中的Φ(xi),并構(gòu)造以下最優(yōu)化問(wèn)題

        其中,w為特征空間中的權(quán)向量,C為懲罰因子,用來(lái)調(diào)節(jié)置信區(qū)間和經(jīng)驗(yàn)風(fēng)險(xiǎn)的權(quán)重[6],為第i個(gè)樣本點(diǎn)所對(duì)應(yīng)的松弛變量,b為函數(shù)的閾值[7]。

        通過(guò)引入朗格朗日乘子,將上述公式轉(zhuǎn)化為原問(wèn)題的對(duì)偶問(wèn)題

        求解這個(gè)對(duì)偶問(wèn)題,得到最終函數(shù)表達(dá)式

        2 不平衡問(wèn)題的原因分析

        不平衡問(wèn)題指的是:在數(shù)量不平衡的樣本集中,各類樣本的分類準(zhǔn)確率往往相差較大。對(duì)于該問(wèn)題,以往的原因分析認(rèn)為,由于支持向量機(jī)以提高總體分類準(zhǔn)確率為目標(biāo),所以當(dāng)兩類樣本數(shù)量相差較大的時(shí)候,為了能夠提高總體分類準(zhǔn)確率,就不得不忽略少類樣本點(diǎn)的分類準(zhǔn)確率。這種分析存在這樣的問(wèn)題:當(dāng)兩類樣本在特征空間上相距較遠(yuǎn)或互不重疊時(shí),即使多類樣本的個(gè)數(shù)再怎么增加,但多類樣本中的支持向量的個(gè)數(shù)并不會(huì)隨之增加,而不會(huì)導(dǎo)致分類準(zhǔn)確率的不平衡問(wèn)題。文獻(xiàn)[8]也指出,如果樣本集在特征空間上可分性較強(qiáng),即使兩類樣本個(gè)數(shù)上不平衡,但它們依然都能取得較好的分類效果。

        如圖1所示,圖中的兩類樣本之間完全線性可分。在這種情況下,無(wú)論兩類樣本的個(gè)數(shù)相差多么懸殊,但兩類的支持向量個(gè)數(shù)卻相差并不懸殊,也就不存在不平衡問(wèn)題。因此,提高樣本間的可分性對(duì)于解決不平衡問(wèn)題有著重要的意義,而樣本間的可分性與核函數(shù)的選取有較大關(guān)系。

        圖1 樣本點(diǎn)分布

        文獻(xiàn)[9,10]中指出,樣本集的可分性與特征空間上兩類樣本間的類中心間距有關(guān)。這種說(shuō)法雖然有一定的道理,卻存在這樣一個(gè)缺陷:雖然兩類樣本相距較遠(yuǎn)時(shí),樣本的可分性會(huì)隨之增強(qiáng)。但樣本相距越遠(yuǎn)并不代表兩類樣本間的類中心間距越大。這是因?yàn)?,核函?shù)的不同導(dǎo)致類中心間距的數(shù)量級(jí)大小也不同,樣本間的類中心間距無(wú)法準(zhǔn)確地衡量樣本間的可分性。例如,對(duì)于多項(xiàng)式核函數(shù)

        當(dāng)g和r取值為1,d取較大值時(shí),在該核函數(shù)的映射下,樣本間的類中心間距必然會(huì)大幅度增大,如表1所示。

        表1 類間距與核函數(shù)

        在表1中,第一列是多項(xiàng)式核函數(shù)中d的取值,第二列和第三列分別是UCI[11]中Iris和Wine這兩個(gè)樣本集的類間距。從上表中可以看出,當(dāng)多項(xiàng)式核函數(shù)中d的取值很大的時(shí)候,在特征空間下的類間距也大幅度變大,但樣本集的可分性并不一定會(huì)隨之增強(qiáng),有時(shí)反而會(huì)變?nèi)?。因此,用類中心間距衡量類間可分性是不恰當(dāng)?shù)摹#ū疚闹杂枚囗?xiàng)式核函數(shù)舉例,是因?yàn)楦咚购撕瘮?shù)的表達(dá)式為K(x,y)=exp(-g×x-y2),由于括號(hào)里的式子-g×x-y2≤0,0<k(x,y)≤1。這個(gè)核函數(shù)無(wú)論g如何取值,其類間距都相差不太明顯。)

        圖2 樣本點(diǎn)分布 (可分性較強(qiáng))

        圖3 樣本點(diǎn)分布 (可分性較差)

        從圖2和圖3中可以看出,盡管圖3中的類間距更大,但其可分性卻較差。這是因?yàn)椋m然圖3和圖2相比,類間距增大了,但兩類的類半徑卻更大,導(dǎo)致兩個(gè)類之間發(fā)生了重疊,因此才出現(xiàn)了可分性較差的現(xiàn)象。在上述兩個(gè)圖中,圖2中兩類樣本點(diǎn)相距較遠(yuǎn),其類間距相對(duì)于類半徑較大。此時(shí),類間可分性較強(qiáng)。圖3中,兩類樣本點(diǎn)相距較近,其類間距相對(duì)于類半徑較小。此時(shí),類間可分性較差。在圖3所示的情況下,多類樣本所在區(qū)域覆蓋了少類樣本所在的區(qū)域,支持向量機(jī)為追求總體分類準(zhǔn)確率就不得不把相當(dāng)一部分少類樣本劃分為多類樣本,這樣便產(chǎn)生了分類準(zhǔn)確率的不平衡問(wèn)題。

        支持向量機(jī)的分類效果跟核函數(shù)的選取有較大關(guān)系,核函數(shù)選得好,兩類之間類間距相對(duì)于類半徑較大,則樣本集的可分性強(qiáng)。由上述內(nèi)容可知,在對(duì)核函數(shù)進(jìn)行選取時(shí),應(yīng)當(dāng)選取能夠使兩類相距較遠(yuǎn)的核函數(shù)。即兩類的類間距較大,而兩類的類半徑相對(duì)較小。將類間距記為D,正類和負(fù)類樣本的類半徑分別記為:R+和R-。因此,衡量類間可分性用來(lái)表示。將記為μ,當(dāng)μ取較大值時(shí),類間可分性增強(qiáng);當(dāng)取較小值時(shí),類間可分性變?nèi)酢?/p>

        3 欠采樣算法步驟與實(shí)驗(yàn)

        3.1 實(shí)驗(yàn)所用樣本集

        從 UCI[11]上選取Iris,Wine,Breast Cancer,Pima Indians Diabetes,German Credit Data,Contraceptive Method Choice進(jìn)行實(shí)驗(yàn)。將Breast Cancer簡(jiǎn)記為Breast,將Pima Indians Diabetes簡(jiǎn)記為Pima,將German Credit Data簡(jiǎn)記為German,將Contraceptive Method Choice簡(jiǎn)記為CMC。其中,將類別個(gè)數(shù)大于2的樣本集,第一類記為負(fù)類(少類),其余類記為正類 (多類),以此來(lái)構(gòu)造不平衡樣本集。

        3.2 核函數(shù)的選取

        類半徑的計(jì)算過(guò)程為:首先計(jì)算得到特征空間下的類中心點(diǎn),然后計(jì)算類中心點(diǎn)到類中每一個(gè)點(diǎn)的距離的平均值作為類半徑。例如,正類樣本的類半徑計(jì)算公式如下

        同理,可計(jì)算得,并根據(jù)計(jì)算得到的D和R+、R-,求出μ。

        實(shí)驗(yàn)待選的核函數(shù)采用LIBSVM[12]中最常用的3種核函數(shù),分別為線性核函數(shù),多項(xiàng)式核函數(shù),高斯核函數(shù)。常用核函數(shù)見表2。

        表2 常用核函數(shù)

        對(duì)于各類核函數(shù),其參數(shù)的取值為{2-10,2-9,2-8,…,20,…28,29,210},求出能夠使得取最大值的核函數(shù)。結(jié)果如表3所示。

        表3 核函數(shù)的選取

        3.3 欠采樣過(guò)程

        當(dāng)核函數(shù)選定后,對(duì)多類樣本點(diǎn)進(jìn)行欠采樣。由于距少類樣本中心點(diǎn)的多類樣本點(diǎn)為噪聲點(diǎn)的可能性較大,因此對(duì)多類樣本點(diǎn)進(jìn)行欠采樣時(shí),應(yīng)當(dāng)首先考慮刪減這些樣本點(diǎn)。欠采樣具體過(guò)程如下。

        (1)在選定好的特征空間上,計(jì)算出多類樣本中每個(gè)樣本點(diǎn)到少類樣本中心點(diǎn)的距離d。

        (2)對(duì)多類樣本點(diǎn)按照d從小到大的順序進(jìn)行排序。

        (3)設(shè)定參數(shù)ε,從多類樣本中根據(jù)d從小到大的順序依次刪除ε×(N+-N-)個(gè)樣本點(diǎn)。

        其中,參數(shù)的取值范圍為[0,1],取0表示不刪減,取1表示將多類樣本刪減到和少類樣本同樣的個(gè)數(shù)。

        (4)將經(jīng)過(guò)欠采樣后的多類樣本與少類樣本合并,重新訓(xùn)練SVM模型。

        3.4 實(shí)驗(yàn)結(jié)果分析

        根據(jù)上述過(guò)程進(jìn)行實(shí)驗(yàn),對(duì)于每個(gè)樣本集,隨機(jī)抽取80%的樣本作為訓(xùn)練樣本,其余的20%的樣本作為測(cè)試樣本。隨機(jī)抽取10次進(jìn)行實(shí)驗(yàn),并求取平均值。實(shí)驗(yàn)以G-mean[2]為評(píng)價(jià)標(biāo)準(zhǔn)衡量實(shí)驗(yàn)結(jié)果的好壞。如表4所示,表中第一列為樣本集名稱,第二至六列為不同方法下實(shí)驗(yàn)所得到的G-mean。將標(biāo)準(zhǔn)支持向量機(jī)方法記為方法1,將隨機(jī)欠采樣方法記為方法2,將Tomek Link欠采樣方法記為方法3,將LIBSVM[12]自帶的處理不平衡樣本集的方法記為方法4,本文方法記為方法5。

        表4 實(shí)驗(yàn)結(jié)果表 (G-mean)

        對(duì)于表4縱向比較可知,無(wú)論是何種算法,它的實(shí)驗(yàn)結(jié)果與樣本集本身具有一定的關(guān)系。將表4橫向比較可得如下結(jié)論:本文方法的實(shí)驗(yàn)效果優(yōu)于其他方法,說(shuō)明本文方法的科學(xué)有效性。表5為各類方法的總體分類準(zhǔn)確率。根據(jù)這兩個(gè)表可得,本文方法不僅在G-mean上效果優(yōu)于其他方法,在總體分類準(zhǔn)確率上依然很高。由于本文的方法以提高樣本間的可分性為首要目標(biāo),不僅能夠提高少類樣本的分類準(zhǔn)確率,并且將多類樣本的分類準(zhǔn)確率的損失降到最低,取得了較好的實(shí)驗(yàn)結(jié)果。

        表5 實(shí)驗(yàn)結(jié)果表 (總體分類準(zhǔn)確率)

        在本文所描述的算法中,涉及到一個(gè)實(shí)驗(yàn)參數(shù)ε。表6所示不同的樣本集下,參數(shù)ε和值μ的關(guān)系。由該表可以明顯地看出,參數(shù)ε的選取與μ值成負(fù)相關(guān) (經(jīng)表6計(jì)算可得:兩者的相關(guān)系數(shù)[13]為-0.93,接近于-1)。這是因?yàn)楫?dāng)值較大時(shí),兩類樣本相距較遠(yuǎn),樣本間的可分性增強(qiáng),這時(shí)便不需要進(jìn)行大量的欠采樣依然能夠獲得較好的分類效果,參數(shù)ε應(yīng)當(dāng)取較小值。反之亦然。

        表6 μ值和參數(shù)ε

        4 結(jié)束語(yǔ)

        本文針對(duì)支持向量機(jī)在處理不平衡樣本集時(shí)所出現(xiàn)的分類準(zhǔn)確率不平衡問(wèn)題,在對(duì)其做出準(zhǔn)確的原因分析的基礎(chǔ)上,提出了一種核函數(shù)選取與欠采樣相結(jié)合的算法,并通過(guò)UCI標(biāo)準(zhǔn)樣本集進(jìn)行實(shí)驗(yàn),從而驗(yàn)證了本文算法的科學(xué)有效性。在對(duì)表4和表5進(jìn)行縱向比較中發(fā)現(xiàn),對(duì)于某些樣本集 (例如:German和CMC),常用的核函數(shù)很難取得較好的映射效果。因此,在今后對(duì)于不平衡問(wèn)題,首要問(wèn)題應(yīng)該充分考慮更多的核函數(shù),選取最佳映射。只有這樣才能取得更好的實(shí)驗(yàn)結(jié)果,才能從根本上解決樣本的不平衡問(wèn)題。

        [1]GONG Shangfu,ZHAO Chunlan,SHE Xiangyang.Intrusion detection system based on R-SVM[J].Computer Engineering and Design,2012,33 (10):3777-3782(in Chinese).[龔尚福,趙春蘭,厙向陽(yáng).基于R-SVM的網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)[J].計(jì)算機(jī)工程與設(shè)計(jì),2012,33 (10):3777-3782.]

        [2]SUN Xiaoyan.Study of classification algorithm on unbalanced data sets[D].Jinan:Shandong Normal University,2012(in Chinese).[孫曉燕.不平衡數(shù)據(jù)集分類問(wèn)題研究[D].濟(jì)南:山東師范大學(xué),2012.]

        [3]LIU Susu,SUN Limin.Performance comparison of regression prediction on support vector machine and RBF neural network[J].Computer Engineering and Design,2011,32 (12):4202-4205(in Chinese).[劉蘇蘇,孫立民.支持向量機(jī)與RBF神經(jīng)網(wǎng)絡(luò)回歸性能比較研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2011,32 (12):4202-4205.]

        [4]YANG Zhiming,PENG Yu,PENG Xiyuan.Research on classification technique for imbalanced dataset based on support vector machines[J].Chinese Journal of Scientific Instrument,2009,30 (5):1094-1099(in Chinese).[楊智明,彭宇,彭喜元.基于支持向量機(jī)的不平衡數(shù)據(jù)集分類方法研究[J].儀器儀表學(xué)報(bào),2009,30 (5):1094-1099.]

        [5]ZHANG Rui,GAO Hong,ZHANG Liwei.A new set of hemite kernel functions for support vector machine[J].Journal of Shanxi University(Natural Science Edition),2012,35 (1):38-42(in Chinese).[張瑞,高紅,張立偉.一類新的支持向量機(jī)核函數(shù)——埃爾米特核函數(shù)[J].山西大學(xué)學(xué)報(bào) (自然科學(xué)版),2012,35 (1):38-42.]

        [6]XIAO Jian,YU Long,BAI Yifeng.Survey of the selection of kernels and hyper-parameters in support vector regression[J].Journal of Southwest Jiaotong University,2008,43 (3):297-303(in Chinese).[肖建,于龍,白裔峰.支持向量回歸中核函數(shù)和超參數(shù)選擇方法綜述[J].西南交通大學(xué)學(xué)報(bào),2008,43 (3):297-303.]

        [7]SHAN Yugang,WANG Hong,DONG Shuang.Improved multi-classification algorithm of one-against-one SVM[J].Computer Engineering and Design,2012,33 (5):1837-1841(in Chinese).[單玉剛,王宏,董爽.改進(jìn)的一對(duì)一支持向量機(jī)多分類算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2012,33 (5):1837-1841.]

        [8]ZHAO Zixiang,WANG Guangliang,LI Xiaodong.An improved SVM based under-sampling method for classifying imbalanced data[J].Acta Scientiarum Naturalium Universitatis Sunyatseni,2012,51 (6):10-16 (in Chinese).[趙自翔,王廣亮,李曉東.基于支持向量機(jī)的不平衡數(shù)據(jù)分類的改進(jìn)欠采樣方法[J].中山大學(xué)學(xué)報(bào) (自然科學(xué)版),2012,51 (6):10-16.]

        [9]CAI Zheyuan,YU Jianguo,LI Xianpeng,et al.Feature selection algorithm based on kernel distance measure[J].Pattern Recognition and Artificial Intelligence,2010,23 (2):235-240(in Chinese).[蔡哲元,余建國(guó),李先鵬,等.基于核空間距離測(cè)度的特征選擇[J].模式識(shí)別與人工智能,2010,23(2):235-240.]

        [10]LIU Susu,DING Fuli,SUN Limin.A novel kernel matrix method for SVM kernel parameter optimization[J].Journal of Yantai U-niversity(Natural Science and Engineering Edition),2013,26(2):131-135(in Chinese).[劉蘇蘇,丁福利,孫立民.優(yōu)化支持向量機(jī)核參數(shù)的核矩陣方法研究[J].煙臺(tái)大學(xué)學(xué)報(bào) (自然科學(xué)與工程版),2013,26 (2):131-135.]

        [11]UC irvine machine learing repository[OL].http://archive.ics.uci.edu/ml/.2013

        [12]Chang C C,Lin C J.LIBSVM:A library for support vector machines[J].ACM Transactions on Intelligent Systems and Technology,2011,2 (3).

        [13]XU Yongqun,DENG Sanyao,LI Xingwang,et al.Application of comparison method with correlation coefficient array in identification of Chinese herbs[J].Spectroscopy and Spectral Analysis,2007,27 (11):2239-2242(in Chinese).[徐永群,鄧三堯,李興旺,等.陣列相關(guān)系數(shù)比對(duì)法在中藥鑒別中的應(yīng)用研究[J].光譜學(xué)與光譜分析,2007,27 (11):2239-2242.]

        猜你喜歡
        間距準(zhǔn)確率向量
        宋代君臣殿上間距考論
        向量的分解
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        聚焦“向量與三角”創(chuàng)新題
        高速公路指揮中心小間距LED應(yīng)用探討
        高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        算距離
        向量垂直在解析幾何中的應(yīng)用
        天天爱天天做天天爽| 亚洲国产精品无码久久一区二区| 亚洲精品乱码久久久久久不卡| 亚洲av最新在线网址| 中文字幕乱码人妻无码久久麻豆| 国产av一区二区凹凸精品| 日本不卡一区二区三区久久精品 | 男人的av天堂狠狠操| 国产av一区二区毛片| 女人被爽到高潮视频免费国产| 日韩精品中文字幕无码一区| 99久久99久久精品免观看| 中文字幕在线亚洲精品一区| 永久天堂网av手机版| 久久精品视频在线看99| 在线亚洲AV不卡一区二区 | 日韩偷拍一区二区三区视频| 丰满少妇av一区二区三区| 人妻av中文字幕久久| 亚洲日韩精品欧美一区二区| 色婷婷久久免费网站| 激情都市亚洲一区二区| 色先锋av影音先锋在线| 亚洲h视频| 亚洲在线视频一区二区| 日韩女同视频在线网站| 中文字幕人妻熟女人妻洋洋 | 欧美日本道免费二区三区| 中文字幕亚洲中文第一| 粉嫩小泬无遮挡久久久久久| 成年无码aⅴ片在线观看| 亚洲AV无码国产精品色午夜软件| 99青青草视频在线观看| 久久不见久久见免费影院国语| 日产精品久久久久久久| 天堂视频一区二区免费在线观看 | 女人18毛片aa毛片免费| 亚洲精品久久区二区三区蜜桃臀 | 亚洲av无码av在线播放| www.狠狠艹| 亚洲一区二区一区二区免费视频|