亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于SVM的非均衡數(shù)據(jù)集過采樣方法

        2020-12-07 08:20:48張忠林馮宜邦趙中愷
        關(guān)鍵詞:分類器邊界權(quán)重

        張忠林,馮宜邦,趙中愷

        蘭州交通大學(xué) 電子與信息工程學(xué)院,蘭州 730070

        1 引言

        在現(xiàn)實(shí)生活中,許多數(shù)據(jù)集分布不均勻,類與類之間的樣本數(shù)差異很大,即不平衡數(shù)據(jù)集:如信用卡欺詐檢測(cè)[1]、故障診斷[2]、醫(yī)療診斷[3]、垃圾郵件過濾[4]等。而傳統(tǒng)分類算法在最初被設(shè)計(jì)和實(shí)驗(yàn)時(shí)都是基于分布均勻的數(shù)據(jù)集提出的,將不平衡數(shù)據(jù)集不加處理直接送入傳統(tǒng)分類算法訓(xùn)練,分類器為了確??傮w性能,部分少數(shù)類樣本會(huì)被錯(cuò)誤地歸類,致使少數(shù)類的分類準(zhǔn)確率下降。但是,通常更重視少數(shù)類樣本的分類準(zhǔn)確性,因?yàn)樯贁?shù)類樣本攜帶的信息具有更高的價(jià)值,是數(shù)據(jù)挖掘的重要目標(biāo)。因此,很多研究學(xué)者將目光聚焦于不平衡數(shù)據(jù)集的分類研究,并將提升少數(shù)類樣本的分類精度以及總體性能作為目標(biāo)。

        針對(duì)不平衡數(shù)據(jù)在分類過程中呈現(xiàn)的問題,業(yè)界主要通過數(shù)據(jù)采樣和算法兩個(gè)方向進(jìn)行相關(guān)研究。在算法層面,探究不同錯(cuò)分情形代價(jià)的差異性通過引進(jìn)懲罰機(jī)制對(duì)算法進(jìn)行優(yōu)化,如代價(jià)敏感學(xué)習(xí)[5]、集成學(xué)習(xí)[6]以及模糊支持向量機(jī)[7]等。通過算法解決不平衡數(shù)據(jù)問題,不改變?cè)紨?shù)據(jù)的分布,避免了合成或刪除樣本引進(jìn)的誤差,但算法優(yōu)化、參數(shù)的選用比較困難。而數(shù)據(jù)層面通過平衡數(shù)據(jù)集的方式提升分類器的性能如:欠采樣、過采樣以及混合采樣。

        文獻(xiàn)[8]提出了典型的過采樣算法SMOTE,該算法通過分析少數(shù)類樣本,并與k個(gè)同類樣本間線性插值合成新樣本。該算法雖然使少數(shù)類的預(yù)測(cè)精度有所提升,但由于在合成新樣本時(shí)沒有考慮樣本的分布,易合成噪聲樣本和冗余樣本,而且不能避免過擬合的情形。文獻(xiàn)[9]提出了Borderline-SMOTE 算法,該算法對(duì)SMOTE 的不足進(jìn)行優(yōu)化,認(rèn)為分類邊界處的樣本含有更豐富的信息,因此該算法只在邊界處合成少數(shù)類樣本。文獻(xiàn)[10]提出ADASYN算法,其由每個(gè)少數(shù)類樣本采取某種方法自動(dòng)決定合成樣本的數(shù)量,但該算法易受離群點(diǎn)的干擾。文獻(xiàn)[11]提出基于自然最近鄰的不平衡數(shù)據(jù)過采樣方法,該方法首先確定少數(shù)類的自然最近鄰,然后根據(jù)樣本的自然近鄰關(guān)系對(duì)少數(shù)類樣本進(jìn)行聚類,找到核心點(diǎn)與非核心點(diǎn),最后在核心點(diǎn)與非核心點(diǎn)之間合成樣本。

        隨機(jī)欠采樣[12]核心思想是隨機(jī)刪除多數(shù)類樣本的部分樣本達(dá)到均衡數(shù)據(jù)集的目標(biāo),但是隨機(jī)欠采樣可能會(huì)丟失對(duì)分類效果有重要影響的樣本。因此,楊杰明等[13]針對(duì)上述不足點(diǎn)提出了US-DD算法,該算法依據(jù)數(shù)據(jù)的密度分布,將數(shù)據(jù)集區(qū)分為高低不同的密度簇,然后對(duì)不同的密度簇運(yùn)用不同的采樣方法。文獻(xiàn)[14]提出基于KNN 的NearMiss 算法,該算法通過設(shè)定啟發(fā)式規(guī)則欠采樣,改進(jìn)了隨機(jī)欠采樣的不足。

        對(duì)于欠采樣可能會(huì)丟失關(guān)鍵樣本信息、過采樣會(huì)合成無效樣本的問題,文獻(xiàn)[15]提出基于邊界混合重采樣的分類方法(BMRM),該算法引入k-離群度將數(shù)據(jù)集劃分邊界樣本和非邊界樣本,然后對(duì)少數(shù)類的邊界樣本使用優(yōu)化的SMOTE 算法采樣,對(duì)多數(shù)類樣本采用基于距離的欠采樣算法采樣,達(dá)到平衡數(shù)據(jù)集的目的。文獻(xiàn)[16]提出基于分類超平面的混合采樣算法SVM_HS,該算法運(yùn)用SVM分類超平面找出分錯(cuò)的少數(shù)類樣本進(jìn)行采樣,同時(shí)對(duì)離分類超平面較遠(yuǎn)的多數(shù)類樣本進(jìn)行隨機(jī)刪除。該算法雖然考慮了不同樣本對(duì)分類算法的重要程度不同,但在過采樣的過程中沒有考慮少數(shù)類樣本的分布情況。

        針對(duì)現(xiàn)有采樣算法的不足,本文根據(jù)每個(gè)少數(shù)類樣本的重要程度不同,同時(shí)考慮少數(shù)類樣本的類內(nèi)平衡,提出一種基于SVM 的非均衡數(shù)據(jù)集過采樣方法(SVMOM)。算法根據(jù)少數(shù)類樣本到分類超平面的距離和樣本的分布情況賦予每個(gè)少數(shù)類樣本選擇權(quán)重,最后根據(jù)樣本的選擇權(quán)重選擇樣本運(yùn)用SMOTE迭代合成新樣本,以達(dá)到均衡數(shù)據(jù)集的目的。最后將本文提出的SVMOM 算 法 與 SMOTE 算 法 、Borderline-SMOTE 算法、ADASYN 算法、NearMiss-2 算法、SMOTE+ENN 算法在6個(gè)UCI數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),并將采樣的后的數(shù)據(jù)在SVM、Logistic Regression 和RandomForest 三個(gè)分類器上進(jìn)行性能比較,實(shí)驗(yàn)結(jié)果表明,本文算法在F-value、G-mean和AUC上都具有較好的表現(xiàn)。

        2 相關(guān)工作

        2.1 SVM算法

        SVM算法是由Vapnik[17]在20世紀(jì)90年代提出的可用于回歸和分類的機(jī)器學(xué)習(xí)技術(shù),對(duì)于分類問題,SVM的基本思想是在最小化分類誤差的同時(shí),求解一個(gè)能夠正確劃分訓(xùn)練數(shù)據(jù)集且最大化兩個(gè)類之間的幾何間隔。

        SVM 不僅可以用于線性可分的情況,也可以用于線性不可分的情況,當(dāng)兩個(gè)類數(shù)據(jù)不可分時(shí),可以通過應(yīng)用核技巧將數(shù)據(jù)映射到高維的特征空間,而在高維的特征空間中數(shù)據(jù)是可分的。線性可分的SVM算法如算法1所示。

        算法1線性可分的SVM算法

        輸入:訓(xùn)練集D={(x1,y1),(x2,y2),…,(xN,yN)},其中,x∈Rm,y∈{1,-1},i=1,2,…,N ii

        輸出:分類超平面與決策函數(shù)

        步驟1構(gòu)造并求解約束最優(yōu)化問題:

        其約束條件為:

        其中,ξi為松弛因子,C >0 是懲罰系數(shù)。

        步驟2求得最優(yōu)解w*、b*。

        步驟3由此得到分類超平面:

        分類決策函數(shù)為:

        w*、b*的求解,可以通過對(duì)式(1)使用拉格朗日乘子法得到其對(duì)偶問題。

        其約束條件為:

        對(duì)于式(5),通過序列最小優(yōu)化算法(SMO),得到最優(yōu)的α*=(α1,α2,…,αN)T,進(jìn)而求得w*、b*。

        在線性SVM 訓(xùn)練的對(duì)偶問題里,目標(biāo)函數(shù)和分類決策函數(shù)都只涉及樣本與樣本之間的內(nèi)積。因此,對(duì)于非線性分類問題,并不需要顯示的指定線性變換,只需用核函數(shù)K(x,z)代替當(dāng)中的內(nèi)積。最后求解的決策函數(shù)為:

        2.2 不平衡數(shù)據(jù)集對(duì)SVM的影響

        SVM 是一個(gè)有監(jiān)督的機(jī)器學(xué)習(xí)算法,其在平衡數(shù)據(jù)集上具有良好的性能,但將非均衡數(shù)據(jù)集送入SVM訓(xùn)練時(shí),分類器為了確保總體性能,SVM 的分類超平面會(huì)向少數(shù)類傾斜,這致使部分少數(shù)類樣本被錯(cuò)誤地劃分為多數(shù)類,如圖1 所示。圖1 中實(shí)線為SVM 在非均衡數(shù)據(jù)集上訓(xùn)練得到的決策邊界,虛線為真正的決策邊界。

        圖1 不平衡數(shù)據(jù)集決策邊界

        研究結(jié)果表明[18],SVM在非均衡數(shù)據(jù)集上的決策邊界向少數(shù)類傾斜,這是因?yàn)镾VM 中的分類決策邊界是由支持向量決定的,在非均衡數(shù)據(jù)集中,多數(shù)類樣本比少數(shù)類樣本可能有更多的支持向量,這就導(dǎo)致了不平衡的支持向量比,致使決策邊界向少數(shù)類移動(dòng)。為了使決策邊界向正確的位置移動(dòng),應(yīng)對(duì)少數(shù)類進(jìn)行過采樣,使少數(shù)類樣本具有更多的支持向量。

        不同分布區(qū)域的樣本的重要程度不同,往往越靠近類邊界的樣本攜帶的信息量越高。在SVM 算法中,樣本到?jīng)Q策邊界的距離反映了樣本所攜帶信息的信息量[19]。離決策邊界越近,則樣本所攜帶信息量越高,樣本越重要;離決策邊界較遠(yuǎn),則樣本攜帶的信息量越低。考慮圖1,其中樣本點(diǎn)A與樣本點(diǎn)B離決策平面較近,而樣本點(diǎn)C離決策平面較遠(yuǎn)。因此樣本點(diǎn)A與樣本點(diǎn)B相比樣本點(diǎn)C更重要。同樣的,稀疏簇的樣本比密集簇的樣本更重要,這是因?yàn)槊芗氐臉颖靖?,攜帶的信息量更為豐富,而稀疏簇樣本較少,則攜帶的信息量較少。同樣考慮圖1,樣本點(diǎn)A與樣本點(diǎn)B到?jīng)Q策平面的距離相同,但樣本點(diǎn)A的密度低于樣本點(diǎn)B的密度,在合成樣本時(shí),應(yīng)對(duì)樣本點(diǎn)A附近合成更多的樣本,使少數(shù)類樣本類內(nèi)更加平衡。

        3 基于SVM的非均衡數(shù)據(jù)集過采樣算法

        3.1 算法思想

        如2.2 節(jié)所述,SVM 在用于非均衡數(shù)據(jù)集時(shí),決策邊界將更接近于少數(shù)類,致使少數(shù)類樣本分類精度下降。而離決策邊界越近且處于低密度區(qū)域的樣本重要程度越高,離決策邊界越遠(yuǎn)且處于高密度區(qū)域的樣本重要程度越低?;谝陨戏治觯疚慕Y(jié)合SVM 設(shè)計(jì)了SVMOM 算法。SVMOM 算法通過迭代合成樣本。在每輪迭代的過程中,首先運(yùn)用SVM 分類器在訓(xùn)練集上得到?jīng)Q策邊界,在測(cè)試集上計(jì)算G-mean值,并根據(jù)樣本點(diǎn)到SVM 決策邊界的距離賦予樣本距離權(quán)重,同時(shí)考慮少數(shù)類的分布情況,計(jì)算樣本的密度,根據(jù)樣本的密度賦予樣本密度權(quán)重。然后根據(jù)樣本的距離權(quán)重和密度權(quán)重計(jì)算每個(gè)少數(shù)類樣本的選擇權(quán)重,最后根據(jù)樣本的選擇權(quán)重選擇樣本運(yùn)用SMOTE 合成新樣本,將合成的樣本加入到訓(xùn)練集中。迭代完成,最后選擇G-mean值最大的那輪采樣后的訓(xùn)練集作為最終的平衡數(shù)據(jù)集。

        3.2 SVMOM算法描述

        設(shè)非均衡數(shù)據(jù)集為D(i=1,2,…,N),N為樣本數(shù),d為樣本維度,訓(xùn)練集為S,測(cè)試集為T,訓(xùn)練集S中少數(shù)類樣本為Smin,m為少數(shù)類樣本數(shù),多數(shù)類樣本為Smaj,n為多數(shù)類樣本數(shù),合成的樣本為Snew。算法流程如圖2。

        SVMOM算法如算法2所示。

        圖2 SVMOM算法流程圖

        算法2SVMOM算法

        輸入:不平衡數(shù)據(jù)集D(i=1,2,…,N),N為樣本數(shù)量,每輪迭代采樣倍率δ,0<δ<1。

        輸出:處理后的平衡數(shù)據(jù)集S

        步驟1將數(shù)據(jù)集D劃分為訓(xùn)練集S和測(cè)試集T。

        步驟2在訓(xùn)練集S上計(jì)算要合成的樣本數(shù)G_gap。

        步驟3在訓(xùn)練集S上用SVM訓(xùn)練分類模型h(x),其決策邊界為D_B,并在測(cè)試集T上計(jì)算G-mean值。

        步驟4對(duì)于每個(gè)xi∈Smin,根據(jù)xi到?jīng)Q策邊界D_B的距離,計(jì)算樣本xi的距離權(quán)重Distw(xi)。

        步驟5對(duì)于每個(gè)xi∈Smin計(jì)算其密度權(quán)重Densityw(xi)。

        步驟6根據(jù)Distw(xi)和Densityw(xi)計(jì)算樣本xi的選擇權(quán)重Sw(xi)。

        步驟7計(jì)算本輪迭代要合成的樣本數(shù)G_num。

        步驟8以Sw(xi)為概率選擇G_num個(gè)樣本,其集合為SG。

        步驟9對(duì)于SG中的每一個(gè)樣本xi,計(jì)算其k近鄰,并用公式(12)合成新樣本。

        步驟10將合成的新樣本合并入訓(xùn)練集S。

        步驟11重復(fù)步驟3~10,直到合成樣本數(shù)達(dá)到G_gap。

        步驟12選擇G-mean最大的那輪采樣后的訓(xùn)練集作為最終的訓(xùn)練集。

        3.3 樣本選擇權(quán)重的計(jì)算

        樣本的選擇權(quán)重Sw(xi) 反映了樣本被選中的概率。本文根據(jù)少數(shù)類樣本到?jīng)Q策邊界的距離和樣本的分布密度賦予每個(gè)少數(shù)類樣本選擇權(quán)重。樣本離決策平面越近且樣本密度越小,則樣本的選擇權(quán)重越大;樣本離決策平面越遠(yuǎn)且樣本密度越大,則樣本的選擇權(quán)重越小。具體步驟如下:

        (1)對(duì)于xi∈Smin,根據(jù)公式(14)計(jì)算其到?jīng)Q策邊界D_B的距離Dist(xi,D_B)。

        (2)樣本的距離權(quán)重為:

        (3)對(duì)于xi∈Smin,根據(jù)公式(16)計(jì)算xi與xj∈Smin(j=1,2,…,m)的歐式距離,得到xi的k個(gè)近鄰,在本文中k=5。

        (4)樣本xi的密度Density(xi)為。

        (5)樣本xi的密度權(quán)重為:

        (6)最后樣本xi的選擇權(quán)重為:

        其中α+β=1(本文中α=β=0.5)。

        3.4 SVMOM算法時(shí)間復(fù)雜度分析

        SVMOM 算法通過迭代合成樣本。在每輪迭代的過程中首先運(yùn)用SVM 算法訓(xùn)練分類器,然后計(jì)算樣本的距離權(quán)重與密度權(quán)重,進(jìn)而合成樣本。而線性SVM的時(shí)間復(fù)雜度為O(dN),非線性SVM 的時(shí)間復(fù)雜度為O(dN2),其中N為訓(xùn)練樣本數(shù),d為特征維度。樣本距離權(quán)重的計(jì)算需要計(jì)算少數(shù)類樣本到?jīng)Q策邊界的距離,其時(shí)間復(fù)雜度為O(m),m為少數(shù)類樣本數(shù)。樣本的密度權(quán)重根據(jù)樣本的k近鄰估算。因此需計(jì)算少數(shù)類樣本間的距離并進(jìn)行升序排序,其時(shí)間復(fù)雜度為O(m2+mlogm)。因此SVMOM 算法一輪迭代的時(shí)間復(fù)雜度為O(dN2+m+m2+mlogm)=O(dN2)。

        SVMOM的迭代次數(shù)與數(shù)據(jù)集的不平衡率有關(guān),不平衡率越高,所需合成的樣本數(shù)越多,迭代次數(shù)越多。假設(shè)迭代次數(shù)為l次,則SVMOM算法最終的時(shí)間復(fù)雜度為O(ldN2)。

        基于以上分析,本文采樣算法具有較高的時(shí)間復(fù)雜度,且數(shù)據(jù)集樣本量越大,不平衡率越高,算法耗時(shí)越長(zhǎng)。

        4 實(shí)驗(yàn)結(jié)果與分析

        4.1 評(píng)價(jià)指標(biāo)

        在不平衡數(shù)據(jù)集的研究中,通常將數(shù)目少的類別視為正類,數(shù)目多的類視為負(fù)類,而正類能否被準(zhǔn)確分類是數(shù)據(jù)挖掘的目標(biāo)。在不平衡數(shù)據(jù)集分類過程中,如果分類器將全部的樣本都分類到負(fù)類,就可以輕松地達(dá)到很高的準(zhǔn)確率,但實(shí)際上該分類效果并不好。因此,傳統(tǒng)用于評(píng)估分類器性能的準(zhǔn)確率和錯(cuò)誤率可能就不再適用了,為了更精準(zhǔn)地評(píng)價(jià)不平衡數(shù)據(jù)的分類性能,通常采用構(gòu)造混淆矩陣,將 F-value[20]、G-mean[20]、AUC[21]等作為評(píng)價(jià)標(biāo)準(zhǔn)。構(gòu)造的混淆矩陣如表1所示。

        表1 混淆矩陣

        表1中TP表示實(shí)則為正類且預(yù)測(cè)為正類的樣本數(shù)目。FN表示實(shí)則為正類且預(yù)測(cè)為負(fù)類的樣本數(shù)目。TN表示實(shí)則為負(fù)類且預(yù)測(cè)為負(fù)類的樣本數(shù)目。FP表示實(shí)則為負(fù)類且預(yù)測(cè)為正類的樣本數(shù)目。

        根據(jù)構(gòu)建的混淆矩陣,引入查全率、真負(fù)率、假正率、查準(zhǔn)率四個(gè)定義。

        查全率,即真正類別為正類的樣本中,被正確預(yù)測(cè)的樣本所占比率:

        真負(fù)率,即真正類別為負(fù)類的樣本中,被正確預(yù)測(cè)的樣本所占比率:

        假正率,即真正類別為負(fù)類的樣本中,被錯(cuò)誤真正的樣本所占比率:

        查準(zhǔn)率,正確分類的正類樣本與所有預(yù)測(cè)為正類樣本的比值:

        在不平衡數(shù)據(jù)的分類評(píng)價(jià)標(biāo)準(zhǔn)中,正確率或錯(cuò)誤率有時(shí)候并不能有效地評(píng)估模型表現(xiàn),通常需要綜合考慮,而F-value綜合考慮了正類的準(zhǔn)確率和召回率,其公式定義如下:

        其中,TPR為查全率,RPR為查準(zhǔn)率;β代表了TPR和RPR的相對(duì)重要性系數(shù),在數(shù)據(jù)集分布不均勻的二分類問題中,β一般取值為1。

        G-mean是評(píng)估不平衡數(shù)據(jù)集分類性能的另一個(gè)指標(biāo),其定義如下:

        根據(jù)公式(24),G-mean取值與TPR、TNR有關(guān),只有TPR、TNR同時(shí)增大時(shí),G-mean的值才能提高,因此G-mean值是一個(gè)更加綜合的分類器性能評(píng)價(jià)指標(biāo)。

        ROC曲線是由FRP(假正率)和TPR(查全率)構(gòu)成的點(diǎn)連成的線,能很直觀地看出任意界限值對(duì)性能的判別能力。ROC 曲線離左上角越近,實(shí)驗(yàn)的準(zhǔn)確性就越高,模型的表現(xiàn)就越好,曲線下面積(Area Under Curve,AUC)也就越大。因而AUC 是評(píng)價(jià)模型表現(xiàn)優(yōu)劣的一個(gè)有效指標(biāo)。

        本文將選取F-value、G-mean、AUC作為度量分類性能的評(píng)估標(biāo)準(zhǔn)。

        4.2 數(shù)據(jù)集描述

        本文從國(guó)際機(jī)器學(xué)習(xí)標(biāo)準(zhǔn)庫UCI 中選取6 組不平衡數(shù)據(jù)集驗(yàn)證文中所提算法的有效性,數(shù)據(jù)集信息如表2所示。6組數(shù)據(jù)集既有二分類數(shù)據(jù)集也包含多分類數(shù)據(jù)集。對(duì)于多分類數(shù)據(jù)集,合并其中的幾類樣本形成二分類樣本集。haberman數(shù)據(jù)集的類別1為多數(shù)類,類別2為少數(shù)類;transfusion數(shù)據(jù)集的類別0為多數(shù)類,類別1為少數(shù)類;credit 數(shù)據(jù)集的類別0 為多數(shù)類,類別1 為少數(shù)類;german 數(shù)據(jù)集的類別1 為多數(shù)類,類別0 為少數(shù)類;ionosphere 數(shù)據(jù)集的g 類為多數(shù)類,b 類為少數(shù)類;yeast 數(shù)據(jù)集的ME3 類為少數(shù)類,其他類合并為多數(shù)類。數(shù)據(jù)集的不平衡度定義為多數(shù)類樣本數(shù)量與少數(shù)類樣本數(shù)量的比值。

        表2 數(shù)據(jù)集信息

        4.3 實(shí)驗(yàn)及分析

        為驗(yàn)證本文所提SVMOM算法的有效性和通用性,實(shí)驗(yàn)設(shè)置如下:

        (1)將其與SMOTE算法、Borderline SMOTE算法、ADASYN、NearMiss、SMOTE+ENN 在 haberman、transfusion、credit、german、ionosphere、yeast 6 個(gè)數(shù)據(jù)集上進(jìn)行采樣實(shí)驗(yàn)。

        (2)SVMOM 作為數(shù)據(jù)預(yù)處理階段的算法,為進(jìn)一步驗(yàn)證本文算法的通用性,分別將SVM、Logistic Regression、RandomForest作為分類器,用F-value和G-mean和AUC作為評(píng)價(jià)指標(biāo)進(jìn)行對(duì)比。

        (3)為了更好地評(píng)價(jià)各種方法的性能,實(shí)驗(yàn)采用五折交叉檢驗(yàn)法在6 組數(shù)據(jù)集上實(shí)驗(yàn),每次選擇其中4 組作為訓(xùn)練集,1組作為測(cè)試集。

        本文實(shí)驗(yàn)環(huán)境使用Pycharm2018為仿真環(huán)境,所用其他對(duì)比算法使用imbalance-learn提供的算法實(shí)現(xiàn)。

        4.3.1 參數(shù)敏感性分析

        本文提出的SVMOM過采樣算法,需要指定每次迭代的采樣倍率δ、距離權(quán)重系數(shù)α和密度權(quán)重系數(shù)β。為了評(píng)估δ、α和β的影響,本文選取haberman、transfusion、credit、german、ionosphere、yeas 6 個(gè)數(shù)據(jù)集進(jìn)行測(cè)試,并以SVM 作為分類器,核函數(shù)為高斯徑向基,核寬度數(shù)設(shè)為10,懲罰因子C為1 000,k近鄰k的取值為5。用F-value、G-mean和AUC評(píng)估參數(shù)的影響。

        為了評(píng)估采樣倍率的影響,對(duì)δ分別設(shè)置為0.1,0.2,0.3,0.4進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表3所示。通過表3可以看出當(dāng)δ=0.2 時(shí),F(xiàn)-value、G-mean 和 AUC 三個(gè)值普遍具有較好表現(xiàn),如表中黑體表示。

        距離權(quán)重系數(shù)α表示距離權(quán)重在樣本選擇權(quán)重的重要性,當(dāng)α越大時(shí),靠近決策邊界的樣本越容易被選中;密度權(quán)重系數(shù)β表示密度權(quán)重在樣本選擇權(quán)重的重要性,當(dāng)β越大時(shí)稀疏處的樣本越容易被選中。當(dāng)α=β時(shí),認(rèn)為樣本的距離權(quán)重與密度權(quán)重同等重要,即靠近決策邊界且越稀疏處的樣本更容易被選中。為了評(píng)估距離權(quán)重系數(shù)α和密度權(quán)重系數(shù)β影響。設(shè)置δ=0.2 ,且將 (α,β)分為(0.8,0.2),(0.6,0.4),(0.5,0.5),(0.6,0.4),(0.2,0.8)5組分別進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表4 所示。通過表4 可以看出當(dāng)α=β=0.5 時(shí),分類器在6個(gè)數(shù)據(jù)集上的整體性能表現(xiàn)較好,如表中黑體表示。

        表3 不同采樣倍率δ 下的分類效果對(duì)比

        4.3.2 實(shí)驗(yàn)結(jié)果

        根據(jù)4.3.1節(jié)討論,本文實(shí)驗(yàn)參數(shù)設(shè)置如下:δ的取值為0.2,α=β=0.5,根據(jù)學(xué)者研究表明[22],k近鄰取值推薦設(shè)為5。SVM分類器的參數(shù)設(shè)置為:核函數(shù)為高斯徑向基,核寬度數(shù)設(shè)為10,懲罰因子C為1 000。Logistic Regression、RandomForest分類器參數(shù),使用算法開發(fā)人員推薦的參數(shù)值。表5給出了本文采樣算法與其他5種采樣算法在 SVM-RBF、Logistic Regression、Random-Forest 三個(gè)分類器上的實(shí)驗(yàn)結(jié)果,并將實(shí)驗(yàn)結(jié)果最大值加粗表示。

        表4 不同α,β 下的分類效果對(duì)比

        通過表5可以發(fā)現(xiàn),本文所提采樣算法,在用SVMRBF作為分類器時(shí),除了credit數(shù)據(jù)集,在其他5個(gè)數(shù)據(jù)集上的表現(xiàn)均優(yōu)于其他采樣算法。這是因?yàn)楸疚乃惴ㄍㄟ^支持向量機(jī)迭代合成樣本,在每輪迭代的過程中,對(duì)離決策平面較近的且稀疏簇的樣本賦予較高的采樣權(quán)重,使這些樣本更容易被選中合成樣本,最終使決策平面向準(zhǔn)確的方向移動(dòng)。

        而本文算法在Logistic Regression與RandomForest分類器上性能并不總是最好的。其中本文算法在Logistic Regression 上有三個(gè)數(shù)據(jù)集表現(xiàn)不是最好的;在RandomForest分類器中,有兩個(gè)數(shù)據(jù)集表現(xiàn)不是最好的,但AUC 值都是最優(yōu)的。本文所提SVMOM 算法是嵌入到SVM 中的,所以它在SVM 算法中有更好的表現(xiàn)。盡管本文算法在其他分類算法中表現(xiàn)不是最優(yōu)的,但就整體而言,本文所提算法的整體性能較其他算法有較大的優(yōu)勢(shì)。通過實(shí)驗(yàn)對(duì)比發(fā)現(xiàn),本文所提算法具有一定的有效性和通用性。

        為了直觀地體現(xiàn)不同算法的性能效果,圖3~圖5分別繪制了6 種算法在6 個(gè)數(shù)據(jù)集分別在SVM-RBF、Logistic Regression、RandomForest 三個(gè)分類模型上的實(shí)驗(yàn)結(jié)果曲線。其中橫坐標(biāo)代表6種算法,縱坐標(biāo)代表性能評(píng)價(jià)指標(biāo)結(jié)果。通過圖可以直觀地得出,當(dāng)以SVM-RBF 作為分類器時(shí),本文提出的采樣算法相比較其他算法在F-value、G-mean、AUC三個(gè)分類評(píng)價(jià)指標(biāo)上都有比較明顯的提高。雖然在Logistic Regression、RandomForest 分類器上的性能在6 個(gè)數(shù)據(jù)集上并不都是最好的,但與其他算法相比,通過本文算法采樣后的數(shù)據(jù),總體性能更好,因此本文所提數(shù)據(jù)采樣算法具有通用性,可用于其他機(jī)器學(xué)習(xí)算法。

        表5 不均衡數(shù)據(jù)集在3個(gè)分類器上算法性能對(duì)比

        圖3 SVM-RBF作為分類器的性能對(duì)比

        圖4 Logistic Regression作為分類器的性能對(duì)比

        圖5 RandomForest作為分類器的性能對(duì)比

        5 結(jié)束語

        本文針對(duì)不平衡數(shù)據(jù)的分類結(jié)果偏向多數(shù)類的缺陷,提出了一種基于SVM 的不平衡數(shù)據(jù)過采樣算法(SVMOM)。SVMOM 通過迭代合成樣本。在迭代過程中,首先通過支持向量機(jī)算法,找到分類超平面,其次根據(jù)樣本點(diǎn)到分類超平面的距離賦予樣本距離權(quán)重;同時(shí)考慮少數(shù)類的分布情況,計(jì)算樣本的密度,根據(jù)樣本的密度分布賦予樣本密度權(quán)重。依據(jù)樣本的距離權(quán)重和密度權(quán)重計(jì)算每個(gè)少數(shù)類樣本的選擇權(quán)重,然后根據(jù)樣本的選擇權(quán)重選擇樣本運(yùn)用SMOTE 迭代合成新樣本,最后將過采樣后的平衡數(shù)據(jù)集在SVM 分類器、Logistic Regression、RandomForest 中訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,本文提出的采樣算法優(yōu)于其他采樣算法,一定程度上解決了分類結(jié)果偏向多數(shù)類的問題,有效地改善了分類器的性能。但是,由于本文提出的算法,在每輪迭代進(jìn)行采樣時(shí),首先要找出分類超平面,當(dāng)算法應(yīng)用非常大的數(shù)據(jù)集時(shí),運(yùn)行時(shí)間較長(zhǎng),盡管目前計(jì)算機(jī)計(jì)算能力有了很大的提升,但仍然需要提高算法在大數(shù)據(jù)集中的速度,如何提高算法的運(yùn)行效率將是今后研究的重點(diǎn)。

        猜你喜歡
        分類器邊界權(quán)重
        拓展閱讀的邊界
        權(quán)重常思“浮名輕”
        論中立的幫助行為之可罰邊界
        為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
        BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
        基于公約式權(quán)重的截短線性分組碼盲識(shí)別方法
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        “偽翻譯”:“翻譯”之邊界行走者
        基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
        亚洲国产福利精品一区二区| 伊人狼人影院在线视频| 青青草免费在线视频导航| 人妖与人妖免费黄色片| 亚洲中文字幕在线一区| 国产激情久久久久久熟女老人| 亚洲av无码国产精品色软件| 99国产精品无码| 成 人 网 站 免 费 av| 国产成人一区二区三中文| 国产女主播福利一区在线观看| av成人资源在线观看| 久久日本视频在线观看| 日韩精品视频久久一区二区| 中国丰满人妻videoshd| 看曰本女人大战黑人视频| 欧美xxxx新一区二区三区| 在线精品亚洲一区二区三区| 日韩女同在线免费观看| 国产成人无码专区| 又湿又黄裸乳漫画无遮挡网站 | a国产一区二区免费入口| 亚洲AV无码成人精品区日韩密殿| 国产性感丝袜美女av| 国产一级一片内射视频播放| 欧美日本精品一区二区三区| 性激烈的欧美三级视频| 亚洲一区sm无码| 精品人妻av一区二区三区不卡| 国产高清大片一级黄色| 日韩人妻中文字幕专区| 青青草原亚洲| 久久久久久av无码免费看大片 | 白白青青视频在线免费观看| 熟女人妻一区二区中文字幕| 中文字幕一区二区三区视频| 少妇粉嫩小泬喷水视频www| 正在播放亚洲一区| 国产 无码 日韩| 精品久久一品二品三品| 丁香五月亚洲综合在线|