亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于樣本密度峰值的不平衡數(shù)據(jù)欠抽樣方法

        2020-03-06 13:18:54蘇俊寧葉東毅
        計(jì)算機(jī)應(yīng)用 2020年1期
        關(guān)鍵詞:分類方法

        蘇俊寧,葉東毅

        (福州大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,福州 350108)

        0 引言

        在許多模式分類的應(yīng)用問題中,不同類別的數(shù)據(jù)分布往往是不平衡的[1-3],即某些類別樣本的數(shù)量遠(yuǎn)遠(yuǎn)小于其他類別樣本的數(shù)量,其中樣本數(shù)少的類稱為少數(shù)類,樣本數(shù)大的類稱為多數(shù)類[4]。如果不考慮不平衡性因素的影響,傳統(tǒng)的機(jī)器學(xué)習(xí)算法對于不平衡數(shù)據(jù)的分類學(xué)習(xí)結(jié)果往往會傾向滿足多數(shù)類樣本的分類正確性而造成少數(shù)類樣本的誤分,也即容易產(chǎn)生分類決策邊界偏移[5],降低了分類模型(特別是對少數(shù)類樣本正確分類)的泛化能力[6-7],因此,研究如何有效處理不平衡數(shù)據(jù)的分類問題具有重要的理論和實(shí)際意義。

        近年來,人們針對不平衡數(shù)據(jù)的分類問題提出了許多方法,這些方法大致分為三類[8]。

        一是數(shù)據(jù)層面的方法[9-12],即通過對不平衡數(shù)據(jù)集進(jìn)行重抽樣而得到平衡的數(shù)據(jù)集,應(yīng)用已有的學(xué)習(xí)算法對平衡處理后的數(shù)據(jù)集進(jìn)行學(xué)習(xí)和建模。常用的抽樣方法包括對少數(shù)類樣本的過抽樣[9-10]和對多數(shù)類樣本的欠抽樣[11-12],其中,SMOTE(Synthetic Minority Over-sampling TEchnique)[9]是一種經(jīng)典的過抽樣方法,它通過插值擴(kuò)充少數(shù)類樣本集使樣本數(shù)目達(dá)到均衡。一般來說,過抽樣容易產(chǎn)生過擬合,而欠抽樣可能丟失與分類相關(guān)的信息[5,13]。

        二是算法層面的方法,即通過在學(xué)習(xí)算法中考慮不平衡的因素來改進(jìn)現(xiàn)有的學(xué)習(xí)算法,使之適合于處理不平衡數(shù)據(jù)的分類問題[14-16],如代價(jià)敏感支持向量機(jī)[14],該算法通過對不同類型的錯分引入不同的懲罰代價(jià),以保證分類器總體錯分代價(jià)最小。該類方法能有效地提高少數(shù)類的識別率,但在多數(shù)情況下,真實(shí)的錯分代價(jià)很難被準(zhǔn)確估計(jì)[17],且對于一些不能直接使用代價(jià)敏感學(xué)習(xí)的分類器,只能通過調(diào)整正負(fù)樣本比例或者決策閾值間接地實(shí)現(xiàn)代價(jià)敏感學(xué)習(xí)[18],不能保證代價(jià)敏感學(xué)習(xí)的效果。

        第三類融合了數(shù)據(jù)層面方法和算法層面方法[19-22],通過對不平衡數(shù)據(jù)集進(jìn)行多次重抽樣獲得多個不同的平衡訓(xùn)練集,并訓(xùn)練相應(yīng)的分類器,最后對這些分類器進(jìn)行集成[23]。該類方法已成為目前處理不平衡數(shù)據(jù)分類問題的一個主要方法,得到研究者的廣泛關(guān)注。例如:文獻(xiàn)[19]中提出的結(jié)合欠抽樣和bagging技術(shù)的RBBag(Roughly Balanced Bagging)算法,文獻(xiàn)[20]中提出的基于權(quán)重抽樣的uNBBag(under-sampling NeighBorhood Bagging)算法,文獻(xiàn)[21]中提出的基于樣本聚類的KAcBag(K-means Adacost Bagging)算法和文獻(xiàn)[22]中提出的同樣基于聚類和欠抽樣的CbUs(Clustering-based Under-sampling)算法。

        盡管上述第三類型算法有效地提升了不平衡數(shù)據(jù)的分類性能,但是它們采用的欠抽樣方法在數(shù)據(jù)分布一致性保持和噪聲處理方面還存在不足,因而分類準(zhǔn)確性有待進(jìn)一步提高。具體而言,RBBag算法主要是隨機(jī)抽取多數(shù)類樣本獲得平衡數(shù)據(jù)集,并未考慮多數(shù)類樣本的分布特點(diǎn),導(dǎo)致可能丟失多數(shù)類中與分類相關(guān)的有用信息,降低分類的質(zhì)量;uNBBag算法同樣未考慮多數(shù)類數(shù)據(jù)的整體分布特點(diǎn),也未考慮噪聲的處理;KAcBag算法根據(jù)K-means聚類算法對形成的不同類簇賦予不同的權(quán)重進(jìn)行欠抽樣,雖然考慮了多數(shù)類數(shù)據(jù)分布的因素,但由于同一類簇的樣本被賦予相同的權(quán)重,因而不能充分體現(xiàn)同一類簇中的樣本分布信息;CbUs算法則采用一種基于聚類代表點(diǎn)的欠抽樣策略,該策略在一定程度上考慮了多數(shù)類數(shù)據(jù)分布的因素,但由于只考慮類簇中心作為抽樣代表點(diǎn)容易忽視邊界區(qū)域樣本的選擇,導(dǎo)致與決策面相關(guān)的有用信息丟失,進(jìn)而影響分類特別是多數(shù)類的正確率。

        針對上述方法存在的不足,本文提出一種基于樣本密度峰值的不平衡數(shù)據(jù)欠抽樣方法以及基于該欠抽樣方法的集成分類學(xué)習(xí)算法——DPBag(Density Peaks Bagging),其欠抽樣的思路是通過考量樣本密度分布信息來盡量保持抽取樣本與多數(shù)類樣本數(shù)據(jù)分布的一致性。具體而言,該方法通過密度峰值聚類算法[22]完成多數(shù)類數(shù)據(jù)的聚類,并利用樣本局部密度和密度峰值的分布來賦予每個樣本權(quán)重,使得對于每個類簇而言,越靠近類簇中心區(qū)域的樣本權(quán)重越大,越接近邊界區(qū)域的樣本權(quán)重越小,盡可能使抽取的樣本集合能較好地反映多數(shù)類樣本的分布情況。實(shí)驗(yàn)結(jié)果表明,與上述欠抽樣方法相比,在同樣采用集成學(xué)習(xí)方法對重抽樣得到的訓(xùn)練集進(jìn)行分類模型學(xué)習(xí)的情況下,本文的欠抽樣方法有效提高了分類的性能,取得了良好的改進(jìn)效果。

        1 基于樣本密度峰值的欠抽樣方法

        1.1 密度峰值聚類算法

        為便于描述本文提出的DPBag算法,首先簡要回顧一下算法抽樣權(quán)重計(jì)算中將要使用到的密度峰值聚類算法——DPC(Clustering by fast search and find of Density Peaks)[24]。該算法的基本思路是通過計(jì)算樣本點(diǎn)的局部密度并尋找密度峰值點(diǎn),從而形成類簇。對于每個樣本點(diǎn)xi,DPC算法需計(jì)算兩個量:樣本點(diǎn)xi的局部密度ρi和該點(diǎn)到具有更高局部密度的點(diǎn)的最小距離δi,其定義如下:

        (1)

        其中:dij為樣本i,j間的歐氏距離;dc為截?cái)嗑嚯x(由用戶設(shè)置的距離)。

        (2)

        DPC算法將具有高δ值和相對較高ρ值的點(diǎn)作為類簇中心,而具有高δ值和較低ρ值的點(diǎn)往往是離群點(diǎn)或噪聲點(diǎn)。在類簇中心找到后,剩余點(diǎn)被歸屬到具有更高密度的最近鄰點(diǎn)所屬類簇。一般來說,DPC算法具有較好的區(qū)分類簇中心、邊界樣本和離群點(diǎn)(含噪聲)的能力。

        1.2 本文提出的DPBag算法

        DPBag算法的核心在于對多數(shù)類欠抽樣的樣本權(quán)重計(jì)算方法。

        1.2.1 樣本權(quán)重的計(jì)算

        樣本權(quán)重計(jì)算的基本思想是使得抽樣后的樣本與原始樣本的分布盡量保持一致。注意到,DPC聚類算法中的δ值和ρ值可以較好地反映樣本點(diǎn)在相應(yīng)類簇中所處的位置,即對于任意一個樣本點(diǎn)xi而言:

        ①若xi具有較高δ值和較高ρ值時,則該點(diǎn)被判定為類簇中心;

        ②若xi具有較高δ值和較低ρ值時,則該點(diǎn)被判定為噪聲點(diǎn)或小類簇點(diǎn);

        ③若xi具有較低δ值和較高ρ值時,則該點(diǎn)被判定為類簇中心周邊點(diǎn);

        ④若xi具有較低δ值和較低ρ值時,則該點(diǎn)被判定為邊界點(diǎn)。

        由此依據(jù)樣本點(diǎn)xi的δ值和ρ值,本文提出如下的多數(shù)類樣本欠抽樣權(quán)重計(jì)算方法。

        首先對δ值進(jìn)行歸一化處理使之屬于0到1之間,其次,根據(jù)ρ值和歸一化后的δ值初始化多數(shù)類樣本的權(quán)重,對于樣本xi,令其權(quán)值為:

        wi=(ρi+1)eδi

        (3)

        式(3)所得初始化結(jié)果使得各類簇中心具有最大的權(quán)值,其他點(diǎn)的權(quán)值較小。在初始化權(quán)重的基礎(chǔ)上,根據(jù)DPC算法對多數(shù)類樣本的聚類結(jié)果進(jìn)行權(quán)值更新,具體規(guī)則如下。

        (4)

        由于wk-wi>0,則:

        因此可得:

        1)當(dāng)樣本點(diǎn)xi為類簇中心周邊點(diǎn)時,因?yàn)槠洇裪值與類簇中心的ρk值相近,故權(quán)值更新后類簇中心周邊樣本的權(quán)值得到了提高。

        2)當(dāng)樣本點(diǎn)xi為邊界點(diǎn)或噪聲點(diǎn)時,由于邊界點(diǎn)和噪聲點(diǎn)的ρ值較小,即ρi?ρk,由式(4)可知樣本點(diǎn)xi更新后的權(quán)值近似不變。

        由上述分析可知,經(jīng)過權(quán)重更新后,對于多數(shù)類的每一個類簇,樣本權(quán)重值盡可能由類簇中心區(qū)域向邊界區(qū)域呈現(xiàn)逐漸遞減的趨勢,因而以此權(quán)重抽樣的樣本與該類簇樣本的分布較為近似,并能一定程度上抑制噪聲數(shù)據(jù)。

        1.2.2 基于加權(quán)Bagging的分類器集成

        前述RBBag、uNBBag、KAcBag等算法使用的分類器學(xué)習(xí)均采用基于Bagging的集成學(xué)習(xí)方法。為便于算法性能比較,本文同樣采用這種集成學(xué)習(xí)的方法構(gòu)建分類器。Bagging方法[15]是由多個子分類器投票返回預(yù)測的類標(biāo)簽,可以提高基分類器的準(zhǔn)確率。考慮到抽樣的不確定性將導(dǎo)致每個子分類器的性能不同,因此,一般采用加權(quán)的方法賦予每個子分類器不同的權(quán)重以反映其對最終預(yù)測結(jié)果的貢獻(xiàn)程度[17,19],其中對于子分類器hi權(quán)重αi定義如下:

        (5)

        其中,少數(shù)類樣本權(quán)重的計(jì)算方法與多數(shù)類樣本相同,由于處于少數(shù)類邊界樣本對分類性能影響更大[10],因此對少數(shù)類樣本權(quán)重wj-minority進(jìn)行求倒數(shù)運(yùn)算,即:

        wj-minority′=1/wj-minority

        error(hi)為子分類器hi的錯分率,即hi誤分訓(xùn)練樣本子集Di的樣本權(quán)重和,計(jì)算公式為:

        若樣本xd被誤分,則err(xd)為1;否則err(xd)為0。

        1.2.3 DPBag算法具體過程

        考慮到對于一些小規(guī)?;蚋叨炔黄胶?不平衡比率大于等于9的數(shù)據(jù)集[25])的不平衡數(shù)據(jù)集,單獨(dú)采用欠抽樣會使訓(xùn)練集樣本過小而導(dǎo)致整體分類性能下降,因此針對這種情況,本文加入過抽樣策略來處理單純的欠抽樣所帶來的缺陷。

        給定一個分類器學(xué)習(xí)算法WeakLearn,DPBag算法步驟如下,其具體框架如圖1所示。

        輸入:訓(xùn)練集D,參數(shù)dc的百分比,迭代次數(shù)T。

        輸出:集成分類模型H。

        步驟2 對每個多數(shù)類樣本點(diǎn)xi,按照權(quán)重大小計(jì)算其被抽取概率,即:

        步驟3 若N/M≥9,則對少數(shù)類樣本進(jìn)行過抽樣,且過抽樣率為「N/(5*M)?*100%;

        步驟4 樣本抽取以及子分類器的訓(xùn)練

        fort=1 toT

        /*可并行執(zhí)行*/

        1)依照賭輪原則[26]對多數(shù)類樣本進(jìn)行欠抽樣,得到與少數(shù)類樣本數(shù)量相同的多數(shù)類樣本集,與所有少數(shù)類樣本構(gòu)成一個平衡訓(xùn)練集Dt;

        2)應(yīng)用Weaklearn對Dt進(jìn)行學(xué)習(xí),獲得子分類器ht,計(jì)算子分類器權(quán)重αt(式(5))。

        步驟5 生成集成模型:

        其中符號函數(shù)sign定義為:

        圖1 DPBag算法框架Fig. 1 Framework of DPBag algorithm

        由上述算法流程可以得出DPBag算法由三部分構(gòu)成:權(quán)重的計(jì)算、按照權(quán)重對訓(xùn)練集進(jìn)行重采樣以及基于加權(quán)baggin的分類器集成。首先,權(quán)重的計(jì)算方法利用了DPC聚類算法中的δ值和ρ值可以較好地反映樣本點(diǎn)在相應(yīng)類簇中所處位置的特性,賦予樣本點(diǎn)權(quán)重,使得對于多數(shù)類的每一個類簇,樣本權(quán)重值盡可能由類簇中心區(qū)域向邊界區(qū)域呈現(xiàn)逐漸遞減的趨勢;然后按照該權(quán)重對多數(shù)類進(jìn)行欠抽樣,使得抽取的樣本既能平衡訓(xùn)練集,又盡可能地與原始樣本的分布保持一致,提高少數(shù)類的分類性能;最后,利用集成學(xué)習(xí)提高不平衡數(shù)據(jù)整體分類性能的特點(diǎn),考慮了抽樣的不確定性給子分類器帶來的影響,賦予了子分類器權(quán)重,使得集成分類器能更好地提高不平衡數(shù)據(jù)集的整體分類性能。

        1.2.4 DPBag算法復(fù)雜度分析

        DPBag算法復(fù)雜度主要包括兩個方面,如下所示。

        1)樣本權(quán)重的計(jì)算,即應(yīng)用DPC算法分別計(jì)算多數(shù)類和少數(shù)類樣本權(quán)重,由于多數(shù)類樣本數(shù)遠(yuǎn)多于少數(shù)類樣本數(shù),因此該部分復(fù)雜度量級上等于計(jì)算多數(shù)類樣本權(quán)重的復(fù)雜度:

        a)計(jì)算樣本間的距離O(N2);

        b)計(jì)算多數(shù)類樣本的密度ρ值O(N2);

        c)計(jì)算多數(shù)類樣本的δ值O(N2);

        d)初始化多數(shù)類樣本權(quán)重O(N);

        e)依據(jù)聚類結(jié)果對多數(shù)類樣本權(quán)重更新O(N)。

        因此,權(quán)重計(jì)算的總復(fù)雜度為O(N2)。

        2)T輪分類器的訓(xùn)練。設(shè)基分類器訓(xùn)練為CART(Classification And Regression Tree)算法,其時間復(fù)雜度與抽樣獲得的平衡訓(xùn)練集Dt大小成線性關(guān)系,為O(|Dt|),|Dt|=2M,故T輪分類器的訓(xùn)練時間為O(2TM)。

        因此,DPBag算法的復(fù)雜度為O(N2)+O(2TM)。

        針對在引言中敘述的其他欠抽樣方法RBBag、uNBBag、KAcBag和CbUs四種算法,其時間復(fù)雜度如表1所示。

        表1 4種算法的時間復(fù)雜度對比 Tab. 1 Time complexity comparison of four algorithms

        通過對比可以得出本文算法與其他欠抽樣算法的時間復(fù)雜度差別主要在于樣本抽取的過程,雖然本文時間花費(fèi)稍大,但其所抽取的樣本與原始數(shù)據(jù)集的分布較為近似,并能一定程度上抑制噪聲數(shù)據(jù)。

        2 實(shí)驗(yàn)結(jié)果與分析

        2.1 分類的評價(jià)方法

        不平衡數(shù)據(jù)分類問題的常用標(biāo)準(zhǔn)有:查全率(Recall)、查準(zhǔn)率(Precision)、F1-measure以及G-mean[27]。其計(jì)算方法均建立在表2混淆矩陣的基礎(chǔ)上,其中正類和負(fù)類分別表示少數(shù)類和多數(shù)類。Recall、Precision、F1-measure、G-mean值計(jì)算方法如下:

        表2 二類問題的混淆矩陣 Tab. 2 Confusion matrix for two-class problem

        F1-measure是一種反映分類器對少數(shù)類樣本識別率的評價(jià)指標(biāo),它是Recall和Precision的組合,僅當(dāng)少數(shù)類的Recall值和Precision值都較大時,它的F1-measure值才較大。此外G-mean是一種度量單個數(shù)據(jù)集整體分類性能的評價(jià)指標(biāo),僅當(dāng)分類器對多數(shù)類和少數(shù)類的分類精度都較大時,才能獲得較大的G-mean值。本實(shí)驗(yàn)采用F1-measure和G-mean來衡量算法的分類性能。

        由于F1-measure和G-mean是從單個數(shù)據(jù)集上衡量不同分類算法性能的指標(biāo),因此為了從整體上比較各種分類算法優(yōu)劣,本文引入Friedman檢驗(yàn)[28]和Wilcoxon符號秩檢驗(yàn)[28]來衡量各重抽樣方法整體性能上的差異。其中,F(xiàn)riedman檢驗(yàn)是利用秩判斷不同算法是否存在顯著性差異的非參數(shù)檢驗(yàn)方法;而Wilcoxon符號秩檢驗(yàn)是通過分析兩配對樣本,推斷樣本來自的兩個算法是否存在顯著性差異。

        2.2 實(shí)驗(yàn)設(shè)置

        本文選擇12個少數(shù)類和多數(shù)類樣本不平衡且具有不同實(shí)際應(yīng)用背景的UCI數(shù)據(jù)集[29]進(jìn)行實(shí)驗(yàn)。各數(shù)據(jù)集的基本信息如表3所示,其中,對于有多個類別屬性的數(shù)據(jù),將數(shù)量最少的若干類別作為少數(shù)類,將其他類合并為一個多數(shù)類;最后一列表示數(shù)據(jù)集不平衡比率(Imbalanced Ratio, IR),即多數(shù)類樣本數(shù)與少數(shù)類樣本數(shù)的比值。

        表3 UCI數(shù)據(jù)集的基本信息 Tab. 3 Information of UCI datasets

        本實(shí)驗(yàn)將DPBag算法與OvBag(Over-Bagging)[30]、SmBag(SMOTE-Bagging)[30]、oNBBag(over-sampling Neighborhood Bagging)[20]三種過抽樣算法以及RBBag[19]、uNBBag[20]、KAcBag[21]和CbUs[22]四種欠抽樣算法在F1-measure和G-mean兩個指標(biāo)上的結(jié)果進(jìn)行對比分析,如表4所示。

        實(shí)驗(yàn)中,對DPBag算法設(shè)置如下:按照DPC算法的推薦做法,將數(shù)據(jù)集中兩兩樣本之間的距離按照由小到大的方式排序,處于第2%位置的值作為截?cái)嗑嚯xdc的值;針對不平衡比率大于9的數(shù)據(jù)集,使用隨機(jī)過抽樣方法,過抽樣率設(shè)為「IR/5?。對CbUs算法設(shè)置如下:選擇其中實(shí)驗(yàn)效果更好的策略2,即用K-means聚類算法對多數(shù)類樣本進(jìn)行聚類,將聚類中心的最近鄰真實(shí)樣本作為多數(shù)類代表點(diǎn)與所有少數(shù)類樣本組成平衡數(shù)據(jù)集用于分類器的訓(xùn)練;聚類個數(shù)K設(shè)為少數(shù)類樣本數(shù)。將weka軟件[31]的J48決策樹算法(C4.5)作為基分類器,算法參數(shù)使用weka中的默認(rèn)參數(shù)設(shè)置。

        2.3 結(jié)果分析

        為了使實(shí)驗(yàn)更具客觀性,采用十折交叉驗(yàn)證的方法對分類效果進(jìn)行驗(yàn)證,將均值作為最終結(jié)果。表4為8種算法在12個UCI數(shù)據(jù)集上的F1-measure值和G-mean值,表中的每行表示數(shù)據(jù)集在對應(yīng)算法上的實(shí)驗(yàn)結(jié)果,每一行中的最高值以加粗下劃線表示,第二高值以加粗表示;表格最后一行為每種算法在所有數(shù)據(jù)集上的平均秩,其值越小說明算法性能越好。表5為不同算法兩兩比較的Wilcoxon符號秩檢驗(yàn)結(jié)果。為了更直觀體現(xiàn)算法對比的結(jié)果,圖2給出8種算法在12個數(shù)據(jù)集上F1-measure值和G-mean值的平均值的圖形表示。

        由表4可知,對于F1-measure和G-mean兩個評價(jià)指標(biāo)而言,本文的DPBag算法在12個數(shù)據(jù)集上的平均秩分別為1.92和2.17,排名均為第1,說明它在8種算法中的平均性能最優(yōu)。此外,相對G-mean指標(biāo)而言,DPBag算法在F1-measure指標(biāo)上的優(yōu)勢更為明顯,由圖2可以看出,它在12個數(shù)據(jù)集上的平均F1-measure值明顯高于其他7種算法的對應(yīng)值,而且比它們中取得最高值的KAcBag算法高出2.36%。對于abalone和yeast數(shù)據(jù)集,可以看出過抽樣算法OvBag、SmBag和oNBBag得到的F1-measure值明顯優(yōu)于欠抽樣算法uNBBag、RBBag、KAcBag和CbUS。這是因?yàn)檫@些數(shù)據(jù)集中少數(shù)類樣本過少且數(shù)據(jù)集的不平衡程度較高,使得欠抽樣算法得到的平衡數(shù)據(jù)集丟失過多的多數(shù)類樣本,造成分類性能降低,但本文增加的過抽樣策略能較為有效地處理該問題,如對yeast數(shù)據(jù)集,DPBag算法與欠抽樣算法相比,與F1-measure值的最高值之差為+15.89%,與G-mean值的最高值之差為-6.16%;同時DPBag算法與過抽樣算法相比,其F1-measure值為最高,并且G-mean值也高于過抽樣算法中的最高值+6.06%。

        從Friedman統(tǒng)計(jì)檢驗(yàn)的角度看,F(xiàn)1-measure上的Friedman檢驗(yàn)結(jié)果為0.009(p<0.05),G-mean上的Friedman檢驗(yàn)結(jié)果小于0.001(p<0.05),說明8種算法F1-measure和G-mean指標(biāo)在整體上均有顯著性差異。

        由表5的Wilcoxon符號秩檢驗(yàn)結(jié)果以及圖2所展示的8種方法在12個數(shù)據(jù)集上的平均F1-measure值可以得出DPBag算法在F1-measure指標(biāo)上顯著優(yōu)于其他7種算法;在G-mean指標(biāo)上,DPBag算法與KAcBag算法無顯著性差異,但均優(yōu)于其他6種算法。

        表4 DPBag算法與其他抽樣算法的F1-measure值、G-mean值對比 單位:% Tab. 4 F1-measure and G-mean comparison of DPBag and other sampling algorithms unit:%

        表5 DPBag算法與其他抽樣算法兩兩比較的Wilcoxon符號秩檢驗(yàn) Tab. 5 Wilcoxon sign rank test for DPBag and other sampling algorithms

        圖2 12個數(shù)據(jù)集上F1-measure值和G-mean值的平均值Fig. 2 Average F1-measure and G-mean on 12 datasets

        綜合以上分析,在12個不平衡的數(shù)據(jù)集上,DPBag算法取得了良好的改進(jìn)效果,說明本文提出的DPBag算法通過盡量保持欠抽樣樣本與原始樣本分布的一致性對于提高不平衡數(shù)據(jù)的分類精度是一個合理、有效的途徑;并且針對欠抽樣算法在少數(shù)類樣本過少且不平衡程度較高的不平衡數(shù)據(jù)集下F1-measure值較低的問題,DPBag算法增加的過抽樣策略有效地處理了該情況,在對整體分類性能影響較小的情況下,提升了分類器對少數(shù)類的識別率。

        為了觀察參數(shù)dc值對DPBag算法的影響,圖3和圖4分別給出DPBag算法在取不同dc值[1%,2%,3%,4%,5%]的情況下F1-measure值和G-mean值的變化。

        由圖3和圖4可得,從整體上看dc值的選取對DPBag算法的影響較小,當(dāng)dc值取2%、3%時,兩個評價(jià)指標(biāo)均可以取得較好的結(jié)果。

        由于Yeast是典型的不平衡數(shù)據(jù)集,其不平衡比率較大且樣本數(shù)較多,因此本文主要針對該數(shù)據(jù)集觀察不同的過抽樣率[100%,1 000%]對DPBag算法的影響。圖5給出dc=2%時不同過抽樣率對DPBag算法的F1-measure值和G-mean值的影響。

        由圖5可得,當(dāng)過抽樣率達(dá)到500%以上(接近「IR/5?,即「28.1/5?)時,F(xiàn)1-measure值逐漸達(dá)到峰值,而G-mean值呈下降趨勢,這是由于當(dāng)過抽樣率過大時,分類器對訓(xùn)練集產(chǎn)生了過擬合現(xiàn)象,因此,選擇合適的過抽樣率,少數(shù)類的F1-measure值和整體性能的G-mean值均能取得較好的結(jié)果。

        圖3 不同dc值對F1-measure值的影響Fig. 3 Effect of different dc values on F1-measure

        圖4 不同dc值對G-mean值的影響Fig. 4 Effect of different dc values on G-mean

        圖5 不同過抽樣率的實(shí)驗(yàn)結(jié)果(dc=2%)Fig. 5 Experimental results of different oversampling rates(dc=2%)

        3 結(jié)語

        本文研究了不平衡數(shù)據(jù)分類問題中的數(shù)據(jù)重抽樣方法。針對現(xiàn)有欠抽樣方法在樣本分布一致性保持和噪聲數(shù)據(jù)處理方面存在的不足,提出一種基于樣本密度峰值的不平衡數(shù)據(jù)欠抽樣方法。該方法應(yīng)用密度峰值聚類算法中的樣本密度峰值和局部密度來初始化多數(shù)類樣本權(quán)重,通過計(jì)算樣本與類簇中心密度差異來更新多數(shù)類權(quán)重信息,按照權(quán)重大小對多數(shù)類樣本進(jìn)行欠抽樣,使得所抽取的多數(shù)類樣本盡可能由類簇中心區(qū)域向邊界區(qū)域逐步遞減,既能較好地反映原始數(shù)據(jù)集的分布又可有效抑制噪聲數(shù)據(jù),減小決策面的偏倚程度。在UCI數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,與近期的重抽樣方法相比,在同樣采用集成學(xué)習(xí)方法對重抽樣得到的訓(xùn)練集進(jìn)行分類模型學(xué)習(xí)的情況下,本文方法取得了較為明顯的改進(jìn)效果,達(dá)到了相對最佳的總體泛化性能。這表明盡量保持欠抽樣樣本與原始樣本分布的一致性對于提高不平衡數(shù)據(jù)的最終集成分類精度是一個合理可行的途徑。當(dāng)然,本文方法還存在一些需要改進(jìn)的地方,在權(quán)重計(jì)算方面,噪聲數(shù)據(jù)和邊界樣本的權(quán)重都較小,不易被區(qū)分,因此如何進(jìn)一步地區(qū)分邊界樣本和噪聲數(shù)據(jù)將成為下一階段的研究重點(diǎn)。

        猜你喜歡
        分類方法
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        學(xué)習(xí)方法
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        天天躁日日躁狠狠躁| 国产精品二区三区在线观看| 国产精品视频白浆免费视频| 成品人视频ww入口| 久久久久亚洲av无码专区体验 | 亚洲欧洲国产日产国码无码| 久久久精品国产亚洲av网| 亚洲中文字幕剧情类别| 人妻丰满熟妇av无码区| 国自产偷精品不卡在线| 亚洲粉嫩av一区二区黑人| 亚洲精品一区二区高清| 无码国产69精品久久久久孕妇| 91久久青青草原线免费| av中文码一区二区三区| 亚洲综合一区中文字幕| 天堂aⅴ无码一区二区三区| 亚洲永久精品ww47永久入口| 亚洲一区二区三区亚洲| 亚洲乱码国产乱码精华 | 一本大道加勒比东京热| 国产极品少妇一区二区| 香蕉久久福利院| 国产精品一区二区三区精品| 国产精品麻豆一区二区三区| 无码aⅴ精品一区二区三区浪潮 | 国产av无码专区亚洲精品| 亚洲午夜福利在线观看| 国产精品无码不卡在线播放| 国产交换精品一区二区三区| 国产成人精品a视频| 国产在线手机视频| 亚洲黑寡妇黄色一级片| 亚洲国产精品无码aaa片| 国产第一页屁屁影院| 无码AV大香线蕉伊人久久| 国产成人精品日本亚洲i8| 人妻激情另类乱人伦人妻| 欧美精品一区二区精品久久| 精品人妻av中文字幕乱| 国产亚洲精品精品精品|