亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        針對不平衡數(shù)據(jù)的PSO-DEC-IFSVM分類算法

        2019-09-06 11:42:54魏建安黃海松康佩棟
        數(shù)據(jù)采集與處理 2019年4期
        關(guān)鍵詞:超平面信息量向量

        魏建安 黃海松 康佩棟

        (貴州大學(xué)現(xiàn)代制造技術(shù)教育部重點(diǎn)實驗室,貴陽,550025)

        引 言

        隨著大數(shù)據(jù)時代的到來,信息量激增,由此產(chǎn)生大量的不平衡數(shù)據(jù)集,即數(shù)據(jù)集中某類樣本數(shù)遠(yuǎn)小于其他類的樣本數(shù),其中樣本數(shù)較少的類叫做正類,樣本數(shù)較多的類稱為負(fù)類。不平衡數(shù)據(jù)的分類作為數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)的重要研究內(nèi)容,近年來越來越多的國內(nèi)外學(xué)者對其進(jìn)行了大量的研究[1-3],并將其廣泛應(yīng)用于故障診斷、醫(yī)療診斷及信用卡欺詐[4-8]等領(lǐng)域。

        在眾多機(jī)器學(xué)習(xí)算法中,支持向量機(jī)(Support vector machine,SVM)算法是依據(jù)統(tǒng)計學(xué)習(xí)中VC維理論以及結(jié)構(gòu)風(fēng)險最小化等原則而提出的一種學(xué)習(xí)方法,能夠有效地處理小樣本、非線性與高維度等問題,且作為一種有效的分類算法,已經(jīng)獲得廣泛的應(yīng)用。但傳統(tǒng)SVM對原始數(shù)據(jù)的處理是基于樣本集是平衡的,即正負(fù)類樣本的數(shù)目相同。顯然,對于不平衡數(shù)據(jù)傳統(tǒng)SVM算法的分類效果并不理想,這是因為當(dāng)數(shù)據(jù)集不平衡時實際分類超平面會向少數(shù)類方向偏移,從而導(dǎo)致少數(shù)類樣本的識別率變低。目前,對于傳統(tǒng)SVM算法可以從以下兩個方面進(jìn)行改進(jìn)以獲得更加理想的分類效果:(1)重構(gòu)原始數(shù)據(jù)集,即通過過(欠)采樣方式分別對正負(fù)類樣本集進(jìn)行重構(gòu),常見的方式有:對于過采樣有基于SMOTE(Synthetic minority oversampling technique)的過采樣方式及其改進(jìn)算法等[9-10],對于欠采樣方式有隨機(jī)欠采樣以及基于樣本特性的欠采樣等[11-12]。但是實際上以上方法是通過一定的準(zhǔn)則通過增加或者減少原始數(shù)據(jù)集的樣本數(shù)來調(diào)節(jié)數(shù)據(jù)集本身的不平衡性,具有隨機(jī)性較大、盲目性較高、穩(wěn)定性較差等缺點(diǎn),且當(dāng)數(shù)據(jù)集嚴(yán)重失衡時,所利用的采樣方法可能效果不佳。(2)改進(jìn)的SVM算法,即針對正負(fù)類樣本數(shù)目上的差異,通對算法本身的改進(jìn),以增強(qiáng)算法本身對不平衡數(shù)據(jù)的適應(yīng)性。常見的改進(jìn)算法有:不同懲罰因子(Different error costs,DEC)算法及其改進(jìn)算法通過正負(fù)類樣本賦予不同的懲罰因子以提高分類的準(zhǔn)確性[13-14];模糊支持向量機(jī)(Fuzzy support vector machine,FSVM)及其改進(jìn)算法通過將模糊數(shù)學(xué)和支持向量機(jī)相結(jié)合以克服噪聲或野點(diǎn)對支持向量的影響來提高分類的準(zhǔn)確性[15-17];此外,還有在賦予不同的懲罰因子的同時,增加新的約束條件的近支持向量機(jī)法等[18]。

        因模糊支持向量機(jī)在處理不平衡數(shù)據(jù)時有較好的表現(xiàn),故本文選取FSVM進(jìn)行不平衡數(shù)據(jù)的分類?,F(xiàn)階段比較典型的模糊支持向量機(jī)的改進(jìn)方式有:李苗苗等[19]在設(shè)計模糊隸屬度函數(shù)時考慮了每個樣本點(diǎn)到類型中心距離的同時還考慮到了該樣本點(diǎn)最鄰近的K個其他樣本點(diǎn)的距離。Batuwita等[20]將模糊支持向量機(jī)與DEC算法進(jìn)行結(jié)合提出一種FSVM-CIL算法,用于處理不平衡數(shù)據(jù)以及噪聲樣本,該算法在設(shè)計模糊隸屬函數(shù)時與傳統(tǒng)FSVM類似,僅考慮樣本到類中心的距離;鞠哲等[21]在設(shè)計FSVM的模糊隸屬度函數(shù)時考慮樣本到類中心距離的同時還考慮到了樣本周圍的緊密度,并將FSVM與DEC有機(jī)地結(jié)合,即DEC-FSVM-Ju算法。但是鞠哲等的算法存在以下缺點(diǎn):(1)算法復(fù)雜程度增加,同時未對增加的參數(shù)合理優(yōu)化;(2)沒有考慮到樣本特性的影響;(3)優(yōu)化效果不明顯。針對上述算法的缺點(diǎn),本文在設(shè)計模糊隸屬度函數(shù)時考慮樣本到類中心距離以及樣本周圍緊密度的同時,還考慮到了樣本信息量特性的影響并賦予不同樣本不同的權(quán)值,此外將改進(jìn)的FSVM算法(Improved fuzzy support vector machine,IFSVM)與DEC算法進(jìn)行結(jié)合,并應(yīng)用粒子群算法(Particle swarm optimization,PSO)對該改進(jìn)算法引入的參數(shù)進(jìn)行尋優(yōu),得到PSO-DEC-IFSVM算法。最后將PSO-DEC-IFSVM算法應(yīng)用于UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫中的6類不同的不平衡數(shù)據(jù)集中。實驗證明:本文所提算法相對于已有算法在處理含有噪聲的不平衡數(shù)據(jù)集分類時具有更好的分類效果。本文結(jié)果為不平衡數(shù)據(jù)的分類提供了一個有效的理論模型。

        1 算法簡介

        1.1 傳統(tǒng)SVM算法

        以傳統(tǒng)二分類為例,SVM的基本原理為:從樣本(或者核)空間內(nèi)尋求一個最優(yōu)分類超平面,使得正負(fù)類樣本分隔間距達(dá)到最大化。假定給定訓(xùn)練集為(X,Y)={(xi,yi)},yi∈{-1,1},i∈1,2,3,…,n,其中:xi,yi分別為訓(xùn)練集的第i個樣本以及樣本的標(biāo)簽。在SVM算法中引入核函數(shù)(K)將訓(xùn)練集引入高維空間,即K(x,y)=φ(x)Tφ(y),其中φ(x)為非線性映射;同時引入松弛變量ξi≥0,i=1,2,3,…,n與懲罰因子C,綜上,給出標(biāo)準(zhǔn)的支持向機(jī)一般形式為

        對于式(1)的優(yōu)化求解,可引入Largrandge乘子法轉(zhuǎn)化為對偶形式,即

        假定對偶問題的最優(yōu)解為α*,則可反求出數(shù)據(jù)集最優(yōu)分類超平面的法向量ω*與截距b*,其解法如式(3,4)所示,最終利用傳統(tǒng)SVM方法構(gòu)造出如式(5)所示的決策函數(shù)。

        1.2 FSVM算法與DEC算法的結(jié)合算法

        事實上,實際生產(chǎn)生活中的數(shù)據(jù)集往往是不平衡的,相比傳統(tǒng)SVM算法分配給每一個樣本相同的權(quán)值,F(xiàn)SVM算法和DEC算法相結(jié)合的DEC-FSVM算法根據(jù)樣本的不平衡性以及重要性分配不同的權(quán)值,以提高分類的準(zhǔn)確率。同上,對于二分類而言,假定給定訓(xùn)練集為(X,Y)={(xi,yi)},yi∈{-1,1},i∈1,2,3,…,n,另假定原始數(shù)據(jù)集中有m個樣本為正類樣本(即yi=1,i=1,2,3,…,m),則剩余的n-m個樣本為負(fù)類樣本(即yi=-1,i=m+1,m+2,m+3,…,n),則用于不平衡數(shù)據(jù)分類的模糊支持向量機(jī)的一般形式如式(6)所示。

        式中:Cp,Cn分別代表正負(fù)類樣本的懲罰因子,以表示兩類間的不平衡性;,分別代表正負(fù)類樣本的隸屬度函數(shù),以反映該樣本在其所屬類別中的重要性。從式(6)可以看出相對于傳統(tǒng)SVM算法,DEC-FSVM從懲罰因子與隸屬度函數(shù)的引入方向作了改進(jìn),這將更有利于不平衡數(shù)據(jù)的分類。

        2 改進(jìn)的模糊支持向量機(jī)(IFSVM)工作機(jī)理

        2.1 模糊隸屬度函數(shù)的設(shè)計

        Lin等[15]提出將樣本到其類中心的距離作為衡量樣本重要性的指標(biāo)。即將模糊隸屬度函數(shù)定義為

        式中:,分別代表正負(fù)類的第i個樣本到其類中心的距離;δ為引入的一個非常小的正數(shù),用來保證隸屬度為正。但是當(dāng)數(shù)據(jù)集分布不規(guī)則時,運(yùn)用該方式很可能將噪聲或野點(diǎn)作為正常的正負(fù)類樣本進(jìn)行訓(xùn)練,最終導(dǎo)致算法的整體分類精度降低。如圖1(a)數(shù)據(jù)集1所示,假設(shè)P1為一噪聲點(diǎn),對于正常樣本集(以負(fù)類為例)來說僅考慮樣本到類中心的距離時P1將被當(dāng)做正常點(diǎn)進(jìn)行訓(xùn)練賦予正常隸屬度函數(shù)值,顯然是不合理的。

        圖1 不同數(shù)據(jù)集下噪聲點(diǎn)與正常樣本的位置關(guān)系Fig.1 Relationship between the noise points and the normal samples under different data sets

        針對上述問題,文獻(xiàn)[21]中提出在設(shè)計模糊隸屬度函數(shù)時需綜合考慮樣本到類中心的間距及其周圍的緊密度,且其緊密度的衡量方式應(yīng)用K-近鄰域準(zhǔn)則,即如圖1(a)所示:在圖中擬取K=3,對于負(fù)類樣本來說對于噪聲點(diǎn)P1的距離最近的3-近鄰域點(diǎn)集為{P2,P3,P4},負(fù)類樣本的任一正常樣本P5的距離最近的 3-近鄰域點(diǎn)集為{P6,P7,P8}。顯然,負(fù)類的正常樣本點(diǎn)P5的3-近鄰域點(diǎn)集的距離均值大于噪聲點(diǎn)P1的3-近鄰域點(diǎn)集的距離均值,故文獻(xiàn)[21]引入式(10,11)定義樣本周圍的緊密度為

        式中:(xi)為正(負(fù))類的第i個樣本的K-近鄰域的集合,顯然如果某樣本的值越小則該樣本屬于該正(負(fù))類可能性越大。反之如果該樣本為噪聲或者野點(diǎn)的值將會較大,故將模糊隸屬度函數(shù)定義如下

        式中:α為一個權(quán)值,用于均衡樣本到類中心與樣本的近鄰域密度重要性,故對于不同數(shù)據(jù)集,α(α∈{0,0.1,0.2,…,1})值合理的選取極為重要;δ的意義同上;M(M∈{0.1,0.2,0.3,…,1})用于調(diào)整所有樣本模糊隸屬度函數(shù)的范圍,故值的選取亦較為重要;此外,對于樣本K-近鄰域中的K值,為了簡單起見,文獻(xiàn)[21]在隸屬度函數(shù)設(shè)計時將所有樣本取為同一值,但是由圖1(a,b)可以看出,對于1,2兩種不同的數(shù)據(jù)集,如果K值同時取為一定值是不合理的,對于數(shù)據(jù)集1來說K取為3是合理的,但對于數(shù)據(jù)集2,假設(shè)P13為一噪聲點(diǎn),對于負(fù)類樣本來說距離噪聲點(diǎn)P13最近的3-近鄰域點(diǎn)集為{P14,P15,P16},距離負(fù)類樣本的一正常樣本P9最近的3-近鄰域點(diǎn)集為{P10,P11,P12}。顯然,負(fù)類的正常樣本點(diǎn)P5的3-近鄰域點(diǎn)集的距離均值小于噪聲點(diǎn)P13的3-近鄰域點(diǎn)集的距離均值,在這種情況下,噪聲樣本P13會被當(dāng)作正常的負(fù)類樣本進(jìn)行處理,這將會在較大程度上影響分類精度。

        綜上,對于以上所提的α,M,K等參數(shù)在利用DEC-IFSVM進(jìn)行分類時均要進(jìn)行優(yōu)化,參數(shù)優(yōu)化將于2.4節(jié)進(jìn)行介紹。

        2.2 FSVM算法的改進(jìn)

        當(dāng)樣本分布不規(guī)則時,前文提到文獻(xiàn)[21]對FSVM算法改進(jìn)時僅考慮到引入樣本的緊密度來設(shè)計模糊隸屬度函數(shù),而沒有考到樣本本身的特性。眾所周知:在運(yùn)用傳統(tǒng)SVM分類器進(jìn)行分類時,分類超平面的確定只與支持向量有關(guān),且SVM算法是通過分類間隙的最大化來設(shè)計分類超平面,以期獲取較好的推廣能力。同時文獻(xiàn)[12]中提到:樣本的信息量,即樣本點(diǎn)到?jīng)Q策面的距離是判斷該點(diǎn)性質(zhì)的主要因素,且距離越近對分類超平面的影響越大。故本文在設(shè)計模糊隸屬度函數(shù)時需要對信息量大的樣本點(diǎn)賦予較大的隸屬度函數(shù)值。據(jù)此,本文引入如式(14)所示的樣本信息量的評價方式。

        式中φ(xi

        p(n))為第i個正(負(fù))類樣本信息量。圖2為某數(shù)據(jù)不平衡下的理想超平面與實際超平面的位置示意圖。從圖2可以看出:對于理想分類超平面,正負(fù)類樣本中的支持向量都是距離超平面很近的的點(diǎn),故擁有最大的信息量;而對于偏移過后的分類超平面,正類樣本的支持向量為距離分類超平面較遠(yuǎn)的樣本點(diǎn),負(fù)類的支持向量不變?nèi)匀粸榫嚯x超平面較近的點(diǎn)。故運(yùn)用傳統(tǒng)支持向量機(jī)進(jìn)行分類時,由于分類超平面發(fā)生嚴(yán)重偏移,正類樣本φ(xip)信息量越小,相應(yīng)的樣本信息量越大;反之負(fù)類樣本φ(xin)信息量越大時相應(yīng)的樣本信息量越大。另ω*與b分別代表傳統(tǒng)SVM的分類平類超平面的法向量與閾值,故改進(jìn)后的FSVM的隸屬度函數(shù)如式(15,16)所示。

        圖2 數(shù)據(jù)不平衡下的理想超平面與實際超平面的位置Fig.2 Ideal hyperplane and the position of actual hyperplane under data imbanlance

        式(15)中:φip為第i個正類樣本的信息量,乘號(*)右邊部分考慮了樣本到類中心的距離及樣本緊密度兩個因素,而乘號(*)左邊為正類樣本信息量影響的表達(dá)式。上文提到運(yùn)用傳統(tǒng)支持向量機(jī)進(jìn)行不平衡數(shù)據(jù)分類時,由于分類超平面發(fā)生嚴(yán)重偏移,正類樣本φ(xip)信息量的值越小相應(yīng)的樣本信息量越大,故引入式(15)用于滿足此規(guī)律,最終Sip即為正類樣本基于改進(jìn)的模糊支持向量機(jī)的隸屬度。同樣地,在式(16)中:φin為第i個負(fù)類樣本的信息量,乘號(*)右邊部分亦考慮了樣本到類中心的距離及樣本緊密度兩個因素,乘號(*)左邊為負(fù)類樣本信息量影響的表達(dá)式。同樣上文提到運(yùn)用傳統(tǒng)支持向量機(jī)進(jìn)行不平衡數(shù)據(jù)分類時,由于分類超平面發(fā)生嚴(yán)重偏移,負(fù)類樣本φ(xip)信息量的值越大時相應(yīng)的樣本信息量越大,故引入式(16)用于滿足此規(guī)律,最終Sin即為負(fù)類樣本基于改進(jìn)的模糊支持向量機(jī)的隸屬度。

        另外,由于利用式(15,16)求正負(fù)類樣本隸屬度時,兩式信息量影響的表達(dá)式不同,所以需引入平衡因子Q來保證正負(fù)類隸屬度值范圍一致。其算法為:正類所有訓(xùn)練樣本的信息量影響值的均值除以負(fù)類所有訓(xùn)練樣本的信息量影響值的均值所得到,表達(dá)式為

        2.3 DEC-IFSVM懲罰因子的設(shè)置

        眾所周知,DEC算法通過賦予正負(fù)類樣本不同的懲罰因子來提高SVM算法對不平衡數(shù)據(jù)適應(yīng)性,對于正類樣本賦予較大的懲罰因子,而負(fù)類樣本賦予較小的懲罰因子。故本文提出DEC協(xié)同IFSVM優(yōu)化算法,既有模糊支持向量機(jī)處理噪聲(野點(diǎn))的優(yōu)勢,又可以容易應(yīng)對不平衡數(shù)據(jù)。基于樣本特性的IFSVM的基本原理與算法上文已作闡述,對于懲罰因子的確定,文獻(xiàn)[21-22]采取正負(fù)類樣本比值的設(shè)定方式,且有較好分類效果,故本文亦采取此方式,即正負(fù)類的懲罰因子的算法為:Cp=C(nm)/m,Cn=C,其中:Cp為正類的懲罰因子;Cn為負(fù)類的懲罰因子;n為訓(xùn)練樣本總數(shù);m為訓(xùn)練樣本中正類樣本的個數(shù);C為懲罰因子的初始參數(shù)且C>0。

        綜上,改進(jìn)的DEC-IFSVM算法的對偶形式為

        2.4 基于PSO算法的DEC-IFSVM參數(shù)優(yōu)化

        綜合分析上文可知,運(yùn)用DEC-IFSVM算法進(jìn)行不平衡數(shù)據(jù)分類時,在算法復(fù)雜度增加的同時,為了得到更加良好的分類效果,需要對引入的α,δ,M,C,K等參數(shù)進(jìn)行優(yōu)化以及初值賦予。此外本文采用徑向基(Radial basis function,RBF)核函數(shù),故核函數(shù)中的參數(shù)g亦需要進(jìn)行優(yōu)化。

        在上述需要進(jìn)行優(yōu)化的參數(shù)中:δ的初值賦予需要多次實驗進(jìn)行擇優(yōu)選取,而K,α,M,C,g五個參數(shù)擬利用PSO算法進(jìn)行優(yōu)化。

        2.4.1 PSO算法簡介

        PSO算法是受鳥類捕食時搜索附近食物區(qū)域行為的啟發(fā),將問題的潛在解用不同的粒子來表示,尋找合適的適應(yīng)度函數(shù)來確定各粒子的適應(yīng)度。另外,PSO算法是一種并行的隨機(jī)搜索算法,可以實現(xiàn)對解空間的搜索,同時,PSO算法具有控制參數(shù)最少、算法簡單等優(yōu)點(diǎn),一經(jīng)提出便得到廣泛應(yīng)用[7]。

        2.4.2 參數(shù)優(yōu)化

        本文以不平衡數(shù)據(jù)分類效果的評價機(jī)制作為目標(biāo)函數(shù),K,α,M,C,g作為待求粒子,本文實驗中采取十折交叉驗證,對每一折的參數(shù)均進(jìn)行優(yōu)化。假定待求解的種群大小為N,迭代代數(shù)為G,Pi(i∈ 1,2,3,…,N)表示種群中i個體的位置,Vi(i∈ 1,2,3,…,N)與 fitnessi(i∈ 1,2,3,…,N)分別最終的則決策函數(shù)為代表i個體的速度與適應(yīng)度值,故本文所采用的粒子群算法的求解步驟如下:(1)算法開始;(2)種群的初始化:包括粒子的位置Pi與速度Vi的隨機(jī)初始化;(3)個體適應(yīng)度值:根據(jù)目標(biāo)函數(shù)來計算粒子的適應(yīng)度值fitnessi;(4)循環(huán)迭代:在循環(huán)迭代過程中,尋找個體的極值Pbest以及整個群的極值Gbest;(5)算法終止:在滿足最優(yōu)解的條件下,終止循環(huán)。

        2.4.3 優(yōu)化結(jié)果

        由上文可知,DEC-IFSVM引入的參數(shù)值需要進(jìn)行優(yōu)化,本文選取UCI數(shù)據(jù)集中的Pima等6種數(shù)據(jù)集,每個數(shù)據(jù)集進(jìn)行十折交叉驗證,由于每一折正負(fù)類樣本數(shù)目不同,故需要對每一折的參數(shù)進(jìn)行優(yōu)化。最終,經(jīng)粒子群算法優(yōu)化后的K,α,M,C,g五個參數(shù)在不同數(shù)據(jù)集的最優(yōu)參數(shù)如表1所示。

        表1 PSO優(yōu)化后DEC-IFSVM的最優(yōu)參數(shù)Tab.1 Optimized parameters of DEC-IFSVM after PSO optimization

        3 實驗與結(jié)果分析

        3.1 不平衡數(shù)據(jù)分類評價機(jī)制的引入

        在數(shù)據(jù)集平衡的條件下,一般用數(shù)據(jù)集分類的總準(zhǔn)確率對其分類效果進(jìn)行評判,即:分類的總準(zhǔn)確率越高,則分類器的分類效果越好;但是當(dāng)數(shù)據(jù)集不平衡時,特別是不平衡比較大時,存在即使正類樣本具有很低的辨識率的情況下,整體的分類準(zhǔn)確率很高的情況,故該方式對于不平衡數(shù)據(jù)的分類準(zhǔn)確率的評判是不準(zhǔn)確的。為了克服單一分類準(zhǔn)確率評價方式不令人信服的弊端,一些學(xué)者又提出了一些更加合理的評價機(jī)制:靈敏度(Sensitivity,SEN),即正類樣本的分類準(zhǔn)確率的評價機(jī)制;特異性(Specificity,SPE),即負(fù)類樣本的分類準(zhǔn)確率的評價機(jī)制;幾何平均值(G-mean),即分類器的綜合評價機(jī)制。各評價機(jī)制的算法表達(dá)式為

        式中:TP(++)為分類正確的正類樣本的數(shù)目;FN(+-)為分類錯誤的正類樣本的數(shù)目;FP(-+)為分類錯誤的負(fù)類樣本的數(shù)目,TN(--)為分類正確的負(fù)類樣本的數(shù)目,構(gòu)成的混淆矩陣如表2所示。

        分析上述3種評價機(jī)制可知:SEN的值越大正類樣本的辨識率就越高;同樣SPE的值越大負(fù)類樣本的辨識率就越高;當(dāng)SEN與SPE都較大時G-mean值就越大,反之G-mean值就越小。故對于不平衡數(shù)據(jù)選取G-mean值進(jìn)行分類器的評價更加合理。

        表2 混淆矩陣Tab.2 Confusion matrix

        3.2 實驗數(shù)據(jù)以及實驗環(huán)境

        為了突出本文所提算法在不平衡數(shù)據(jù)下分類的優(yōu)越性,將所提算法(PSO-DEC-IFSVM)與現(xiàn)有算法進(jìn)行對比,即:支持向量機(jī)(SVM)算法、模糊支持向量機(jī)(FSVM)算法、DEC算法、DEC結(jié)合FSVM的算法(DEC-FSVM)、DEC-FSVM-Ju算法以及利用PSO算法參數(shù)尋優(yōu)前的DEC-IFSVM算法。同時,為了使實驗結(jié)果更加具有說服力,本文在UCI機(jī)器學(xué)習(xí)數(shù)據(jù)中選取6種不同空間結(jié)構(gòu)以及不同維度的不平衡數(shù)據(jù)進(jìn)行實驗驗證,且這些不平衡數(shù)據(jù)必定會含一些噪聲或野點(diǎn)個體。此外,為了減少訓(xùn)練的時間,每種不平衡數(shù)據(jù)集均隨機(jī)選擇部分作為實驗,選取的6種不平衡數(shù)據(jù)集的基本特征如表3所示。

        表3 實驗中的6種不平衡數(shù)據(jù)集的特征Tab.3 Characteristics of the six unbalanced data sets in the experiment

        本文所涉及的所有算法均采取十折交叉驗證,且為了減少隨機(jī)影響,每折運(yùn)行十次,即對于一個不平衡數(shù)據(jù)將產(chǎn)生100組數(shù)據(jù),最終將所得的100組數(shù)據(jù)的均值作為每種評價機(jī)制的最終值。本文所有算法的初始參數(shù)均為:δ=10-13,α=0.5,m=0.5,C=2,g=0.01以及K=3。此外,本文所有結(jié)果均是在3.20 GHz/4.0 GB的PC機(jī)上利用MATLAB2012a軟件編程實現(xiàn)。

        3.3 結(jié)果與分析

        對于6種不同不平衡數(shù)據(jù)集的3種評價機(jī)制的實驗對比效果如表4所示。分析表4可知:(1)在不平衡數(shù)據(jù)集下,傳統(tǒng)的SVM算法效果最差,甚至有的數(shù)據(jù)集中G-mean的值為0,特別是樣本集嚴(yán)重失衡時,這是因為分類超平面向正類樣本方向發(fā)生了嚴(yán)重的偏移,其他算法作為SVM算法的改進(jìn)形式,使分類超平面偏回負(fù)類樣本方向,使得分類效果獲得提升。(2)傳統(tǒng)的DEC算法僅考慮到了樣本平衡性的影響,沒有考慮樣本中噪聲或野點(diǎn)影響;相反傳統(tǒng)的FSVM算法僅考慮到了樣本噪聲或野點(diǎn)影響,而忽略了樣本平衡性的影響。故在不平衡數(shù)據(jù)集中傳統(tǒng)的DEC與FSVM算法的分類效果提升不是很明顯,特別是SEN與G-mean兩個評價機(jī)制較低,即這兩種算法對于分類超平面的向負(fù)類偏移影響較小。(3)DEC-FSVM算法將傳統(tǒng)的DEC與FSVM方式相結(jié)合,融合了兩種算法的優(yōu)點(diǎn),分類效果得到進(jìn)一步提升,尤其是SEN或G-mean。(4)DEC-FSVM-Ju算法是在DEC-FSVM算法基礎(chǔ)上進(jìn)行改進(jìn),相比DEC-FSVM算法,其分類效果亦有提升,這是因為在設(shè)置模糊隸屬度函數(shù)時DEC-FSVM算法僅考慮了樣本到達(dá)類中心的距離,而DEC-FSVM-Ju算法考慮樣本到類中心距離的同時還考慮了樣本的K-近鄰域的密度。(5)同樣地,DEC-IFSVM作為DEC-FSVM-Ju的改進(jìn)算法,分類效果亦有提升,這是因為DEC-IFSVM算法除了考慮樣本到類中心的距離以及樣本的K-近鄰域密度外,還考慮到了樣本的信息量,在設(shè)計模糊隸屬度函數(shù)時給予樣本不同的權(quán)值,這樣可以賦予支持向量較大的權(quán)值,故分類效果進(jìn)一步提升。(6)對比PSO優(yōu)化前后的DEC-IFSVM算法可知,經(jīng)過PSO參數(shù)優(yōu)化后的DEC-IFSVM算法,相比優(yōu)化前的算法對6種不平衡數(shù)據(jù)集在分類器的分類效果均有較大提升。

        綜上,本文所提的算法在綜合考慮樣本到類中心距離、K-近鄰域密度以及樣本的信息量設(shè)計模糊隸屬度函數(shù),并將其與DEC算法相結(jié)合,最終引入的參數(shù)經(jīng)過PSO算法優(yōu)化,與現(xiàn)有的算法相比在不同空間結(jié)構(gòu)以及不同維度的不平衡數(shù)據(jù)集中具有更好的分類性能。

        4 分類器魯棒性的對比

        為了進(jìn)一步說明本文所提算法的優(yōu)越性,對本文所有算法的魯棒性進(jìn)行比較。本文采用文獻(xiàn)[23]中所提算法魯棒性的評價方式,即算法m在某一特定數(shù)據(jù)集上的魯棒性為用該算法求解目標(biāo)問題時的相對性能,文中選取G-mean值作為不平衡數(shù)據(jù)分類效果魯棒性的比較值,求解文中所有算法G-mean值的相對性能,此相對性能的求解算法為

        式中:Rm為算法m在某一數(shù)據(jù)集的Adjusted rand index值;bm為算法m魯棒性的相對性能。由式(23)可知,當(dāng)某一算法在特定數(shù)據(jù)集上表現(xiàn)最好時bm的值即為1,而其他算法bm≤1,且bm的值越大,算法的相對性能就越好。故算法m在不同數(shù)據(jù)集的魯棒性可以利用表示,其中l(wèi)為算法的總數(shù),且本文的算法總數(shù)為7。同樣的值越大代表該算法的綜合魯棒性越強(qiáng)。利用上述方法求解本文7種算法在6種平衡數(shù)據(jù)集上G-mean值的魯棒性,其結(jié)果如圖3所示。

        分析圖3可知:(1)傳統(tǒng)的SVM算法S-ARI的值遠(yuǎn)小于其余算法,證明SVM算法的魯棒性最差;

        (2)分析FSVM與DEC算法的S-ARI值可知:FSVM與DEC算法分類器的總體效果不是很理想,DEC-FSVM算法相比FSVM與DEC算法魯棒性進(jìn)一步增強(qiáng),顯示了綜合考慮樣本距離以及不平衡度的優(yōu)勢;(3)DEC-IFSVM作為DEC-FSVM-Ju的改進(jìn)算法,其S-ARI值有所增加,證明魯棒性增強(qiáng)不夠明顯,這是由于算法引入?yún)?shù)增加時,算法復(fù)雜度增加且初始參數(shù)不是最優(yōu)值,導(dǎo)致結(jié)果不明顯;(4)本文所提的PSO-DEC-IFSVM算法對DEC-IFSVM算法引入的參數(shù)進(jìn)行優(yōu)化,其S-ARI值最大為6,明顯大于DEC-IFSVM算法以及其他算法,故在不同的不平衡數(shù)據(jù)集上均有最好的魯棒性。

        表4 6種不平衡數(shù)據(jù)集下運(yùn)用各類算法分類的效果Tab.4 Classification effect of different algorithms in the six kinds of unbalanced data sets

        圖3 不平衡數(shù)據(jù)集下7種算法G-mean值的魯棒性比較Fig.3 Robustness comparison of G-mean value of seven algorithms under Unbalanced data sets

        5 結(jié)束語

        針對傳統(tǒng)的模糊支持向量機(jī)在不平衡數(shù)據(jù)集下分類效果不夠明顯、引入的參數(shù)未做優(yōu)化等缺點(diǎn),本文提出一種新型的基于粒子群優(yōu)化的改進(jìn)支持向量機(jī)算法(PSO-DEC-IFSVM)。該算法在設(shè)計模糊隸屬函數(shù)時,綜合考慮訓(xùn)練樣本到期類中心的間距與樣本周圍的緊密度以及樣本的信息量,并將其與DEC算法相結(jié)合,最后利用粒子群算法對DEC-IFSVM算法引入的K,α,M,C以及g五個參數(shù)進(jìn)行優(yōu)化。實驗證明:本文算法相比已有的FSVM算法,正負(fù)類的分類精度進(jìn)一步增加,且此算法擁有更好的魯棒性。結(jié)果證明:本文算法可以更好地降低樣本集中含有噪聲或野點(diǎn)影響,同時,可以更好地應(yīng)對數(shù)據(jù)集不平衡問題。故此算法為不平衡數(shù)據(jù)的分類問題提供了一個重要的理論模型,該模型可以應(yīng)用于機(jī)械故障診斷、醫(yī)療診斷等異常診斷領(lǐng)域,因為在這些領(lǐng)域中故障數(shù)據(jù)收集相對困難,極易形成不平衡數(shù)據(jù)集,且數(shù)據(jù)集中很可能含有噪聲或者野點(diǎn)。

        本文在利用粒子群算法對DEC-IFSVM分類器進(jìn)行參數(shù)尋優(yōu)時,僅將分類器的綜合評價機(jī)制(G-mean)作為優(yōu)化目標(biāo),這可能會導(dǎo)致正負(fù)類分類準(zhǔn)確率(SEN,SPE)不一定同時比優(yōu)化前效果理想,所以將SEN,SPE,G-mean同時作為優(yōu)化目標(biāo)進(jìn)行協(xié)同優(yōu)化,即:尋求一種適用于多目標(biāo)尋優(yōu)的智能算法,將是課題組下一步的研究重點(diǎn)。

        猜你喜歡
        超平面信息量向量
        向量的分解
        全純曲線的例外超平面
        涉及分擔(dān)超平面的正規(guī)定則
        聚焦“向量與三角”創(chuàng)新題
        以較低截斷重數(shù)分擔(dān)超平面的亞純映射的唯一性問題
        基于信息理論的交通信息量度量
        如何增加地方電視臺時政新聞的信息量
        新聞傳播(2016年11期)2016-07-10 12:04:01
        向量垂直在解析幾何中的應(yīng)用
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        分擔(dān)超平面的截斷型亞純映射退化性定理
        精品人人妻人人澡人人爽牛牛| 国产桃色一区二区三区| 乱子轮熟睡1区| 99精品热这里只有精品| 尤物无码一区| 国产一区二区美女主播| 曰批免费视频播放免费| 国产美女自慰在线观看| 国产精品白浆一区二区免费看 | 亚洲午夜精品一区二区| 婷婷五月综合丁香在线| 国产在线一区二区三区av| 亚洲高清激情一区二区三区| 亚洲中字幕日产av片在线| 亚洲av日韩av高潮潮喷无码 | 日本黑人人妻一区二区水多多| 日本一区二区三区视频国产| 被黑人猛躁10次高潮视频| 久久精品国产亚洲AⅤ无码| 一区二区三区人妻在线| 草草影院发布页| 欧美jizzhd精品欧美| 69天堂国产在线精品观看| 久久精品国产亚洲av网站 | 国产亚洲精品免费专线视频| 精品日韩亚洲av无码| 四房播播在线电影| 亚洲AV永久无码精品表情包| 精品国产一区二区三区性色| 无码精品人妻一区二区三区av| 欧美色欧美亚洲另类二区不卡| 国产熟女乱综合一区二区三区| 一级r片内射视频播放免费| 无码人妻精品一区二区三区不卡 | 国产山东熟女48嗷嗷叫| 国产无遮挡又黄又爽无VIP| 中文字幕在线看精品乱码| 久激情内射婷内射蜜桃人妖| 久久国产成人午夜av影院| 少妇被猛烈进入中文字幕| 日本一本之道高清不卡免费|