蔡艷艷,宋曉東
(北京航空航天大學(xué)經(jīng)濟(jì)管理學(xué)院,北京 100191)
針對(duì)非平衡數(shù)據(jù)分類的新型模糊SVM模型
蔡艷艷,宋曉東
(北京航空航天大學(xué)經(jīng)濟(jì)管理學(xué)院,北京 100191)
提出了一種新的模糊支持向量機(jī)模型——非平衡數(shù)據(jù)分類的支持向量機(jī)模型,通過(guò)改進(jìn)懲罰函數(shù),降低模型對(duì)于含有噪聲點(diǎn)的非平衡樣本數(shù)據(jù)的敏感性,并采用網(wǎng)格搜索算法來(lái)確定各個(gè)支持向量機(jī)模型中參數(shù)的優(yōu)化取值.研究結(jié)果表明,非平衡數(shù)據(jù)分類的支持向量機(jī)模型對(duì)非平衡樣本數(shù)據(jù)進(jìn)行分類的效果優(yōu)于其他方法,不僅總體判別精度較高,也提高了少數(shù)類樣本的判別精度,取得了較好的改進(jìn)效果.
支持向量機(jī);分類;非平衡數(shù)據(jù)集;噪聲;懲罰函數(shù)
支持向量機(jī)(Support Vector Machine,SVM)實(shí)質(zhì)上是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的新型機(jī)器學(xué)習(xí)方法,最早由Vapnik等[1]提出,具有嚴(yán)格的數(shù)學(xué)基礎(chǔ)和良好的泛化能力.目前,支持向量機(jī)已經(jīng)被廣泛地應(yīng)用到人臉識(shí)別[2]、故障檢測(cè)[3]、信用評(píng)價(jià)[4]和文本分類[5]等諸多領(lǐng)域,并且在解決平衡樣本數(shù)據(jù)分類問(wèn)題方面的性能優(yōu)越.然而,傳統(tǒng)支持向量機(jī)存在過(guò)度擬合的問(wèn)題,對(duì)噪聲樣本點(diǎn)十分敏感.此外,在二分類問(wèn)題中,傳統(tǒng)支持向量機(jī)將每個(gè)樣本點(diǎn)絕對(duì)視為某一類,沒(méi)有考慮到樣本點(diǎn)可能存在的雙重屬性,也導(dǎo)致模型判別精度下降[6-7].
Lin等[8]構(gòu)建了模糊支持向量機(jī)(Fuzzy Support Vector Machine,FSVM)模型,根據(jù)樣本點(diǎn)對(duì)所在類的不同重要性分配給每個(gè)樣本點(diǎn)不同的權(quán)重值,來(lái)降低支持向量機(jī)對(duì)于噪聲點(diǎn)的敏感性.進(jìn)一步,考慮到樣本點(diǎn)可能同時(shí)隸屬于兩類樣本,Wang等[9]構(gòu)建了雙隸屬支持向量機(jī)(Bilateral-weighted Fuzzy Support Vector Machine,B-FSVM)模型,通過(guò)采用隸屬度函數(shù)對(duì)每個(gè)樣本點(diǎn)隸屬于兩類樣本的程度進(jìn)行刻畫(huà).然而,模糊支持向量機(jī)和雙隸屬支持向量機(jī)模型與傳統(tǒng)支持向量機(jī)類似,仍然沒(méi)有消除樣本數(shù)據(jù)非平衡對(duì)于分類精度的影響.非平衡數(shù)據(jù)集是指至少存在一個(gè)類別的樣本數(shù)相對(duì)其他類別更少的數(shù)據(jù)集.在非平衡的數(shù)據(jù)集下,傳統(tǒng)支持向量機(jī)和各種形式的模糊支持向量機(jī)對(duì)兩類樣本的分類效果會(huì)不同,即樣本數(shù)量較少的一類(負(fù)類)判別精度較差,而樣本數(shù)量較多的一類(正類)判別精度較高.這不僅影響整體的分類性能,而且由于對(duì)樣本數(shù)量較少的一類的判別精度有時(shí)更為重要,導(dǎo)致分類模型的應(yīng)用價(jià)值下降.例如,醫(yī)療領(lǐng)域的疾病識(shí)別,患病的樣本數(shù)通常比未患病樣本數(shù)少得多,但對(duì)于患病類樣本(少類)的正確判別無(wú)疑更為重要.
為了降低支持向量機(jī)對(duì)于樣本數(shù)據(jù)非平衡的敏感性,提高支持向量機(jī)的判別精度,特別是提高對(duì)于樣本數(shù)量較少一類的判別精度,國(guó)內(nèi)外學(xué)者進(jìn)行了相關(guān)的研究,并取得了一定的成果.總體來(lái)說(shuō),這些方法可以分為構(gòu)建平衡樣本和修正支持向量機(jī)模型兩大類.其中,構(gòu)建平衡樣本主要是采用一定的方法使得兩類樣本重新平衡,包括減少多數(shù)樣本采樣[10]與增加少數(shù)樣本采樣[11]兩種;修正支持向量機(jī)模型主要是通過(guò)修正算法本身,降低算法對(duì)于樣本非平衡的敏感程度,包括SMOTE模型[12-13]和z-SVM模型[14]等.關(guān)于處理樣本數(shù)據(jù)非平衡的各種方法及其優(yōu)缺點(diǎn),在文獻(xiàn)[15-16]中都有著較為詳細(xì)的綜述.
1.1 支持向量機(jī)的基本模型
支持向量機(jī)的核心思想是在兩類樣本之間尋找一個(gè)最優(yōu)分類面,這個(gè)最優(yōu)分類面要保證分類精度高且分類間隔最大.
假設(shè)樣本集z={(xi,yi),i=1,…,l},其中,輸入向量代表不同指標(biāo);yi代表樣本類別.對(duì)于二分類問(wèn)題,所有樣本被分為A、B兩類,以yi∈{-1,+1},i=1,…,l來(lái)表示,每一個(gè)樣本xi只對(duì)應(yīng)一個(gè)yi.若yi=+1,則將xi劃為A類;若yi=-1,則將xi劃為B類.
假設(shè)最優(yōu)分類面方程為ωTφ(x)+b=0,則對(duì)于yi=+1,ωTφ(xi)+b≥1;對(duì)于yi=-1, ωTφ(xi)+b≤-1.因此,可以得到
其中,φ(*):Rn→Rd,表示映射函數(shù),可將低維不可分的樣本集非線性地映射到高維空間,從而能夠線性可分.式中,使等號(hào)成立的樣本點(diǎn)xi被稱為支持向量.
由最優(yōu)分類面ωTφ(x)+b=0,可以計(jì)算出兩類樣本的分類間隔為因此,要保證分類間隔最大,就等價(jià)于使最小.另外,考慮到一些噪音樣本點(diǎn)會(huì)導(dǎo)致這些樣本即使在映射后的高維空間也會(huì)被判別錯(cuò)誤,因此,支持向量機(jī)模型在優(yōu)化問(wèn)題約束條件中增加一個(gè)松弛變量ξi,ξi>0.最終,支持向量機(jī)模型變?yōu)?/p>
其中,C>0,代表樣本點(diǎn)被錯(cuò)誤分類時(shí)的懲罰系數(shù).C數(shù)值越大,表明對(duì)錯(cuò)誤的懲罰越嚴(yán)重.
1.2 雙隸屬模糊支持向量機(jī)模型
在傳統(tǒng)支持向量機(jī)模型中,每一個(gè)樣本點(diǎn)被絕對(duì)地劃分到A類或者B類.但在很多實(shí)際問(wèn)題中,樣本點(diǎn)往往不是絕對(duì)地隸屬于某一類,而是存在雙重屬性.此外,在傳統(tǒng)支持向量機(jī)中,不同樣本點(diǎn)被錯(cuò)誤分類的懲罰參數(shù)是相同的,使得傳統(tǒng)支持向量機(jī)存在過(guò)度擬合問(wèn)題,對(duì)于數(shù)據(jù)集中的噪聲點(diǎn)十分敏感.文獻(xiàn)[9]中構(gòu)建的新的雙隸屬度模糊支持向量機(jī)模型使得每個(gè)訓(xùn)練樣本同時(shí)依隸屬度屬于兩個(gè)類別,有效地解決了上述兩個(gè)問(wèn)題.
在雙隸屬支持向量機(jī)中,樣本集形式可以表示為
每個(gè)樣本分別依隸屬度屬于兩類,即樣本xi屬于A類(yi=1)的隸屬度為,屬于B類(yi=-1)的隸屬度為
雙隸屬度模糊支持向量機(jī)的基本模型為
其中,ξi,ηi分別是樣本點(diǎn)xi隸屬于A類和B類的松弛變量.
傳統(tǒng)的支持向量機(jī)沒(méi)有考慮可能存在的樣本重疊情況,對(duì)于噪聲樣本點(diǎn)和樣本非平衡也比較敏感.已有的針對(duì)樣本非平衡的支持向量機(jī)改進(jìn)模型仍然沒(méi)有考慮樣本重疊的情況,且依然對(duì)于噪聲樣本點(diǎn)比較敏感;而模糊支持向量機(jī)模型盡管可以克服噪聲樣本點(diǎn)問(wèn)題,雙隸屬度支持向量機(jī)甚至考慮了樣本重疊的情況,但這些模型卻沒(méi)有考慮樣本數(shù)據(jù)集非平衡時(shí)對(duì)支持向量機(jī)分類效果的影響.筆者改進(jìn)了Wang等[9]的模型,構(gòu)建了一種新的支持向量機(jī)模型,既兼顧到樣本的雙重屬性,同時(shí)也能夠克服樣本非平衡、噪聲樣本點(diǎn)對(duì)支持向量機(jī)分類性能的影響.
筆者建立的改進(jìn)支持向量機(jī)模型結(jié)構(gòu)為
對(duì)比已有的支持向量機(jī)和雙隸屬支持向量機(jī)模型,筆者構(gòu)建的非平衡數(shù)據(jù)分類的支持向量機(jī)模型(Class Imbalance Fuzzy Support Vector Machine,CI-FSVM)具有以下優(yōu)點(diǎn):
(1)在非平衡數(shù)據(jù)分類的支持向量機(jī)模型中,每個(gè)樣本點(diǎn)具有雙隸屬度和),雙隸屬度能夠體現(xiàn)出不同樣本點(diǎn)的重要性.因此,非平衡數(shù)據(jù)分類的支持向量機(jī)模型能夠降低噪聲樣本點(diǎn)在訓(xùn)練階段的重要性,從而緩解模型對(duì)于噪聲樣本點(diǎn)的“過(guò)擬合”問(wèn)題.
(2)rA、rB參數(shù)能夠調(diào)節(jié)非平衡數(shù)據(jù)分類的支持向量機(jī)模型的錯(cuò)誤分類懲罰體現(xiàn)兩類樣本數(shù)量的不平衡,減少兩類樣本的非平衡所帶來(lái)的影響.
因此,對(duì)于非平衡數(shù)據(jù)分類的支持向量機(jī)模型來(lái)說(shuō),需要正確地設(shè)定隸屬度和以及非平衡調(diào)整參數(shù)rA和rB.
對(duì)于樣本非平衡調(diào)整參數(shù)rA和rB的設(shè)定,假定A類為多類,B類為少類,參考Akbani等[17]的思路,令
其中,r為A類(多類)與B類(少類)樣本數(shù)量的比值(r>1).
為了檢驗(yàn)上文構(gòu)建的非平衡數(shù)據(jù)分類的支持向量機(jī)模型的效果,通過(guò)對(duì)比實(shí)驗(yàn),比較了非平衡數(shù)據(jù)分類的支持向量機(jī)模型和其他已有方法對(duì)樣本數(shù)據(jù)的分類效果.
仿真實(shí)驗(yàn)的數(shù)據(jù)取自加利福尼亞大學(xué)UCI機(jī)器學(xué)習(xí)樣本庫(kù)中廣泛應(yīng)用的Pima-Indians數(shù)據(jù)庫(kù).Pima-Indians數(shù)據(jù)庫(kù)包含樣本768個(gè),共兩類,其中多類(正類)包含500個(gè)樣本,少類(負(fù)類)包含268個(gè)樣本.在進(jìn)行仿真實(shí)驗(yàn)時(shí),筆者隨機(jī)選取多類樣本500個(gè)和少類樣本200個(gè),兩類樣本的非平衡比例為5∶2.為了確保實(shí)驗(yàn)結(jié)果的穩(wěn)健性,側(cè)重對(duì)各方法泛化能力的對(duì)比,采用5組交叉驗(yàn)證方法,具體做法為:將樣本集分為數(shù)量相等的5組,即每組各含多類樣本點(diǎn)100個(gè)和少類樣本點(diǎn)40個(gè);取其中4組樣本點(diǎn)作為訓(xùn)練集,剩下1組作為測(cè)試集,仿真得到分類精度.如此重復(fù)5次,得到5個(gè)分類精度.計(jì)算上述5個(gè)分類精度的簡(jiǎn)單平均值,作為算法的最終分類精度.
(1)數(shù)據(jù)的歸一化處理.數(shù)據(jù)的歸一化能夠使得各個(gè)指標(biāo)在分類時(shí)具有相同的作用,避免由于某個(gè)指標(biāo)的數(shù)值范圍大而產(chǎn)生較大判別誤差.因此,為了將原始數(shù)據(jù)歸一化處理至區(qū)間[0,1],筆者采用的歸一化公式為
(2)核函數(shù)和參數(shù)選取.求解支持向量機(jī)模型需要計(jì)算高維空間的內(nèi)積φ(xi)Tφ(xj),為避免維度災(zāi)難,支持向量機(jī)模型采用核函數(shù)K(xi,xj)來(lái)代替φ(xi)Tφ(xj).筆者選取高斯核函數(shù),即
對(duì)于具有高斯核函數(shù)的支持向量機(jī)模型,主要的參數(shù)包括C和σ2,參數(shù)的選取對(duì)模型的效果影響較大.參考相關(guān)文獻(xiàn),筆者采用網(wǎng)格參數(shù)搜索算法[18]來(lái)確定C和σ2的最優(yōu)值.假定C的取值范圍是{2-8,2-7,…, 28},σ2的取值范圍是{2-8,2-7,…,28},分別組合形成參數(shù)對(duì)(C,σ2).然后,采用5組交叉驗(yàn)證的方法計(jì)算每一對(duì)(C,σ2)下支持向量機(jī)模型的分類精度,取分類精度最高時(shí)對(duì)應(yīng)的參數(shù)組合(C*,σ2*)作為模型的最優(yōu)取值.
此外,對(duì)于非平衡數(shù)據(jù)分類的支持向量機(jī)模型中的樣本非平衡調(diào)整參數(shù)(rA,rB),根據(jù)式(7),取rA=1, rB=r=500/200=2.5.
(3)仿真結(jié)果分析.為了客觀地評(píng)價(jià)筆者提出的非平衡數(shù)據(jù)分類的支持向量機(jī)模型效果,需要將其與其他現(xiàn)有模型的判別精度進(jìn)行橫向比較.筆者將模糊支持向量機(jī)[8]、雙隸屬支持向量機(jī)[9]、Undersampling[10]、Over-sampling[11]、SMOTE[12-13]和z-SVM[14]這6個(gè)模型進(jìn)行對(duì)比,以相同的樣本集作為數(shù)據(jù)來(lái)源,判別結(jié)果如表1所示.其中,L表示靈敏度,即多類樣本劃分正確的數(shù)量占所有多類樣本的比例;T表示特異度,即少類樣本劃分正確的數(shù)量占所有少類樣本的比例.總精度G為L(zhǎng)和T的幾何平均值,即
表1 相同樣本集下各模型的判別精度對(duì)比
如表1所示,在相同樣本集下,非平衡數(shù)據(jù)分類的支持向量機(jī)模型的靈敏度為96.48%,特異度為94.55%,總精度高達(dá)95.51%.雖然非平衡數(shù)據(jù)分類的支持向量機(jī)模型的靈敏度低于模糊支持向量機(jī)(97.33%)和z-SVM(96.84%)模型,但是特異度和總精度顯著高于其他方法.特異度最高,說(shuō)明非平衡數(shù)據(jù)分類的支持向量機(jī)模型對(duì)于少類樣本的判別精度顯著優(yōu)于其他方法;總精度最高,說(shuō)明非平衡數(shù)據(jù)分類的支持向量機(jī)模型的總體分類效果最優(yōu).因此,筆者建立的非平衡數(shù)據(jù)分類的支持向量機(jī)模型達(dá)到了預(yù)期的效果,即一方面通過(guò)雙隸屬度降低了模型對(duì)于噪聲樣本點(diǎn)的敏感性,另一方面有效地解決了樣本非平衡給模型判別帶來(lái)的困擾.
為了進(jìn)一步比較筆者提出的非平衡數(shù)據(jù)分類的支持向量機(jī)模型和其他模型的分類性能,采用ROC[19](Receiver Operating Characteristic curve)來(lái)評(píng)價(jià)各個(gè)算法的判別能力.ROC曲線依據(jù)一系列二分類結(jié)果(分界值或決定閾),以1-特異度作為橫坐標(biāo),以靈敏度L作為縱坐標(biāo)繪制而成.ROC曲線對(duì)樣本分布和類別先驗(yàn)概率不具有敏感性,是一類相對(duì)有效的分類器性能評(píng)估工具.ROC曲線通常采用AUC(Area Under Curve)指標(biāo)來(lái)衡量分類器性能,AUC越大,則分類性能越好.
如圖1所示,在相同樣本集下,繪制了非平衡數(shù)據(jù)分類的支持向量機(jī)模型、模糊支持向量機(jī)、雙隸屬支持向量機(jī)、Undersampling、Over-sampling、SMOTE和z-SVM模型的ROC曲線.可以看出,非平衡數(shù)據(jù)分類的支持向量機(jī)模型對(duì)應(yīng)的ROC曲線AUC值最大,從而證明了非平衡數(shù)據(jù)分類的支持向量機(jī)模型的判別性能優(yōu)于其他模型.
圖1 各模型的ROC曲線對(duì)比
針對(duì)樣本數(shù)據(jù)非平衡問(wèn)題建立了一種新的模糊支持向量機(jī)模型,可以有效地降低模型對(duì)于樣本集中的噪聲點(diǎn)的敏感性,提高分類精度,還能顯著提高少類樣本的判別精度,有效地降低樣本的非平衡導(dǎo)致模型分類效果不佳的影響,應(yīng)用前景更好.仿真實(shí)驗(yàn)結(jié)果也支持了上述觀點(diǎn),證明筆者構(gòu)建的非平衡數(shù)據(jù)分類的支持向量機(jī)模型的判別精度的確要高于其他方法,而且模型對(duì)于樣本非平衡問(wèn)題的解決也最為有力.將上述的二分類非平衡數(shù)據(jù)分類的支持向量機(jī)模型擴(kuò)展到多分類問(wèn)題中,將是下一步研究的重點(diǎn).
[1]Vapnik V N.The Nature of Statistical Learning Theory[M].New York:Springer,1995.
[2]Luo Y,Wu C M,Zhang Y.Facial Expression Recognition Based on Fusion Feature of PCA and LBP with SVM[J]. Optik-International Journal for Light and Electron Optics,2013,124(9):2767-2770.
[3]Xiao Y C,Wang H G,Zhang L,et al.Two Methods of Selecting Gaussian Kernel Parameters for One-class SVM and Their Application to Fault Detection[J].Knowledge-Based Systems,2014,59(3):75-84.
[4]Zhong H M,Miao C Y,Shen Z Q,et al.Comparing the Learning Effectiveness of BP,ELM,I-ELM,and SVM for Corporate Credit Ratings[J].Neurocomputing,2014,128(3):285-295.
[5]Marseguerra M.Early Detection of Gradual Concept Drifts by Text Categorization and Support Vector Machine Techniques:the Trio Algorithm[J].Reliability Engineering&System Safety,2014,129(9):1-9.
[6]Guyon I,Matic N,Vapnik V N.Discovering Information Patterns And Data Cleaning[M].Cambridge:MIT Press, 1996.
[7]Debruyne M.An Outlier Map for Support Vector Machine Classification[J].The Annals of Applied Statistics,2009,3 (4):1566-1580.
[8]Lin C F,Wang S D.Fuzzy Support Vector Machines[J].IEEE Transactions on Neural Networks,2002,13(2):464-471.
[9]Wang Y Q,Wang S Y,Lai K K.A New Fuzzy Support Vector Machine to Evaluate Credit Risk[J].IEEE Transactions on Fuzzy Systems,2005,13(6):820-831.
[10]Weiss G M.Mining with Rarity:a Unifying Framework[J].ACM SIGKDD Explorations Newsletter,2004,6(1):7-19.
[11]He H,Garcia E.Learning from Imbalanced Data[J].IEEE Transactions on Knowledge and Data Engineering,2009,21 (9):1263-1284.
[12]Han H,Wang W Y,Mao B H.Borderline-SMOTE:a New Over-Sampling Method in Imbalanced Data Sets Learning [C]//Proceedings of International Conference on Intelligent Computing.Berlin:Springer-Verlag,2005:878-887.
[13]王超學(xué),潘正茂,董麗麗,等.基于改進(jìn)SMOTE的非平衡數(shù)據(jù)集分類研究[J].計(jì)算機(jī)工程與應(yīng)用,2013,49(2):184-187. Wang Chaoxue,Pan Zhengmao,Dong Lili,et al.Research on Classification for Imbalanced Dataset Based on Improved SMOTE[J].Computer Engineering and Applications,2013,49(2):184-187.
[14]Imam T,Ting K,Kamruzzaman J.z-SVM:an SVM for Improved Classification of Imbalanced Data[C]//Proceedings of the 19th Australian Joint Conference on AI.Berlin:Springer-Verlag,2006:264-273.
[15]劉進(jìn)軍.基于懲罰的SVM和集成學(xué)習(xí)的非平衡數(shù)據(jù)分類算法研究[J].計(jì)算機(jī)應(yīng)用與軟件,2014,31(1):186-190. Liu Jinjun.Research on Classifying Unbalanced Data Based on Penalty-based SVM and Ensemble Learning[J].Computer Applications and Software,2014,31(1):186-190.
[16]孫全尚.不平衡數(shù)據(jù)集分類方法研究[J].科教文匯,2013(9):92-93. Sun Quanshang.Research on Imbalanced Data Sets Classification Method[J].The Science Education Article Collects, 2013(9):92-93.
[17]Akbani R,Kwek S,Japkowicz N.Applying Support Vector Machines to Imbalanced Datasets[C]//Proceedings of the 15th European Conference on Machine Learning.Berlin:Springer-Verlag,2004:39-50.
[18]Hsu C W,Lin C L.A Comparison of Methods for Multiclass Support Vector Machines[J].IEEE Transactions on Neural Networks,2002,13(2):415-425.
[19]Choi S W,Park J Y.Nonparametric Additive Model with Grouped Lasso and Maximizing Area under the ROC Curve [J].Computational Statistics and Data Analysis,2014,77(9):313-325.
(編輯:郭 華)
New fuzzy SVM model used in imbalanced datasets
CAI Yanyan,SONG Xiaodong
(School of Economics and Management,Beihang Univ.,Beijing 100191,China)
The paper proposes a new fuzzy SVM,called CI-FSVM(Class Imbalance Fuzzy Support Vector Machine)short for which is based on imbalanced datasets classification.By improving penalty functions,we reduce the sensitivity of the model for imbalanced datasets with“overlap”.In addition,the parameters in SVM models are optimized by the grid-parameter-search algorithm.The results show that the CI-FSVM has a better effect in imbalanced datasets classification compared with other models.It not only has a higher overall accuracy,but also improves are judgment accuracy when dealing with the minority classifications.
support vector machine;classification;imbalanced datasets;noise samples;penalty function
TP181
A
1001-2400(2015)05-0120-05
2014-09-29< class="emphasis_bold">網(wǎng)絡(luò)出版時(shí)間:
時(shí)間:2014-12-23
國(guó)家自然科學(xué)基金重點(diǎn)資助項(xiàng)目(70821061)
蔡艷艷(1976-),女,北京航空航天大學(xué)博士研究生,E-mail:caiyanyan@buaa.edu.cn.
宋曉東(1984-),男,講師,博士,E-mail:song5120@126.com
http://www.cnki.net/kcms/detail/61.1076.TN.20141223.0946.021.html
10.3969/j.issn.1001-2400.2015.05.021