張培林,吳定海,王懷光,王正軍,王國德
(軍械工程學(xué)院,石家莊 050003)
一種具有雙控制比例因子的最優(yōu)間隔超球分類器
張培林,吳定海,王懷光,王正軍,王國德
(軍械工程學(xué)院,石家莊 050003)
針對支持向量描述只考慮目標(biāo)類訓(xùn)練樣本,結(jié)合支持向量機最優(yōu)分類超平面和支持向量描述的思想,引入了異常樣本信息的監(jiān)督機制,建立了最優(yōu)間隔超球分類器模型,以一個最小的超球包含目標(biāo)類訓(xùn)練樣本和一個盡可能大的超球體將非目標(biāo)樣本隔離在超球體外,使決策超球面與該兩個超球面以最大間隔分離,保證了描述精度和泛化性能,同時,為更好地排除對兩類樣本數(shù)據(jù)分布中野點的干擾,提出了一種雙控制比例因子的控制方法,更加靈活地實現(xiàn)軟間隔分類,仿真實例驗證了該分類器具有比SVDD更好的分類性能。
模式識別;統(tǒng)計學(xué)習(xí);最優(yōu)分類超球面;控制比例因子
Vapnik[1]提出了的支持向量機,是建立在統(tǒng)計學(xué)習(xí)理論的基礎(chǔ)上,通過引入了核函數(shù)映射、松弛變量、凸二次優(yōu)化等[2]技術(shù),使得支持向量機在遵循結(jié)構(gòu)風(fēng)險最小化的原則下獲得了最好的泛化性能,被廣泛應(yīng)用于數(shù)據(jù)處理、模式識別等領(lǐng)域[3-4]。
關(guān)于樣本數(shù)據(jù)分布不平衡的機器學(xué)習(xí)問題,Tax[5]等在支持向量機的基礎(chǔ)上提出了支持向量描述(Support Vector Data Description,SVDD),只需要目標(biāo)類數(shù)據(jù)訓(xùn)練樣本,在高維核映射空間建立一個最小的超球?qū)⒛繕?biāo)數(shù)據(jù)包括在球內(nèi),而非目標(biāo)數(shù)據(jù)盡量排除在球外,從而實現(xiàn)正確的分類。但是,這是一種無監(jiān)督的學(xué)習(xí)方法,沒有利用異常數(shù)據(jù)樣本的分布信息,模型參數(shù)一般難以確定,在注重模型的描述精度的同時卻喪失了泛化性能。
針對以上問題,本文結(jié)合了支持向量機最優(yōu)分類超平面和支持向量描述的超球體數(shù)據(jù)描述的思想,提出了一種具有雙控制比例因子的最優(yōu)間隔超球體分類器,在映射的高維特征空間中尋求一個決策超球體將兩類數(shù)據(jù)樣本以最大間隔分離,同時,雙控制比例因子可以實現(xiàn)更靈活的兩類樣本分類邊界的控制,排除野點的干擾,仿真實例驗證了本文模型相對于SVDD的優(yōu)越性。
支持向量機通過核函數(shù)將輸入空間映射到一個高維的特征空間,然后在特征空間中通過最大化分類間隔來構(gòu)造最優(yōu)分類超平面。
構(gòu)建的最優(yōu)分類超平面如圖1所示,H為分類超平面,H1、H2分別為通過各類樣本中離超平面最近點且平行于分類超平面的超平面,H1,H2之間的距離為兩類樣本的最大分類間隔,即為所謂的最優(yōu)分類超平面就是要求分類超平面不但能夠?qū)深悷o錯誤分開,而且要使其分類間隔最大,即保證了經(jīng)驗風(fēng)險最小,而且使得支持向量機在遵循結(jié)構(gòu)風(fēng)險最小化的原則下獲得了最好的泛化性能。
圖1 最優(yōu)分類超平面示意圖Fig.1 Optimal separation hyper-plane
如圖2所示,設(shè)yi∈{-1,1}為相應(yīng)的類標(biāo),借鑒以上支持向量分類超平面的思想,將數(shù)據(jù)樣本映射到高維核特征空間,尋求這樣一個同心超球體,其中H(a,R)為決策超球面,H+(a,R+)和 H-(a,R-)為與決策超球面同球心的超球面,同時,最小化H+(a,R+)將目標(biāo)類數(shù)據(jù)樣本包含在其中,最大化H-(a,R-)將非目標(biāo)數(shù)據(jù)樣本排除在超球體外,在實現(xiàn)正確的分類的同時使該兩分界面能夠?qū)深悩颖疽宰畲箝g隔分離,從而確定與該兩個分類面具有最優(yōu)間隔的決策面H(a,R),使該超球分類器模型能夠同時兼顧了描述精度和泛化性能。
圖2 最優(yōu)分類超球面Fig.2 Hypey-sphere classification with max separation
引入距離變量d,在核空間中尋求一個超球S(a,R),對于兩類訓(xùn)練樣本有如下約束:
控制比例因子v用于實現(xiàn)軟間隔分類,其意義在于:對于檢測的數(shù)據(jù)樣本在空間的分布往往存在野點,超球分類器數(shù)據(jù)描述為了將所有樣本包含在超球體內(nèi),必然要增大超球半徑,導(dǎo)致描述精度的下降。引入控制錯分的比例參數(shù)使得超球分界面能夠提供一種具有彈性的軟間隔,將偏離某一類別的奇異點排除在超球外,作為支持向量進行描述,從而縮小超球體積,提高描述的精度。控制比例因子v代替了傳統(tǒng)的懲罰參數(shù),具有具體的物理含義,即為邊界支持向量比例的上界和支持向量比例的下界,更有利于參數(shù)的取值。
對超球支持向量描述模型引入雙控制比例因子v1、v2,使v1用于控制目標(biāo)類樣本的邊界支持向量,調(diào)節(jié)軟間隔分界面 H+(a,R+),v2用于控制非目標(biāo)類樣本的邊界支持向量,調(diào)節(jié)軟間隔分界面 H-(a,R-),實現(xiàn)更加靈活的分類面控制,采用雙-v控制技術(shù)則可以更靈活地控制兩類分類錯誤,可以有效降低漏檢率和虛警概率。
假設(shè)有訓(xùn)練樣本個數(shù)n,其中目標(biāo)類訓(xùn)練樣本的個數(shù)為m1,非目標(biāo)類訓(xùn)練樣本個數(shù)為m2,所求決策超球體半徑為R,模型可描述為:
對該模型的解釋:第一項是在權(quán)衡目標(biāo)數(shù)據(jù)類樣本和非目標(biāo)數(shù)據(jù)類樣本分布后,求取最為緊湊的決策超球面;第二項解釋為最大化兩類數(shù)據(jù)的分類間隔(如圖2所示,以2d的間隔分離);第三項引入目標(biāo)類松弛變量因子ξi和控制比例因子v1,以軟間隔來描述正域邊界H+(a,R+),第四項為引入非目標(biāo)類松弛變量因子 ξj和控制比例因子 v2控制的負域軟間隔邊界 H-(a,R-)。
為求解上述最優(yōu)化問題,構(gòu)造Lagrange函數(shù)
對以上的 Lagrange 函數(shù),分別對變量 R,d,a,ξi,ξj求偏導(dǎo)求極值
通過解最優(yōu)化問題,可知超球的球心為:
該模型的正域決策超球面H+(a,R+):
負域的決策超球面H-(a,R-):
求解完成后,模型的判別函數(shù)為:
支持向量的確定至關(guān)重要,在該模型中,由拉格朗
類似SVM,最優(yōu)分類決策超球面:日乘子αi可知隸屬于正域H+(a,R+)和負域 H-(a,R-)支持向量的集合為:
經(jīng)過超球支持向量訓(xùn)練后,各數(shù)據(jù)樣本點及支持向量應(yīng)分布如下:
為分析模型控制比例因子對超球分類面的影響,以prtool[6]工具箱產(chǎn)生的Banana數(shù)據(jù)集作為測試數(shù)據(jù)集,兩類樣本間具有較好的可分性,產(chǎn)生測試樣本200個,其中含目標(biāo)類數(shù)據(jù)樣本160個,非目標(biāo)類測試樣本40個,設(shè)置模型的核參數(shù)σ=5,不同的控制比例因子下分類面如圖3所示。
圖3 不同控制比例因子下的超球分界面Fig.3 Hyper-sphere of different proportion control parameters
該仿真實例主要用于考查控制比例因子對于消除野點干擾的作用,如圖3(a)中所示,當(dāng)控制比例因子均取0時,由于其中一目標(biāo)類樣本點偏離較遠,在這里將其視為野點,三個分界面幾乎重疊在一起,體現(xiàn)不出兩類樣本間的可分性,圖3(b)中,設(shè)置目標(biāo)類控制比例因子為0.01,則將該野點排除在正域分界面之外,以支持向量來描述,圖3(c)中設(shè)置非目標(biāo)類控制比例因子為0.05,將偏離非目標(biāo)類樣本較遠的野點排除在負域之外,以支持向量來描述。
不同控制比例因子下,超球體分界面半徑的變化如表1所示,由表中也可以看出,通過控制比例因子的調(diào)整排除野點干擾后,超球半徑發(fā)生了較為明顯的變化,同時正負域之間的可分性更加明顯,描述精度提高,泛化性能增強。
表1 不同控制比例因子下各超球分界面半徑Tab.1 Hyper-sphere radius of different control parameters
對于解決不平衡數(shù)據(jù)分類問題來說,使用準(zhǔn)確率作為分類器性能的評價標(biāo)準(zhǔn)是不合適的。評價此類模型性能的好壞最為有效的是ROC(Receiver operating characteristics,ROC)[6]曲線。ROC 曲線從以下兩個方面來全面刻畫分類器的性能,橫坐標(biāo)為對正常樣本正確判別率,縱坐標(biāo)為異常樣本被識別為正常的概率,并采用ROC曲線下面積(Area Under Curve,AUC)代替ROC曲線對分類器的性能進行定量評價,顯然AUC∈[0,1],且AUC越大,分類精度越高,整體的泛化性能越好。
下面就以UCI標(biāo)準(zhǔn)的測試數(shù)據(jù)集[7]對該分類器進行測試,對標(biāo)準(zhǔn)數(shù)據(jù)集的設(shè)置如表2所示,取部分的數(shù)據(jù)進行訓(xùn)練,其余部分進行測試,對于多類的數(shù)據(jù)集,只取其中某一類作為目標(biāo)數(shù)據(jù)。從訓(xùn)練樣本可以看出,訓(xùn)練時,目標(biāo)數(shù)據(jù)與非目標(biāo)數(shù)據(jù)明顯差異較大,體現(xiàn)了數(shù)據(jù)樣本分布不平衡。
表2 UCI標(biāo)準(zhǔn)測試數(shù)據(jù)集Tab.2 UCI standard test data sets
利用粒子群優(yōu)化算法分別對模型參數(shù)進行優(yōu)化,優(yōu)化后的模型參數(shù)及測試結(jié)果的對比分析如表3所示,可以看出,在相同的訓(xùn)練、測試條件和最優(yōu)參數(shù)下,本文提出的分類器對任意一個測試數(shù)據(jù)集的分類性能明顯要優(yōu)于SVDD,在針對數(shù)據(jù)樣本分布不平衡問題時,本文提出的引入異常類樣本信息的監(jiān)督作用和雙控制比例因子對于提高超球分類器性能具有重要影響,能夠有效提高分類器的泛化性能。
表3 測試結(jié)果對比分析Tab.3 Contrastive analysis of test results
對于解決模式識別中數(shù)據(jù)樣本分布不平衡問題,本文在深入分析支持向量描述模型的基礎(chǔ)上,借鑒支持向量機最優(yōu)分類超平面的思想,建立了最優(yōu)間隔超球分類器模型,分析了該模型的支持向量分布,并通過仿真實例來驗證該模型的分類性能,得出以下結(jié)論:
(1)該模型通過引入了異常樣本信息的監(jiān)督機制,在核特征空間中將兩類樣本以最大間隔分離,在提高分類器描述精度的同時增強了泛化性能;
(2)引入的雙控制比例因子使得該模型可以更加靈活地控制兩類分界面的軟間隔邊界,更好地排除野點的干擾,進一步提高分類器性能。
[1] Vapnik V.The nature of statistical learning theory[M].New York:Springer- Verlag,1995.
[2]Vladimir N V.Statistical learning theory[M].許建華,張學(xué)工,譯.1版.北京:電子工業(yè)出版社,2004:324-360.
[3]張 曦,閻威武,劉振亞,等.基于核主元分析和鄰近支持向量機的汽輪機凝汽器過程監(jiān)控和故障診斷[J].中國電機工程學(xué)報,2007,27(14):56-60.
[4]皋 軍,王士同.基于矩陣模式的最小類內(nèi)散度支持向量機[J].電子學(xué)報,2009,37(5):1051-1057.
[5] Tax D,Duin R.Support vector domain description[J].Pattern Recognition Letters,1999,20:1191 -1199.
[6] Tax D M J,Duin R P W.Support vector data description[J].Machine Learning Research,2004,(54):45 -66.
[7] Blake C L,Merz C J.UCI repository of machine learning database[EB/OL].http://www.ics.uci.edu/~ mlearn/MLrepository.html.
An optimal separation hyper-sphere classification model with double proportion control parameters
ZHANG Pei-lin,WU Ding-hai,WANG Huai-guang,WANG Zheng-jun,WANG Guo-de
(Ordnance Engineering College,Shijiazhuang 050003,China)
After analyzing the disadvantage of unsupervised training of support vector data description(SVDD),combining the advantage of optimal separation hyper-plane and SVDD,and inducing the supervision of information of negative class,a hyper-sphere classification model with optimal separation was proposed.With one minimum hyper-sphere containing positive class and one hyper-sphere as big as possible excluding negative class,the decision hyper-sphere was made to separate itself and the two hyper-spheres with the max distance to improve the model's description accuracy and generalization performance.To remove the interference of bad points,a method with double proportion control parameter was proposed,it could realize soft separation.Simulation results of Banana and UCI data sets showed that the proposed model has better classification performance than SVDD.
pattern recognition;statistical learning;optimal separation hyper sphere;proportion control parameter
TH17;TP391.4
A
2010-08-16 修改稿收到日期:2010-11-25
張培林 男,教授,博士生導(dǎo)師,1955年生