佛山市高明區(qū)廣播電視大學(xué) 謝長(zhǎng)菊
支持向量機(jī)分類誤差不均衡內(nèi)在原因分析
佛山市高明區(qū)廣播電視大學(xué) 謝長(zhǎng)菊
對(duì)于標(biāo)準(zhǔn)支持向量機(jī)C2SVM,樣本數(shù)大小不同時(shí),樣本數(shù)量多的類別,其訓(xùn)練誤差、預(yù)測(cè)誤差小;而樣本數(shù)量少的類別,其訓(xùn)練誤差、預(yù)測(cè)誤差反而大。這就導(dǎo)致分類類別誤差的不均衡。就這一問題,對(duì)C2SVM在理論上進(jìn)行分析,找出它們出現(xiàn)這種情況的內(nèi)在本質(zhì)的原因,指出了出現(xiàn)這種分類類別誤差,是由C2SVM的本質(zhì)、內(nèi)在的特性決定的,并非由實(shí)驗(yàn)環(huán)境或者是算法實(shí)現(xiàn)過程中的偶然因素所致。
模式識(shí)別統(tǒng)計(jì)學(xué)習(xí)理論支持向量機(jī)
統(tǒng)計(jì)學(xué)習(xí)理論[2]和支持向量分類機(jī)(SVM)正在成為繼神經(jīng)網(wǎng)絡(luò)研究之后新的研究熱點(diǎn)。SVM算法在模式識(shí)別、回歸估計(jì)、概率密度函數(shù)估計(jì)等方面都有應(yīng)用。特別是在模式識(shí)別方面,對(duì)于文本的自動(dòng)分類、手寫數(shù)字識(shí)別、語音識(shí)別、人臉圖像識(shí)別等問題,SVM算法在精度上已經(jīng)超過傳統(tǒng)的學(xué)習(xí)算法。作為新生事物,SVM在實(shí)際應(yīng)用中,不斷出現(xiàn)一些新問題,等待我們?nèi)ソ鉀Q。比如正、負(fù)兩類訓(xùn)練樣本數(shù)目差別很大的時(shí)候,訓(xùn)練誤差對(duì)于兩類來說差別很大。這需要我們進(jìn)行深入的研究。
ChewHong2Gunn在文獻(xiàn)[1]中,對(duì)SVM應(yīng)用于雷達(dá)圖像的目標(biāo)自動(dòng)監(jiān)測(cè)進(jìn)行了研究。對(duì)于低分辨率電子顯像雷達(dá)圖像的目標(biāo)監(jiān)測(cè)來說,大量的圖像是不包含有目標(biāo)的,而含有目標(biāo)的圖像所占比例非常小。如果以包含目標(biāo)的樣本圖像作為正類,而不包含目標(biāo)的圖像作為負(fù)類,那么按照隨機(jī)抽樣原則獲得的訓(xùn)練樣本,正類樣本數(shù)目很少,而負(fù)類樣本占有絕對(duì)多數(shù)的比例。這就出現(xiàn)了不同類別之間,訓(xùn)練樣本數(shù)目上不均衡的情況。作為訓(xùn)練集來說,樣本數(shù)目在各個(gè)類別之間不均衡是很正常的。在實(shí)際應(yīng)用中,我們也沒有理由要求所獲得的訓(xùn)練樣本,在不同類別中的數(shù)目都相同。那么這種不均衡對(duì)SVM的訓(xùn)練效果有沒有影響,有什么樣的影響,如何消除這種影響?對(duì)于這個(gè)問題,結(jié)合實(shí)驗(yàn),文獻(xiàn)[1]針對(duì)C2SVM在理論上作了如下粗略的分析。指出如果l-、l+分表示是正、負(fù)類訓(xùn)練樣本數(shù),那么分類錯(cuò)誤率之比為:
如此說來,對(duì)于標(biāo)準(zhǔn)支持向量機(jī)C2SVM,樣本數(shù)大小不同時(shí),樣本數(shù)量多的類別,其訓(xùn)練誤差、預(yù)測(cè)誤差小,而樣本數(shù)量少的類別,其訓(xùn)練誤差、預(yù)測(cè)誤差反而大。這就是類別誤差不均衡。這樣的類別誤差不均衡,在很多場(chǎng)合必須給予消除和調(diào)整。對(duì)于雷達(dá)目標(biāo)監(jiān)測(cè)問題來說,寧愿出現(xiàn)誤報(bào)警(不應(yīng)該報(bào)警卻報(bào)警了),也不愿出現(xiàn)漏報(bào)警的情況(應(yīng)該報(bào)警卻沒有報(bào)警)。類似情形出現(xiàn)在疾病診斷、故障分析中。
提高SVM分類能力,是SVM研究的根本目的。SVM出現(xiàn)類別分類誤差不均衡的問題,必須進(jìn)行調(diào)整,即類別補(bǔ)償。但是在考慮如何進(jìn)行類別補(bǔ)償之前,首先需要思考:出現(xiàn)這種分類類別誤差,是由SVM的本質(zhì)、內(nèi)在的特性決定的,還是由實(shí)驗(yàn)環(huán)境或者是算法實(shí)現(xiàn)過程中的偶然因素所致,不均衡是否是SVM內(nèi)在的規(guī)律?導(dǎo)致SVM訓(xùn)練誤差和預(yù)測(cè)誤差不均衡的內(nèi)在原因是什么?現(xiàn)在針對(duì)標(biāo)準(zhǔn)支持向量機(jī)C2SVM進(jìn)行分析。首先來考慮C2SVM的原始問題:
對(duì)應(yīng)的拉格朗日函數(shù)為:
若α為它的對(duì)偶問題的最優(yōu)解,則其應(yīng)該滿足如下的KKT條件:
所謂的邊界支持向量,就是ξi>0所對(duì)應(yīng)的向量。此時(shí),由KKT條件(4)知,α1=C。滿足這樣條件的向量記為BSV,它們是錯(cuò)誤分類的樣本。用NBSV+、NBSV2分別為正、負(fù)類邊界支持向量的數(shù)目,則有:
這就是我們要找的結(jié)論:無論正類、負(fù)類樣本數(shù)差別多大,C2SVM給NBSV+和NBSV2所提供的上界都是相同的。如果考慮的不是分類錯(cuò)誤的數(shù)目,而是分類錯(cuò)誤的比率,當(dāng)正類、負(fù)類樣本數(shù)相差很大時(shí),就會(huì)必然導(dǎo)致分類誤差的不均衡。這就是SVM分類誤差率不均衡的內(nèi)在原因。
對(duì)于標(biāo)準(zhǔn)支持向量機(jī)C2SVM,樣本數(shù)大小不同時(shí),樣本數(shù)量多的類別,其訓(xùn)練誤差、預(yù)測(cè)誤差小;而樣本數(shù)量少的類別,其訓(xùn)練誤差、預(yù)測(cè)誤差反而大。這就是分類類別誤差的不均衡。
通過理論分析發(fā)現(xiàn),出現(xiàn)這種分類類別誤差,是由C2SVM的本質(zhì)、內(nèi)在的特性決定的,而非由實(shí)驗(yàn)環(huán)境或者是算法實(shí)現(xiàn)過程中的偶然因素所致。
[1]Chew Hong2Gunn ,Crisp D.J .,Bogner R.E.et al.Target detection in radar imagery using support vector machines with training size biasing [ A ].In : Proceedings of the sixth international conference on control , Automation ,Robotics and Vision[C],Singapore ,2000
[2]Vapnik V., The nature of statistical learning theo2ry.Springer2Verlag , New York.NY, 1995 ,張學(xué)工譯,統(tǒng)計(jì)學(xué)習(xí)理論的本質(zhì),清華大學(xué)出版社,2000
[3]Vapnik V , Statistical learning theory [ M].NewYork.John Wiley >Sons , 1998
[4]Scholkopf B., Smola A., Williamson R.C.et al ,New support vector algorithms[J ].Neural Compu2 tation , 2000 , 12 (5) : 120721245
book=110,ebook=64