劉高輝,楊 星
(西安理工大學(xué) 自動(dòng)化與信息工程學(xué)院,陜西 西安 710048)
?
一種混合核函數(shù)的支持向量機(jī)
劉高輝,楊 星
(西安理工大學(xué) 自動(dòng)化與信息工程學(xué)院,陜西 西安 710048)
為了提高支持向量機(jī)分類效果、學(xué)習(xí)能力和外推能力,分析了兩種支持向量機(jī)的核函數(shù):K型核函數(shù)和logistic核函數(shù),構(gòu)造出一種新的混合核函數(shù)的支持向量機(jī),并且對(duì)其性能進(jìn)行了理論分析。把構(gòu)造出的混合核函數(shù)支持向量機(jī)與常用核函數(shù)構(gòu)造的向量機(jī)應(yīng)用到二維數(shù)據(jù)分類與圖片分類中進(jìn)行實(shí)驗(yàn)對(duì)比。二維數(shù)據(jù)點(diǎn)和圖片分類的實(shí)驗(yàn)結(jié)果表明,混合核函數(shù)的支持向量機(jī)的分類效果、學(xué)習(xí)能力和外推能力,明顯優(yōu)于常用核函數(shù)構(gòu)造的支持向量機(jī)。
K型核函數(shù);logistic型核函數(shù);混合核函數(shù)
伴隨著科學(xué)技術(shù)的飛速發(fā)展以及網(wǎng)絡(luò)的快速普及,科學(xué)發(fā)展和生活中出現(xiàn)了許多高維復(fù)雜的數(shù)據(jù)。怎么才能在這些高維復(fù)雜的數(shù)據(jù)中找出其內(nèi)在特有的規(guī)律,以便能夠利用這些規(guī)律,更好地為人們的生活服務(wù),這對(duì)統(tǒng)計(jì)學(xué)的理論而言成為重中之重。
支持向量機(jī)(Support Vector Machines,SVM)是1995年由Vapnik等人提出的一種基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)方法[1-2]。它通過(guò)尋找結(jié)構(gòu)風(fēng)險(xiǎn)最小化來(lái)提高機(jī)器學(xué)習(xí)外推能力,從而使得在測(cè)試樣本量比較小的情況下也能得到較好的統(tǒng)計(jì)分類規(guī)律[3]。它非常適合解決高維、非線性和小樣本的模式識(shí)別檢測(cè)問(wèn)題,并在一定程度上克服了“過(guò)學(xué)習(xí)”和“維數(shù)災(zāi)難”等問(wèn)題。支持向量機(jī)分類效果、學(xué)習(xí)能力、外推能力性能的優(yōu)劣主要取決于核函數(shù)的選擇及其參數(shù),尤其是核函數(shù)的選擇。
因?yàn)橹С窒蛄繖C(jī)的分類效果、學(xué)習(xí)能力和外推能力等許多特性是由本身的核函數(shù)來(lái)決定的,而且每一種核函數(shù)都有自己的優(yōu)點(diǎn)和缺點(diǎn),所以支持向量機(jī)因核函數(shù)的不同而表現(xiàn)出的分類效果、學(xué)習(xí)能力、外推能力有很大的差異。為了同時(shí)提高支持向量機(jī)分類效果、學(xué)習(xí)能力和外推能力,本文提出一種混合核函數(shù)的支持向量機(jī)。
就目前來(lái)說(shuō)常用的核函數(shù)有以下幾種:
(1)線性核函數(shù)
K(xi,xj)=(xi·xj)
(1)
(2)多項(xiàng)式核函數(shù)
K(xi,xj)=(γxi·xj+r0)p,γ>0
(2)
(3)徑向基核函數(shù)(RBF)
(3)
總體來(lái)說(shuō)支持向量機(jī)的核函數(shù)主要分為:全局核函數(shù)和局部核函數(shù)。全局性核函數(shù)的支持向量機(jī)外推能力強(qiáng)、學(xué)習(xí)能力較弱;而局部性核函數(shù)的支持向量機(jī)學(xué)習(xí)能力強(qiáng)、泛化能力較弱。在以上列舉的常用核函數(shù)中線性核函數(shù)和多項(xiàng)式核函數(shù)屬于全局核函數(shù),徑向基核函數(shù)屬于局部核函數(shù)。
K型函數(shù)的表達(dá)式如式(4)所示[4]:
(4)
式(4)中,k>0,且m∈N。
通過(guò)觀察K型函數(shù)與徑向基函數(shù)的表達(dá)式可知:K型函數(shù)與徑向基函數(shù)相比沒(méi)有費(fèi)時(shí)的指數(shù)運(yùn)算,所以運(yùn)算速度更快。
K型核函數(shù)的表達(dá)式如式(5)所示:
(5)
文獻(xiàn)[4]已經(jīng)證明了K型核函數(shù)可以作為支持向量機(jī)的核函數(shù)。
圖1為K型核函數(shù)與徑向基核函數(shù)的對(duì)比圖,其中K取1,m取1,σ取1,測(cè)試點(diǎn)為0。由圖1可以看出:K型核函數(shù)與徑向基核函數(shù)都是只有在測(cè)試點(diǎn)附近的數(shù)據(jù)才會(huì)對(duì)核函數(shù)的值產(chǎn)生很大影響,而離測(cè)試點(diǎn)很遠(yuǎn)的數(shù)據(jù)對(duì)核函數(shù)的值影響很小,所以K型核函數(shù)和徑向基核函數(shù)屬于局部核函數(shù)。不同的是K型核函數(shù)與徑向基核函數(shù)相比尖端更尖,兩端收斂也更緩慢,正是這種特性使得K型核函數(shù)比高斯核函數(shù)具有更好的外推能力。
圖1 K型核函數(shù)與徑向基核函數(shù)對(duì)比圖
logistic函數(shù)表達(dá)式為:
(6)
如果一個(gè)函數(shù)可以當(dāng)作支持向量機(jī)的核函數(shù)那它只要滿足Mercer條件即可。
(7)
則K(x,x′)可作為支持向量機(jī)的核函數(shù)。
如果K(x,x′)=K(x-x′),則K(x,x′)稱為轉(zhuǎn)移不變核函數(shù)。轉(zhuǎn)移不變核函數(shù)要證明滿足Mercer條件,是十分困難的,而下面的引理1很好地解決了這個(gè)問(wèn)題。
引理1轉(zhuǎn)移不變核函數(shù)K(x,x′)是一個(gè)支持向量機(jī)的核函數(shù)的充分必要條件為,當(dāng)且僅當(dāng)k(x)的傅里葉變化滿足:
(8)
logistic型核函數(shù)的表達(dá)式為:
(9)
由(7)式可以看出logistic型核函數(shù)滿足K(x,x′)=K(x-x′)。
logistic型核函數(shù)的傅里葉變化為:
(10)
因?yàn)槭?10)中exp(-jwx)>0,1+exp(-ax2)>0,所以F[k(x)]≥0滿足式(10)。
故logistic型核函數(shù)可以作為支持向量機(jī)的核函數(shù)。
當(dāng)參數(shù)a的值分別取0.07、0.05、0.04、0.03,測(cè)試點(diǎn)為0時(shí),logistic核函數(shù)圖像如圖2所示。從圖2可以看出離測(cè)試點(diǎn)1越遠(yuǎn)的數(shù)據(jù)點(diǎn)受到的影響越大。從而說(shuō)明了logistic核是一個(gè)全局性核函數(shù),具有較好的外推能力,而且外推能力隨參數(shù)a變化而變化。
圖2 logistic型核函數(shù)曲線圖
國(guó)內(nèi)外對(duì)支持向量機(jī)的核函數(shù)研究顯示,任何支持向量機(jī)的核函數(shù)在某些方面都有它們的優(yōu)點(diǎn),也有各自的缺點(diǎn)與不足。不同核函數(shù)的支持向量機(jī)所表現(xiàn)出的學(xué)習(xí)能力、外推能力等差異性很大??傮w而言,局部核函數(shù)的支持向量機(jī)因?yàn)橄嗷ブg距離較近的數(shù)據(jù)點(diǎn)對(duì)核函數(shù)的值產(chǎn)生影響比較大,所以容易產(chǎn)生過(guò)學(xué)習(xí),而外推能力卻不佳。全局核函數(shù)的支持向量機(jī)離測(cè)試點(diǎn)較遠(yuǎn)的數(shù)據(jù)對(duì)核函數(shù)的值影響較大,所以容易產(chǎn)生欠學(xué)習(xí),但外推能力卻比較好。鑒于這種情況,為了使支持向量機(jī)的學(xué)習(xí)能力和外推能力都比較好,所以選擇用全局核函數(shù)和局部核函數(shù)來(lái)構(gòu)造一種混合核函數(shù)的支持向量機(jī),使之兼有局部核函數(shù)支持向量機(jī)學(xué)習(xí)能力強(qiáng)、全局核函數(shù)支持向量機(jī)外推能力強(qiáng)的優(yōu)點(diǎn)。
通過(guò)對(duì)前面K型核函數(shù)和logistic核函數(shù)性質(zhì)的分析,得到結(jié)論:K型核函數(shù)是一個(gè)局部核函數(shù)而且性能比傳統(tǒng)的徑向基核函數(shù)更好。logistic核函數(shù)是一個(gè)性能很好的全局函數(shù)。因此,受到啟發(fā),為得到性能較好的新的混合函數(shù),將K型核函數(shù)與logistic核函數(shù)進(jìn)行組合,構(gòu)成一種新的混合核函數(shù)[6]。
引理2設(shè)K1和K2是在X×X上的核函數(shù),X∈Rn,常數(shù)a≥0。則下面的函數(shù)仍是核函數(shù)[7]:
K(x,y)=K1(x,y)+K2(x,y)
(11)
K(x,y)=a×K1(x,y)
(12)
根據(jù)引理2,如果把兩個(gè)性能不同的核函數(shù)進(jìn)行線性組合,可以構(gòu)造出新的核函數(shù),如下所示,其中0≤n≤1。
K(x,y)=n×Ka(x,y)+(1-n)Kb(x,y)
(13)
所以構(gòu)成新的混合核函數(shù)的表達(dá)式為:
K混合核=n×Klogistic核+(1-n)×KK型核
(14)
在圖3中n分別取0.7、0.75、0.8、0.85,測(cè)試點(diǎn)為1,K型核函數(shù)中的K取1、m取1。從混合核函數(shù)的圖中可以得出結(jié)論:新構(gòu)造的混合核函數(shù)不僅具有K型核函數(shù)的特性而且還具有l(wèi)ogistic型核函數(shù)的特性,測(cè)試點(diǎn)附近的數(shù)據(jù)以及離測(cè)試點(diǎn)較遠(yuǎn)的數(shù)據(jù)都對(duì)核函數(shù)的值產(chǎn)生很大的影響,所以由K型核函數(shù)和logistic型核函數(shù)構(gòu)成的新的混合核函數(shù)的支持向量機(jī)的學(xué)習(xí)能力和外推能力都比傳統(tǒng)核函數(shù)構(gòu)成的支持向量機(jī)要優(yōu)秀。
圖3 混合核函數(shù)的曲線圖
輸入兩組數(shù)據(jù),每組為50個(gè)。第一組數(shù)據(jù)點(diǎn)M是均值點(diǎn)為(0,0)、方差為1、標(biāo)準(zhǔn)差為1的正態(tài)分布的隨機(jī)點(diǎn)。第二組數(shù)據(jù)點(diǎn)N是均值點(diǎn)為(2,2)、方差為1、標(biāo)準(zhǔn)差為1的正態(tài)分布的隨機(jī)點(diǎn)。圖4~圖6分別為采用不同核函數(shù)支持向量機(jī)對(duì)兩組數(shù)據(jù)的分類結(jié)果。
圖4 多項(xiàng)式核函數(shù)的數(shù)據(jù)分類結(jié)果
圖5 高斯核函數(shù)的數(shù)據(jù)分類結(jié)果
圖6 混合核函數(shù)的數(shù)據(jù)分類結(jié)果
理論上M、N兩組數(shù)據(jù)點(diǎn)的分類線為y=-x+2(圖中虛線),觀察圖4~圖6可得:用傳統(tǒng)的多項(xiàng)式核函數(shù)(全局核函數(shù))和高斯核函數(shù)(局部核函數(shù))的支持向量機(jī),雖然能夠?qū)、N兩組數(shù)據(jù)點(diǎn)分類開,但其分類線與理論上的分類線相差甚遠(yuǎn),這樣當(dāng)測(cè)試的數(shù)據(jù)點(diǎn)比較多時(shí)就會(huì)產(chǎn)生許多數(shù)據(jù)點(diǎn)分類錯(cuò)誤,其精確性和泛化能力都不好。而采用K型核函數(shù)與logistic型核函數(shù)的混合核函數(shù)的支持向量機(jī),其分類效果很好,基本接近理論分類線,其學(xué)習(xí)能力以及泛化能力都很優(yōu)秀。
將一組30張的汽車圖片和一組26張的貓圖片轉(zhuǎn)換成256維的HSV數(shù)據(jù)。使用不同核函數(shù)的支持向量機(jī)對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練。將56張有汽車圖片和貓圖片轉(zhuǎn)換成256維的HSV數(shù)據(jù)用作測(cè)試,如果是汽車圖片則標(biāo)記為1,如果是貓圖片則標(biāo)記為-1。如圖7、圖8所示。
圖7 訓(xùn)練圖片
圖8 測(cè)試圖片
測(cè)試結(jié)果:測(cè)試圖片為30張汽車圖片和26張貓圖片,多項(xiàng)式核分類錯(cuò)了4張車圖片和6張貓圖片,準(zhǔn)確率為82%;徑向基核分類錯(cuò)了6張汽車圖片和7張貓圖片,準(zhǔn)確率為76%;而K型核函數(shù)和logistic核函數(shù)的混合核函數(shù)分類錯(cuò)了3張汽車圖片和3張貓圖片,準(zhǔn)確率為89%。圖片分類結(jié)果表明,K型核函數(shù)和logistic型核函數(shù)的混合核函數(shù)的支持向量機(jī)圖片分類準(zhǔn)確率明顯高于常用核函數(shù)的支持向量機(jī)。
本文提出了一種新型的支持向量機(jī)的核函數(shù)——K型核函數(shù)和logistic型核函數(shù)的混合核函數(shù)。分別分析了K型核函數(shù)和logistic型核函數(shù)的性能及其特點(diǎn),將兩者混合起來(lái)構(gòu)造出新的核函數(shù)。從二維數(shù)據(jù)實(shí)驗(yàn)和圖片分類結(jié)果上證明了新的混合核函數(shù)的支持向量機(jī)在分類效果、學(xué)習(xí)能力和外推能力方面均優(yōu)于傳統(tǒng)的多項(xiàng)式核函數(shù)和徑向基核函數(shù)的支持向量機(jī),具有良好的理論價(jià)值和應(yīng)用價(jià)值。
[1] 丁世飛,齊丙娟.支持向量機(jī)理論與算法研究綜述[J].電子科技大學(xué)學(xué)報(bào),2011,40(1):2-10.
[2] VAPNIK V N. The nature of statistical learning theory[M]. New York: Springer-Verlag,1995.
[3] SAINI L M, AGGARWAL S K. Parameter optimization using genetic algorithm for support vector machine based price-forecasting model in national electricity market[J]. Genetation, Transmission&Distribution,IET,2010,4(1): 36-49.
[4] 孫翠娟.基于K型核函數(shù)的支持向量機(jī)[J].淮海工學(xué)院學(xué)報(bào), 2006,15(4):4-7.
[5] HAMIDI S, RAZZAZI F, GHAEMMAGHAMI M P. Automatic meter classifycation in Persian popetries using support vector machine[C]. IEEE International Symposium on Signal Processing and Information Technology(ISSPIT).Ajman:2009, 563-567.
[6] 顏根廷,馬廣富,肖余之.一種混合核函數(shù)支持向量機(jī)算法[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2007,39(11):1704-1706.
[7] 徐立祥,李旭,呂皖麗,等.組合核支持向量機(jī)的模式分析新方法[J].計(jì)算機(jī)工程與應(yīng)用,2013,49(24):112-115.
A kind of support vector machine based on hybrid kernel function
Liu Gaohui, Yang Xing
(School of Automation and Information Engineering, Xi’an University of Technology, Xi’an 710048, China)
In order to improve classification effect, learning ability and extrapolation ability of support vector machine, two kinds of kernel functions of support vector machine have been analyzed: K-type kernel function and logistic kernel function. A new support kernel machine with hybrid kernel function was constructed, and the performance of the new support kernel machine was analyzed in theory. The constructed support vector machines based on hybrid kernel function and the common kernel function were applied to handle the two-dimension data classification and images classification. Experimental results of two-dimension data points and image classification show that classification effect, learning ability and extrapolation ability of support vector machine based on hybrid kernel function are obviously superior to the support vector machine constructed by common kernel function.
K-type kernel function; logistic kernel function; hybrid kernel function
TP181
A
10.19358/j.issn.1674- 7720.2017.11.006
劉高輝,楊星.一種混合核函數(shù)的支持向量機(jī)[J].微型機(jī)與應(yīng)用,2017,36(11):19-22.
2017-01-15)
劉高輝(1968- ),男,博士,副教授,主要研究方向:信號(hào)處理。
楊星(1991-), 男,碩士研究生,主要研究方向:機(jī)器學(xué)習(xí)。