任麗曄,王 靜,關(guān)秀麗
(1.長(zhǎng)春大學(xué) 電子信息工程學(xué)院,長(zhǎng)春 130022;2.吉林工業(yè)職業(yè)技術(shù)學(xué)院 商學(xué)院,吉林 吉林 132000)
支持向量機(jī)的研究
任麗曄1,王 靜2,關(guān)秀麗1
(1.長(zhǎng)春大學(xué) 電子信息工程學(xué)院,長(zhǎng)春 130022;2.吉林工業(yè)職業(yè)技術(shù)學(xué)院 商學(xué)院,吉林 吉林 132000)
支持向量機(jī)可以引入特征變換將原空間的非線性問(wèn)題轉(zhuǎn)化為新空間的線性問(wèn)題。本文在論述支持向量機(jī)模型創(chuàng)建的基礎(chǔ)上,著重對(duì)核函數(shù)的選取及參數(shù)的確定進(jìn)行了研究,通過(guò)實(shí)驗(yàn)數(shù)據(jù)表明,文中創(chuàng)建的組合核函數(shù),在人體下肢動(dòng)作模式識(shí)別中,有較高的識(shí)別率。
支持向量機(jī);核函數(shù);模式識(shí)別
支持向量機(jī)(support vetor machine,SVM)的基本思想可以概括為:首先通過(guò)非線性變換將輸入空間變換到一個(gè)高維空間,然后在這個(gè)新空間中求最優(yōu)分類面,這種非線性變換是通過(guò)定義適當(dāng)?shù)膬?nèi)積核函數(shù)實(shí)現(xiàn)的。其首先在模式識(shí)別領(lǐng)域得到了成功的應(yīng)用,最突出的案例是貝爾實(shí)驗(yàn)室對(duì)美國(guó)郵政服務(wù)數(shù)字庫(kù)進(jìn)行的實(shí)驗(yàn),分別采用三種類型的支持向量機(jī),采用不同的核函數(shù)有效地解決了傳統(tǒng)機(jī)器學(xué)習(xí)中的不好解決的高維問(wèn)題及結(jié)構(gòu)選擇的難題。因此,支持向量機(jī)(SVM)在分類領(lǐng)域性能是良好的,但其分類性能受到核函數(shù)及參數(shù)影響,本文通過(guò)對(duì)腦卒中患者步態(tài)的模式識(shí)別討論核函數(shù)及參數(shù)對(duì)SVM分類性能的影響,為SVM分類核函數(shù)及參數(shù)選擇提供借鑒。
構(gòu)造一個(gè)具有良好性能的SVM,模型選擇是關(guān)鍵。其過(guò)程主要包括:
(1)訓(xùn)練集的選取;
(2)核函數(shù)類型及其參數(shù)的選取;
(3)規(guī)則化參數(shù)C的選取;
(4)損失函數(shù)及其參數(shù)ε的選取。
對(duì)于一個(gè)實(shí)際問(wèn)題,要選取一個(gè)合適的訓(xùn)練集,主要靠有關(guān)領(lǐng)域的專門知識(shí)和經(jīng)驗(yàn)。
本文的訓(xùn)練集來(lái)自50名腦卒中患者和50名正常人,在實(shí)驗(yàn)中使用安徽君誠(chéng)體育器材公司研制的8導(dǎo)無(wú)線表面肌電儀,型號(hào)為JE-TB0810,信號(hào)處理及分析用JANALYSIS E100C軟件。在實(shí)驗(yàn)中連續(xù)采集測(cè)試者的脛骨前肌、腓骨長(zhǎng)肌、雙側(cè)骨直肌和股二頭肌的表面肌電信號(hào)。特征共有6個(gè):中位頻率(median frequency,MF)、平 均 功 率 頻 率 (mean power frequency,MPF)、平均肌電值(average EMG,AEMG)及MF斜率、MPF斜率、AEMG斜率。即原始訓(xùn)練集為:
其中yi=1表示腦卒中患者,yi=-1表示正常者。
核函數(shù)的選擇實(shí)際上是改變了訓(xùn)練集在數(shù)據(jù)子空間分布的維數(shù),目前核函數(shù)類型主要還是憑經(jīng)驗(yàn)選定,大量的參考文獻(xiàn)表明,支持向量機(jī)在某種程度上獨(dú)立于核函數(shù)的類型,但核函數(shù)的參數(shù)對(duì)SVM的性能有很大影響。下文有詳細(xì)論述。
C是決定擬合誤差和預(yù)測(cè)誤差的重要參數(shù),針對(duì)本文所討論的腦卒中患者步態(tài)的識(shí)別問(wèn)題,為了構(gòu)造最優(yōu)分類超平面,作者在約束條件中引入非負(fù)松弛變量ξi≥0,則訓(xùn)練集T中的所有樣本應(yīng)滿足:
將上述兩個(gè)約束條件整理得:
求解最優(yōu)分類超平面,即轉(zhuǎn)化為:
構(gòu)造拉格朗日函數(shù) L(w,b,ξi,α,β),分別對(duì) w,b,ξi求偏導(dǎo)數(shù),可得0 ≤ αi≤ C。如果 C=0,意味著得到的最優(yōu)分類超平面具有最大的推廣性,而不考慮分類錯(cuò)誤率達(dá)到最小;如果C=∞,意味著得到的經(jīng)驗(yàn)風(fēng)險(xiǎn)為0,而沒(méi)有考慮推廣能力達(dá)到最大。因此在實(shí)際情況中,要折中考慮,本文取C=135。
損失函數(shù)對(duì)于保證SVR具有解的稀疏性非常重要。常用的損失函數(shù)是不敏感損失函數(shù),其參數(shù)ε為不敏感度,它的大小直接決定了支持向量的數(shù)目和逼近函數(shù)的擬合精度。
核函數(shù)方法的實(shí)質(zhì)是通過(guò)定義特征變換后樣本在特征空間中的內(nèi)積來(lái)實(shí)現(xiàn)的一種特征變換。它關(guān)心的是結(jié)果,而不是實(shí)現(xiàn)結(jié)果所采用的具體方式。支持向量機(jī)正是通過(guò)引入核函數(shù),有效地解決了模式分類中的非線性不可分問(wèn)題。為了在非線性情況下實(shí)現(xiàn)支持向量機(jī),必須利用核特征空間的非線性映射算法,把輸入映射到一個(gè)新的高維特征空間,然后在此高維空間中使用線性支持向量機(jī)進(jìn)行分類或回歸估計(jì)。對(duì)于特征空間和對(duì)應(yīng)的映射可以通過(guò)核函數(shù)減少計(jì)算的復(fù)雜性。
設(shè)C是RN中的一個(gè)子集,如果存在從C到某一個(gè)Hilbert空間Z和映射φ:RN→Z,使K(x,y)=[φ(x)·φ(y)],則稱 K(x,y)為核函數(shù)。
利用不同的函數(shù)作為支持向量機(jī)的核函數(shù)K(xi,x),可以建立實(shí)現(xiàn)輸入空間不同類型的非線性決策面的學(xué)習(xí)機(jī)器。凡是滿足Mercer條件的函數(shù)都可以作為支持向量機(jī)的核函數(shù),目前研究最多的核函數(shù)主要有:
(1)線性核:K(xi,x)=axiTx
d 階多項(xiàng)式核:K(xi,x)=(xiTx+1)d
(3)徑向基核(RBF):K(xi,x)=exp{- ‖x-xi‖2/δ2}
(4)Sigmoid 核:K(xi,x)=tanh(v(x·xi)+c)
式(1)~(5)中a,T,d,δ,c,q等參數(shù)都是實(shí)常數(shù)。在實(shí)際運(yùn)用中,通常要根據(jù)問(wèn)題的具體情況選擇合適的核函數(shù)以及相應(yīng)的參數(shù)。
采用不同的核函數(shù),可以看作是選擇不同的相似性度量。當(dāng)新的核函數(shù)或自己定義核函數(shù)時(shí),要考慮所定義的核函數(shù)是否滿足Mercer條件。
應(yīng)用最廣泛的是具有較好學(xué)習(xí)能力的RBF核,與多項(xiàng)式核函數(shù)相比,RBF需要確定的參數(shù)要少,核函數(shù)參數(shù)的多少直接影響函數(shù)的復(fù)雜程度。另外,當(dāng)多項(xiàng)式的階數(shù)比較高時(shí),核矩陣的元素值將趨于無(wú)窮大或無(wú)窮小,會(huì)減少數(shù)值的計(jì)算困難。本文提出一種新的組合核函數(shù):
其中參數(shù)ρ是用來(lái)調(diào)節(jié)組合核函數(shù)中線性核函數(shù)和RBF核函數(shù)作用大小的常數(shù)。為了使新的組合核函數(shù)滿足Mereer條件,通過(guò)實(shí)驗(yàn)數(shù)據(jù)取ρ∈(0.35,0.8)。
本文使用臺(tái)灣國(guó)立大學(xué)林智仁教授開(kāi)發(fā)的Libsvm系列工具箱為支持向量機(jī)仿真工具,利用其Matlab版本為平臺(tái)進(jìn)行研究。該工具箱提供了完善的核函數(shù)和參數(shù)等接口。實(shí)驗(yàn)中選取規(guī)則化參數(shù)C=135和不敏感度參數(shù)ε=0.001,結(jié)果如表1所示:
表1 幾種核函數(shù)分類正確率比較
由此可見(jiàn),在基本的核函數(shù)中RBF具有很好的性能,有很強(qiáng)的學(xué)習(xí)能力。但是與組合的核函數(shù)相比,其訓(xùn)練分類正確率略遜一籌。因此選取適當(dāng)?shù)囊?guī)則化參數(shù)C和不敏感度參數(shù)ε,構(gòu)造合適的新組合核函數(shù)對(duì)于提高腦卒中患者步態(tài)的模式識(shí)別率具有一定的優(yōu)勢(shì)。對(duì)于新組合的核函數(shù),通過(guò)參數(shù)ρ來(lái)調(diào)節(jié)線性核函數(shù)和RBF核函數(shù)之間的比例,通過(guò)表2的數(shù)據(jù)表明參數(shù)ρ取不同的值,訓(xùn)練分類正確率相差不大,但對(duì)于未知數(shù)據(jù)的回歸精度卻影響較大。
表2 ρ值對(duì)新組合的核函數(shù)分類正確率和回歸精度比較
在使用支持向量機(jī)對(duì)下肢的動(dòng)作進(jìn)行模式識(shí)別時(shí),通過(guò)選擇一個(gè)恰當(dāng)?shù)暮撕瘮?shù),可以避免計(jì)算在高維空間中的復(fù)雜度,通過(guò)實(shí)驗(yàn)結(jié)果表明,基于文中的組合核函數(shù)所建立的非線性分類器,具有很好的推廣能力,能夠?yàn)槟X卒中患者康復(fù)訓(xùn)練系統(tǒng)的建模提供借鑒。
[1]胡良謀,曹克強(qiáng),徐浩軍,董新民.支持向量機(jī)故障診斷及控制技術(shù)[M].北京:國(guó)防工業(yè)出版社,2011.
[2]鄧乃揚(yáng),田英杰.數(shù)據(jù)挖掘中的新方法——支持向量機(jī)[M].北京:科學(xué)出版社,2011.
[3]楊志民,劉廣利.不確定性支持向量機(jī)——算法及應(yīng)用[M].北京:科學(xué)出版社,2011.
[4]王煒,郭小明,王淑艷,劉麗琴.關(guān)于核函數(shù)選取的方法[J].遼寧師范大學(xué)學(xué)報(bào):自然科學(xué)版,2008,31(1):1-4.
[5]潘豐,毛志亮.基于 CPSO的混合核函數(shù)SVM參數(shù)優(yōu)化及應(yīng)用[J].控制工程,2011,18(2):267-274.
[6]鄔嘯,魏 延,吳瑕.基于混合核函數(shù)的支持向量機(jī)[J].重慶理工大學(xué)學(xué)報(bào):自然科學(xué)版,2011,25(10):66-70.
[7]張倩,楊耀權(quán).基于支持向量機(jī)核函數(shù)的研究[J].電力科學(xué)與工程,2012,28(5):42-45.
[8]劉明,周水生,吳 慧.一種新的混合核函數(shù)支持向量機(jī)[J].計(jì)算機(jī)應(yīng)用,2009(29):167-169.
Research on the Application of Support Vector Machine
REN Li-ye1,WANG Jing2,GUAN Xiu-li1
(1.College of Electronic Information Engineering,Changchun University,Changchun 130022,China;2.Business School,Jilin Vocational College of Industry and Technology,Jilin 132000,China)
Support vector machine(SVM)can convert the nonlinear problem of the original space into the linear problem of new space by introducing feature transform.Based on discussing the model creation of SVM,this paper mainly studies the selection of kernel function and the determination of parameters.The experimental data shows that the combined kernel function created in this paper has higher recognition rate in human lower limb motion pattern recognition.
SVM;kernel function;pattern recognition
O24
A
1009-3907(2013)12-1595-04
2013-10-26
任麗燁(1975-),女,吉林松原人,副教授,碩士,主要從事算法研究。
責(zé)任編輯:
程艷艷
長(zhǎng)春大學(xué)學(xué)報(bào)2013年12期