趙捷珍,郭春生
(杭州電子科技大學通信工程學院,浙江 杭州 310018)
?
基于GF空間多項式核函數(shù)的分類研究
趙捷珍,郭春生
(杭州電子科技大學通信工程學院,浙江 杭州 310018)
摘要:在基于核方法的分類問題中,核函數(shù)及其參數(shù)選擇皆對分類結果具有重要影響,通?;诮?jīng)驗選擇核函數(shù)或基于多核優(yōu)化方法確定核函數(shù)的權系數(shù)。針對GF空間的多項式核函數(shù),在范數(shù)限定條件下利用多核學習方法優(yōu)化多項式權系數(shù),實現(xiàn)多項式核函數(shù)的優(yōu)化。實驗結果表明,算法優(yōu)化得到的多項式核函數(shù)其分類性能優(yōu)于常用的單核函數(shù),與多核方法相當,并在分類中取得良好的效果。
關鍵詞:核方法;GF空間;多核學習
0引言
核方法因其解決分類和回歸等非線性問題的有效性而得到廣泛應用。目前常用的核方法有支持向量機[1]、核Fisher判決[2]等。盡管有多種基于核函數(shù)的分類方法,但其處理的基本過程可以歸結如下:首先將原始線性不可分的數(shù)據(jù)通過某種非線性函數(shù)映射到高維特征空間,使得線性不可分的問題轉化成線性可分問題;然后利用核技巧實現(xiàn)原始數(shù)據(jù)在特征空間中的分類處理。核方法中的單核學習方法因其簡便性得到廣泛使用,但核函數(shù)的優(yōu)選往往依賴于經(jīng)驗,無法適應真實數(shù)據(jù)的異構性、不規(guī)則性和非均勻性以及準確反應系統(tǒng)的結構[3],從而利用多個基本核函數(shù)的多核學習成為一種新的研究方向。近來的一些理論和應用驗證了多核學習方法能增強決策函數(shù)的可解釋性[4],并且在視覺目標識別[5]等方面獲取了比單核學習方法更優(yōu)的性能。本文結合多核學習方法的強適應性和單核方法的簡單性,提出了在限定條件下利用多核學習方法,對GF空間的多項式核函數(shù)進行優(yōu)化處理,使其在分類上獲得更好的效果。
1基于GF空間多項式核函數(shù)的算法
本文引入廣義???Generalized Fock,GF)空間多項式核,首先將多項式核的單核形式改寫為多核形式,然后利用多核學習優(yōu)化GF空間多項式核函數(shù)參數(shù),規(guī)避了單核核函數(shù)經(jīng)驗參數(shù)選擇的不確定性?;跇颖镜暮撕瘮?shù)參數(shù)優(yōu)化,能夠更加有效地利用對分類效果有較大影響的樣本特征,提高分類準確率。
文獻[6]提出了GF空間的概念。GF空間是由多項式或者Volterra級數(shù)所構成的內(nèi)積的希爾伯特空間。多項式泛函構建的GF空間在限制條件下會逼近由高斯核映射構建的再生核希爾伯特空間(Reproducing Kernel Hilbert Space,RKHS),等同于GF空間的多項式核,可以逼近高斯核函數(shù)。在一定的條件下,GF空間核能夠逼近其它核函數(shù)[7]。
(1)
其內(nèi)積和換函數(shù)分別為:
(2)
(3)
式中,k=k1+k2+…+km,ρk1…km是正的有界常量,m是輸入變量的個數(shù),n是GF空間的維數(shù)。
為了便于實際處理,當k=k1+k2+…+km=d,0≤d≤n,ρk1…km相等,且ρd=ρk1…km時,本文將GF空間多項式核函數(shù)改寫成如下形式:
(4)
如將式(4)中的ρd視為常量,則GF空間多項式核函數(shù)可以改寫為:
(5)
本文采用SVM算法的軟間隔分類優(yōu)化核函數(shù):
(6)
將式(6)經(jīng)過拉格朗日變換,則最終的優(yōu)化目標變?yōu)椋?/p>
(7)
式中,αi是拉格朗日乘子。
(8)
對式(8)的目標函數(shù)進行微分:
(9)
(10)
2仿真與分析
為了驗證基于GF空間多項式核的核方法的分類準確率和效率,本文將UCI樣本數(shù)據(jù)進行實驗,并通過實驗數(shù)據(jù)對GF空間多項式核與其他的核函數(shù)進行性能比較。
以下的數(shù)據(jù)來源于UCI數(shù)據(jù)庫。UCI數(shù)據(jù)庫是一個標準的常用于機器學習的測試數(shù)據(jù)集。在使用數(shù)據(jù)進行分類時,本文隨機抽取20%的樣本作為訓練集,剩下的80%作為測試集。Bupa liver disorders是研究單身男性個體健康肝臟疾病的數(shù)據(jù)庫,包含345個樣本,6個特征;Breast-cancer-Wisconsin是描述胸部細胞是否癌變圖像的數(shù)據(jù)庫,包含683個數(shù)據(jù),10個特征;Wine是描述葡萄酒的成分數(shù)據(jù),包含119個數(shù)據(jù),13個特征;Monk描述了不同算法的性能比較,包含432個數(shù)據(jù),7個特征;Pima-indians-diabetes是描述印第安人糖尿病的數(shù)據(jù)庫,包含768個數(shù)據(jù),8個特征。
基于GF空間多項式核本身是一個單核的性質,所以本文將它的性能跟其他的單核進行比較,選取了高斯核、線性核、常規(guī)多項式核這3類常用的單核;但因利用多核學習方法優(yōu)化,所以本文也將它的性能跟其他的多核進行對比。表1使用分類準確率,表2使用訓練時間衡量基于GF空間多項式核的分類性能。表1、表2的GF空間多項式核定為5階,多核則是由5個高斯核所組合構成的。結合表1、表2可以看出,GF空間的分類準確率在多數(shù)情況下要高于高斯核、線性核跟常規(guī)多項式核這3類單核,同時也稍高于多核,是因為GF空間會基于樣本逼近不同的RKHS,即GF空間多項式核會根據(jù)樣本逼近不同的核函數(shù),使得類內(nèi)間隔減少,類間間隔增大,使得分類的準確率提高,但是同時相比較而言,GF空間多項式核的訓練時間要比3種單核的訓練時間要稍高一些,與其他多核訓練時間相差不大,是因為GF空間多項式核是利用MKL進行優(yōu)化的,在分類的過程中需要不停地迭代優(yōu)化獲得較合適的權系數(shù),所以訓練時間要比單核的高。
表1 分類準確率比較 %
表2 訓練時間比較 s
3結束語
核函數(shù)類型和參數(shù)的選擇會直接影響到SVM的分類性能。本文介紹的GF空間多項式核,通過一系列的改寫,將它由一個單核的形式看成多核的形式,并對核參數(shù)做L1范數(shù)規(guī)則化,將核函數(shù)參數(shù)優(yōu)化問題轉變?yōu)橥箚栴},然后利用多核學習訓練優(yōu)化核參數(shù),而不是通過經(jīng)驗選擇核函數(shù),實驗仿真證明,盡管GF空間多項式核是單核,但是它在性能上卻高于常用的單核和多核函數(shù)相當。
參考文獻
[1]Cortes C,Vapnik V.Support-Vector Networks [J].Machines Learning,1995,20(3):273-297.
[2]Sch?lkopF B,Smola A,Müller K R.Nonlinear component analysis as a kernel eigenvalue problem[J].Neural computation,1998,10(5):1299-1319.
[3]Cai Y,Wang H,Ye X,et al.A multiple-kernel LSSVR method For separable nonlinear system identiFication[J].Journal oF Control Theory and Applications,2013,11(4):651-655.
[4]汪洪橋,孫富春,蔡艷寧,等.多核學習方法[J].自動化學報,2010,36(8):1037-1050.
[5]Bucak S,Jin R,Jain A.Multiple kernel learning For visual object recognition: A review[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2013,36(7):1354-1369.
[6]De Figueiredo R J P,Dwyer III T A W.A best approximation Framework and implementation For simulation oF large-scale nonlinear systems[J].Circuits and Systems,IEEE Transactions on,1980,27(11):1005-1014.
[7]Xu J W,Pokharel P P,Jeong K H,et al.An explicit construction oF a reproducing Gaussian kernel Hilbert space[C]//Acoustics,Speech and Signal Processing,2006.ICASSP 2006 Proceedings.2006 IEEE International ConFerence on.Toulouse:IEEE,2006,5:V573-V576.
The ClassiFication Research oF Polynomial Kernel Function
Based on GF Space
Zhao jiezhen, Guo chunsheng
(SchooloFCommunicationEngineering,HangzhouDianziUniversity,HangzhouZhejiang310018,China)
Abstract:In classiFication problem based on the kernel method, kernel Function and its parameters have a signiFicant eFFect on the classiFication perFormance. Generally, we select kernel Function by experience and weighted coeFFicient oF multiple kernel Function which is determined by the multiple kernel optimizing method. Under the norm restricted condition, we utilize multiple kernel learning method to optimize the weighted coeFFicient oF polynomial kernel Function based on GF space, and the optimization oF polynomial kernel Function can be achieved. The experiments results show that the algorithm’s classiFication perFormance based on polynomial kernel Function in this paper is better than popular used single kernel Function, and meet the multiple kernel method’s match; and it perForm well in the classiFication research.
Key words:kernel method; GF space; multiple kernel learning
中圖分類號:TP391.41
文獻標識碼:A
文章編號:1001-9146(2015)03-0077-04
通信作者:
作者簡介:趙捷珍(1990-),女,浙江麗水人,在讀研究生,信號與信息處理. 郭春生副教授,E-mail:guo.chsh@gmail.com.
收稿日期:2014-07-30
DOI:10.13954/j.cnki.hdu.2015.03.016