施久玉 姜蘇迪
(哈爾濱工程大學 理學院,哈爾濱 150001)
核主成分分析(KPCA)的方法是近年來才提出的一種特征提取方法,主要利用了核函數(shù)對數(shù)據(jù)進行降維的思想。通常我們所用的主成分分析方法是在輸入空間進行特征提取然后再進行降維,而核主成分分析是在特征空間進行內積運算后提取特征值和特征向量,然后再進行降維。
KPCA的基本思想是存在一個映射,使得樣本數(shù)據(jù)被映射到特征空間中,且特征空間的維數(shù)很高,通過在特征空間中進行內積計算,從而不需要知道具體的映射是怎樣的就可以做到特征提取,算法比較簡單,容易操作。
設輸入空間Rp中的n個樣本數(shù)據(jù)向量xk(k=1,2,…,n),xk∈Rp。
Rp中的PCA求解特征方程
λv=Cv
獲得貢獻率較大的特征值(對應著較大的特征值)及與之對應的特征向量。
引入非線性映射函數(shù)φ,使輸入空間Rp中的樣本數(shù)據(jù)向量xk(k=1,2,…,n)變換為特征空間F中的樣本數(shù)據(jù)向量φ(xk)(k=1,2,…,n),并假設
則在特征空間F中的協(xié)方差矩陣為
特征空間F中的PCA是求解特征方程
中的特征值λ和特征向量V∈F{0},進而有
其中,v可由φ(xi),i=1,2,…,n線性表示出,即
得
k=1,2,…,n
定義核函數(shù)
K(xi,xj)=φ(xi)φ(xj)
得
nλKα=K2α
即
nλα=Kα
對于主成分的選取,只需要計算一個測試樣本數(shù)據(jù)向量φ(x)在F空間向量vk上的投影
類似于PCA中的綜合指標,稱為核主成分分析(KPCA)的第k個主成分。KPCA的綜合評價函數(shù)定義為
在KPCA中,不需要知道映射φ的具體形式,就可以進行特征提取,最后都會轉化為求Kij=(φ(xi)·φ(xj)),所以選擇不同的核函數(shù),可能會得到不同的結果,因而核函數(shù)的選擇是非常重要的,常見的核函數(shù)有:
(1)多項式核:K(x,y)=[s(x·y)+c]d
(4)神經(jīng)網(wǎng)絡核:K(x,y)=tanh[s(x·y)+c]
另外,還有一些核函數(shù),例如傅里葉級數(shù)核函數(shù)、樣條核函數(shù)以及張量積核函數(shù)等[2~3]。
當選取核函數(shù)解決數(shù)據(jù)問題時,通常采用的方法有:一是利用Cross-Validation方法,選取不同的核函數(shù),找出結果誤差最小的核函數(shù),這個稱之為有效核函數(shù);二是應用專家通過多次試驗而給定的核函數(shù);三是利用由Smits等人提出的混合核函數(shù)方法,這個方法有效地避免了單一核函數(shù)的廣譜或分散特性,也為關于如何構造核函數(shù)的工作起到了一個開創(chuàng)作用。
下面是2008年某省某市機械設備制造業(yè)的主要經(jīng)濟指標,如表1
表1
企業(yè)指標工業(yè)總值(萬元)工業(yè)產(chǎn)品銷售率(%)產(chǎn)品銷售收入(萬元)利潤總額(萬元)利稅合計(萬元)兩項資金占用(萬元)企業(yè)11404692.14129427309001800企業(yè)2291896.59281953162742企業(yè)3700104.13540136357企業(yè)41808296.0016676186419002296企業(yè)58011113.008311825826532企業(yè)61999100.0019994453292企業(yè)789391.2081491451企業(yè)81016099.411010058810131032企業(yè)9179798.79157413414097企業(yè)102612100.0011899381457160
綜上,多項式核函數(shù)具有良好的全局性,局部性比較差;高斯核函數(shù)的局部性比較好,它的外推能力隨著σ的增大而慢慢降低;神經(jīng)網(wǎng)絡核函數(shù)有一定的局限性,式中s,c只對某些值滿足Mercer定理。
Smits G F和Jordon E M在2002年提出的混合核函數(shù)方法,該方法較前面提到的兩個方法更科學。將不同的核函數(shù)結合起來后會有更好的特性,這是混合核函數(shù)方法的基本思想[4]。
現(xiàn)在來構造混合核函數(shù),前面提到多項式核函數(shù)全局性好,局部性差,高斯核函數(shù)局部性較好,外推能力差,可以將這兩個核函數(shù)混合在一起組成新的混合核函數(shù):
ω為調節(jié)兩個核函數(shù)之間的權數(shù)。
針對2008年某省某市機械設備制造業(yè)的企業(yè)經(jīng)濟指標來確定s,c,d,σ的取值,前面已經(jīng)確定了當核函數(shù)選為多項式核函數(shù)和高斯核函數(shù)時,s,c,d,σ的合理取值為s=0.05,c=0,d=5,σ=50。
采用MPEC模型來優(yōu)化選取核參數(shù)確定ω=0.8
表2選取混合核函數(shù)時的特征值和貢獻率
如表2,第一主成分貢獻率為99.65%。
表3選取三種不同核函數(shù)時的主成分貢獻率
從表3我們可以看出,當選取混合核函數(shù)時,第一主成分貢獻率高于由多項式核函數(shù)算出的值,也就是針對此數(shù)據(jù)應用混合核函數(shù)要比多項式核函數(shù)更為恰當。
由于混合核函數(shù)的第一主成成分的貢獻率已達到99.65%,也就是說的貢獻率最大,工業(yè)總產(chǎn)值占了主導地位。
本文采用了混合核函數(shù)的核主成分分析法分析了2008年我國某省某市機械設備制造業(yè)的一些企業(yè)的經(jīng)濟效益,結果表明混合核函數(shù)的第一主成分貢獻率高于單一核函數(shù)的主成分貢獻率,具有較好的明確的分析效果,可以更好地分析企業(yè)經(jīng)濟效益,得到的結果與實際情況完全吻合。該市在“十二五”規(guī)劃中加大了結構調整力度,優(yōu)先發(fā)展重點投資高端制造業(yè)、新型企業(yè)。
[1]朱幫助,林健.區(qū)域經(jīng)濟社會發(fā)展綜合評價與預測[J].遼寧工程技術大學學報,2009,28(1):123~126.
[2]鄧乃揚,田英杰.數(shù)據(jù)挖掘中的新方法——支持向量機[M].北京:科學出版社,2004:98~100.
[3]李國正,王猛,曾華軍.支持向量機導論[M].北京:電子工業(yè)出版社,2004:30~39.
[4]劉明.支持向量機中sigmoid核函數(shù)的研究[D].西安:西安電子科技大學學位論文,2009.
[5]Smits G F,Jordan E M.Improved SVM Regression using Mixtures of Kernels.Proceedings of the 2002 International Joint Conference on Neural Net works,2002.
[6]Dong Yulin,Xia Zunquan,Wang Mingzheng.An MPEC Model for Selecting Optimal Parameter in Support Vector Machines.The First International Symposium on Optimization and Systems Biology,2007:351~357.
[7]郭小明.支持向量機中核函數(shù)的選取方法的研究[D].大連:遼寧師范大學學位論文,2008.