邢笑雪,姜 利
(長(zhǎng)春大學(xué) 電子信息工程學(xué)院,長(zhǎng)春 130022)
基于PCA與KPCA的基因數(shù)據(jù)的特征簡(jiǎn)約
邢笑雪,姜 利
(長(zhǎng)春大學(xué) 電子信息工程學(xué)院,長(zhǎng)春 130022)
采用支持向量機(jī)方法(SVM)對(duì)上千維的基因表達(dá)數(shù)據(jù)分析時(shí),算法的運(yùn)行時(shí)間比較長(zhǎng)。為了解決這種情況,本文采用了基于主成分分析的支持向量機(jī)(PCA-SVM)和基于核主成分分析的支持向量機(jī) (KPCA-SVM)兩種算法對(duì)數(shù)據(jù)進(jìn)行降維和分類(lèi),既可以整合基因數(shù)據(jù)的特征信息又可以縮短計(jì)算時(shí)間。本文比較了累計(jì)貢獻(xiàn)率不同時(shí)兩種算法的分類(lèi)準(zhǔn)確率,實(shí)驗(yàn)結(jié)果表明,PCA-SVM分類(lèi)準(zhǔn)確率與累計(jì)貢獻(xiàn)率二者之間沒(méi)有明確規(guī)律,KPCA-SVM分類(lèi)準(zhǔn)確率隨累計(jì)貢獻(xiàn)率的降低存在降低或者保持不變的趨勢(shì)。
特征簡(jiǎn)約;PCA-SVM;KPCA-SVM;累計(jì)貢獻(xiàn)率
DNA微陣列技術(shù)的快速發(fā)展和后基因組時(shí)代的到來(lái)產(chǎn)生了海量復(fù)雜的基因表達(dá)數(shù)據(jù)集[1-2]。如何快速分析和處理海量數(shù)據(jù),并從中挖掘到有價(jià)值的生物學(xué)信息已成為當(dāng)下亟需解決的問(wèn)題[3]。基因表達(dá)數(shù)據(jù)的樣本數(shù)較少,但是特征量卻有成千上萬(wàn)甚至更多,而且特征量之間存在相互關(guān)系,所以在對(duì)基因數(shù)據(jù)進(jìn)行處理分析時(shí)必須進(jìn)行數(shù)據(jù)的降維。數(shù)據(jù)降維即為所謂的特征簡(jiǎn)約,也叫特征選擇。通過(guò)數(shù)據(jù)降維可以減小數(shù)據(jù)之間的冗余,提取有用的特征信息,降低數(shù)據(jù)處理的難度,得到更好的分類(lèi)準(zhǔn)確率。
設(shè)原始樣本的集合為{xi|xi=(xi1,xi2,…,xip)T,i=1,2,…,n},n 是樣本個(gè)數(shù),p 是樣本特征個(gè)數(shù)。主成分分析[4]PCA(Principal Component Analysis)的原理是對(duì)原始的 p 個(gè)特征(x1j,x2j,…,xnj)T,j=1,2,…,p 去構(gòu)造 p 個(gè)互相獨(dú)立的新特征(y1j,y2j,…,ynj)T,j=1,2,…,p。
算法步驟如下:
(2)計(jì)算協(xié)方差矩陣S的特征值λ1≥λ2≥…≥λp和特征向量u1,u2,…,up。將特征值和特征向量從大到小排列,則新的 p個(gè)特征向量為y1,y2,…,yp。新特征向量y1,y2,…,yp稱(chēng)為樣本的第1,2,…p個(gè)主成分。
核主成分分析[4-5]KPCA(Kernel Principal Component Analysis)是首先將輸入的樣本數(shù)據(jù)通過(guò)非線(xiàn)性變換φ映射至一個(gè)高維的特征空間F,然后對(duì)高維空間中的數(shù)據(jù)進(jìn)行主成分分析。
算法步驟如下:
(1)計(jì)算矩陣 κ(i,j)=K(xi,xj),i,j=1,2,…,n。
(2)計(jì)算矩陣 κ 的特征值 λ1,λ2,…,λm,和特征向量α1,α2,…,αm,將特征值和特征向量從大到小排列λ1≥λ2≥…≥λm,α1,α2,…,αm。
(3)對(duì)m個(gè)特征向量歸一化,使得‖αi‖2=1/λi。
(4)計(jì)算樣本x在特征向量上的m個(gè)投影y(k)。
支持向量機(jī)[6]SVM(Support Vector Machine)是對(duì)給定的樣本集 Z={(xi,yi)|xi∈RN,yi∈{+1,-1},i=1,2,…,m}尋找能夠?qū)i中樣本正確分類(lèi),并且能夠使分類(lèi)間隔最大的超平面。其中,xi是n維實(shí)空間中的向量,yi是xi所屬類(lèi)的標(biāo)識(shí)。求解最優(yōu)超平面即為求解公式(3)的二次優(yōu)化問(wèn)題:
其中,wTx+w0=0為要求解的超平面,w是超平面的法線(xiàn)方向,w0是超平面的偏移量,C是錯(cuò)誤懲罰因子,ξi為松弛變量。為了能夠準(zhǔn)確分類(lèi),采用映射Φ:X→H將X從輸入空間X映射至一個(gè)高維的特征空間H。為簡(jiǎn)化計(jì)算,選擇一個(gè)核函數(shù)κ(xi,xj)=[φ(xi)φ(xj)]用于特征空間中點(diǎn)積的運(yùn)算。上述問(wèn)題的拉格朗日對(duì)偶形式為:
判別函數(shù)為:
本文選用PCA-SVM和KPCA-SVM兩種算法對(duì)Armstrong-2002-v1數(shù)據(jù)集[7]進(jìn)行分析。Armstrong-2002-v1數(shù)據(jù)集包括72個(gè)樣本12582種基因。其中包括急性淋巴細(xì)胞(ALL)樣本24個(gè),急性髓細(xì)胞白血病(AML)樣本48個(gè)。對(duì)數(shù)據(jù)進(jìn)行預(yù)處理(去噪、缺失值丟棄)后剩余1081條基因。該數(shù)據(jù)集在前20個(gè)特征下基因表達(dá)可視化圖譜如圖1所示。
本文選用基于RBF徑向基核函數(shù)的支持向量機(jī),對(duì)于懲罰因子和核參數(shù)的選擇,采用的方法是基于交叉驗(yàn)證的網(wǎng)格最優(yōu)搜索方法[8]。訓(xùn)練樣本集與測(cè)試樣本集的選擇如表1所示,圖2是Armstrong-2002-v1數(shù)據(jù)集的PCA和KPCA的累計(jì)方差貢獻(xiàn)圖。表2是基于網(wǎng)格搜索的Armstrong-2002-v1數(shù)據(jù)集的CSVM參數(shù)設(shè)置、運(yùn)行時(shí)間和準(zhǔn)確率。
圖1 Armstrong-2002-v1數(shù)據(jù)集20維基因表達(dá)可視化圖譜
表1 訓(xùn)練樣本集和測(cè)試樣本集的選擇
圖2 Armstrong-2002-v1數(shù)據(jù)集的PCA與KPCA的累計(jì)方差貢獻(xiàn)率
表2 基于網(wǎng)格搜索的C-SVM參數(shù)設(shè)置
從表2可以看出:
(1)基于主成分分析的算法中分類(lèi)準(zhǔn)確率與累計(jì)方差貢獻(xiàn)率二者之間并沒(méi)有直接關(guān)系?;诤酥鞒煞址治龅乃惴ㄖ胁煌睦塾?jì)方差貢獻(xiàn)率卻可以取得相同的分類(lèi)準(zhǔn)確率。
(2)累計(jì)方差貢獻(xiàn)率相同時(shí),由于核主成分分析采用的非線(xiàn)性變換,所以在對(duì)數(shù)據(jù)進(jìn)行特征簡(jiǎn)約時(shí)可以取得更低的維數(shù)和更短的搜索時(shí)間。
本文采用了基于網(wǎng)格搜索的PCA-SVM和KPCA-SVM兩種算法對(duì)Armstrong-2002-v1數(shù)據(jù)集進(jìn)行了分析,實(shí)驗(yàn)結(jié)果表明,兩種算法均可以實(shí)現(xiàn)數(shù)據(jù)的特征簡(jiǎn)約,在計(jì)算時(shí)間方面均可以得到較好的效果。在分類(lèi)準(zhǔn)確率方面,當(dāng)累計(jì)貢獻(xiàn)率變化時(shí)PCA-SVM算法的分類(lèi)準(zhǔn)確率沒(méi)有明顯且明確的規(guī)律,但KPCA-SVM算法分類(lèi)準(zhǔn)確率隨累計(jì)貢獻(xiàn)率的降低存在降低或者保持不變的趨勢(shì)。
[1]王勇.聚類(lèi)方法在生物數(shù)據(jù)中的研究與應(yīng)用-基因表達(dá)數(shù)據(jù)聚類(lèi)方法研究[D].江蘇:江南大學(xué),2008.
[2]Domany E.Cluster analysis of gene expression data[J].Journal of Statistical Physics,2003,110(3/4/5/6):1117-1139.
[3]Cios K J,Mamitsuka H,Nagashima T,et al.Computational intelligence in solving bioinformatics problems[J].Artificial Intelligence in Medicine,2005,35(1/2):1-8.
[4]張玉.支持向量機(jī)在基因表達(dá)數(shù)據(jù)分析中的應(yīng)用研究[D].長(zhǎng)春:吉林大學(xué),2012.
[5]吳曉婷,閆德勤.數(shù)據(jù)降維方法分析與研究[J].計(jì)算機(jī)工程及應(yīng)用,2009,26(8):2832-2835.
[6]丁世飛,齊丙娟,譚紅艷.支持向量機(jī)理論與算法綜述[J].電子科技大學(xué)學(xué)報(bào),2011,40(1):2-8.
[7]趙慧,劉希玉,崔海青.網(wǎng)格聚類(lèi)算法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2010,20(9):83-86.
Characteristics Simplicity of Gene Batum Based on PCA and KPCA
XING Xiao-xue,JIANG Li
(College of Electronic Information Engineering,Changchun University,Changchun 130022,China)
When the support vector machine(SVM)method is applied in the analysis of gene expression datum with thousands of dimensions,the running time of the algorithm is much longer.In order to solve the problem,this paper uses PCA-based SVM algorithm and KPCA-based SVM algorithm to make dimension reduction and classification on the datum,which can not only integrate the characteristic information of gene datum,but also shorten the calculation time.It compares the classification accuracy rate of the two algorithms as the accumulative contribution rate is different,the experimental results show that there is not a fixed law between PCA-SVM classification accuracy rate and accumulative contribution rate,but KPCA-SVM classification accuracy rate will decline or keep unchangeable when cumulative contribution rate declines.
characteristics simplicity;PCA-SVM;KPCA-SVM;cumulative contribution rate
TP391.4
A
1009-3907(2013)12-1525-03
2013-09-26
邢笑雪(1981-),女,山西霍州人,講師,博士研究生,主要從事數(shù)字圖像處理方面研究。
book=23,ebook=315
責(zé)任編輯:
吳旭云
長(zhǎng)春大學(xué)學(xué)報(bào)2013年12期