吳文峰,劉毅慧
(齊魯工業(yè)大學信息學院,濟南250353)
doi:10.3969/j.issn.1672-5565.2015.03.09
基于高頻系數(shù)小波分析的高維蛋白質波譜數(shù)據(jù)特征提取
吳文峰,劉毅慧?
(齊魯工業(yè)大學信息學院,濟南250353)
高維蛋白質波譜數(shù)據(jù)分析過程中,對于數(shù)據(jù)的特征提取一直是許多學者專注解決的問題。本文提出了一種基于高頻系數(shù)的小波分析和主成份分析技術(Principal componentanalysis,PCA)的特征提取方法,首先采用小波分析技術對數(shù)據(jù)進行降噪,提取高頻系數(shù)作為特征,之后用主成份分析技術進行降維。實驗顯示:本論文中提出的方法在8-7-02、4/3/02數(shù)據(jù)集上的實驗識別率分別可以達到100%和99.45%,可以有效提高分類識別率。
波譜數(shù)據(jù);高頻;小波分析;主成份分析
自從波譜技術應用到生物醫(yī)學研究領域開始,蛋白質波譜數(shù)據(jù)的分析研究便開始得到了迅速的發(fā)展。隨著研究的廣泛深入,研究過程中所獲得的數(shù)據(jù)量變得越來越大,處理的難度也隨之不斷增加。如何有效的在眾多數(shù)據(jù)中獲取能表征蛋白質性質的重要屬性維度,成為人們熱衷的研究話題。目前人們使用比較廣泛的降維和特征提取方法主要有小波分析[1]、主成份分析[2]、遺傳算法[3]、T?test法[4]、Boosting[5]、模擬退火算法[6]等。
楊合龍等在對高通量SELDI?TOF質譜數(shù)據(jù)進行分析時,提出了一種基于近鄰傳播聚類分析的特征選擇方法[7]??录で榈仍趯Ω呔S蛋白質質譜數(shù)據(jù)進行處理分析時,結合稀疏表示理論提出了一種基于稀疏表示的特征選擇算法[8]。游曉璐等針對蛋白質質譜特征提取問題,提出了一種基于多步降維和半監(jiān)督學習的特征提取算法[9]。王躍锜等通過對非肌性肌球蛋白質譜進行分析研究,深入探討了非肌性肌球蛋白重鏈9對食管癌的影響[10]。
不論是利用蛋白質波譜數(shù)據(jù)對何種問題進行研究,都會需要對大量的波譜數(shù)據(jù)進行分析。在這個過程中,如何降噪、選取特征一直是一個重要的研究課題。本論文中提出了一種基于高頻系數(shù)的小波分析技術和主成份分析技術的特征提取方法,之后通過線性判別分析進行模式分類。
2.1 小波及高頻系數(shù)
小波作為一重要的線性時頻展開方法,它在時域和頻域里都能很好的表征局部信號特征,它是將信號展開為持續(xù)時間很短的高頻基函數(shù)和持續(xù)時間較長的低頻基函數(shù)。高頻系數(shù)當中含有噪聲,通常認為低頻可以較好的表征信號特征。但是在文獻[11]中,通過對信號進行小波分析,之后提取其高頻系數(shù)作為特征,也取得了很好的分類效果。本文中將采用高頻系數(shù)作為特征進行研究。假設L2 (R)是R上平方可積函數(shù)所構成的函數(shù)空間。若Ψ (t)∈L2(R),并且其傅里葉變換Ψ^(ω)滿足條件:稱Ψ是一個基小波或者稱作母小波,其中,R為實數(shù),t為時間。把基小波伸縮和平移,可以得到一個小波序列x-b其中,a,b∈R,并且a≠0。a稱為伸縮因子,b稱為平移因子。式子
運算。在實際問題中,小波變換中的伸縮因子和平移因子往往都不是連續(xù)的,此時數(shù)值計算中需要采用離散小波變換。取a=,b=nbo,m,n∈Z代入式(2),得到相應的離散小波變換[12]:
本文中,采用了離散小波變換,其中,Z為整數(shù)。
小波分析中,選擇一個小波基并確定一個小波分解的層次N,然后對已知信號進行N層小波分解,如圖1所示為小波分解高頻系數(shù)提取示意圖,圖2、圖3為小波處理提取高頻系數(shù)前后的波形對比。
圖1 小波分解及高頻提取Fig.1 Wavelet decomposition and wavelet basis and high frequency extraction
圖2 4-3-02數(shù)據(jù)集第一組數(shù)據(jù)原始信號波形Fig.2 The originalwaveform of the first series data of 8-7-02 data set
圖3 4-3-02數(shù)據(jù)集第一組數(shù)據(jù)提取高頻系數(shù)后波形Fig.3 Waveform after extractting the high frequency coefficients of the first series data of 4-3-02 data set
2.2 主成份分析
主成分分析(principal component analysis,PCA)是將多個線性相關變量壓縮為少數(shù)幾個不相關的變量的一種多元統(tǒng)計方法[13]。它通過提出嚴格線性相關或相關性較強的自變量的信息,選擇其中某些維度來表征原有數(shù)據(jù),以此達到降維的目的。通常,它對數(shù)據(jù)各維度進行信息貢獻率的計算,并對數(shù)據(jù)維度按照貢獻率排序。之后,可以根據(jù)需要自行選取特定的維度來表征原始數(shù)據(jù)。它在圖像處理中的應用已是十分廣泛,在蛋白質波譜數(shù)據(jù)處理中也有應用。假設問題中有p個指標,我們把這些指標看成p個隨機變量X1,X2,…,Xp,主成分分析是要把這p個指標問題轉化為p個指標的線性組合問題。這些新指標F1,F(xiàn)2,…,F(xiàn)k(k≤p),遵循保留主要信息量原則來反映原來指標信息,并且它們相互之間獨立。
F1=u11X1+u21X2+...up1Xp
F2=u12X1+u22X2+…up2Xp
……
Fp=u1pX1+u2pX2+…uppXp
滿足如下條件:
(1)每個主成分系數(shù)平方和是1,即
(2)主成分之間相互獨立,即
Cov(Fi,F(xiàn)j)=0,i≠j,i、j=1,2,…,p
(3)主成分的方差遞減,重要性遞減,即
Var(F1)≥Var(F2)≥…≥Var(Fp)
F1、F2…Fp分別稱為原始變量的第一、第二、第p個主成分。
2.3 線性判別分析
線性判別分析(Linear Discriminant Analysis,LDA),通常也被稱作Fisher線性判別(Fisher Linear Discriminant,F(xiàn)LD),它的基本的思想是把高維的樣本數(shù)據(jù)信息投影到另一個更為適合的矢量空間中,從而抽取出適合于分類分析的數(shù)據(jù)信息以或者達到壓縮特征空間維數(shù)的效果。
給定一個訓練集 V=(v1,v2,…,vm),V?Rn?m,訓練集中的樣本,每個屬性包含一個人臉圖像的像素值,并且每個人臉圖像屬于一個類。Sw和Sb分別是類間散射矩陣和類內散射矩陣,它們分別定義如式(5)、式(6):
其中,Ni是訓練集Vi中的樣本數(shù)量。
LDA方法的目的是搜尋一個基礎向量群,這個向量群中有不同類別的樣本,而且擁有最大類間散射和最小類內散射。假定Sw是非奇異的,那么它的最佳投影矩陣就可以定義為式(7)所示:
其中,Wopt=[W1W2...Wc-1]可以通過求解廣義特征值問題來獲得:
因為廣義特征方程只有在c-1維空間中作為Sb矩陣存在,才能真正的得到優(yōu)化,至少在c-1維空間中,Wopt=[W1W2...Wc-1]是與c-1最大廣義特征值相關的特征向量[14]。
當Sw是非奇異的時,其廣義特征值可以表示為:
2.4 實驗驗證
在模式識別領域,對于機器學習問題,通常采用交叉驗證的方法對實驗效果進行評估。交叉驗證是機器學習數(shù)據(jù)重抽樣常用的方法,并且被廣泛使用。交叉驗證主要有三種,Handout驗證、k折交叉驗證(K?fold cross?validation)、留一驗證(Leave?m?out)。本論文中主要使用 k折交叉驗證(K?fold crossvalidation)。其思想可以簡述如下:將樣本集隨機分為K個集合,通常分為K等份,對其中的K-1個集合進行訓練,剩下的一個集合用來在分類器中進行樣本測試。該過程重復K次,取K次過程中的測試錯誤的平均值作為推廣誤差。
3.1 實驗數(shù)據(jù)
本論文中,總共對兩組SELDI-TOF蛋白質質譜數(shù)據(jù)集對論文中方法的性能進行測試。兩組數(shù)據(jù)集中有一組高分辨率卵巢癌數(shù)據(jù)集、一組低分辨率卵巢癌數(shù)據(jù)集。兩組數(shù)據(jù)集來源于文獻[15]。數(shù)據(jù)的命名也使用文獻[15]中的命名方式。下面簡單介紹這兩組數(shù)據(jù)。
8-7-02數(shù)據(jù)集。這組低分辨率卵巢癌數(shù)據(jù)集在采集數(shù)據(jù)過程中使用了WCX2蛋白質芯片,然后使用升級的PBSII型SELDI?TOF質譜儀來生成質譜數(shù)據(jù)。這組數(shù)據(jù)集包含162個卵巢癌樣本和91個正常樣本。每個樣本有15 154個特征。
4/3/02數(shù)據(jù)集這組數(shù)據(jù)也是低分辨率卵巢癌數(shù)據(jù),亦是采用WCX2蛋白質芯片制備樣本的。這組數(shù)據(jù)集由100個卵巢癌樣本和100個正常樣本組成。每個樣本有15 154個特征。
3.2 實驗思路
將數(shù)據(jù)預處理后,通過小波分析技術進行降維處理,提取高頻系數(shù),之后使用PCA技術,繼續(xù)降維,取出主成分屬性。然后用LDA作為分類器,通過k?fold交叉驗證,分類數(shù)據(jù),并評估其性能。主要過程如圖4所示。
圖4 實驗流程圖Fig.4 Experiment flow
SELDI-TOF-MS——蛋白質波譜數(shù)據(jù)
小波分析(高頻系數(shù))——數(shù)據(jù)降維
PCA分析——特征提取
LDA——分類識別
3.3 實 驗
3.3.1 8-7-02數(shù)據(jù)集
對8-7-02數(shù)據(jù)集實驗結果進行分析。實驗過程中,首先,確定PCA分析所取最佳屬性,實驗中,取能表征數(shù)據(jù)集90%以上主成分分量的最佳屬性。經測試,8-7-02數(shù)據(jù)集經過小波高頻分析和主成分分析后,前15維屬性貢獻率之和達到90.22%,因此取其前15維屬性,如圖5所示。
圖5 8-7-02數(shù)據(jù)集部分主要維度屬性貢獻率Fig.5 Contribution rates of somemain properties of 8-7-02 data set
通過圖4的思路,對8-7-02數(shù)據(jù)集進行分類,其中k?fold驗證中參數(shù)取5,小波變換過程中,分解層數(shù)分別取1到5層,小波基分別取haar和dbN小波系,提取高頻系數(shù)。最終得到在不同小波分解層數(shù)和不同小波基條件下的分類情況。實驗結果如表1所示:
由實驗結果數(shù)據(jù)可以看到,隨著小波分解層數(shù)增加,分類正確率、靈敏性、特異性都略有下降,每增加一層分解,數(shù)據(jù)屬性維度就會減少一半,數(shù)據(jù)維度太多或太少,都不能很好的實現(xiàn)分類效果。另外,小波分解之后,對得到數(shù)據(jù)進行主成分分析,數(shù)據(jù)的前少數(shù)屬性維即可很好的表征數(shù)據(jù)特征,不需要太多冗余屬性維,這大大降低了數(shù)據(jù)維度,為之后的分類減輕了很大的負擔,極大的提高了效率。同時,實驗還說明了對數(shù)據(jù)進行小波分析后的高頻數(shù)據(jù),對于模式分類也是很有利的。最終經實驗分析得出,8-7-02數(shù)據(jù)集在使用haar小波基,小波分解層數(shù)為3,取前15維屬性時,實驗的分類效果最佳:正確率100%,靈敏性96.35%,特異性98.52%(見表1、表2、表3)。
表1 不同小波基在不同分解層數(shù)條件下分類正確率Table 1 Accuracy of classification under the different conditions of wavelet basis and levels
表2 不同小波基在不同分解層數(shù)條件下對應靈敏性Table 2 Sensitivity under the different conditions of wavelet basis and levels
表3 不同小波基在不同分解層數(shù)條件下對應特異性Table 3 Specificity under the different conditions of wavelet basis and levels
下面,對比選取不同主成分屬性實驗效果,實驗中固定小波基和分解層數(shù),分別取前6、8、10維屬性,使用db3小波基、3層分解時,實驗結果對比如表4所示:
由表4中數(shù)據(jù),我們可以看到,隨著維度數(shù)量的增加,正確率逐漸提高。
3.3.2 4/3/02數(shù)據(jù)集
經實驗處理后,本組數(shù)據(jù)前84維屬性貢獻率之和達到90.10%,因此實驗中取前84維如圖6:
表4 不同維度數(shù)據(jù)在相同小波分解條件下結果Table 4 Classific result under the conditions of different dimensions and same wavelet basis
圖6 4/3/02數(shù)據(jù)集部分主要維度屬性貢獻率Fig.6 Contribution rates of somemain properties of 4/3/02 data set
由實驗數(shù)據(jù)我們看到,對4/3/02數(shù)據(jù)集進行實驗,當使用haar小波基,小波分解層數(shù)為4時,其分類效果最佳:正確率99.45%,靈敏性99.65%,特異性99.25%(見表5、表6、表7)。
表6 不同小波基在不同分解層數(shù)條件下對應靈敏性(4/3/02數(shù)據(jù)集)Table 6 Sensitivity under the different conditions of wavelet basis and levels(4/3/02 data set)
表7 不同小波基在不同分解層數(shù)條件下對應特異性(4/3/02數(shù)據(jù)集)Table 7 Specificity under the different conditions ofwavelet basis and levels(4/3/02 data set)
在本論文中,我們使用小波分析后的高頻系數(shù)經過一系列的實驗后發(fā)現(xiàn),同一組數(shù)據(jù),在進行小波分解時,采用同一小波基,當分解層數(shù)不同時,分類結果會稍有不同,比如8-7-02數(shù)據(jù)集在使用db3小波基時,在一到五層分解時正確率分別為78.77%、97.55%、99.21%、1、99.26%。此外,不同小波基,在相同分解層數(shù)條件下,對于數(shù)據(jù)分類結果,也會有不同影響,正確率會有所不同,但是差別不大,如8-7-02數(shù)據(jù)集在進行3層小波分解時,分別使用db1、db3、db4、db6、db8、db10、haar小波基時正確率分別為99.98%、99.21%、100%、99.15%、99.88%、98.42%、100%。高于文獻[11]的綜合識別率。同時也進一步說明,小波分析過程中的高頻系數(shù)也可以很好的表征數(shù)據(jù)特征。
本文提出的模型中,先對蛋白質波譜數(shù)據(jù)進行各種不同的小波分解并提取高頻信息,然后通過主成分分析提取特征,之后將特征送入LDA分類。經實驗,本方法可以有效的降低數(shù)據(jù)計算量,提高效率,并取得了較好的分類效果。
[1] LIU Yihui.Feature extraction and dimensionality reduc?tion formass spectrometry data[J].Computers in Biology and Medicine,2009,39:818-823.
[2] BEHDAD M,F(xiàn)RENCH T,BARONE L,etal.On princi?pal component analysis for high?dimensional XCSR[J]. Evolutionary Intelligence,2012,5(2):129-138.
[3] 李義峰,劉毅慧.基于遺傳算法的蛋白質質譜數(shù)據(jù)特征選擇[J].計算機工程,2009,35(19):192-197. LIYifeng,LIU Yihui.Feature selection for protein mass spectrometry data based on genetic algorithm[J]. Computer Engineering,2009,35(19):192-197.
[4] BALDIP,LONG A.A Bayesian framework for the analysis of microarray expression data:regularized t?test and statistical inferences of gene changes[J]. Bionformatics,2001,17:509-519.
[5] ZHAO J.Asymptotic convergence of dimension reduction based boosting in classification[J].Journal of Statistical Planning and Inference,2013,143(4):651-662.
[6] 李義峰,劉毅慧.基于模擬退火算法的高分辨率蛋白質質譜數(shù)據(jù)特征選擇[J].生物信息學,2009,7(2):85-90. LI Yifeng, LIU Yihui.Feature selection based on simulated annealing algorithm for high?resolutio protein mass spectrometry data[J]. Chinese Journal of Bioinformatics,2009,7(2):85-90.
[7] 楊合龍,祝磊,韓斌.運用近鄰傳播聚類分析進行SELDI?TOF蛋白質譜特征選擇[J].中國生物醫(yī)學工程學報,2013,32(1):14-18. YANG Helong,ZHU Lei,HAN Bin.SELDI?TOF protein mass spectrometry feature selection based on neighbor clustering analysis[J].Chinese Journal of Biomedical Engineering,2013,32(1):14-18.
[8] 柯激情,祝磊,厲力華,等.基于稀疏表示算法的蛋白質質譜數(shù)據(jù)特征選擇[J].生物物理學報,2012,28 (8):683-691. KE Jiqing,ZHU Lei,LI Lihua,et al.Feature selection of protein mass spectrometry data based on sparse representation algorithm [J]. Acta Biochimica et Biophysica Sinica,2012,28(8):683-691.
[9] 游曉璐,祝磊,曹凱敏,等.基于多步降維和半監(jiān)督學習的蛋白質質譜特征提取算法[J].航天醫(yī)學與醫(yī)學工程,2013,26(4):312-316. YOU Xiaolu,ZHU Lei,CAO Kaimin,et al.Feature selection of protein mass spectrometry data based on Multi?step dimensionality reduction and semi?supervised learning[J].Space Medicine&Medical Engineering,2013,26(4):312-316.
[10]王躍锜,張旭,何海蓉,等.食管癌細胞線粒體中MYH9蛋白的分布及與SLP-2結合的研究[J].腫瘤防治研究,2015,42(3):229-232. WANG Yueqi,ZHANG Xu,HE Hairong,et al.The distribution of MYH9 in esophageal cancer cells mitochondrial protein and research combined with SLP-2 [J].Cancer Research on Prevention,2015,42(3):229-232.
[11]劉玉杰,劉毅慧.基于小波高頻系數(shù)基因芯片數(shù)據(jù)的特征提?。跩].生物信息學,2011,9(4):339-343. LIU Yujie,LIU Yihui.Feature extraction of gene chip data based on wavelet high?frequency coefficients[J]. Chinese Journal of Bioinformatics, 2011, 9(4):339-343.
[12]張德豐.MATLAB小波分析(第二版)[M].北京:機械工業(yè)出版社,2011. ZHANG Defeng.The Wavelet Analysis of Matlab(The second edition)[M].Beijing:China Machine Press,2011.
[13]GELADIP.Notes on the history and nature of partial least squares(PLS)modeling[J].Journal of Chemometrics,1988,2:231-246.
[14]ZHOU Changjun,WANG Lan,ZHANG Qiang,et al. Face recognition based on PCA image reconstruction and LDA[J].Optik,2013,124:2299-5603.
[15]李義峰.基于優(yōu)化算法的蛋白質質譜數(shù)據(jù)分析[D].濟南:山東輕工業(yè)學院,2009. LI Yifeng.Optimization Algorithms Based Protein Mass Spectrometry Data Analysis[D].Jinan: Shandong Polytechnic University,2009.
Feature selection forhigh?dimensional protein mass spectrometry data based on the high frequency coefficients of wavelet analysis
WUWenfeng,LIU Yihui?
(School of Information,Qilu University of Technology,Jinan 250353,China)
During the analysis of high?dimensional protein mass spectrometry data,feature selection of the data is always the focus for many researchers.In this paper,we proposed a feature selection method based on the high frequency coefficients ofwavelet analysis and principal component analysis.Firstwe used wavelet analysis to reduct the noise,and extracted the high frequency coefficients as the feature.Then we use PCA to reduce the dimensions. The test show thatwhen themethod was applied to the data set 8-7-02,4/3/02,we can get different recognition rates of 100%and 99.45%,respectively,indicate themethod can improve recognition rates effectively.
Spectrometry data;High frequency coefficients;Wavelet analysis;Principal component analysis
Q629.73
A
1672-5565(2015)03-198-07
2015-04-20;
2015-05-08.
吳文峰,男,碩士研究生,研究方向:智能信息及圖像處理;E?mail:641178636@qq.com.
?
劉毅慧,女,博士,教授,研究方向:生物計算,智能信息處理等;E?mail:yxl@sdili.edu.cn.