李肅義,嵇夢穎,徐 壯,王躍洋,申博文,熊文激
(1.吉林大學 儀器科學與電氣工程學院,吉林 長春 130061;2.吉林大學 化學學院,吉林 長春 130012;
3.吉林大學第一醫(yī)院,吉林 長春 130021)
?
概率主成分分析聯(lián)合支持向量機的前列腺SELDI-TOF質譜數據分析方法研究
李肅義1,嵇夢穎1,徐壯1,王躍洋1,申博文2,熊文激3*
(1.吉林大學儀器科學與電氣工程學院,吉林長春130061;2.吉林大學化學學院,吉林長春130012;
3.吉林大學第一醫(yī)院,吉林長春130021)
摘要:基于前列腺癌檢測中獲取的表面增強激光解吸/離子化飛行時間質譜 (SELDI-TOF-MS)數據,提出一種概率主成分分析(PPCA)聯(lián)合支持向量機(SVM)的分類方法。對臨床322例血清樣本的質譜數據進行特征提取,以隨機選取訓練樣本集(225例)構造SVM判別模型,對剩余樣本集(97例)進行測試。采用均方根誤差、識別率與預測率指標,將所構造的PPCA-SVM模型分別與偏最小二乘(Partial least squares,PLS)和PCA-SVM模型進行比較,發(fā)現PLS模型的識別率和預測率分別為90.92%和76.38%,PCA-SVM模型分別為99.23%和 84.63%,而PPCA-SVM模型分別為99.01%和90.41%。因此SELDI-TOF-MS技術結合PPCA-SVM在樣品分類中具有準確、重復性好等優(yōu)點,為前列腺癌早期診斷提供了一種新方法。
關鍵詞:前列腺癌;概率主成分分析;支持向量機;SELDI-TOF-MS
前列腺癌是威脅男性生命和健康的重大疾病,在全世界范圍內具有較高的發(fā)病率與死亡率[1]。早期的及時、準確診斷是前列腺癌控制及治療的關鍵。近年來,SELDI-TOF-MS技術通過探察生命復雜體內蛋白質分子,分析癌癥細胞相對于正常細胞中蛋白質豐度表達的差異,篩查出與癌癥相關的生物標記物,為實現癌癥的早期檢測提供了新的技術和平臺[2-6]。然而利用SELDI-TOF-MS技術產生的質譜數據海量、信息冗余,尤其患者多時,海量數據會嚴重影響對患病程度的判斷。因此,如何有效提取與疾病相關的特征參數,準確建立特征參數與患病程度之間的映射關系是SELDI-TOF-MS技術檢測早期癌癥的關鍵問題。
Lamberto等[7]提出了基于PCA的食用油甘油三酯質譜分析方法,作為常見的提取特征方法,降低了模型多參數計算量和分析問題的復雜性;徐琨等[8]利用偏最小二乘法(PLS)建立了健康者與乙肝患者的血清蛋白質圖譜數據分類模型,但當數據類別增多時,質譜數據和樣本類別之間非線性因素會隨之變大,從而影響PLS的預測效果,產生較大的檢測誤差[9];Miller等[10],余小蘭等[11],曹素梅等[12]分別提出基于人工神經網絡的質譜數據分類方法,但人工神經網絡的學習目標為訓練誤差最小化,導致所建模型的泛化能力較低;為了改善人工神經網絡分析質譜數據存在的不足,Marchiori等[13]利用支持向量機SVM構建質譜數據分析判別模型,預測率較人工神經網絡得到顯著提高;張玉璽等[14]通過比較K最鄰近法、助推法、分類回歸樹與支持向量機幾種方法構建的質譜數據分析模型,進一步證明了SVM的預測結果更優(yōu);Suarez 等[15],Lokhov等[16],王春艷等[17]分別將PCA聯(lián)合SVM方法用于質譜和光譜數據分析,取得了較好效果。但由于PCA基于重建方差最小投影原理,具有缺少概率模型結構和缺失高階統(tǒng)計量信息的不足[18]。概率主成分分析(PPCA)則將傳統(tǒng)PCA中丟棄的非主成分因子以噪聲方差估計的形式對因子載荷矩陣進行約束[19],然后通過最大期望算法估計參數而得到最佳概率模型,因此PPCA可以更有效地從高維數據中尋找到主成分方向,取得較PCA更優(yōu)的特征提取效果。
綜上分析,本文提出了一種PPCA聯(lián)合SVM的前列腺SELDI-TOF-MS數據分類方法。通過PPCA技術挖掘與提取前列腺癌、前列腺炎患者以及健康者的特征參數;再通過SVM方法建立預測模型;并且利用識別率與預測率指標,將該方法與傳統(tǒng)的PLS、PCA-SVM方法進行比較,以驗證PPCA聯(lián)合SVM分類方法的有效性。
1實驗部分
實驗部分包括實驗數據的獲取及預處理、PPCA-SVM分類方法的建立與方法評估。程序編寫基于MATLAB2013a及臺灣大學林智仁等開發(fā)的LIBSVM工具箱[20]。
1.1實驗數據
FDA-NCI Clinical Proteomics Program Website是由美國國立衛(wèi)生研究院NIH聯(lián)合美國食品和藥物管理局FDA共同創(chuàng)建的臨床蛋白質研究資源網站[21],可提供利用h1蛋白質芯片(Ciphergen Biosystems,Inc.,Palo Alto,CA,USA)結合Ciphergen PBS1 SELDI-TOF質譜技術分析血清樣本獲取的前列腺癌數據。該數據集共包含322例血清樣本的質譜數據,其中包括63例健康者、190例前列腺炎患者與69例前列腺癌患者(43例晚期癌癥患者,26例早期癌癥患者);每組數據中包含15 154個蛋白質表達豐度值,圖1為從SELDI-TOF-MS中任選的3類代表性蛋白質表達豐度圖譜。
322個樣本隨機分為訓練樣本集(70%)和測試樣本集(30%),每組包含健康者、前列腺炎患者和前列腺癌患者,表1為每組中的具體樣本數。
表1 訓練組與測試組中包含的具體樣本數
從圖1可看出,原始圖譜中含有基線漂移、隨機噪聲和高頻化學噪聲,并且有效信號大多集中在1 000≤m/z≤10 000區(qū)間。本實驗根據質譜噪聲與有效信號的主要特征,通過適當的預處理,降低各種非目標因素對質譜的影響,凈化圖譜信息,避免噪聲與基線漂移等引起的特征參數計算誤差。預處理的具體步驟如下:信號截?。河蓤D1可看到,m/z<1 000主要被高頻化學噪聲所污染,m/z>10 000特征的差異不顯著,因此,截取1 000≤m/z≤10 000之間的數據進行后續(xù)分析?;€校正:通過做遞歸直方圖估計基線,窗口長度為200,對質譜信號進行基線校正。譜線平滑:利用局部加權回歸散點平滑法對質譜信號中引入的電子噪聲與隨機噪聲進行平滑濾波。
1.2PPCA-SVM分類方法
1.2.1數據集前列腺癌檢測質譜樣本集{sn,n=1,2,……,N},其中N為322,代表樣本個數。每個樣本的輸入向量為xn,p,其中p代表維數,由預處理后的7 327維的質譜表達豐度值組成;輸出向量{Yn=-1,0,1}對應分類結果,1代表前列腺癌患者,0代表前列腺炎患者,-1代表健康者。隨機選取225(70%)例質譜數據作為訓練集,97(30%)例質譜數據作為測試集。
1.2.2特征提取預處理后的SELDI-TOF-MS數據具有高維特性,采用降維技術進行特征提取不僅可以簡化模型結構,還可提高訓練與檢測速度。本文利用PPCA對訓練集樣本預處理后的質譜數據進行降維與特征提取。主要實現步驟如下:
利用高斯噪聲ε~N(0,σ2I)描述特征空間的非主成分因子,建立隱變量模型映射d維質譜數據s與其q維特征矩陣x之間的關系:s=Wx+μ+ε,其中W為d×q維因子載荷矩陣,μ為s的非零均值。
在以上隱變量模型下,建立特征矩陣條件下質譜數據的概率分布,依據貝葉斯概率公式,推導出特征矩陣關于質譜數據的后驗概率密度分布。
1.2.3SVM建模近年來SVM在臨床醫(yī)學的疾病診斷、預測以及篩查等方面得到廣泛應用[22]。
核函數選取及模型參數估計:SVM核函數選用較穩(wěn)定的RBF核函數,在訓練前給定正則化參數和核函數參數的范圍,即c∈[-10,10],g∈[-10,10],使c和g在這個范圍內遍歷取值,每個子集驗證1次,對每一個組合參數均進行交叉驗證求取SVM模型參數。
模型訓練及測試:隨機選取225例樣本建立PPCA-SVM訓練模型,利用剩余的樣本作為測試集對模型進行檢驗,重復進行10次實驗。
1.3模型性能評價
為了評價模型的分類效果,利用隨機選取的訓練樣本集與測試樣本集,通過比較識別率與預測率,對PLS模型、PCA-SVM與PPCA-SVM3種模型進行了分類準確率的評估,同時,為驗證模型的穩(wěn)定性,避免實驗的隨機性,將此過程重復10次,最后通過平均識別率與預測率來評價模型性能。
2結果與討論
2.1預處理結果
原始圖譜中含有基線漂移、隨機噪聲和高頻化學噪聲,通過有效信號截取,基線校正與譜線平滑等預處理降低各種噪聲對有效信號的影響,避免后續(xù)的特征參數計算誤差。任意選取某一正常血清樣本的原始質譜數據(如圖2A),預處理后的譜線如圖2B所示。由圖可知,預處理后的信號較為有效地校正了原始信號中的基線漂移(8 500≤m/z≤10 000區(qū)間較為明顯),抑制了部分電子噪聲與隨機噪聲(1 000≤m/z≤4 000區(qū)間)。
2.2質譜數據特征提取結果
2.3模型對比結果
通過交叉驗證法求得PPCA-SVM模型參數,然后對PLS,PCA-SVM與PPCA-SVM 3種模型的識別率及預測率進行評估。表2分別給出了PLS,PCA-SVM,PPCA-SVM模型的10次平均識別率與預測率,PLS模型的平均值分別為90.92%和76.38%,PCA-SVM模型的平均值分別為99.23%和84.63%,PPCA-SVM模型的平均值分別為99.01%和90.41%。
表2 PLS,PCA-SVM,PPCA-SVM模型的平均識別率與預測率
(續(xù)表2)
PLS模型集主成分分析與多元線性回歸為一體,但其訓練目標為經驗風險最小化,主要適用于小樣本事件,而SVM模型的訓練目標則為結構風險最小化。因此,SVM的預測效果更優(yōu),其中以PPCA-SVM模型的預測效果最優(yōu)。
3結論
研究結果表明,3種模型在利用訓練集時,識別率均高于90%,但在利用測試集時,PPCA-SVM模型的預測效果最好,其原因主要是由于:①傳統(tǒng)PLS模型的學習目標為經驗風險最小化,而SVM模型的學習目標則為結構風險最小化,即同時考慮了經驗風險與置信誤差,因此SVM模型的泛化能力較好,預測效果最優(yōu)。②PCA與PPCA雖然降低了數據的維度,但PPCA通過最佳概率模型可以更為有效地從高維數據中尋找到主成分方向,更加有效地提取特征參數,因此PPCA-SVM模型的性能優(yōu)于PCA-SVM模型?;谝陨戏治雠c實驗驗證,本文提出的PPCA-SVM模型優(yōu)于傳統(tǒng)的PLS與PCA-SVM檢測模型,具有預測準確率高與穩(wěn)定性好等特點,為其應用于臨床前列腺癌的早期診斷奠定了理論與實驗基礎。
參考文獻:
[1]American Cancer Society.Cancer Facts and Figures 2015[M/OL].Atlanta:American Cancer Society,2015.
[2]CHO W C S.Chin.J.Biotechnol.(曹志成.生物工程學報),2006,22(6):872-876.
[3]Xu C M,Zhang W,Zhang J Y,Liu H,Sun H C,Ma H B,Zhu Y P,Xie H W.Prog.Biochem.Biophys.(徐長明,張偉,張紀陽,劉輝,孫漢昌,馬海濱,朱云平,謝紅衛(wèi).生物化學與生物物理進展),2011,38(6):506-518.
[4]Petricoin E F,Ardekani A M,Hitt B A,Levine P J,Fusaro V A,Steinberg S M,Mills G B,Simone C,Fishman D A,Kohn E C,Liotta L A.Obstetrical&GynecologicalSurvey,2002,57(6):572-577.
[5]Cazares L H,Adam B L,Ward M D,Nasim S,Schellhammer P F,Semmes O J.Clin.CancerRes.,2002,8(8):2541-2552.
[6]Conrads T P,Fusaro V A,Ross S,Johann D,Rajapakse V,Hitt B A,Steinberg S M,Kohn E C,Fishman D A,Whitely G,Barrett J C,Liotta L A,Petricoin E F,Veenstra T D.Endocrine-relatedCancer,2004,11(2):163-178.
[7]Lamberto M,Saitta M.J.Am.OilChem.Soc.,1995,72(8):867-871.
[8]Xu K,Zhu E Y,Yang P Y,Liu Y K.Chin.J.Anal.Chem.(徐琨,朱爾一,楊芃原,劉銀坤.分析化學),2009,37(2):211-215.
[9]Bai Y K,Meng X J,Ding D,Shen X G.Spectrosc.SpectralAnal.(白英奎,孟憲江,丁東,申鉉國.光譜學與光譜分析),2005,25(3):381-383.
[10]Miller J H,Schrom B T,Kangas L J.MethodsMol.Biol.,2015,1260:89-100.
[11]Yu X L,Yao Y Z.Mod.Med.J.(余小蘭,姚永忠.現代醫(yī)學),2012,40(2):241-244.
[12]Cao S M,Gou X,Chen F J,Yang A K,Chen W K,Li N W.Chin.J.Cancer(曹素梅,郭翔,陳福進,楊安奎,陳文寬,李寧煒.癌癥雜志),2007,26 (7):767-770.
[13]Marchiori E,Jimenez C R,West-Nielsen M,Heegaard N H.LectureNotesinComputerScience,2006,3907:79-90.
[14]Zhang Y X,Xiong Q,Yang G,Li M L.Chin.J.Anal.Chem.(張玉璽,熊慶,楊剛,李夢龍.分析化學),2007,35(10):1449-1454.
[15]Suarez E,Hien P N,Israel P O,Lee K J,Kim S B,Jaroslaw K,Kevin A S.Anal.Chim.Acta,2011,706(1):157-163.
[16]Lokhov P G,Kharybin O N,Archakov A I.Int.J.MassSpectrom.,2012,309:200-205.
[17]Wang C Y,Shi X F,Li W D,Ren W W,Zhang J L.J.Instrum.Anal.( 王春艷,史曉鳳,李文東,任偉偉,張金亮.分析測試學報),2014,33(3):289-294.
[18]Jolliffe I T.PrincipalComponentAnalysis.Second Edition:Springer Series in Statistics.New York:Springer,2002:1-27.
[19]Tipping M E,Bishop C M.J.RoyalStat.Soc.B,1999,61(3):611-622.
[20]Chang C C,Lin C J.ACMTrans.Intell.Syst.Technol.,2011,2(27):1-27.
[21]http://home.ccr.cancer.gov/ncifdaproteomics/.
[22]Suykens J A K,Vandewalle J.NeuralProcess.Lett.,1999,9(3):293-300.
A SELDI-TOF-MS Data Classification Method for Prostate Based on Probabilistic Principal Components Analysis and Support Vector MachineLI Su-yi1,JI Meng-ying1,XU Zhuang1,WANG Yue-yang1,SHEN Bo-wen2,XIONG Wen-ji3*
(1.College of Electrical Engineering and Instrumentation,Jilin University,Changchun130061,China;2.College
of Chemistry,Jilin University,Changchun130012,China;3.The First Clinical Hospital of Jilin University,
Changchun130021,China)
Abstract:A method combined probabilistic principal components analysis(PPCA) with support vector machine(SVM) was presented for analyzing SELDI-TOF-MS data generated from clinical proteomic study.Using PPCA for feature extraction on 322 MS data set,225 MS data set were randomly selected as learning set for establish SVM model,and the remaining 97 data set were selected as a testing set for prediction and verification.Root mean square error,recognition rate and predictive rate were used to evaluate the model′s classification performance,respectively.To verify the PPCA-SVM model′s classification performance further,the proposed model with partial least squares (PLS) model and PCA-SVM model were compared.The results showed that the recognition rates for PLS,PCA-SVM and PPCA-SVM were 90.92%, 99.23%and 99.01%,respectively,the predictive rates for PLS,PCA-SVM and PPCA-SVM were 76.38%,84.63% and 90.41%,respetively.Experimental results showed that proposed PPCA-SVM model was an accurate and repeatable method for automatically detecting prostate cancer.The method provides a new approach for early diagnosis of prostate cancer in clinic.
Key words:prostate cancer;probabilistic principal components analysis;support vector machines;SELDI-TOF-MS
中圖分類號:O657.63;Q461
文獻標識碼:A
文章編號:1004-4957(2016)01-0091-05
doi:10.3969/j.issn.1004-4957.2016.01.015
通訊作者:*熊文激,博士,教授,研究方向:醫(yī)學信號處理與腫瘤早期檢測技術,Tel:0431-88502382,E-mail:450331530@qq.com
基金項目:國家自然科學基金(201101071);吉林省自然科學基金(20140101063JC)
收稿日期:2015-07-06;修回日期:2015-08-04