武海濱 張 濤 趙發(fā)林 李 康
基于偏最小二乘線性判別分析的遺傳算法在代謝組學特征篩選中的應用*
武海濱1張 濤2趙發(fā)林3李 康4△
目的 探討基于偏最小二乘線性判別分析的遺傳算法特征篩選性能,并將其應用于高維代謝組學數(shù)據(jù)。方法 通過模擬試驗驗證基于偏最小二乘線性判別分析的遺傳算法特征篩選能力,同時應用于卵巢良惡性腫瘤鑒別的代謝組學數(shù)據(jù)特征篩選分析。結果 模擬實驗顯示,基于偏最小二乘線性判別分析的遺傳算法對信息變量的篩選能力明顯優(yōu)于偏最小二乘變量投影重要性指標;代謝組學數(shù)據(jù)分析顯示,使用遺傳算法篩選出的變量能夠獲得更低的誤差率,該方法篩得的變量具有更大的概率包含了與某種生物學結果相關的代謝物。結論 基于偏最小二乘線性判別分析的遺傳算法作為一種優(yōu)化技術,在小樣本條件下對高維數(shù)據(jù)的特征篩選具有較好的效果。
偏最小二乘 判別分析 遺傳算法 代謝組學
*:國家自然科學基金資助(81172767)
1.浙江省疾病預防控制中心(310051)
2.山東大學公共衛(wèi)生學院流行病與衛(wèi)生統(tǒng)計學系
3.杭州師范大學醫(yī)藥衛(wèi)生管理學院
4.哈爾濱醫(yī)科大學衛(wèi)生統(tǒng)計學教研室
△通訊作者:李康,E-mail:likang@ems.hrbmu.edu.cn
代謝組學通常使用理化分析技術對生物體體液或組織的小分子代謝物進行定量的動態(tài)測量,繼而利用統(tǒng)計學方法識別與病理生理刺激或基因改變相關的代謝物,探索可能的代謝途徑?;诜治黾夹g的進步,如LC-MS,GC-MS和NMR,近年來代謝組學迅速發(fā)展,并成功地應用于醫(yī)學、毒理學和營養(yǎng)學等領域〔1-4〕。當前的分析技術能夠產生高通量的代謝指紋圖譜數(shù)據(jù),包含豐富的信息,但也對數(shù)據(jù)的分析提出了挑戰(zhàn)。首先,代謝物的數(shù)量遠大于觀測例數(shù),很容易導致模型過擬合的發(fā)生;其次,很難確定哪些代謝物與某種生物學結果密切相關。
偏最小二乘(partial least squares,PLS)能夠較好地處理多重共線性和小樣本數(shù)據(jù),已經成為光譜學和化學計量學領域的一種基本方法,在代謝組學中也具有廣泛應用〔5-6〕。但是,有研究指出當存在大量噪聲變量時,PLS仍易過度擬合數(shù)據(jù),產生過于“理想”的結果〔7〕。代謝指紋圖譜數(shù)據(jù)中代謝物的數(shù)目遠大于觀測數(shù)目,并且包含大量無關的代謝物,很容易導致機會性分類,因此在模型建立之前有必要先進行特征篩選。PLS模型中的變量投影重要性(variable importance in the projection,VIP)指標能夠直觀地顯示每個變量的重要程度,已被廣泛應用于代謝組學研究中的特征篩選〔8-9〕。然而,數(shù)據(jù)中大量的噪聲變量可能對VIP產生影響,而且生物標記物之間復雜的相互作用可能比獨立的基本效應更加重要〔10〕。為處理上述問題,本研究提出了基于偏最小二乘線性判別分析(partial least squares linear discriminant analysis,PLSLDA)的遺傳算法(genetic algorithm,GA)用于特征篩選。
PLS最初為一種回歸方法,它通過建立正交得分向量(或稱潛變量、成分、因子等)間接擬合解釋變量集和反應變量集之間的線性關系。由于PLS簡單、靈活,能夠提取相關的信息,最近被廣泛應用于降維、分類、可視化、特征篩選等問題〔11-12〕。PLSLDA 是 PLS用于分類問題的一種方法,已被用于基因組和代謝組的研究〔13-14〕,該方法的第一步是通過特征提取獲得k個得分向量t1,…,tk。假定數(shù)據(jù)集包含n個觀測、m個解釋變量和反應變量Y,對于分類問題Y可以使用不同的整數(shù)表示(Y=1,…,q),若q=2,Y可以按照連續(xù)型變量直接處理,若q>2,Y則需轉換成q個啞變量后進行處理:
因此,解釋變量和反應變量矩陣可以分別表示為Xn×m和Yn×q。假定數(shù)據(jù)已經標準化,PLS 按照如下方式將兩個矩陣分解成得分和載荷的乘積形式:
(2)式中Tn×k和Un×k是提取出的k個得分向量,Pm×k和Qq×k是相應的載荷矩陣,En×m和Fn×q表示殘差矩陣。正交得分向量通過最大化解釋變量和反應變量之間的協(xié)方差獲得,即在約束條件wTw=1,cTc=1,和tTu最大的條件下計算向量t和u。向量t和u分別表示矩陣T和U的某一列,w和c是相應的權重向量,權重向量計算的不同定義了不同的PLS算法,經典的非線性迭代偏最小二乘算法(nonlinear iterative partial least squares,NIPALS)中權重向量w和c可以通過下面的特征值問題來解決〔15〕:
在獲得了w和c后,可以計算出t=Xw和u=Yc的值。進而,矩陣X和Y減去t和u所包含的信息,再進行第二輪得分向量的提取。上述過程不斷重復進行直到達到指定的收斂標準。
第二步即使用得分向量t1,…,tk作為預測變量進行線性判別分析。由于選擇的PLS得分向量個數(shù)k遠小于變量個數(shù)m,使用近似正態(tài)分布的得分向量進行線性判別分析時能夠獲得較為理想的結果。得分向量個數(shù)k是PLSLDA中唯一需要優(yōu)化的參數(shù),通常使用交叉驗證來選擇。
在得分向量提取的過程中,每個自變量權重的絕對值表示它們在相應得分向量中影響的大小,而得分向量具有進行分類的能力,因此自變量的權重可以表示它們在相應得分向量中的重要性。第j個自變量在第r個得分向量中變量影響的平方()為其相應權重的平方()乘以第r個得分向量所解釋總變異的百分比,VIP是對自變量在提取的k個得分向量中VIN的綜合:
遺傳算法(GA)的基本原理類似于自然界的進化和自然選擇過程。首先,GA使用簡單的編碼技術將搜索空間映射到基因空間,接著通過適者生存的機制從初始種群中進化問題的解。在進化過程中,GA通過染色體的復制(replication)、交叉(crossover)和變異(mutation)等遺傳過程不斷進化出新的子代,那些具有較高適應性的染色體具有更高的概率將它們的信息傳遞給下一代,保證了GA的搜索方向逐漸向最優(yōu)解靠近,同時防止出現(xiàn)局部最優(yōu)。由于GA能夠在復雜或高維空間中搜索最優(yōu)或近似最優(yōu)的解,該方法被廣泛應用于優(yōu)化問題,這里將GA作為一種特征篩選策略使用。
本研究中,每一個變量被定義為遺傳算法中的一個基因,從所有m個基因中隨機選取g個基因構成一個染色體,每個染色體表示問題的一個可能的解,c個染色體構成了一個小生境(niche),w個小生境構成了初始種群。小生境各自獨立進化,它們之間可以按照一定的概率間或交換染色體,這一過程稱為遷移(migration)。適應函數(shù)(fitness function)用于評估進化過程中每個染色體的適應性,常用的如準確率、誤差率或AUC等,本方法對種群內每一代的每個染色體建立PLSLDA模型,并使用交叉驗證的判別準確率來評價染色體的適應性。適應性較高的染色體具有更高的概率將它們的信息傳遞給下一代。整個GA過程在適應函數(shù)的約束下,通過一系列不斷重復的復制、交叉、變異和遷移等操作逐漸提高染色體的適應性。為避免子代的最大適應性出現(xiàn)較大波動,可以按一定概率保留適應性最高的染色體進入子代且不進行交叉和變異,這一過程即精英主義(elitism)。進化很多代以后,若某個染色體的適應性大于等于設定的目標值,將該染色體作為最優(yōu)染色體選擇出來,流程見圖1。當獲得了足夠數(shù)量的最優(yōu)染色體后,那些在最優(yōu)染色體中多次出現(xiàn)的基因表明在多變量背景下對于分類具有重要作用〔16〕,因此可以根據(jù)變量在最優(yōu)染色體中出現(xiàn)的頻率來判斷其重要性。該算法與其他基于PLS的遺傳算法存在著差異,如Ramadan的研究結果〔6〕。首先,我們將該方法用于超高效液相色譜與質譜聯(lián)用儀(UPLC-QTOF/MS)的代謝指紋圖譜數(shù)據(jù),該方法獲得的代謝物個數(shù)遠大于NRM;其次,在算法中變量采用整數(shù)編碼,以便控制染色體長度;最后,使用多種群的方法進化出上千個染色體能夠獲得較穩(wěn)健的結果。本研究使用R軟件包galgo〔17〕來完成遺傳算法的進化過程,使用plsgenomics軟件包實現(xiàn)PLSLDA。
圖1 遺傳算法的基本流程
代謝指紋圖譜數(shù)據(jù)通常具有數(shù)以萬計的代謝物,多變量的模式使上述問題更為復雜,為對比 GAPLSLDA和VIP的特征篩選性能,我們設計了多變量模式的模擬數(shù)據(jù),并模擬實際工作中的小樣本情況。首先,獨立產生1000個服從N(0,1)的噪聲變量,然后產生兩組差異變量,每組包含3個差異變量,最后將這6個變量放在模擬數(shù)據(jù)集中指定的位置。為簡單起見,本模擬試驗中的差異變量均設為二分類變量,信息變量的產生原理見圖2。設有3個信息變量X1,X2,X3和1個反應變量Y,信息變量被設定同時作用于反應變量,且假定3個信息變量同等重要,信息變量值為1時表示“高表達”,0表示“低表達”,3個信息變量共有8種不同的組合方式,假定只有1個“高表達”的情況為“正常狀態(tài)”,出現(xiàn)2個或3個“高表達”時為“癌癥狀態(tài)”。為了減少每個變量的主效應,我們設定了這種組合的構成比例:出現(xiàn)三個“低表達”和三個“高表達”的概率均為0.1。根據(jù)預先指定的概率,進行重復抽樣,產生30個“正常觀測”和30個“癌癥觀測”,最后重復上述過程100次。
圖2 差異變量的產生原理
由于兩種特征篩選方法均能夠對所有變量進行排序,我們使用6個差異變量排序的頻率分布來演示結果(100次重復,600個排序)。圖3是兩種方法對差異變量排序的頻率分布圖(排序前100位),可以看出兩個分布均為正偏態(tài),但GA-PLSLDA篩選出的差異變量排序更為向前集中,VIP篩選出的差異變量排序具有較多的右拖尾。GA-PLSLDA能夠將90.0%的信息變量排在前6位,99.5%的差異變量排在前100位中,而 VIP僅將 56.3%的差異變量排在前 6位,91.7%的差異變量排在前100位中,顯示GA-PLSLDA比VIP具有更優(yōu)的特征篩選能力,該方法受噪聲影響較小,能夠較好地處理多變量模式。其他的模擬實驗證實,在變量數(shù)目一定,如果增加樣本量(如n1=n2=100),這種差別會逐漸減小,但GA-PLSLDA方法篩選的結果仍然明顯優(yōu)于VIP的方法。
圖3 GA-PLSLDA和VIP對差異變量排序的頻率分布圖(排序前100位)
收集37例首次發(fā)現(xiàn)的原發(fā)性卵巢癌患者和54例卵巢囊腫患者尿樣,采用超高效液相色譜與質譜聯(lián)用儀(UPLC-QTOF)檢測,分別分析正離子(ESI+)和負離子(ESI-)模式,數(shù)據(jù)集的說明見表1。
表1 卵巢癌患者血漿代謝指紋圖譜數(shù)據(jù)集概況
由于代謝指紋圖譜數(shù)據(jù)變量個數(shù)太多,如直接使用遺傳算法進行變量篩選,運算負荷過大,因此,首先使用單變量的過濾法刪除最不相關的一些變量。本研究使用基于兩獨立樣本t檢驗的置換檢驗(permutation test),進行10000次置換,雙側P<0.1的變量構成候選數(shù)據(jù)集,使用R軟件包multtest完成該過程。最后,分別使用GA-PLSLDA和VIP從候選數(shù)據(jù)集中選擇簡單有效的變量子集。
在遺傳算法中設定交叉概率為0.5,交叉點可以是染色體的任何位置,每個染色體均發(fā)生變異,適應函數(shù)為PLSLDA 5折交叉驗證的預測準確率。小生境個數(shù)、小生境規(guī)模、染色體長度和最大進化代數(shù)見表2,其他參數(shù)使用默認設定,對每個數(shù)據(jù)集分別進化1000個最優(yōu)染色體以增強結果的穩(wěn)定性。
表2 遺傳算法參數(shù)設置
分別選擇這兩種算法變量篩選排序前50位的變量,并逐個比較它們預測的誤差率,如PLSLDA具有較低的分類誤差率,模型可能包含對分類具有重要作用的變量。由于數(shù)據(jù)集樣本量較小,此處采用e.632+誤差率,選擇100個Bootstrap樣本進行計算。圖4為兩種特征篩選方法排序前50的變量判別誤差率的逐個比較,表3為排序前50的變量獲得的最小判別誤差率。由此可見,進行特征篩選后PLSLDA的判別誤差率明顯小于未進行特征篩選,特征篩選能夠有效地減少無關代謝物的影響,提高分類的準確性。在變量個數(shù)相同時GA-PLSLDA篩選出的變量一般比VIP能夠獲得更低的誤差率,這表明GA-PLSLDA更能夠排除無關代謝物的影響,有效地降低分類誤差率,該方法篩得的變量具有更大的概率包含了與某種生物學結果密切相關的代謝物。
圖4 卵巢癌代謝指紋圖譜數(shù)據(jù)判別誤差率的比較
表3 排序前50的變量PLSLDA最小判別誤差率
代謝指紋圖譜數(shù)據(jù)中樣本例數(shù)較小,代謝物的數(shù)量巨大,很容易對PLS產生影響,導致機會性分類。因此,特征篩選具有重要的意義,該過程能夠有效地降低模型的復雜性,提高分類器的預測性能,并可以發(fā)現(xiàn)可能的生物標記物。本研究提出了一種基于PLSLDA和GA的特征篩選方法,該方法通過限制染色體的長度控制進化過程中模型的復雜性,噪聲變量在每個染色體中的影響可以變得較小,從而降低了過擬合的風險。另外,在GA-PLSLDA的進化過程中會建立成千上萬的PLSLDA模型,考慮了變量之間復雜的相互作用,能夠發(fā)現(xiàn)多變量的模式。最后,通過進化出相當數(shù)目的最優(yōu)染色體可以使結果更加穩(wěn)健。
本研究通過模擬試驗和實例分析證明了GAPLSLDA在特征篩選上優(yōu)于代謝組學中經常使用的VIP指標,能夠處理復雜的多變量模式。雖然該方法具有較好的特征篩選性能,但是它需要設定較多的參數(shù),運算負荷相對較大;此外,一些無關變量偶爾能夠伴隨生物標記物出現(xiàn)在染色體上,增加了特征篩選的假發(fā)現(xiàn)率,需要進一步探索;最后,由于運算負荷較大,本研究實例分析中未使用雙重交叉驗證,計算出的誤差率可能會比實際偏低,而樣本量對結果的具體影響,仍需進一步研究。
1.Greef J,Smilde AK.Symbiosis of chemometrics and metabolomics:Past,present,and future.Journal of Chemometrics,2005,19(5 - 7):376-386.
2.Clayton TA,Lindon JC,Cloarec O,et al.Pharmaco-metabonomic phenotyping and personalized drug treatment.Nature,2006,440(7087):1073-1077.
3.Robertson DG.Metabonomics in toxicology:a review.Toxicological Sciences,2005,85(2):809-822.
4.Van Dorsten FA,Daykin CA,Mulder TP,et al.Metabonomics approach to determine metabolic differences between green tea and black tea consumption.Journal of Agricultural and Food Chemistry,2006,54(18):6929-6938.
5.Brindle JT,Antti H,Holmes E,et al.Rapid and noninvasive diagnosis of the presence and severity of coronary heart disease using 1H-NMR-based metabonomics.Nature medicine,2002,8(12):1439-1444.
6.Ramadan Z,Jacobs D,Grigorov M,et al.Metabolic profiling using principal component analysis,discriminant partial least squares,and genetic algorithms.Talanta,2006,68(5):1683-1691.
7.Westerhuis JA,Hoefsloot HCJ,Smit S,et al.Assessment of PLSDA cross validation.Metabolomics,2008,4(1):81-89.
8.Qiu Y,Cai G,Su M,et al.Serum metabolite profiling of human colorectal cancer using GC-TOFMS and UPLC-QTOFMS.Journal of Proteome Research,2009,8(10):4844-4850.
9.Martin JC,Canlet C,Delplanque B,et al.1H NMR metabonomics can differentiate the early atherogenic effect of dairy products in hyperlipidemic hamsters.Atherosclerosis,2009,206(1):127-133.
10.Moore JH.The ubiquitous nature of epistasis in determining susceptibility to common human diseases.Human Heredity,2003,56(1-3):73-82.
11.Boulesteix AL,Strimmer K.Partial least squares:a versatile tool for the analysis of high-dimensional genomic data.Briefings in Bioinformatics,2007,8(1):32-44.
12.荀鵬程,錢國華,趙楊,等.高維生物學數(shù)據(jù)兩階段組合降維策略研究.中國衛(wèi)生統(tǒng)計,2012,29(5):626-629.
13.Boulesteix AL.PLS dimension reduction for classification with microarray data.Statistical Applications in Genetics and Molecular Biology,2004,3(1):1544-1561.
14.Taylor SL,Ganti S,Bukanov NO,et al.A metabolomics approach using juvenile cystic mice to identify urinary biomarker and altered pathways in polycystic kidney disease.American Journal of Physiology Renal Physiology,2010,298(4):909-922.
15.錢國華,荀鵬程,陳峰,等.偏最小二乘法降維在微陣列數(shù)據(jù)判別分析中的應用.中國衛(wèi)生統(tǒng)計,2007,24(2):120-123.
16.Li L,Weinberg C,Darden T,et al.Gene selection for sample classification based on gene expression data:study of sensitivity to choice of parameters of the GA/KNN method.Bioinformatics,2001,17(12):1131-1142.
17.Trevino V,F(xiàn)alciani F.GALGO:an R package for multivariate variable selection using genetic algorithms.Bioinformatics,2006,22(9):1154-1156.
Genetic Algorithm Based on Partial Least Squares Linear Discriminant Analysis and its Application on Feature Selection of Metabonomics
Wu Haibin,Zhang Tao,Zhao Falin,et al.Department of NCDs Control and Prevention,Zhejiang Center for Disease Control and Prevention(310051),Hangzhou
ObjectiveEvaluating the feature selection property of the genetic algorithm based on partial least squares linear discriminant analysis,and its application on high dimensional metabolomic data.MethodsValidating the ability of genetic algorithm based on partial least squares linear discriminant analysis with simulated data and applying it on discriminating metabolomic data between benign and malignant ovarian cancer.ResultsSimulations showed that the genetic algorithm based on partial least squares linear discriminant analysis was superior to the index of variable importance in the projection.The analysis on real metabolomics data indicated that using variables selected by genetic algorithm we were able to obtain smaller error rate than the index of variable importance in the projection.The variables selected by genetic algorithm had higher probability involving the metabolites that were related with certain biological results.ConclusionAs an optimization technique,genetic algorithm based on partial least squares linear discriminant analysis could effectively analyze the high dimensional data with small sample size.
Partial least squares;Discriminant analysis;Genetic algorithm;Metabonomics
(責任編輯:劉壯)