哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計學(xué)教研室(150086) 李俊南 侯 艷 孫鳳宇 李 康
OPLS方法的原理及其在代謝組學(xué)數(shù)據(jù)判別分析中的應(yīng)用*
哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計學(xué)教研室(150086) 李俊南 侯 艷 孫鳳宇 李 康△
目的探討orthogonal projection to latent structures(OPLS)方法的原理、特點及其在代謝組學(xué)高維數(shù)據(jù)分析中的應(yīng)用。方法通過R語言編程實現(xiàn)OPLS方法,利用模擬試驗探索OPLS的特性及適用條件,并通過實際數(shù)據(jù)進行驗證。結(jié)果利用一個OPLS預(yù)測主成分的模型擬合效果與利用偏最小二乘(PLS)多個主成分的模型擬合效果相同,同時具有較好的判別能力,其得分圖的可視化效果優(yōu)于PLS。結(jié)論OPLS能夠有效去除自變量矩陣X中與因變量Y無關(guān)的信息,使模型變得簡單、易于解釋,同時具有較好的可視化效果,可有效地用于代謝組學(xué)數(shù)據(jù)分析中。
orthogonal projection to latent structures(OPLS) 模型擬合 可視化 代謝組學(xué)
在代謝組學(xué)研究中,由色譜和質(zhì)譜產(chǎn)生的高維數(shù)據(jù)可以應(yīng)用偏最小二乘方法(partial least squares,PLS)進行分析,解決降維、分類可視化和特征篩選等問題[1-2]。然而,由于代謝組學(xué)數(shù)據(jù)中的很多代謝物質(zhì)(包括物質(zhì)的碎片)具有較高的相關(guān)性,且與分類無關(guān),利用PLS法無法將分類的信息集中在前2~3個主成分中,結(jié)果使分類及可視化效果不好。Orthogonal projections to latent structures(OPLS)是一種新型的多元統(tǒng)計數(shù)據(jù)分析方法,它由Johan Trygg等人于2002年首次提出[3]。近十年來,這種方法在理論和應(yīng)用方面都得到了迅速的發(fā)展,并在計量化學(xué)中有了大量的應(yīng)用。OPLS是一種多因變量對多自變量的回歸建模方法,其最大特點是可以去除自變量X中與分類變量Y無關(guān)的數(shù)據(jù)變異,使分類信息主要集中在一個主成分中,模型變得簡單和易于解釋,其判別效果及主成分得分圖的可視化效果更加明顯[4]。本文在簡單介紹OPLS的基本思想和原理的基礎(chǔ)上,通過模擬實驗探索OPLS方法的適用條件,并利用實際數(shù)據(jù)進行驗證。
1.基本原理
OPLS從給定的數(shù)據(jù)集X中移除系統(tǒng)正交變量,并把這些正交變量和非正交變量區(qū)分開來,可以對這些正交變量單獨進行分析。OPLS方法利用響應(yīng)變量Y中的信息把X分成三部分[4-5],即
其中,TP表示X的預(yù)測得分矩陣表示X的預(yù)測載荷矩陣表示預(yù)測部分,TO表示X與Y的正交成分(稱為OPLS成分)的得分矩陣表示對應(yīng)的載荷矩陣表示與Y正交的部分,E為殘差矩陣。
OPLS方法的實現(xiàn)通過兩步完成:
第一步,與Y正交的變量從X數(shù)據(jù)矩陣中剔除,即
其中T0是與Y正交成分的得分矩陣是與其對應(yīng)的載荷矩陣。
第二步,對XP進行偏最小二乘分析。對于新的樣本,需要先通過正交成分進行校正,再進行預(yù)測。
2.計算方法
文中僅介紹具有一個Y變量的OPLS算法[3],將原始變量進行中心化和標(biāo)準化后,進行下列算法:
(1)wT=Y(jié)TX/(YTY),計算X矩陣的權(quán)重向量;
(2)w=w/‖w‖,對權(quán)重向量進行歸一化;
(3)t=Xw/(wTw),估計X矩陣的得分向量t;
(4)cT=tTY/(tTt),計算Y矩陣的載荷;
(5)u=Y(jié)c/(cTc),產(chǎn)生Y矩陣的得分向量;
(6)pT=tTX/(tTt),計算X矩陣的載荷;
(7)w⊥=p-[wTp/(wTw)]w,計算正交權(quán)重向量,這里p向量可以是任意與w維數(shù)相同的向量;
(8)w⊥=w⊥/‖w⊥‖,對正交權(quán)重向量進行歸一化;
(12)保存T⊥=[T⊥t⊥],P⊥=[P⊥,p⊥]以及W⊥=[W⊥w⊥],需要求下一個正交成分返回到步驟(3),令X=Eopls,否則繼續(xù)13步;
(13)對于新的樣本(預(yù)測樣本)通過校正模型的W⊥和P⊥來進行校正。
3.正交成分個數(shù)的確定
OPLS使用特征值判別方法和交叉驗證方法[3],計算出正交成分和預(yù)測成分。特征值計算方法為
如果在X中沒有正交變量,則λ接近0。λ值為正交成分個數(shù)的選取提供了重要的參考依據(jù)。
第二種方法使用k折交叉驗證的方法,即將樣本數(shù)據(jù)等分成k個部分選擇使判別精度Q2最大的正交成分個數(shù)[6],其計算公式為
其中,Ym為每個樣品的真實標(biāo)簽為k折交叉驗證時測試樣本中每個樣品的預(yù)測值為測試樣本中所有樣品的平均值,預(yù)測殘差平方和定量地衡量了樣品預(yù)測值偏離真實標(biāo)簽的程度。聯(lián)合使用特征值法和交叉驗證方法是確定正交成分個數(shù)的最好的途徑。
實驗?zāi)康模和ㄟ^模擬不同相關(guān)結(jié)構(gòu)的高維數(shù)據(jù),探索OPLS方法的特點及適用條件,并與目前在計量化學(xué)中經(jīng)常使用的PLS方法進行比較。模型的擬合能力用相當(dāng)于傳統(tǒng)的多元線性回歸的決定系數(shù),計算使用的是全部樣本數(shù)據(jù)。判別能力通過交叉驗證得到的Q2(也記為Q2)統(tǒng)計量衡量,可視化效果通過主成分得分的散點圖進行判斷。OPLS的實現(xiàn)使用R語言編程[7]。
模擬實驗1:根據(jù)代謝組學(xué)數(shù)據(jù)特點,通常呈偏態(tài)分布,并且包含有極端值,為此產(chǎn)生指數(shù)分布數(shù)據(jù)X。設(shè)有二分類的數(shù)據(jù),其中有20個差異變量,在兩個不同的分組中分別服從X~E(0.1)和X~E(0.3)的指數(shù)分布,加入1000個白噪聲,噪聲服從X~N(0,1)的正態(tài)分布,產(chǎn)生兩個模擬數(shù)據(jù)集,第一個數(shù)據(jù)集噪聲之間的相關(guān)性為0,第二個數(shù)據(jù)集中,將1000個噪聲分為20組,每組50個噪聲之間的相關(guān)系數(shù)設(shè)為0.1。重復(fù)試驗1000次,結(jié)果顯示:當(dāng)噪聲變量相關(guān)系數(shù)為0,利用PLS進行分析時,第一個主成分的Q2最大(Q2利用OPLS進行分析時,去除2個正交成分后的當(dāng)噪聲變量相關(guān)系數(shù)為0.1時,利用PLS進行分析,第一個主成分的利用OPLS進行分析時,去除1個正交成分后的Q2最大當(dāng)噪聲之間的相關(guān)系數(shù)為0,比較兩種方法的得分圖可以看出PLS的可視化效果與OPLS的可視化效果幾乎相同(圖1)。當(dāng)噪聲之間的相關(guān)系數(shù)為0.1時,得分圖與圖1相類似。說明在噪聲變量間不相關(guān)或相關(guān)程度比較低的情況下,PLS利用一個主成分就能達到最大的Q2值,同時可視化效果較好,此時兩種方法都可使用。
模擬實驗2:模擬設(shè)定中有20個差異變量,在第一類中服從X~E(0.1)的指數(shù)分布;在第二類中20個變量服從X~E(0.19)的指數(shù)分布。加入1000個無差異變量作為干擾變量,噪聲變量服從X~N(0,1)正態(tài)分布,并分為20組,每組50個變量的相關(guān)系數(shù)分別設(shè)為0.95和0.85,并同時設(shè)定相關(guān)系數(shù)為0,0.1,0.85,0.95四種非等相關(guān)結(jié)構(gòu)構(gòu)成的噪聲,產(chǎn)生三個模擬數(shù)據(jù)。對上述模擬數(shù)據(jù)分別利用OPLS和PLS進行分析,計算出三種算法的值,以及各主成分的得分,通過繪制得分圖的散點圖進行可視化效果分析。上述方法重復(fù)試驗1000次,得出平均和Q2值,結(jié)果見表1。
由表1可知,當(dāng)相關(guān)系數(shù)ρ=0.95時,利用PLS進行分析,當(dāng)取第一個主成分時,Q2值最大(Q2=-0.068),此時對于OPLS分析,去除5個正交成分后,Q2值最大通過比較兩種方法的結(jié)果,可以看出OPLS方法利用1個預(yù)測成分能得到較高的Q2值,并使模型變得更加簡單和容易解釋。而PLS方法則完全失效,其Q2值均為負值。當(dāng)相關(guān)系數(shù)ρ=0.85時,利用PLS進行分析時,其Q2值為負,利用OPLS進行分析時,去除6個正交成分時,Q2值最大,此時當(dāng)同時設(shè)定4種非等相關(guān)結(jié)構(gòu)時,利用PLS進行分析,當(dāng)選擇3個主成分時,Q2值最大0.878,利用OPLS進行分析時,去除4個正交成分時,Q2值最大,此時
圖1 PLS方法前兩個主成分得分圖(A)和OPLS方法一個預(yù)測成分和第一個正交成分得分圖(B)
表1 不同噪聲相關(guān)系數(shù)時OPLS與PLS兩種分析方法結(jié)果比較
圖2 ρ=0.95時PLS方法前兩個主成分得分圖(A)和OPLS方法一個預(yù)測成分與第一個正交成分得分圖(B)
進而,通過計算各成分的得分,繪制了兩種方法的得分圖。圖2表示當(dāng)相關(guān)系數(shù)ρ=0.95時,PLS中前兩個主成分的得分圖和前三個主成分的三維得分圖,從圖中我們可以看到PLS不能將兩類完全分開,而利用OPLS方法,其得分圖可以將兩類完全分開(見圖3),說明在此模擬研究條件下OPLS方法得分圖的可視化效果明顯優(yōu)于PLS方法,可有效解決PLS的得分圖不能將兩類區(qū)分的問題。當(dāng)相關(guān)系數(shù)ρ=0.85時,得分圖與ρ=0.95時趨勢相同。當(dāng)同時設(shè)定4種非等相關(guān)結(jié)構(gòu)時,得分圖見圖4,從圖4(A)中可以看到利用PLS的前兩個成分沒有將兩類完全區(qū)分開,利用OPLS的一個預(yù)測成分和4個正交成分中的第一個正交成分能夠?qū)深愅耆謥恚▓D4(B)),并且OPLS方法的判別能力高于PLS方法,證明在此種情況下,OPLS仍具有一定的優(yōu)勢。
圖3 ρ=0.95時OPLS一個預(yù)測成分和第一個正交成分得分圖
采用2009年9月至2010年5月期間在哈爾濱醫(yī)科大學(xué)附屬腫瘤醫(yī)院收集的76例卵巢癌患者血漿樣品和92例子宮肌瘤患者的血漿樣品,經(jīng)過UPLC-MS-Q-TOF儀器檢測分析和預(yù)處理后得到代謝組學(xué)數(shù)據(jù),共獲得1499個峰(變量),分類變量為Y,卵巢癌為1,子宮肌瘤為0。
1.利用PLS對數(shù)據(jù)進行分析
利用PLS方法進行分析,當(dāng)取7個主成分時,Q2值最大,等于0.624,此時計算PLS主成分得分,得到前兩個成分的得分圖,見圖6,從圖中可見,PLS的前兩個成分在標(biāo)識的區(qū)域中兩種樣本混在一起,其可視化效果不夠理想。利用前三個成分繪制三維得分圖,其區(qū)分效果有一定提高,但不夠明顯。
圖4 同時設(shè)定4種非等相關(guān)結(jié)構(gòu)時PLS前兩個主成分得分圖(A)與OPLS一個預(yù)測成分和第一個正交成分得分圖(B)
圖5 PLS方法前兩個主成分得分圖(A)和前三個主成分三維得分圖(B)
圖6 每個OPLS成分的λ的直方圖
圖7 OPLS一個預(yù)測成分和第一個正交成分得分
圖8 置換檢驗圖(A)和Q2置換檢驗圖(B)
2.利用OPLS法對數(shù)據(jù)進行分析
從特征值方法看到取6~8個成分時λ值都比較?。▓D6),利用交叉驗證方法得出,去除6個正交成分時的Q2值最大(Q2=0.622),因此本例選擇去除6個正交成分,此時結(jié)果表明,利用一個預(yù)測成分和6個正交成分中的第一個正交成分的得分圖可以明顯地區(qū)分對照組和病例組,可視化效果明顯(圖7)。為證明OPLS方法結(jié)果的真實性,我們進行置換檢驗,隨機打亂Y變量標(biāo)簽1000次,得到每次值與Q2值,其頻數(shù)分布圖見圖8,圖8(A)中橫坐標(biāo)為0.72的點為正確標(biāo)簽下的值,圖8(B)橫坐標(biāo)為0.622的點為正確標(biāo)簽下的Q2值,從兩圖中可以看到打亂標(biāo)簽后的值和Q2值明顯小于正確標(biāo)簽下的和Q2值,說明OPLS方法得出的結(jié)果是真實的。兩種方法的值與Q2值比較見表2。
表2 卵巢癌代謝組學(xué)數(shù)據(jù)兩種分析方法的結(jié)果比較
1.代謝組學(xué)數(shù)據(jù)具有高維、小樣本的特性,其中既有對分類起作用的差異變量,同時包含大量相關(guān)的無差異變量,如果利用PLS進行分析,則由于相關(guān)變量的影響,使差異變量分散在多個主成分上,當(dāng)主成分個數(shù)大于3時,無法更好地進行可視化(只能選擇三個貢獻大的主成分)。OPLS方法則能夠移除X變量中與Y變量不相關(guān)的變量,使有差異的變量集中在第一個主成分中,模型變得簡單和易于解釋,更好地實現(xiàn)結(jié)果的可視化。
2.通常情況下,當(dāng)無差異變量相關(guān)程度不高時,PLS方法能得到較好的效果,此時應(yīng)用OPLS方法分析結(jié)果差別不大,我們可以任選PLS或者OPLS中的一種方法對數(shù)據(jù)進行分析。理論上講,從判別角度看,由于PLS可以利用多個主成分,而OPLS僅使用了一個主成分,可能有些較弱的差異變量被當(dāng)作正交成分被剔除,使實際判別效果略為變差。實際中,由于代謝組學(xué)中很多物質(zhì)是同一種代謝物產(chǎn)生的碎片,這些碎片通常具有高度相關(guān)性,同時很多物質(zhì)間由于代謝通路的關(guān)系也具有較高的相關(guān)性,因此在模擬實驗中設(shè)置了變量高相關(guān)的情況。當(dāng)無差異變量相關(guān)程度較高時,利用OPLS方法的效果優(yōu)于PLS。
3.本文用兩種方法對卵巢癌代謝組學(xué)數(shù)據(jù)進行了分析,利用兩種分析方法對實際數(shù)據(jù)進行分析,結(jié)果顯示OPLS方法可視化效果優(yōu)于PLS方法,同時具有較高的判別能力,與模擬試驗的結(jié)果相一致。在實際應(yīng)用中,我們可以根據(jù)數(shù)據(jù)變量之間是否相關(guān),綜合考慮可視化效果和判別能力(Q2)進行方法的選擇。
4.PLS和OPLS方法都只適合線性相關(guān)結(jié)構(gòu)的數(shù)據(jù)分析,如果變量間存在非線性關(guān)系,使用這兩種方法分析的效果可能會明顯變差,這時可以考慮利用處理非線性數(shù)據(jù)的核方法[8]。
1.Barker M,RayensW.Partial least squares for discrimination.Journal of Chemometrics,2003,17(3):166-173.
2.蔣紅衛(wèi),夏結(jié)來,李園,于莉莉.偏最小二乘判別分析在基因微陣列分型中的應(yīng)用.中國衛(wèi)生統(tǒng)計,2007,24(4):372-374.
3.Trygg J,Wold S.Orthogonal projections to latent structures(O-PLS). Journal of Chemometrics,2002,16:119-128.
4.Bylesjo M,Rantalainen M,Cloarec O,etal.OPLS discriminant analysis:combining the strengths of PLS-DA and SIMCA classification.Journal of Chemometrics,2006,20:341-351.
5.Tapp HS,Kemsley EK.Notes on the practical utility of OPLS.Trends in Analytical Chemistry,2009,28(11):1322-1327.
6.Wold S.Cross-Validatory estimation of the Number of Components in Factor and Principal ComponentsModels.TEchnometrics,1978,20:397-405.
7.The R project for Statistical Computing[http://www.rproject.org/].
8.Czekaj T,Wu W,Walczak B.About Kernel latent variable approaches and SVM.Journal of Chemometrics,2005,19:341-354.
(責(zé)任編輯:丁海龍)
The Theoretical Properties of Orthogonal Projection to Latent Structures(OPLS)and its Application in M etabolom ics Data Analysis
Li Junnan,HouYan,Sun Fengyu,et al.(DepartmentofMedicalStatistics,HarbinMedicalUniversity(150081),Harbin)
ObjectiveTo explore the theoretical properties and characteristics of orthogonal projection to latent structures(OPLS)and the application inmetabolomics data aswell.MethodsWe independently program OPLS algorithms using R and explore the OPLSmethod to the real conditionsw ith simulation studies and validated the utility to the real example.ResultsThemodel fitting effect w ith single OPLS principal component is identical to that w ith multiple components obtained from PLSmethod.Meanwhile,OPLS has excellent external prediction ability as well as a better visualization effect compared w ith PLS.ConclusionOPLS can effectively remove information unrelated to the response,which improved,its explanatory ability and visualization effect.Thismethod can effectively be used in metabolom ics data.
Orthogonal Projection to Latent Structures;Model Fitting;Metabonom ics;Visualization
*:高等學(xué)校博士學(xué)科專項基金(項目編號:20122307110004);國家自然科學(xué)基金資助(項目編號:81172767)
△通信作者:李康,likang@ems.hrbmu.edu.cn