亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

OPLS方法的原理及其在代謝組學(xué)數(shù)據(jù)判別分析中的應(yīng)用*

2014-03-10 07:03:59哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計學(xué)教研室150086李俊南孫鳳宇

中國衛(wèi)生統(tǒng)計 2014年5期

哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計學(xué)教研室（150086）李俊南侯艷孫鳳宇李康

哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計學(xué)教研室（150086）李俊南侯艷孫鳳宇李康△

目的探討orthogonal projection to latent structures（OPLS）方法的原理、特點及其在代謝組學(xué)高維數(shù)據(jù)分析中的應(yīng)用。方法通過R語言編程實現(xiàn)OPLS方法，利用模擬試驗探索OPLS的特性及適用條件，并通過實際數(shù)據(jù)進行驗證。結(jié)果利用一個OPLS預(yù)測主成分的模型擬合效果與利用偏最小二乘（PLS）多個主成分的模型擬合效果相同，同時具有較好的判別能力，其得分圖的可視化效果優(yōu)于PLS。結(jié)論OPLS能夠有效去除自變量矩陣X中與因變量Y無關(guān)的信息，使模型變得簡單、易于解釋，同時具有較好的可視化效果，可有效地用于代謝組學(xué)數(shù)據(jù)分析中。

orthogonal projection to latent structures（OPLS）模型擬合可視化代謝組學(xué)

在代謝組學(xué)研究中，由色譜和質(zhì)譜產(chǎn)生的高維數(shù)據(jù)可以應(yīng)用偏最小二乘方法（partial least squares，PLS）進行分析，解決降維、分類可視化和特征篩選等問題［1-2］。然而，由于代謝組學(xué)數(shù)據(jù)中的很多代謝物質(zhì)（包括物質(zhì)的碎片）具有較高的相關(guān)性，且與分類無關(guān)，利用PLS法無法將分類的信息集中在前2～3個主成分中，結(jié)果使分類及可視化效果不好。Orthogonal projections to latent structures（OPLS）是一種新型的多元統(tǒng)計數(shù)據(jù)分析方法，它由Johan Trygg等人于2002年首次提出［3］。近十年來，這種方法在理論和應(yīng)用方面都得到了迅速的發(fā)展，并在計量化學(xué)中有了大量的應(yīng)用。OPLS是一種多因變量對多自變量的回歸建模方法，其最大特點是可以去除自變量X中與分類變量Y無關(guān)的數(shù)據(jù)變異，使分類信息主要集中在一個主成分中，模型變得簡單和易于解釋，其判別效果及主成分得分圖的可視化效果更加明顯［4］。本文在簡單介紹OPLS的基本思想和原理的基礎(chǔ)上，通過模擬實驗探索OPLS方法的適用條件，并利用實際數(shù)據(jù)進行驗證。

原理與方法

1.基本原理

OPLS從給定的數(shù)據(jù)集X中移除系統(tǒng)正交變量，并把這些正交變量和非正交變量區(qū)分開來，可以對這些正交變量單獨進行分析。OPLS方法利用響應(yīng)變量Y中的信息把X分成三部分［4-5］，即

其中，TP表示X的預(yù)測得分矩陣表示X的預(yù)測載荷矩陣表示預(yù)測部分，TO表示X與Y的正交成分（稱為OPLS成分）的得分矩陣表示對應(yīng)的載荷矩陣表示與Y正交的部分，E為殘差矩陣。

OPLS方法的實現(xiàn)通過兩步完成：

第一步，與Y正交的變量從X數(shù)據(jù)矩陣中剔除，即

其中T0是與Y正交成分的得分矩陣是與其對應(yīng)的載荷矩陣。

第二步，對XP進行偏最小二乘分析。對于新的樣本，需要先通過正交成分進行校正，再進行預(yù)測。

2.計算方法

文中僅介紹具有一個Y變量的OPLS算法［3］，將原始變量進行中心化和標(biāo)準化后，進行下列算法：

（1）wT＝Y(jié)TX/（YTY），計算X矩陣的權(quán)重向量；

（2）w＝w/‖w‖，對權(quán)重向量進行歸一化；

（3）t＝Xw/（wTw），估計X矩陣的得分向量t；

（4）cT＝tTY/（tTt），計算Y矩陣的載荷；

（5）u＝Y(jié)c/（cTc），產(chǎn)生Y矩陣的得分向量；

（6）pT＝tTX/（tTt），計算X矩陣的載荷；

（7）w⊥＝p-［wTp/（wTw）］w，計算正交權(quán)重向量，這里p向量可以是任意與w維數(shù)相同的向量；

（8）w⊥＝w⊥/‖w⊥‖，對正交權(quán)重向量進行歸一化；

（12）保存T⊥＝［T⊥t⊥］，P⊥＝［P⊥，p⊥］以及W⊥＝［W⊥w⊥］，需要求下一個正交成分返回到步驟（3），令X＝Eopls，否則繼續(xù)13步；

（13）對于新的樣本（預(yù)測樣本）通過校正模型的W⊥和P⊥來進行校正。

3.正交成分個數(shù)的確定

OPLS使用特征值判別方法和交叉驗證方法［3］，計算出正交成分和預(yù)測成分。特征值計算方法為

如果在X中沒有正交變量，則λ接近0。λ值為正交成分個數(shù)的選取提供了重要的參考依據(jù)。

第二種方法使用k折交叉驗證的方法，即將樣本數(shù)據(jù)等分成k個部分選擇使判別精度Q2最大的正交成分個數(shù)［6］，其計算公式為

其中，Ym為每個樣品的真實標(biāo)簽為k折交叉驗證時測試樣本中每個樣品的預(yù)測值為測試樣本中所有樣品的平均值，預(yù)測殘差平方和定量地衡量了樣品預(yù)測值偏離真實標(biāo)簽的程度。聯(lián)合使用特征值法和交叉驗證方法是確定正交成分個數(shù)的最好的途徑。

模擬實驗

實驗?zāi)康模和ㄟ^模擬不同相關(guān)結(jié)構(gòu)的高維數(shù)據(jù)，探索OPLS方法的特點及適用條件，并與目前在計量化學(xué)中經(jīng)常使用的PLS方法進行比較。模型的擬合能力用相當(dāng)于傳統(tǒng)的多元線性回歸的決定系數(shù)，計算使用的是全部樣本數(shù)據(jù)。判別能力通過交叉驗證得到的Q2（也記為Q2）統(tǒng)計量衡量，可視化效果通過主成分得分的散點圖進行判斷。OPLS的實現(xiàn)使用R語言編程［7］。

模擬實驗1：根據(jù)代謝組學(xué)數(shù)據(jù)特點，通常呈偏態(tài)分布，并且包含有極端值，為此產(chǎn)生指數(shù)分布數(shù)據(jù)X。設(shè)有二分類的數(shù)據(jù)，其中有20個差異變量，在兩個不同的分組中分別服從X～E（0.1）和X～E（0.3）的指數(shù)分布，加入1000個白噪聲，噪聲服從X～N（0，1）的正態(tài)分布，產(chǎn)生兩個模擬數(shù)據(jù)集，第一個數(shù)據(jù)集噪聲之間的相關(guān)性為0，第二個數(shù)據(jù)集中，將1000個噪聲分為20組，每組50個噪聲之間的相關(guān)系數(shù)設(shè)為0.1。重復(fù)試驗1000次，結(jié)果顯示：當(dāng)噪聲變量相關(guān)系數(shù)為0，利用PLS進行分析時，第一個主成分的Q2最大（Q2利用OPLS進行分析時，去除2個正交成分后的當(dāng)噪聲變量相關(guān)系數(shù)為0.1時，利用PLS進行分析，第一個主成分的利用OPLS進行分析時，去除1個正交成分后的Q2最大當(dāng)噪聲之間的相關(guān)系數(shù)為0，比較兩種方法的得分圖可以看出PLS的可視化效果與OPLS的可視化效果幾乎相同（圖1）。當(dāng)噪聲之間的相關(guān)系數(shù)為0.1時，得分圖與圖1相類似。說明在噪聲變量間不相關(guān)或相關(guān)程度比較低的情況下，PLS利用一個主成分就能達到最大的Q2值，同時可視化效果較好，此時兩種方法都可使用。

模擬實驗2：模擬設(shè)定中有20個差異變量，在第一類中服從X～E（0.1）的指數(shù)分布；在第二類中20個變量服從X～E（0.19）的指數(shù)分布。加入1000個無差異變量作為干擾變量，噪聲變量服從X～N（0，1）正態(tài)分布，并分為20組，每組50個變量的相關(guān)系數(shù)分別設(shè)為0.95和0.85，并同時設(shè)定相關(guān)系數(shù)為0，0.1，0.85，0.95四種非等相關(guān)結(jié)構(gòu)構(gòu)成的噪聲，產(chǎn)生三個模擬數(shù)據(jù)。對上述模擬數(shù)據(jù)分別利用OPLS和PLS進行分析，計算出三種算法的值，以及各主成分的得分，通過繪制得分圖的散點圖進行可視化效果分析。上述方法重復(fù)試驗1000次，得出平均和Q2值，結(jié)果見表1。

由表1可知，當(dāng)相關(guān)系數(shù)ρ＝0.95時，利用PLS進行分析，當(dāng)取第一個主成分時，Q2值最大（Q2＝-0.068），此時對于OPLS分析，去除5個正交成分后，Q2值最大通過比較兩種方法的結(jié)果，可以看出OPLS方法利用1個預(yù)測成分能得到較高的Q2值，并使模型變得更加簡單和容易解釋。而PLS方法則完全失效，其Q2值均為負值。當(dāng)相關(guān)系數(shù)ρ＝0.85時，利用PLS進行分析時，其Q2值為負，利用OPLS進行分析時，去除6個正交成分時，Q2值最大，此時當(dāng)同時設(shè)定4種非等相關(guān)結(jié)構(gòu)時，利用PLS進行分析，當(dāng)選擇3個主成分時，Q2值最大0.878，利用OPLS進行分析時，去除4個正交成分時，Q2值最大，此時

圖1 PLS方法前兩個主成分得分圖（A）和OPLS方法一個預(yù)測成分和第一個正交成分得分圖（B）

表1 不同噪聲相關(guān)系數(shù)時OPLS與PLS兩種分析方法結(jié)果比較

圖2 ρ＝0.95時PLS方法前兩個主成分得分圖（A）和OPLS方法一個預(yù)測成分與第一個正交成分得分圖（B）

進而，通過計算各成分的得分，繪制了兩種方法的得分圖。圖2表示當(dāng)相關(guān)系數(shù)ρ＝0.95時，PLS中前兩個主成分的得分圖和前三個主成分的三維得分圖，從圖中我們可以看到PLS不能將兩類完全分開，而利用OPLS方法，其得分圖可以將兩類完全分開（見圖3），說明在此模擬研究條件下OPLS方法得分圖的可視化效果明顯優(yōu)于PLS方法，可有效解決PLS的得分圖不能將兩類區(qū)分的問題。當(dāng)相關(guān)系數(shù)ρ＝0.85時，得分圖與ρ＝0.95時趨勢相同。當(dāng)同時設(shè)定4種非等相關(guān)結(jié)構(gòu)時，得分圖見圖4，從圖4（A）中可以看到利用PLS的前兩個成分沒有將兩類完全區(qū)分開，利用OPLS的一個預(yù)測成分和4個正交成分中的第一個正交成分能夠?qū)深愅耆謥恚▓D4（B）），并且OPLS方法的判別能力高于PLS方法，證明在此種情況下，OPLS仍具有一定的優(yōu)勢。

圖3 ρ＝0.95時OPLS一個預(yù)測成分和第一個正交成分得分圖

實例分析

采用2009年9月至2010年5月期間在哈爾濱醫(yī)科大學(xué)附屬腫瘤醫(yī)院收集的76例卵巢癌患者血漿樣品和92例子宮肌瘤患者的血漿樣品，經(jīng)過UPLC-MS-Q-TOF儀器檢測分析和預(yù)處理后得到代謝組學(xué)數(shù)據(jù)，共獲得1499個峰（變量），分類變量為Y，卵巢癌為1，子宮肌瘤為0。

1.利用PLS對數(shù)據(jù)進行分析

利用PLS方法進行分析，當(dāng)取7個主成分時，Q2值最大，等于0.624，此時計算PLS主成分得分，得到前兩個成分的得分圖，見圖6，從圖中可見，PLS的前兩個成分在標(biāo)識的區(qū)域中兩種樣本混在一起，其可視化效果不夠理想。利用前三個成分繪制三維得分圖，其區(qū)分效果有一定提高，但不夠明顯。

圖4 同時設(shè)定4種非等相關(guān)結(jié)構(gòu)時PLS前兩個主成分得分圖（A）與OPLS一個預(yù)測成分和第一個正交成分得分圖（B）

圖5 PLS方法前兩個主成分得分圖（A）和前三個主成分三維得分圖（B）

圖6 每個OPLS成分的λ的直方圖

圖7 OPLS一個預(yù)測成分和第一個正交成分得分

圖8 置換檢驗圖（A）和Q2置換檢驗圖（B）

2.利用OPLS法對數(shù)據(jù)進行分析

從特征值方法看到取6～8個成分時λ值都比較?。▓D6），利用交叉驗證方法得出，去除6個正交成分時的Q2值最大（Q2＝0.622），因此本例選擇去除6個正交成分，此時結(jié)果表明，利用一個預(yù)測成分和6個正交成分中的第一個正交成分的得分圖可以明顯地區(qū)分對照組和病例組，可視化效果明顯（圖7）。為證明OPLS方法結(jié)果的真實性，我們進行置換檢驗，隨機打亂Y變量標(biāo)簽1000次，得到每次值與Q2值，其頻數(shù)分布圖見圖8，圖8（A）中橫坐標(biāo)為0.72的點為正確標(biāo)簽下的值，圖8（B）橫坐標(biāo)為0.622的點為正確標(biāo)簽下的Q2值，從兩圖中可以看到打亂標(biāo)簽后的值和Q2值明顯小于正確標(biāo)簽下的和Q2值，說明OPLS方法得出的結(jié)果是真實的。兩種方法的值與Q2值比較見表2。

表2 卵巢癌代謝組學(xué)數(shù)據(jù)兩種分析方法的結(jié)果比較

討論

1.代謝組學(xué)數(shù)據(jù)具有高維、小樣本的特性，其中既有對分類起作用的差異變量，同時包含大量相關(guān)的無差異變量，如果利用PLS進行分析，則由于相關(guān)變量的影響，使差異變量分散在多個主成分上，當(dāng)主成分個數(shù)大于3時，無法更好地進行可視化（只能選擇三個貢獻大的主成分）。OPLS方法則能夠移除X變量中與Y變量不相關(guān)的變量，使有差異的變量集中在第一個主成分中，模型變得簡單和易于解釋，更好地實現(xiàn)結(jié)果的可視化。

2.通常情況下，當(dāng)無差異變量相關(guān)程度不高時，PLS方法能得到較好的效果，此時應(yīng)用OPLS方法分析結(jié)果差別不大，我們可以任選PLS或者OPLS中的一種方法對數(shù)據(jù)進行分析。理論上講，從判別角度看，由于PLS可以利用多個主成分，而OPLS僅使用了一個主成分，可能有些較弱的差異變量被當(dāng)作正交成分被剔除，使實際判別效果略為變差。實際中，由于代謝組學(xué)中很多物質(zhì)是同一種代謝物產(chǎn)生的碎片，這些碎片通常具有高度相關(guān)性，同時很多物質(zhì)間由于代謝通路的關(guān)系也具有較高的相關(guān)性，因此在模擬實驗中設(shè)置了變量高相關(guān)的情況。當(dāng)無差異變量相關(guān)程度較高時，利用OPLS方法的效果優(yōu)于PLS。

3.本文用兩種方法對卵巢癌代謝組學(xué)數(shù)據(jù)進行了分析，利用兩種分析方法對實際數(shù)據(jù)進行分析，結(jié)果顯示OPLS方法可視化效果優(yōu)于PLS方法，同時具有較高的判別能力，與模擬試驗的結(jié)果相一致。在實際應(yīng)用中，我們可以根據(jù)數(shù)據(jù)變量之間是否相關(guān)，綜合考慮可視化效果和判別能力（Q2）進行方法的選擇。

4.PLS和OPLS方法都只適合線性相關(guān)結(jié)構(gòu)的數(shù)據(jù)分析，如果變量間存在非線性關(guān)系，使用這兩種方法分析的效果可能會明顯變差，這時可以考慮利用處理非線性數(shù)據(jù)的核方法［8］。

1.Barker M，RayensW.Partial least squares for discrimination.Journal of Chemometrics，2003，17（3）：166-173.

2.蔣紅衛(wèi)，夏結(jié)來，李園，于莉莉.偏最小二乘判別分析在基因微陣列分型中的應(yīng)用.中國衛(wèi)生統(tǒng)計，2007，24（4）：372-374.

3.Trygg J，Wold S.Orthogonal projections to latent structures（O-PLS）. Journal of Chemometrics，2002，16：119-128.

4.Bylesjo M，Rantalainen M，Cloarec O，etal.OPLS discriminant analysis：combining the strengths of PLS-DA and SIMCA classification.Journal of Chemometrics，2006，20：341-351.

5.Tapp HS，Kemsley EK.Notes on the practical utility of OPLS.Trends in Analytical Chemistry，2009，28（11）：1322-1327.

6.Wold S.Cross-Validatory estimation of the Number of Components in Factor and Principal ComponentsModels.TEchnometrics，1978，20：397-405.

7.The R project for Statistical Computing［http：//www.rproject.org/］.

8.Czekaj T，Wu W，Walczak B.About Kernel latent variable approaches and SVM.Journal of Chemometrics，2005，19：341-354.

（責(zé)任編輯：丁海龍）

The Theoretical Properties of Orthogonal Projection to Latent Structures（OPLS）and its Application in M etabolom ics Data Analysis

Li Junnan，HouYan，Sun Fengyu，et al.（DepartmentofMedicalStatistics，HarbinMedicalUniversity（150081），Harbin）

ObjectiveTo explore the theoretical properties and characteristics of orthogonal projection to latent structures（OPLS）and the application inmetabolomics data aswell.MethodsWe independently program OPLS algorithms using R and explore the OPLSmethod to the real conditionsw ith simulation studies and validated the utility to the real example.ResultsThemodel fitting effect w ith single OPLS principal component is identical to that w ith multiple components obtained from PLSmethod.Meanwhile，OPLS has excellent external prediction ability as well as a better visualization effect compared w ith PLS.ConclusionOPLS can effectively remove information unrelated to the response，which improved，its explanatory ability and visualization effect.Thismethod can effectively be used in metabolom ics data.

Orthogonal Projection to Latent Structures；Model Fitting；Metabonom ics；Visualization

*：高等學(xué)校博士學(xué)科專項基金（項目編號：20122307110004）；國家自然科學(xué)基金資助（項目編號：81172767）

△通信作者：李康，likang＠ems.hrbmu.edu.cn

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

OPLS方法的原理及其在代謝組學(xué)數(shù)據(jù)判別分析中的應(yīng)用*

原理與方法

模擬實驗

實例分析

討 論

討論