亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        OPLS方法的原理及其在代謝組學(xué)數(shù)據(jù)判別分析中的應(yīng)用*

        2014-03-10 07:03:59哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計學(xué)教研室150086李俊南孫鳳宇
        中國衛(wèi)生統(tǒng)計 2014年5期
        關(guān)鍵詞:組學(xué)可視化變量

        哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計學(xué)教研室(150086) 李俊南 侯 艷 孫鳳宇 李 康

        OPLS方法的原理及其在代謝組學(xué)數(shù)據(jù)判別分析中的應(yīng)用*

        哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計學(xué)教研室(150086) 李俊南 侯 艷 孫鳳宇 李 康△

        目的探討orthogonal projection to latent structures(OPLS)方法的原理、特點及其在代謝組學(xué)高維數(shù)據(jù)分析中的應(yīng)用。方法通過R語言編程實現(xiàn)OPLS方法,利用模擬試驗探索OPLS的特性及適用條件,并通過實際數(shù)據(jù)進行驗證。結(jié)果利用一個OPLS預(yù)測主成分的模型擬合效果與利用偏最小二乘(PLS)多個主成分的模型擬合效果相同,同時具有較好的判別能力,其得分圖的可視化效果優(yōu)于PLS。結(jié)論OPLS能夠有效去除自變量矩陣X中與因變量Y無關(guān)的信息,使模型變得簡單、易于解釋,同時具有較好的可視化效果,可有效地用于代謝組學(xué)數(shù)據(jù)分析中。

        orthogonal projection to latent structures(OPLS) 模型擬合 可視化 代謝組學(xué)

        在代謝組學(xué)研究中,由色譜和質(zhì)譜產(chǎn)生的高維數(shù)據(jù)可以應(yīng)用偏最小二乘方法(partial least squares,PLS)進行分析,解決降維、分類可視化和特征篩選等問題[1-2]。然而,由于代謝組學(xué)數(shù)據(jù)中的很多代謝物質(zhì)(包括物質(zhì)的碎片)具有較高的相關(guān)性,且與分類無關(guān),利用PLS法無法將分類的信息集中在前2~3個主成分中,結(jié)果使分類及可視化效果不好。Orthogonal projections to latent structures(OPLS)是一種新型的多元統(tǒng)計數(shù)據(jù)分析方法,它由Johan Trygg等人于2002年首次提出[3]。近十年來,這種方法在理論和應(yīng)用方面都得到了迅速的發(fā)展,并在計量化學(xué)中有了大量的應(yīng)用。OPLS是一種多因變量對多自變量的回歸建模方法,其最大特點是可以去除自變量X中與分類變量Y無關(guān)的數(shù)據(jù)變異,使分類信息主要集中在一個主成分中,模型變得簡單和易于解釋,其判別效果及主成分得分圖的可視化效果更加明顯[4]。本文在簡單介紹OPLS的基本思想和原理的基礎(chǔ)上,通過模擬實驗探索OPLS方法的適用條件,并利用實際數(shù)據(jù)進行驗證。

        原理與方法

        1.基本原理

        OPLS從給定的數(shù)據(jù)集X中移除系統(tǒng)正交變量,并把這些正交變量和非正交變量區(qū)分開來,可以對這些正交變量單獨進行分析。OPLS方法利用響應(yīng)變量Y中的信息把X分成三部分[4-5],即

        其中,TP表示X的預(yù)測得分矩陣表示X的預(yù)測載荷矩陣表示預(yù)測部分,TO表示X與Y的正交成分(稱為OPLS成分)的得分矩陣表示對應(yīng)的載荷矩陣表示與Y正交的部分,E為殘差矩陣。

        OPLS方法的實現(xiàn)通過兩步完成:

        第一步,與Y正交的變量從X數(shù)據(jù)矩陣中剔除,即

        其中T0是與Y正交成分的得分矩陣是與其對應(yīng)的載荷矩陣。

        第二步,對XP進行偏最小二乘分析。對于新的樣本,需要先通過正交成分進行校正,再進行預(yù)測。

        2.計算方法

        文中僅介紹具有一個Y變量的OPLS算法[3],將原始變量進行中心化和標(biāo)準化后,進行下列算法:

        (1)wT=Y(jié)TX/(YTY),計算X矩陣的權(quán)重向量;

        (2)w=w/‖w‖,對權(quán)重向量進行歸一化;

        (3)t=Xw/(wTw),估計X矩陣的得分向量t;

        (4)cT=tTY/(tTt),計算Y矩陣的載荷;

        (5)u=Y(jié)c/(cTc),產(chǎn)生Y矩陣的得分向量;

        (6)pT=tTX/(tTt),計算X矩陣的載荷;

        (7)w⊥=p-[wTp/(wTw)]w,計算正交權(quán)重向量,這里p向量可以是任意與w維數(shù)相同的向量;

        (8)w⊥=w⊥/‖w⊥‖,對正交權(quán)重向量進行歸一化;

        (12)保存T⊥=[T⊥t⊥],P⊥=[P⊥,p⊥]以及W⊥=[W⊥w⊥],需要求下一個正交成分返回到步驟(3),令X=Eopls,否則繼續(xù)13步;

        (13)對于新的樣本(預(yù)測樣本)通過校正模型的W⊥和P⊥來進行校正。

        3.正交成分個數(shù)的確定

        OPLS使用特征值判別方法和交叉驗證方法[3],計算出正交成分和預(yù)測成分。特征值計算方法為

        如果在X中沒有正交變量,則λ接近0。λ值為正交成分個數(shù)的選取提供了重要的參考依據(jù)。

        第二種方法使用k折交叉驗證的方法,即將樣本數(shù)據(jù)等分成k個部分選擇使判別精度Q2最大的正交成分個數(shù)[6],其計算公式為

        其中,Ym為每個樣品的真實標(biāo)簽為k折交叉驗證時測試樣本中每個樣品的預(yù)測值為測試樣本中所有樣品的平均值,預(yù)測殘差平方和定量地衡量了樣品預(yù)測值偏離真實標(biāo)簽的程度。聯(lián)合使用特征值法和交叉驗證方法是確定正交成分個數(shù)的最好的途徑。

        模擬實驗

        實驗?zāi)康模和ㄟ^模擬不同相關(guān)結(jié)構(gòu)的高維數(shù)據(jù),探索OPLS方法的特點及適用條件,并與目前在計量化學(xué)中經(jīng)常使用的PLS方法進行比較。模型的擬合能力用相當(dāng)于傳統(tǒng)的多元線性回歸的決定系數(shù),計算使用的是全部樣本數(shù)據(jù)。判別能力通過交叉驗證得到的Q2(也記為Q2)統(tǒng)計量衡量,可視化效果通過主成分得分的散點圖進行判斷。OPLS的實現(xiàn)使用R語言編程[7]。

        模擬實驗1:根據(jù)代謝組學(xué)數(shù)據(jù)特點,通常呈偏態(tài)分布,并且包含有極端值,為此產(chǎn)生指數(shù)分布數(shù)據(jù)X。設(shè)有二分類的數(shù)據(jù),其中有20個差異變量,在兩個不同的分組中分別服從X~E(0.1)和X~E(0.3)的指數(shù)分布,加入1000個白噪聲,噪聲服從X~N(0,1)的正態(tài)分布,產(chǎn)生兩個模擬數(shù)據(jù)集,第一個數(shù)據(jù)集噪聲之間的相關(guān)性為0,第二個數(shù)據(jù)集中,將1000個噪聲分為20組,每組50個噪聲之間的相關(guān)系數(shù)設(shè)為0.1。重復(fù)試驗1000次,結(jié)果顯示:當(dāng)噪聲變量相關(guān)系數(shù)為0,利用PLS進行分析時,第一個主成分的Q2最大(Q2利用OPLS進行分析時,去除2個正交成分后的當(dāng)噪聲變量相關(guān)系數(shù)為0.1時,利用PLS進行分析,第一個主成分的利用OPLS進行分析時,去除1個正交成分后的Q2最大當(dāng)噪聲之間的相關(guān)系數(shù)為0,比較兩種方法的得分圖可以看出PLS的可視化效果與OPLS的可視化效果幾乎相同(圖1)。當(dāng)噪聲之間的相關(guān)系數(shù)為0.1時,得分圖與圖1相類似。說明在噪聲變量間不相關(guān)或相關(guān)程度比較低的情況下,PLS利用一個主成分就能達到最大的Q2值,同時可視化效果較好,此時兩種方法都可使用。

        模擬實驗2:模擬設(shè)定中有20個差異變量,在第一類中服從X~E(0.1)的指數(shù)分布;在第二類中20個變量服從X~E(0.19)的指數(shù)分布。加入1000個無差異變量作為干擾變量,噪聲變量服從X~N(0,1)正態(tài)分布,并分為20組,每組50個變量的相關(guān)系數(shù)分別設(shè)為0.95和0.85,并同時設(shè)定相關(guān)系數(shù)為0,0.1,0.85,0.95四種非等相關(guān)結(jié)構(gòu)構(gòu)成的噪聲,產(chǎn)生三個模擬數(shù)據(jù)。對上述模擬數(shù)據(jù)分別利用OPLS和PLS進行分析,計算出三種算法的值,以及各主成分的得分,通過繪制得分圖的散點圖進行可視化效果分析。上述方法重復(fù)試驗1000次,得出平均和Q2值,結(jié)果見表1。

        由表1可知,當(dāng)相關(guān)系數(shù)ρ=0.95時,利用PLS進行分析,當(dāng)取第一個主成分時,Q2值最大(Q2=-0.068),此時對于OPLS分析,去除5個正交成分后,Q2值最大通過比較兩種方法的結(jié)果,可以看出OPLS方法利用1個預(yù)測成分能得到較高的Q2值,并使模型變得更加簡單和容易解釋。而PLS方法則完全失效,其Q2值均為負值。當(dāng)相關(guān)系數(shù)ρ=0.85時,利用PLS進行分析時,其Q2值為負,利用OPLS進行分析時,去除6個正交成分時,Q2值最大,此時當(dāng)同時設(shè)定4種非等相關(guān)結(jié)構(gòu)時,利用PLS進行分析,當(dāng)選擇3個主成分時,Q2值最大0.878,利用OPLS進行分析時,去除4個正交成分時,Q2值最大,此時

        圖1 PLS方法前兩個主成分得分圖(A)和OPLS方法一個預(yù)測成分和第一個正交成分得分圖(B)

        表1 不同噪聲相關(guān)系數(shù)時OPLS與PLS兩種分析方法結(jié)果比較

        圖2 ρ=0.95時PLS方法前兩個主成分得分圖(A)和OPLS方法一個預(yù)測成分與第一個正交成分得分圖(B)

        進而,通過計算各成分的得分,繪制了兩種方法的得分圖。圖2表示當(dāng)相關(guān)系數(shù)ρ=0.95時,PLS中前兩個主成分的得分圖和前三個主成分的三維得分圖,從圖中我們可以看到PLS不能將兩類完全分開,而利用OPLS方法,其得分圖可以將兩類完全分開(見圖3),說明在此模擬研究條件下OPLS方法得分圖的可視化效果明顯優(yōu)于PLS方法,可有效解決PLS的得分圖不能將兩類區(qū)分的問題。當(dāng)相關(guān)系數(shù)ρ=0.85時,得分圖與ρ=0.95時趨勢相同。當(dāng)同時設(shè)定4種非等相關(guān)結(jié)構(gòu)時,得分圖見圖4,從圖4(A)中可以看到利用PLS的前兩個成分沒有將兩類完全區(qū)分開,利用OPLS的一個預(yù)測成分和4個正交成分中的第一個正交成分能夠?qū)深愅耆謥恚▓D4(B)),并且OPLS方法的判別能力高于PLS方法,證明在此種情況下,OPLS仍具有一定的優(yōu)勢。

        圖3 ρ=0.95時OPLS一個預(yù)測成分和第一個正交成分得分圖

        實例分析

        采用2009年9月至2010年5月期間在哈爾濱醫(yī)科大學(xué)附屬腫瘤醫(yī)院收集的76例卵巢癌患者血漿樣品和92例子宮肌瘤患者的血漿樣品,經(jīng)過UPLC-MS-Q-TOF儀器檢測分析和預(yù)處理后得到代謝組學(xué)數(shù)據(jù),共獲得1499個峰(變量),分類變量為Y,卵巢癌為1,子宮肌瘤為0。

        1.利用PLS對數(shù)據(jù)進行分析

        利用PLS方法進行分析,當(dāng)取7個主成分時,Q2值最大,等于0.624,此時計算PLS主成分得分,得到前兩個成分的得分圖,見圖6,從圖中可見,PLS的前兩個成分在標(biāo)識的區(qū)域中兩種樣本混在一起,其可視化效果不夠理想。利用前三個成分繪制三維得分圖,其區(qū)分效果有一定提高,但不夠明顯。

        圖4 同時設(shè)定4種非等相關(guān)結(jié)構(gòu)時PLS前兩個主成分得分圖(A)與OPLS一個預(yù)測成分和第一個正交成分得分圖(B)

        圖5 PLS方法前兩個主成分得分圖(A)和前三個主成分三維得分圖(B)

        圖6 每個OPLS成分的λ的直方圖

        圖7 OPLS一個預(yù)測成分和第一個正交成分得分

        圖8 置換檢驗圖(A)和Q2置換檢驗圖(B)

        2.利用OPLS法對數(shù)據(jù)進行分析

        從特征值方法看到取6~8個成分時λ值都比較?。▓D6),利用交叉驗證方法得出,去除6個正交成分時的Q2值最大(Q2=0.622),因此本例選擇去除6個正交成分,此時結(jié)果表明,利用一個預(yù)測成分和6個正交成分中的第一個正交成分的得分圖可以明顯地區(qū)分對照組和病例組,可視化效果明顯(圖7)。為證明OPLS方法結(jié)果的真實性,我們進行置換檢驗,隨機打亂Y變量標(biāo)簽1000次,得到每次值與Q2值,其頻數(shù)分布圖見圖8,圖8(A)中橫坐標(biāo)為0.72的點為正確標(biāo)簽下的值,圖8(B)橫坐標(biāo)為0.622的點為正確標(biāo)簽下的Q2值,從兩圖中可以看到打亂標(biāo)簽后的值和Q2值明顯小于正確標(biāo)簽下的和Q2值,說明OPLS方法得出的結(jié)果是真實的。兩種方法的值與Q2值比較見表2。

        表2 卵巢癌代謝組學(xué)數(shù)據(jù)兩種分析方法的結(jié)果比較

        討 論

        1.代謝組學(xué)數(shù)據(jù)具有高維、小樣本的特性,其中既有對分類起作用的差異變量,同時包含大量相關(guān)的無差異變量,如果利用PLS進行分析,則由于相關(guān)變量的影響,使差異變量分散在多個主成分上,當(dāng)主成分個數(shù)大于3時,無法更好地進行可視化(只能選擇三個貢獻大的主成分)。OPLS方法則能夠移除X變量中與Y變量不相關(guān)的變量,使有差異的變量集中在第一個主成分中,模型變得簡單和易于解釋,更好地實現(xiàn)結(jié)果的可視化。

        2.通常情況下,當(dāng)無差異變量相關(guān)程度不高時,PLS方法能得到較好的效果,此時應(yīng)用OPLS方法分析結(jié)果差別不大,我們可以任選PLS或者OPLS中的一種方法對數(shù)據(jù)進行分析。理論上講,從判別角度看,由于PLS可以利用多個主成分,而OPLS僅使用了一個主成分,可能有些較弱的差異變量被當(dāng)作正交成分被剔除,使實際判別效果略為變差。實際中,由于代謝組學(xué)中很多物質(zhì)是同一種代謝物產(chǎn)生的碎片,這些碎片通常具有高度相關(guān)性,同時很多物質(zhì)間由于代謝通路的關(guān)系也具有較高的相關(guān)性,因此在模擬實驗中設(shè)置了變量高相關(guān)的情況。當(dāng)無差異變量相關(guān)程度較高時,利用OPLS方法的效果優(yōu)于PLS。

        3.本文用兩種方法對卵巢癌代謝組學(xué)數(shù)據(jù)進行了分析,利用兩種分析方法對實際數(shù)據(jù)進行分析,結(jié)果顯示OPLS方法可視化效果優(yōu)于PLS方法,同時具有較高的判別能力,與模擬試驗的結(jié)果相一致。在實際應(yīng)用中,我們可以根據(jù)數(shù)據(jù)變量之間是否相關(guān),綜合考慮可視化效果和判別能力(Q2)進行方法的選擇。

        4.PLS和OPLS方法都只適合線性相關(guān)結(jié)構(gòu)的數(shù)據(jù)分析,如果變量間存在非線性關(guān)系,使用這兩種方法分析的效果可能會明顯變差,這時可以考慮利用處理非線性數(shù)據(jù)的核方法[8]。

        1.Barker M,RayensW.Partial least squares for discrimination.Journal of Chemometrics,2003,17(3):166-173.

        2.蔣紅衛(wèi),夏結(jié)來,李園,于莉莉.偏最小二乘判別分析在基因微陣列分型中的應(yīng)用.中國衛(wèi)生統(tǒng)計,2007,24(4):372-374.

        3.Trygg J,Wold S.Orthogonal projections to latent structures(O-PLS). Journal of Chemometrics,2002,16:119-128.

        4.Bylesjo M,Rantalainen M,Cloarec O,etal.OPLS discriminant analysis:combining the strengths of PLS-DA and SIMCA classification.Journal of Chemometrics,2006,20:341-351.

        5.Tapp HS,Kemsley EK.Notes on the practical utility of OPLS.Trends in Analytical Chemistry,2009,28(11):1322-1327.

        6.Wold S.Cross-Validatory estimation of the Number of Components in Factor and Principal ComponentsModels.TEchnometrics,1978,20:397-405.

        7.The R project for Statistical Computing[http://www.rproject.org/].

        8.Czekaj T,Wu W,Walczak B.About Kernel latent variable approaches and SVM.Journal of Chemometrics,2005,19:341-354.

        (責(zé)任編輯:丁海龍)

        The Theoretical Properties of Orthogonal Projection to Latent Structures(OPLS)and its Application in M etabolom ics Data Analysis

        Li Junnan,HouYan,Sun Fengyu,et al.(DepartmentofMedicalStatistics,HarbinMedicalUniversity(150081),Harbin)

        ObjectiveTo explore the theoretical properties and characteristics of orthogonal projection to latent structures(OPLS)and the application inmetabolomics data aswell.MethodsWe independently program OPLS algorithms using R and explore the OPLSmethod to the real conditionsw ith simulation studies and validated the utility to the real example.ResultsThemodel fitting effect w ith single OPLS principal component is identical to that w ith multiple components obtained from PLSmethod.Meanwhile,OPLS has excellent external prediction ability as well as a better visualization effect compared w ith PLS.ConclusionOPLS can effectively remove information unrelated to the response,which improved,its explanatory ability and visualization effect.Thismethod can effectively be used in metabolom ics data.

        Orthogonal Projection to Latent Structures;Model Fitting;Metabonom ics;Visualization

        *:高等學(xué)校博士學(xué)科專項基金(項目編號:20122307110004);國家自然科學(xué)基金資助(項目編號:81172767)

        △通信作者:李康,likang@ems.hrbmu.edu.cn

        猜你喜歡
        組學(xué)可視化變量
        基于CiteSpace的足三里穴研究可視化分析
        基于Power BI的油田注水運行動態(tài)分析與可視化展示
        云南化工(2021年8期)2021-12-21 06:37:54
        抓住不變量解題
        也談分離變量
        基于CGAL和OpenGL的海底地形三維可視化
        “融評”:黨媒評論的可視化創(chuàng)新
        傳媒評論(2019年4期)2019-07-13 05:49:14
        口腔代謝組學(xué)研究
        基于UHPLC-Q-TOF/MS的歸身和歸尾補血機制的代謝組學(xué)初步研究
        SL(3,3n)和SU(3,3n)的第一Cartan不變量
        代謝組學(xué)在多囊卵巢綜合征中的應(yīng)用
        国产精品成人av大片| 欧美精品AⅤ在线视频| 99久久久久久亚洲精品| 一本色道久久88加勒比—综合| 中文字幕av伊人av无码av| 亚洲av永久无码精品国产精品| 欧美日韩性高爱潮视频| 女同重口味一区二区在线| 精品国产三级a∨在线欧美| 夜夜高潮夜夜爽夜夜爱爱| 久久99热精品免费观看欧美| 亚洲一区二区三区免费av| 欧美顶级少妇作爱| 久久老子午夜精品无码怎么打| 国产精品毛片无遮挡高清| 日韩精品无码一本二本三本色| 艳妇乳肉豪妇荡乳av无码福利| 日韩av无码午夜福利电影| 国产三级精品三级在线专区2| 日韩精品极品视频在线观看免费 | 色优网久久国产精品| 亚洲一区二区三区激情在线观看| 久久天堂综合亚洲伊人hd妓女| 亚洲国际无码中文字幕| 激情五月婷婷六月俺也去| 精品久久亚洲中文字幕| 麻豆精品久久久久久久99蜜桃| ZZIJZZIJ亚洲日本少妇| 日韩激情视频一区在线观看| 亚洲综合网站久久久| 初尝黑人嗷嗷叫中文字幕| 亚洲国产综合精品久久av| 自拍偷拍 视频一区二区| 天天躁日日躁狠狠很躁| 亚洲另类激情专区小说婷婷久| 女人天堂国产精品资源麻豆| 精品一区二区三区免费视频| 麻豆第一区MV免费观看网站| 国产白浆流出一区二区| 亚洲av无码一区二区三区鸳鸯影院| 欧美性xxxx狂欢老少配|