亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        核正交偏最小二乘在代謝組學(xué)數(shù)據(jù)分析中的應(yīng)用*

        2015-03-09 06:52:06哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計(jì)學(xué)教研室150081李俊南
        關(guān)鍵詞:可視化效果方法

        哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計(jì)學(xué)教研室(150081) 李俊南 侯 艷 李 康

        核正交偏最小二乘在代謝組學(xué)數(shù)據(jù)分析中的應(yīng)用*

        哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計(jì)學(xué)教研室(150081) 李俊南 侯 艷 李 康Δ

        目的探索核正交偏最小二乘方法的特點(diǎn)及其在代謝組學(xué)數(shù)據(jù)分析中的應(yīng)用。方法通過模擬實(shí)驗(yàn)和真實(shí)代謝組學(xué)數(shù)據(jù),評(píng)價(jià)核正交偏最小二乘方法的模型預(yù)測(cè)能力及其可視化效果。結(jié)果模擬數(shù)據(jù)分析表明,當(dāng)數(shù)據(jù)間存在線性關(guān)系時(shí),KOPLS與傳統(tǒng)的線性O(shè)PLS具有相同的效果;當(dāng)數(shù)據(jù)間存在非線性關(guān)系時(shí),KOPLS具有相對(duì)更高的預(yù)測(cè)能力,得分圖的可視化效果更好。實(shí)際數(shù)據(jù)分析結(jié)果顯示,應(yīng)用KOPLS能夠提高模型預(yù)測(cè)能力和改善可視化效果。結(jié)論對(duì)于高維非線性關(guān)系的代謝組學(xué)數(shù)據(jù)更適合使用KOPLS方法。

        核正交偏最小二乘 非線性 代謝組學(xué)

        偏最小二乘(partial least squares,PLS)是當(dāng)前在計(jì)量化學(xué)和代謝組學(xué)領(lǐng)域中有監(jiān)督分析的常用方法。偏最小二乘利用潛變量的概念,描述自變量矩陣X和因變量矩陣Y之間的關(guān)系,可以用于處理高維數(shù)據(jù)[1]。正交偏最小二乘(orthogonal projections to latent structures,OPLS)是繼PLS回歸之后發(fā)展的一種處理高維數(shù)據(jù)的方法。該方法利用正交信號(hào)校正(orthogonal signal correction,OSC)的思想,把與Y無(wú)關(guān)的正交變量從預(yù)測(cè)結(jié)果中分離出來。從預(yù)測(cè)的角度看,當(dāng)只有一個(gè)因變量時(shí),PLS和OPLS方法的預(yù)測(cè)效果相等,由于預(yù)測(cè)得分和載荷矩陣與正交變量沒有關(guān)系,所以O(shè)PLS方法增強(qiáng)了模型的解釋性[2]。

        在計(jì)量化學(xué)和生物學(xué)系統(tǒng)中,X和Y之間有可能是非線性的關(guān)系,此時(shí)利用OPLS或者PLS分析數(shù)據(jù),會(huì)使結(jié)果變差。Rosipal和Trejo首次將核函數(shù)引入到偏最小二乘回歸中,用來處理非線性問題[3]。Mattias等人2008年提出了核正交偏最小二乘方法[4],這種方法繼承了OPLS方法的基本思想,進(jìn)一步在特征空間內(nèi)分離預(yù)測(cè)成分和正交成分,提高預(yù)測(cè)能力和分類可視化效果[5]。本文在簡(jiǎn)單介紹KOPLS方法和原理的基礎(chǔ)上,通過模擬試驗(yàn)和實(shí)際數(shù)據(jù),說明KOPLS方法在高維數(shù)據(jù)及代謝組數(shù)據(jù)分析中的適用性。

        原理與方法

        1.基本原理

        核正交偏最小二乘(KOPLS)將原始的X空間的數(shù)據(jù)映射到一個(gè)高維特征空間F{x∈X→Φ(x)∈F},并在特征空間里使用線性O(shè)PLS方法解決原始空間的非線性關(guān)系。核點(diǎn)積定義為k(x,y)=〈φ(x),φ(y)〉,需要計(jì)算全部的Ki,j=k(xi,xj)(其中xi,xj分別代表自變量矩陣的第i行和第j行),通過使用合適的核函數(shù),可以避免確定X映射到特征空間的映射函數(shù),同時(shí)不用在特征空間內(nèi)計(jì)算“點(diǎn)積”,其計(jì)算非常方便。KOPLS的建模過程見圖1。常見的核函數(shù)有線性核函數(shù)(式1)、多項(xiàng)式核函數(shù)(式2)和徑向基核函數(shù)(通常被稱為高斯核函數(shù))(式3)。

        實(shí)際中最常用的方法是高斯核函數(shù)[5]。例如,給定xi和xj

        那么核矩陣K的元素ki,j可以計(jì)算為

        應(yīng)用高斯核函數(shù)的重點(diǎn)是參數(shù)σ的選擇,其影響模型的預(yù)測(cè)能力。在實(shí)際中,我們根據(jù)研究目的選擇核參數(shù)。

        KOPLS模型包括一系列的預(yù)測(cè)成分Tp和一系列的正交成分To,去除正交成分后,把變異都集中在一個(gè)預(yù)測(cè)成分中,模型解釋簡(jiǎn)單。KOPLS方法把Y預(yù)測(cè)成分和Y正交成分進(jìn)行分離并沒有影響預(yù)測(cè)能力,這種方法還可以識(shí)別數(shù)據(jù)中的異常現(xiàn)象,如儀器零點(diǎn)漂移、批次的不同或者其他的生物變異等,而通過其他方法可能難以識(shí)別這些現(xiàn)象。例如,如果兩類數(shù)據(jù)可以通過KOPLS得分圖的正交成分分開,則說明其與有意義的差異變量無(wú)關(guān),可能是由于批次不同等非差異變量引起的。

        圖1 KOPLS的建模過程示意圖

        2.計(jì)算方法

        (1)核矩陣中心化

        對(duì)于數(shù)量級(jí)差別較大的數(shù)據(jù),在建模之前需要對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化和對(duì)核矩陣K進(jìn)行中心化,式(4)描述了核矩陣的中心化過程。

        其中,In是n維單位矩陣,En代表一個(gè)(n×1)的向量,它的元素等于1。

        (2)建立KOPLS模型

        K表示核矩陣,Ao表示正交成分個(gè)數(shù),Ki表示被第i個(gè)正交成分抽取之后的核矩陣,Qi表示Ki被A個(gè)預(yù)測(cè)成分抽取之后的核矩陣。具體步驟如下:

        ①通過特征向量YTKY分解估計(jì)預(yù)測(cè)Y權(quán)重向量Cp;

        ②把Y映射到CP上,得到Y(jié)預(yù)測(cè)得分矩陣Up∶Up?YCp;

        ③計(jì)算X預(yù)測(cè)得分矩陣Tp∶Tp?KUp;

        ④循環(huán)迭代i從1到Ao;

        計(jì)算Y正交得分向量toi∶toi?QiTpCo;

        通過to,t抽取Ki,形成Ki+1;

        更新預(yù)測(cè)得分矩陣:Tp?Ki+1Up;

        循環(huán)結(jié)束;

        模擬試驗(yàn)

        實(shí)驗(yàn)?zāi)康模和ㄟ^模擬線性和非線性相關(guān)關(guān)系的數(shù)據(jù),探索KOPLS方法的特點(diǎn)及適用條件,并與常用的OPLS方法進(jìn)行比較。模型的預(yù)測(cè)能力通過7折交叉驗(yàn)證得到的Q2統(tǒng)計(jì)量衡量,Q2越大說明數(shù)據(jù)中含有生物標(biāo)志物的可能性越大,其診斷效果越好,同時(shí)存在過擬合的風(fēng)險(xiǎn)較小,可視化效果通過繪制主成分得分圖進(jìn)行判斷。KOPLS方法通過R語(yǔ)言編程實(shí)現(xiàn)。

        模擬實(shí)驗(yàn)1:設(shè)有兩組數(shù)據(jù),其中有20個(gè)差異變量,在兩個(gè)不同的分組中分別服從X1~N(0,1)和X2~N(1.0,1)的正態(tài)分布,產(chǎn)生線性相關(guān)關(guān)系的數(shù)據(jù),同時(shí)加入500個(gè)無(wú)差異變量作為干擾變量,干擾變量在兩類中均服從X~N(0,1)的正態(tài)分布,并分為25組,每組20個(gè)變量的相關(guān)系數(shù)均等于0.8,分別利用KOPLS和OPLS進(jìn)行分析,首先對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,KOPLS使用高斯函數(shù),得出每種方法的Q2值,以及繪制得分圖來觀察兩種方法的可視化效果,上述實(shí)驗(yàn)重復(fù)1000次,得出平均Q2值,見圖2。

        圖2 KOPLS(a)和OPLS(b)方法的Q2值

        從圖2中可以看到KOPLS去除4個(gè)正交成分時(shí),Q2最大,Q2=0.905,OPLS去除4個(gè)正交成分時(shí),Q2最大,Q2=0.892,通過繪制兩種方法的得分圖(圖3),我們可以看到兩種方法都能將兩類明顯的區(qū)分開。說明當(dāng)數(shù)據(jù)間存在線性相關(guān)關(guān)系時(shí),KOPLS方法與OPLS方法的結(jié)果基本相同。

        模擬試驗(yàn)2:產(chǎn)生非線性相關(guān)關(guān)系的數(shù)據(jù),為此先產(chǎn)生正態(tài)分布數(shù)據(jù),然后通過x=5(exp(-X)-4exp(-2X)+3exp(-3X))變換得到模擬數(shù)據(jù)。模擬設(shè)定在第一類中有20個(gè)差異變量,均獨(dú)立服從XK~N(1.8,1),在第二類中20個(gè)變量均服從XK~N(0,1)的正態(tài)分布,加入與模擬試驗(yàn)1設(shè)置相同的干擾變量。對(duì)上述模擬數(shù)據(jù)分別利用KOPLS方法和OPLS方法進(jìn)行分析,分別計(jì)算每種方法的Q2值,以及繪制得分圖來觀察兩種方法的分類能力和可視化效果,上述方法重復(fù)實(shí)驗(yàn)1000次,得出平均Q2值,KOPLS方法使用高斯核函數(shù),核參數(shù)σ=20,兩種方法的Q2結(jié)果見圖4。

        從圖中可以看到,KOPLS去除1個(gè)正交成分時(shí)最大,Q2=0.612,當(dāng)進(jìn)行OPLS分析時(shí),其Q2為負(fù)值,去除一個(gè)正交成分后,通過繪制兩種方法的得分圖(見圖5),我們可以看到KOPLS很明顯的將兩類區(qū)分開,而OPLS方法卻區(qū)分的不夠好,說明KOPLS在因變量與自變量成復(fù)雜的非線性關(guān)系時(shí),具有較好的模型擬合和預(yù)測(cè)效果,而且可視化效果更佳。

        圖3 KOPLS(a)和OPLS(b)的預(yù)測(cè)成分和第一個(gè)正交成分的得分圖

        圖4 KOPLS(a)和OPLS(b)方法的Q2值

        圖5 KOPLS(a)和OPLS(b)的預(yù)測(cè)成分和第一個(gè)正交成分的得分圖

        實(shí)例分析

        選取課題組研究的卵巢癌代謝組數(shù)據(jù),共包含170例樣本,其中卵巢癌患者80例,卵巢囊腫患者90例,分析變量(物質(zhì)濃度峰)共665個(gè)。

        對(duì)上述數(shù)據(jù),分別利用KOPLS和OPLS方法對(duì)數(shù)據(jù)進(jìn)行分析。進(jìn)行KOPLS分析時(shí),由于變量的數(shù)量級(jí)變化較大,首先對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,然后建立KOPLS模型。KOPLS使用高斯核函數(shù)(σ=20),通過7折交叉驗(yàn)證選擇最大的Q2值,去除3個(gè)正交成分時(shí),Q2最大,Q2=0.314。對(duì)數(shù)據(jù)進(jìn)行OPLS分析,當(dāng)去除3個(gè)正交成分時(shí),Q2最大,Q2=0.206(見表1)。從預(yù)測(cè)成分和第一個(gè)正交成分的得分圖中(見圖6),可以看到OPLS沒有將兩類很好的分離,而KOPLS的分離效果相對(duì)較好。總之,本例使用KOPLS的預(yù)測(cè)效果和可視化效果都優(yōu)于OPLS。

        表1 KOPLS和OPLS兩種方法的Q2值比較

        圖6 KOPLS方法(a)和OPLS方法(b)的預(yù)測(cè)成分和第一個(gè)正交成分得分圖

        討 論

        本研究模擬實(shí)驗(yàn)表明,當(dāng)數(shù)據(jù)間存在線性關(guān)系時(shí),應(yīng)用KOPLS和OPLS兩種方法的Q2值和分類可視化效果基本相同,可以任選其中一種方法進(jìn)行分析。在因變量Y與自變量X之間存在復(fù)雜非線性關(guān)系情況下,與OPLS模型相比,KOPLS模型的預(yù)測(cè)能力(Q2)穩(wěn)健,同時(shí)能夠保持更合適的可視化效果。通過對(duì)實(shí)際卵巢癌代謝組學(xué)數(shù)據(jù)的分析,同樣顯示出KOPLS比OPLS得到的結(jié)果更好,說明KOPLS方法可以應(yīng)用在高維代謝組學(xué)數(shù)據(jù)的分析中。

        1.Nguyen D,Rocke DM.Tumor classification by partial least squares using microarray gene expression data.Bioinformatics,2002,18:39-50.

        2.Trygg J,Wold S.Orthogonal projections to latent structures(O-PLS). Journal of Chemometrics,2002,16:119-128.

        3.Rosipal R,Trejo LJ.Kernel Partial Least Squares Regression in Reproducing Kernel Hilbert Space.Journal of Machine Learning Research,2001,2:97-123.

        4.Rantalainen M,Bylesjo M.Kernel-based orthogonal projections to latent structures(K-OPLS).Journal of Chemometrics,2007,21:376-385.

        5.Czekaj T,Wen W,Beata W.About kernel latent variable approachs and SVM.Journal of Chemometrics,2005,19:341-354.

        6.Fonville M,Coen M.Non-linear modeling of 1HNMR metabonomic data using kernel-based orthogonal projections to latent structures optim ized by simulated annealing.AnalyticaChimica Acta,2011,705:72-80.

        7.Bylesjo M,Rantalainen M.KOPLS package:Kernel-based orthogonal projections to latent structures for prediction and interpretation in feature space.Bioinformatics,2008,9:106-112.

        8.Tao W,Ming Y.Application of Metabolomics in Traditional Chinese Medicine Differentiation of Deficiency and Excess Syndromes in Patients with Diabetes Mellitus.Evidence-Based Complementary and Alternative Medicine,2012.

        (責(zé)任編輯:郭海強(qiáng))

        The Application of Kernal Orthogonal Projection to Latent Structures(KOPLS)in Metabolomics Data Analysis

        Li Junnan,Hou Yan,Li Kang(Department of Medical Statistics,Harbin Medical University(150081),Harbin)

        ObjectiveTo explore the characteristics of kernel orthogonal projections to latent structures(KOPLS)method and its application in metabolomics data analysis.MethodsWe use simulated experiment and actual metabolism data to evaluate the prediction ability,classification ability and visualization effect of the KOPLS method.ResultsSimulation experiment and actual metabolomics data analysis proved that when there is a linear relationship between data,the KOPLS has the same effect with traditional linear OPLS methodS.The KOPLS method in dealing with nonlinear relations has higher predictive ability and better classification effect,at the same time,the score of the figure of visual effect is good.ConclusionIt can be applied to high-dimensional omics data analysis better.

        Kernel orthogonal projections to latent structures;Non-linear;Metabonomics

        *高等學(xué)校博士學(xué)科專項(xiàng)基金(20122307110004);國(guó)家自然科學(xué)基金資助(81172767)

        △通信作者:李康,likang@ems.hrbmu.edu.cn

        猜你喜歡
        可視化效果方法
        基于CiteSpace的足三里穴研究可視化分析
        基于Power BI的油田注水運(yùn)行動(dòng)態(tài)分析與可視化展示
        云南化工(2021年8期)2021-12-21 06:37:54
        按摩效果確有理論依據(jù)
        基于CGAL和OpenGL的海底地形三維可視化
        “融評(píng)”:黨媒評(píng)論的可視化創(chuàng)新
        迅速制造慢門虛化效果
        抓住“瞬間性”效果
        可能是方法不對(duì)
        模擬百種唇妝效果
        Coco薇(2016年8期)2016-10-09 02:11:50
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        日本高清一道本一区二区| 蜜桃传媒免费观看视频| 欧美性久久| 妞干网中文字幕| 国产美女av一区二区三区| 亚洲人妻av在线播放| 丝袜美腿亚洲综合第一页| 亚洲蜜臀av一区二区三区| 国产日韩欧美一区二区东京热| 亚洲娇小与黑人巨大交| 日本乱人伦在线观看| 国产91精品成人不卡在线观看| 99精品国产第一福利网站 | 久久久精品人妻一区二| 午夜视频一区二区在线观看| 色又黄又爽18禁免费网站现观看| 国产免费内射又粗又爽密桃视频| 无码人妻丰满熟妇区五十路百度 | 欧美亚洲日韩国产人成在线播放 | 国产一级在线现免费观看| 中文字幕日本女优在线观看| 一二三四在线观看韩国视频| 91精品国产色综合久久| 十八18禁国产精品www| 日韩av水蜜桃一区二区三区| 精品乱人伦一区二区三区| 国精品午夜福利视频不卡| 欧美丰满大爆乳波霸奶水多| 久久精品国产亚洲黑森林| 天堂a版一区二区av| 美女露出奶头扒开内裤的视频 | 欧美人成在线播放网站免费| 青青草原亚洲在线视频| 日本女优免费一区二区三区| 少妇伦子伦情品无吗| 亚洲日产一线二线三线精华液| 性饥渴艳妇性色生活片在线播放 | 美女啪啪国产| 久久蜜桃一区二区三区| 可免费观看的av毛片中日美韩| 亚洲亚洲人成综合网络|