亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        4種相關(guān)分析方法在菌群和代謝物相關(guān)研究中的初步比較

        2018-04-23 08:15:15游懿君梁丹丹陳天璐
        轉(zhuǎn)化醫(yī)學雜志 2018年2期
        關(guān)鍵詞:基因組學代謝物分析方法

        游懿君,梁丹丹,陳天璐

        系統(tǒng)生物學是在細胞、組織、器官和生物體整體水平上研究結(jié)構(gòu)和功能各異的生物分子及其相互作用,并通過計算生物學來定量闡明和預(yù)測生物功能、表型和行為的科學[1]?;?、蛋白、轉(zhuǎn)錄、代謝及元基因等多組學整合研究是系統(tǒng)生物學中常用的研究手段??缃M學研究不僅可了解機體的基因構(gòu)成,而且對于下游表達產(chǎn)物如蛋白、代謝物也有了一個充分的了解[1-2]。代謝組學是系統(tǒng)生物學領(lǐng)域一門新興的學科,是利用各儀器平臺(氣相/液相-色譜聯(lián)用和核磁共振等)和大數(shù)據(jù)信息挖掘策略觀察生物體系中的大量代謝產(chǎn)物在不同狀態(tài)下變化規(guī)律的科學[3]。元基因組學通過直接從環(huán)境樣品中提取全部微生物的DNA,構(gòu)建宏基因組文庫,利用基因組學的研究策略研究環(huán)境樣本所包含的全部微生物的遺傳組成及其群落功能。越來越多的研究表明,人體內(nèi)的代謝物水平波動與腸道內(nèi)菌群的變化間存在著一定的關(guān)聯(lián)[4-5]。由于人體是一個系統(tǒng)整體,系統(tǒng)性的研究顯得尤為必要[2],而代謝組學和元基因組學2大組學平臺滿足了整體系統(tǒng)性分析的需求,越來越多的應(yīng)用到了菌群和代謝物的相關(guān)研究中。

        相關(guān)性分析是指對2個或多個具備相關(guān)性的變量元素進行分析,從而衡量2個變量因素的相關(guān)密切程度[6]。利用相關(guān)性分析進行關(guān)聯(lián)變量的篩選是一種常用的科學研究策略。Pearson積相關(guān)[7]和Spearman秩相關(guān)[8]是2種經(jīng)典的相關(guān)性分析方法。隨著相關(guān)分析的廣泛應(yīng)用,在經(jīng)典的相關(guān)性方法基礎(chǔ)上發(fā)展延伸出了很多的適用于不同數(shù)據(jù)類型的方法。比如,SparCC[9]和CCLasso[10]是針對組分數(shù)據(jù)內(nèi)部變量的相關(guān)性研究而產(chǎn)生的方法,能夠更加精準的在該類數(shù)據(jù)集中找到關(guān)聯(lián)對。元基因組數(shù)據(jù)屬于組分數(shù)據(jù)的一種[11-12],反映的是物質(zhì)的相對豐度信息而非絕對豐度信息,具有稀疏性和內(nèi)部關(guān)聯(lián)度高等特征。Friedman[9]和Fang等[10]指出,采用經(jīng)典相關(guān)分析(Pearson,Spearman)方法對其進行研究常常產(chǎn)生不合理甚至錯誤的結(jié)果。此外,尚未見有報道嘗試采用SparCC和CCLasso對非組分數(shù)據(jù)進行分析。代謝組學數(shù)據(jù)和元基因組學數(shù)據(jù)的數(shù)據(jù)特點和結(jié)構(gòu)也不盡相同。代謝組學數(shù)據(jù)是基于“質(zhì)譜”生成的信息,其變量是連續(xù)的且與具體的代謝物的濃度成比例;元基因組學數(shù)據(jù)是一種基于“計數(shù)”的信息,變量是離散的且與基因片段存在的數(shù)量成比例。2種不同特性組學數(shù)據(jù)的相關(guān)分析對方法的選擇提出了新的要求。

        我們以代謝組學和元基因組學間的關(guān)聯(lián)研究為目標,選用4種典型的相關(guān)分析方法(Pearson,Spea-rman,SparCC和CCLasso),采用仿真數(shù)據(jù)集和真實數(shù)據(jù)集,對這4種相關(guān)分析方法進行檢測和對比,研究了他們的相似性和獨特性,為跨組學數(shù)據(jù)相關(guān)分析方面提供方法學支持。

        1 方法

        1.1 仿真數(shù)據(jù)集建立 利用R軟件“MASS”包中的“mvrnorm”函數(shù),生成2個含有21個變量(V),200個樣本量(S)的數(shù)據(jù)矩陣A(a1-a21)和B(b1-b21)。其中代表代謝物的矩陣A服從正態(tài)分布,代表菌群的矩陣B服從對數(shù)正態(tài)分布。指定矩陣A與矩陣B中的21個相關(guān)對(a1-b1,a2-b2,a3-b3,…,a21-b21)的相關(guān)系數(shù)分別為-1,-0.9,-0.8,…,0.8,0.9,1。統(tǒng)計學上通常認為相關(guān)系數(shù)小于0.3是不存在相關(guān)或相關(guān)程度較弱,易產(chǎn)生不符合真實情況的結(jié)果,所以我們將相關(guān)系數(shù)大于或等于0.3的16個相關(guān)對作為有效相關(guān)對(編號第1~8和第14~21的相關(guān)對)。

        1.2 腦代謝組研究數(shù)據(jù) 由于“菌群-腸-腦軸”的研究逐漸成為新的研究熱點,諸多研究證實腦中的代謝物與腸道菌群間存在著密切的相關(guān)性[13-15]。我們以42只Wistar大鼠腦組織代謝物的代謝組學數(shù)據(jù)和大鼠小腸內(nèi)容物中腸道菌群的元基因組學數(shù)據(jù)(16SrRNA)為例進行研究。所有的動物實驗都在上海交通大學實驗動物中心進行。原始的代謝組學數(shù)據(jù)包含了359個代謝物,原始的元基因組學數(shù)據(jù)包含了3 421個操作分類單元。我們對原始數(shù)據(jù)進行進一步的優(yōu)化:將代謝組學數(shù)據(jù)按照代謝物的種類進行合并,元基因組學數(shù)據(jù)操作分類單元表按分類學“門”水平進行合并。最終,得到30種代謝物和18個門的數(shù)據(jù)。

        1.3 相關(guān)分析方法

        1.3.1 Pearson積相關(guān)與Spearman秩相關(guān) Pearson積相關(guān)是Pearson[7]在1896年創(chuàng)立的一種經(jīng)典相關(guān)分析方法(公式1)。在此基礎(chǔ)上后續(xù)延伸出了Spearman秩相關(guān)[8]。Spearman從公式上來看是一種非參的Pearson相關(guān),在計算相關(guān)系數(shù)時,不體現(xiàn)計算的具體數(shù)值,而是將具體數(shù)值按秩次進行排序,利用秩次進行相關(guān)系數(shù)的計算。2種方法皆在R中調(diào)用“cor”函數(shù)實現(xiàn),選擇method=“pearson”或“spearman”。

        (1)

        1.3.2 SparCC與CCLasso SparCC和CCLasso是主要用于分析組分數(shù)據(jù)間相關(guān)關(guān)系的一種非參的相關(guān)分析方法,是前期經(jīng)典相關(guān)分析方法的延伸。SparCC方法的大體思路是:將組分數(shù)據(jù)進行Aitchison對數(shù)轉(zhuǎn)換,計算轉(zhuǎn)換后的線性Pearson相關(guān)并得到相關(guān)系數(shù)[9]。CCLasso則是在對數(shù)轉(zhuǎn)換后對組分進行基于罰函數(shù)的最小二乘法(即Lasso)從而得到相關(guān)系數(shù)[10]。SparCC和CCLasso方法均可在R軟件中實現(xiàn),方法代碼可從https://github.com/huayingfang/CCLasso中獲得[10]。

        抗胃癌植物類中藥藥味以苦、甘、辛為主,豐度分別為0.612、0.518、0.271;主要涉及品種包括白花蛇舌草、丹參、纈草、柴胡等,詳見表3。臨床在選擇組方入藥時應(yīng)結(jié)合患者臨床癥狀及個體特征充分考慮上述藥味特點。

        本研究的所有相關(guān)方法的實現(xiàn)皆在R軟件中進行。

        2 結(jié)果與討論

        將4種相關(guān)方法對仿真數(shù)據(jù)集和腦代謝組真實數(shù)據(jù)集進行相關(guān)分析,并將結(jié)果進行統(tǒng)計分析和可視化處理,用以從不同角度衡量對比各方法的性能。

        從圖1A中可以得出,16個指定相關(guān)對經(jīng)4種相關(guān)方法計算得到的r值(-1~-0.3,0.3~1)大體一致。圖1B中可以得出CCLasso的誤差百分比大于其他3種方法(22.95%)。Pearson和Spearman方法得出的誤差百分比較小(Pearson:6.23%;Spearman:5.14%)。圖1的結(jié)果說明了CCLasso方法存在較大的誤差,計算出的相關(guān)系數(shù)與真實值差距較大。這可能是由于CCLasso算法復(fù)雜度高,對數(shù)據(jù)結(jié)構(gòu)要求較嚴格。另一個原因可能是由于前期仿真數(shù)據(jù)集的構(gòu)建是根據(jù)Pearson系數(shù)來設(shè)計的(協(xié)方差矩陣公式是Pearson相關(guān)的一種變換),所以Pearson和Spearman相對來說得到的結(jié)果誤差百分比偏小,結(jié)果偏好。盡管如此,相比之下CCLasso的準確度比SparCC稍差。

        A:不同方法對指定r值的16個相關(guān)對進行分析得到的相關(guān)系數(shù)(r) 所有P值均小于0.05

        B:4種相關(guān)方法所計算出的相關(guān)系數(shù)的誤差百分比(均值±標準誤)。 誤差百分比=100%×|計算值-設(shè)定值|/設(shè)定值。4組間ANOVA的P<0.001, *表示兩兩比較時(Tukey’s方法),該方法與CCLasso比較的P<0.05圖1 4種相關(guān)方法基于仿真數(shù)據(jù)集中指定了相關(guān)系數(shù) 的16個變量對的計算結(jié)果

        進一步采用4種相關(guān)方法對矩陣A、B中未指定相關(guān)系數(shù)的變量對(變量如a1與b2,b3,…,b21等)進行分析,其相關(guān)結(jié)果如圖2所示。由r值聚類熱圖(聚類分析中使用歐幾里得距離計算變量之間的距離)(圖2A)可得,Pearson與Spearman聚為一類,SparCC與CCLasso聚為一類。該結(jié)果表明方法Pearson與Spearman得到的結(jié)果更為相似,SparCC與CCLasso的結(jié)果更為相似。而從數(shù)學公式上比較,這2組方法計算相關(guān)系數(shù)的公式也更為相近。圖2B顯示的是各種方法找到的顯著相關(guān)對的數(shù)目。我們發(fā)現(xiàn),CCLasso找到的相關(guān)對(P<0.05)數(shù)目最少(2),SparCC最多(23),Spearman(21)和Pearson(18)居中。這些未指定相關(guān)系數(shù)的變量對可相當于隨機變量,理論上這些變量間不存在相關(guān)性。該結(jié)果說明CCLasso最為保守,經(jīng)典方法的性能居中,而采用SparCC的假陽性風險相對較高。在必要時,可采用各種方法對P值進行適當校正或采用更嚴格的閾值,以降低假陽性。

        A:基于相關(guān)系數(shù)r值的層次聚類結(jié)果

        B:顯著相關(guān)(P<0.05)的個數(shù)圖2 4種相關(guān)方法對仿真數(shù)據(jù)集中未指定相關(guān)系數(shù)的 變量對(21×20=420個)的計算結(jié)果

        最后,采用真實數(shù)據(jù)對各種方法的性能進行進一步比較和評估。根據(jù)圖3A所示,對于同樣的數(shù)據(jù)集,CCLasso計算得到的相關(guān)系數(shù)r值相對最小,SparCC計算所得的r值最高,Spearman和Pearson介于兩者之間。圖3C顯示的是顯著(P<0.05)相關(guān)對數(shù)目。與仿真數(shù)據(jù)集和圖3A結(jié)果一致的是,CCLasso找到的相關(guān)對數(shù)目最少,SparCC最多,Spearman和Pearson結(jié)果介于兩者之間。由此我們判斷CCLasso方法相對保守,對數(shù)據(jù)的要求比較嚴格。此外,該方法的計算耗時也較其他方法長。這可能是因為其內(nèi)部算法比較復(fù)雜引起的[10]。再次采用相關(guān)系數(shù)r進行的層次聚類分析(圖3B)表明,方法Pearson與Spearman得到的結(jié)果更為相似,方法SparCC與CCLasso的結(jié)果更為相似。該結(jié)果與仿真數(shù)據(jù)集聚類結(jié)果一致。

        從仿真數(shù)據(jù)集和真實數(shù)據(jù)集的實驗結(jié)果來看,我們認為傳統(tǒng)的相關(guān)分析方法在跨組學之間的相關(guān)分析中更具有優(yōu)勢。而Spearman由于適合非線性相關(guān),建議其為首選方法。

        A:相關(guān)系數(shù)r值的范圍。橫坐標為4種相關(guān)方法, 縱坐標為相關(guān)系數(shù)r值(均值±標準差)。 4組間ANOVA的P<0.001。兩兩比較(Tukey’s)的所有P<0.05

        B:基于相關(guān)系數(shù)r值的層次聚類和熱圖

        C:顯著(P<0.05)相關(guān)對數(shù)目圖3 4種相關(guān)方法基于真實數(shù)據(jù)集的計算結(jié)果

        3 總結(jié)與展望

        基于以上仿真和真實數(shù)據(jù)集的結(jié)果,可以發(fā)現(xiàn)4種相關(guān)分析方法計算得到的r值和顯著相關(guān)對的數(shù)量都存在類似的規(guī)律:SparCC>Spearman和Pearson>CCLasso。CCLasso誤差百分比較大,而得到的顯著相關(guān)對的數(shù)目最少。相比較來說,該方法的結(jié)果更容易出現(xiàn)假陰性(即具有相關(guān)關(guān)系的2個變量關(guān)系,在CCLasso較為嚴格的算法下,結(jié)果往往是不具有相關(guān)性)。相反的,SparCC更傾向于給出假陽性結(jié)果(即不具有相關(guān)關(guān)系的2個變量關(guān)系,在SparCC較為寬松的算法下,結(jié)果往往是具有相關(guān)性);經(jīng)典相關(guān)方法(Pearson和Spearman)的表現(xiàn)較為穩(wěn)定平和,Spearman結(jié)果稍優(yōu)于Pearson。部分原因可能是其更適合于分析非線性相關(guān)關(guān)系。本研究結(jié)論仍需要更多實驗數(shù)據(jù)的進一步驗證。

        【參考文獻】

        [1]楊勝利.系統(tǒng)生物學研究進展[J].中國科學院院刊,2004,19(1):31-34.

        [2]Kitano H.Systems biology:a brief overview[J].Science,2002,295(5560):1662-1664.

        [3]Bujak R,Struck-Lewicka W,Markuszewski MJ,et al.Metabolomics for laboratory diagnostics[J].J Pharm Biomed Anal,2015,113:108-120.

        [4]Liu R,Hong J,Xu X,et al.Gut microbiome and serum metabolome alterations in obesity and after weight-loss intervention[J].Nat Med,2017,23(7):859-868.

        [5]Zheng X,Xie G,Zhao A,et al.The footprints of gut microbial-mammalian co-metabolism[J].J Proteome Res,2011,10(12):5512-5522.

        [6]Hauke J,Kossowski T.Comparison of values of Pearson’s and Spearman’s correlation coefficients on the same sets of data[J].Quaest Geo,2011,30(2):87-93.

        [7]Pearson K.Mathematical contributions to the theory of evolution.III.Regression, heredity,and panmixia[J].Philos T Roy Soc A,1896,187:253-318.

        [8]Spearman C.The proof and measurement of association between two things[J].Am J Psychol,1904,15(1):72-101.

        [9]Friedman J,Alm EJ.Inferring correlation networks from genomic survey data[J].Plos Comput Biol,2012,8(9):e1002687.

        [10]Fang H,Huang C,Zhao H,et al.CCLasso: correlation inference for compositional data through Lasso[J].Bioinformatics,2015,31(19):3172-3180.

        [11]Tsilimigras MC,Fodor AA.Compositional data analysis of the microbiome:fundamentals,tools,and challenges[J].Ann Epidemiol,2016,26(5):330-335.

        [12]Weiss S,Van Treuren W,Lozupone C,et al.Correlation detection strategies in microbial data sets vary widely in sensitivity and precision[J].ISME J,2016,10(7):1669-1681.

        [13]Zheng X,Chen T,Zhao A,et al.The brain metabolome of male rats across the lifespan[J].Sci Rep,2016,6:24125.

        [14]Mayer EA.Gut feelings:the emerging biology of gut-brain communication[J].Nat Rev Neurosci,2011,12(8):453-466.

        [15]Ridaura V,Belkaid Y.Gut microbiota:the link to your second brain[J].Cell,2015,161(2):193-194.

        猜你喜歡
        基因組學代謝物分析方法
        阿爾茨海默病血清代謝物的核磁共振氫譜技術(shù)分析
        基于EMD的MEMS陀螺儀隨機漂移分析方法
        基于基因組學數(shù)據(jù)分析構(gòu)建腎上腺皮質(zhì)癌預(yù)后模型
        系統(tǒng)基因組學解碼反芻動物的演化
        科學(2020年2期)2020-08-24 07:56:44
        一種角接觸球軸承靜特性分析方法
        重型機械(2020年2期)2020-07-24 08:16:16
        中國設(shè)立PSSA的可行性及其分析方法
        中國航海(2019年2期)2019-07-24 08:26:40
        柱前衍生化結(jié)合LC-MSn分析人尿中茶堿及其代謝物
        HPLC-MS/MS法分析乙酰甲喹在海參中的主要代謝物
        營養(yǎng)基因組學——我們可以吃得更健康
        生物進化(2014年3期)2014-04-16 04:36:41
        核安全設(shè)備疲勞分析方法與步驟
        国产精品免费观看久久| 色噜噜亚洲精品中文字幕| 久久红精品一区二区三区| 国产精品人妻一码二码| 亚洲产国偷v产偷v自拍色戒| 亚洲免费不卡av网站| 国产精品性色av麻豆| 18精品久久久无码午夜福利| 精品熟女少妇av免费观看| 免费a级毛片无码a∨免费| 久久精品国产亚洲综合av | 99精品一区二区三区免费视频| 亚洲传媒av一区二区三区| 青青草国产手机观看视频| 亚洲成av人片天堂网| 久久亚洲道色宗和久久| av网站一区二区三区| 国产日产欧产精品精品蜜芽| 亚洲精品国产成人| 亚洲网站免费看| 国产在线一区二区三区四区乱码| 国产乱妇无乱码大黄aa片| 蜜臀av免费一区二区三区| 午夜视频免费观看一区二区| 天天射综合网天天插天天干| 特级a欧美做爰片第一次| 欧美二区视频| 91久久国产露脸国语对白| 在线观看特色大片免费视频| 成 人 网 站 免 费 av| 69搡老女人老妇女老熟妇| 人妻少妇69久久中文字幕| 亚洲成av人在线观看天堂无码| 午夜短无码| 日产国产精品亚洲高清| 中文字幕无码av波多野吉衣| 久久香蕉免费国产天天看| 加勒比一本大道大香蕉| 免费观看a级毛片| a级黑人大硬长爽猛出猛进 | 亚洲男人天堂网站|