亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于色譜-質(zhì)譜平臺(tái)的代謝組學(xué)數(shù)據(jù)預(yù)處理方法*

        2017-07-18 11:08:12哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計(jì)學(xué)教研室150081
        中國衛(wèi)生統(tǒng)計(jì) 2017年3期
        關(guān)鍵詞:方法

        哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計(jì)學(xué)教研室(150081)

        孫 琳 張秋菊 王文佶 曲思楊 謝 彪 高 兵 劉美娜△

        ?

        ·方法介紹·

        基于色譜-質(zhì)譜平臺(tái)的代謝組學(xué)數(shù)據(jù)預(yù)處理方法*

        哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計(jì)學(xué)教研室(150081)

        孫 琳 張秋菊 王文佶 曲思楊 謝 彪 高 兵 劉美娜△

        代謝組學(xué)的概念自20世紀(jì)90年代被正式提出[1],已被廣泛應(yīng)用于醫(yī)學(xué)研究領(lǐng)域,其一般研究流程包括樣本采集、樣本檢測(cè)、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析和生物學(xué)解釋等。常用的樣本檢測(cè)技術(shù)有核磁共振(nuclear magnetic resonance,NMR)和高分辨率色譜-質(zhì)譜聯(lián)用技術(shù)[2],本文所述方法針對(duì)后者。經(jīng)色譜-質(zhì)譜聯(lián)用平臺(tái)檢測(cè)的數(shù)據(jù)具有以下特點(diǎn):高維度,小樣本,變量間高度相關(guān),高噪聲,高缺失,以及高度變異性?;谝陨蠑?shù)據(jù)特征,在代謝組學(xué)數(shù)據(jù)分析之前需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理[3],以消除或減小數(shù)據(jù)中高噪聲、高缺失和高度變異性對(duì)統(tǒng)計(jì)分析結(jié)果的干擾。數(shù)據(jù)預(yù)處理是數(shù)據(jù)分析的前提,有利于統(tǒng)計(jì)分析過程的多變量模型構(gòu)建;若數(shù)據(jù)未經(jīng)過充分預(yù)處理而直接用于統(tǒng)計(jì)分析,可能會(huì)掩蓋數(shù)據(jù)中某些真實(shí)特征(如組間差異),使研究結(jié)果模糊化。數(shù)據(jù)預(yù)處理包括缺失數(shù)據(jù)處理,數(shù)據(jù)標(biāo)準(zhǔn)化,以及數(shù)據(jù)的中心化、標(biāo)度化和轉(zhuǎn)換等內(nèi)容。本文將全面介紹基于色譜-質(zhì)譜聯(lián)用平臺(tái)的代謝組學(xué)數(shù)據(jù)預(yù)處理方法,并進(jìn)行各方法比較,為研究者選擇合適的數(shù)據(jù)預(yù)處理方法提供思路。

        數(shù)據(jù)預(yù)處理的重要性

        代謝組學(xué)研究經(jīng)常涉及處于不同實(shí)驗(yàn)條件下兩組樣本的分類判別(例如處理組和非處理組、病例組和對(duì)照組),目的是建立某種疾病或危險(xiǎn)因素的預(yù)測(cè)模型,找到相關(guān)的差異表達(dá)生物標(biāo)志物,輔助疾病診斷、預(yù)防或治療[4]。代謝組學(xué)數(shù)據(jù)中存在多種變異,其中,由于某種特定誘導(dǎo)因素(實(shí)驗(yàn)干預(yù)、疾病等)導(dǎo)致的代謝物濃度差異被稱為誘導(dǎo)變異,這是研究者感興趣的變異,也是數(shù)據(jù)分析所針對(duì)的變異;此外,實(shí)驗(yàn)過程中其他因素引起的變異也會(huì)影響檢測(cè)的代謝物峰強(qiáng)度,從而影響研究對(duì)象分類,主要包括非誘導(dǎo)變異和技術(shù)平臺(tái)變異。

        非誘導(dǎo)變異[5]包括:(1)量級(jí)差異:指機(jī)體內(nèi)某個(gè)單分子物質(zhì)的平均濃度遠(yuǎn)小于高濃度化合物(例如ATP)的平均濃度,從生物學(xué)角度來說,相對(duì)于低濃度的代謝物,高濃度代謝物在機(jī)體生理病理過程中未必發(fā)揮更重要的作用;(2)倍數(shù)差異:指誘導(dǎo)因素對(duì)不同通路的代謝物的影響程度不一致,一般來說,中心代謝途徑物質(zhì)的濃度較為穩(wěn)定,而次級(jí)代謝途徑產(chǎn)生的物質(zhì)的濃度易受環(huán)境因素影響;(3)生物固有差異:指在相同的實(shí)驗(yàn)條件下,某些代謝物的濃度在同組別的個(gè)體間也展現(xiàn)出較大幅度波動(dòng),這種個(gè)體差異可能會(huì)導(dǎo)致錯(cuò)誤的判別結(jié)果。技術(shù)平臺(tái)變異來源于樣本預(yù)處理過程和色譜-質(zhì)譜檢測(cè)平臺(tái),例如預(yù)處理時(shí)樣本間細(xì)微的體積差異、質(zhì)譜離子源的波動(dòng)和色譜柱效能的變化等。檢測(cè)平臺(tái)變異導(dǎo)致測(cè)量誤差,具體表現(xiàn)為數(shù)據(jù)中的噪聲,在統(tǒng)計(jì)分析時(shí),通常假定代謝物噪聲強(qiáng)度呈正態(tài)分布,在實(shí)際研究中這種假設(shè)往往不成立,偏態(tài)分布的噪聲造成數(shù)據(jù)的異方差性,影響統(tǒng)計(jì)分析結(jié)果。

        數(shù)據(jù)預(yù)處理的目的就是減少諸多不利因素對(duì)多變量模型建立和生物標(biāo)志物篩選的干擾,以保證研究結(jié)果的準(zhǔn)確性。代謝特征數(shù)據(jù)由色譜-質(zhì)譜平臺(tái)輸出后,要經(jīng)過原始數(shù)據(jù)的預(yù)加工和清潔數(shù)據(jù)的預(yù)處理,才能進(jìn)入數(shù)據(jù)分析階段。

        清潔數(shù)據(jù)

        在數(shù)據(jù)預(yù)處理前,首先需要將原始數(shù)據(jù)轉(zhuǎn)換為清潔數(shù)據(jù)。生物樣本經(jīng)色譜-質(zhì)譜聯(lián)用平臺(tái)檢測(cè)得到由質(zhì)荷比、保留時(shí)間和代謝物相對(duì)峰強(qiáng)度信息構(gòu)成的三維原始數(shù)據(jù),這種數(shù)據(jù)雜亂且不匹配,不能直接反映研究對(duì)象的代謝特征。首先要對(duì)原始數(shù)據(jù)進(jìn)行預(yù)加工,包括保留時(shí)間對(duì)齊、峰提取和峰匹配等步驟,把原始數(shù)據(jù)轉(zhuǎn)換成匹配的色譜-質(zhì)譜-代謝物數(shù)據(jù)。預(yù)加工后的數(shù)據(jù)矩陣由幾十到上百個(gè)樣本(觀測(cè))所對(duì)應(yīng)的上千個(gè)代謝物(變量)的質(zhì)譜峰強(qiáng)度構(gòu)成,稱為清潔數(shù)據(jù)。實(shí)際研究中,預(yù)處理和統(tǒng)計(jì)分析階段的原始數(shù)據(jù)指的是清潔數(shù)據(jù)而非儀器導(dǎo)出的原始數(shù)據(jù)。圖1展示了整個(gè)數(shù)據(jù)預(yù)處理的流程。

        常用的代謝組學(xué)數(shù)據(jù)預(yù)處理方法

        1.缺失值處理 色譜-質(zhì)譜聯(lián)用平臺(tái)輸出數(shù)據(jù)中存在大量“0”值,我們把這些“0”值標(biāo)記為缺失數(shù)據(jù)。產(chǎn)生缺失值的原因有三方面[6]:代謝物只存在于某些樣本,在其他樣本中濃度為0;代謝物存在于樣本中,但其濃度低于檢測(cè)儀器設(shè)定的檢出限;代謝物在樣本中的濃度高于檢出限而被色譜檢出,但沒有得到正確的質(zhì)譜峰匹配,在質(zhì)譜中無法檢出。缺失值的產(chǎn)生會(huì)對(duì)深入數(shù)據(jù)挖掘結(jié)果產(chǎn)生較大偏倚,降低統(tǒng)計(jì)分析的效率,因此需要對(duì)缺失數(shù)據(jù)進(jìn)行刪減和填補(bǔ)。

        圖1 代謝組學(xué)數(shù)據(jù)預(yù)處理流程圖

        (1)缺失值刪減 一般遵守“80規(guī)則”[6],即:如果某一代謝物在一個(gè)類別超過80%的樣本中的檢測(cè)強(qiáng)度不為0,則該變量予以保留;反之剔除。通過“80規(guī)則”,由于檢測(cè)儀器導(dǎo)致的數(shù)據(jù)缺失被移除。

        (2)缺失值填補(bǔ) 在初步缺失值刪減后,數(shù)據(jù)中仍存在一部分“0”值,需要對(duì)這部分?jǐn)?shù)據(jù)進(jìn)行填補(bǔ)。目前常用的缺失值填補(bǔ)方法包括列替代法[7-8]、K鄰近法[8-9]、貝葉斯主成分分析法[7]和多重填補(bǔ)法[10-12]等。

        列替代法 由于研究對(duì)象的同質(zhì)性,代謝物在同類別研究對(duì)象的不同個(gè)體間的代謝行為高度相似。因此,某種代謝物在特定實(shí)驗(yàn)條件下的缺失值,可用缺失數(shù)據(jù)所在列的其他樣本的數(shù)據(jù)估計(jì)缺失的代謝物強(qiáng)度,包括最小值替代法、均值替代法和中位數(shù)替代法。列替代法簡單易操作,但是并沒有考慮到數(shù)據(jù)中各變量的相關(guān)性,因此估計(jì)的準(zhǔn)確度較低。

        K鄰近法 首先計(jì)算含有缺失值的代謝物和所有其他代謝物間的歐氏距離,選取與缺失變量歐氏距離最近的K個(gè)變量的加權(quán)平均峰強(qiáng)度值填補(bǔ)缺失數(shù)據(jù), K選擇10至20較為合理。不同于列替代法,K鄰近填補(bǔ)法對(duì)每個(gè)缺失值給出不同估計(jì)值,更接近真實(shí)數(shù)據(jù),而且考慮了變量間的相關(guān)性。

        貝葉斯主成分分析法(Bayesian principal components analysis,BPCA) 此種填補(bǔ)方法是基于主成分回歸、貝葉斯估計(jì)和EM算法的三層算法。先用主成分分析的結(jié)果建立完整數(shù)據(jù)的主成分回歸模型,用回歸模型的預(yù)測(cè)值作為缺失數(shù)據(jù)的初步估計(jì)值,建立貝葉斯估計(jì)的先驗(yàn)分布,假定殘差和代謝物在主成分上的投影都是正態(tài)獨(dú)立的變量,分布參數(shù)未知,由EM算法迭代估計(jì)上述參數(shù)直至收斂,用最終的主成分回歸模型預(yù)測(cè)值作為缺失數(shù)據(jù)的估計(jì)值。BPCA填補(bǔ)的優(yōu)勢(shì)在于利用了數(shù)據(jù)的全部結(jié)構(gòu),對(duì)樣本量較大的隨機(jī)缺失處理效果較好[28-29]。

        多重填補(bǔ)法 與單一填補(bǔ)不同,多重填補(bǔ)用某個(gè)缺失值的可能取值的集合進(jìn)行填補(bǔ),重復(fù)多次,產(chǎn)生多個(gè)完整數(shù)據(jù)集;隨后對(duì)多個(gè)數(shù)據(jù)集進(jìn)行統(tǒng)計(jì)分析,得到每個(gè)缺失數(shù)據(jù)的平均水平和變異水平;最后,整合來自各填補(bǔ)數(shù)據(jù)集的結(jié)果,從而得到統(tǒng)計(jì)推斷的結(jié)果。該方法考慮到了缺失數(shù)據(jù)的不確定性對(duì)統(tǒng)計(jì)推斷結(jié)果的影響。

        以上介紹的方法側(cè)重點(diǎn)不同,實(shí)際研究中,判斷是否需要進(jìn)行缺失值填補(bǔ)以及選擇何種填補(bǔ)方法需要研究者依據(jù)數(shù)據(jù)特征決定。

        2.?dāng)?shù)據(jù)標(biāo)準(zhǔn)化(表1) 標(biāo)準(zhǔn)化針對(duì)代謝組學(xué)實(shí)驗(yàn)中的系統(tǒng)誤差[13],包括樣本采集過程中的差異(如尿液樣本采集時(shí)間不同)、個(gè)體差異(如由于飲水量不同而導(dǎo)致的尿液濃度差異)或大規(guī)模研究中的批次差異。與其他數(shù)據(jù)預(yù)處理方法相比,標(biāo)準(zhǔn)化方法更為復(fù)雜 ,這里簡述幾種常用的標(biāo)準(zhǔn)化方法。

        (1)總強(qiáng)度標(biāo)準(zhǔn)化 假定數(shù)據(jù)中所有樣本的全部特征的峰強(qiáng)度總和相等,即所有代謝物的總強(qiáng)度在樣本之間不發(fā)生變化。每個(gè)觀測(cè)中所有元素的標(biāo)準(zhǔn)化因子相同,將原始數(shù)據(jù)除以所有特征的峰強(qiáng)度之和得到新數(shù)據(jù)[14]。這是代謝組學(xué)中最常用的標(biāo)準(zhǔn)化方法,Waters公司的軟件MakerLynx中默認(rèn)標(biāo)準(zhǔn)化方法就是總強(qiáng)度標(biāo)準(zhǔn)化。

        (2)Cyclic Loess標(biāo)準(zhǔn)化 其基本思想是通過曲線擬合的方法,調(diào)整兩個(gè)樣本間的所有特征的對(duì)數(shù)峰強(qiáng)度值差值,使之近似為0[15-16]。Cyclic Loess對(duì)不同類別樣本數(shù)據(jù)分別進(jìn)行標(biāo)準(zhǔn)化,可以有效地減少組間個(gè)體變異和技術(shù)平臺(tái)變異。

        (3)Quantile標(biāo)準(zhǔn)化 是基因組學(xué)中常用的標(biāo)準(zhǔn)化方法[18],目的是使全部樣本的數(shù)據(jù)具有相同分布[17],當(dāng)利用Q-Q圖對(duì)數(shù)據(jù)進(jìn)行可視化時(shí),所有點(diǎn)近似分布于對(duì)角線上。通過使各樣本數(shù)據(jù)分位數(shù)相等,達(dá)到所有觀測(cè)代謝物數(shù)據(jù)的一致分布。

        3.數(shù)據(jù)的中心化、標(biāo)度化和轉(zhuǎn)換(表2-3)

        對(duì)于非誘導(dǎo)變異和技術(shù)變異,除上述標(biāo)準(zhǔn)化方法外,還可以采取中心化和標(biāo)度化處理。轉(zhuǎn)換則是對(duì)由于噪聲導(dǎo)致的數(shù)據(jù)異方差性進(jìn)行處理。通過這一階段的預(yù)處理,數(shù)據(jù)中來源于誘導(dǎo)因素的代謝物濃度變異得以突顯。

        表1 標(biāo)準(zhǔn)化方法總結(jié)

        (1)數(shù)據(jù)中心化

        具體方法是將原數(shù)據(jù)減去每個(gè)列變量的均值而得到新數(shù)據(jù),中心化后,新數(shù)據(jù)圍繞0上下波動(dòng),而不再圍繞代謝物峰強(qiáng)度均值波動(dòng)。通過中心化,高濃度代謝物和低濃度代謝物間的濃度差異得到適當(dāng)?shù)恼{(diào)整,突出數(shù)據(jù)中波動(dòng)部分的重要性[19-20]。中心化是標(biāo)度化和轉(zhuǎn)換的基礎(chǔ),以下提到的兩類方法都要與中心化相結(jié)合。

        (2)數(shù)據(jù)標(biāo)度化

        Auto scaling 自標(biāo)度化,又稱為單位標(biāo)度化或單位方差標(biāo)度化。以標(biāo)準(zhǔn)差作為標(biāo)度因子,用中心化后的數(shù)據(jù)除以列變量的標(biāo)準(zhǔn)差而得到新數(shù)據(jù)[20]。自標(biāo)度化后,所有代謝物強(qiáng)度的標(biāo)準(zhǔn)差均為1,相當(dāng)于把所有的變量置于同等重要的水平,消除了由于代謝物的絕對(duì)含量差異引起的高濃度物質(zhì)對(duì)低濃度物質(zhì)的數(shù)據(jù)掩蓋。需要注意的是,自動(dòng)標(biāo)度化給所有代謝物以相同權(quán)重,使低含量代謝物更可比,但是,這些物質(zhì)的測(cè)量誤差同時(shí)被放大 ,可能會(huì)導(dǎo)致錯(cuò)誤的數(shù)據(jù)分析結(jié)果。

        Range scaling 極差標(biāo)度化,采用生物學(xué)范圍作為標(biāo)度因子[21],這里的生物學(xué)范圍指的是某種代謝物強(qiáng)度的最大值與最小值之差,即列變量的極差。標(biāo)準(zhǔn)差涵蓋了所有研究對(duì)象的信息,而極差的計(jì)算只用到兩個(gè)樣本的信息, 因此極差標(biāo)度化對(duì)于數(shù)據(jù)中的離群值很敏感。為了提高方法的魯棒性,可以采用其他更穩(wěn)健的生物學(xué)范圍計(jì)算方法。

        Pareto scaling 該方法和自動(dòng)標(biāo)度化類似,只是標(biāo)度因子由標(biāo)準(zhǔn)差變?yōu)闃?biāo)準(zhǔn)差的平方根[22]。Pareto標(biāo)度化在弱化高含量代謝物重要性的同時(shí)又保持了數(shù)據(jù)的完整性,與自動(dòng)標(biāo)度化方法相比,新數(shù)據(jù)更接近原始測(cè)量值。與在組別間變化不顯著的代謝物相比,變異較大的物質(zhì)對(duì)此方法更加敏感。

        Vast scaling 大規(guī)模標(biāo)度化,又稱為變量穩(wěn)定性標(biāo)度化,是自標(biāo)度化的擴(kuò)展[23]。大規(guī)模標(biāo)度化重點(diǎn)關(guān)注那些在樣本間變異較小,濃度較穩(wěn)定的代謝物,采用標(biāo)準(zhǔn)差和變異系數(shù)作為標(biāo)度因子。變異系數(shù)是列變量標(biāo)準(zhǔn)差和均數(shù)的比值,引入變異系數(shù)作為標(biāo)度因子,提高了低相對(duì)標(biāo)準(zhǔn)偏差變量的重要性,降低了高相對(duì)標(biāo)準(zhǔn)偏差變量的重要性。大規(guī)模標(biāo)度化既可用于無監(jiān)督模式識(shí)別,也可用于有監(jiān)督模式識(shí)別,當(dāng)進(jìn)行有監(jiān)督模式識(shí)別時(shí),用各組的信息分別求組內(nèi)變異系數(shù)作為標(biāo)度因子。

        Level scaling 水平標(biāo)度化,使用的標(biāo)度因子是代謝物的平均強(qiáng)度[5],標(biāo)度化后的新數(shù)據(jù)是某種代謝物強(qiáng)度相對(duì)于其平均強(qiáng)度變化的百分比,即相對(duì)變化值。水平標(biāo)度化適用于研究特定的某些相對(duì)變化大的生物學(xué)反應(yīng)(如應(yīng)激反應(yīng))和高濃度生物標(biāo)志物的發(fā)現(xiàn)。

        (3)數(shù)據(jù)轉(zhuǎn)換

        轉(zhuǎn)換是非線性的數(shù)據(jù)預(yù)處理方法,主要用于校正數(shù)據(jù)中的噪聲結(jié)構(gòu)[24],通過數(shù)據(jù)轉(zhuǎn)換,將乘性噪聲轉(zhuǎn)換為加性噪聲,使偏態(tài)分布的數(shù)據(jù)轉(zhuǎn)換為更加對(duì)稱的分布。

        經(jīng)UPLC-MS檢測(cè)輸出的峰強(qiáng)度包括代謝物的信號(hào)強(qiáng)度以及噪聲強(qiáng)度這兩部分,其中噪聲具有乘性結(jié)構(gòu)或加性結(jié)構(gòu)[25-26],可以用以下模型表示:

        xij=βij+nij·sijeηij

        xij是檢測(cè)到的第i種代謝物在第j個(gè)樣本中的峰強(qiáng)度,sij是預(yù)期的峰強(qiáng)度,βij表示隨機(jī)背景噪聲(電子噪聲),ηij表示乘性隨機(jī)噪聲(例如樣本預(yù)處理過程出現(xiàn)的變異,離子源的波動(dòng)或樣品導(dǎo)入設(shè)備的波動(dòng)),ηij表示樣本j的標(biāo)準(zhǔn)化因子。加性噪聲是基線的隨機(jī)波動(dòng),與代謝物的信號(hào)強(qiáng)度無關(guān),來自于檢測(cè)儀器的電子噪聲,由于交叉進(jìn)樣,加性噪聲均勻出現(xiàn)在各組別的全部樣本的檢測(cè)過程中,因此可忽略不計(jì)。與此相反,乘性噪聲隨代謝物信號(hào)強(qiáng)度增加而增強(qiáng),通常噪聲強(qiáng)度與信號(hào)強(qiáng)度成比例。由于乘性噪聲的存在,進(jìn)行不同樣本的多次測(cè)量時(shí),高濃度的代謝物會(huì)展現(xiàn)出更大的變異,造成某些低濃度代謝物的信號(hào)可能會(huì)被高濃度代謝物的強(qiáng)噪聲所掩蓋。

        表2 數(shù)據(jù)中心化和數(shù)據(jù)標(biāo)度化方法的總結(jié)

        對(duì)數(shù)轉(zhuǎn)換 是代謝組學(xué)常用的數(shù)據(jù)轉(zhuǎn)換方法。如果數(shù)據(jù)中各變量的相對(duì)標(biāo)準(zhǔn)偏差是一個(gè)常量,則使用對(duì)數(shù)轉(zhuǎn)換能完全消除乘性噪聲對(duì)代謝物峰強(qiáng)度的累加作用[24],在實(shí)際研究中,這種情況非常罕見。對(duì)數(shù)轉(zhuǎn)換無法處理數(shù)據(jù)中的零值,因此對(duì)數(shù)轉(zhuǎn)換前先要對(duì)數(shù)據(jù)進(jìn)行缺失值填補(bǔ)。對(duì)數(shù)轉(zhuǎn)換的另一個(gè)缺陷是不能很好地處理那些峰強(qiáng)度相對(duì)標(biāo)準(zhǔn)偏差很大的代謝物,這些物質(zhì)通常有較低的相對(duì)濃度,變異相對(duì)于均數(shù)更加突出,當(dāng)峰強(qiáng)度趨于0時(shí),對(duì)數(shù)轉(zhuǎn)換后的數(shù)值接近負(fù)無窮。

        平方根轉(zhuǎn)換 對(duì)于缺失值較多或低濃度代謝物較多的數(shù)據(jù),通常選擇平方根轉(zhuǎn)換[27]來校正噪聲強(qiáng)度。平方根轉(zhuǎn)換后,高濃度代謝物的方差明顯減小,使得濃度不同的代謝物的方差近似相等。平方根轉(zhuǎn)換只是縮小了乘性噪聲強(qiáng)度,并沒有將其轉(zhuǎn)變?yōu)榧有栽肼暋?/p>

        表3 數(shù)據(jù)轉(zhuǎn)換方法總結(jié)

        小 結(jié)

        在代謝組學(xué)研究過程中,數(shù)據(jù)預(yù)處理會(huì)對(duì)統(tǒng)計(jì)分析結(jié)果產(chǎn)生很大影響,因此數(shù)據(jù)分析前的預(yù)處理過程是必不可少的。預(yù)處理方式多樣,關(guān)于預(yù)處理方法的比較研究較少 。本文介紹了多種數(shù)據(jù)缺失值填補(bǔ)法,標(biāo)準(zhǔn)化法以及標(biāo)度化、轉(zhuǎn)換法。

        從理論上看,BPCA填補(bǔ)法和多重填補(bǔ)法對(duì)缺失值的估計(jì)利用了數(shù)據(jù)集中全部的信息,填補(bǔ)效果更好。Hrydziuszko等[30]比較各種缺失值填補(bǔ)方法(包括基于單變量方法和基于多變量的方法)處理代謝組學(xué)數(shù)據(jù)的效果,發(fā)現(xiàn)K鄰近法的填補(bǔ)效果最優(yōu)。

        Bedilu[31]等比較不同標(biāo)準(zhǔn)化方法對(duì)于大規(guī)模代謝組學(xué)數(shù)據(jù)的影響,發(fā)現(xiàn)曲線擬合的Cyclic Loess標(biāo)準(zhǔn)化法能最有效地移除系統(tǒng)誤差。Kévin[32]等通過對(duì)實(shí)驗(yàn)數(shù)據(jù)的分析發(fā)現(xiàn),在幾種標(biāo)準(zhǔn)化方法中,Cyclic Loess效果較好,線性的標(biāo)準(zhǔn)化法效果較差。Pirtr S[33]等比較不同標(biāo)度化方法基于主成分-判別分析、隨機(jī)森林和K最鄰近分類三種多變量分析方法對(duì)于統(tǒng)計(jì)分析結(jié)果的影響,發(fā)現(xiàn)自動(dòng)標(biāo)度化和極差標(biāo)度化優(yōu)于其他方法,Robert等[5]也得到了類似的結(jié)論。

        數(shù)據(jù)轉(zhuǎn)換對(duì)大數(shù)值的影響相較于小數(shù)值更大,縮小了高濃度代謝物和低濃度代謝物濃度之間的量級(jí)差異,起到了類似標(biāo)度化的偽標(biāo)度化作用。大規(guī)模大樣本量的代謝組學(xué)研究涉及到多批次數(shù)據(jù)的合并,數(shù)據(jù)中的噪聲結(jié)構(gòu)更為復(fù)雜,可以考慮標(biāo)度化和轉(zhuǎn)換兩種方法的結(jié)合運(yùn)用。在高維組學(xué)數(shù)據(jù)中,數(shù)據(jù)轉(zhuǎn)換和標(biāo)度化之間的相互影響很復(fù)雜,應(yīng)用何種方法還要依據(jù)實(shí)際情況而定。

        預(yù)處理方法選擇不僅取決于代謝數(shù)據(jù)的特點(diǎn),還與之后選用的數(shù)據(jù)分析方法有關(guān)。例如,聚類方法關(guān)注于特征間相似點(diǎn)(或不同點(diǎn))的分析,而主成分分析則是試圖用盡可能少的成分解釋數(shù)據(jù)中大部分變異(降維);數(shù)據(jù)預(yù)處理可能會(huì)改善聚類方法的結(jié)果,卻使主成分分析的結(jié)果模糊化 。值得注意的是,上述預(yù)處理方法比較研究的結(jié)論都基于研究者在特定條件下模擬得到的數(shù)據(jù)集和特定的實(shí)驗(yàn)數(shù)據(jù)集的分析而得出的,在外推到其他數(shù)據(jù)集時(shí)要慎重。選擇數(shù)據(jù)預(yù)處理方法時(shí)要綜合考慮研究目的、數(shù)據(jù)結(jié)構(gòu)特征和擬采用的統(tǒng)計(jì)分析方法,再?zèng)Q定預(yù)處理的策略和具體方法。

        [1]Oliver SG,Winson MK,Kell DB,et al.Systematic functional analysis of the yeast genome.Trends in biotechnology,1998,16(9):373-378.

        [2]Salek RM,Steinbeck C,Viant MR,et al.The role of reporting standards for metabolite annotation and identification in metabolomic studies.GigaScience,2013,2(1):1.

        [3]Goodacre R,Broadhurst D,Smilde AK,et al.Proposed minimum reporting standards for data analysis in metabolomics.Metabolomics,2007,3(3):231-241.

        [4]Fiehn O.Metabolomics-the link between genotypes and phenotypes.Plant molecular biology,2002,48(1-2):155-171.

        [5]van den Berg RA,Hoefsloot HCJ,Westerhuis JA,et al.Centering,scaling,and transformations:improving the biological information content of metabolomics data.BMC genomics,2006,7(1):1.

        [6]Bijlsma S,Bobeldijk I,Verheij ER,et al.Large-scale human metabolomics studies:a strategy for data(pre-)processing and validation.Analytical chemistry,2006,78(2):567-574.

        [7]Xia J,Psychogios N,Young N,et al.MetaboAnalyst:a web server for metabolomic data analysis and interpretation.Nucleic acids research,2009,37(suppl 2):W652-W660.

        [8]Steuer R,Morgenthal K,Weckwerth W,et al.A gentle guide to the analysis of metabolomic data.Metabolomics:Methods and protocols,2007:105-126.

        [9]Troyanskaya O,Cantor M,Sherlock G,et al.Missing value estimation methods for DNA microarrays.Bioinformatics,2001,17(6):520-525.

        [10]Rubin DB.Multiple imputations in sample surveys-a phenomenological Bayesian approach to nonresponse//Proceedings of the survey research methods section of the American Statistical Association.American Statistical Association,1978,1:20-34.

        [11]Schafer JL.Multiple imputation:a primer.Statistical methods in medical research,1999,8(1):3-15.

        [12]Buuren S,Groothuis-Oudshoorn K.mice:Multivariate imputation by chained equations in R.Journal of statistical software,2011,45(3):.

        [13]Kultima K,Nilsson A,Scholz B,et al.Development and evaluation of normalization methods for label-free relative quantification of endogenous peptides.Molecular & Cellular Proteomics,2009,8(10):2285-2295.

        [14]Veselkov KA,Vingara LK,Masson P,et al.Optimized preprocessing of ultra-performance liquid chromatography/mass spectrometry urinary metabolic profiles for improved information recovery.Analytical chemistry,2011,83(15):5864-5872.

        [15]Cleveland WS,Devlin SJ.Locally weighted regression:an approach to regression analysis by local fitting.Journal of the American Statistical Association,1988,83(403):596-610.

        [16]Dudoit S,Yang YH,Callow MJ,et al.Statistical methods for identifying differentially expressed genes in replicated cDNA microarray experiments.Statistica sinica,2002:111-139.

        [17]Bolstad BM,Irizarry RA,?strand M,et al.A comparison of normalization methods for high density oligonucleotide array data based on variance and bias.Bioinformatics,2003,19(2):185-193.

        [18]Hansen KD,Irizarry RA,Zhijin WU.Removing technical variability in RNA-seq data using conditional quantile normalization.Biostatistics,2012,13(2):204-216.

        [19]Bro R,Smilde AK.Centering and scaling in component analysis.Journal of Chemometrics,2003,17(1):16-33.

        [20]Jackson JE.A user's guide to principal components.1991.

        [21]Smilde AK,van der Werf MJ,Bijlsma S,et al.Fusion of mass spectrometry-based metabolomics data.Analytical chemistry,2005,77(20):6729-6736.

        [22]Eriksson L.Introduction to multi-and megavariate data analysis using projection methods(PCA & PLS).Umetrics AB,1999.

        [23]Keun HC,Ebbels TMD,Antti H,et al.Improved analysis of multivariate data by variable stability scaling:application to NMR-based metabolic profiling.Analytica chimica acta,2003,490(1):265-276.

        [24]Kvalheim OM,Brakstad F,Liang Y.Preprocessing of analytical profiles in the presence of homoscedastic or heteroscedastic noise.Analytical Chemistry,1994,66(1):43-51.

        [25]Anderle M,Roy S,Lin H,et al.Quantifying reproducibility for differential proteomics:noise analysis for protein liquid chromatography-mass spectrometry of human serum.Bioinformatics,2004,20(18):3575-3582.

        [26]Durbin BP,Hardin JS,Hawkins DM,et al.A variance-stabilizing transformation for gene-expression microarray data.Bioinformatics,2002,18(suppl 1):S105-S110.

        [27]Sokal RR,Rohlf FJ.Assumptions of analysis of variance.Biometry:The principles and practice of statistics in biological research,1995:392-450.

        [28]Albrecht D,Kniemeyer O,Brakhage AA,et al.Missing values in gel-based proteomics.Proteomics,2010,10(6):1202-1211.

        [29]Oba S,Sato M,Takemasa I,et al.A Bayesian missing value estimation method for gene expression profile data.Bioinformatics,2003,19(16):2088-2096.

        [30]Hrydziuszko O,Viant MR.Missing values in mass spectrometry based metabolomics:an undervalued step in the data processing pipeline.Metabolomics,2012,8(1):161-174.

        [31]Ejigu BA,Valkenborg D,Baggerman G,et al.Evaluation of normalization methods to pave the way towards large-scale LC-MS-based metabolomics profiling experiments.Omics:a journal of integrative biology,2013,17(9):473-485.

        [32]Contrepois K,Jiang L,Snyder M.Optimized analytical procedures for the untargeted metabolomic profiling of human urine and plasma by combining hydrophilic interaction(HILIC)and reverse-phase liquid chromatography(RPLC)-Mass spectrometry.Molecular & Cellular Proteomics,2015,14(6):1684-1695.

        [33]Gromski PS,Xu Y,Hollywood KA,et al.The influence of scaling metabolomics data on model classification accuracy.Metabolomics,2015,11(3):684-695.

        (責(zé)任編輯:鄧 妍)

        國家科技支撐計(jì)劃(2011BAI09B02);黑龍江省自然基金重點(diǎn)項(xiàng)目(ZD201314)

        △通信作者:劉美娜,E-mail: liumeina369@163.com

        猜你喜歡
        方法
        中醫(yī)特有的急救方法
        中老年保健(2021年9期)2021-08-24 03:52:04
        高中數(shù)學(xué)教學(xué)改革的方法
        化學(xué)反應(yīng)多變幻 “虛擬”方法幫大忙
        變快的方法
        兒童繪本(2020年5期)2020-04-07 17:46:30
        學(xué)習(xí)方法
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        最有效的簡單方法
        山東青年(2016年1期)2016-02-28 14:25:23
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        秋霞午夜无码鲁丝片午夜精品| 韩国三级黄色一区二区| av日韩一区二区三区四区| 内射欧美老妇wbb| 日韩在线无| 日本精品人妻在线观看| 亚洲最新精品一区二区| 18黑白丝水手服自慰喷水网站| 最近中文av字幕在线中文| 亚洲国产一区二区三区在观看| 高清不卡日本v二区在线 | 欧美亚洲熟妇一区二区三区| 久久免费网国产AⅤ| 精品国产成人一区二区不卡在线| 成人麻豆视频免费观看| 久久天天躁狠狠躁夜夜2020一| 青青青爽国产在线视频| 西西少妇一区二区三区精品| 在线精品国产亚洲av蜜桃| ā片在线观看免费观看 | 手机在线看片国产人妻| 国产伦理一区二区| 精品视频入口| 99国语激情对白在线观看| 久久影院午夜理论片无码| 精品成人乱色一区二区| 色二av手机版在线| 亚洲综合在线观看一区二区三区| 欧美真人性野外做爰| 午夜免费福利在线观看| 国内激情一区二区视频| 人妻中文字幕在线网站| 久久亚洲av成人无码国产| 久久久9色精品国产一区二区三区| 开心久久综合婷婷九月| 亚洲第一se情网站| 91亚洲精品福利在线播放| 国产乱子伦一区二区三区国色天香| 国产精品泄火熟女| 国产激情久久99久久| 国产黄色一级大片一区二区|