摘要:在代謝組學(xué)現(xiàn)有數(shù)據(jù)分析方法的基礎(chǔ)上,引入了多元統(tǒng)計分析方法中的多元t檢驗、類間距計算、組內(nèi)離差平方和計算等統(tǒng)計方法。結(jié)合4個代謝組學(xué)研究實例,演示了新引入的統(tǒng)計方法的應(yīng)用。結(jié)果表明: 多元t檢驗可以解答應(yīng)激組和對照組的代謝組水平之間是否存在“系統(tǒng)差別”,類間距可以提供差別大小,組內(nèi)離差平方和可以提供離散程度等信息。這些新信息的獲取能對模式識別分析所得出的得分圖(Scores plot)作進(jìn)一步的解釋,并為后續(xù)實驗設(shè)計提供參考。
關(guān)鍵詞:代謝組學(xué); 模式識別; 多元統(tǒng)計分析; 顯著性檢驗;類間距; 離差平方和; 核磁共振
1引言
代謝組學(xué)是繼基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)后,生命科學(xué)研究領(lǐng)域出現(xiàn)的又一門新興組學(xué)技術(shù)[1],它為系統(tǒng)研究分子病理、基因功能和系統(tǒng)生物學(xué)提供了一種強有力的技術(shù)手段。
代謝組學(xué)通常以生物樣品(體液、組織提取物等)中的代謝物為檢測對象,以核磁共振(NMR)[2,3]、高效液相色譜(HPLC)[4]、質(zhì)譜(MS)[5]和傅立葉變換紅外光譜(FTIR)[6,7],以及色譜質(zhì)譜核磁共振聯(lián)用技術(shù)[8,9]等為檢測手段。由于生物樣品組成復(fù)雜[10],所獲得的各種譜圖中包含著海量信息,很難直觀地從譜中獲得全部有效信息。計算機技術(shù)的飛速發(fā)展使得快速分析、處理大量數(shù)據(jù)成為可能。代謝組學(xué)研究中最常用的數(shù)據(jù)分析方法是模式識別,包括非監(jiān)督的方法(如主成分分析(PCA))和監(jiān)督的方法(如偏最小二乘法(PLS)),及在此基礎(chǔ)上發(fā)展的優(yōu)化的方法, 如偏最小二乘法辨別分析(PLSDA)、正交偏最小二乘法辨別分析(OPLSDA)[11,12]等。
模式識別分析是將樣本投射到低維空間中,實現(xiàn)對數(shù)據(jù)的降維,從而使復(fù)雜的數(shù)據(jù)可視化。在該低維空間中,映射點分布的不同反映了樣本組成上的差異。因此,對于分布于低維(二維或者三維)的主成分空間中不同樣本的映射點之間是否存在顯著性差異的判別尤為重要。當(dāng)兩組樣本在空間中映射的分布區(qū)域相互靠近,甚至出現(xiàn)部分重疊時,僅憑主觀印象作出判斷很容易出現(xiàn)錯誤。在代謝組學(xué)研究中,外界刺激能同時引起體液或者生物組織中多種代謝物含量的變化, 這些變化通常是相互關(guān)聯(lián)、互相影響的,單一代謝物的統(tǒng)計變化特異性最差,不能正確、全面地反映整體的變化情況。要提高檢出率和特異性,需采用多種實驗方法對樣本進(jìn)行檢測, 并衡量組間差異和定量判別樣品分散程度。各組樣本的分散程度所反映的是樣本由于自身個體差異、對外來刺激響應(yīng)的個體差異、實驗儀器誤差、主觀數(shù)據(jù)處理等因素造成影響。對分散度的準(zhǔn)確描述將有助于評價實驗對象的選擇是否合適及個體差異的影響。
對于分布于二維或三維空間中點的位置需要用2個變量或3個變量描述,因此有必要引入多元統(tǒng)計分析方法,從而獲得更加豐富的數(shù)據(jù)信息,以此提高判斷的全面性、準(zhǔn)確性和科學(xué)性。本研究將多元統(tǒng)計分析中的多元t檢驗、類間距計算及組內(nèi)離差平方和計算等方法應(yīng)用到代謝組學(xué)研究中,期望能為判別低維空間中的兩組或多組點之間是否存在顯著性差異,量化存在顯著性差異的組間的差異大小、組內(nèi)樣本分散程度,提供客觀、準(zhǔn)確的判別方法。
2多元t檢驗、類間距和組內(nèi)離差平方和計算在代謝組學(xué)中的應(yīng)用
2.1多元t檢驗、類間距和組內(nèi)離差平方和計算在代謝組學(xué)中的實現(xiàn)過程
將多元t檢驗、類間距離計算及組內(nèi)離差平方和計算等多元統(tǒng)計方法引入代謝組學(xué)數(shù)據(jù)分析的過程: 第一步,對大量樣本的譜學(xué)數(shù)據(jù)(MS、NMR等)進(jìn)行模式識別處理(如PCA),得到二維或三維空間得分圖[13]。得分圖中每一個數(shù)據(jù)點對應(yīng)一個樣本,其坐標(biāo)值反映的是由原始代謝物重新線性組合后的2種或3種“新的代謝物”(主成分)的含量。第二步,以得分圖中提取的各個樣本的坐標(biāo)值為對象,進(jìn)行多元t檢驗,以此判斷組間是否存在顯著性差異。第三步,若組間存在顯著差異(p<0.05或p<0.01),計算兩組數(shù)據(jù)之間的歐氏(Euclidean)距離,得到的值即為類間距。通過比較類間距的大小,能夠?qū)Ρ炔煌瑢嶒灧桨笇κ茉噷ο蟮挠绊懗潭?。第四步,根?jù)Ward最小方差法的思想,計算各組數(shù)據(jù)的離差平方和,通過比較各組數(shù)據(jù)的離差平方和可以評價樣品的相對分散度。