亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于質(zhì)譜的代謝組學(xué)數(shù)據(jù)分析技術(shù)研究進展

        2023-01-13 08:40:44黃文潔吳紹文晏石娟
        廣東農(nóng)業(yè)科學(xué) 2022年11期
        關(guān)鍵詞:代謝物組學(xué)質(zhì)譜

        黃文潔,吳紹文,劉 蕊,孔 謙,晏石娟

        (1.廣東省農(nóng)業(yè)科學(xué)院農(nóng)業(yè)生物基因研究中心/廣東省農(nóng)作物種質(zhì)資源保存與利用重點實驗室,廣東 廣州 510640;2.梅州市農(nóng)林科學(xué)院果樹研究所,廣東 梅州 514071)

        自1999年Nichilson 等[1]首次提出“代謝組學(xué)”的概念后,代謝組學(xué)得到不斷發(fā)展,成為繼基因組學(xué)、轉(zhuǎn)錄組學(xué)和蛋白質(zhì)組學(xué)技術(shù)之后的又一門新興組學(xué)技術(shù)。代謝組學(xué)研究旨在通過核磁共振技術(shù)(Nuclear magnetic resonance,NMR)、質(zhì)譜技術(shù)(Mass spectrometry,MS)等分析手段對生物體內(nèi)特定條件下的所有內(nèi)源性代謝物(<1 000 u的小分子)進行全面定性和定量分析[2-3]。內(nèi)源代謝物通常是生物反應(yīng)的中間產(chǎn)物或最終產(chǎn)物,處于不斷變化的過程,因此,代謝組學(xué)比其他組學(xué)方法更能直接地反映細胞、組織或生物體的表型信息。

        質(zhì)譜分析技術(shù)可以實現(xiàn)對生物流體、細胞和組織中數(shù)千個代謝物的高通量檢測,具有分析速度快、靈敏度高、檢測代謝物種類覆蓋范圍廣等優(yōu)點,且隨著高分辨質(zhì)譜技術(shù)的迅速發(fā)展,高精確度的離子質(zhì)量更有助于提高代謝物的鑒定能力,因此,該技術(shù)已成為代謝組研究中不可或缺的工具。其中,氣相色譜-質(zhì)譜聯(lián)用(Gas chromatography-mass spectrometry,GC-MS)、液相色譜-質(zhì)譜聯(lián)用(Liquid chromatography-mass spectrometry,LC-MS)技術(shù)是目前代謝組學(xué)研究中應(yīng)用最廣泛的質(zhì)譜分析技術(shù)[4]。GC-MS 適用于熱穩(wěn)定、易揮發(fā)或經(jīng)衍生化后具有揮發(fā)性的代謝物,如氨基酸、糖類、有機酸和脂肪酸等初級代謝物[5-8],且不受復(fù)雜樣品的基質(zhì)效應(yīng)干擾,在定性分析方面具有通用的質(zhì)譜數(shù)據(jù)庫。LC-MS 具有更全面和強大的分析能力,結(jié)合不同的離子源、電離模式和色譜柱等條件進行分析,可以在不需要復(fù)雜的樣品預(yù)處理的情況下分離和鑒定樣品中更多種類的代謝物,適用于熱不穩(wěn)定、不易揮發(fā)、相對分子質(zhì)量較大的物質(zhì),如脂質(zhì)、類黃酮、生物堿、類胡蘿卜素、苯丙素類等代謝物[6,9]。近年來,基于質(zhì)譜的代謝組學(xué)研究被廣泛用于解決生物學(xué)研究中的重要問題,包括解析復(fù)雜生物合成途徑的代謝調(diào)控,探索控制農(nóng)作物重要性狀形成的分子機制,解析包括進化和馴化綜合征在內(nèi)的植物遺傳學(xué),以及對生物或非生物應(yīng)激的代謝反應(yīng)等[10]。

        基于質(zhì)譜的代謝組學(xué)分析技術(shù)包括代謝組學(xué)樣本前處理、質(zhì)譜數(shù)據(jù)采集、代謝組學(xué)數(shù)據(jù)預(yù)處理、代謝組學(xué)數(shù)據(jù)統(tǒng)計分析、代謝途徑富集分析以及未知代謝物鑒定等主要步驟。如何通過數(shù)據(jù)分析方法從采集到的質(zhì)譜原始數(shù)據(jù)中提取代謝物離子、獲得代謝物的含量信息、提高代謝物鑒定效率,找出具有生物學(xué)意義的信息是代謝組學(xué)研究的關(guān)鍵環(huán)節(jié)[11]。前期我們圍繞基于質(zhì)譜的代謝組學(xué)技術(shù)發(fā)展歷程、工作流程以及其在植物、腸道微生物研究中的應(yīng)用進展進行了系統(tǒng)的闡述[12-15]。本文將重點圍繞基于質(zhì)譜的代謝組學(xué)數(shù)據(jù)分析技術(shù)展開綜述,包括數(shù)據(jù)分析策略、數(shù)據(jù)分析軟件和算法、數(shù)據(jù)庫構(gòu)建等方面。

        1 質(zhì)譜原始數(shù)據(jù)的預(yù)處理

        原始質(zhì)譜數(shù)據(jù)包含質(zhì)荷比(Mass-to-charge ratios,m/z)、保留時間(Retention time,RT)和峰強度(Peak intensity)等多維數(shù)據(jù)[16],涵蓋了樣本中實際代謝物的信息、試劑中雜質(zhì)和儀器殘留等噪音的質(zhì)譜碎片特征。因此,對原始質(zhì)譜數(shù)據(jù)進行預(yù)處理以獲取準確、可靠的代謝物特征的信息,消除隨機誤差(噪音)和其他干擾因素的影響,能夠保障下游數(shù)據(jù)分析和信息挖掘的準確性[17]。質(zhì)譜數(shù)據(jù)預(yù)處理主要包括峰提取、峰對齊和歸一化等主要步驟。目前代謝組學(xué)研究群體常用的一些質(zhì)譜數(shù)據(jù)預(yù)處理分析軟件及其功能介紹見表1。

        表1 質(zhì)譜數(shù)據(jù)預(yù)處理常用軟件Table 1 Common software for mass spectrometry data pre-processing

        1.1 LC/GC-MS 數(shù)據(jù)預(yù)處理

        XCMS 是LC-MS 數(shù)據(jù)預(yù)處理最常用的軟件之一,它是基于R 語言開發(fā)的,針對不同類型的質(zhì)譜數(shù)據(jù)建立了不同的特征峰檢測和峰對齊算法,也適合于GC-MS 數(shù)據(jù)預(yù)處理。XCMS 可以實現(xiàn)質(zhì)譜數(shù)據(jù)過濾、峰識別、峰提取、峰對齊和定量等功能,但在分析大規(guī)模樣品時比較耗時。此外,XCMS 可以與其他R 包如ggplot2、prcomp 和heatmap2 等,整合進行多變量統(tǒng)計分析、聚類分析等[18]。最新開發(fā)的XCMS Online是XCMS 的網(wǎng)頁版本,支持多種實驗方案數(shù)據(jù)分析,還可進行單變量分析、多變量分析等統(tǒng)計分析以及代謝途徑富集分析[19]。Lommen[20]開發(fā)了MetAlign 軟件,可用于GC-MS 和LC-MS 數(shù)據(jù)預(yù)處理,支持數(shù)據(jù)格式自動轉(zhuǎn)換、計算精確的質(zhì)量數(shù)、基線校正、峰提取、濾噪及超1 000 個數(shù)據(jù)集的峰對齊,該軟件的缺點也是在大規(guī)模數(shù)據(jù)分析中比較耗時。此外,還有不少軟件可同時兼顧GC-MS 和LC-MS 質(zhì)譜數(shù)據(jù)的預(yù)處理,如Normalyzer[21]、RUV-2[22]、NOREVA[23]軟件可適用于GC-MS 和LC-MS 質(zhì)譜數(shù)據(jù)的歸一化處理;MetTailor[24]、MetDIA[25]、TracMass 2[26]、MetFlow[27]、IP4M[28]、WiPP(Workflow for improved peak picking)[29]等軟件適用于濾噪、峰提取和峰對齊。

        1.2 LC-MS 數(shù)據(jù)預(yù)處理

        Pluskal 等[30]開發(fā)了一個基于Java 的開源LC-MS 質(zhì)譜數(shù)據(jù)分析工具MZmine2,它可以實現(xiàn)數(shù)據(jù)的批處理和結(jié)果可視化,具有代謝組數(shù)據(jù)的峰提取、濾噪、解卷積、譜峰匹配和標準化等預(yù)處理功能。R?st 等[31]開發(fā)了一個基于C++編寫的開源軟件OpenMS,提供了185 個工具和現(xiàn)成的工作流程用于LC-MS 質(zhì)譜數(shù)據(jù)處理、可視化和定量分析,該軟件為用戶提供了高度靈活和專業(yè)的軟件環(huán)境,以減少數(shù)據(jù)處理過程中出現(xiàn)潛在的錯誤分析。Tsugawa 等[32]開發(fā)了一款專門用于解決數(shù)據(jù)非依賴采集(Data independent acquisition,DIA)LC-MS 數(shù)據(jù)解卷積的軟件MS-DIAL,該軟件兼具有濾噪、峰提取、峰對齊、歸一化等功能。Delabriere 等[33]開發(fā)了一款用于分析大規(guī)模代謝組學(xué)和脂質(zhì)組學(xué)LC-MS 數(shù)據(jù)的軟件SLAW,該軟件具有程序參數(shù)自動優(yōu)化、峰提取、峰對齊、缺值填充、MS2 離子碎片信息提取和同位素模式識別等功能。Guo 等[34]開發(fā)了一個多功能的代謝組數(shù)據(jù)分析R 語言包JPA,提供全面系統(tǒng)的代謝物特征提取和注釋功能,其不僅可以直接從LC-MS原始數(shù)據(jù)中提取代謝物特征信息,而且還從其他數(shù)據(jù)處理軟件(如XCMS、MS-DIAL、MZmine 2)處理的結(jié)果中對代謝物特征信息做進一步的提取。由于背景噪音、重復(fù)峰或污染會導(dǎo)致前處理后的數(shù)據(jù)存在假陽性色譜峰,因此還有一些功能相對專一的軟件如ApLCMS[35]、質(zhì)譜特征列表優(yōu)化器(Mass Spectral Feature List Optimizer,MS-FLO)[36]、CPVA[37]被開發(fā)并應(yīng)用于消除假陽性色譜峰,其中近期報道的Peakonly 是一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的深度機器學(xué)習(xí)算法平臺,用于檢測LC-MS 原始質(zhì)譜數(shù)據(jù)的真實陽性色譜峰,該算法在檢測或排除低強度噪聲峰值方面具有較高的靈活性,對真實陽性色譜峰的檢測精度非常高[38]。還有不少軟件被開發(fā)用于LC-MS 質(zhì)譜數(shù)據(jù)的濾噪、峰提取、峰對齊等,如peakPantheR[39]、DecoID[40]、Galaxy-M[41]、SPICA[42]、MET-COFEI[43]等。

        1.3 GC-MS 數(shù)據(jù)預(yù)處理

        由于LC-MS 和GC-MS 兩種方法在電離模式、色譜分離、數(shù)據(jù)采集等方面都存在顯著差異,因此,也有一些專門適用于GC-MS 質(zhì)譜數(shù)據(jù)分析的軟件。AMDIS 是GC-MS 質(zhì)譜數(shù)據(jù)預(yù)處理最常用軟件之一。該軟件可以有效克服GC-MS 定性分析中基質(zhì)效應(yīng)和共洗脫效應(yīng)的干擾,是一款功能強大的解卷積軟件,自動完成峰濾噪、峰提取并利用GC-MS 數(shù)據(jù)庫完成譜圖檢索匹配[44]。Hiller 等[45]開發(fā)了一款針對GC-MS 數(shù)據(jù)開展有效峰提取和峰鑒定的軟件MetaboliteDetector,該軟件提供了一個交互式用戶界面,以便沒有經(jīng)驗的用戶也可以輕易使用;同時,該軟件還通過計算未知化合物的KI 與正構(gòu)烷烴混合物的保留指數(shù)進行比對實現(xiàn)對未知化合物的準確定性。Ni等[46]開發(fā)了一個基于質(zhì)譜碎片離子分層聚類的解卷積算法平臺ADAP-GC,具有峰提取、峰對齊等一系列數(shù)據(jù)處理功能,并且隨著該平臺的更新,最新版本ADAP-GC 4.0 對代謝物峰檢測的靈敏度、準確性和穩(wěn)定性方面都有所提升[47]。Domingo-almenara 等[48]開發(fā)了一個集成的R 語言方法包eRah,它包含了一種基于盲源分離(blind source separation,BSS)的多變量技術(shù)的色譜解卷積方法,具有樣品峰提取、峰對齊、定量和利用譜圖數(shù)據(jù)庫實現(xiàn)代謝物的自動識別的功能。最近報道的QPMASS 軟件,可以適用于大批量的GC-MS數(shù)據(jù)分析的軟件,實現(xiàn)樣品分組、峰提取、峰對齊、定量離子選擇、缺失值過濾和填充等功能,使峰鑒定的假陽性和假陰性誤差大大降低,其誤差小于5%[49]。由于質(zhì)譜檢測的代謝物的相對強度或濃度存在數(shù)量級的差異,為了消除極限值數(shù)據(jù)在統(tǒng)計分析過程中忽略具有重要生物學(xué)意義但含量較低的代謝物的情況,在數(shù)據(jù)分析過程中需要減少極限值造成的誤差。因此,在數(shù)據(jù)預(yù)處理后需要對數(shù)據(jù)進行歸一化處理(normalization)或標度化(scaling)和數(shù)據(jù)轉(zhuǎn)換等進一步的處理,系列軟件被專門開發(fā)用于數(shù)據(jù)歸一化處理,包括歸一化自動編碼器(Normalization Autoencoder,NormAE)[50]、MetTailor[24]、Normalyzer[21]、EigenMS[51]、MSPrep[52]等。此外還有很多軟件在被開發(fā)用于GC-MS 質(zhì)譜數(shù)據(jù)的濾噪、峰提取、峰對齊等,如TagFinder[53]、MetaQuant[54]、PyMS[55]、MetaMS[56]、Maui-VIA[57]、GC2MS[58]等。

        2 代謝組學(xué)數(shù)據(jù)分析

        2.1 統(tǒng)計分析

        采集的質(zhì)譜原始數(shù)據(jù)通過濾噪、解卷積、峰識別、峰提取、峰對齊,歸一化和缺失值填充等預(yù)處理后,形成的數(shù)據(jù)矩陣可用于進一步的數(shù)據(jù)統(tǒng)計分析。代謝組學(xué)數(shù)據(jù)統(tǒng)計分析主要分為單變量統(tǒng)計分析和多維統(tǒng)計分析,單變量統(tǒng)計分析包括相關(guān)性分析,例如皮爾森相關(guān)性系數(shù)、斯皮爾曼相關(guān)性系數(shù)、方差分析(ANOVA)和t-test 檢驗分析等;多維統(tǒng)計分析又可分為非監(jiān)督模式識別方法和監(jiān)督模式識別方法兩大類,非監(jiān)督模式識別方法包括主成分分析(Principal component analysis,PCA)、自組織投影(Selforganizingmap,SOM)、聚類分析(Hierarchical cluster analysis,HCA),監(jiān)督模式識別方法包括偏最小二乘法(Partial least squares,PLS)、偏最小二乘法-顯著性分析聯(lián)合法(Partial least squares-discriminant analysis,PLS-DA)、人工神經(jīng)網(wǎng)絡(luò)(Artificial neural network,ANN)、線性判別分析法(Linear discrimination analysis,LDA)、隨機森林(Random forest,RF)和支持向量機法(Support vector machine,SVM)等[4,16],其中PCA 和PLS-DA 是目前代謝數(shù)據(jù)分析中使用最廣泛的方法。SIMCA-P 是一個功能強大、可實現(xiàn)多元變量統(tǒng)計分析的商業(yè)軟件,將數(shù)據(jù)轉(zhuǎn)換成可視化信息,并應(yīng)用于鑒定生物標志物和尋找差異代謝物等[59]。CV-ANOVA 是基于交叉驗證預(yù)測殘差建立PLS 和OPLS 模型并進行方差分析,其優(yōu)勢是可以將交互驗證的結(jié)果以統(tǒng)計學(xué)意義的p值展現(xiàn)出來,但該方法對于小樣本集的檢驗效果較差[60]。MetabR 使用線性混合模型對數(shù)據(jù)進行歸一化處理然后采用方差分析ANOVA 檢驗分析效果[61]。相比之下,種群模型分析-隨機森林(Model population analysis-random forest,MPA-RF)是將隨機森林與種群模型分析相結(jié)合,用于選擇差異代謝物信息[62]。Metabomxtr 通過建立混合分析模型處理代謝物缺失值的問題[63]。許多通用的統(tǒng)計軟件能夠執(zhí)行常規(guī)的統(tǒng)計分析功能,但也有不少軟件將其他代謝組學(xué)數(shù)據(jù)分析功能整合到同一個工作流程中,如Metabololyzer[64]、metaPServer[65]、MSPrep[52]等。

        2.2 代謝途徑富集分析

        富集分析是通過超幾何分布檢驗(Hypergeometric test)或 Fisher 精確概率法建立統(tǒng)計模型分析數(shù)據(jù)中差異代謝物在各個生物通路中的富集情況,以此來幫助識別和解釋其生物學(xué)功能。Xia 等[66]開發(fā)了第一個小分子富集分析軟件MSEA(Metabolite set enrichment analysis),它通過識別和解釋代謝產(chǎn)物濃度變化模式來幫助研究人員注釋代謝物的生物學(xué)意義,該方法的關(guān)鍵是通過構(gòu)建分布于各個代謝途徑上的1 000種具有相關(guān)性的代謝物數(shù)據(jù)庫進行富集分析,MSEA 可為代謝組學(xué)研究提供過表達分析(Over representation analysis,ORA)、單樣本分析(Single sample profiling,SSP)和定量富集分析(Quantitative enrichment analysis,QEA)3 種不同的富集分析。由于MSEA 分析過程中常常對重疊代謝物集的權(quán)重分配不當而導(dǎo)致假陽性率較高,因此Deng 等[67]提出了一種偏最小二乘擴展模型,用于解決重疊代謝物集的富集分析假陽性高的問題,稱為ogPLS 分 析(Overlapping group PLS),將ogPLS模型的權(quán)重向量分解為代謝通路特異性子向量,從而再重新分配重疊代謝物的權(quán)重。以上兩種方法相比,ogPLS 方法具有較高的準確率、較低的假陽性率和更好的穩(wěn)定性,適用于重疊代謝物集分析。Moreno 等[68]開發(fā)了一個基于ChEBI(Chemical entities of biological interest)實體小分子數(shù)據(jù)庫進行富集分析的工具BiNChE,該工具提供基于ChEBI 角色實體(ChEBI Role Ontology)或ChEBI 結(jié)構(gòu)實體(ChEBI Structural Ontology)的簡單的加權(quán)和片段分析,有助于探索代謝組學(xué)或其他系統(tǒng)生物學(xué)研究背景下產(chǎn)生的大量小分子,分析結(jié)果以交互式圖形展示,并可導(dǎo)出為高分辨率圖像或網(wǎng)絡(luò)格式圖片。MetaboAnalyst4.0 經(jīng)過近10 年的發(fā)展已經(jīng)成為代謝組學(xué)分析中使用最廣泛的平臺(30 萬用戶)之一,支持LC-MS 原始質(zhì)譜數(shù)據(jù)預(yù)處理、數(shù)據(jù)歸一化、統(tǒng)計分析、代謝通路富集分析等,旨在實現(xiàn)代謝組學(xué)的高通量分析,并縮小從原始數(shù)據(jù)到生物學(xué)見解之間的距離[69]。

        2.3 代謝物鑒定

        2.3.1 基于數(shù)據(jù)庫檢索的代謝物鑒定 代謝物鑒定是基于質(zhì)譜的代謝組學(xué)研究中最具挑戰(zhàn)性的步驟,代謝物鑒定的準確性在很大程度上取決于準確質(zhì)量數(shù)、質(zhì)譜譜圖、離子碎裂模式、保留時間等信息?;跀?shù)據(jù)庫檢索的代謝物鑒定方法是最傳統(tǒng)的方法,代謝物鑒定的常用數(shù)據(jù)庫見表2。

        表2 代謝物鑒定常用數(shù)據(jù)庫Table 2 Common databases for metabolites identification

        NIST 數(shù)據(jù)庫是譜庫檢索中應(yīng)用最廣泛的質(zhì)譜譜圖數(shù)據(jù)庫之一,可以用于譜庫檢索以識別GC-MS 和LC-MS 質(zhì)譜中的未知化合物。NIST 數(shù)據(jù)庫包含有多個碰撞能級采集的二級(MS/MS)質(zhì)譜圖、不同加合離子的質(zhì)譜圖、化合物名稱、分子式和CAS 號等信息[70]。HMDB 包含關(guān)于人體小分子代謝物的詳細信息,截至2022 年9 月該數(shù)據(jù)庫包含220 945 個水溶性和脂溶性代謝物信息,同時還有DrugBank、T3DB、SMPDB 和Food DB 4 個子數(shù)據(jù)庫可應(yīng)用于藥物、藥物代謝物、毒素、環(huán)境污染物、人類疾病相關(guān)代謝物和食物方面的研究[71]。GNPS 是一個利用分子網(wǎng)絡(luò)構(gòu)建天然產(chǎn)物數(shù)據(jù)庫,具有代謝組學(xué)數(shù)據(jù)分析功能,其涵蓋了Massbank、HMDB、NIST 等第三方數(shù)據(jù)庫的信息,以及實驗室采集的化合物譜圖和全球多個科研社團提供的質(zhì)譜數(shù)據(jù)庫,實現(xiàn)MS/MS 質(zhì)譜數(shù)據(jù)共享功能[72]。METLIN 是另一個被廣泛使用的高分辨質(zhì)譜數(shù)據(jù)庫,涵蓋了不同碰撞能級和正/負模式條件下采集的MS/MS 圖譜,可以找到代謝產(chǎn)物的碎片離子、其來自標準品及其穩(wěn)定同位素標記的類似物生成的譜圖,在未知物的鑒定過程中起著關(guān)鍵作用[73]。MassBank 數(shù)據(jù)庫包含了來自不同實驗室、不同儀器型號以及不同質(zhì)譜參數(shù)條件下采集的多級質(zhì)譜數(shù)據(jù)用于代謝物鑒定代謝物,該數(shù)據(jù)庫可以通過化學(xué)名稱、質(zhì)量數(shù)、質(zhì)荷比m/z 和分子式進行搜索,截至2022 年9 月數(shù)據(jù)庫涵蓋了15 075 個代謝物的90 190 個質(zhì)譜數(shù)據(jù),其中有68 941 個二級質(zhì)譜圖,對化合物鑒定非常有用[74]。GMD 是一個植物代謝物數(shù)據(jù)庫,含有大量的植物代謝產(chǎn)物的GC-MS圖譜(特別是衍生化后的),用戶可以導(dǎo)入樣品的GC-MS 數(shù)據(jù)進行搜索比對和鑒定。該數(shù)據(jù)庫僅收錄植物的代謝組,并含有部分代謝產(chǎn)物在植物中的濃度信息[75]。ReSpect 是另一個植物代謝物數(shù)據(jù)庫,包括文獻記錄以及真實標準品的MS/MS數(shù)據(jù)[76]。針對脂類物質(zhì),Lipid Maps 是一個包含生物相關(guān)脂質(zhì)結(jié)構(gòu)和注釋的數(shù)據(jù)庫,截至2022 年9 月包含了47 718 種獨特的脂質(zhì)結(jié)構(gòu),是世界上最大的脂質(zhì)公共數(shù)據(jù)庫。支持通過脂質(zhì)類別、常用名、系統(tǒng)命名、分子量、InChIKey 命名或Lipid Map 編號進行檢索[77]。此外,還有一些常見的基于化合物譜庫(譜圖)信息建立的數(shù)據(jù)庫,如MetaboLights[78]、PubChem[79]、mzCloud[80]、Fiehn[81]、MoNA[82]、LipidIMMS Analyzer[83]等。

        盡管從上述數(shù)據(jù)庫中通過圖譜匹配可以鑒定非常多的代謝物,但仍有許多代謝物由于缺乏標準品MS/MS 圖譜而難以鑒定出來。因此,基于代謝途徑而開發(fā)的數(shù)據(jù)庫應(yīng)運而生。KEGG 是最重要的生物信息學(xué)數(shù)據(jù)庫之一,涵蓋了代謝通路和整合代謝、基因和蛋白通路的信息。截至2022年10 月9 日,KEGG 數(shù)據(jù)庫含有558 條代謝通路和18 991 個代謝產(chǎn)物和化學(xué)結(jié)構(gòu)信息,通過對生物代謝物分子的相互作用和反應(yīng)網(wǎng)絡(luò)實現(xiàn)對代謝物的注釋[84]。MetaCyc 是一個包含了初級和次級代謝物途徑的數(shù)據(jù)庫,其中收集了來自3 000 多種生物近2 800 個代謝通路[85]。PlantCyc 9.5 數(shù)據(jù)庫(https://plantcyc.org/databases/plantcyc/9.5)提供超過350 種植物和800 條代謝通路信息,包含代謝通路、催化的酶和基因,以及各種植物代謝物,同時整合了各種植物代謝通路數(shù)據(jù)庫,包括MetaCyc 數(shù)據(jù)庫中所有的植物代謝通路。WikiPathways 包含30 多個物種的代謝通路,如水稻(Oryza sativa)、玉米(Zea mays)等[86]。

        2.3.2 基于分子網(wǎng)絡(luò)技術(shù)的代謝物鑒定 2012年,Watrous 等[87]首次開發(fā)了分子網(wǎng)絡(luò)方法用于代謝物鑒定,是基于質(zhì)譜的代謝組學(xué)數(shù)據(jù)分析的一個突破性進展,這一方法通過MS/MS 譜圖對比,構(gòu)建以譜圖為節(jié)點、譜圖相似性為邊線的網(wǎng)絡(luò),從而進行代謝物的注釋。分子網(wǎng)絡(luò)方法能夠有效地利用已有數(shù)據(jù),如GNPS 中集成的大規(guī)模代謝組學(xué)、分子網(wǎng)絡(luò)數(shù)據(jù)集,從而增強對代謝物的注釋能力[72]。目前,已有許多先進的分子網(wǎng)絡(luò)工具被開發(fā)并應(yīng)用于LC-MS/MS 數(shù)據(jù)分析和代謝物的注釋。例如,在對復(fù)雜生物基質(zhì)進行分析時,首先指認出提取物中的已知化合物(即去重復(fù))被認為是未知代謝物鑒定的關(guān)鍵步驟。Allard等[88]提出了一種分子網(wǎng)絡(luò)和天然產(chǎn)物模擬MS/MS 碎片數(shù)據(jù)庫(in-silico MS/MS database,ISDB)相結(jié)合的去重復(fù)策略,并使用這一策略分析了植物和真菌提取物,結(jié)果表明模擬MS/MS 碎片數(shù)據(jù)庫能夠有效地幫助分子網(wǎng)絡(luò)中節(jié)點的注釋?;诮Y(jié)構(gòu)相似性的分子網(wǎng)絡(luò)也被應(yīng)用于提高模擬碎片峰預(yù)測的準確性,從而增強其注釋能力[89]。

        針對天然產(chǎn)物的鑒定,Mohimani 等[90-91]使用去重復(fù)的策略開發(fā)了DEREPLICATOR和DEREPLICATOR+算法。這兩種算法中,DEREPLICATOR 通過將分子網(wǎng)絡(luò)用于多肽匹配譜圖的搜索,實現(xiàn)了已知多肽天然產(chǎn)物新變體的可變?nèi)ブ貜?fù),并允許對網(wǎng)絡(luò)中的譜圖所代表的多肽結(jié)構(gòu)相關(guān)性提出假設(shè)。經(jīng)測試,在GNPS分子網(wǎng)絡(luò)平臺中搜索近1 億個串聯(lián)質(zhì)譜后,DEREPLICATOR 能夠鑒定的多肽天然產(chǎn)物及其新變體的數(shù)量相比于以往的去重復(fù)策略有數(shù)量級的提升[90]。由于這一方法只能鑒定多肽天然產(chǎn)物,作者又開發(fā)了DEREPLICATOR+算法,將上述策略拓展于聚酮化合物、萜烯、苯類、生物堿、類黃酮等天然產(chǎn)物的鑒定,在GNPS 分子網(wǎng)絡(luò)平臺中搜索近2 億個串聯(lián)質(zhì)譜的結(jié)果顯示DEREPLICATOR+能夠鑒定的分子數(shù)相比于以往的方法提高了5 倍[91]。

        上述分子網(wǎng)絡(luò)以及結(jié)合ISDB 的方法使用已知標準品或者模擬得到的碎片離子譜圖庫來鑒定代謝物,然而碎片離子譜圖包含的與生物化學(xué)特征相關(guān)的信息卻被忽略了。為此,Van der Hooft等[92]研究組開發(fā)了MS2LDA,一種無監(jiān)督的分析方法,這一方法通過在碎片數(shù)據(jù)中提取生物化學(xué)相關(guān)的分子亞結(jié)構(gòu),并作為共同出現(xiàn)的分子片段和中性丟失碎片峰的集合(Mass2Motifs),然后使用分子共享的亞結(jié)構(gòu)進行分組,再根據(jù)這些亞結(jié)構(gòu)來推定新的結(jié)構(gòu)注釋。使用MS2LDA 分析4 種啤酒提取物的結(jié)果表明,在沒有訓(xùn)練數(shù)據(jù)的情況下,使用30 個結(jié)構(gòu)表征的Mass2Motifs能夠注釋的分子數(shù)為傳統(tǒng)庫匹配方式的3 倍。為了整合分子網(wǎng)絡(luò)、生物化學(xué)特征和模擬碎片峰等多種來源的結(jié)構(gòu)信息,以增強從不同數(shù)據(jù)集中提取化學(xué)信息的能力,Ernst 等[93]開發(fā)了MolNetEnhancer 以提供代謝組學(xué)數(shù)據(jù)的更全面的化學(xué)概述,并闡明每個碎片峰的結(jié)構(gòu)細節(jié),4 個植物和細菌的研究案例顯示MolNetEnhancer 能夠通過組合多個獨立的分析流程來幫助研究者解讀代謝組學(xué)數(shù)據(jù)。

        此外,一些新的策略被整合到分子網(wǎng)絡(luò)分析中。例如,通過整合高分辨率同位素模式分析和碎片峰樹(Fragmentation trees),SIRIUS 4 能夠完成大型MS/MS 數(shù)據(jù)集的分子結(jié)構(gòu)評估,并通過分子網(wǎng)絡(luò)傳播注釋[94]。結(jié)合貝葉斯統(tǒng)計和Gibbs采樣,Ludwig 等[95]建立了一種不依賴數(shù)據(jù)庫的分子式注釋方法ZODIAC,通過構(gòu)建一個相對更小的相關(guān)化合物網(wǎng)絡(luò),其運算速度提升了25 倍?;诖x反應(yīng)網(wǎng)絡(luò)的遞歸算法,Shen 等[96]開發(fā)了一種使用MS/MS 譜圖來表征初始種子代謝物,并利用其實驗得到的MS/MS 譜圖作為替代譜圖來注釋其反應(yīng)配對的領(lǐng)近代謝物的方法MetDNA。Beauxis 等[97]則整合MS/MS 譜圖、GNPS 中的分子網(wǎng)絡(luò)、化學(xué)反應(yīng)庫和MS/MS 譜圖預(yù)測等信息開發(fā)了MetWork。一個比較大的進步是基于特征的分子網(wǎng)絡(luò)方法(Feature-based molecular networking,FBMN)的開發(fā),相比于傳統(tǒng)的方法,F(xiàn)BMN 整合了相對定量和離子淌度數(shù)據(jù),從而實現(xiàn)了對同分異構(gòu)體的分辨和分析[98]。另外,Tripathi 等[99]提出了一種從碎片峰譜圖預(yù)測分子指紋的分層組織策略Qemistree,這一方法可使用描述樣本信息的元數(shù)據(jù)和化學(xué)本體來表示質(zhì)譜數(shù)據(jù),通過將分子關(guān)系表示為樹,實現(xiàn)了使用基于系統(tǒng)發(fā)育的工具來分析代謝組學(xué)數(shù)據(jù)。

        近年來,色譜和一級質(zhì)譜信息(MS1)也被用于分子網(wǎng)絡(luò)分析,以進一步開發(fā)高效的代謝物注釋和鑒定方法。例如,Chen 等[100]開發(fā)了一種全局網(wǎng)絡(luò)優(yōu)化方法NetID 來注釋非靶向代謝組學(xué)數(shù)據(jù),這一方法根據(jù)對應(yīng)于相關(guān)化學(xué)分子增減的MS1 質(zhì)量差異和MS/MS 譜圖的相似性來進行網(wǎng)絡(luò)的全局優(yōu)化。將此方法應(yīng)用于酵母和小鼠數(shù)據(jù)的分析,作者鑒定到5 種以前未識別的代謝產(chǎn)物。另外,在電離過程中,分子通常會形成具有不同碎裂行為的多種離子,而在傳統(tǒng)的分子網(wǎng)絡(luò)中這些離子的碎片峰通常不相連,導(dǎo)致相同類別的化合物的分子網(wǎng)絡(luò)冗余且不相連。為了克服這一瓶頸,Schmid 等[101]開發(fā)了一種離子識別分子網(wǎng)絡(luò)算法(Ion identity molecular networking,IIMN),將色譜峰形狀的相關(guān)性分析整合到分子網(wǎng)絡(luò)中,以連接和折疊同一分子的不同離子種類。此外,Senan 等[102]還建立了一種復(fù)雜生物樣品和純化合物共洗脫曲線的相似性網(wǎng)絡(luò)結(jié)合計算得到的加合物形成的自然頻率,對冗余的MS1 特征進行注釋,從而為單個化合物提供準確注釋的方法CliqueMS。近期,Zhou 等[103]更是進一步開發(fā)了知識引導(dǎo)的多層網(wǎng)絡(luò)算法(Knowledge-guided multi-layer network,KGMN),KGMN 使用基于知識的代謝反應(yīng)網(wǎng)絡(luò)、知識引導(dǎo)的MS/MS 相似性網(wǎng)絡(luò)和全局峰相關(guān)網(wǎng)絡(luò),實現(xiàn)了未知代謝物的有效注釋??偟膩碚f,通過多種實驗數(shù)據(jù)、計算方法和分子網(wǎng)絡(luò)算法的整合,實現(xiàn)了相對有效和準確的代謝物注釋,具有廣泛的應(yīng)用前景。常見的用于分子網(wǎng)絡(luò)鑒定的軟件見表3。

        表3 基于分子網(wǎng)絡(luò)的代謝物鑒定相關(guān)軟件Table 3 Software for molecular networking-based metabolite identification

        2.3.3 基于其他技術(shù)的代謝物鑒定 盡管基于或整合分子網(wǎng)絡(luò)的工具在代謝組學(xué)數(shù)據(jù)分析方面非常流行、通用且高效,但構(gòu)建的網(wǎng)絡(luò)依賴于分析參數(shù),且沒有保留對譜圖相似性的全局分析。因此,一些基于降維和機器學(xué)習(xí)的分組方法被應(yīng)用于質(zhì)譜數(shù)據(jù)的分析,以提供分子網(wǎng)絡(luò)中無法獲得的信息,有望進一步提高代謝物注釋的能力。例如,Bittremieux 等[104]提出了一種快速譜圖相似性搜索方法Falcon,能夠?qū)?shù)百萬MS/MS 譜圖進行有效的聚類和分組。傳統(tǒng)的計算方法通常使用譜圖相似性作為分子結(jié)構(gòu)相似性的度量,兩種指標的相關(guān)性制約了分析方法的有效性。為了解決這一問題,Huber 等[105]開發(fā)了一種孿生神經(jīng)網(wǎng)絡(luò)算法MS2DeepScore,這一方法實現(xiàn)了根據(jù)兩個化學(xué)結(jié)構(gòu)的MS/MS 譜圖來預(yù)測其結(jié)構(gòu)相似性。Falcon 和MS2DeepScore 是兩種大規(guī)模MS/MS 譜圖比較和分析的強大工具,被認為在代謝組學(xué)數(shù)據(jù)分析和注釋方面具有較大潛力。此外,機器學(xué)習(xí)算法也被應(yīng)用于預(yù)測色譜保留時間,以增強其在代謝物注釋中的可用性。García 等[106]將多種機器學(xué)習(xí)算法應(yīng)用于預(yù)測色譜保留時間并整合到代謝物注釋的流程中,以獲得候選注釋的Z-cores,實驗測試結(jié)果顯示68%的正確注釋出現(xiàn)在按質(zhì)量過濾并按Z-cores 排序的前3 個候選分子中,表明其對支持代謝物注釋的有效性。而針對模擬譜圖無法區(qū)分正確和錯誤注釋的問題,Hoffmann等[107]近期開發(fā)了一種模擬譜圖數(shù)據(jù)庫的生成、注釋和置信度評分相結(jié)合的方法COSMIC(Confidence of small molecule identifications),這一方法庫搜索的注釋錯誤率更低,并實現(xiàn)了多個未知結(jié)構(gòu)的天然膽汁酸的準確注釋。

        除了上述數(shù)據(jù)分析方法,全面、自動化和可重復(fù)的代謝組學(xué)分析流程對于準確有效的化合物注釋也至關(guān)重要。為此,Shen 等[108]首先開發(fā)了一個基于LC-MS 數(shù)據(jù)進行自動化合物注釋的R包metID。metID 結(jié)合了所有主要數(shù)據(jù)庫的信息,是一個靈活、簡單、強大的工具,可以安裝在所有平臺上。使用metID 分析一個已發(fā)表案例數(shù)據(jù)的結(jié)果顯示其不僅完成了發(fā)表論文中所有的463個代謝物的注釋,還注釋了479 個新的代謝物[98]。基于這一工具,作者又進一步開發(fā)了面向?qū)ο蟮挠嬎憧蚣躎idyMass,實現(xiàn)了基于LC-MS 的非靶向代謝組學(xué)數(shù)據(jù)處理和分析的可追溯、可共享和可重復(fù)[109]。另外,Yu 等[110]提出了一種自動化的、全面且無統(tǒng)計模型的工作流程PMDDA(Paired mass distance-dependent analysis),這一流程根據(jù)MS1 的特征進行全面的MS/MS 數(shù)據(jù)采集,實現(xiàn)了更多化合物的注釋。

        總的來說,目前已經(jīng)研發(fā)了很多新的代謝組學(xué)數(shù)據(jù)分析和注釋工具,大大促進了這一領(lǐng)域的發(fā)展。同時,大量的新型工具也使得用戶很難判斷其適用性,盡管開發(fā)者通常會將其研發(fā)的工具與其他方法進行比較,但目前仍然缺少標準化的測試數(shù)據(jù)集來進行關(guān)鍵的性能評估和比較。建立適用于評估分析工具通用性、有效性和重復(fù)性的大量、隨機的數(shù)據(jù)集,不僅能夠幫助用戶選擇其需要的工具,也能促進方法開發(fā)的標準化,是未來值得探索的重要方向。

        3 結(jié)語與展望

        基于GC-MS 和LC-MS 等質(zhì)譜系統(tǒng)的代謝組學(xué)數(shù)據(jù)分析主要包括質(zhì)譜數(shù)據(jù)預(yù)處理、代謝組學(xué)數(shù)據(jù)統(tǒng)計分析、代謝途徑富集分析以及代謝物鑒定等步驟。過去十來年許多關(guān)于質(zhì)譜數(shù)據(jù)預(yù)處理、多維變量統(tǒng)計分析、代謝途徑分析和代謝物數(shù)據(jù)庫的分析軟件被相繼開發(fā)和成功應(yīng)用。特別是近年來計算代謝組學(xué)方法迅猛發(fā)展,極大地推動了代謝組學(xué)數(shù)據(jù)分析流程的自動化和規(guī)范化,為大規(guī)模代謝組學(xué)數(shù)據(jù)的充分挖掘打下堅實基礎(chǔ)。而分子網(wǎng)絡(luò)、機器學(xué)習(xí)等前沿方法也大大提高了代謝物的注釋和鑒定能力,顯著提升了代謝物特征信息提取的準確性以及代謝物鑒定的覆蓋范圍。然而,由于生物樣本的復(fù)雜性以及現(xiàn)有質(zhì)譜分析技術(shù)的局限性,使得代謝組學(xué)所能檢測并注釋的代謝物數(shù)量遠遠少于生物體內(nèi)源代謝物的數(shù)量,難以滿足現(xiàn)代研究發(fā)展的要求。因此,在未來的研究中,首先需要進一步發(fā)展高通量、高分辨率和高靈敏度的先進質(zhì)譜數(shù)據(jù)采集技術(shù),提高對低豐度代謝物的檢測能力,以實現(xiàn)對代謝組學(xué)原始數(shù)據(jù)更充分地采集,從而構(gòu)建更全面的代謝物質(zhì)譜數(shù)據(jù)庫。其次,深入開發(fā)更強大的計算代謝組學(xué)分析工具對于提高代謝物的鑒定和注釋能力也至關(guān)重要。已有研究顯示代謝物的生物化學(xué)特征、反應(yīng)網(wǎng)絡(luò)等信息,能夠明顯提升分子網(wǎng)絡(luò)技術(shù)對代謝物的注釋能力;同一條代謝途徑常常受到相同遺傳位點的調(diào)控,因此,在已知生化反應(yīng)和分子網(wǎng)絡(luò)分析的基礎(chǔ)上再整合代謝物合成的遺傳位點等信息,也有望進一步提高代謝物的鑒定數(shù)和準確度。此外,不斷優(yōu)化代謝物注釋的算法必將極大地促進代謝組學(xué)研究的發(fā)展,也是未來代謝組學(xué)數(shù)據(jù)分析研究的重點。

        我們相信,隨著高分辨質(zhì)譜儀的更新迭代和不同代謝組數(shù)據(jù)分析方法的相繼開發(fā),定會極大提高基于質(zhì)譜的代謝組學(xué)技術(shù)分析能力,主要表現(xiàn)為代謝物的分析效率、鑒定數(shù)量、靈敏度和精準度得到不斷提升。在農(nóng)業(yè)領(lǐng)域,基于質(zhì)譜的代謝組學(xué)分析將助力于農(nóng)業(yè)生物復(fù)雜性狀形成的機制探索,農(nóng)業(yè)生物重要代謝途徑的解析、農(nóng)作物生長發(fā)育與脅迫應(yīng)答的代謝調(diào)控網(wǎng)絡(luò)研究,以及轉(zhuǎn)基因安全評估等不同學(xué)科領(lǐng)域。

        猜你喜歡
        代謝物組學(xué)質(zhì)譜
        阿爾茨海默病血清代謝物的核磁共振氫譜技術(shù)分析
        氣相色譜質(zhì)譜聯(lián)用儀在農(nóng)殘檢測中的應(yīng)用及維護
        口腔代謝組學(xué)研究
        基于UHPLC-Q-TOF/MS的歸身和歸尾補血機制的代謝組學(xué)初步研究
        吹掃捕集-氣相色譜質(zhì)譜聯(lián)用測定水中18種揮發(fā)性有機物
        柱前衍生化結(jié)合LC-MSn分析人尿中茶堿及其代謝物
        代謝組學(xué)在多囊卵巢綜合征中的應(yīng)用
        HPLC-MS/MS法分析乙酰甲喹在海參中的主要代謝物
        棗霜化學(xué)成分的色譜質(zhì)譜分析
        Modeled response of talik development under thermokarst lakes to permafrost thickness on the Qinghai-Tibet Plateau
        日韩精品乱码中文字幕| 国产一起色一起爱| 精品久久综合一区二区| 国产自偷自偷免费一区| 精品一精品国产一级毛片| 国产精品亚洲美女av网站| 日本成人精品一区二区三区| 日本国产一区二区在线| av素人中文字幕在线观看| 99久久精品免费观看国产| 免费人成无码大片在线观看| 欧美国产成人精品一区二区三区| 久久久无码一区二区三区| 被暴雨淋湿爆乳少妇正在播放| 人妻熟女中文字幕av| 国产午夜在线视频观看| 午夜精品久久久久久毛片| 亚洲精品国产v片在线观看| 久久久久久国产福利网站| 精品午夜一区二区三区| 午夜在线观看有码无码| 亚洲国产精品一区二区第一 | 日本色偷偷| 日韩一区二区三区人妻中文字幕| 亚洲天堂成人av在线观看| 亚洲精品久久久久中文字幕| 国产精品熟妇视频国产偷人| 淫欲一区二区中文字幕| 中文字幕亚洲在线第一页| 激情亚洲一区国产精品| 一区二区三区内射美女毛片 | 国产精品亚洲第一区二区三区| 日韩视频中文字幕精品偷拍| 男女扒开双腿猛进入免费看污| 中文字幕有码一区二区三区| 美女福利视频网址导航| 所有视频在线观看免费| 少妇高潮喷水久久久影院| 无码人妻专区免费视频| 亚洲一区不卡在线导航| 国产av天堂一区二区二区|