李鵬輝, 鄧伶莉,2, 羅 嬌, 李 巍, 寧 晶, 丁健樺, 鄔小萍
(1. 東華理工大學(xué)江西省質(zhì)譜科學(xué)與儀器重點實驗室, 南昌 330013;2. 東華理工大學(xué)信息工程學(xué)院, 南昌 330013; 3. 南昌大學(xué)第一附屬醫(yī)院, 南昌 330123)
?
多批次肝衰竭患者呼出氣體的電噴霧萃取電離質(zhì)譜檢測及代謝組學(xué)數(shù)據(jù)分析
李鵬輝1, 鄧伶莉1,2, 羅 嬌3, 李 巍3, 寧 晶1, 丁健樺1, 鄔小萍3
(1. 東華理工大學(xué)江西省質(zhì)譜科學(xué)與儀器重點實驗室, 南昌 330013;2. 東華理工大學(xué)信息工程學(xué)院, 南昌 330013; 3. 南昌大學(xué)第一附屬醫(yī)院, 南昌 330123)
采用高分辨電噴霧萃取電離質(zhì)譜(EESI-MS)技術(shù)對肝衰竭患者和健康志愿者呼出氣體樣本進(jìn)行快速檢測, 結(jié)合多塊偏最小二乘分析(MB-PLS)方法, 對多批次獲取的呼出氣體代謝數(shù)據(jù)進(jìn)行統(tǒng)計建模分析, 并與傳統(tǒng)的PLS方法進(jìn)行比較. 結(jié)果表明, MB-PLS方法能有效消除批次差異對統(tǒng)計建模的影響. 此外, 利用MB-PLS模型變量VIP值對變量進(jìn)行篩選, 可降低數(shù)據(jù)的冗余, 消除無關(guān)變量對模型的影響, 從而有效提高了模型的性能.
呼出氣體; 代謝組學(xué); 電噴霧萃取電離質(zhì)譜; 多塊偏最小二乘分析
呼吸是人體基本的生命體征之一, 人體呼出氣體作為生物媒介攜帶了大量生理/病理信息, 有研究報道在健康人體呼出氣體中檢測出3000多種化合物[1]. 傳統(tǒng)的代謝組學(xué)方法主要分析生物體液[2~4](血清、 尿液、 唾液、 乳液和組織液等)和生物組織中代謝物水平[5]的變化規(guī)律, 實際上生物呼出氣體也可作為代謝組學(xué)的研究對象, 用于探索機(jī)體生理/病理狀態(tài)[6,7]. 近年來, 在基于代謝組學(xué)的疾病研究領(lǐng)域[8~10], 尤其是肝病相關(guān)領(lǐng)域, 呼出氣體因其安全、 采樣方便且非侵入性、 不涉及個人隱私問題以及攜帶大量代謝信息等特點而備受關(guān)注[11,12].
人體呼出氣體中代謝物含量極低[13], 因此對檢測儀器的靈敏度有很高的要求, 這一直是限制呼出氣體代謝組學(xué)發(fā)展的重要原因之一. 隨著現(xiàn)代分析技術(shù)的快速發(fā)展, 呼出氣體檢測技術(shù)也逐漸豐富, 如氣相色譜-質(zhì)譜聯(lián)用(GC-MS)[1,12,14]、 離子分子反應(yīng)質(zhì)譜(IMR-MS)[15]、 電子鼻傳感技術(shù)(EN)[16,17]、 激光光譜(LS)[18]、 選擇離子流動管質(zhì)譜(SIFT-MS)[19]和質(zhì)子轉(zhuǎn)移反應(yīng)質(zhì)譜(PTR-MS)[20]等技術(shù). 電噴霧萃取電離質(zhì)譜(EESI-MS)技術(shù)是一種新型直接質(zhì)譜分析方法[21,22], 可在無需樣品預(yù)處理條件下對復(fù)雜機(jī)體進(jìn)行直接快速檢測, 其檢測靈敏度高、 響應(yīng)速度快, 能夠?qū)崿F(xiàn)呼出氣體中痕量揮發(fā)性有機(jī)化合物的原位、 實時、 在線分析[23~25]. 然而, 由于呼出氣體的有效存儲時間短, 難以在短時間內(nèi)完成大量樣本的收集與檢測. 在數(shù)據(jù)統(tǒng)計分析方面, 為保證結(jié)果的可靠性, 通常對樣本量有一定要求. 多批次樣本雖然可以獲取足夠的數(shù)據(jù)量, 但由于人體呼出氣體受環(huán)境空氣影響較大, 不同批次(不同時間或地點)收集的樣本其檢測結(jié)果存在較大的差異. 若直接將不同批次樣本數(shù)據(jù)合并成一個大數(shù)據(jù)矩陣, 采用代謝組學(xué)中常用的主成分分析(PCA)[26]方法或偏最小二乘分析(PLS)[27]方法對其進(jìn)行統(tǒng)計分析, 由于批次間差異信息的干擾, 通常很難準(zhǔn)確提取出有用的特征信息.
代謝組學(xué)數(shù)據(jù)往往非常復(fù)雜, 因此數(shù)據(jù)處理已經(jīng)成為代謝組學(xué)研究中的關(guān)鍵技術(shù)和瓶頸之一. 不同批次獲取的數(shù)據(jù)存在批次間的變異, 致使不同批次的數(shù)據(jù)難以集成. 雖然有一些樣本歸一化方法已經(jīng)被開發(fā)來解決批次間差異的問題, 例如常數(shù)和歸一化法[28]、 內(nèi)標(biāo)法[29]、 質(zhì)量控制法[30]和基于方差的歸一化法[31]等, 但是每種方法都有其優(yōu)點和缺點. 多塊偏最小二乘分析(Multi-block PLS, MB-PLS)是近年來廣泛應(yīng)用的一種基于監(jiān)督的多塊數(shù)據(jù)分析方法[32], 該方法能利用數(shù)據(jù)塊之間的關(guān)聯(lián)性將數(shù)據(jù)塊進(jìn)行有效整合, 并對數(shù)據(jù)中相關(guān)特征信息進(jìn)行提取. 因其結(jié)果是由多個數(shù)據(jù)塊綜合分析得到, 故相比于單個數(shù)據(jù)塊的分析結(jié)果為更為全面、 準(zhǔn)確. 本文利用EESI-MS技術(shù)獲取了4批次肝衰竭患者和健康志愿者呼出氣體的代謝組學(xué)數(shù)據(jù), 根據(jù)各批次數(shù)據(jù)間“變量空間”一致的特點, 采用相應(yīng)的MB-PLS方法對其進(jìn)行整合建模, 并與傳統(tǒng)的PLS方法進(jìn)行比較.
Fig.1 Two typical multi-block problems(A) The objects are in common, but the variables measured on these objects are different; (B) the variables are in common, but the objects are different.
代謝組學(xué)數(shù)據(jù)分析中的多塊數(shù)據(jù)問題通常包括2類: “樣本空間”相同但“變量空間”不同; “變量空間”相同但“樣本空間”不同(圖1). 對于采用EESI-MS技術(shù)獲取的各批次呼出氣體代謝組學(xué)數(shù)據(jù), 雖然不同批次的樣本不同(即“樣本空間”不同), 但是所檢測的代謝物變量是一致的(即“變量空間”相同), 與圖1(B)描述問題相等.
(1)
在PLS模型中, 變量投影重要性指標(biāo)VIP(Variableimportanceintheprojection)用于評估各變量在模型中的重要性. 對于K個成分的MB-PLS模型, 變量i在該模型中的投影重要性指標(biāo)VIP定義如下:
(2)
2.1 儀器與試劑
EESI離子源(東華理工大學(xué)研制)[20,22];LTQ-Orbitrap-XL高分辨質(zhì)譜儀(美國Finnigan公司), 配有Xcalibur數(shù)據(jù)處理系統(tǒng);T2PV/L型5L-Tedlar?采樣袋(大連德霖氣體包裝有限公司); 甲醇(色譜純,SKChemicals公司).
2.2 研究對象與分組
在遵守醫(yī)學(xué)道德準(zhǔn)則的相關(guān)規(guī)定下, 分4個批次收集就診于南昌大學(xué)第一附屬醫(yī)院感染科的共35例肝衰竭患者和35例健康志愿者的呼出氣體. 肝衰竭患者年齡均在38~65歲之間, 排除同時患有糖尿病、 脂肪肝、 酒精肝、 自身免疫性肝病、 腎病、 呼吸系統(tǒng)疾病、 未控制的精神病及活動性感染等疾病的患者; 健康志愿者均來自患者家屬和醫(yī)院醫(yī)務(wù)人員, 既往無肝病病史, 無煙酒嗜好, 年齡在28~55歲之間. 各批次樣本收集的具體信息如表1所示.
Table 1 Four batches of exhaled breath sample
2.3 質(zhì)譜條件及呼出氣體的收集與檢測
高分辨質(zhì)譜儀在正離子檢測模式下工作, 掃描范圍m/z50~700; 離子傳輸管溫度100 ℃; 噴霧電壓3.5 kV; 霧化氣(N2)壓力1.2 MPa; 萃取劑為純甲醇, 流速5 μL/min; 氣體樣品通過轉(zhuǎn)子流量計控制流速為800 mL/min; 其它條件由LTQ-Orbitrap-XL系統(tǒng)自動優(yōu)化得到. EESI 離子源2個毛細(xì)管噴霧口之間距離1~2 mm, 夾角為60°, 到質(zhì)譜進(jìn)樣口的距離為5 mm, 詳細(xì)參見文獻(xiàn)[20,22]. 在高分辨質(zhì)譜掃描模式下, 一級質(zhì)譜質(zhì)量分辨率R=60000.
用5L-Tedlar?采樣袋收集呼出氣體樣本, 采樣袋在使用前以純凈氮氣沖洗3次. 所有受試者在采樣前 10 h內(nèi)禁食、 禁煙、 禁酒, 采樣前 24 h 內(nèi)禁止食用辛辣物, 晨起后僅以清水漱口. 受試者在通風(fēng)條件良好的環(huán)境下呼吸30 min以上, 靜息狀態(tài)下向采樣袋內(nèi)深呼氣, 直至采樣袋充滿為止. 收集后在3 h內(nèi)完成EESI-MS檢測, 并獲得相應(yīng)的代謝指紋圖譜. 各個批次疾病組(肝衰竭患者)和對照組(健康志愿者)的代謝指紋圖譜如圖2所示.
Fig.2 EESI-MS spectra of exhaled breath from liver failure patients and healthy volunteers (A)—(D) MS data of exhaled breath from liver failure patients; (E)—(H) MS data of exhaled breath fromhealthy volunteers. Each row represents a batch.
3.1 數(shù)據(jù)預(yù)處理
3.2 數(shù)據(jù)統(tǒng)計分析與建模
設(shè)置類別矢量yb(b=1, 2, ……4), 其中“1”表示疾病組, “0”表示對照組. 采用MB-PLS方法對4個批次數(shù)據(jù)Xb(b=1,2,3,4)進(jìn)行統(tǒng)計建模. 通過7-fold交叉驗證法確定MB-PLS模型的最優(yōu)成分?jǐn)?shù)為2個. 圖3(A)為MB-PLS模型前2個成分對應(yīng)的得分圖. 圖中每1個點對應(yīng)1個樣本, 不同批次樣本用不同的圖形進(jìn)行區(qū)分(如, 圖形△代表第1批次樣本); 藍(lán)色和紅色分別表示疾病組與健康組樣本. 可見, 疾病組與對照組樣本之間存在明顯的分組趨勢, 根據(jù)公式X計算類別矢量的回歸值, 利用分類準(zhǔn)確率(CA), 即正確分類的樣本數(shù)除以總樣本個數(shù), 來描述樣本可分性, 計算結(jié)果CA=0.93. 圖3(A)中, 相同類別的不同批次樣本相互混疊, 無明顯分組趨勢, 表明模型中未提取出各批次數(shù)據(jù)塊之間的差異信息, 因此批次間的差異信息并未對該模型產(chǎn)生干擾.
Fig.3 Scores plot of MB-PLS model(A) and PLS model(B) by the four batches of data respectivelyThe batches labeled by different graphics, the hollow red graphics and solid blue graphics for the disease group and control group respectively.
為與傳統(tǒng)PLS方法進(jìn)行對比, 將4個批次數(shù)據(jù)串聯(lián)成1個大的數(shù)據(jù)矩陣, 即X=(X1X2X3X4)T, 并采用PLS方法進(jìn)行分析, 模型前2個成分的得分圖如圖3(B)所示. 在圖3(B)中, 雖然同一批次疾病組樣本與對照組樣本之間表現(xiàn)出一定的分組趨勢, 但是樣本間批次差異信息在模型中占絕對優(yōu)勢, 嚴(yán)重干擾了與疾病相關(guān)的特征信息的提取. 在不同批次的樣本間, 疾病組樣本難以與對照組樣本區(qū)分開來, 分類準(zhǔn)確率CA僅為0.77.
Fig.4 Model validation results of MB-PLS(○) andPLS(△) respectively
采用蒙特卡洛交叉驗證法(MCCV)[34]對MB-PLS模型進(jìn)行了驗證. 在各批次樣本中隨機(jī)選取70%的樣本作為訓(xùn)練集用于建立分類模型; 剩余的樣本作為測試集代入模型中, 計算測試樣本集的預(yù)測值. 重復(fù)上述過程100次, 計算測試集的平均分類準(zhǔn)確率CAMCCV來評估模型的預(yù)測性能. 進(jìn)一步對疾病組和對照組的MB-PLS模型進(jìn)行置換檢驗(Permutation test)[35], 樣本類別被隨機(jī)打亂100次, 每次利用打亂后的類別矢量來建模, 并結(jié)合MCCV計算預(yù)測集的分類準(zhǔn)確率CAMCCV, 結(jié)果見圖4. 圖4中, 橫坐標(biāo)│r│為隨機(jī)打亂后的類別矢量與原類別矢量的相關(guān)系數(shù)的絕對值, 其中│r│=1對應(yīng)的CAMCCV值為利用正確類別信息建立模型的分類準(zhǔn)確率. 對于一個魯棒的模型, 當(dāng)類別信息被打亂, 模型預(yù)測性能應(yīng)該比正確類別信息建立的模型預(yù)測性能要差. 圖4中, 100次置換檢驗的結(jié)果相對正確類別計算得到的CAMCCV要低, 表明疾病組與對照組數(shù)據(jù)存在差異信息, MB-PLS模型中提取的差異信息是有效的. 此外, PLS模型由于受到批次差異信息的干擾, 模型的預(yù)測能力(CAMCCV=0.72±0.08)顯著低于MB-PLS模型(CAMCCV=0.84±0.06). 綜上所述, 利用MB-PLS對多批次數(shù)據(jù)進(jìn)行分類建模, 能有效避免批次差異對模型的影響, 提取出數(shù)據(jù)中有用的特征信息.
3.3 變量篩選
在上述MB-PLS模型中, 變量具有很高的維數(shù)(1035個變量), 數(shù)據(jù)中只有少部分變量對建立分類模型有貢獻(xiàn). 因此對變量進(jìn)行了篩選, 以有效降低數(shù)據(jù)的冗余, 提高模型的性能.
Fig.5 VIP scores of MB-PLS model
由模型變量VIP的定義可知: 變量的VIP值越大, 該變量在模型中越重要. 利用式(2)計算得到了MB-PLS模型中各變量的VIP值(見圖5). 圖5中大部分變量對于該模型并不重要, 其對應(yīng)的VIP值非常小(VIP<1.0), 故可以利用變量的VIP值對變量的重要性進(jìn)行評估, 選擇VIP值大的變量來重新建立分類建模.
實驗中將變量按VIP值進(jìn)行排序, 選取其中VIP值大于某一閾值的變量構(gòu)成新的數(shù)據(jù)子集, 進(jìn)行MB-PLS建模. 結(jié)合MCCV計算MB-PLS模型的分類準(zhǔn)確率CAMCCV, 結(jié)果如圖6所示. 圖6中模型分類準(zhǔn)確率CAMCCV隨著選取的VIP閾值總體表現(xiàn)出先增大后降低的變化趨勢. 當(dāng)VIP閾值由0增加到0.8時, 大量冗余或者無用的變量被刪除, 模型的CAMCCV急劇增大; 當(dāng)VIP閾值由0.8增加到2.2時, 由于VIP閾值在這一區(qū)域變量相對較少, 模型CAMCCV值變化相對緩慢, 盡管某一階段區(qū)域中CAMCCV值出現(xiàn)了小幅度的降低, 但總體變化趨勢仍是不斷增大; 當(dāng)VIP閾值大于2.2時, 可能由于某些有意義的變量被刪除, 此時模型的 CAMCCV開始下降. 選取VIP閾值為2.2的9個變量用于MB-PLS建模, 此時模型的分類準(zhǔn)確率CAMCCV由原來的0.84±0.06(1035個變量)提高到0.96±0.04.
Fig.6 Variation of the mean CAMCCV of MB-PLSmodel with the threshold of VIP
Fig.7 MS/MS spectrum and proposed structure of m/z 90 from the data of liver failure patients and healthy volunteers breath samples
3.4 差異變量分析
采用EESI-MS對肝衰竭患者和健康志愿者呼出氣體樣本進(jìn)行快速檢測, 結(jié)合MB-PLS方法對多批次獲取的呼出氣體代謝數(shù)據(jù)進(jìn)行分析, 并與傳統(tǒng)的PLS方法進(jìn)行比較. 結(jié)果表明, MB-PLS方法能有效消除批次間差異對統(tǒng)計建模的影響, 建立區(qū)分疾病組與健康組的分類模型; 采用蒙特卡洛交叉驗證和排序測試對模型進(jìn)行驗證, 發(fā)現(xiàn)肝衰竭患者與健康志愿者呼出氣體中存在顯著的代謝差異. 此外, 采用基于MB-PLS模型變量VIP值的篩選方法, 對變量進(jìn)行篩選, 模型交叉驗證分類準(zhǔn)確率由原來的0.84±0.06提高到了0.96±0.04, 利用該模型能有效區(qū)分肝衰竭患者與健康人群. 該項工作有望為不同分析平臺、 不同樣本源獲取的多批次代謝組學(xué)數(shù)據(jù)的處理提供一種新的途徑和依據(jù). 由于部分差異變量及其與肝衰竭的相關(guān)性未能確定, 因此仍需要進(jìn)一步研究.
[1] Phillips M., Herrera J., Krishnan S., Zain M., Greenberg J., Cataneo R. N.,J.Chromatogr.B, 1999, 729(1/2), 75—88
[2] Gieger C., Geistlinger L., Altmaier E., de Angelis M. H., Kronenberg F., Meitinger T., Mewes H. W., Wichmann H. E., Weinberger K. M., Adamski J., Illig T., Suhre K.,PlosGenet., 2008, 4(11), e1000282
[3] Want E. J., Wilson I. D., Gika H., Theodoridis G., Plumb R. S., Shockcor J., Holmes E., Nicholson J. K.,Nat.Protoc., 2010, 5(6), 1005—1018
[4] Sugimoto M., Wong D. T., Hirayama A., Soga T., Tomita M.,Metabolomics, 2010, 6(1), 78—95
[5] Yuan M., Breitkopf S. B., Yang X. M., Asara J. M.,Nat.Protoc., 2012, 7(5), 872—881
[6] Carraro S., Rezzi S., Reniero F., Héberger K., Giordano G., Zanconato S., Guillou C., Baraldi E.,Am.J.Respir.Crit.Care.Med., 2007, 175(10), 986—990
[7] Motta A., Paris D., Melck D., de Laurentiis G., Maniscalco M., Sofia M., Montuschi P.,Eur.Respir.J., 2012, 39(2), 498—500
[8] Gu H. W., Qi Y. P., Xu N., Ding J. H., An Y. B., Chen H. W.,ChineseJ.Anal.Chem., 2012, 40(12), 1933—1937(顧海威, 齊云鵬, 許寧, 丁健樺, 安艷波, 陳煥文. 分析化學(xué), 2012, 40(12), 1933—1937 )
[9] Chen C., Deng L. L., Wei S. W., Gowda G. A. N., Gu H. W., Chiorean E. G., Abu Zaid M., Harrison M. L., Pekny J. F., Loehrer P. J.,J.ProteomeRes., 2015, 14(6), 2492—2499
[10] Gu H. W., Huang Y., Filgueira M., Carr P. W.,J.Chromatogr.A, 2011, 1218(38), 6675—6687
[11] Hanouneh I. A., Zein N. N., Cikach F., Dababneh L., Grove D., Alkhouri N., Lopez R., Dweik R. A.,Clin.Gastroenterol.H., 2014, 12(3), 516—523
[12] Van Den Velde S., Nevens F., Van Hee P., Van Steenberghe D., Quirynen M.,J.Chromatogr.B.Analyt.Technol.Biomed.LifeSci., 2008, 875(2), 344—348
[13] Krotoszynski B., Gabriel G., Oneill H., Claudio M. P. A.,J.Chromatogr.Sci., 1977, 15(7), 239—244
[14] Phillips M., Gleeson K., Hughes J. M. B., Greenberg J., Cataneo R. N., Baker L., McVay W. P.,Lancet, 1999, 353(9168), 1930—1933
[15] Netzer M., Millonig G., Osl M., Pfeifer B., Praun S., Villinger J., Vogel W., Baumgartner C.,Bioinformatics, 2009, 25(7), 941—947
[16] Casalinuovo I. A., Di Pierro D., Coletta M., Di Francesco P.,Sensors, 2006, 6(11), 1428—1439
[17] Roeck F., Barsan N., Weimar U.,Chem.Rev., 2008, 108(2), 705—725
[18] Skeldon K. D., Mcmillan L. C., Wyse C. A., Monk S. D., Gibson G., Patterson C., France T., Longbottom C., Padgett M. J.,Respir.Med., 2006, 100(2), 300—306
[19] Storer M., Dummer J., Sturney S., Epton M.,Curr.Anal.Chem., 2013, 9(4), 576—583
[20] Moser B., Bodrogi F., Eibl G., Lechner M., Rieder J., Lirk P.,Resp.Physiol.Neurobi., 2005, 145(2/3), 295—300
[21] Pan S. S., Zhao N., Ouyang Y. Z., Huang K. K., Ding J. H., Chen H. W., Yuan L., Wang X. X.,Chem.J.ChineseUniversities, 2013, 34(6), 1379—1384(潘素素, 趙娜, 歐陽永中, 黃科科, 丁健樺, 陳煥文, 袁龍, 王興祥. 高等學(xué)校化學(xué)學(xué)報, 2013, 34(6), 1379—1384 )
[22] Ding J. H., Wang X. X., Zhang H., Pan S. S., Luo M. B., Li J. Q., Chen H. W.,Chem.J.ChineseUniversities, 2011, 32(8), 1714—1719(丁健樺, 王興祥, 張慧, 潘素素, 羅明標(biāo), 李建強(qiáng), 陳煥文. 高等學(xué)?;瘜W(xué)學(xué)報, 2011, 32(8), 1714—1719)
[23] Chen H. W., Wortmann A., Zhang W. H., Zenobi R.,Angew.Chem.Int.Ed., 2007, 46(46), 580—583
[24] Pan S. S., Tian Y., Li M., Zhao J. Y., Zhu L. L., Zhang W., Gu H. W., Wang H. D., Shi J. B., Fang X., Li P. H., Chen H. W.,Sci.Rep., 2015, 5, 8725
[25] Ding J.H., Yang S. P., Liang D. P., Chen H. W., Wu Z. Z., Zhang L. L., Ren Y. L.,Analyst, 2009, 134(10), 2040—2050
[26] Wood C. C., Mccarthy G.,Electroencephalogr.Clin.Neurophysiol., 1984, 59(3), 249—260
[27] Frank I. E., Kowalski B. R.,Anal.Chim.Acta, 1984, 162, 241—251
[28] Wang W. X., Zhou H. H., Lin H., Roy S., Shaler T. A., Hill L. R., Norton S., Kumar P., Anderle M., Becker C. H.,Anal.Chem., 2003, 75(18), 4818—4826
[29] Redestig H., Fukushima A., Stenlund H., Moritz T., Arita M., Saito K., Kusano M.,Anal.Chem., 2009, 81(19), 7974—7960
[30] Jauhiainen A., Basetti M., Narita M., Narita M., Griffiths J., Tavare′ S.,BMCBioinformatics, 2014, 30(15), 2155—2161
[31] De Livera A. M., Dias D. A., De Souza D., Rupasinghe T., Pyke J., Tull D., Roessner U., McConville M., Speed T. P.,Anal.Chem., 2012, 84(24), 10768—10776
[32] Wangen L. E., Kowalski B. R.,J.Chemometr., 1989, 3(1), 3—20
[33] Beauchamp J., Herbig J., Gutmann R., Hansel A.,J.BreathRes., 2008, 2(4), 046001
[34] Picard R. R., Cook R. D.,J.Am.Stat.Assoc., 1984, 79(387), 575—583
[35] Lindgren F., Hansen B., Karcher W., Sjostrom M., Eriksson L.,J.Chemometr., 1996, 10(5/6), 521—532
[36] Levine M., Tarver H.,J.Biol.Chem., 1950, 184(2), 427—436
[37] Pilgeram L. O., Gal E. M., Sassenrath E. N., Greenberg D. M.,J.Biol.Chem., 1953, 204(1), 367—377
[38] Duvigneaud V., Chandler J. P., Simmonds S., Moyer A. W., Cohn M.,J.Biol.Chem., 1946, 164(2), 603—613
[39] Artom C., Crowder M.,Fed.Proc., 1949, 8(1), 180—181
(Ed.: D, K)
EESI-MS Detection and Statistical Analysis of Multi-batch of Exhaled Breath Metabolomics Data of Liver Failure Patients?
LI Penghui1, DENG Lingli1, 2, LUO Jiao3, LI Wei3, NING Jing1, DING Jianhua1, WU Xiaoping3*
(1.EastChinaUniversityofTechnology,JiangxiKeyLaboratoryforMassSpectrometryandInstrumentation,Nanchang330013,China;2.EastChinaUniversityofTechnology,InformationEngineeringCollege,Nanchang330013,China;3.TheFirstAffiliatedHospitalofNanChangUniversity,Nanchang330123,China)
In metabolomics studies, the number of samples should be enough to guarantee the reliability of data statistical analysis. The effective storage time of exhaled breath is short, and it is difficult to collect and detect a large number of breath samples in a short time. Combining multi batches of samples may obtain a large data, but usually there is a large variance between batches induced by ambient air varying. In this paper, the exhaled breath data of liver failure patients and healthy volunteers were obtained by high resolution extractive electrospray ionization mass spectrometry(EESI-MS) and then analyzed by multi-block partial least square(MB-PLS). The results were compared with traditional PLS method and showed its strength of removing the variance of batches for modeling. Moreover, we provided a variable selection strategy that based on variable importance in the projection(VIP) of MB-PLS to reduce the redundancy of data and eliminate the effect of non-information variables for modeling, and the performance of MB-PLS model had a great improvement.
Exhaled breath; Metabolomics; Extractive electrospray ionization mass spectrometry; Multi-block partial least square analysis
10.7503/cjcu20150826
2015-10-27;
日期: 2016-03-18.
江西省重大科技創(chuàng)新研究項目(批準(zhǔn)號: 20124ACB00700)、 長江學(xué)者和創(chuàng)新團(tuán)隊發(fā)展計劃項目(批準(zhǔn)號: IRT13054)和國家自然科學(xué)基金(批準(zhǔn)號: 21265002)資助.
O657.6
A
聯(lián)系人簡介: 鄔小萍, 女, 教授, 主要從事傳染病臨床研究. E-mail: wuxiaoping2823@aliyun.com
? Supported by the Jiangxi Major Scientific and Technological Innovation Research Project, China(No.2012ACB00700), the Program for Changjiang Scholars and Innovative Research Team in University, China(No. IRT13054) and the National Natural Science Foundation of China(No.21265002).