孫 蕭 寒
(渭南師范學(xué)院 網(wǎng)絡(luò)安全與信息化學(xué)院, 陜西 渭南 714000)
快速液質(zhì)聯(lián)用數(shù)據(jù)峰對齊算法
孫 蕭 寒
(渭南師范學(xué)院 網(wǎng)絡(luò)安全與信息化學(xué)院, 陜西 渭南 714000)
液質(zhì)聯(lián)用(LC/MS)是一種將物理分離能力和質(zhì)量分析能力相結(jié)合的技術(shù),可用于檢測內(nèi)源性小分子代謝物,近年來在代謝組學(xué)研究中被廣泛應(yīng)用。然而該技術(shù)在輸出檢測出的離子峰數(shù)據(jù)時往往具有很強的噪聲,并且在保留時間上出現(xiàn)樣本間的非線性偏差,因此必須對LC/MS輸出的數(shù)據(jù)在各樣本間進行峰對齊?,F(xiàn)有的LC/MS數(shù)據(jù)對齊方法由于結(jié)構(gòu)復(fù)雜、參數(shù)設(shè)置較多而不適用于快速峰對齊。針對此問題提出快速LC/MS數(shù)據(jù)峰值對齊算法。該算法包括數(shù)據(jù)預(yù)處理、峰識別和峰匹配3個模塊,無需用戶選擇參數(shù),時間復(fù)雜度低。
液質(zhì)聯(lián)用; 峰對齊; 代謝譜
代謝組學(xué)(metabolomics)研究特定的分子過程所遺留的獨特化學(xué)標志,其研究對象為代謝物圖譜[1-2]。代謝組學(xué)需要檢測并收集大量的代謝物數(shù)據(jù),目前用于檢測代謝物的主要技術(shù)是核磁共振波譜技術(shù)與質(zhì)譜分析技術(shù)[3-4]。近年來,高效液相色譜分離技術(shù)與質(zhì)譜檢測技術(shù)的結(jié)合(LC/MS),因其具有的高通量、軟電離和代謝物覆蓋全的特點已經(jīng)成為代謝組學(xué)研究中檢測小分子化合物的主流平臺[5-6]。LC/MS數(shù)據(jù)包括3個維度:保留時間、質(zhì)量電荷比(m/z)和離子峰強度。在某一質(zhì)量電荷比下,離子峰強度曲線所形成的峰的部分即可能對應(yīng)小分子化合物。
然而,由于實驗技術(shù)、實驗設(shè)備、實驗環(huán)境等因素的影響,不同樣本的離子峰強度曲線不盡相同,且峰的部分在保留時間上存在偏差,這種偏差會直接導(dǎo)致小分子化合物檢測與識別的錯誤[7]。此外,峰的偏差也表現(xiàn)在峰的形態(tài)(峰的高度,峰的寬度,峰的形狀)上,因此在進行小分子化合物分析前必須先將離子峰對齊。
現(xiàn)有的LC/MS數(shù)據(jù)對齊方法一般存在兩個問題[8-9]:① 需要選擇參數(shù),并且峰對齊的結(jié)果對參數(shù)特別敏感;② 方法的時間復(fù)雜度高。以最主流的XCMS為例,不管是下載安裝R版本的軟件還是在線提交數(shù)據(jù),當數(shù)據(jù)量較大時,往往需要幾天甚至更長的等待時間[10]。針對現(xiàn)有方法參數(shù)敏感和時間復(fù)雜度高問題,本文提出快速LC/MS數(shù)據(jù)峰對齊算法。
快速LC/MS數(shù)據(jù)峰對齊算法包括數(shù)據(jù)預(yù)處理、峰識別和峰對齊3個模塊(見圖1)。
圖1 流程圖
本實驗數(shù)據(jù)采用Ralf Tautenhahn等公開的數(shù)據(jù)(http://msbi.ipb- halle.de/msbi/centwave/),包括121個樣本,每個樣本包括2 972個保留時間點(保留時間點作為保留時間的刻度),時間范圍從0.491~999.924 s(每個時間點間隔為0.336 s);每個樣本在每個保留時間點均檢測質(zhì)量電荷比和對應(yīng)的離子峰強度。其中檢測出的質(zhì)量電荷比的范圍94~1 005,離子峰的強度10~15 231。
由于LC/MS技術(shù)檢測出的質(zhì)量電荷比是一個精準數(shù)據(jù),故可以選擇統(tǒng)一的質(zhì)量電荷比步長(本文選擇0.5),取該質(zhì)量電荷比步長范圍內(nèi)每一個保留時間點上最大的離子峰強度數(shù)據(jù)作為該保留時間點上的離子峰強度數(shù)據(jù)[11]。
(1) 峰形態(tài)分析。觀察每一個質(zhì)量電荷比數(shù)據(jù),發(fā)現(xiàn)離子峰強度在保留時間的維度上呈Z字形狀(見圖2)[12],即離子峰強度在某一保留時間點很強,在下一保留時間很弱或為0(檢測不到),但在第3個保留時間又增強,依次變化。
如果觀察整個保留時間段內(nèi)離子峰強度最大的質(zhì)量電荷比,可以發(fā)現(xiàn)在一段保留時間點內(nèi),總是有2個具有最大離子峰強度的質(zhì)量電荷比此消彼長。這種Z字形的離子峰強度數(shù)據(jù)應(yīng)該是由于在同一質(zhì)量電荷比、同一保留時間段內(nèi)有不只一個小分子化合物被檢測到,但由于實驗設(shè)備或技術(shù)原因?qū)е乱粋€質(zhì)量電荷比的離子峰強度被另一個所遮蔽。
圖2 離子峰強度Z字形態(tài)
(2) 數(shù)據(jù)降噪。由于原始離子峰強度數(shù)據(jù)的Z字形態(tài)并不符合自然情況,故使用離子峰強度與保留時間所形成的二維折線的面積代替原始的離子峰強度數(shù)據(jù),并基于面積數(shù)據(jù)采用小波變換進一步降噪。
由于LC/MS數(shù)據(jù)的噪聲高且其噪聲特征未知,而小波降噪可以對信號去噪且能很好刻畫信號的非平穩(wěn)特征,Salvatore等的實驗也證明基于非抽樣的離散小波變換更適合于LC/MS數(shù)據(jù)降噪[13]。本方法所采用的小波降噪的具體參數(shù)如下:多貝西小波(Daubechies Wavelet)db2、3層分解重構(gòu)、最大重復(fù)離散小波轉(zhuǎn)換、軟閾值、根據(jù)每一層小波分解的噪聲水平估計進行調(diào)整。去噪后數(shù)據(jù)如圖3所示。
圖3 小波去噪曲線(質(zhì)量電荷比:980.123~980.625)
LC/MS數(shù)據(jù)的峰識別是要從離子峰強度中識別出由小分子化合物所引起的峰而過濾掉隨機噪聲。然而僅從離子峰強度很難區(qū)分豐度小的小分子化合物引起的峰與噪聲所引起的峰[14]。本文采用候選峰識別和候選峰過濾兩步方法進行峰識別。
(1) 候選峰識別。本方法采用
來定義峰:峰是由峰頭與峰尾所界定的一截保留時間段。峰頭是加速度由負值或0值變?yōu)檎档谋A魰r間點;峰尾是加速度由正值變?yōu)樨撝祷?值的保留時間點。
加速度的定義是基于離子峰強度所圍區(qū)域的面積,這意味如果一旦一個離子峰強度被抑制超過一個保留時間點就有很大的可能發(fā)生加速度符號的變化,此時一個完整的峰會被識別為兩個獨立的峰。為了將分離峰進行合并,本文設(shè)計了相鄰峰合并測度,
[25]胡奇馨:《宋代銀銅礦考》,載《福建社會》第二卷1、2期合刊;《福建經(jīng)濟發(fā)展簡史》,第163頁,廈門大學(xué)出版社,1989年。
其中峰距=后峰峰頭-前峰峰尾。經(jīng)多次實驗,選取經(jīng)驗值MNP≥7時,合并相鄰峰。
(2) 候選峰過濾。僅由加速度所識別的候選峰含有由噪聲所引起的峰,為消除噪聲峰,本文基于降噪數(shù)據(jù)識別可能的峰頂點。由于LC/MS的各樣本的離子峰強度差異較大,所以根據(jù)降噪后數(shù)據(jù)單獨估計每一個樣本的經(jīng)驗累積分布密度,選取累積分布密度≥95%的保留時間點。在這些保留時間點中選擇其離子峰強度高于其前一保留時間點及后一保留時間點的數(shù)據(jù)點作為峰頂點。對前一步得到的候選峰采用峰頂點進一步篩選,只有那些包含有峰頂點的候選峰才作為識別出的峰(見圖4)。
圖4 峰識別(質(zhì)量電荷比:980.123~980.625)
(1) 峰匹配矩陣?;诿恳粋€樣本所識別出的候選峰,對2個樣本間的候選峰兩兩進行匹配,并計算匹配值mv。首先根據(jù)LC/MS原始數(shù)據(jù)計算每一保留時間點的斜率和面積,并基于此計算2個樣本的候選峰之間匹配段的斜率余弦相似度和面積余弦相似度,以其和作為度量值,其中和最大的匹配段即為2個樣本間的匹配候選峰,
(hl+len-1),areaj_n(l1i+len-1))
(1)
式中:i,j是樣本號;m,n是候選峰號;k,l是候選峰中保留時間點;len是2個候選峰中較短的候選峰長度(len=min(leni_m,lenj_n))。由此,得到任意2個樣本間的候選峰匹配矩陣。
pvin,jn=abs(starl pvintpeaklm-start pointpeakjn+
(2)
式中,pv為最小的匹配段,即為兩樣本間的匹配峰。
此外,由于樣本間候選峰數(shù)也不一樣,存在某一個樣本的一個峰被匹配另一樣本多個不同的峰的可能性。此時,取峰匹配段距離最接近的峰作為匹配峰。
本方法是基于原始數(shù)據(jù)的形態(tài)(每一時間點的斜率和面積)及峰之間的距離進行樣本間離子峰對齊。對識別出的峰按過濾后的峰匹配矩陣移動各樣本中的峰,最終形成峰對齊曲線(見圖5)。
圖5 峰對齊曲線(質(zhì)量電荷比:380.125~380.625,樣本數(shù):20)
由于樣本噪聲及樣本間差異,多個樣本都能對齊的離子峰有更高的可能性對應(yīng)于小分子化合物,表1列出了不同質(zhì)量電荷比下對齊的離子峰樣本數(shù)(說明:質(zhì)量電荷為780.125~780.625的20個樣本中的12沒有檢測出峰)。
表1 對齊的離子峰樣本數(shù)表(20個樣本)
在峰對齊曲線中,將聚積在同一保留時間段上的峰為同一個峰。此外,那些只有一個樣本所表現(xiàn)出來的峰應(yīng)該是該樣本的特性而并不體現(xiàn)多樣本的共同對應(yīng)的小分子化合物,因此對對齊后的峰進行進一步過濾,刪除單樣本峰,最終得到可能對應(yīng)小分子化合物的離子峰。
LC/MS數(shù)據(jù)離子峰對齊是一個具有挑戰(zhàn)的問題,主要的難度包括:峰檢測、峰整合、降噪和標準化等[15]。流行的離子峰數(shù)據(jù)對齊方法,如XCMS(https://xcmsonline.scripps.edu/landing_page.php?pgcontent=mainPage),MetaboAnalyst(http://www.metaboanalyst.ca/)和MetAlign(https://www.wur.nl/en/show/MetAlign-1.htm)等,往往需要經(jīng)過數(shù)據(jù)中心化、移去加合物、數(shù)據(jù)降噪、峰檢測、峰整合、窗口選擇等復(fù)雜的步驟,造成方法結(jié)構(gòu)復(fù)雜、時間復(fù)雜度很高。本文提出的方法是一種快速計算LC/MS數(shù)據(jù)離子峰對齊的方法,該方法具有以下特點:
(1) 結(jié)構(gòu)簡單。本方法只包含3個模塊:數(shù)據(jù)預(yù)處理、峰識別和峰對齊。
(2) 時間復(fù)雜度低。數(shù)據(jù)預(yù)處理階段時間復(fù)雜度為kmst(其中:m是質(zhì)量電荷比數(shù)量;s是樣本數(shù);t是保留時間點數(shù);k是一個常數(shù));峰檢測階段的時間復(fù)雜度為k1mst+k2msp,其中:p是候選峰數(shù)且p?t,因此本階段時間復(fù)雜度依然為kmst;峰對齊階段的時間復(fù)雜度為kms2p2,由于p?t,當樣本數(shù)目不大時,kms2p2 (3) 參數(shù)依賴少。本方法使用參數(shù)4個(已內(nèi)置于算法中,不需要用戶選擇):在數(shù)據(jù)處理階段選擇質(zhì)量電荷比的步長值為0.25;在降噪階段選擇小波去噪及選擇相應(yīng)參數(shù);在峰檢測階段使用合并參數(shù)MNP,本方法中選取經(jīng)驗值7作為域值;在峰過濾階段以累積分布密度≥95%作為域值過濾候選峰。 [1] Daviss B. Growing pains for metabolomics [J]. Scientist, 2005, 19: 25-28. [2] Fiehn O, Kopka J, Dormann P,etal. Metabolite profiling for plant functional genomics [J]. Nat Biotechnol, 2000, 18: 1157-1161. [3] Wandy J, Daly R, Breitling R,etal. Incorporating peak grouping information for alignment of multiple liquid chromatography-mass spectrometry datasets [J]. Bioinformatics, 2015, 31: 1999-2006. [4] Smith R, Ventura D, Prince J T. LC-MS alignment in theory and practice: a comprehensive algorithmic review [J]. Brief Bioinform, 2015, 16: 104-17. [5] Tautenhahn R, Bottcher C, Neumann S. Highly sensitive feature detection for high resolution LC/MS [J]. BMC Bioinformatics, 2008, 9: 504. [6] Zhou B, Xiao J F, Tuli L,etal. LC-MS-based metabolomics [J]. Mol Biosyst, 2012, 8: 470-481. [7] Aberg K M, Alm E, Torgrip R J. The correspondence problem for metabonomics datasets [J]. Anal Bioanal Chem, 2009, 394: 151-162. [8] Hoffmann N, Keck M, Neuweger H,etal. Combining peak- and chromatogram-based retention time alignment algorithms for multiple chromatography-mass spectrometry datasets [J]. BMC Bioinformatics, 2012, 13: 214. [9] Lange E, Tautenhahn R, Neumann S,etal. Critical assessment of alignment procedures for LC-MS proteomics and metabolomics measurements [J]. BMC Bioinformatics, 2008, 9: 375. [10] Smith C A, Want E J, O'maille G,etal. XCMS: Processing mass spectrometry data for metabolite profiling using Nonlinear peak alignment, matching, and identification [J]. Analytical Chemistry, 2006, 78: 779-787. [11] Azizan K A, Ibrahim S, Ghani N H A,etal. LC-MS Based Metabolomics Analysis to Identify Potential Allelochemicals in Wedelia trilobata [J]. Records of Natural Products, 2016, 10: 788-793. [12] Zhang W, Zhao P X. Quality evaluation of extracted ion chromatograms and chromatographic peaks in liquid chromatography/mass spectrometry-based metabolomics data [J]. BMC Bioinformatics, 2014, 15(Suppl 11): S5. [13] Cappadona S, Levander F, Jansson M,etal. Wavelet-based method for noise characterization and rejection in high-performance liquid chromatography coupled to mass spectrometry [J]. Anal Chem, 2008, 80: 4960-4968. [14] Zhang J, Gonzalez E, Hestilow T,etal. Review of peak detection algorithms in liquid-chromatography-mass spectrometry [J]. Curr Genomics, 2009, 10: 388-401. [15] Zhang X, Asara J M, Adamec J,etal. Data pre-processing in liquid chromatography-mass spectrometry-based proteomics [J]. Bioinformatics, 2005, 21: 4054-4059. QuickPeakAlignmentAlgorithmforLC/MS-basedData SUNXiaohan (School of Security and Informatization, Weinan Normal University, Weinan 714000, Shaanxi, China) Liquid chromatography-mass spectrometry (LC/MS) is a technique combining the physical separation and mass analysis. This technique is wisely applied in the metabolomics studies sinceit can detect endogenous metabolites. However, the output data are often accompanied with high noise, and the retention times of ion peaks are nonlinear among samples.There fore it is a necessary step to align the peaks among these samples. The available alignment methods on LC/MS data are not suitable to fast alignment of ion peaks be cause they usually have complex structures and too many parameters to be set. A novel algorithm is proposed to perform fast peak alignment, itincludes three modules: data preprocessing, peak detection and peak alignment. The algorithm is simple in structure, has no parameters to be set by users and low time complexity. liquid chromatography-mass spectrometry (LC/MS); peak alignment; metabolic profile TP 311 A 1006-7167(2017)11-0020-04 2017-03-23 國家自然科學(xué)基金面上項目(61571341);中國國家留學(xué)基金資助項目(210508615092);陜西省自然科學(xué)基金(2017JM6036);渭南師范學(xué)院重點項目(16YKP002) 孫蕭寒(1979-),女,陜西耀縣人,副教授,現(xiàn)主要從事生物信息計算研究。 Tel.:15319118920; E-mail:sxhjpj@sina.com