孫海濤,楊志強(qiáng),李葆紅,陳德展
(1.山東師范大學(xué)信息技術(shù)管理處,山東 濟(jì)南 250014;2.山東師范大學(xué)實(shí)驗(yàn)室與設(shè)備管理處,山東 濟(jì)南 250014;3.山東師范大學(xué)化學(xué)化工與材料科學(xué)學(xué)院,山東 濟(jì)南 250014)
代謝組學(xué)是關(guān)于生物系統(tǒng)代謝物組成及變化規(guī)律的科學(xué),是系統(tǒng)生物學(xué)的重要組成部分[1]。核磁共振(NMR)、GC/MS、LC/MS是代謝組學(xué)研究中常用的3種分析方法。與GC/MS和NMR技術(shù)相比,LC/MS技術(shù)因具有普適性、高靈敏度和特異性,更適于分析難揮發(fā)或熱穩(wěn)定性差的代謝物,因此被廣泛應(yīng)用于疾病診斷、藥物分析等領(lǐng)域,現(xiàn)已成為代謝組學(xué)研究的主流技術(shù)[2-4]。根據(jù)不同的研究目的,代謝組學(xué)研究策略可分為非靶向代謝組學(xué)和靶向代謝組學(xué)。其中,靶向代謝組學(xué)預(yù)先清楚代謝物的成分,不需要進(jìn)行繁瑣的生物信息學(xué)數(shù)據(jù)處理;而基于LC/MS的非靶向代謝組學(xué)一般不對(duì)樣品中的代謝物做預(yù)先鑒定,只是按照既定的流程進(jìn)行樣品預(yù)處理、代謝物提取、LC/MS全掃描檢測(cè)、數(shù)據(jù)預(yù)處理等,因此數(shù)據(jù)處理工作相對(duì)繁重[5]。在非靶向代謝組學(xué)實(shí)驗(yàn)中,UPLC/MS在帶來較高的出峰能力(Zucker大鼠尿樣分析,1 min即可得到1 000多個(gè)峰)[6]、較好的分辨率和靈敏度的同時(shí),也產(chǎn)生了大量的需要處理的原始數(shù)據(jù)。文獻(xiàn)[7-8]通過對(duì)國(guó)內(nèi)外的代謝組學(xué)數(shù)據(jù)處理進(jìn)行分析研究認(rèn)為,高效、準(zhǔn)確的數(shù)據(jù)處理工作是未來代謝組學(xué)發(fā)展的重要方向。
MZmine是芬蘭Matej等[9]開發(fā)的一款開源免費(fèi)的代謝數(shù)據(jù)處理軟件,該軟件能夠完成基于LC/MS模式產(chǎn)生的原始數(shù)據(jù)處理、可視化和分析等任務(wù),具有準(zhǔn)確的數(shù)據(jù)處理能力,被廣泛應(yīng)用于代謝組學(xué)研究[10-11]。隨著LC/MS技術(shù)的發(fā)展,一次實(shí)驗(yàn)的單個(gè)樣本數(shù)據(jù)文件就有幾百M(fèi)甚至幾G,MZmine在單計(jì)算節(jié)點(diǎn)上處理全部樣本數(shù)據(jù)常常耗時(shí)多天。為此,加州大學(xué)的代謝組學(xué)研究人員通過增加單節(jié)點(diǎn)處理器數(shù)目來提高處理速度,發(fā)現(xiàn)相較于單核處理器,四核處理器處理同樣數(shù)據(jù)的速度可以提高20%~30%,但是該方法在處理太大文件時(shí)的效果不佳[12]。在單計(jì)算節(jié)點(diǎn)數(shù)據(jù)處理速度提升受限的情況下,數(shù)據(jù)處理并行化是提高數(shù)據(jù)處理速度的重要手段:蛋白質(zhì)分析軟件X!Tandem并行化以后,在20個(gè)雙核處理器的計(jì)算節(jié)點(diǎn)上處理同樣的計(jì)算任務(wù)的速度提高了40倍[13];在基于LC/MS代謝數(shù)據(jù)多變量的分析階段,Par等[14]采取數(shù)據(jù)降維和劃分時(shí)間窗并行的方法提高數(shù)據(jù)處理速度,黎建輝等[15]也提出了基于MapReduce的并行化方法提高化合物的LC/MS鑒定效率。
數(shù)據(jù)預(yù)處理是代謝組學(xué)研究最復(fù)雜、最耗時(shí)的工作,為提高數(shù)據(jù)處理速度,本研究提出一種數(shù)據(jù)并行的預(yù)處理過程并行化方法,即原始數(shù)據(jù)分組后由多個(gè)安裝了MZmine軟件的計(jì)算節(jié)點(diǎn)分別處理。本工作將對(duì)并行方法的可行性和效率進(jìn)行分析,提出依據(jù)組成成分的保留時(shí)間對(duì)原始數(shù)據(jù)分組,滿足并行計(jì)算的可行性要求;按照譜峰分組,實(shí)現(xiàn)并行處理的負(fù)載均衡,使得并行時(shí)間最短。希望通過該并行方法,解決單計(jì)算節(jié)點(diǎn)數(shù)據(jù)處理慢的問題,有效加快海量代謝數(shù)據(jù)處理的速度。
并行處理是指同時(shí)使用多個(gè)計(jì)算節(jié)點(diǎn)解決問題。一個(gè)問題的并行化需要考慮兩個(gè)方面:一是問題可并行,即計(jì)算任務(wù)能分解成多個(gè)部分同時(shí)執(zhí)行;二是并行處理的負(fù)載均衡問題,即多個(gè)計(jì)算節(jié)點(diǎn)下解決問題的耗時(shí)要少于單個(gè)計(jì)算節(jié)點(diǎn)下的耗時(shí)[16]。從程序和算法設(shè)計(jì)的角度看,并行處理可分為任務(wù)并行和數(shù)據(jù)并行。其中,任務(wù)并行是將處理問題的方法并行化;數(shù)據(jù)并行是把數(shù)據(jù)分解成多個(gè)數(shù)據(jù)子集分別處理,比任務(wù)并行簡(jiǎn)單。本研究采用對(duì)LC/MS產(chǎn)生的原始數(shù)據(jù)分組并行處理的方法。
基于LC/MS進(jìn)行代謝物分析,待測(cè)樣品經(jīng)色譜儀分離時(shí),組分的保留時(shí)間(tR)常用來作為成分鑒定的依據(jù)[17-19]。色譜儀作為質(zhì)譜分析的進(jìn)樣裝置,在質(zhì)譜分析前對(duì)化合物進(jìn)行分離,混合物中各個(gè)化合物依據(jù)其保留時(shí)間依次進(jìn)入質(zhì)譜儀。質(zhì)譜儀連續(xù)掃描采集數(shù)據(jù),每一次掃描得到一幀質(zhì)譜圖,將一幀質(zhì)譜圖中所有的離子強(qiáng)度相加,得到對(duì)應(yīng)掃描時(shí)間的一個(gè)總離子流強(qiáng)度;總離子流隨時(shí)間變化的圖譜是總離子流色譜圖(TIC),以離子強(qiáng)度為縱坐標(biāo),時(shí)間為橫坐標(biāo)。TIC可視為該次分析的色譜圖,即反映該混合物在色譜柱中分離后各組分濃度隨時(shí)間的變化[20]。
從TIC可以發(fā)現(xiàn),當(dāng)總離子強(qiáng)度為零或低于某一個(gè)閾值時(shí),此時(shí)無組分檢出,因此,峰強(qiáng)可以作為組分有無的判定條件。如果成分A在TIC中對(duì)應(yīng)的時(shí)間段為[t1,t2],則對(duì)于原始數(shù)據(jù)而言,依據(jù)t1和t2劃分?jǐn)?shù)據(jù)可以保證成分A數(shù)據(jù)的完整性。此外,數(shù)據(jù)預(yù)處理階段的主要工作是識(shí)別混合物含有的各種成分,一種成分的鑒定是由其自身的保留時(shí)間和離子強(qiáng)度決定的,與其他成分的數(shù)據(jù)關(guān)系是松散耦合的,因此,保留時(shí)間可以作為不同成分?jǐn)?shù)據(jù)劃分的依據(jù)。通過上述分析,按照保留時(shí)間對(duì)數(shù)據(jù)分組能夠滿足數(shù)據(jù)并行的可行性條件。
應(yīng)用軟件并行處理的目的是縮短執(zhí)行時(shí)間,一個(gè)原始數(shù)據(jù)文件在未并行處理之前,所有的預(yù)處理過程都是由一個(gè)計(jì)算節(jié)點(diǎn)單獨(dú)完成的,該過程耗時(shí)較長(zhǎng);并行化以后,數(shù)據(jù)文件被分成多組,交由多個(gè)計(jì)算節(jié)點(diǎn)同時(shí)完成,以此達(dá)到縮短計(jì)算時(shí)間的目的。由于一個(gè)并行處理的執(zhí)行時(shí)間受限于運(yùn)行最慢的部分,所以負(fù)載均衡一直是并行程序設(shè)計(jì)中的一個(gè)重要因素[21]。
負(fù)載均衡考慮的首要因素是需要處理的數(shù)據(jù)的特點(diǎn)以及所應(yīng)用軟件的運(yùn)行方式。在基于數(shù)據(jù)并行的處理模式中,數(shù)據(jù)劃分的效果和質(zhì)量會(huì)影響并行處理的效率[22]。對(duì)代謝數(shù)據(jù)進(jìn)行劃分要考慮代謝數(shù)據(jù)預(yù)處理的特點(diǎn)。代謝數(shù)據(jù)預(yù)處理包括峰識(shí)別、重疊峰解析、峰對(duì)齊和歸一化等[23]。數(shù)據(jù)處理在TIC不同時(shí)間段的復(fù)雜度不同,在有譜峰出現(xiàn)的時(shí)間段,需要進(jìn)行大量的數(shù)據(jù)計(jì)算,耗時(shí)較長(zhǎng);在沒有組分?jǐn)?shù)據(jù)檢出的時(shí)間段,計(jì)算耗時(shí)較短。根據(jù)代謝數(shù)據(jù)預(yù)處理的這一特點(diǎn),按照譜峰進(jìn)行數(shù)據(jù)分組來實(shí)現(xiàn)并行處理的負(fù)載均衡。
按照譜峰,而不是樣品檢測(cè)時(shí)間對(duì)數(shù)據(jù)平均分組實(shí)現(xiàn)負(fù)載均衡,是根據(jù)代謝物組成成分的性質(zhì)不同。因樣品經(jīng)過色譜儀分離后進(jìn)入質(zhì)譜儀的時(shí)間并不相同,而離子檢測(cè)器是以固定頻率進(jìn)行掃描,在某個(gè)時(shí)間段可能并無成分被檢測(cè)到,所以數(shù)據(jù)在整個(gè)儀器運(yùn)行時(shí)間的分布并不均衡。在定長(zhǎng)的時(shí)間段內(nèi),譜峰的數(shù)目并不完全相同,因此在任務(wù)分解時(shí)不能按照樣品檢測(cè)時(shí)間平均分段來分組數(shù)據(jù)。小鼠血清樣本的總離子流色譜圖和三維色譜-質(zhì)譜圖示于圖1,可以發(fā)現(xiàn)數(shù)據(jù)在全檢測(cè)時(shí)間分布的不均衡性。
此外,各個(gè)計(jì)算節(jié)點(diǎn)的計(jì)算能力、I/O、圖形處理能力等也是負(fù)載均衡考慮的因素。在本研究中,為了簡(jiǎn)化問題的復(fù)雜度,將參與計(jì)算的節(jié)點(diǎn)配置成完全相同,目的是消除由于配置不同導(dǎo)致的負(fù)載不均衡問題;數(shù)據(jù)在每個(gè)計(jì)算節(jié)點(diǎn)上由MZmine獨(dú)立完成預(yù)處理任務(wù),計(jì)算過程中不同節(jié)點(diǎn)不需要交換數(shù)據(jù),這也消除了由于數(shù)據(jù)通信帶來的負(fù)載均衡問題;此外,由于數(shù)據(jù)預(yù)處理工作是由同一軟件完成的,消除了處理方法不同造成的負(fù)載均衡問題。
圖1 小鼠血清樣本的總離子流色譜圖(a)和三維色譜-質(zhì)譜圖(b)Fig.1 TIC (a) and 3D chromatography mass spectrum (b) of the mice serum
按照譜峰分組數(shù)據(jù)的目的是提高并行效率,但是原始數(shù)據(jù)并不以譜峰形式存在。在TIC中,一個(gè)譜峰時(shí)間窗含有多個(gè)數(shù)據(jù)點(diǎn)(DP),一個(gè)數(shù)據(jù)點(diǎn)是一次儀器全掃描的結(jié)果。一般來講,最窄的色譜峰至少包括10個(gè)DP,也有以20或40個(gè)點(diǎn)作為檢測(cè)譜峰的標(biāo)準(zhǔn)[24-25]。以時(shí)間窗口表示譜峰,一個(gè)原始的TIC由多個(gè)時(shí)間窗組成,于是在按照譜峰進(jìn)行負(fù)載均衡時(shí),問題就變成了時(shí)間窗口的劃分。在由分離完全的組分形成的原始譜圖中,譜峰在時(shí)間軸上是一個(gè)時(shí)間窗[ts,te],ts表示一種組分經(jīng)過色譜儀分離后開始進(jìn)入質(zhì)譜儀的時(shí)間,te表示這種組分從質(zhì)譜儀完全流出的時(shí)間。當(dāng)組分分離不完全時(shí),在譜圖上有重疊峰出現(xiàn),雖然重疊峰是不同組分的集合,但是也可以表示為[ts,te]。在后續(xù)的譜峰預(yù)識(shí)別中,本研究將不再對(duì)峰和重疊峰進(jìn)行區(qū)分,統(tǒng)一以峰來對(duì)待。
在譜峰預(yù)識(shí)別時(shí)允許存在重疊峰,是因?yàn)殡S著LC/MS技術(shù)的發(fā)展,特別是UPLC/MS的使用,多數(shù)組分能夠得到完全的分離,表現(xiàn)在譜圖上就是峰與峰之間有明顯的邊界,重疊峰在原始數(shù)據(jù)中只占很少的部分。在并行效率方面,譜峰的個(gè)數(shù)遠(yuǎn)遠(yuǎn)大于計(jì)算節(jié)點(diǎn)的個(gè)數(shù),每個(gè)計(jì)算節(jié)點(diǎn)上實(shí)際分得大量的譜峰數(shù)據(jù),這樣即使由于少量重疊峰的存在導(dǎo)致某個(gè)計(jì)算節(jié)點(diǎn)在數(shù)據(jù)預(yù)處理階段耗時(shí)長(zhǎng)一點(diǎn),但是相對(duì)單節(jié)點(diǎn)計(jì)算耗時(shí)(T串)以及并行處理時(shí)長(zhǎng)(T并),額外耗時(shí)所占的比重也很小。在依據(jù)譜峰對(duì)數(shù)據(jù)分組并行時(shí),忽略重疊峰不會(huì)對(duì)負(fù)載均衡造成較大的影響,但是卻能明顯降低數(shù)據(jù)分組的難度。
代謝數(shù)據(jù)依據(jù)保留時(shí)間分組滿足了并行處理的可行性條件,按照譜峰分組能實(shí)現(xiàn)并行處理的負(fù)載均衡,譜峰的時(shí)間窗表示使得TIC中的譜峰與實(shí)測(cè)的按保留時(shí)間記錄的數(shù)據(jù)實(shí)現(xiàn)了一一對(duì)應(yīng)。代謝數(shù)據(jù)并行處理的流程是:管理節(jié)點(diǎn)接收原始數(shù)據(jù)后,按照樣品檢測(cè)時(shí)間對(duì)原始數(shù)據(jù)平均分組,分發(fā)給各個(gè)計(jì)算節(jié)點(diǎn),計(jì)算節(jié)點(diǎn)對(duì)分組數(shù)據(jù)所包含的譜峰進(jìn)行預(yù)識(shí)別;預(yù)識(shí)別完成后,管理節(jié)點(diǎn)對(duì)譜峰進(jìn)行統(tǒng)計(jì),再按照譜峰將原始數(shù)據(jù)平均分組,由MZmine完成代謝數(shù)據(jù)的預(yù)處理工作。為了便于陳述,在實(shí)際計(jì)算時(shí)以時(shí)間窗來劃分譜峰數(shù)據(jù),但在論述時(shí)仍然以按譜峰分組表示實(shí)現(xiàn)負(fù)載均衡的并行模式。
常用的譜峰識(shí)別方法有幅值法和斜率鑒別法。歐林軍等[25]利用標(biāo)尺與色譜曲線的交點(diǎn)來識(shí)別色譜峰;劉曉[26]利用迭代移動(dòng)平均及歸一化分析技術(shù)提高譜峰的識(shí)別率;這些方法在準(zhǔn)確識(shí)別譜峰的同時(shí)也增加了計(jì)算的耗時(shí)。本研究提出了一種按照總離子強(qiáng)度對(duì)TIC中譜峰預(yù)識(shí)別的算法,該算法以i值確定色譜峰起始點(diǎn)和結(jié)束點(diǎn),不對(duì)同一峰中的混合成分進(jìn)行分離。譜峰預(yù)識(shí)別的目的是統(tǒng)計(jì)數(shù)據(jù)預(yù)處理總的工作量,不作為成分鑒定的依據(jù)。譜峰預(yù)識(shí)別算法分為譜峰時(shí)間窗識(shí)別和消除干擾值兩個(gè)步驟。
2.1.1譜峰時(shí)間窗識(shí)別 原始的代謝數(shù)據(jù)由一些離散的點(diǎn)組成,每個(gè)點(diǎn)有一個(gè)數(shù)值對(duì)(t,i),這些離散的點(diǎn)構(gòu)成了一個(gè)時(shí)間序列{(t1,i1),(t2,i2),…, (tR,in)}。在有譜峰存在的時(shí)間窗口i值呈現(xiàn)規(guī)律性的增加或減少,但都滿足i>ib,ib是基線信號(hào)。設(shè)定x=i-ib,x是扣除基線信號(hào)后的強(qiáng)度,則峰與峰之間掃描點(diǎn)的x值為零,于是對(duì)譜峰的預(yù)識(shí)別變成尋找時(shí)間序列中連續(xù)的x非零的時(shí)間窗。
2.1.2消除干擾值 由于儀器或操作造成的誤差,經(jīng)過處理的數(shù)據(jù)仍然有很多x非零,但實(shí)際不是譜峰的時(shí)間窗,可以通過以下兩種方法對(duì)這些時(shí)間窗進(jìn)行排除:一是根據(jù)譜峰應(yīng)包含的最少點(diǎn)的個(gè)數(shù),連續(xù)的x>0點(diǎn)的個(gè)數(shù)多于20個(gè)的時(shí)間窗才能作為譜峰的候選;二是對(duì)多于20個(gè)點(diǎn)的時(shí)間窗,通過計(jì)算標(biāo)準(zhǔn)差排除非譜峰時(shí)間窗,只有在標(biāo)準(zhǔn)差大于一定值時(shí)才認(rèn)為存在譜峰,即:
(1)
式中,N表示連續(xù)的非零點(diǎn)的個(gè)數(shù),φ表示連續(xù)的偏離基線信號(hào)的噪音值。在實(shí)際操作中,φ需要經(jīng)過不斷調(diào)整才能既去除噪音,又保證不丟失譜峰信息。
通過上述算法完成對(duì)譜峰的預(yù)識(shí)別,得到記錄譜峰的數(shù)組P,數(shù)組中每個(gè)元素記錄了譜峰的起止時(shí)間,如Pn[tns,tne]中,tns表示第n個(gè)峰的開始時(shí)間,tne表示這個(gè)峰的結(jié)束時(shí)間。
譜峰預(yù)識(shí)別可以由單一計(jì)算節(jié)點(diǎn)完成,也可以并行處理。并行處理時(shí),管理節(jié)點(diǎn)將原始數(shù)據(jù)接收進(jìn)來后,按照樣品檢測(cè)時(shí)間對(duì)原始數(shù)據(jù)平均分組分發(fā)給每個(gè)計(jì)算節(jié)點(diǎn)。譜峰預(yù)識(shí)別并行處理數(shù)據(jù)分組示于圖2(實(shí)線部分)。譜峰預(yù)識(shí)別算法的時(shí)間復(fù)雜度低,在并行處理時(shí)各個(gè)節(jié)點(diǎn)耗時(shí)相差不大,因此這一過程不考慮負(fù)載均衡。按照時(shí)間平均分組,在TIC上會(huì)出現(xiàn)譜峰被分割的情況,原始數(shù)據(jù)則是某段數(shù)據(jù)后面出現(xiàn)連續(xù)多個(gè)x大于0,但是總數(shù)又少于20個(gè)的點(diǎn),在譜峰預(yù)識(shí)別時(shí)將這些點(diǎn)默認(rèn)為一個(gè)譜峰,ts以第1個(gè)非0點(diǎn)開始的時(shí)刻為準(zhǔn)。
圖2 原始數(shù)據(jù)不同分組方法示意圖Fig.2 Different group methods for raw data
譜峰預(yù)識(shí)別完成后,得到以譜峰為衡量的總工作量。按照譜峰對(duì)數(shù)據(jù)平均分組,就是將預(yù)識(shí)別的譜峰平均分配到每個(gè)計(jì)算節(jié)點(diǎn)上。如第m個(gè)節(jié)點(diǎn)分得的譜峰段為[Pl,Pk],則該節(jié)點(diǎn)實(shí)際分得數(shù)據(jù)的時(shí)間窗為[tls,tke],tls為第l個(gè)峰的開始時(shí)間,tke為第k個(gè)峰的結(jié)束時(shí)間,其分組方法示于圖2(虛線部分)。
實(shí)驗(yàn)數(shù)據(jù)是小鼠血清樣本經(jīng)過UPLC-Q TOF-MS檢測(cè)得到的,采用全掃描模式,樣品檢測(cè)時(shí)間為0~12 min。并行處理環(huán)境為5個(gè)配置完全相同的計(jì)算節(jié)點(diǎn),1個(gè)為管理節(jié)點(diǎn),4個(gè)為計(jì)算節(jié)點(diǎn);管理節(jié)點(diǎn)在完成數(shù)據(jù)接收、分組、匯總等工作的同時(shí)也參與代謝數(shù)據(jù)預(yù)處理任務(wù)。5個(gè)節(jié)點(diǎn)都預(yù)裝了MZmine和自行開發(fā)的代謝數(shù)據(jù)并行處理軟件PMDP(parallel metabonomic data process)。PMDP具有完成代謝數(shù)據(jù)的接收、譜峰預(yù)識(shí)別、數(shù)據(jù)分組以及與MZmine通信等功能。
實(shí)驗(yàn)數(shù)據(jù)處理分為3種模式:1) 單計(jì)算節(jié)點(diǎn)模式,由一個(gè)計(jì)算節(jié)點(diǎn)完成所有代謝數(shù)據(jù)預(yù)處理任務(wù);2) 時(shí)間并行模式,按樣品檢測(cè)時(shí)間平均分段對(duì)數(shù)據(jù)分組的并行處理模式;3)譜峰并行模式,按譜峰對(duì)數(shù)據(jù)平均分組的并行處理模式。為了便于比較并行結(jié)果,本研究引入了相對(duì)時(shí)間(tr)的概念,即以單節(jié)點(diǎn)計(jì)算耗時(shí)(T串)作為基準(zhǔn)時(shí)間,并行處理時(shí),各計(jì)算節(jié)點(diǎn)耗時(shí)與之對(duì)比得到相對(duì)計(jì)算時(shí)間。如,單節(jié)點(diǎn)處理30個(gè)樣品耗時(shí)為18 h,則T串=18,并行處理時(shí)某節(jié)點(diǎn)耗時(shí)為6 h,則該節(jié)點(diǎn)的相對(duì)時(shí)間tr=6/18=0.33。tr的引入是一種歸一化處理方式,消除了樣品本身性質(zhì)的影響,從而使并行結(jié)果具有普遍意義。歸一化后,t串=1,t并=Max(tr)。從圖2可以看出,時(shí)間并行模式與譜峰并行模式兩種分組方法在整個(gè)樣品檢測(cè)時(shí)間的數(shù)據(jù)分組不同;時(shí)間并行模式與譜峰預(yù)識(shí)別的數(shù)據(jù)分組方法相同。原始數(shù)據(jù)為27個(gè)血清樣本,在單計(jì)算節(jié)點(diǎn)上預(yù)處理耗時(shí)約為23 h 40 min,2種并行處理模式的tr統(tǒng)計(jì)結(jié)果列于表1。
表1 同一數(shù)據(jù)2種并行模式的trTable 1 tr of two parallel computing modes
注:1)T是計(jì)算節(jié)點(diǎn)分組數(shù)據(jù)所在的時(shí)間窗,0~2.4 min是P1節(jié)點(diǎn)在按時(shí)間并行模式時(shí),對(duì)這個(gè)時(shí)間窗口的數(shù)據(jù)進(jìn)行預(yù)處理;
2) 在數(shù)據(jù)處理時(shí),按照譜峰并行模式也是以時(shí)間窗來分組數(shù)據(jù)
從表1可以看出:在并行時(shí)間的耗時(shí)方面,譜峰并行模式要少于時(shí)間并行模式;在負(fù)載效果方面,平均偏差大則說明各個(gè)計(jì)算節(jié)點(diǎn)的負(fù)載均衡不理想,因此,譜峰并行的負(fù)載均衡效果要更好一些。加速比(speedup)是指求解同一計(jì)算任務(wù)在單計(jì)算節(jié)點(diǎn)消耗的時(shí)間T串與在節(jié)點(diǎn)數(shù)為P的并行系統(tǒng)中消耗的時(shí)間T并的比值,即Sp=T串/T并,常用來衡量一個(gè)并行算法的效果[27]。加速比與本研究引入的相對(duì)時(shí)間的關(guān)系為Sp=1/tr。更多的實(shí)驗(yàn)數(shù)據(jù)證實(shí),隨著計(jì)算節(jié)點(diǎn)的增多以及代謝數(shù)據(jù)規(guī)模的擴(kuò)大,譜峰并行模式的加速比Sp≈P;而時(shí)間并行模式的加速比則具有較大的隨意性,在(1,P)之間波動(dòng),Sp與代謝物中成分組成有關(guān)。譜峰并行模式時(shí),不同計(jì)算節(jié)點(diǎn)數(shù)目Sp趨勢(shì)示于圖3。
圖3 譜峰并行模式時(shí),不同節(jié)點(diǎn)數(shù)目的加速比Fig.3 Speedup of different node numbers in peak grouping mode
本研究提出了一種基于LC/MS的代謝組學(xué)數(shù)據(jù)并行處理方法,原始數(shù)據(jù)分組后由成熟的代謝數(shù)據(jù)處理軟件MZmine分別處理。實(shí)驗(yàn)結(jié)果表明,隨著待處理數(shù)據(jù)的增多以及參與并行處理節(jié)點(diǎn)的增多,譜峰并行模式的加速比Sp趨近于線性加速比P。該方法部署簡(jiǎn)單、可擴(kuò)展性強(qiáng),可以解決單計(jì)算節(jié)點(diǎn)數(shù)據(jù)處理速度慢的問題,且能快速準(zhǔn)確地處理基于LC/MS產(chǎn)生的海量數(shù)據(jù)。
[1] 王獻(xiàn),林樹海,蔡宗葦. 基于質(zhì)譜技術(shù)的代謝組學(xué)研究及其在中國(guó)的發(fā)展[J]. 中國(guó)科學(xué):化學(xué),2014,44(5):724-731.
WANG Xian, LIN Shuhai, CAI Zongwei. Mass spectrometry-based metabolomics and their developments in China[J]. Scientia Sinica Chimica, 2014, 44(5): 724-731(in Chinese).
[2] 李寧,范雪梅,王義明,等. 代謝組學(xué)及其分析技術(shù)的研究進(jìn)展[J]. 中南藥學(xué),2014,12(7):668-673.
LI Ning, FAN Xuemei, WANG Yiming, et al. Development of metabolomics and its analytical technique[J]. Central South Pharmacy, 2014, 12(7): 668-673(in Chinese).
[3] 蘇翠紅,李笑天. 液相色譜和質(zhì)譜聯(lián)用技術(shù)及其在代謝組學(xué)中的應(yīng)用[J]. 中華婦幼臨床醫(yī)學(xué)雜志:電子版,2010,6(1):62-64.
SU Cuihong, LI Xiaotian. High performance liquid chromatography mass sepctrometry and its application in metabonomics[J]. Chinese Journal of Obstetrics & Gynecology and Pediatrics: Electronic Edition, 2010, 6(1): 62-64(in Chinese).
[4] 王鵬遠(yuǎn),張金蘭. LC/MS技術(shù)在發(fā)現(xiàn)和鑒定藥物中有關(guān)物質(zhì)的應(yīng)用[J]. 質(zhì)譜學(xué)報(bào),2010,31(6):362-367.
WANG Pengyuan, ZHANG Jinlan. Applications of LC/MS in discovery and characterization of related impurities in drug[J]. Journal of Chinese Mass Spectrometry Society, 2010, 31(6): 362-367(in Chinese).
[5] 趙春霞,許國(guó)旺. 基于液相色譜-質(zhì)譜技術(shù)的代謝組學(xué)分析方法新進(jìn)展[J]. 分析科學(xué)學(xué)報(bào),2014,30(5):761-766.
ZHAO Chunxia, XU Guowang. Progress of metabonomics technique based on liquid chromatography-mass spectrometry[J]. Journal of Analytical Science, 2014, 30(5): 761-766(in Chinese).
[6] 謝躍生,潘桂湘,高秀梅,等. 高效液相色譜技術(shù)在代謝組學(xué)研究中的應(yīng)用[J]. 分析化學(xué),2006,34(11):1 644-1 648.
XIE Yuesheng, PAN Guixiang, GAO Xiumei, et al. Application of high performance liquid chromatographic technique in metabonomics studies[J]. Chinese Journal of Analytical Chemistry, 2006, 34(11): 1 644-1 648(in Chinese).
[7] 盧紅梅,梁逸曾. 代謝組學(xué)分析技術(shù)及數(shù)據(jù)處理技術(shù)[J]. 分析測(cè)試學(xué)報(bào),2008,27(3):325-332.
LU Hongmei, LIANG Yizeng. The development of analytical technologies and data mining in metabolomics[J]. Journal of Instrumental Analysis, 2008, 27(3): 325-332(in Chinese).
[8] 亓云鵬,胡杰偉,柴逸峰,等. 代謝組學(xué)數(shù)據(jù)處理研究的進(jìn)展[J]. 計(jì)算機(jī)與應(yīng)用化學(xué),2008,25(9):1 139-1 142.
QI Yunpeng, HU Jiewei, CHAI Yifeng, et al. Advances of data analysis in metabonomics study[J]. Computers and Applied Chemistry, 2008, 25(9): 1 139-1 142(in Chinese).
[9] TOMAS P, SANDRA C, ALEJANDRO V B, et al. MZmine 2: Modular framework for processing, visualizing, and analyzing mass spectrometry-based molecular profile data[J]. Bioinformatics, 2010, 11(1): 1-11.
[10] TREVINO V, YANEZ-GARZA L L, RODRIQUEZ-LOPEZ C E, et al. GridMass: A fast two-dimensional feature detection method for LC/MS[J]. Journal of Mass Spectrometry, 2015, 50(1): 165-174.
[11] COBLE J B, FRAGA C G. Comparative evaluation of preprocessing freeware on chromatography/mass spectrometry data for signature discovery[J]. Journal of Chromatography A, 2014, 1358: 155-164.
[12] TOBIAS K. West Coast Metabolomics Center at UC Davis. MZmine[EB/OL]. http:∥fiehnlab.ucdavis.edu/staff/kind/Metabolomics/Peak_Ali-gnment/mzmine/.
[13] DEXTER D, ANDREW L. Vanderbilt university school of medicine. Parallel Tandem[EB/OL]. http:∥www.thegpm.org/parallel/.
[14] PAR J, STEPHEN J B, THOMAS M, et al. Extraction, interpretation and validation of information for comparing samples in metabolic LC/MS data sets[J]. Analyst, 2005, 130(5): 701-707.
[15] 黎建輝,劉勇,王衛(wèi)華,等. MapReduce計(jì)算模型下的化合物L(fēng)C/MS鑒定[J]. 計(jì)算機(jī)科學(xué)與探索,2011,5(12):1 094-1 103.
LI Jianhui, LIU Yong, WANG Weihua, et al. LC/MS compounds identification under MapReduce[J]. Journal of Frontiers of Computer Science and Technology, 2011, 5(12): 1 094-1 103(in Chinese).
[16] 陳國(guó)良,孫廣中,徐云,等. 并行計(jì)算的一體化研究現(xiàn)狀與發(fā)展趨勢(shì)[J]. 科學(xué)通報(bào),2009,54(8):1 043-1 049.
CHEN Guoliang, SUN Guangzhong, XU Yun, et al. Integrated research of parallel computing: Status and future[J]. Chinese Science Bulletin, 2009, 54(8): 1 043-1 049(in Chinese).
[17] 潘芳芳. HPLC-QTOF-MS聯(lián)用技術(shù)在藥物雜質(zhì)分析中的運(yùn)用[D]. 杭州:浙江工業(yè)大學(xué),2013.
[18] 張良曉. 氣相色譜-質(zhì)譜定性定量分析新方法研究[D]. 長(zhǎng)沙:中南大學(xué),2011.
[19] 邵晨,高友鶴. 色譜保留時(shí)間在蛋白質(zhì)組研究中的應(yīng)用[J]. 色譜,2010,28(2):128-134.
SHAO Chen, GAO Youhe. Application of peptide retention time in proteome research[J]. Chinese Journal of Chromatography, 2010, 28(2): 128-134(in Chinese).
[20] 蔣學(xué)慧. 色譜-質(zhì)譜聯(lián)用儀數(shù)據(jù)處理關(guān)鍵技術(shù)的研究[D]. 天津:天津大學(xué),2013.
[21] 廖湘科. 網(wǎng)絡(luò)并行計(jì)算中的負(fù)載平衡[J]. 小型微型計(jì)算機(jī)系統(tǒng),1995,16(9):32-36.
LIAO Xiangke. Load balance in network parallel computing[J]. Mini-Micro Systems, 1995, 16(9): 32-36(in Chinese).
[22] 胡霞. 并行計(jì)算如何用于科學(xué)問題研究[J]. 科技資訊,2009:176.
HU Xia. Parallel computing in scientific research[J]. Science & Technologying Information, 2009: 176(in Chinese).
[23] 汪明明,程海婷,薛明. 基于LC/MS的代謝組學(xué)分析流程與技術(shù)方法[J]. 國(guó)際藥學(xué)研究雜志,2011,38(2):130-136.
WANG Mingming, CHENG Haiting, XUE Ming. Recent development of LC-MS-based analytical procedures and techniques in metabonomics[J]. Journal of International Pharmaceutical Research, 2011, 38(2): 130-136(in Chinese).
[24] HANS J K, STAVROS K. 液相與氣相色譜定量分析使用指南[M]. 陳小明,唐雅妍,譯. 北京:人民衛(wèi)生出版社,2010:43.
[25] 歐林軍,曹建. 一種變壓器油色譜峰識(shí)別算法的設(shè)計(jì)[J]. 色譜,2014,32(9):1 019-1 024.
OU Linjun, CAO Jian. A peak recognition algorithm designed for chromatographic peaks of transformer oil[J]. Chinese Journal of Chromatography, 2014, 32(9): 1 019-1 024(in Chinese).
[26] 劉曉. 識(shí)別色譜峰的一種方法[J]. 分析儀器,2005,(3):54-57.
LIU Xiao. A new method for distinguishing gas chromatographic peaks[J]. Analytical Instrumentation, 2005, (3): 54-57(in Chinese).
[27] 謝超,麥聯(lián)叨,都志輝,等. 關(guān)于并行計(jì)算系統(tǒng)中加速比的研究與分析[J]. 計(jì)算機(jī)工程與應(yīng)用,2003,39:66-68.
XIE Chao, MAI Liandao, DU Zhihui, et al. Research and analysis of parallel computing system speedup[J]. Computer Engineering and Applications, 2003, 39: 66-68(in Chinese).