崔 健
(中國(guó)石油大學(xué)勝利學(xué)院 基礎(chǔ)科學(xué)學(xué)院,山東 東營(yíng) 257061)
液相色譜-質(zhì)譜聯(lián)用儀(LC-MS)是由液相色譜儀與質(zhì)譜儀結(jié)合而構(gòu)成的分析儀器,它結(jié)合了液相色譜儀有效分離熱不穩(wěn)性、高沸點(diǎn)化合物的分離能力與質(zhì)譜儀很強(qiáng)的組分鑒定能力,是一種分離分析復(fù)雜有機(jī)混合物的有效手段[1],是發(fā)現(xiàn)并分析生物標(biāo)志物中復(fù)雜肽信號(hào)的關(guān)鍵技術(shù)[2]。為了得到肽鏈更準(zhǔn)確信息,部分試驗(yàn)采用二級(jí)質(zhì)譜聯(lián)用(MS/MS),通過碰撞誘導(dǎo)解離給出化合物的碎片離子等結(jié)構(gòu)信息,能量越大打成的碎片越多。由低級(jí)別離子對(duì)肽鏈成分進(jìn)行進(jìn)一步分析,可以降低對(duì)質(zhì)譜的要求,能夠獲取到肽鏈組成、準(zhǔn)確的電荷數(shù)目及時(shí)間等信息。在實(shí)際操作中,為了提高肽鏈檢測(cè)覆蓋率及量化準(zhǔn)確度,經(jīng)常采取對(duì)相同樣本的多次重復(fù)試驗(yàn)[3],理論上同種肽鏈在不同次試驗(yàn)中應(yīng)該出現(xiàn)在相同LC時(shí)間與M/Z位置,試驗(yàn)譜圖應(yīng)該是一致的[4]。但是,由于試驗(yàn)誤差不可避免,譜圖普遍存在時(shí)間偏移的情況,因此需要對(duì)多個(gè)譜圖進(jìn)行校準(zhǔn)[5]。目前,比較通用的軟件如Quil[6]、proteinquant[7]、msinspect[8]、OpenMS[9]和superhirn[10]等對(duì)于重復(fù)試驗(yàn)數(shù)據(jù)校準(zhǔn)基本為整體時(shí)間譜圖校準(zhǔn)。對(duì)于復(fù)雜譜圖,例如較小的時(shí)間窗口中產(chǎn)生多個(gè)LC峰的情況,這樣時(shí)間修正就會(huì)存在修正錯(cuò)誤的問題。因此,本次研究采用二級(jí)質(zhì)譜聯(lián)用(MS/MS)獲取的肽鏈信息作為訓(xùn)練序列,通過Warping函數(shù)來(lái)進(jìn)行時(shí)間校準(zhǔn),并聯(lián)合使用貝葉斯統(tǒng)計(jì)方法對(duì)Warping函數(shù)進(jìn)行提升,對(duì)任意峰對(duì)給出相關(guān)信號(hào)概率及非相關(guān)信號(hào)概率,并驗(yàn)證有效性。最后,將多個(gè)數(shù)據(jù)的肽鏈信號(hào)對(duì)通過該方法進(jìn)行校準(zhǔn)匹配,并驗(yàn)證覆蓋率。
處理數(shù)據(jù)由RCMI Proteomics and Protein Biomarkers Cores試驗(yàn)室產(chǎn)生,經(jīng)過LTQ OrbitrapVelos儀器處理的一組TAGE腫瘤樣本。LC-MS試驗(yàn)是將蛋白質(zhì)切割成肽鏈,并使用試劑利用肽鏈斥水性不同的特性,將其沖入到質(zhì)譜儀中。斥水性不同導(dǎo)致肽鏈進(jìn)入質(zhì)譜儀形成譜圖的時(shí)間就不一致,形成了不同肽鏈時(shí)間上的區(qū)分。進(jìn)入質(zhì)譜儀中的肽鏈將隨機(jī)帶上電荷,根據(jù)不同肽鏈大小、質(zhì)量、帶電荷不同的特性,形成的質(zhì)量與電荷比(M/Z)值不同,形成質(zhì)荷比維度的區(qū)分。同一種肽鏈由于具備相同斥水性及質(zhì)荷比,因此理論上將出現(xiàn)在譜圖中的一個(gè)特定位置上,此類譜圖為L(zhǎng)evel 1數(shù)據(jù)(圖1)。由于儀器操作等影響,為了提高精度,一般將進(jìn)一步進(jìn)行MS/MS試驗(yàn),即從Level1譜圖中隨機(jī)選取位置,將肽鏈進(jìn)行成分分析確定肽鏈組成,稱為L(zhǎng)evel 2數(shù)據(jù)。
圖1 數(shù)據(jù)1譜圖
本次研究從多組試驗(yàn)中選取了兩組數(shù)據(jù)(數(shù)據(jù)1與數(shù)據(jù)2)進(jìn)行分析,由MS/MS檢測(cè)到肽信號(hào)信息(圖2)。
圖2 MS/MS檢測(cè)結(jié)果韋恩圖
數(shù)據(jù)處理分為“數(shù)據(jù)預(yù)處理”、“訓(xùn)練與測(cè)試數(shù)據(jù)集生成”、“Warping函數(shù)及貝葉斯統(tǒng)計(jì)方法建?!?、“模型驗(yàn)證及全集校準(zhǔn)”四個(gè)部分。
1.2.1 數(shù)據(jù)預(yù)處理
在數(shù)據(jù)預(yù)處理中,根據(jù)MS/MS信息表,生成肽信號(hào)合集,并計(jì)算肽鏈荷質(zhì)比(M/Z值),以肽鏈M/Z值為中心,前后20×10-6寬度,計(jì)算LC譜圖,生成肽鏈的全時(shí)間段XICs(圖3)。然后,在全時(shí)段XICs上進(jìn)行區(qū)間檢測(cè)。
圖3 肽鏈“CSTSSLLEACTFR”全時(shí)段XICs
1.2.2 訓(xùn)練與測(cè)試數(shù)據(jù)集生成
生成訓(xùn)練和測(cè)試數(shù)據(jù)集的原則是肽鏈信號(hào)必須具備可驗(yàn)證的真實(shí)值(ground truth)。由MS/MS檢測(cè)到的肽信號(hào)即為真實(shí)信號(hào),其具有的M/Z值與時(shí)間值即為真實(shí)可靠的值。因此,選擇圖2交集部分(共700個(gè)肽鏈)作為訓(xùn)練與測(cè)試數(shù)據(jù)集。在訓(xùn)練測(cè)試數(shù)據(jù)集中,首先進(jìn)行區(qū)間檢測(cè)預(yù)處理,能夠檢測(cè)到的區(qū)間,即具備較好的峰值。區(qū)間包含MS/MS時(shí)間點(diǎn)即為可用肽鏈。經(jīng)過區(qū)間檢測(cè)預(yù)處理,共599個(gè)肽鏈可用。采用2-折交叉驗(yàn)證,即隨機(jī)選取一半作為訓(xùn)練,一半作為測(cè)試。訓(xùn)練序列用于warping函數(shù)與貝葉斯統(tǒng)計(jì)模型的生成,測(cè)試序列用于測(cè)試模型產(chǎn)生的肽信號(hào)匹配結(jié)果的準(zhǔn)確性(以MS/MS檢測(cè)值作為真實(shí)數(shù)據(jù))。
1.2.3 Warping函數(shù)及貝葉斯統(tǒng)計(jì)方法建模
對(duì)于生成的訓(xùn)練序列,選取由MS/MS確定的相關(guān)信號(hào)時(shí)間對(duì)生成Warping函數(shù)。在使用Warping函數(shù)擬合之前剔除偏差較大的奇異點(diǎn)。采取每個(gè)訓(xùn)練序列肽信號(hào)的數(shù)據(jù)1時(shí)間減去數(shù)據(jù)2時(shí)間,然后計(jì)算方差,采用平均值±3倍標(biāo)準(zhǔn)差作為標(biāo)準(zhǔn),將外部的點(diǎn)去掉,直方圖如圖4所示。
圖4 時(shí)間差直方圖
然后采用四階多項(xiàng)式作為Warping函數(shù)擬合,生成多項(xiàng)式參數(shù),擬合后如圖5所示。
圖5 Warping函數(shù)擬合結(jié)果
下一步將計(jì)算由MS/MS檢測(cè)結(jié)果確定為相關(guān)信號(hào)的時(shí)間對(duì)、確定為非相關(guān)信號(hào)的時(shí)間對(duì),分別距離Warping函數(shù)的時(shí)間差值,如圖6所示。
分別對(duì)相關(guān)信號(hào)時(shí)間差值和非相關(guān)信號(hào)時(shí)間差值建模。以相關(guān)信號(hào)時(shí)間差值建模為例,根據(jù)測(cè)試數(shù)據(jù)中的時(shí)間差,得到n個(gè)樣本t(t1,t2,t3,…,tn),其中ti是測(cè)試序列中第i對(duì)信號(hào)的時(shí)間差值。通過對(duì)樣本的直方圖觀察,基本符合正態(tài)分布特征,一般情況下正態(tài)分布的概率密度函數(shù)中包含的兩個(gè)參數(shù)μ和σ由樣本值進(jìn)行最大似然估計(jì)。使用貝葉斯統(tǒng)計(jì)方法進(jìn)行建模,首先設(shè)定先驗(yàn)信息(Prior),即將參數(shù)μ和σ看作為兩個(gè)隨機(jī)變量,其服從以下分布特征:
p(μ|σ2)~N(μ0,σ2/κ0),
圖6 相關(guān)信號(hào)與非相關(guān)信號(hào)時(shí)間差直方圖
根據(jù)貝葉斯公式,參數(shù)μ和σ的聯(lián)合分布為
p(μ,σ2)=p(μ|σ2)p(σ2),
即為
簡(jiǎn)化一下即可得:
下一步進(jìn)行后驗(yàn)信息(posterior)計(jì)算,
p(μ,σ2|t)=p(t|μ,σ2)p(μ,σ2),其中p(μ,σ2)為先驗(yàn)信息已經(jīng)計(jì)算獲得。
而p(t|μ,σ2)~N(μ,σ2)是μ和σ的正態(tài)分布。這樣計(jì)算p(t|μ,σ2)得:
p(μ,σ2|t)∝σ-1(σ2)-(1+(ν0+n)/2)×
令
得
現(xiàn)在已知先驗(yàn)信息,后驗(yàn)信息如下:
(1)
p(μ|σ2,t)~N(μn,σ2/κn),
(2)
(3)
p(x|μ,σ2,t)~N(μ,σ2).
(4)
式中,x為任意時(shí)間差,為隨機(jī)變量;t為已經(jīng)獲得的樣本值,那么下一步將計(jì)算p(x|t)的值,這樣就無(wú)須估算正態(tài)分布中μ和σ的值,直接由樣本值t計(jì)算任意時(shí)間差變量x的分布。
將(1)、(2)、(4)代入以上公式得:
(5)
(6)
1.2.4 模型驗(yàn)證及全集校準(zhǔn)
模型的建立及測(cè)試是在訓(xùn)練與測(cè)試數(shù)據(jù)集上進(jìn)行的,即圖2的區(qū)域C部分。隨機(jī)選取一半作為訓(xùn)練序列建立以上模型,另一半數(shù)據(jù)驗(yàn)證模型的有效性,并與MS/MS檢測(cè)的真實(shí)數(shù)據(jù)比對(duì)獲取模型準(zhǔn)確度。在驗(yàn)證模型有效后,對(duì)圖2中區(qū)域A和區(qū)域B中的肽鏈信號(hào)通過模型進(jìn)行匹配。區(qū)域A中信號(hào)為由MS/MS檢測(cè)到的僅在數(shù)據(jù)1中有真實(shí)值的肽信號(hào),通過模型匹配得到其在數(shù)據(jù)2中的匹配信號(hào);同理,區(qū)域B中亦是如此。這樣就完成全集的校準(zhǔn)匹配,得到整體的匹配覆蓋率。
得到的結(jié)果主要有兩部分,一是通過貝葉斯統(tǒng)計(jì)方法改進(jìn)Warping函數(shù)校準(zhǔn)匹配有效性結(jié)果;二是全集最終校準(zhǔn)匹配結(jié)果。
本次研究進(jìn)行了10次測(cè)試,每次從訓(xùn)練與測(cè)試序列中隨機(jī)選取300個(gè)進(jìn)行Warping函數(shù)擬合,然后計(jì)算時(shí)間差,并用貝葉斯統(tǒng)計(jì)方法訓(xùn)練建立模型。另外,299個(gè)作為模型測(cè)試,一是單獨(dú)使用Warping函數(shù),判斷測(cè)試序列中時(shí)間距離Warping曲線最近的區(qū)間為匹配校準(zhǔn)區(qū)間;二是使用改進(jìn)的Warping函數(shù)與貝葉斯統(tǒng)計(jì)方法建立的模型,如果相關(guān)信號(hào)模型給出的概率大于非相關(guān)信號(hào)的模型概率,則判斷為匹配。以上兩種結(jié)果均與MS/MS時(shí)間點(diǎn)真實(shí)值進(jìn)行比對(duì),計(jì)算準(zhǔn)確度如表1所示。
表1 測(cè)試結(jié)果對(duì)比
由表1看出,用Warping的測(cè)試結(jié)果準(zhǔn)確性均值為86.81%,通過Warping函數(shù)聯(lián)合使用貝葉斯統(tǒng)計(jì)方法建模準(zhǔn)確率均值達(dá)到93.08%,提高了6.27個(gè)百分點(diǎn)。
由MS/MS檢測(cè)到的數(shù)據(jù)1與數(shù)據(jù)2的肽鏈共4 247個(gè),分布如圖2所示。交集共700個(gè),通過區(qū)間檢測(cè)的信號(hào)共599個(gè),在此基礎(chǔ)上采取Warping函數(shù)聯(lián)合貝葉斯統(tǒng)計(jì)方法建模進(jìn)行匹配。區(qū)域A中1 944個(gè),區(qū)域B中1 603個(gè),共3 547個(gè)肽鏈。根據(jù)模型給出的匹配與非匹配的概率大小,共能實(shí)現(xiàn)3 185個(gè)肽鏈在另外數(shù)據(jù)中的區(qū)間匹配,覆蓋率達(dá)到89.8%。
基于以上研究結(jié)果,可以看出,交集的700個(gè)肽鏈中只有599個(gè)能被檢測(cè)到信號(hào)區(qū)間,檢測(cè)到區(qū)間的概率大約為85%。這說(shuō)明部分被MS/MS檢測(cè)到的肽鏈信號(hào)非常弱,無(wú)法在level1數(shù)據(jù)中被檢測(cè)出來(lái)。這是由于區(qū)間檢測(cè)不準(zhǔn)確造成的,本文在區(qū)間檢測(cè)中采用的是簡(jiǎn)單的低于最高峰值20%即在區(qū)間外的辦法,很多情況下并不有效,檢測(cè)不到真實(shí)的肽信號(hào)區(qū)間,因此,下一步將重點(diǎn)研究準(zhǔn)確的區(qū)間檢測(cè)算法。
采用Warping函數(shù)聯(lián)合貝葉斯統(tǒng)計(jì)方法建模對(duì)多次重復(fù)的液相色譜-質(zhì)譜數(shù)據(jù)進(jìn)行時(shí)間校準(zhǔn),根據(jù)MS/MS檢測(cè)值選取訓(xùn)練序列進(jìn)行時(shí)間擬合。通過測(cè)試序列驗(yàn)證,單獨(dú)使用Warping的測(cè)試結(jié)果準(zhǔn)確性均值為86.81%;通過Warping函數(shù)聯(lián)合使用貝葉斯統(tǒng)計(jì)方法建模準(zhǔn)確率均值達(dá)到93.08%。同時(shí),完成兩個(gè)譜圖的匹配校準(zhǔn),覆蓋率超過89%。對(duì)下一步進(jìn)行肽鏈量化提供了非常有意義的算法支撐。