杜卓錕, 邵 偉, 秦偉捷*
(1. 安徽醫(yī)科大學(xué)基礎(chǔ)醫(yī)學(xué)院, 安徽 合肥 230032; 2. 軍事科學(xué)院軍事醫(yī)學(xué)研究院生命組學(xué)研究所, 北京蛋白質(zhì)組研究中心, 蛋白質(zhì)組學(xué)國家重點實驗室, 北京 102206)
蛋白質(zhì)組學(xué)對蛋白質(zhì)進(jìn)行規(guī)?;芯?從蛋白質(zhì)水平和生命本質(zhì)層次上研究和發(fā)現(xiàn)生命活動的規(guī)律和重要生理、病理現(xiàn)象的本質(zhì),揭示基因活動的動態(tài)表達(dá)。基于液相色譜-質(zhì)譜聯(lián)用(LC-MS/MS)的“鳥槍法”策略是蛋白質(zhì)組學(xué)研究中應(yīng)用最廣泛的工具[1]。在該策略中,蛋白質(zhì)首先酶解成肽段,利用液相色譜等分離方法將復(fù)雜的多肽混合物按照特定性質(zhì)進(jìn)行有效的分離后,肽段經(jīng)過電噴霧電離離子化后進(jìn)入質(zhì)譜儀進(jìn)行譜圖采集。通過譜圖和數(shù)據(jù)庫比對搜索解析出譜圖對應(yīng)的肽段信息,然后進(jìn)行組裝還原成蛋白質(zhì)。因此,將肽段的質(zhì)譜譜圖與數(shù)據(jù)庫中的理論序列進(jìn)行匹配是肽段(以及蛋白質(zhì))鑒定、定量和所有隨后的生物學(xué)解釋的核心[2]。除了質(zhì)譜譜圖中所提供的肽段母離子和子離子質(zhì)荷比之外,“鳥槍法”策略還可提供一些額外的數(shù)據(jù)用于數(shù)據(jù)分析,從而獲得更為準(zhǔn)確和全面的肽段序列解析,最常用的是肽段的色譜保留時間(RT)[3]。
在蛋白質(zhì)組學(xué)分析中,肽段的色譜保留時間是指在一定的色譜梯度條件下肽段從色譜柱洗脫所需的時間,作為肽段的特性之一與肽段的分子結(jié)構(gòu)、極性和疏水性密切相關(guān)。保留時間是獨(dú)立于質(zhì)譜分析結(jié)果的肽段特征信息,特定肽段的保留時間可以根據(jù)肽段的信息(如肽段序列)進(jìn)行預(yù)測,得到的預(yù)測保留時間可作為質(zhì)譜檢測的補(bǔ)充輔助進(jìn)行肽段鑒定[4],以提高肽段鑒定的可信度。保留時間預(yù)測在質(zhì)譜選擇性反應(yīng)監(jiān)測(SRM)[5]、數(shù)據(jù)依賴性采集方法(DDA)和非數(shù)據(jù)依賴性采集方法(DIA)[6]等流程中均有重要的應(yīng)用。預(yù)測的保留時間通常與相應(yīng)的質(zhì)譜數(shù)據(jù)相結(jié)合,用于DDA采集結(jié)果的缺失值填充或構(gòu)建模擬譜圖庫用于DIA采集結(jié)果的搜庫[7]。本文結(jié)合我們課題組多年來在蛋白質(zhì)組學(xué)領(lǐng)域的研究工作,特別是使用預(yù)測保留時間輔助一級質(zhì)譜鑒定的工作,主要綜述了基于深度學(xué)習(xí)的保留時間預(yù)測方法的進(jìn)展及應(yīng)用。
傳統(tǒng)的保留時間預(yù)測采用定量結(jié)構(gòu)保留關(guān)系(quantitative structure retention relationship, QSRR)模型,基于肽段的理化性質(zhì)在特定的色譜條件下對保留時間進(jìn)行預(yù)測[8]。這種方法需要對大量標(biāo)準(zhǔn)肽段的保留時間進(jìn)行測試,建立肽段的保留時間與計算得到的理化性質(zhì)間關(guān)系的模型。保留因子(retention coefficient, Rc)是評價單個氨基酸對保留時間的貢獻(xiàn)的參數(shù),一個肽段上所有氨基酸的保留因子之和可以用來估計保留時間。此外還要考慮到肽段長度、電荷數(shù)以及螺旋性等因素對保留時間的影響[9]。目前應(yīng)用較多的傳統(tǒng)保留時間預(yù)測模型有SSRCalc[10], Elude[11]和GPTime[12]等。這些方法在多個數(shù)據(jù)集上進(jìn)行保留時間預(yù)測的決定系數(shù)(coefficient of determination,R2)值均小于0.965,預(yù)測精度還有提升的空間[13]。目前對肽段的理化性質(zhì)以及肽段與色譜固定相之間復(fù)雜的相互作用還沒有充分的理解,導(dǎo)致對肽段的保留時間預(yù)測結(jié)果不夠理想[14]。而且保留時間預(yù)測模型都是在特定的色譜條件下進(jìn)行訓(xùn)練得到的,如何將模型應(yīng)用到其他的色譜系統(tǒng)也是一個關(guān)鍵的問題。
深度神經(jīng)網(wǎng)絡(luò),包括卷積神經(jīng)網(wǎng)絡(luò)(CNN)和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)等[15],可以自動學(xué)習(xí)對象的內(nèi)在性質(zhì),發(fā)現(xiàn)大型數(shù)據(jù)集中的復(fù)雜結(jié)構(gòu)。深度學(xué)習(xí)的特點是疊加多個隱藏層的神經(jīng)網(wǎng)絡(luò),在不需要人為設(shè)計特征的情況下提取原始數(shù)據(jù)。深度學(xué)習(xí)通過由多個處理層組成的計算模型來學(xué)習(xí)具有多個抽象級別的數(shù)據(jù)。這些方法極大地提高了語音識別、視覺對象識別、對象檢測和許多其他領(lǐng)域的技術(shù)水平。深度神經(jīng)網(wǎng)絡(luò)在利用其多層神經(jīng)元發(fā)現(xiàn)數(shù)據(jù)的復(fù)雜結(jié)構(gòu)時非常有效和靈活,使用反向傳播算法優(yōu)化計算層與層之間關(guān)系的內(nèi)部參數(shù),從而發(fā)現(xiàn)大數(shù)據(jù)集中的復(fù)雜結(jié)構(gòu)。深度學(xué)習(xí)也被用于分析LC-MS數(shù)據(jù)。在蛋白質(zhì)組學(xué)中,深度學(xué)習(xí)方法已經(jīng)被用于進(jìn)行二級質(zhì)譜譜圖預(yù)測[16]、多肽從頭測序[17]等流程。
基于深度學(xué)習(xí)的保留時間預(yù)測方法通常是把肽段的氨基酸序列信息輸入到神經(jīng)網(wǎng)絡(luò)的隱藏層中,經(jīng)過各個層之間的復(fù)合函數(shù)的計算,最終輸出預(yù)測的保留時間值。通過使用大量的數(shù)據(jù)對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,函數(shù)參數(shù)通過動態(tài)路徑選擇等方法不斷優(yōu)化,使得預(yù)測的結(jié)果更加準(zhǔn)確。
Ma等[18]發(fā)展了DeepRT方法,使用了8個數(shù)據(jù)集進(jìn)行訓(xùn)練、驗證和測試,涵蓋了不同的物種、肽段修飾狀態(tài)和液相色譜條件。使用嵌入(embedding)編碼的方法,將一個肽段上的每個氨基酸都編碼成20維的向量,這個向量能夠反映這個氨基酸及其修飾信息,這些向量堆疊形成的矩陣則反映了整個肽段的信息。CNN能夠非常有效地檢測肽段上氨基酸間的相互作用[19],因此在DeepRT膠囊神經(jīng)網(wǎng)絡(luò)(CapsNet)中先通過兩層的卷積層處理肽段序列,然后再使用后面的膠囊層計算保留時間。由于色譜條件存在差異,DeepRT無法直接用于新的數(shù)據(jù)集的預(yù)測。深度學(xué)習(xí)算法可以通過遷移學(xué)習(xí)的策略,使用小數(shù)據(jù)集中有限的信息對已經(jīng)用大量數(shù)據(jù)預(yù)訓(xùn)練過的模型進(jìn)行校正[20]。DeepRT也使用這種方法,先使用其他液相色譜條件下的大量數(shù)據(jù)進(jìn)行訓(xùn)練,再使用新的液相色譜條件下的少量數(shù)據(jù)進(jìn)行微調(diào)校正。在反相液相色譜(RPLC)條件下使用3個數(shù)據(jù)集進(jìn)行測試,DeepRT得到的預(yù)測值與真實值的R2達(dá)到了0.987、0.970和0.994,比其他保留時間預(yù)測軟件ELUDE和GPTime的保留時間預(yù)測更精確,在強(qiáng)陽離子交換色譜(SCX)和親水相互作用液相色譜(HILIC)的條件下R2最高也達(dá)到了0.996和0.993。Ma等[18]又使用一個包含140 000條肽段的大數(shù)據(jù)集進(jìn)行訓(xùn)練,得到了改進(jìn)的DeepRT,稱為DeepRT(+),然后使用遷移學(xué)習(xí)的策略對另外兩個數(shù)據(jù)集進(jìn)行預(yù)測。使用這兩個數(shù)據(jù)集訓(xùn)練得到的DeepRT的預(yù)測結(jié)果的R2分別為0.987和0.970, DeepRT(+)遷移學(xué)習(xí)預(yù)測結(jié)果的R2提高到了0.993和0.980。
提高深度學(xué)習(xí)算法預(yù)測的準(zhǔn)確性需要使用大量的數(shù)據(jù)集進(jìn)行訓(xùn)練。ProteomeTools project提供了一個非常大的合成肽段的液相色譜-質(zhì)譜聯(lián)用分析數(shù)據(jù)庫,旨在為人類全部蛋白質(zhì)和重要的翻譯后修飾提供基于合成肽段的高質(zhì)量質(zhì)譜數(shù)據(jù)參考[21,22]。Gessulat等[23]利用ProteomeTools的數(shù)據(jù)訓(xùn)練了一個能夠精確預(yù)測保留時間和離子強(qiáng)度的深度學(xué)習(xí)算法Prosit。算法通過輸入肽段序列、電荷以及標(biāo)準(zhǔn)碰撞能可以輸出預(yù)測的離子強(qiáng)度和保留時間。其中離子強(qiáng)度預(yù)測需要上述3種信息,而保留時間預(yù)測只需要肽段序列信息。經(jīng)過訓(xùn)練,用Proist預(yù)測保留時間指數(shù)(iRT),預(yù)測值與真實值間的相關(guān)系數(shù)(R)值達(dá)到了1.00, 95%的置信區(qū)間為4.25iRT單位,對應(yīng)于1 h的LC-MS中的85 s。作為對比,用SSRCalc對同樣的數(shù)據(jù)進(jìn)行了保留時間預(yù)測,結(jié)果為R=0.96, 95%的置信區(qū)間為20.4iRT單位。使用上述模型分別對胰蛋白酶切(tryptic)和糜蛋白酶切(chymotryptic)的肽段進(jìn)行預(yù)測,預(yù)測值和觀察值間的R值分別為0.89和0.91。接著使用遷移學(xué)習(xí)的方法對模型進(jìn)行校正,校正后的R值分別為0.95和0.98。值得注意的是,上述校正只使用了胰蛋白酶切的數(shù)據(jù)進(jìn)行校正,同樣也提高了非胰蛋白酶切肽段的預(yù)測準(zhǔn)確度,預(yù)測的iRT也與實驗得到的非常一致。這表明Prosit學(xué)習(xí)了肽段保留時間的一般決定因素,并在各種蛋白酶切條件下推廣。這也同樣適用于不同的液相色譜環(huán)境,當(dāng)在特定的色譜環(huán)境中進(jìn)行預(yù)測時,只需要用部分當(dāng)前色譜環(huán)境下的數(shù)據(jù)進(jìn)行遷移學(xué)習(xí)即可得到精確的預(yù)測結(jié)果,而不需要使用大量的數(shù)據(jù)對Prosit進(jìn)行徹底重新訓(xùn)練。
Guan等[24]采用共同的核心架構(gòu),雙向長短期記憶網(wǎng)絡(luò)(bidirectional long-short term memory, BiLSTM)建立了3種深度學(xué)習(xí)預(yù)測模型,分別預(yù)測了LC-MS/MS中的3種性質(zhì):iRT、MS1電荷狀態(tài)分布以及高能碰撞解離(HCD)碎裂模式下的子離子強(qiáng)度。其中,用來訓(xùn)練iRT預(yù)測模型的數(shù)據(jù)來源于Bruderer等[25]的DIA數(shù)據(jù),錯誤發(fā)現(xiàn)率(FDR)為1%。經(jīng)過過濾,共得到了125 793條肽段的信息,其中90%用于訓(xùn)練深度學(xué)習(xí)模型,剩下的10%用于模型的測試。文中提出了一些可能來自于數(shù)據(jù)集的錯誤:首先,在此數(shù)據(jù)集中肽段的FDR為1%,因此至少1%的iRT數(shù)據(jù)是有誤的;其次,iRT與RT間的校正函數(shù)也可能帶來一定的不確定因素;第三,iRT數(shù)據(jù)是由多個色譜分離條件整合得到的,分離條件之間的不一致也會導(dǎo)致誤差。此外,在iRT預(yù)測模型中,唯一允許的修飾是蛋氨酸的氧化。Guan等[24]還考察了幾種不同的深度學(xué)習(xí)模型,包括常見的卷積神經(jīng)網(wǎng)絡(luò),以及膠囊神經(jīng)網(wǎng)絡(luò)。在當(dāng)前使用的數(shù)據(jù)集的條件下,BiLSTM神經(jīng)網(wǎng)絡(luò)的表現(xiàn)優(yōu)于其他神經(jīng)網(wǎng)絡(luò)。Guan等把他們訓(xùn)練的模型與DeepRT和Prosit對比發(fā)現(xiàn),Guan等的模型比DeepRT精確28%,而95%的置信區(qū)間比Prosit寬了兩倍。這可能與二者使用的樣本不同有關(guān),Prosit的訓(xùn)練數(shù)據(jù)集是合成肽集,具有較高的豐度,而Guan等的訓(xùn)練數(shù)據(jù)則來自于復(fù)雜的細(xì)胞裂解物樣本。以上結(jié)果說明研究樣本的復(fù)雜度和梯度長度對iRT的預(yù)測有著重要的影響。
通過遷移可以使用少量數(shù)據(jù)對基于深度學(xué)習(xí)的保留時間預(yù)測模型進(jìn)行校準(zhǔn),以實現(xiàn)對不同實驗環(huán)境下肽段保留時間的預(yù)測,這對在數(shù)據(jù)較少的條件下進(jìn)行保留時間預(yù)測提供了一種有效的方法。對于某一實驗環(huán)境,若實驗數(shù)據(jù)充足,使用大量同一實驗環(huán)境的數(shù)據(jù)對深度學(xué)習(xí)模型進(jìn)行完全訓(xùn)練可以使預(yù)測更加精確。Yang等[26]開發(fā)了DeepDIA模型,旨在對特定條件下的二級譜圖和保留時間進(jìn)行更加準(zhǔn)確的預(yù)測。DeepDIA基于CNN和BiLSTM,輸入肽段的序列信息,可以預(yù)測出各個可能的b/y離子的相對強(qiáng)度和肽段的iRT信息。DeepDIA預(yù)測的iRT與實驗得到的iRT間的R值大于0.99。當(dāng)訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)來自于同一實驗條件下時,預(yù)測的iRT與實驗得到的iRT間的四分位范圍小于3。另外兩次訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)來自于不同實驗條件下,二者間的四分位差分別為3.35和5.26。為評估DeepDIA的保留時間預(yù)測效果,Yang等[26]對DeepDIA、Prosit以及SSRCalc進(jìn)行了比較。在訓(xùn)練用的數(shù)據(jù)與測試用的數(shù)據(jù)來源于不同實驗條件的情況下,DeepDIA與Prosit的結(jié)果接近,優(yōu)于SSRCalc;在訓(xùn)練用的數(shù)據(jù)與測試用的數(shù)據(jù)來源于相同實驗條件的情況下,DeepDIA的預(yù)測效果要優(yōu)于Prosit。
通過深度學(xué)習(xí)和遷移學(xué)習(xí)技術(shù),Wen等[27]開發(fā)了基于肽段序列的保留時間預(yù)測工具AutoRT。每個肽段通過獨(dú)熱編碼(one-hot encoding)成矩陣形式,具體來說每個氨基酸都被表示為除一項外的所有值都是零的二進(jìn)制向量,這一項被設(shè)置為1來表示氨基酸的類別。特別地,被修飾的氨基酸將會以區(qū)別于原氨基酸的形式編碼,這樣在預(yù)測時也能體現(xiàn)被修飾氨基酸的影響。使用了一個從PRIDE[28]上獲得的大型公共數(shù)據(jù)集PXD006109[29]進(jìn)行訓(xùn)練,利用遺傳算法自動搜索最佳架構(gòu)。以均方誤差(MSE)為標(biāo)準(zhǔn),選出10個最好的神經(jīng)系統(tǒng)架構(gòu)模型,整個模型的訓(xùn)練都是基于這10個神經(jīng)網(wǎng)絡(luò)模型。這10個模型經(jīng)過遷移學(xué)習(xí)的方法微調(diào)后就可以對特定實驗條件下的保留時間進(jìn)行預(yù)測。AutoRT根據(jù)四分位間距(IQR)算法,去除這10個模型預(yù)測結(jié)果中的異常值,把剩余結(jié)果的平均值作為AutoRT模型整體的預(yù)測結(jié)果。Wen等[27]分別把這10個模型與AutoRT模型整體進(jìn)行比較,在3個數(shù)據(jù)集下進(jìn)行測試。結(jié)果表明AutoRT模型整體的中值絕對誤差(MAE)平均比各單獨(dú)的模型低25%、28%和18%。為進(jìn)一步評估AutoRT的表現(xiàn),Wen等[27]把AutoRT與3個基于深度學(xué)習(xí)的預(yù)測模型Prosit、DeepMass和GuanMCP2019以及一個傳統(tǒng)的基于機(jī)器學(xué)習(xí)的工具GPTime在3個大型公共數(shù)據(jù)集上進(jìn)行比較,AutoRT的中值絕對誤差全部低于其他模型,且4個基于深度學(xué)習(xí)的模型的中值絕對誤差都低于GPTime。
大部分基于深度學(xué)習(xí)的保留時間預(yù)測模型在對輸入的肽段信息進(jìn)行編碼時,都是將氨基酸及其位置轉(zhuǎn)化為氨基酸獨(dú)熱編碼。然而使用獨(dú)熱編碼限制了模型在一些情況下的應(yīng)用,例如對蛋白質(zhì)修飾及位點的研究[30,31]。獨(dú)熱編碼方法在對被修飾的氨基酸進(jìn)行編碼時,每一個潛在的修飾都需要用一個二元特征來表示,而潛在修飾數(shù)量眾多,使得這種方法實現(xiàn)非常困難。Bouwmeester等[32]通過在原子組成的水平上對肽段和修飾進(jìn)行編碼,建立了DeepLC,實現(xiàn)了對修飾肽段的保留時間的精確預(yù)測,即使某種修飾在訓(xùn)練數(shù)據(jù)中沒有出現(xiàn),也能對其進(jìn)行預(yù)測。DeepLC對肽段信息的編碼分為4個獨(dú)立的路徑:氨基酸組成、雙氨基酸組成、獨(dú)熱編碼和全局特征。氨基酸組成路徑中,肽段的信息被編碼成60×6的矩陣,其中60代表60個氨基酸(不足60個氨基酸的肽段用“X”補(bǔ)足), 6是氨基酸所含6種原子(C、H、N、O、P、S)的個數(shù),被修飾氨基酸的修飾部分的原子數(shù)也計入在內(nèi),這使模型可以對訓(xùn)練數(shù)據(jù)中不存在的修飾進(jìn)行預(yù)測。雙氨基酸組成路徑是將肽段上的氨基酸兩兩分為一組,互不重疊,矩陣大小為30×6,意義和氨基酸組成路徑相同。獨(dú)熱編碼路徑僅編碼了氨基酸非修飾的部分,用來捕捉分子整體的信息,比如區(qū)分異構(gòu)體異亮氨酸和亮氨酸。全局特征路徑包括了肽段長度和包含的各原子數(shù)目的信息。DeepLC將上述信息整合計算后輸出預(yù)測的肽段保留時間。經(jīng)過驗證,在對非修飾肽的保留時間預(yù)測上,DeepLC與目前最先進(jìn)的模型DeepRT[18]、Prosit[23]以及Guan等[24]的模型表現(xiàn)相近。經(jīng)過更大的數(shù)據(jù)集訓(xùn)練后DeepLC的表現(xiàn)進(jìn)一步提高,通過遷移學(xué)習(xí)能夠?qū)π〉臄?shù)據(jù)集提供準(zhǔn)確的預(yù)測。更重要的是,DeepLC能準(zhǔn)確地預(yù)測被修飾肽段的保留時間,對沒有在訓(xùn)練的數(shù)據(jù)集里出現(xiàn)的修飾也能準(zhǔn)確預(yù)測。但是對于復(fù)雜的修飾,如糖基化修飾,保留時間的預(yù)測結(jié)果還不夠準(zhǔn)確。如何進(jìn)一步提高預(yù)測修飾肽段的準(zhǔn)確性是研究的重要方向。
保留時間為基于液相色譜-質(zhì)譜聯(lián)用的肽段鑒定提供了一個額外維度的信息[14],可以應(yīng)用到蛋白質(zhì)組學(xué)分析工作流程的多種任務(wù)中。本課題組在校正保留時間的基礎(chǔ)上,進(jìn)行一級質(zhì)譜水平上的精確質(zhì)量數(shù)匹配和質(zhì)譜峰提取,顯著降低了完整O-GalNAc糖肽鑒定缺失的問題,同時插補(bǔ)得到定量數(shù)值[33]。通過對肽段的保留時間預(yù)測,可以提高質(zhì)譜鑒定的準(zhǔn)確性[34, 35],也有助于設(shè)計更加高效的實驗[36],以及鑒定嵌合碎片譜圖[37]。隨著蛋白質(zhì)組學(xué)其他技術(shù)的發(fā)展,保留時間的預(yù)測也有了其他的應(yīng)用。近年來,許多研究將保留時間預(yù)測模型與碎片峰離子強(qiáng)度預(yù)測模型相結(jié)合,生成了全面的模擬數(shù)據(jù)庫,用于進(jìn)行DIA的搜庫,有效地替代和超越了基于DDA的經(jīng)驗數(shù)據(jù)的譜圖庫[38]?;谏疃葘W(xué)習(xí)的保留時間預(yù)測方法也被應(yīng)用于提高質(zhì)譜鑒定的準(zhǔn)確性和可靠性、生成全面的模擬數(shù)據(jù)庫等方面。接下來,本文將對前文介紹的基于深度學(xué)習(xí)的保留時間預(yù)測方法的應(yīng)用進(jìn)行綜述。
DIA是一種強(qiáng)大的質(zhì)譜數(shù)據(jù)采集技術(shù),可用于深度全面的蛋白質(zhì)質(zhì)譜分析[6,39]。通過DIA,質(zhì)譜儀可以將所有的信號按照固定的質(zhì)荷比和保留時間劃分為許多區(qū)域,然后對每塊區(qū)域里的所有一級信號全部一次性進(jìn)行二級采集,從而消除了DDA模式的隨機(jī)性帶來的數(shù)據(jù)丟失集。DIA通常使用由DDA實驗得到的數(shù)據(jù)建立譜圖庫進(jìn)行肽段鑒定[40],構(gòu)筑這些DIA譜圖庫需要花費(fèi)大量的時間、樣本和精力,而且通常不能跨實驗室或儀器平臺使用[25]。此外,這種譜圖庫構(gòu)建的方法也把DIA定性和定量的對象限定在了由DDA鑒定出的肽段上,反而限制了DIA方法無損檢測的固有優(yōu)勢。因此,建立包含預(yù)測的保留時間和碎片離子信息的譜圖庫具有重要意義。有許多傳統(tǒng)模型被用來預(yù)測保留時間和碎片離子信息[41,42],但仍局限在特定的實驗室和儀器平臺上。隨著深度學(xué)習(xí)在蛋白質(zhì)組學(xué)的應(yīng)用,基于深度學(xué)習(xí)的保留時間預(yù)測模型和碎片離子預(yù)測模型被結(jié)合在一起,用于構(gòu)建模擬庫進(jìn)行DIA搜庫。Gessulat等[23]為了測試開發(fā)的Prosit建立模擬庫的效果,分別對4個來自于不同物種的公共譜圖庫中的肽段進(jìn)行模擬建庫,然后與這4個譜圖庫進(jìn)行比較。Prosit建立的模擬庫與4個實測譜圖庫非常相近,譜角頂點(apex of spectral angle)達(dá)到了0.9,R值大于0.95。然后Gessulat等[23]又使用在特定儀器平臺條件下得到的DIA數(shù)據(jù)分別檢索Prosit建立的模擬譜圖庫與在該平臺獲得的高質(zhì)量實測譜圖庫,分別得到了6 739和6 919種蛋白質(zhì)。Prosit模擬譜圖庫的效果比高質(zhì)量的實測譜圖庫略差,但可以取代一些低質(zhì)量或是高信噪比的譜圖庫,能夠提高近20%的肽段鑒定數(shù)量。
Tiwary等[43]開發(fā)的深度學(xué)習(xí)方法DeepMass: Drip結(jié)合了母離子的保留時間預(yù)測與二級質(zhì)譜譜圖預(yù)測,可以生成模擬譜圖庫。為了測試DeepMass: Drip的效果,Tiwary等[43]對DDA庫中的7 441條肽段的碎片離子強(qiáng)度和保留時間進(jìn)行預(yù)測并建庫,然后使用Spectronaut進(jìn)行DIA搜索。得到的平均定量肽段數(shù)目為4 957條,比用DDA數(shù)據(jù)建庫進(jìn)行DIA搜索得到的肽段數(shù)目少291條(5.5%)。然而,模擬庫搜索少鑒定到的這些肽段在搜索DDA數(shù)據(jù)庫時Spectronaut的打分也較低,其中118條(41%)的最小FDR閾值大于10-3。
使用預(yù)測的模擬譜圖庫進(jìn)行DIA搜索存在兩個不利因素:首先,由于模擬庫包括了蛋白質(zhì)中所有可能存在的肽段,與只包含檢測到的肽段的實測譜圖庫相比控制假陽性率需要更高的閾值;其次,雖然深度學(xué)習(xí)的方法能夠得到比其他傳統(tǒng)方法更高質(zhì)量的預(yù)測譜圖庫,這些預(yù)測的準(zhǔn)確性仍然要低于在該試驗條件下由實驗得到的數(shù)據(jù)。Searle等[44]基于色譜庫[45]的方法,對預(yù)測的譜圖庫進(jìn)行修正,得到了更高質(zhì)量的譜圖庫用于DIA搜庫。首先使用Prosit對蛋白質(zhì)序列數(shù)據(jù)庫中所有可能的胰蛋白酶解肽段的碎片離子和保留時間進(jìn)行預(yù)測,建立預(yù)測的譜圖庫。然后按照色譜庫的方法,使用該預(yù)測譜圖庫對6次DIA數(shù)據(jù)進(jìn)行搜庫,用得到的肽段鑒定結(jié)果建立了一個特定實驗條件下的修正的譜圖庫。這個新的譜圖庫只包含了這6次DIA搜庫鑒定出的肽段碎片離子信息和保留時間,在該實驗條件下DIA實驗得到的數(shù)據(jù)比原本預(yù)測的數(shù)據(jù)更加準(zhǔn)確。Searle等[44]將這個修正的數(shù)據(jù)庫用于單次DIA數(shù)據(jù)的搜庫。使用酵母樣本進(jìn)行單次DIA實驗,使用該修正的庫鑒定到的肽段數(shù)量比使用DDA庫鑒定到的肽段數(shù)量提高了31%。
血漿蛋白質(zhì)組學(xué)為一系列疾病的蛋白質(zhì)生物標(biāo)志物的發(fā)現(xiàn)帶來了巨大希望[46,47],然而血漿中蛋白質(zhì)豐度極大的動態(tài)范圍(超過12個數(shù)量級)阻礙了血漿蛋白質(zhì)組學(xué)的發(fā)展。Yang等[26]使用其開發(fā)的DeepDIA建立了血漿蛋白的模擬譜圖庫,使用該譜圖庫進(jìn)行DIA搜庫,在未經(jīng)高豐度蛋白質(zhì)去除的條件下,平均每次可以鑒定到超過400種蛋白質(zhì),兩倍于最先進(jìn)的DDA數(shù)據(jù)庫鑒定到的蛋白質(zhì)數(shù)目。通過在樣品中摻入穩(wěn)定同位素標(biāo)記的參比肽段的評估方法,發(fā)現(xiàn)使用模擬譜圖庫鑒定的錯誤率與使用DDA建立的譜圖庫相近。
人類腫瘤通常有多個體細(xì)胞突變,它們的轉(zhuǎn)譯可能產(chǎn)生新抗原,這些新抗原是基于t細(xì)胞的癌癥免疫治療的理想目標(biāo),因為它們是免疫系統(tǒng)的外來物[48]。一些尋找和發(fā)現(xiàn)新抗原的方法依賴于蛋白質(zhì)組學(xué)中對變異肽高敏感度和可靠性的鑒定。在蛋白質(zhì)組學(xué)分析中,通常由反庫等方法估測和控制FDR來進(jìn)行質(zhì)量控制[49],然而普通的FDR控制方法沒有對變異肽和普通肽進(jìn)行區(qū)分,由于變異肽在實際實驗中發(fā)現(xiàn)的可能性較低,這種全局FDR方法對變異肽的FDR會偏低,容易出現(xiàn)假陽性[50]。為解決這一問題,可以使用另外兩種FDR控制方法:單獨(dú)FDR方法(separate FDR method)分別計算已知肽段的FDR和變異肽段的FDR[51];兩級FDR方法先基于參照蛋白質(zhì)數(shù)據(jù)庫進(jìn)行搜庫,去掉鑒定到的高可信度的譜圖,再用剩下的譜圖基于變異蛋白質(zhì)數(shù)據(jù)庫搜庫,并計算變異肽的FDR[52]。PepQuery等工具可以對通過FDR的變異肽進(jìn)行校檢,有助于降低假陽性率[53]。Wen等[27]通過基于深度學(xué)習(xí)的保留時間預(yù)測工具對各種質(zhì)量控制方法進(jìn)行評估,其原理為肽段的保留時間可以通過肽段序列進(jìn)行預(yù)測,是肽段的固有特征,獨(dú)立于FDR,預(yù)測的保留時間與觀察到的保留時間的差異可以作為一個有效的、無偏的指標(biāo)來評價不同的肽段鑒定方法中肽段和譜圖匹配(PSM)的質(zhì)量,差異越大,則PSM質(zhì)量越低。Wen等[27]以上述3種FDR控制方法以及是否使用PepQuery進(jìn)行后續(xù)質(zhì)量控制作為變量,對287個腫瘤樣本進(jìn)行實驗,通過預(yù)測保留時間和實際保留時間的差異來評價各種方法,證明使用全局FDR方法并使用PepQuery進(jìn)行后續(xù)校驗的靈敏度最高,并且也證明了基于保留時間的校正為降低假陽性提供了一個額外的過濾方法,可以提高發(fā)現(xiàn)變異肽的可靠性。
基于深度學(xué)習(xí)的保留時間預(yù)測方法具有可通過多層神經(jīng)網(wǎng)絡(luò)自動從復(fù)雜的數(shù)據(jù)中學(xué)習(xí)、準(zhǔn)確度高、可應(yīng)用于不同的實驗環(huán)境等優(yōu)點,而且與其他大型深度學(xué)習(xí)方法相比,使用單獨(dú)的保留時間預(yù)測方法對硬件的要求并不高,這也有利于保留時間預(yù)測方法的應(yīng)用。目前對于保留時間預(yù)測方法的研究主要有以下幾個方向:一,優(yōu)化模型,以及使用數(shù)據(jù)量更大、準(zhǔn)確度更高的數(shù)據(jù)集進(jìn)行訓(xùn)練,進(jìn)一步提高保留時間預(yù)測的準(zhǔn)確度;二,提高模型在不同實驗環(huán)境下的適用性,目前的方法是預(yù)測iRT和通過遷移學(xué)習(xí)在新環(huán)境下對模型進(jìn)行校正;三,優(yōu)化編碼方法,提高對修飾肽段保留時間預(yù)測的準(zhǔn)確性。大部分模型對修飾肽段的預(yù)測能力非常有限,需要在訓(xùn)練模型和進(jìn)行預(yù)測時把不同修飾的修飾位點的氨基酸進(jìn)行特定編碼,與未修飾的氨基酸進(jìn)行區(qū)分,這種方法難以適用于修飾種類和位點較多的情況,而且由于訓(xùn)練用的數(shù)據(jù)集中的修飾不一定包含需要的修飾,在使用時通常需要重新訓(xùn)練模型。DeepLC模型對各種修飾在原子水平上進(jìn)行編碼,能夠反映修飾的原子組成對保留時間的影響,解決了前面的兩個問題,但難以反映修飾的結(jié)構(gòu)對保留時間的影響。當(dāng)修飾較大和較復(fù)雜時,如糖基化修飾,修飾的結(jié)構(gòu)對保留時間有較大的影響,所以如何反映修飾結(jié)構(gòu)的影響也是一個重要的研究方向。
目前對保留時間預(yù)測的應(yīng)用大多集中在與譜圖預(yù)測相結(jié)合,建立模擬的譜圖庫用以DIA等方法的搜庫,也用于質(zhì)譜方法的評估和質(zhì)量控制等方面。隨著保留時間預(yù)測的準(zhǔn)確度和適用性的進(jìn)一步提高,保留時間作為液相色譜-質(zhì)譜聯(lián)用結(jié)果中的一個重要信息維度,將會在蛋白質(zhì)組研究中發(fā)揮更加重要的作用。