牟長(zhǎng)寧,王海鵬,周丕宇,侯鑫行
(山東理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山東淄博 255000)
(*通信作者電子郵箱hpwang@sdut.edu.cn)
基于串聯(lián)質(zhì)譜的蛋白質(zhì)組學(xué)是生命科學(xué)研究的重要組成部分,近年來(lái)在探索細(xì)胞機(jī)制、疾病進(jìn)程以及基因型和表型之間關(guān)系等研究上取得了巨大進(jìn)展[1]?;诖?lián)質(zhì)譜的蛋白質(zhì)測(cè)序主流的方法是蛋白質(zhì)數(shù)據(jù)庫(kù)搜索,常用工具有Mascot[2]、Comet[3]、MaxQuant[4]、pFind[5-6]等。該方法需要參考已有數(shù)據(jù)庫(kù)檢索候選肽序列,因此在未知生物蛋白、單克隆抗體測(cè)序等研究上失去優(yōu)勢(shì)。另一種鑒定方法是從頭測(cè)序,該方法能夠直接從串聯(lián)質(zhì)譜中推斷出氨基酸序列,無(wú)需數(shù)據(jù)庫(kù)作為參考,在鑒定未知生物肽序列上具有不可替代的作用。過(guò)去20 年間從頭測(cè)序方法進(jìn)步顯著,應(yīng)用較為廣泛的方案是基于圖論的思想,將質(zhì)譜轉(zhuǎn)化為譜峰關(guān)系圖(spectrum graph),譜峰作為譜圖中的頂點(diǎn),如果譜峰與譜峰之間的距離等于一個(gè)或者兩個(gè)氨基酸殘基的分子量,則兩個(gè)峰之間用一條邊相連;通過(guò)搜索圖中起始點(diǎn)到結(jié)束點(diǎn)的最優(yōu)路徑得到產(chǎn)生這個(gè)質(zhì)譜的候選肽序列。代表性工作包括:2003 年Ma 等[7]發(fā)表的PEAKS,通過(guò)預(yù)處理步驟(圖譜噪聲過(guò)濾和圖譜峰聚合)創(chuàng)建譜圖并用動(dòng)態(tài)規(guī)劃算法來(lái)生成候選肽序列;2005年Frank等[8]發(fā)表了針對(duì)碰撞誘導(dǎo)裂解(Collision-Induced Dissociation,CID)質(zhì)譜的PepNovo 算法,提出了一種基于概率網(wǎng)絡(luò)模型的候選肽序列評(píng)分方法;2010 年Chi 等[9]發(fā)表的pNovo,使用帶剪枝的深度優(yōu)先搜索有效提升了在高能碰撞裂解(Higher-energy Collision Dissociation,HCD)質(zhì)譜數(shù)據(jù)上的從頭測(cè)序性能;隨后同一團(tuán)隊(duì),在pNovo 基礎(chǔ)上開(kāi)發(fā)了同時(shí)使用HCD 和電子轉(zhuǎn)運(yùn)裂解(Electron Transfer Dissociation,ETD)數(shù)據(jù)的從頭測(cè)序方法pNovo+[10],以及針對(duì)翻譯后修飾肽鑒定的OpenpNovo[11],并在2019年發(fā)表了pNovo3[12],將理論質(zhì)譜預(yù)測(cè)用于候選肽重排序。另一類(lèi)從頭測(cè)序方法則是基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)。2005年,NovoHMM算法[13]提出使用隱馬爾可夫模型解決從頭測(cè)序問(wèn)題;2015 年,Novor[14]使用決策樹(shù)模型分別為碎片離子和氨基酸殘基進(jìn)行打分,結(jié)合動(dòng)態(tài)規(guī)劃推導(dǎo)肽序列;基于深度學(xué)習(xí)的DeepNovo[15],通過(guò)基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的Ion-CNN 和Spectrum-CNN,以及長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)模型融合的方式對(duì)肽序列進(jìn)行預(yù)測(cè)。隨著從頭測(cè)序方法的改進(jìn),測(cè)序精度不斷得到提升,然而由于質(zhì)譜儀中肽不完全碎裂等因素,導(dǎo)致質(zhì)譜中碎片離子的覆蓋率較低,重要b離子或y離子峰丟失,大量噪聲干擾峰難以通過(guò)約束條件徹底清除,諸多因素致使從頭測(cè)序的精度仍然較低,嚴(yán)重制約了從頭測(cè)序在蛋白質(zhì)組數(shù)據(jù)分析中的應(yīng)用。因此提升肽段從頭測(cè)序準(zhǔn)確性,對(duì)蛋白質(zhì)組學(xué)研究具有重要意義。
在蛋白質(zhì)組學(xué)中,深度學(xué)習(xí)方法已經(jīng)應(yīng)用到了預(yù)測(cè)肽段保留時(shí)間、理論質(zhì)譜預(yù)測(cè)、翻譯后修飾、從頭測(cè)序、蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)等多個(gè)任務(wù)中[16-17]。深度學(xué)習(xí)的蓬勃發(fā)展,為質(zhì)譜數(shù)據(jù)分析不斷提供新的方案啟示。本文在經(jīng)典的譜峰關(guān)系圖方法基礎(chǔ)上,提出了一種基于圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional neural Network,GCN)的從頭測(cè)序方法denovo-GCN。該方法直接使用質(zhì)譜數(shù)據(jù)作為輸入,簡(jiǎn)化中間數(shù)據(jù)約束處理過(guò)程,在譜峰關(guān)系圖結(jié)構(gòu)上按照碎裂位點(diǎn)為每個(gè)譜峰構(gòu)造特征表示。通過(guò)在大規(guī)模數(shù)據(jù)上的訓(xùn)練優(yōu)化,能夠有效提升從頭測(cè)序的準(zhǔn)確性。
圖卷積神經(jīng)網(wǎng)絡(luò)以其在圖數(shù)據(jù)上的強(qiáng)大建模能力,在知識(shí)圖譜、社交網(wǎng)絡(luò)等眾多領(lǐng)域得到了應(yīng)用[18]。Kipf 等[19]對(duì)ChebNet[20]進(jìn)行了簡(jiǎn)化,提出了一種更加簡(jiǎn)單的模型GCN,它相當(dāng)于對(duì)一階切比雪夫卷積的再近似,降低了計(jì)算復(fù)雜度,并且可以通過(guò)堆疊多個(gè)GCN 擴(kuò)大圖卷積神經(jīng)網(wǎng)絡(luò)的感受野,實(shí)用性大大增強(qiáng)。GCN模型結(jié)構(gòu)表述為式(1):
其中:=A+I,A是圖的鄰接矩陣,包含了節(jié)點(diǎn)之間的連接信息;I是單位矩陣,加上I后得到的包含了自身節(jié)點(diǎn)和鄰接點(diǎn)的信息是頂點(diǎn)的度矩陣是激活函數(shù);H(l) ∈Rn×m是第l層的激活矩陣;H(0)=X,X是由各節(jié)點(diǎn)特征向量xi組成的特征矩陣。隨后注意機(jī)制、序列模型等也用于圖中節(jié)點(diǎn)權(quán)重的計(jì)算,圖卷積神經(jīng)網(wǎng)絡(luò)呈現(xiàn)出多樣化的發(fā)展。
從頭測(cè)序過(guò)程可以類(lèi)比為語(yǔ)言翻譯或者圖像描述,最終目的是得到一個(gè)映射原始數(shù)據(jù)的序列表示。不同之處在于后者的原始數(shù)據(jù)是規(guī)則歐氏空間數(shù)據(jù),而質(zhì)譜數(shù)據(jù)是一組譜峰質(zhì)荷比及其強(qiáng)度的數(shù)據(jù)對(duì)組成的集合。在基于圖論的從頭測(cè)序中,譜峰關(guān)系是由譜峰之間的距離來(lái)計(jì)算,形成譜峰連接圖。這種質(zhì)譜數(shù)據(jù)圖結(jié)構(gòu)化的表示方法與針對(duì)圖結(jié)構(gòu)數(shù)據(jù)的圖卷積神經(jīng)網(wǎng)絡(luò)十分契合。譜峰節(jié)點(diǎn)的特征則可以通過(guò)枚舉碎裂位點(diǎn)產(chǎn)生的離子與各譜峰的距離關(guān)系表示,借助圖卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練學(xué)習(xí)能力將符合條件的譜峰點(diǎn)與干擾峰進(jìn)行區(qū)分,預(yù)測(cè)當(dāng)前位置的氨基酸身份,逐步實(shí)現(xiàn)氨基酸序列的推理。
在質(zhì)譜數(shù)據(jù)上,使用圖卷積神經(jīng)網(wǎng)絡(luò)的首要任務(wù)是構(gòu)建譜峰連接圖。質(zhì)譜數(shù)據(jù)中的關(guān)鍵信息包括母離子的質(zhì)荷比、肽所帶電荷、譜峰。譜峰是碎片離子質(zhì)荷比及其強(qiáng)度組成的數(shù)據(jù)對(duì),將譜峰強(qiáng)度值按照同一質(zhì)譜中最大強(qiáng)度值歸一化得到相對(duì)強(qiáng)度,相對(duì)強(qiáng)度最大值為1。單個(gè)質(zhì)譜可以直觀表示為質(zhì)荷比和相對(duì)強(qiáng)度的柱狀圖,x軸代表質(zhì)荷比,y軸代表強(qiáng)度。若譜峰與譜峰之間的距離與一個(gè)氨基酸殘基的分子量的差值在設(shè)定誤差范圍內(nèi),則兩個(gè)譜峰之間建立一條邊。在構(gòu)建譜圖前,需向原始譜圖添加序列端點(diǎn)的譜峰,分別為一個(gè)電荷(M(proton))、一個(gè)水分子量(M(H2O))、1 電荷肽的分子量(M(peptide))、肽失去一個(gè)水的分子量(M(peptide)-M(H2O))四個(gè)譜峰點(diǎn),相對(duì)強(qiáng)度皆設(shè)置為1。設(shè)S=為譜(npeaks為譜峰數(shù)量),SA為峰與峰之間的差值矩陣,MASS_AA=(n=23,代表20 氨基酸殘基和3 種修飾后的氨基酸殘基)為氨基酸殘基質(zhì)量集合,計(jì)算鄰接矩陣的過(guò)程用式(2)~(5)表示:
由式(2)計(jì)算譜峰差值矩陣絕對(duì)值與每個(gè)氨基酸殘基的誤差矩陣,如果誤差在給定ε內(nèi)則將相應(yīng)元素標(biāo)記為1,若超出范圍則標(biāo)記為0,然后將所有矩陣相加得到當(dāng)前譜的鄰接矩陣;加入相同維度的單位矩陣作為節(jié)點(diǎn)自身的信息,避免構(gòu)圖時(shí)譜峰為孤立峰,即譜中沒(méi)有相鄰位點(diǎn)產(chǎn)生的同類(lèi)型離子譜峰,導(dǎo)致不存在邊與之相連造成信息丟失;再計(jì)算度矩陣并對(duì)鄰接矩陣進(jìn)行歸一化。
將質(zhì)譜數(shù)據(jù)處理成圖結(jié)構(gòu)化數(shù)據(jù)是denovo-GCN 與DeepNovo處理質(zhì)譜數(shù)據(jù)的不同之處,在DeepNovo中將串聯(lián)質(zhì)譜數(shù)據(jù)對(duì)應(yīng)成規(guī)則的歐氏數(shù)據(jù),質(zhì)荷比維度的數(shù)據(jù)按照質(zhì)量精度0.01 Da(Dalton)進(jìn)行擴(kuò)展:假設(shè)譜中的最大質(zhì)荷比為1 500.00 Da,整個(gè)譜離散化為150 000 個(gè)刻度,再將每個(gè)譜峰相對(duì)強(qiáng)度填入離散化后的刻度位置,卷積提取特征。而在denovo-GCN 中,譜峰之間的關(guān)系直接計(jì)算確定,不需要通過(guò)深度學(xué)習(xí)模型來(lái)學(xué)習(xí)這種關(guān)鍵信息。
denovo-GCN 的另一個(gè)關(guān)鍵在于為質(zhì)譜中的每一個(gè)譜峰建立特征。由于串聯(lián)質(zhì)譜數(shù)據(jù)的特殊性,很難在只使用一組離子質(zhì)荷比和譜峰強(qiáng)度數(shù)據(jù)條件下推斷出序列信息,因此必須利用肽碎裂產(chǎn)生的離子類(lèi)型設(shè)計(jì)特征。肽段在HCD 模式下常見(jiàn)的碎片離子類(lèi)型有b、y、b2+、y2+、b-H2O、y-H2O、b-NH3、y-NH3、a、a2+、a-H2O、a-NH3等[21],在計(jì)算得到b離子或者y離子質(zhì)荷比后便可根據(jù)母離子質(zhì)荷比計(jì)算同一斷裂位點(diǎn)的其他離子質(zhì)荷比。在模型中,設(shè)定了26種符號(hào)標(biāo)記分別代表20種氨基酸殘基、3 種修飾后的氨基酸殘基、3 種特殊的標(biāo)記(start、end、pad)。特征可以看作是當(dāng)前碎裂位點(diǎn)產(chǎn)生的離子與譜峰的距離差值,構(gòu)建過(guò)程如式(6)~(8):
設(shè)ntoken為設(shè)定標(biāo)記的個(gè)數(shù),nions為使用的離子類(lèi)型的種類(lèi),計(jì)算得到的理論質(zhì)荷比矩陣為Mt大小為(1,ntoken×nions),將其按第一維度復(fù)制得到Mt'(npeaks,ntoken×nions()npeaks為譜峰數(shù)量);將當(dāng)前譜峰矩陣Mo(npeaks,1),按第二維度復(fù)制得到Mo'大小同樣為(npeaks,ntoken×nions),由式(6)計(jì)算譜峰與理論離子的誤差矩陣E,然后通過(guò)指數(shù)運(yùn)算將誤差值縮放到區(qū)間(0,1)內(nèi),⊕代表將譜峰的相對(duì)強(qiáng)度Intensity(npeaks,1)拼接到E,形成了最終的特征矩陣F。
denovo-GCN 的模型如圖1 所示:由質(zhì)譜數(shù)據(jù)分別計(jì)算譜圖鄰接矩陣和初始特征矩陣。使用GCN 對(duì)質(zhì)譜數(shù)據(jù)進(jìn)行特征提取,按照譜峰的維度加和并使用Leaky ReLU 激活函數(shù)進(jìn)行激活,再使用全連接層輸出,得到氨基酸類(lèi)型的概率,輸出當(dāng)前條件下的氨基酸身份。
圖1 denovo-GCN模型Fig.1 denovo-GCN model
新預(yù)測(cè)的氨基酸加入到序列后,計(jì)算下一個(gè)位點(diǎn)的特征矩陣,直至出現(xiàn)結(jié)束標(biāo)記或者達(dá)到設(shè)定的序列最大長(zhǎng)度。模型各層的參數(shù)大小設(shè)置如表1 所示,其中ntoken為設(shè)定標(biāo)記的數(shù)目,nions為使用的離子類(lèi)型的數(shù)目。訓(xùn)練時(shí)標(biāo)注肽序列中的每一個(gè)氨基酸作為標(biāo)記,依次進(jìn)行批訓(xùn)練,初始學(xué)習(xí)率為0.001,根據(jù)模型訓(xùn)練評(píng)價(jià)自適應(yīng)調(diào)整學(xué)習(xí)率,最低學(xué)習(xí)率設(shè)置為10-5。由于肽序列中氨基酸出現(xiàn)的頻率差別很大,特別是帶有修飾的氨基酸殘基占比更少,因此在訓(xùn)練時(shí)使用了Focal Loss 函數(shù)計(jì)算損失,該函數(shù)最初用于解決目標(biāo)檢測(cè)中類(lèi)別不平衡問(wèn)題[22]。
表1 denovo-GCN模型中各層的參數(shù)Tab.1 Parameters of each layer in denovo-GCN
通常從肽水平和氨基酸水平上評(píng)價(jià)從頭測(cè)序結(jié)果[12-15]。肽水平召回率和精確率分別為完全預(yù)測(cè)正確的肽序列占測(cè)試數(shù)據(jù)中所有肽序列的比例和接受的測(cè)序結(jié)果中肽序列總數(shù)的比例,氨基酸水平召回率和精確率分別為預(yù)測(cè)正確的氨基酸總數(shù)分別占測(cè)試數(shù)據(jù)中氨基酸總數(shù)的比例和接受的測(cè)序結(jié)果中氨基酸總數(shù)的比例。在氨基酸水平上,從N 端或C 端開(kāi)始對(duì)應(yīng)位置預(yù)測(cè)的氨基酸與標(biāo)注一致則為正確,對(duì)于分子量相同的亮氨酸(Leucine,L)和異亮氨酸(Isoleucine,I),在同一位置時(shí)認(rèn)為預(yù)測(cè)正確。
本文在ProteomeTools1(ID:PXD004732)數(shù)據(jù)集[23]上進(jìn)行了模型的訓(xùn)練和測(cè)試,確定了模型的結(jié)構(gòu)、離子類(lèi)型組合和采用的譜峰數(shù)量。該數(shù)據(jù)集來(lái)自人工合成蛋白質(zhì)數(shù)據(jù)集,從proteomeXchange 蛋白質(zhì)數(shù)據(jù)庫(kù)中獲得,根據(jù)MaxQuant搜索結(jié)果以得分score≥100、PIF≥0.7(Precursor Intensity Fraction)過(guò)濾選取高質(zhì)量的肽譜匹配數(shù)據(jù),最終得到204 996 條標(biāo)注數(shù)據(jù),并在實(shí)驗(yàn)時(shí)以8∶1∶1 的比例隨機(jī)劃分訓(xùn)練集、測(cè)試集、驗(yàn)證集,集合劃分時(shí)相互不存在交集。實(shí)驗(yàn)中構(gòu)建譜峰關(guān)系圖時(shí)使用的質(zhì)量誤差ε為0.02 Da。
不同層數(shù)的GCN 模型效果根據(jù)具體應(yīng)用會(huì)有所差異。本節(jié)實(shí)驗(yàn)設(shè)置最大譜峰數(shù)量為500,離子類(lèi)型為12種,GCN的hidden size為256,實(shí)驗(yàn)結(jié)果如表2 所示:實(shí)驗(yàn)中采用2 層GCN的模型比使用1 層和3 層的模型在肽水平的召回率分別高出2.5個(gè)百分點(diǎn)和1.2個(gè)百分點(diǎn),比直接使用全連接網(wǎng)絡(luò)高出了2.9個(gè)百分點(diǎn),4層的模型與3層的模型效果基本一致;各組模型氨基酸的召回率在91.19%至92.19%。在氨基酸水平召回率相近的條件下,GCN模型明顯提高了肽水平的召回率,并在使用2 層GCN 結(jié)構(gòu)時(shí)獲得最高召回率。因此,后續(xù)實(shí)驗(yàn)皆采用2層的GCN結(jié)構(gòu)。
表2 不同GCN層數(shù)模型的召回率對(duì)比 單位:%Tab.2 Comparison of recall by different GCN layers’models unit:%
肽段在高能碰撞裂解(HCD)碎裂模式下,主要產(chǎn)生b/y離子及帶二電荷的常規(guī)離子,也會(huì)產(chǎn)生常規(guī)離子失去水分子和失去氨分子的中性丟失離子,以及a型離子。為了測(cè)試不同離子類(lèi)型組合對(duì)模型的影響,以b/y離子組合為基礎(chǔ),測(cè)試了加入不同離子類(lèi)型后的表現(xiàn),該部分實(shí)驗(yàn)譜峰數(shù)量設(shè)置為500,實(shí)驗(yàn)結(jié)果如表3所示。在加入2電荷的b/y離子后肽召回率比只使用1電荷b/y離子時(shí)提升了16.0個(gè)百分點(diǎn),氨基酸水平提升了7.3 個(gè)百分點(diǎn)。b、y、b2+、y2+在測(cè)序中起著關(guān)鍵作用,這與HCD 譜中關(guān)鍵離子為b/y離子的特性是一致的。當(dāng)模型中繼續(xù)加入b/y離子的中性丟失離子(b-H2O、y-H2O、b-NH3、y-NH3)時(shí),肽的召回率比使用4種常規(guī)離子增加了3.7個(gè)百分點(diǎn),氨基酸水平增加了1.3 個(gè)百分點(diǎn);在加入a型離子及其中性丟失離子(a、a2+、a-H2O、a-NH3)后模型肽水平召回率再次提升了2.1 個(gè)百分點(diǎn)。當(dāng)離子從4 種增加到12 種時(shí),氨基酸水平的召回率只提升了1.9個(gè)百分點(diǎn),但肽的召回率提升了5.7個(gè)百分點(diǎn)。這說(shuō)明,額外增加的8 種離子提供了更多測(cè)序信息。當(dāng)譜中沒(méi)有出現(xiàn)某一碎裂位點(diǎn)的常規(guī)離子,但存在對(duì)應(yīng)中性丟失的離子峰時(shí),同樣可以為該處氨基酸身份的鑒定提供依據(jù)。因此豐富的離子類(lèi)型組合可以提升測(cè)序的準(zhǔn)確度。
表3 不同離子類(lèi)型組合的召回率對(duì)比 單位:%Tab.3 Comparison of recall by different combinations of ion types unit:%
除離子類(lèi)型組合會(huì)影響模型,每個(gè)譜采用的譜峰數(shù)量也會(huì)對(duì)模型產(chǎn)生影響。質(zhì)譜中存在大量低豐度的離子峰和噪聲峰,基于圖論等其他從頭測(cè)序方法中會(huì)先對(duì)實(shí)驗(yàn)譜消除一部分同位素峰和相對(duì)強(qiáng)度過(guò)低的峰。在denovo-GCN 中采用簡(jiǎn)便的方式,保留相對(duì)強(qiáng)度在給定排名內(nèi)的譜峰。為了驗(yàn)證譜峰數(shù)量的影響,實(shí)驗(yàn)以每個(gè)譜選取64 個(gè)峰為起始,每次實(shí)驗(yàn)遞增64 個(gè)峰,最大峰數(shù)為640,實(shí)驗(yàn)結(jié)果如圖2 所示。首先統(tǒng)計(jì)測(cè)序時(shí)使用的譜峰數(shù)量(used peaks)占全部數(shù)據(jù)的譜峰數(shù)量(total peaks)的變化曲線。當(dāng)選取256 個(gè)譜峰進(jìn)行實(shí)驗(yàn)時(shí),實(shí)驗(yàn)中用到的譜峰數(shù)量占總數(shù)據(jù)的70.62%,此時(shí)譜中的關(guān)鍵峰基本納入到了考慮范圍內(nèi);選取譜峰數(shù)量為384 時(shí)占比達(dá)到89.63%;選取譜峰數(shù)量為512 時(shí)占比達(dá)到97.39%,接近全部數(shù)據(jù)。在譜峰數(shù)超過(guò)256 個(gè)時(shí),肽召回率均值為77.84%,模型的準(zhǔn)確率趨于穩(wěn)定。當(dāng)使用384 個(gè)譜峰時(shí),基本將大部分譜峰納入到測(cè)序中,且使用384 個(gè)譜峰時(shí)訓(xùn)練時(shí)間比使用512 個(gè)譜峰時(shí)減少了1/3,若考慮使用全部譜峰時(shí)可選擇512個(gè)譜峰。
圖2 肽水平的召回率隨譜峰數(shù)量的變化曲線Fig.2 Curve of peptide-level recall varying with number of spectral peaks
在確定了模型結(jié)構(gòu)、離子類(lèi)型組合、譜峰數(shù)量后在ProteomeTools1 數(shù)據(jù)集上對(duì)denovo-GCN(12 種離子類(lèi)型,384個(gè)譜峰)、DeepNovo(version 0.0.1)、pNovo(version 3.1.3)、Novor(DeNovoGUI version 1.9.6)進(jìn)行了測(cè)試。上述工具給出了預(yù)測(cè)肽序列的得分,將最終結(jié)果按照得分從小到大排序,給定分?jǐn)?shù)t,計(jì)算肽水平的精確率(得分至少為t的實(shí)際正確肽數(shù)量/得分至少為t的肽數(shù)量)和召回率(得分至少為t的實(shí)際正確肽數(shù)量/數(shù)據(jù)中總的肽數(shù)量),畫(huà)出肽水平上的精確率-召回率(Precision-Recall,PR)曲線如圖3所示。
從圖3 可看出,denovo-GCN 的曲線明顯高于DeepNovo、Novor 的曲線,召回率在區(qū)間[0,0.5]內(nèi)與pNovo 的曲線有重合的部分,召回率超過(guò)0.5時(shí)明顯高于pNovo。再分別計(jì)算各PR曲線下的面積,denovo-GCN 為0.731 8,DeepNovo 為0.613 8,pNovo為0.619 2,Novor為0.518 1。denovo-GCN 在同一數(shù)據(jù)上的測(cè)序性能要優(yōu)于其他三種工具。
在實(shí)際應(yīng)用中,從頭測(cè)序更多的是解決未知物種蛋白的測(cè)序。因此,為了進(jìn)一步驗(yàn)證denovo-GCN 的測(cè)序表現(xiàn),本節(jié)采用了DeepNovo 中的9 個(gè)HCD 數(shù)據(jù)集,進(jìn)行物種間的交叉對(duì)比實(shí)驗(yàn),數(shù)據(jù)信息如表4所示。
表4 9個(gè)HCD數(shù)據(jù)集信息Tab.4 Information of 9 HCD datasets
每次使用其中的8 個(gè)數(shù)據(jù)集混合劃分訓(xùn)練集、驗(yàn)證集進(jìn)行模型訓(xùn)練,集合之間不存在肽序列交集,未參與模型訓(xùn)練的1 個(gè)物種數(shù)據(jù)作為測(cè)試集。用相同的數(shù)據(jù)分別訓(xùn)練DeepNovo和denovo-GCN(12 種離子類(lèi)型,384 個(gè)譜峰),Novor 和pNovo直接使用其提供的軟件進(jìn)行測(cè)序,測(cè)試結(jié)果如圖4所示。
圖4 denovo-GCN、Novor、pNovo、DeepNovo在9個(gè)HCD數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比Fig.4 Experimental result comparison of denovo-GCN,Novor,pNovo,DeepNovo on 9 HCD datasets
圖4(a)是不同工具間氨基酸水平的召回率對(duì)比,denovo-GCN 比Novor 高出6.2~32.7 個(gè)百分點(diǎn),比pNovo 高出7.6~14.9 個(gè)百分點(diǎn),比DeepNovo 高出4.3~9.9 個(gè)百分點(diǎn)。圖4(b)在不同工具上氨基酸水平的精確率對(duì)比,denovo-GCN 比Novor 高出3.8~31.1 個(gè)百分點(diǎn),比DeepNovo 高出4.1~10.0 個(gè)百 分 點(diǎn),而pNovo 在H.sapiens 數(shù) 據(jù)、M.musculus 數(shù) 據(jù)、Candidatus 數(shù)據(jù)上比denovo-GCN 的精確率高出6.1 個(gè)百分點(diǎn)、3.7 個(gè)百分點(diǎn)、2.4 個(gè)百分點(diǎn),其余數(shù)據(jù)上denovo-GCN 比pNovo 高出2.2~4.9 個(gè)百分點(diǎn)。圖4(c)在肽水平上不同工具的召回率對(duì)比,denovo-GCN 的肽的召回率比Novor 的高出9.8~21.1 個(gè)百分點(diǎn),比pNovo 高出4.0~13.0 個(gè)百分點(diǎn),比DeepNovo 高出2.1~10.7 個(gè)百分點(diǎn)。綜上實(shí)驗(yàn)結(jié)果denovo-GCN相較于Novor、pNovo、DeepNovo,能夠測(cè)得更多的氨基酸,并且能夠轉(zhuǎn)化成更多正確的肽序列,測(cè)序能力超過(guò)了其他三種工具。相較于DeepNovo的模型結(jié)構(gòu),denovo-GCN模型更為精簡(jiǎn),使用圖來(lái)表達(dá)譜峰之間關(guān)系并結(jié)合圖卷積神經(jīng)網(wǎng)絡(luò)的方式比CNN和LSTM模型在串聯(lián)質(zhì)譜測(cè)序上更具優(yōu)勢(shì)。
對(duì)于表4的9個(gè)物種的測(cè)試數(shù)據(jù)在以ProteomeTools1數(shù)據(jù)訓(xùn)練的denovo-GCN、DeepNovo 模型上分別進(jìn)行測(cè)試,并使用ProteomeToolsV2(ID:PXD010595)[24]人工合成肽的數(shù)據(jù)作為相似物種進(jìn)行對(duì)比參照,得到的結(jié)果如表5 所示。在相似物種上兩個(gè)模型表現(xiàn)都要好于非同類(lèi)物種的表現(xiàn),而非同類(lèi)物種上由于蛋白質(zhì)差異,測(cè)序效果存在一定差距。這兩部分實(shí)驗(yàn)結(jié)果表明denovo-GCN 的測(cè)序能力優(yōu)于DeepNovo、pNovo、Novor。
表5 ProteomeTools1數(shù)據(jù)集訓(xùn)練的模型在9個(gè)HCD數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果 單位:%Tab.5 Experimental result on 9 HCD datasets by the models trained on ProteomeTools1 dataset unit:%
pNovo 是基于圖論的從頭測(cè)序的代表,在幾個(gè)測(cè)試數(shù)據(jù)上氨基酸召回率雖然低于DeepNovo,但肽的召回率卻與之接近。為了查看預(yù)測(cè)序列中出現(xiàn)的錯(cuò)誤肽序列,在ProteomeTools1 測(cè)試數(shù)據(jù)上pNovo、denovo-GCN 測(cè)序結(jié)果和數(shù)據(jù)庫(kù)搜索結(jié)果之間的關(guān)系如圖5 所示:兩者有12 661 條數(shù)據(jù)測(cè)序結(jié)果相同,同時(shí)互有無(wú)法給出對(duì)方正確測(cè)序結(jié)果的數(shù)據(jù),但denovo-GCN較pNovo多鑒定出了1 451條。
圖5 pNovo、denovo-GCN、數(shù)據(jù)庫(kù)搜索結(jié)果的文氏圖Fig.5 Venn diagram of pNovo,denovo-GCN,database search results
對(duì)兩者測(cè)序均為錯(cuò)誤的結(jié)果進(jìn)行分析,總結(jié)了測(cè)序時(shí)出現(xiàn)頻率較高的3 種錯(cuò)誤類(lèi)型,示例如表6 所示:1)當(dāng)串聯(lián)質(zhì)譜中的低質(zhì)量區(qū)域,存在較多的亞胺離子和內(nèi)部離子,而關(guān)鍵性的低質(zhì)量常規(guī)離子峰與之不易區(qū)分甚至缺失,在構(gòu)圖時(shí)會(huì)出現(xiàn)多條互相連接的邊,氨基酸位置難以確定;2)氨基酸殘基存在單個(gè)氨基酸分子量等于兩個(gè)小質(zhì)量氨基酸之和或者兩種不同氨基酸分子量之和兩兩相等的情況,譜中兩端缺失了關(guān)鍵的b/y離子;3)在長(zhǎng)序列譜或低質(zhì)量譜中,離子峰更為復(fù)雜,譜峰可以對(duì)應(yīng)多種氨基酸序列的組合,在測(cè)序時(shí)較難得出正確氨基酸組合。這也能夠解釋denovo-GCN 在不同物種數(shù)據(jù)實(shí)驗(yàn)中氨基酸的召回率能夠達(dá)到60%以上,而肽序列的正確率卻在25%~48%。解決上述問(wèn)題最直接的方法是提升質(zhì)譜儀輸出數(shù)據(jù)的質(zhì)量,而當(dāng)前質(zhì)譜數(shù)據(jù)條件下,解決上述問(wèn)題的思路主要有兩個(gè):1)算法模型輸出多個(gè)候選肽序列并進(jìn)行再次打分,找出更優(yōu)的序列;2)不斷探索創(chuàng)新測(cè)序算法,從而提高肽序列的正確率。
表6 pNovo與denovo-GCN結(jié)果中典型的序列錯(cuò)誤示例Tab.6 Examples of typical sequence errors in pNovo and denovo-GCN results
denovo-GCN 將質(zhì)譜數(shù)據(jù)轉(zhuǎn)化為圖結(jié)構(gòu)數(shù)據(jù),根據(jù)肽碎裂產(chǎn)生的離子類(lèi)型對(duì)每個(gè)譜峰點(diǎn)進(jìn)行特征設(shè)計(jì),將圖卷積神經(jīng)網(wǎng)絡(luò)引入到從頭測(cè)序任務(wù)中,提升了串聯(lián)質(zhì)譜測(cè)序的準(zhǔn)確率,超過(guò)了基于圖論的從頭測(cè)序方法Novor、pNovo,以及基于CNN和LSTM 模型的DeepNovo。實(shí)驗(yàn)結(jié)果表明充分利用肽碎片離子類(lèi)型,選擇適當(dāng)譜峰數(shù)量作為參數(shù)可以取得較為理想的效果。雖然denovo-GCN 實(shí)驗(yàn)中同數(shù)據(jù)集上可以達(dá)到數(shù)據(jù)庫(kù)搜索結(jié)果70%的肽召回率,并且在不同物種測(cè)序上也好于其他工具,但不同物種數(shù)據(jù)的測(cè)試結(jié)果并未超過(guò)數(shù)據(jù)庫(kù)結(jié)果的50%。denovo-GCN 的測(cè)序效果會(huì)受到訓(xùn)練數(shù)據(jù)的影響,可以通過(guò)擴(kuò)大訓(xùn)練數(shù)據(jù)種類(lèi)來(lái)消除部分影響。提升從頭測(cè)序的準(zhǔn)確性,仍是一項(xiàng)值得持續(xù)研究的課題,而另一方面,如何測(cè)定序列中修飾后的氨基酸類(lèi)型也需要進(jìn)一步研究。