亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于圖卷積神經(jīng)網(wǎng)絡(luò)的串聯(lián)質(zhì)譜從頭測序

2021-09-18 06:22:48牟長寧王海鵬周丕宇侯鑫行

計(jì)算機(jī)應(yīng)用 2021年9期

關(guān)鍵詞：實(shí)驗(yàn)模型

牟長寧，王海鵬，周丕宇，侯鑫行

（山東理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，山東淄博 255000）

（*通信作者電子郵箱hpwang@sdut.edu.cn）

0 引言

基于串聯(lián)質(zhì)譜的蛋白質(zhì)組學(xué)是生命科學(xué)研究的重要組成部分，近年來在探索細(xì)胞機(jī)制、疾病進(jìn)程以及基因型和表型之間關(guān)系等研究上取得了巨大進(jìn)展［1］?；诖?lián)質(zhì)譜的蛋白質(zhì)測序主流的方法是蛋白質(zhì)數(shù)據(jù)庫搜索，常用工具有Mascot［2］、Comet［3］、MaxQuant［4］、pFind［5-6］等。該方法需要參考已有數(shù)據(jù)庫檢索候選肽序列，因此在未知生物蛋白、單克隆抗體測序等研究上失去優(yōu)勢。另一種鑒定方法是從頭測序，該方法能夠直接從串聯(lián)質(zhì)譜中推斷出氨基酸序列，無需數(shù)據(jù)庫作為參考，在鑒定未知生物肽序列上具有不可替代的作用。過去20 年間從頭測序方法進(jìn)步顯著，應(yīng)用較為廣泛的方案是基于圖論的思想，將質(zhì)譜轉(zhuǎn)化為譜峰關(guān)系圖（spectrum graph），譜峰作為譜圖中的頂點(diǎn)，如果譜峰與譜峰之間的距離等于一個(gè)或者兩個(gè)氨基酸殘基的分子量，則兩個(gè)峰之間用一條邊相連；通過搜索圖中起始點(diǎn)到結(jié)束點(diǎn)的最優(yōu)路徑得到產(chǎn)生這個(gè)質(zhì)譜的候選肽序列。代表性工作包括：2003 年Ma 等［7］發(fā)表的PEAKS，通過預(yù)處理步驟（圖譜噪聲過濾和圖譜峰聚合）創(chuàng)建譜圖并用動(dòng)態(tài)規(guī)劃算法來生成候選肽序列；2005年Frank等［8］發(fā)表了針對碰撞誘導(dǎo)裂解（Collision-Induced Dissociation，CID）質(zhì)譜的PepNovo 算法，提出了一種基于概率網(wǎng)絡(luò)模型的候選肽序列評分方法；2010 年Chi 等［9］發(fā)表的pNovo，使用帶剪枝的深度優(yōu)先搜索有效提升了在高能碰撞裂解（Higher-energy Collision Dissociation，HCD）質(zhì)譜數(shù)據(jù)上的從頭測序性能；隨后同一團(tuán)隊(duì)，在pNovo 基礎(chǔ)上開發(fā)了同時(shí)使用HCD 和電子轉(zhuǎn)運(yùn)裂解（Electron Transfer Dissociation，ETD）數(shù)據(jù)的從頭測序方法pNovo+［10］，以及針對翻譯后修飾肽鑒定的OpenpNovo［11］，并在2019年發(fā)表了pNovo3［12］，將理論質(zhì)譜預(yù)測用于候選肽重排序。另一類從頭測序方法則是基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)。2005年，NovoHMM算法［13］提出使用隱馬爾可夫模型解決從頭測序問題；2015 年，Novor［14］使用決策樹模型分別為碎片離子和氨基酸殘基進(jìn)行打分，結(jié)合動(dòng)態(tài)規(guī)劃推導(dǎo)肽序列；基于深度學(xué)習(xí)的DeepNovo［15］，通過基于卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）的Ion-CNN 和Spectrum-CNN，以及長短期記憶（Long Short-Term Memory，LSTM）網(wǎng)絡(luò)模型融合的方式對肽序列進(jìn)行預(yù)測。隨著從頭測序方法的改進(jìn)，測序精度不斷得到提升，然而由于質(zhì)譜儀中肽不完全碎裂等因素，導(dǎo)致質(zhì)譜中碎片離子的覆蓋率較低，重要b離子或y離子峰丟失，大量噪聲干擾峰難以通過約束條件徹底清除，諸多因素致使從頭測序的精度仍然較低，嚴(yán)重制約了從頭測序在蛋白質(zhì)組數(shù)據(jù)分析中的應(yīng)用。因此提升肽段從頭測序準(zhǔn)確性，對蛋白質(zhì)組學(xué)研究具有重要意義。

在蛋白質(zhì)組學(xué)中，深度學(xué)習(xí)方法已經(jīng)應(yīng)用到了預(yù)測肽段保留時(shí)間、理論質(zhì)譜預(yù)測、翻譯后修飾、從頭測序、蛋白質(zhì)結(jié)構(gòu)預(yù)測等多個(gè)任務(wù)中［16-17］。深度學(xué)習(xí)的蓬勃發(fā)展，為質(zhì)譜數(shù)據(jù)分析不斷提供新的方案啟示。本文在經(jīng)典的譜峰關(guān)系圖方法基礎(chǔ)上，提出了一種基于圖卷積神經(jīng)網(wǎng)絡(luò)（Graph Convolutional neural Network，GCN）的從頭測序方法denovo-GCN。該方法直接使用質(zhì)譜數(shù)據(jù)作為輸入，簡化中間數(shù)據(jù)約束處理過程，在譜峰關(guān)系圖結(jié)構(gòu)上按照碎裂位點(diǎn)為每個(gè)譜峰構(gòu)造特征表示。通過在大規(guī)模數(shù)據(jù)上的訓(xùn)練優(yōu)化，能夠有效提升從頭測序的準(zhǔn)確性。

1 denovo-GCN模型

1.1 圖卷積神經(jīng)網(wǎng)絡(luò)與從頭測序

圖卷積神經(jīng)網(wǎng)絡(luò)以其在圖數(shù)據(jù)上的強(qiáng)大建模能力，在知識(shí)圖譜、社交網(wǎng)絡(luò)等眾多領(lǐng)域得到了應(yīng)用［18］。Kipf 等［19］對ChebNet［20］進(jìn)行了簡化，提出了一種更加簡單的模型GCN，它相當(dāng)于對一階切比雪夫卷積的再近似，降低了計(jì)算復(fù)雜度，并且可以通過堆疊多個(gè)GCN 擴(kuò)大圖卷積神經(jīng)網(wǎng)絡(luò)的感受野，實(shí)用性大大增強(qiáng)。GCN模型結(jié)構(gòu)表述為式（1）：

其中：=A+I，A是圖的鄰接矩陣，包含了節(jié)點(diǎn)之間的連接信息；I是單位矩陣，加上I后得到的包含了自身節(jié)點(diǎn)和鄰接點(diǎn)的信息是頂點(diǎn)的度矩陣是激活函數(shù)；H(l) ∈Rn×m是第l層的激活矩陣；H(0)=X，X是由各節(jié)點(diǎn)特征向量xi組成的特征矩陣。隨后注意機(jī)制、序列模型等也用于圖中節(jié)點(diǎn)權(quán)重的計(jì)算，圖卷積神經(jīng)網(wǎng)絡(luò)呈現(xiàn)出多樣化的發(fā)展。

從頭測序過程可以類比為語言翻譯或者圖像描述，最終目的是得到一個(gè)映射原始數(shù)據(jù)的序列表示。不同之處在于后者的原始數(shù)據(jù)是規(guī)則歐氏空間數(shù)據(jù)，而質(zhì)譜數(shù)據(jù)是一組譜峰質(zhì)荷比及其強(qiáng)度的數(shù)據(jù)對組成的集合。在基于圖論的從頭測序中，譜峰關(guān)系是由譜峰之間的距離來計(jì)算，形成譜峰連接圖。這種質(zhì)譜數(shù)據(jù)圖結(jié)構(gòu)化的表示方法與針對圖結(jié)構(gòu)數(shù)據(jù)的圖卷積神經(jīng)網(wǎng)絡(luò)十分契合。譜峰節(jié)點(diǎn)的特征則可以通過枚舉碎裂位點(diǎn)產(chǎn)生的離子與各譜峰的距離關(guān)系表示，借助圖卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練學(xué)習(xí)能力將符合條件的譜峰點(diǎn)與干擾峰進(jìn)行區(qū)分，預(yù)測當(dāng)前位置的氨基酸身份，逐步實(shí)現(xiàn)氨基酸序列的推理。

1.2 圖的構(gòu)建

在質(zhì)譜數(shù)據(jù)上，使用圖卷積神經(jīng)網(wǎng)絡(luò)的首要任務(wù)是構(gòu)建譜峰連接圖。質(zhì)譜數(shù)據(jù)中的關(guān)鍵信息包括母離子的質(zhì)荷比、肽所帶電荷、譜峰。譜峰是碎片離子質(zhì)荷比及其強(qiáng)度組成的數(shù)據(jù)對，將譜峰強(qiáng)度值按照同一質(zhì)譜中最大強(qiáng)度值歸一化得到相對強(qiáng)度，相對強(qiáng)度最大值為1。單個(gè)質(zhì)譜可以直觀表示為質(zhì)荷比和相對強(qiáng)度的柱狀圖，x軸代表質(zhì)荷比，y軸代表強(qiáng)度。若譜峰與譜峰之間的距離與一個(gè)氨基酸殘基的分子量的差值在設(shè)定誤差范圍內(nèi)，則兩個(gè)譜峰之間建立一條邊。在構(gòu)建譜圖前，需向原始譜圖添加序列端點(diǎn)的譜峰，分別為一個(gè)電荷（M（proton））、一個(gè)水分子量（M（H2O））、1 電荷肽的分子量（M（peptide））、肽失去一個(gè)水的分子量（M（peptide）-M（H2O））四個(gè)譜峰點(diǎn)，相對強(qiáng)度皆設(shè)置為1。設(shè)S=為譜（npeaks為譜峰數(shù)量），SA為峰與峰之間的差值矩陣，MASS_AA=（n=23，代表20 氨基酸殘基和3 種修飾后的氨基酸殘基）為氨基酸殘基質(zhì)量集合，計(jì)算鄰接矩陣的過程用式（2）～（5）表示：

由式（2）計(jì)算譜峰差值矩陣絕對值與每個(gè)氨基酸殘基的誤差矩陣，如果誤差在給定ε內(nèi)則將相應(yīng)元素標(biāo)記為1，若超出范圍則標(biāo)記為0，然后將所有矩陣相加得到當(dāng)前譜的鄰接矩陣；加入相同維度的單位矩陣作為節(jié)點(diǎn)自身的信息，避免構(gòu)圖時(shí)譜峰為孤立峰，即譜中沒有相鄰位點(diǎn)產(chǎn)生的同類型離子譜峰，導(dǎo)致不存在邊與之相連造成信息丟失；再計(jì)算度矩陣并對鄰接矩陣進(jìn)行歸一化。

將質(zhì)譜數(shù)據(jù)處理成圖結(jié)構(gòu)化數(shù)據(jù)是denovo-GCN 與DeepNovo處理質(zhì)譜數(shù)據(jù)的不同之處，在DeepNovo中將串聯(lián)質(zhì)譜數(shù)據(jù)對應(yīng)成規(guī)則的歐氏數(shù)據(jù)，質(zhì)荷比維度的數(shù)據(jù)按照質(zhì)量精度0.01 Da（Dalton）進(jìn)行擴(kuò)展：假設(shè)譜中的最大質(zhì)荷比為1 500.00 Da，整個(gè)譜離散化為150 000 個(gè)刻度，再將每個(gè)譜峰相對強(qiáng)度填入離散化后的刻度位置，卷積提取特征。而在denovo-GCN 中，譜峰之間的關(guān)系直接計(jì)算確定，不需要通過深度學(xué)習(xí)模型來學(xué)習(xí)這種關(guān)鍵信息。

1.3 譜峰特征構(gòu)建

denovo-GCN 的另一個(gè)關(guān)鍵在于為質(zhì)譜中的每一個(gè)譜峰建立特征。由于串聯(lián)質(zhì)譜數(shù)據(jù)的特殊性，很難在只使用一組離子質(zhì)荷比和譜峰強(qiáng)度數(shù)據(jù)條件下推斷出序列信息，因此必須利用肽碎裂產(chǎn)生的離子類型設(shè)計(jì)特征。肽段在HCD 模式下常見的碎片離子類型有b、y、b2+、y2+、b-H2O、y-H2O、b-NH3、y-NH3、a、a2+、a-H2O、a-NH3等［21］，在計(jì)算得到b離子或者y離子質(zhì)荷比后便可根據(jù)母離子質(zhì)荷比計(jì)算同一斷裂位點(diǎn)的其他離子質(zhì)荷比。在模型中，設(shè)定了26種符號標(biāo)記分別代表20種氨基酸殘基、3 種修飾后的氨基酸殘基、3 種特殊的標(biāo)記（start、end、pad）。特征可以看作是當(dāng)前碎裂位點(diǎn)產(chǎn)生的離子與譜峰的距離差值，構(gòu)建過程如式（6）～（8）：

設(shè)ntoken為設(shè)定標(biāo)記的個(gè)數(shù)，nions為使用的離子類型的種類，計(jì)算得到的理論質(zhì)荷比矩陣為Mt大小為(1，ntoken×nions)，將其按第一維度復(fù)制得到Mt'(npeaks，ntoken×nions（)npeaks為譜峰數(shù)量）；將當(dāng)前譜峰矩陣Mo(npeaks，1)，按第二維度復(fù)制得到Mo'大小同樣為(npeaks，ntoken×nions)，由式（6）計(jì)算譜峰與理論離子的誤差矩陣E，然后通過指數(shù)運(yùn)算將誤差值縮放到區(qū)間（0，1）內(nèi)，⊕代表將譜峰的相對強(qiáng)度Intensity(npeaks，1)拼接到E，形成了最終的特征矩陣F。

1.4 denovo-GCN的模型構(gòu)建

denovo-GCN 的模型如圖1 所示：由質(zhì)譜數(shù)據(jù)分別計(jì)算譜圖鄰接矩陣和初始特征矩陣。使用GCN 對質(zhì)譜數(shù)據(jù)進(jìn)行特征提取，按照譜峰的維度加和并使用Leaky ReLU 激活函數(shù)進(jìn)行激活，再使用全連接層輸出，得到氨基酸類型的概率，輸出當(dāng)前條件下的氨基酸身份。

圖1 denovo-GCN模型Fig.1 denovo-GCN model

新預(yù)測的氨基酸加入到序列后，計(jì)算下一個(gè)位點(diǎn)的特征矩陣，直至出現(xiàn)結(jié)束標(biāo)記或者達(dá)到設(shè)定的序列最大長度。模型各層的參數(shù)大小設(shè)置如表1 所示，其中ntoken為設(shè)定標(biāo)記的數(shù)目，nions為使用的離子類型的數(shù)目。訓(xùn)練時(shí)標(biāo)注肽序列中的每一個(gè)氨基酸作為標(biāo)記，依次進(jìn)行批訓(xùn)練，初始學(xué)習(xí)率為0.001，根據(jù)模型訓(xùn)練評價(jià)自適應(yīng)調(diào)整學(xué)習(xí)率，最低學(xué)習(xí)率設(shè)置為10-5。由于肽序列中氨基酸出現(xiàn)的頻率差別很大，特別是帶有修飾的氨基酸殘基占比更少，因此在訓(xùn)練時(shí)使用了Focal Loss 函數(shù)計(jì)算損失，該函數(shù)最初用于解決目標(biāo)檢測中類別不平衡問題［22］。

表1 denovo-GCN模型中各層的參數(shù)Tab.1 Parameters of each layer in denovo-GCN

1.5 評價(jià)指標(biāo)

通常從肽水平和氨基酸水平上評價(jià)從頭測序結(jié)果［12-15］。肽水平召回率和精確率分別為完全預(yù)測正確的肽序列占測試數(shù)據(jù)中所有肽序列的比例和接受的測序結(jié)果中肽序列總數(shù)的比例，氨基酸水平召回率和精確率分別為預(yù)測正確的氨基酸總數(shù)分別占測試數(shù)據(jù)中氨基酸總數(shù)的比例和接受的測序結(jié)果中氨基酸總數(shù)的比例。在氨基酸水平上，從N 端或C 端開始對應(yīng)位置預(yù)測的氨基酸與標(biāo)注一致則為正確，對于分子量相同的亮氨酸（Leucine，L）和異亮氨酸（Isoleucine，I），在同一位置時(shí)認(rèn)為預(yù)測正確。

2 實(shí)驗(yàn)與結(jié)果分析

2.1 數(shù)據(jù)集和模型結(jié)構(gòu)優(yōu)化

本文在ProteomeTools1（ID：PXD004732）數(shù)據(jù)集［23］上進(jìn)行了模型的訓(xùn)練和測試，確定了模型的結(jié)構(gòu)、離子類型組合和采用的譜峰數(shù)量。該數(shù)據(jù)集來自人工合成蛋白質(zhì)數(shù)據(jù)集，從proteomeXchange 蛋白質(zhì)數(shù)據(jù)庫中獲得，根據(jù)MaxQuant搜索結(jié)果以得分score≥100、PIF≥0.7（Precursor Intensity Fraction）過濾選取高質(zhì)量的肽譜匹配數(shù)據(jù)，最終得到204 996 條標(biāo)注數(shù)據(jù)，并在實(shí)驗(yàn)時(shí)以8∶1∶1 的比例隨機(jī)劃分訓(xùn)練集、測試集、驗(yàn)證集，集合劃分時(shí)相互不存在交集。實(shí)驗(yàn)中構(gòu)建譜峰關(guān)系圖時(shí)使用的質(zhì)量誤差ε為0.02 Da。

不同層數(shù)的GCN 模型效果根據(jù)具體應(yīng)用會(huì)有所差異。本節(jié)實(shí)驗(yàn)設(shè)置最大譜峰數(shù)量為500，離子類型為12種，GCN的hidden size為256，實(shí)驗(yàn)結(jié)果如表2 所示：實(shí)驗(yàn)中采用2 層GCN的模型比使用1 層和3 層的模型在肽水平的召回率分別高出2.5個(gè)百分點(diǎn)和1.2個(gè)百分點(diǎn)，比直接使用全連接網(wǎng)絡(luò)高出了2.9個(gè)百分點(diǎn)，4層的模型與3層的模型效果基本一致；各組模型氨基酸的召回率在91.19%至92.19%。在氨基酸水平召回率相近的條件下，GCN模型明顯提高了肽水平的召回率，并在使用2 層GCN 結(jié)構(gòu)時(shí)獲得最高召回率。因此，后續(xù)實(shí)驗(yàn)皆采用2層的GCN結(jié)構(gòu)。

表2 不同GCN層數(shù)模型的召回率對比單位：%Tab.2 Comparison of recall by different GCN layers’models unit：%

2.2 碎片離子類型的選擇

肽段在高能碰撞裂解（HCD）碎裂模式下，主要產(chǎn)生b/y離子及帶二電荷的常規(guī)離子，也會(huì)產(chǎn)生常規(guī)離子失去水分子和失去氨分子的中性丟失離子，以及a型離子。為了測試不同離子類型組合對模型的影響，以b/y離子組合為基礎(chǔ)，測試了加入不同離子類型后的表現(xiàn)，該部分實(shí)驗(yàn)譜峰數(shù)量設(shè)置為500，實(shí)驗(yàn)結(jié)果如表3所示。在加入2電荷的b/y離子后肽召回率比只使用1電荷b/y離子時(shí)提升了16.0個(gè)百分點(diǎn)，氨基酸水平提升了7.3 個(gè)百分點(diǎn)。b、y、b2+、y2+在測序中起著關(guān)鍵作用，這與HCD 譜中關(guān)鍵離子為b/y離子的特性是一致的。當(dāng)模型中繼續(xù)加入b/y離子的中性丟失離子（b-H2O、y-H2O、b-NH3、y-NH3）時(shí)，肽的召回率比使用4種常規(guī)離子增加了3.7個(gè)百分點(diǎn)，氨基酸水平增加了1.3 個(gè)百分點(diǎn)；在加入a型離子及其中性丟失離子（a、a2+、a-H2O、a-NH3）后模型肽水平召回率再次提升了2.1 個(gè)百分點(diǎn)。當(dāng)離子從4 種增加到12 種時(shí)，氨基酸水平的召回率只提升了1.9個(gè)百分點(diǎn)，但肽的召回率提升了5.7個(gè)百分點(diǎn)。這說明，額外增加的8 種離子提供了更多測序信息。當(dāng)譜中沒有出現(xiàn)某一碎裂位點(diǎn)的常規(guī)離子，但存在對應(yīng)中性丟失的離子峰時(shí)，同樣可以為該處氨基酸身份的鑒定提供依據(jù)。因此豐富的離子類型組合可以提升測序的準(zhǔn)確度。

表3 不同離子類型組合的召回率對比單位：%Tab.3 Comparison of recall by different combinations of ion types unit：%

2.3 譜峰數(shù)量的影響

除離子類型組合會(huì)影響模型，每個(gè)譜采用的譜峰數(shù)量也會(huì)對模型產(chǎn)生影響。質(zhì)譜中存在大量低豐度的離子峰和噪聲峰，基于圖論等其他從頭測序方法中會(huì)先對實(shí)驗(yàn)譜消除一部分同位素峰和相對強(qiáng)度過低的峰。在denovo-GCN 中采用簡便的方式，保留相對強(qiáng)度在給定排名內(nèi)的譜峰。為了驗(yàn)證譜峰數(shù)量的影響，實(shí)驗(yàn)以每個(gè)譜選取64 個(gè)峰為起始，每次實(shí)驗(yàn)遞增64 個(gè)峰，最大峰數(shù)為640，實(shí)驗(yàn)結(jié)果如圖2 所示。首先統(tǒng)計(jì)測序時(shí)使用的譜峰數(shù)量（used peaks）占全部數(shù)據(jù)的譜峰數(shù)量（total peaks）的變化曲線。當(dāng)選取256 個(gè)譜峰進(jìn)行實(shí)驗(yàn)時(shí)，實(shí)驗(yàn)中用到的譜峰數(shù)量占總數(shù)據(jù)的70.62%，此時(shí)譜中的關(guān)鍵峰基本納入到了考慮范圍內(nèi)；選取譜峰數(shù)量為384 時(shí)占比達(dá)到89.63%；選取譜峰數(shù)量為512 時(shí)占比達(dá)到97.39%，接近全部數(shù)據(jù)。在譜峰數(shù)超過256 個(gè)時(shí)，肽召回率均值為77.84%，模型的準(zhǔn)確率趨于穩(wěn)定。當(dāng)使用384 個(gè)譜峰時(shí)，基本將大部分譜峰納入到測序中，且使用384 個(gè)譜峰時(shí)訓(xùn)練時(shí)間比使用512 個(gè)譜峰時(shí)減少了1/3，若考慮使用全部譜峰時(shí)可選擇512個(gè)譜峰。

圖2 肽水平的召回率隨譜峰數(shù)量的變化曲線Fig.2 Curve of peptide-level recall varying with number of spectral peaks

2.4 不同測序方法在ProteomeTools1數(shù)據(jù)上的對比

在確定了模型結(jié)構(gòu)、離子類型組合、譜峰數(shù)量后在ProteomeTools1 數(shù)據(jù)集上對denovo-GCN（12 種離子類型，384個(gè)譜峰）、DeepNovo（version 0.0.1）、pNovo（version 3.1.3）、Novor（DeNovoGUI version 1.9.6）進(jìn)行了測試。上述工具給出了預(yù)測肽序列的得分，將最終結(jié)果按照得分從小到大排序，給定分?jǐn)?shù)t，計(jì)算肽水平的精確率（得分至少為t的實(shí)際正確肽數(shù)量/得分至少為t的肽數(shù)量）和召回率（得分至少為t的實(shí)際正確肽數(shù)量/數(shù)據(jù)中總的肽數(shù)量），畫出肽水平上的精確率-召回率（Precision-Recall，PR）曲線如圖3所示。

從圖3 可看出，denovo-GCN 的曲線明顯高于DeepNovo、Novor 的曲線，召回率在區(qū)間［0，0.5］內(nèi)與pNovo 的曲線有重合的部分，召回率超過0.5時(shí)明顯高于pNovo。再分別計(jì)算各PR曲線下的面積，denovo-GCN 為0.731 8，DeepNovo 為0.613 8，pNovo為0.619 2，Novor為0.518 1。denovo-GCN 在同一數(shù)據(jù)上的測序性能要優(yōu)于其他三種工具。

2.5 不同物種數(shù)據(jù)的交叉對比

在實(shí)際應(yīng)用中，從頭測序更多的是解決未知物種蛋白的測序。因此，為了進(jìn)一步驗(yàn)證denovo-GCN 的測序表現(xiàn)，本節(jié)采用了DeepNovo 中的9 個(gè)HCD 數(shù)據(jù)集，進(jìn)行物種間的交叉對比實(shí)驗(yàn)，數(shù)據(jù)信息如表4所示。

表4 9個(gè)HCD數(shù)據(jù)集信息Tab.4 Information of 9 HCD datasets

每次使用其中的8 個(gè)數(shù)據(jù)集混合劃分訓(xùn)練集、驗(yàn)證集進(jìn)行模型訓(xùn)練，集合之間不存在肽序列交集，未參與模型訓(xùn)練的1 個(gè)物種數(shù)據(jù)作為測試集。用相同的數(shù)據(jù)分別訓(xùn)練DeepNovo和denovo-GCN（12 種離子類型，384 個(gè)譜峰），Novor 和pNovo直接使用其提供的軟件進(jìn)行測序，測試結(jié)果如圖4所示。

圖4 denovo-GCN、Novor、pNovo、DeepNovo在9個(gè)HCD數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對比Fig.4 Experimental result comparison of denovo-GCN，Novor，pNovo，DeepNovo on 9 HCD datasets

圖4（a）是不同工具間氨基酸水平的召回率對比，denovo-GCN 比Novor 高出6.2～32.7 個(gè)百分點(diǎn)，比pNovo 高出7.6～14.9 個(gè)百分點(diǎn)，比DeepNovo 高出4.3～9.9 個(gè)百分點(diǎn)。圖4（b）在不同工具上氨基酸水平的精確率對比，denovo-GCN 比Novor 高出3.8～31.1 個(gè)百分點(diǎn)，比DeepNovo 高出4.1～10.0 個(gè)百分點(diǎn)，而pNovo 在H.sapiens 數(shù) 據(jù)、M.musculus 數(shù) 據(jù)、Candidatus 數(shù)據(jù)上比denovo-GCN 的精確率高出6.1 個(gè)百分點(diǎn)、3.7 個(gè)百分點(diǎn)、2.4 個(gè)百分點(diǎn)，其余數(shù)據(jù)上denovo-GCN 比pNovo 高出2.2～4.9 個(gè)百分點(diǎn)。圖4（c）在肽水平上不同工具的召回率對比，denovo-GCN 的肽的召回率比Novor 的高出9.8～21.1 個(gè)百分點(diǎn)，比pNovo 高出4.0～13.0 個(gè)百分點(diǎn)，比DeepNovo 高出2.1～10.7 個(gè)百分點(diǎn)。綜上實(shí)驗(yàn)結(jié)果denovo-GCN相較于Novor、pNovo、DeepNovo，能夠測得更多的氨基酸，并且能夠轉(zhuǎn)化成更多正確的肽序列，測序能力超過了其他三種工具。相較于DeepNovo的模型結(jié)構(gòu)，denovo-GCN模型更為精簡，使用圖來表達(dá)譜峰之間關(guān)系并結(jié)合圖卷積神經(jīng)網(wǎng)絡(luò)的方式比CNN和LSTM模型在串聯(lián)質(zhì)譜測序上更具優(yōu)勢。

對于表4的9個(gè)物種的測試數(shù)據(jù)在以ProteomeTools1數(shù)據(jù)訓(xùn)練的denovo-GCN、DeepNovo 模型上分別進(jìn)行測試，并使用ProteomeToolsV2（ID：PXD010595）［24］人工合成肽的數(shù)據(jù)作為相似物種進(jìn)行對比參照，得到的結(jié)果如表5 所示。在相似物種上兩個(gè)模型表現(xiàn)都要好于非同類物種的表現(xiàn)，而非同類物種上由于蛋白質(zhì)差異，測序效果存在一定差距。這兩部分實(shí)驗(yàn)結(jié)果表明denovo-GCN 的測序能力優(yōu)于DeepNovo、pNovo、Novor。

表5 ProteomeTools1數(shù)據(jù)集訓(xùn)練的模型在9個(gè)HCD數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果單位：%Tab.5 Experimental result on 9 HCD datasets by the models trained on ProteomeTools1 dataset unit：%

2.6 denovo-GCN與pNovo預(yù)測結(jié)果及序列分析

pNovo 是基于圖論的從頭測序的代表，在幾個(gè)測試數(shù)據(jù)上氨基酸召回率雖然低于DeepNovo，但肽的召回率卻與之接近。為了查看預(yù)測序列中出現(xiàn)的錯(cuò)誤肽序列，在ProteomeTools1 測試數(shù)據(jù)上pNovo、denovo-GCN 測序結(jié)果和數(shù)據(jù)庫搜索結(jié)果之間的關(guān)系如圖5 所示：兩者有12 661 條數(shù)據(jù)測序結(jié)果相同，同時(shí)互有無法給出對方正確測序結(jié)果的數(shù)據(jù)，但denovo-GCN較pNovo多鑒定出了1 451條。

圖5 pNovo、denovo-GCN、數(shù)據(jù)庫搜索結(jié)果的文氏圖Fig.5 Venn diagram of pNovo，denovo-GCN，database search results

對兩者測序均為錯(cuò)誤的結(jié)果進(jìn)行分析，總結(jié)了測序時(shí)出現(xiàn)頻率較高的3 種錯(cuò)誤類型，示例如表6 所示：1）當(dāng)串聯(lián)質(zhì)譜中的低質(zhì)量區(qū)域，存在較多的亞胺離子和內(nèi)部離子，而關(guān)鍵性的低質(zhì)量常規(guī)離子峰與之不易區(qū)分甚至缺失，在構(gòu)圖時(shí)會(huì)出現(xiàn)多條互相連接的邊，氨基酸位置難以確定；2）氨基酸殘基存在單個(gè)氨基酸分子量等于兩個(gè)小質(zhì)量氨基酸之和或者兩種不同氨基酸分子量之和兩兩相等的情況，譜中兩端缺失了關(guān)鍵的b/y離子；3）在長序列譜或低質(zhì)量譜中，離子峰更為復(fù)雜，譜峰可以對應(yīng)多種氨基酸序列的組合，在測序時(shí)較難得出正確氨基酸組合。這也能夠解釋denovo-GCN 在不同物種數(shù)據(jù)實(shí)驗(yàn)中氨基酸的召回率能夠達(dá)到60%以上，而肽序列的正確率卻在25%～48%。解決上述問題最直接的方法是提升質(zhì)譜儀輸出數(shù)據(jù)的質(zhì)量，而當(dāng)前質(zhì)譜數(shù)據(jù)條件下，解決上述問題的思路主要有兩個(gè)：1）算法模型輸出多個(gè)候選肽序列并進(jìn)行再次打分，找出更優(yōu)的序列；2）不斷探索創(chuàng)新測序算法，從而提高肽序列的正確率。

表6 pNovo與denovo-GCN結(jié)果中典型的序列錯(cuò)誤示例Tab.6 Examples of typical sequence errors in pNovo and denovo-GCN results

3 結(jié)語

denovo-GCN 將質(zhì)譜數(shù)據(jù)轉(zhuǎn)化為圖結(jié)構(gòu)數(shù)據(jù)，根據(jù)肽碎裂產(chǎn)生的離子類型對每個(gè)譜峰點(diǎn)進(jìn)行特征設(shè)計(jì)，將圖卷積神經(jīng)網(wǎng)絡(luò)引入到從頭測序任務(wù)中，提升了串聯(lián)質(zhì)譜測序的準(zhǔn)確率，超過了基于圖論的從頭測序方法Novor、pNovo，以及基于CNN和LSTM 模型的DeepNovo。實(shí)驗(yàn)結(jié)果表明充分利用肽碎片離子類型，選擇適當(dāng)譜峰數(shù)量作為參數(shù)可以取得較為理想的效果。雖然denovo-GCN 實(shí)驗(yàn)中同數(shù)據(jù)集上可以達(dá)到數(shù)據(jù)庫搜索結(jié)果70%的肽召回率，并且在不同物種測序上也好于其他工具，但不同物種數(shù)據(jù)的測試結(jié)果并未超過數(shù)據(jù)庫結(jié)果的50%。denovo-GCN 的測序效果會(huì)受到訓(xùn)練數(shù)據(jù)的影響，可以通過擴(kuò)大訓(xùn)練數(shù)據(jù)種類來消除部分影響。提升從頭測序的準(zhǔn)確性，仍是一項(xiàng)值得持續(xù)研究的課題，而另一方面，如何測定序列中修飾后的氨基酸類型也需要進(jìn)一步研究。