亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于圖卷積神經(jīng)網(wǎng)絡(luò)的串聯(lián)質(zhì)譜從頭測序

        2021-09-18 06:22:48牟長寧王海鵬周丕宇侯鑫行
        計(jì)算機(jī)應(yīng)用 2021年9期
        關(guān)鍵詞:實(shí)驗(yàn)模型

        牟長寧,王海鵬,周丕宇,侯鑫行

        (山東理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山東淄博 255000)

        (*通信作者電子郵箱hpwang@sdut.edu.cn)

        0 引言

        基于串聯(lián)質(zhì)譜的蛋白質(zhì)組學(xué)是生命科學(xué)研究的重要組成部分,近年來在探索細(xì)胞機(jī)制、疾病進(jìn)程以及基因型和表型之間關(guān)系等研究上取得了巨大進(jìn)展[1]?;诖?lián)質(zhì)譜的蛋白質(zhì)測序主流的方法是蛋白質(zhì)數(shù)據(jù)庫搜索,常用工具有Mascot[2]、Comet[3]、MaxQuant[4]、pFind[5-6]等。該方法需要參考已有數(shù)據(jù)庫檢索候選肽序列,因此在未知生物蛋白、單克隆抗體測序等研究上失去優(yōu)勢。另一種鑒定方法是從頭測序,該方法能夠直接從串聯(lián)質(zhì)譜中推斷出氨基酸序列,無需數(shù)據(jù)庫作為參考,在鑒定未知生物肽序列上具有不可替代的作用。過去20 年間從頭測序方法進(jìn)步顯著,應(yīng)用較為廣泛的方案是基于圖論的思想,將質(zhì)譜轉(zhuǎn)化為譜峰關(guān)系圖(spectrum graph),譜峰作為譜圖中的頂點(diǎn),如果譜峰與譜峰之間的距離等于一個(gè)或者兩個(gè)氨基酸殘基的分子量,則兩個(gè)峰之間用一條邊相連;通過搜索圖中起始點(diǎn)到結(jié)束點(diǎn)的最優(yōu)路徑得到產(chǎn)生這個(gè)質(zhì)譜的候選肽序列。代表性工作包括:2003 年Ma 等[7]發(fā)表的PEAKS,通過預(yù)處理步驟(圖譜噪聲過濾和圖譜峰聚合)創(chuàng)建譜圖并用動(dòng)態(tài)規(guī)劃算法來生成候選肽序列;2005年Frank等[8]發(fā)表了針對碰撞誘導(dǎo)裂解(Collision-Induced Dissociation,CID)質(zhì)譜的PepNovo 算法,提出了一種基于概率網(wǎng)絡(luò)模型的候選肽序列評分方法;2010 年Chi 等[9]發(fā)表的pNovo,使用帶剪枝的深度優(yōu)先搜索有效提升了在高能碰撞裂解(Higher-energy Collision Dissociation,HCD)質(zhì)譜數(shù)據(jù)上的從頭測序性能;隨后同一團(tuán)隊(duì),在pNovo 基礎(chǔ)上開發(fā)了同時(shí)使用HCD 和電子轉(zhuǎn)運(yùn)裂解(Electron Transfer Dissociation,ETD)數(shù)據(jù)的從頭測序方法pNovo+[10],以及針對翻譯后修飾肽鑒定的OpenpNovo[11],并在2019年發(fā)表了pNovo3[12],將理論質(zhì)譜預(yù)測用于候選肽重排序。另一類從頭測序方法則是基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)。2005年,NovoHMM算法[13]提出使用隱馬爾可夫模型解決從頭測序問題;2015 年,Novor[14]使用決策樹模型分別為碎片離子和氨基酸殘基進(jìn)行打分,結(jié)合動(dòng)態(tài)規(guī)劃推導(dǎo)肽序列;基于深度學(xué)習(xí)的DeepNovo[15],通過基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的Ion-CNN 和Spectrum-CNN,以及長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)模型融合的方式對肽序列進(jìn)行預(yù)測。隨著從頭測序方法的改進(jìn),測序精度不斷得到提升,然而由于質(zhì)譜儀中肽不完全碎裂等因素,導(dǎo)致質(zhì)譜中碎片離子的覆蓋率較低,重要b離子或y離子峰丟失,大量噪聲干擾峰難以通過約束條件徹底清除,諸多因素致使從頭測序的精度仍然較低,嚴(yán)重制約了從頭測序在蛋白質(zhì)組數(shù)據(jù)分析中的應(yīng)用。因此提升肽段從頭測序準(zhǔn)確性,對蛋白質(zhì)組學(xué)研究具有重要意義。

        在蛋白質(zhì)組學(xué)中,深度學(xué)習(xí)方法已經(jīng)應(yīng)用到了預(yù)測肽段保留時(shí)間、理論質(zhì)譜預(yù)測、翻譯后修飾、從頭測序、蛋白質(zhì)結(jié)構(gòu)預(yù)測等多個(gè)任務(wù)中[16-17]。深度學(xué)習(xí)的蓬勃發(fā)展,為質(zhì)譜數(shù)據(jù)分析不斷提供新的方案啟示。本文在經(jīng)典的譜峰關(guān)系圖方法基礎(chǔ)上,提出了一種基于圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional neural Network,GCN)的從頭測序方法denovo-GCN。該方法直接使用質(zhì)譜數(shù)據(jù)作為輸入,簡化中間數(shù)據(jù)約束處理過程,在譜峰關(guān)系圖結(jié)構(gòu)上按照碎裂位點(diǎn)為每個(gè)譜峰構(gòu)造特征表示。通過在大規(guī)模數(shù)據(jù)上的訓(xùn)練優(yōu)化,能夠有效提升從頭測序的準(zhǔn)確性。

        1 denovo-GCN模型

        1.1 圖卷積神經(jīng)網(wǎng)絡(luò)與從頭測序

        圖卷積神經(jīng)網(wǎng)絡(luò)以其在圖數(shù)據(jù)上的強(qiáng)大建模能力,在知識(shí)圖譜、社交網(wǎng)絡(luò)等眾多領(lǐng)域得到了應(yīng)用[18]。Kipf 等[19]對ChebNet[20]進(jìn)行了簡化,提出了一種更加簡單的模型GCN,它相當(dāng)于對一階切比雪夫卷積的再近似,降低了計(jì)算復(fù)雜度,并且可以通過堆疊多個(gè)GCN 擴(kuò)大圖卷積神經(jīng)網(wǎng)絡(luò)的感受野,實(shí)用性大大增強(qiáng)。GCN模型結(jié)構(gòu)表述為式(1):

        其中:=A+I,A是圖的鄰接矩陣,包含了節(jié)點(diǎn)之間的連接信息;I是單位矩陣,加上I后得到的包含了自身節(jié)點(diǎn)和鄰接點(diǎn)的信息是頂點(diǎn)的度矩陣是激活函數(shù);H(l) ∈Rn×m是第l層的激活矩陣;H(0)=X,X是由各節(jié)點(diǎn)特征向量xi組成的特征矩陣。隨后注意機(jī)制、序列模型等也用于圖中節(jié)點(diǎn)權(quán)重的計(jì)算,圖卷積神經(jīng)網(wǎng)絡(luò)呈現(xiàn)出多樣化的發(fā)展。

        從頭測序過程可以類比為語言翻譯或者圖像描述,最終目的是得到一個(gè)映射原始數(shù)據(jù)的序列表示。不同之處在于后者的原始數(shù)據(jù)是規(guī)則歐氏空間數(shù)據(jù),而質(zhì)譜數(shù)據(jù)是一組譜峰質(zhì)荷比及其強(qiáng)度的數(shù)據(jù)對組成的集合。在基于圖論的從頭測序中,譜峰關(guān)系是由譜峰之間的距離來計(jì)算,形成譜峰連接圖。這種質(zhì)譜數(shù)據(jù)圖結(jié)構(gòu)化的表示方法與針對圖結(jié)構(gòu)數(shù)據(jù)的圖卷積神經(jīng)網(wǎng)絡(luò)十分契合。譜峰節(jié)點(diǎn)的特征則可以通過枚舉碎裂位點(diǎn)產(chǎn)生的離子與各譜峰的距離關(guān)系表示,借助圖卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練學(xué)習(xí)能力將符合條件的譜峰點(diǎn)與干擾峰進(jìn)行區(qū)分,預(yù)測當(dāng)前位置的氨基酸身份,逐步實(shí)現(xiàn)氨基酸序列的推理。

        1.2 圖的構(gòu)建

        在質(zhì)譜數(shù)據(jù)上,使用圖卷積神經(jīng)網(wǎng)絡(luò)的首要任務(wù)是構(gòu)建譜峰連接圖。質(zhì)譜數(shù)據(jù)中的關(guān)鍵信息包括母離子的質(zhì)荷比、肽所帶電荷、譜峰。譜峰是碎片離子質(zhì)荷比及其強(qiáng)度組成的數(shù)據(jù)對,將譜峰強(qiáng)度值按照同一質(zhì)譜中最大強(qiáng)度值歸一化得到相對強(qiáng)度,相對強(qiáng)度最大值為1。單個(gè)質(zhì)譜可以直觀表示為質(zhì)荷比和相對強(qiáng)度的柱狀圖,x軸代表質(zhì)荷比,y軸代表強(qiáng)度。若譜峰與譜峰之間的距離與一個(gè)氨基酸殘基的分子量的差值在設(shè)定誤差范圍內(nèi),則兩個(gè)譜峰之間建立一條邊。在構(gòu)建譜圖前,需向原始譜圖添加序列端點(diǎn)的譜峰,分別為一個(gè)電荷(M(proton))、一個(gè)水分子量(M(H2O))、1 電荷肽的分子量(M(peptide))、肽失去一個(gè)水的分子量(M(peptide)-M(H2O))四個(gè)譜峰點(diǎn),相對強(qiáng)度皆設(shè)置為1。設(shè)S=為譜(npeaks為譜峰數(shù)量),SA為峰與峰之間的差值矩陣,MASS_AA=(n=23,代表20 氨基酸殘基和3 種修飾后的氨基酸殘基)為氨基酸殘基質(zhì)量集合,計(jì)算鄰接矩陣的過程用式(2)~(5)表示:

        由式(2)計(jì)算譜峰差值矩陣絕對值與每個(gè)氨基酸殘基的誤差矩陣,如果誤差在給定ε內(nèi)則將相應(yīng)元素標(biāo)記為1,若超出范圍則標(biāo)記為0,然后將所有矩陣相加得到當(dāng)前譜的鄰接矩陣;加入相同維度的單位矩陣作為節(jié)點(diǎn)自身的信息,避免構(gòu)圖時(shí)譜峰為孤立峰,即譜中沒有相鄰位點(diǎn)產(chǎn)生的同類型離子譜峰,導(dǎo)致不存在邊與之相連造成信息丟失;再計(jì)算度矩陣并對鄰接矩陣進(jìn)行歸一化。

        將質(zhì)譜數(shù)據(jù)處理成圖結(jié)構(gòu)化數(shù)據(jù)是denovo-GCN 與DeepNovo處理質(zhì)譜數(shù)據(jù)的不同之處,在DeepNovo中將串聯(lián)質(zhì)譜數(shù)據(jù)對應(yīng)成規(guī)則的歐氏數(shù)據(jù),質(zhì)荷比維度的數(shù)據(jù)按照質(zhì)量精度0.01 Da(Dalton)進(jìn)行擴(kuò)展:假設(shè)譜中的最大質(zhì)荷比為1 500.00 Da,整個(gè)譜離散化為150 000 個(gè)刻度,再將每個(gè)譜峰相對強(qiáng)度填入離散化后的刻度位置,卷積提取特征。而在denovo-GCN 中,譜峰之間的關(guān)系直接計(jì)算確定,不需要通過深度學(xué)習(xí)模型來學(xué)習(xí)這種關(guān)鍵信息。

        1.3 譜峰特征構(gòu)建

        denovo-GCN 的另一個(gè)關(guān)鍵在于為質(zhì)譜中的每一個(gè)譜峰建立特征。由于串聯(lián)質(zhì)譜數(shù)據(jù)的特殊性,很難在只使用一組離子質(zhì)荷比和譜峰強(qiáng)度數(shù)據(jù)條件下推斷出序列信息,因此必須利用肽碎裂產(chǎn)生的離子類型設(shè)計(jì)特征。肽段在HCD 模式下常見的碎片離子類型有b、y、b2+、y2+、b-H2O、y-H2O、b-NH3、y-NH3、a、a2+、a-H2O、a-NH3等[21],在計(jì)算得到b離子或者y離子質(zhì)荷比后便可根據(jù)母離子質(zhì)荷比計(jì)算同一斷裂位點(diǎn)的其他離子質(zhì)荷比。在模型中,設(shè)定了26種符號標(biāo)記分別代表20種氨基酸殘基、3 種修飾后的氨基酸殘基、3 種特殊的標(biāo)記(start、end、pad)。特征可以看作是當(dāng)前碎裂位點(diǎn)產(chǎn)生的離子與譜峰的距離差值,構(gòu)建過程如式(6)~(8):

        設(shè)ntoken為設(shè)定標(biāo)記的個(gè)數(shù),nions為使用的離子類型的種類,計(jì)算得到的理論質(zhì)荷比矩陣為Mt大小為(1,ntoken×nions),將其按第一維度復(fù)制得到Mt'(npeaks,ntoken×nions()npeaks為譜峰數(shù)量);將當(dāng)前譜峰矩陣Mo(npeaks,1),按第二維度復(fù)制得到Mo'大小同樣為(npeaks,ntoken×nions),由式(6)計(jì)算譜峰與理論離子的誤差矩陣E,然后通過指數(shù)運(yùn)算將誤差值縮放到區(qū)間(0,1)內(nèi),⊕代表將譜峰的相對強(qiáng)度Intensity(npeaks,1)拼接到E,形成了最終的特征矩陣F。

        1.4 denovo-GCN的模型構(gòu)建

        denovo-GCN 的模型如圖1 所示:由質(zhì)譜數(shù)據(jù)分別計(jì)算譜圖鄰接矩陣和初始特征矩陣。使用GCN 對質(zhì)譜數(shù)據(jù)進(jìn)行特征提取,按照譜峰的維度加和并使用Leaky ReLU 激活函數(shù)進(jìn)行激活,再使用全連接層輸出,得到氨基酸類型的概率,輸出當(dāng)前條件下的氨基酸身份。

        圖1 denovo-GCN模型Fig.1 denovo-GCN model

        新預(yù)測的氨基酸加入到序列后,計(jì)算下一個(gè)位點(diǎn)的特征矩陣,直至出現(xiàn)結(jié)束標(biāo)記或者達(dá)到設(shè)定的序列最大長度。模型各層的參數(shù)大小設(shè)置如表1 所示,其中ntoken為設(shè)定標(biāo)記的數(shù)目,nions為使用的離子類型的數(shù)目。訓(xùn)練時(shí)標(biāo)注肽序列中的每一個(gè)氨基酸作為標(biāo)記,依次進(jìn)行批訓(xùn)練,初始學(xué)習(xí)率為0.001,根據(jù)模型訓(xùn)練評價(jià)自適應(yīng)調(diào)整學(xué)習(xí)率,最低學(xué)習(xí)率設(shè)置為10-5。由于肽序列中氨基酸出現(xiàn)的頻率差別很大,特別是帶有修飾的氨基酸殘基占比更少,因此在訓(xùn)練時(shí)使用了Focal Loss 函數(shù)計(jì)算損失,該函數(shù)最初用于解決目標(biāo)檢測中類別不平衡問題[22]。

        表1 denovo-GCN模型中各層的參數(shù)Tab.1 Parameters of each layer in denovo-GCN

        1.5 評價(jià)指標(biāo)

        通常從肽水平和氨基酸水平上評價(jià)從頭測序結(jié)果[12-15]。肽水平召回率和精確率分別為完全預(yù)測正確的肽序列占測試數(shù)據(jù)中所有肽序列的比例和接受的測序結(jié)果中肽序列總數(shù)的比例,氨基酸水平召回率和精確率分別為預(yù)測正確的氨基酸總數(shù)分別占測試數(shù)據(jù)中氨基酸總數(shù)的比例和接受的測序結(jié)果中氨基酸總數(shù)的比例。在氨基酸水平上,從N 端或C 端開始對應(yīng)位置預(yù)測的氨基酸與標(biāo)注一致則為正確,對于分子量相同的亮氨酸(Leucine,L)和異亮氨酸(Isoleucine,I),在同一位置時(shí)認(rèn)為預(yù)測正確。

        2 實(shí)驗(yàn)與結(jié)果分析

        2.1 數(shù)據(jù)集和模型結(jié)構(gòu)優(yōu)化

        本文在ProteomeTools1(ID:PXD004732)數(shù)據(jù)集[23]上進(jìn)行了模型的訓(xùn)練和測試,確定了模型的結(jié)構(gòu)、離子類型組合和采用的譜峰數(shù)量。該數(shù)據(jù)集來自人工合成蛋白質(zhì)數(shù)據(jù)集,從proteomeXchange 蛋白質(zhì)數(shù)據(jù)庫中獲得,根據(jù)MaxQuant搜索結(jié)果以得分score≥100、PIF≥0.7(Precursor Intensity Fraction)過濾選取高質(zhì)量的肽譜匹配數(shù)據(jù),最終得到204 996 條標(biāo)注數(shù)據(jù),并在實(shí)驗(yàn)時(shí)以8∶1∶1 的比例隨機(jī)劃分訓(xùn)練集、測試集、驗(yàn)證集,集合劃分時(shí)相互不存在交集。實(shí)驗(yàn)中構(gòu)建譜峰關(guān)系圖時(shí)使用的質(zhì)量誤差ε為0.02 Da。

        不同層數(shù)的GCN 模型效果根據(jù)具體應(yīng)用會(huì)有所差異。本節(jié)實(shí)驗(yàn)設(shè)置最大譜峰數(shù)量為500,離子類型為12種,GCN的hidden size為256,實(shí)驗(yàn)結(jié)果如表2 所示:實(shí)驗(yàn)中采用2 層GCN的模型比使用1 層和3 層的模型在肽水平的召回率分別高出2.5個(gè)百分點(diǎn)和1.2個(gè)百分點(diǎn),比直接使用全連接網(wǎng)絡(luò)高出了2.9個(gè)百分點(diǎn),4層的模型與3層的模型效果基本一致;各組模型氨基酸的召回率在91.19%至92.19%。在氨基酸水平召回率相近的條件下,GCN模型明顯提高了肽水平的召回率,并在使用2 層GCN 結(jié)構(gòu)時(shí)獲得最高召回率。因此,后續(xù)實(shí)驗(yàn)皆采用2層的GCN結(jié)構(gòu)。

        表2 不同GCN層數(shù)模型的召回率對比 單位:%Tab.2 Comparison of recall by different GCN layers’models unit:%

        2.2 碎片離子類型的選擇

        肽段在高能碰撞裂解(HCD)碎裂模式下,主要產(chǎn)生b/y離子及帶二電荷的常規(guī)離子,也會(huì)產(chǎn)生常規(guī)離子失去水分子和失去氨分子的中性丟失離子,以及a型離子。為了測試不同離子類型組合對模型的影響,以b/y離子組合為基礎(chǔ),測試了加入不同離子類型后的表現(xiàn),該部分實(shí)驗(yàn)譜峰數(shù)量設(shè)置為500,實(shí)驗(yàn)結(jié)果如表3所示。在加入2電荷的b/y離子后肽召回率比只使用1電荷b/y離子時(shí)提升了16.0個(gè)百分點(diǎn),氨基酸水平提升了7.3 個(gè)百分點(diǎn)。b、y、b2+、y2+在測序中起著關(guān)鍵作用,這與HCD 譜中關(guān)鍵離子為b/y離子的特性是一致的。當(dāng)模型中繼續(xù)加入b/y離子的中性丟失離子(b-H2O、y-H2O、b-NH3、y-NH3)時(shí),肽的召回率比使用4種常規(guī)離子增加了3.7個(gè)百分點(diǎn),氨基酸水平增加了1.3 個(gè)百分點(diǎn);在加入a型離子及其中性丟失離子(a、a2+、a-H2O、a-NH3)后模型肽水平召回率再次提升了2.1 個(gè)百分點(diǎn)。當(dāng)離子從4 種增加到12 種時(shí),氨基酸水平的召回率只提升了1.9個(gè)百分點(diǎn),但肽的召回率提升了5.7個(gè)百分點(diǎn)。這說明,額外增加的8 種離子提供了更多測序信息。當(dāng)譜中沒有出現(xiàn)某一碎裂位點(diǎn)的常規(guī)離子,但存在對應(yīng)中性丟失的離子峰時(shí),同樣可以為該處氨基酸身份的鑒定提供依據(jù)。因此豐富的離子類型組合可以提升測序的準(zhǔn)確度。

        表3 不同離子類型組合的召回率對比 單位:%Tab.3 Comparison of recall by different combinations of ion types unit:%

        2.3 譜峰數(shù)量的影響

        除離子類型組合會(huì)影響模型,每個(gè)譜采用的譜峰數(shù)量也會(huì)對模型產(chǎn)生影響。質(zhì)譜中存在大量低豐度的離子峰和噪聲峰,基于圖論等其他從頭測序方法中會(huì)先對實(shí)驗(yàn)譜消除一部分同位素峰和相對強(qiáng)度過低的峰。在denovo-GCN 中采用簡便的方式,保留相對強(qiáng)度在給定排名內(nèi)的譜峰。為了驗(yàn)證譜峰數(shù)量的影響,實(shí)驗(yàn)以每個(gè)譜選取64 個(gè)峰為起始,每次實(shí)驗(yàn)遞增64 個(gè)峰,最大峰數(shù)為640,實(shí)驗(yàn)結(jié)果如圖2 所示。首先統(tǒng)計(jì)測序時(shí)使用的譜峰數(shù)量(used peaks)占全部數(shù)據(jù)的譜峰數(shù)量(total peaks)的變化曲線。當(dāng)選取256 個(gè)譜峰進(jìn)行實(shí)驗(yàn)時(shí),實(shí)驗(yàn)中用到的譜峰數(shù)量占總數(shù)據(jù)的70.62%,此時(shí)譜中的關(guān)鍵峰基本納入到了考慮范圍內(nèi);選取譜峰數(shù)量為384 時(shí)占比達(dá)到89.63%;選取譜峰數(shù)量為512 時(shí)占比達(dá)到97.39%,接近全部數(shù)據(jù)。在譜峰數(shù)超過256 個(gè)時(shí),肽召回率均值為77.84%,模型的準(zhǔn)確率趨于穩(wěn)定。當(dāng)使用384 個(gè)譜峰時(shí),基本將大部分譜峰納入到測序中,且使用384 個(gè)譜峰時(shí)訓(xùn)練時(shí)間比使用512 個(gè)譜峰時(shí)減少了1/3,若考慮使用全部譜峰時(shí)可選擇512個(gè)譜峰。

        圖2 肽水平的召回率隨譜峰數(shù)量的變化曲線Fig.2 Curve of peptide-level recall varying with number of spectral peaks

        2.4 不同測序方法在ProteomeTools1數(shù)據(jù)上的對比

        在確定了模型結(jié)構(gòu)、離子類型組合、譜峰數(shù)量后在ProteomeTools1 數(shù)據(jù)集上對denovo-GCN(12 種離子類型,384個(gè)譜峰)、DeepNovo(version 0.0.1)、pNovo(version 3.1.3)、Novor(DeNovoGUI version 1.9.6)進(jìn)行了測試。上述工具給出了預(yù)測肽序列的得分,將最終結(jié)果按照得分從小到大排序,給定分?jǐn)?shù)t,計(jì)算肽水平的精確率(得分至少為t的實(shí)際正確肽數(shù)量/得分至少為t的肽數(shù)量)和召回率(得分至少為t的實(shí)際正確肽數(shù)量/數(shù)據(jù)中總的肽數(shù)量),畫出肽水平上的精確率-召回率(Precision-Recall,PR)曲線如圖3所示。

        從圖3 可看出,denovo-GCN 的曲線明顯高于DeepNovo、Novor 的曲線,召回率在區(qū)間[0,0.5]內(nèi)與pNovo 的曲線有重合的部分,召回率超過0.5時(shí)明顯高于pNovo。再分別計(jì)算各PR曲線下的面積,denovo-GCN 為0.731 8,DeepNovo 為0.613 8,pNovo為0.619 2,Novor為0.518 1。denovo-GCN 在同一數(shù)據(jù)上的測序性能要優(yōu)于其他三種工具。

        2.5 不同物種數(shù)據(jù)的交叉對比

        在實(shí)際應(yīng)用中,從頭測序更多的是解決未知物種蛋白的測序。因此,為了進(jìn)一步驗(yàn)證denovo-GCN 的測序表現(xiàn),本節(jié)采用了DeepNovo 中的9 個(gè)HCD 數(shù)據(jù)集,進(jìn)行物種間的交叉對比實(shí)驗(yàn),數(shù)據(jù)信息如表4所示。

        表4 9個(gè)HCD數(shù)據(jù)集信息Tab.4 Information of 9 HCD datasets

        每次使用其中的8 個(gè)數(shù)據(jù)集混合劃分訓(xùn)練集、驗(yàn)證集進(jìn)行模型訓(xùn)練,集合之間不存在肽序列交集,未參與模型訓(xùn)練的1 個(gè)物種數(shù)據(jù)作為測試集。用相同的數(shù)據(jù)分別訓(xùn)練DeepNovo和denovo-GCN(12 種離子類型,384 個(gè)譜峰),Novor 和pNovo直接使用其提供的軟件進(jìn)行測序,測試結(jié)果如圖4所示。

        圖4 denovo-GCN、Novor、pNovo、DeepNovo在9個(gè)HCD數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對比Fig.4 Experimental result comparison of denovo-GCN,Novor,pNovo,DeepNovo on 9 HCD datasets

        圖4(a)是不同工具間氨基酸水平的召回率對比,denovo-GCN 比Novor 高出6.2~32.7 個(gè)百分點(diǎn),比pNovo 高出7.6~14.9 個(gè)百分點(diǎn),比DeepNovo 高出4.3~9.9 個(gè)百分點(diǎn)。圖4(b)在不同工具上氨基酸水平的精確率對比,denovo-GCN 比Novor 高出3.8~31.1 個(gè)百分點(diǎn),比DeepNovo 高出4.1~10.0 個(gè)百 分 點(diǎn),而pNovo 在H.sapiens 數(shù) 據(jù)、M.musculus 數(shù) 據(jù)、Candidatus 數(shù)據(jù)上比denovo-GCN 的精確率高出6.1 個(gè)百分點(diǎn)、3.7 個(gè)百分點(diǎn)、2.4 個(gè)百分點(diǎn),其余數(shù)據(jù)上denovo-GCN 比pNovo 高出2.2~4.9 個(gè)百分點(diǎn)。圖4(c)在肽水平上不同工具的召回率對比,denovo-GCN 的肽的召回率比Novor 的高出9.8~21.1 個(gè)百分點(diǎn),比pNovo 高出4.0~13.0 個(gè)百分點(diǎn),比DeepNovo 高出2.1~10.7 個(gè)百分點(diǎn)。綜上實(shí)驗(yàn)結(jié)果denovo-GCN相較于Novor、pNovo、DeepNovo,能夠測得更多的氨基酸,并且能夠轉(zhuǎn)化成更多正確的肽序列,測序能力超過了其他三種工具。相較于DeepNovo的模型結(jié)構(gòu),denovo-GCN模型更為精簡,使用圖來表達(dá)譜峰之間關(guān)系并結(jié)合圖卷積神經(jīng)網(wǎng)絡(luò)的方式比CNN和LSTM模型在串聯(lián)質(zhì)譜測序上更具優(yōu)勢。

        對于表4的9個(gè)物種的測試數(shù)據(jù)在以ProteomeTools1數(shù)據(jù)訓(xùn)練的denovo-GCN、DeepNovo 模型上分別進(jìn)行測試,并使用ProteomeToolsV2(ID:PXD010595)[24]人工合成肽的數(shù)據(jù)作為相似物種進(jìn)行對比參照,得到的結(jié)果如表5 所示。在相似物種上兩個(gè)模型表現(xiàn)都要好于非同類物種的表現(xiàn),而非同類物種上由于蛋白質(zhì)差異,測序效果存在一定差距。這兩部分實(shí)驗(yàn)結(jié)果表明denovo-GCN 的測序能力優(yōu)于DeepNovo、pNovo、Novor。

        表5 ProteomeTools1數(shù)據(jù)集訓(xùn)練的模型在9個(gè)HCD數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果 單位:%Tab.5 Experimental result on 9 HCD datasets by the models trained on ProteomeTools1 dataset unit:%

        2.6 denovo-GCN與pNovo預(yù)測結(jié)果及序列分析

        pNovo 是基于圖論的從頭測序的代表,在幾個(gè)測試數(shù)據(jù)上氨基酸召回率雖然低于DeepNovo,但肽的召回率卻與之接近。為了查看預(yù)測序列中出現(xiàn)的錯(cuò)誤肽序列,在ProteomeTools1 測試數(shù)據(jù)上pNovo、denovo-GCN 測序結(jié)果和數(shù)據(jù)庫搜索結(jié)果之間的關(guān)系如圖5 所示:兩者有12 661 條數(shù)據(jù)測序結(jié)果相同,同時(shí)互有無法給出對方正確測序結(jié)果的數(shù)據(jù),但denovo-GCN較pNovo多鑒定出了1 451條。

        圖5 pNovo、denovo-GCN、數(shù)據(jù)庫搜索結(jié)果的文氏圖Fig.5 Venn diagram of pNovo,denovo-GCN,database search results

        對兩者測序均為錯(cuò)誤的結(jié)果進(jìn)行分析,總結(jié)了測序時(shí)出現(xiàn)頻率較高的3 種錯(cuò)誤類型,示例如表6 所示:1)當(dāng)串聯(lián)質(zhì)譜中的低質(zhì)量區(qū)域,存在較多的亞胺離子和內(nèi)部離子,而關(guān)鍵性的低質(zhì)量常規(guī)離子峰與之不易區(qū)分甚至缺失,在構(gòu)圖時(shí)會(huì)出現(xiàn)多條互相連接的邊,氨基酸位置難以確定;2)氨基酸殘基存在單個(gè)氨基酸分子量等于兩個(gè)小質(zhì)量氨基酸之和或者兩種不同氨基酸分子量之和兩兩相等的情況,譜中兩端缺失了關(guān)鍵的b/y離子;3)在長序列譜或低質(zhì)量譜中,離子峰更為復(fù)雜,譜峰可以對應(yīng)多種氨基酸序列的組合,在測序時(shí)較難得出正確氨基酸組合。這也能夠解釋denovo-GCN 在不同物種數(shù)據(jù)實(shí)驗(yàn)中氨基酸的召回率能夠達(dá)到60%以上,而肽序列的正確率卻在25%~48%。解決上述問題最直接的方法是提升質(zhì)譜儀輸出數(shù)據(jù)的質(zhì)量,而當(dāng)前質(zhì)譜數(shù)據(jù)條件下,解決上述問題的思路主要有兩個(gè):1)算法模型輸出多個(gè)候選肽序列并進(jìn)行再次打分,找出更優(yōu)的序列;2)不斷探索創(chuàng)新測序算法,從而提高肽序列的正確率。

        表6 pNovo與denovo-GCN結(jié)果中典型的序列錯(cuò)誤示例Tab.6 Examples of typical sequence errors in pNovo and denovo-GCN results

        3 結(jié)語

        denovo-GCN 將質(zhì)譜數(shù)據(jù)轉(zhuǎn)化為圖結(jié)構(gòu)數(shù)據(jù),根據(jù)肽碎裂產(chǎn)生的離子類型對每個(gè)譜峰點(diǎn)進(jìn)行特征設(shè)計(jì),將圖卷積神經(jīng)網(wǎng)絡(luò)引入到從頭測序任務(wù)中,提升了串聯(lián)質(zhì)譜測序的準(zhǔn)確率,超過了基于圖論的從頭測序方法Novor、pNovo,以及基于CNN和LSTM 模型的DeepNovo。實(shí)驗(yàn)結(jié)果表明充分利用肽碎片離子類型,選擇適當(dāng)譜峰數(shù)量作為參數(shù)可以取得較為理想的效果。雖然denovo-GCN 實(shí)驗(yàn)中同數(shù)據(jù)集上可以達(dá)到數(shù)據(jù)庫搜索結(jié)果70%的肽召回率,并且在不同物種測序上也好于其他工具,但不同物種數(shù)據(jù)的測試結(jié)果并未超過數(shù)據(jù)庫結(jié)果的50%。denovo-GCN 的測序效果會(huì)受到訓(xùn)練數(shù)據(jù)的影響,可以通過擴(kuò)大訓(xùn)練數(shù)據(jù)種類來消除部分影響。提升從頭測序的準(zhǔn)確性,仍是一項(xiàng)值得持續(xù)研究的課題,而另一方面,如何測定序列中修飾后的氨基酸類型也需要進(jìn)一步研究。

        猜你喜歡
        實(shí)驗(yàn)模型
        一半模型
        記一次有趣的實(shí)驗(yàn)
        微型實(shí)驗(yàn)里看“燃燒”
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        做個(gè)怪怪長實(shí)驗(yàn)
        3D打印中的模型分割與打包
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        亚洲AV无码一区二区二三区我| 国产精品熟女少妇不卡| 亚洲熟女乱一区二区三区| 国内自拍偷国视频系列| 亚洲成在人线视av| www插插插无码视频网站| 国产女女精品视频久热视频| 中文在线天堂网www| 亚洲AV综合A∨一区二区| 无码中文字幕专区一二三| 国产一区不卡视频在线| 亚洲国产日韩一区二区三区四区| 国产一区二区黄色的网站| 久久综合噜噜激激的五月天| 国产成人av综合色| 香蕉视频www.5.在线观看| 国产91色在线|亚洲| 欧美国产伦久久久久久久| 伊人影院成人在线观看| 大陆老熟女自拍自偷露脸 | 国产性生大片免费观看性| 99精品视频在线观看| 亚洲自拍另类欧美综合| 国产在线高清无码不卡| 久久亚洲精品国产精品婷婷| 中文字幕无线精品亚洲乱码一区| 亚洲精品久久麻豆蜜桃| 精品少妇一区二区三区免费| 免费无码专区毛片高潮喷水| av无码av天天av天天爽| 一二三四视频社区在线| 欧美国产日本高清不卡| AV永久天堂网| 97久久国产精品成人观看| 午夜一区二区三区观看| 国产福利永久在线视频无毒不卡 | 国产亚洲欧美精品永久| 久久成人影院精品777| 日韩一线无码av毛片免费| 国产在线欧美日韩精品一区二区| av免费观看在线网站|