關(guān)鍵詞:甲基化;卷積神經(jīng)網(wǎng)絡(luò);雙向長短時記憶網(wǎng)絡(luò);特征融合;位點識別DOI:10.15938/j. jhust.2025.02.009中圖分類號:TP391.4 文獻標(biāo)志碼:A 文章編號:1007-2683(2025)02-0082-09
Abstract:MethylationisaproteinPost-Translational Modification(PTM)thatregulatescellfunction,whichcanprovideguidance andhelpforresearchinthefieldsofgeneregulationanddiseaseprediction.Atpresent,therearesomeproblemsintheresearchof methylationsiterecogitin,suchasfewlabeleddtasets,nsuffcentpositivesmpledataandlowrecogitionaccracyofhylation research.Inordertosolvetheseproblems,thispaperproposesaproteinmethylationsiterecognitionmethodbasedonConvolutional NeuralNetwork(CNN)andBi-directionalLongShor-TermMemory(Bi-LSTM)model.Ourmodelisdividedintotwobranches.The CNNbranchusesadenseconnectionmethodtomakethefeatureinformationofachlayerfull transmitedandshared.ThestackedBiLSTMbranchesobtainbidirectionallong-termdependenciesinthesequence,andthenthetwobranchesperform featurefusionfor methylationrecognition.ExperimentsshowthattheAccuracy(ACC),F(xiàn)1Score(F1score)andMatthewsCorrelationCoficient (MCC)obtainedbyusingourmodeltoidentifymethylationsitesareO.8519,0.8494andO.7284,respectively.Compared with other methods,the model has better performance.
Keywords;methylation;convolutionalneuralnetwork;bi-directionallongshrt-termmemory;featurefusion;siterecogition
0 引言
甲基化是一種翻譯后修飾(post-translationalmodification,PTM),通過向蛋白質(zhì)結(jié)構(gòu)中添加甲基來修飾蛋白質(zhì)的功能和構(gòu)象,在表觀遺傳過程中發(fā)揮著重要的作用[]。甲基化包括蛋白質(zhì)甲基化和DNA甲基化,其中組蛋白中精氨酸(R)和賴氨酸(K)殘基的甲基化,以及其他PTM過程如乙酰化和磷酸化,對基因表達水平有顯著影響[2-3]。研究表明,甲基化可以直接改變?nèi)旧|(zhì)的調(diào)節(jié)、轉(zhuǎn)錄和結(jié)構(gòu)[4],甲基化引起的遺傳變化通過誘導(dǎo)癌基因和抑制腫瘤基因,在癌癥的發(fā)生和轉(zhuǎn)移中發(fā)揮著關(guān)鍵作用[5]。甲基化的相關(guān)問題已成為當(dāng)今蛋白質(zhì)組學(xué)研究中的一個重要課題[6-7],準(zhǔn)確地識別甲基化位點對于甲基化研究至關(guān)重要。
近年來,甲基化位點識別主要有生物實驗方法和基于計算機技術(shù)的方法。生物實驗方法[8]主要有生物芯片、免疫印跡法[9](westernblot)、特異性抗體技術(shù)和細(xì)胞培養(yǎng)穩(wěn)定同位素標(biāo)記技術(shù)[10](stableisotopelabelingtechnology,SILAC),這些生物實驗方法需要大量的人工參與,且效率低。隨著計算機技術(shù)的發(fā)展,機器學(xué)習(xí)方法也應(yīng)用到甲基化位點的識別。常用的機器學(xué)習(xí)方法包括支持向量機[11-14]、基于組的預(yù)測系統(tǒng)[15](group-based prediction system,GPS)和隨機森林[16](random forest,RF)。與生物實驗方法相比,機器學(xué)習(xí)方法能夠?qū)Υ罅繑?shù)據(jù)集準(zhǔn)確且快速的識別蛋白質(zhì)甲基化位點。
當(dāng)前,深度學(xué)習(xí)由于在處理復(fù)雜數(shù)據(jù)和任務(wù)方面具有更好的表現(xiàn),也被應(yīng)用到甲基化位點識別。2021年,Khanal等[17]提出了 4mC-w2vec 模型,該模型通過word2vec將序列轉(zhuǎn)換為詞向量,利用CNN提取序列在空間上的特征。Chen等[18]在2018年采用人類和小鼠蛋白質(zhì)數(shù)據(jù)集進行訓(xùn)練和測試,開發(fā)了用于賴氨酸甲基化位點預(yù)測的模型MUscA-DEL,取得了較好的結(jié)果。在MUscADEL中,只使用了Bi-LSTM提取氨基酸的序列信息。為了同時提取更多信息,Chaudhari等[19]在2020 年提出了基于CNN和LSTM的DeepRMethylSite模型,該集成模型能提取甲基化數(shù)據(jù)集的空間和序列信息,其性能在總體上優(yōu)于LSTM模型,但與CNN相比,并沒有實現(xiàn)明顯的性能改進。在此基礎(chǔ)上,Lumbanraja 等[20]提出的SSMFN得到了更好的識別結(jié)果,該模型在DeepRMethyISite基礎(chǔ)上沿用了CNN和LSTM的組合用于甲基化識別,且最終結(jié)果使用的是通過原始數(shù)據(jù)集訓(xùn)練的模型,達到比集成模型更好的識別準(zhǔn)確率,然而準(zhǔn)確率仍然不高。Song等[2i]使用CNN和Bi-LSTM進行蛋白質(zhì)翔基化位點預(yù)測,模型中的CNN和Bi-LSTM為串行結(jié)構(gòu)。另一方面,由于已標(biāo)注的樣本中,甲基化樣本和非甲基化樣本數(shù)量很少,且樣本類型不平衡,導(dǎo)致在訓(xùn)練過程中模型的性能下降。針對上述問題,本文提出了CNN和Bi-LSTM模型結(jié)構(gòu),模型分為兩個分支,一個分支使用密集連接的CNN提取氨基酸序列的結(jié)構(gòu)特征,另一個分支使用堆疊Bi-LSTM提取其序列特征和長期依賴關(guān)系,然后融合兩個分支的特征,進行蛋白質(zhì)甲基化位點識別。兩個分支為并行結(jié)構(gòu),這是由于并行結(jié)構(gòu)可以通過連接和拼接等多種方式進行特征融合,提高模型對數(shù)據(jù)的特征提取能力,而且通過并行計算,可以縮短訓(xùn)練時間,提高模型的計算效率。同時,使用數(shù)據(jù)增強方法,解決數(shù)據(jù)不平衡和已標(biāo)注數(shù)據(jù)過少的問題。實驗表明,本文提出的方法能提高識別的準(zhǔn)確率。
1數(shù)據(jù)集和數(shù)據(jù)預(yù)處理
1.1 數(shù)據(jù)集
本研究的數(shù)據(jù)集來自Uniprot蛋白質(zhì)數(shù)據(jù)庫[22],這個數(shù)據(jù)庫提供了全球性的蛋白質(zhì)序列和注釋數(shù)據(jù)庫,此數(shù)據(jù)集由已注釋的正樣本和負(fù)樣本構(gòu)成,正樣本是甲基化發(fā)生在中間氨基酸的序列,負(fù)樣本為未被甲基化的氨基酸序列。每個序列由19個氨基酸序列構(gòu)成,其中第10個序列位點為是否甲基化的精氨酸(R)位點。
1.2 數(shù)據(jù)預(yù)處理
1. 2.1 二十位特征編碼
由于氨基酸序列是由標(biāo)準(zhǔn)氨基酸表示的單字母構(gòu)成,計算機無法識別字符,需要將其轉(zhuǎn)換為計算機可以理解和處理的二進制形式,即編碼。常見的氨基酸序列的編碼方式主要是基于序列的特征編碼:信息理論特征[23](information theory features,ITF)、重疊屬性特征[24](overlappingproperty features,OPF)、二十位特征[16](twenty-bit features,TBF)、二十位一位特征(twenty-one-bit features,TOBF)、跳過二肽位置特征(skip dipeptide composition features,SDCF)和聯(lián)合三元組特征(conjointtriad features,CTF)。由于氨基酸序列由20種不同的標(biāo)準(zhǔn)氨基酸構(gòu)成,本文采用二十位特征作為特征編碼,每種氨基酸類型可以用以下0/1特征向量編碼,如:
式中: B20(Ai) 代表第 i 種氨基酸的二進制編碼,其中 Ai 代表第 i 種氨基酸類型,即第 i 個數(shù)字為1時,表示其為第1種氨基酸類型。
1. 2.2 設(shè)置掩碼
由于Uniprot數(shù)據(jù)庫收集的原始數(shù)據(jù)樣本存在甲基化樣本過少的問題,正樣本和負(fù)樣本的比例約為1:5,為了解決該問題,采用設(shè)置掩碼的方法[25]增加正樣本的數(shù)量。
設(shè) X 為氨基酸序列集合,訓(xùn)練集 X 中的原序列 Ai 的部分為“NLYLV”,如替換第一個氨基酸,則新序列 Bi 為“XLYLV”,將新序列和原序列合并得到 X' ,則訓(xùn)練集中的氨基酸序列擴充到2倍,用公式表示為:
其中: X 和 X' 分別為原序列集合和替換氨基酸序列的集合; Ai 和 Bi 分別為第 i 條原序列和第 i 條新序列; xn 為序列中對應(yīng)位置的氨基酸; x' 為被替換的氨基酸; X' 為通過設(shè)置掩碼擴充后的數(shù)據(jù)集。
對應(yīng)操作如圖1所示,通過這種方法,在氨基酸序列中將一部分氨基酸字母設(shè)置為“X”,并將改變后的序列作為一條新的序列加入到正樣本中。這樣不僅可以達到數(shù)據(jù)集數(shù)量擴充的效果,同時,遮蓋一部分氨基酸也能使模型更好地處理其他部分的氨基酸序列。通過實驗,最后選擇參數(shù)掩碼率為6,即在包含19個氨基酸的序列中隨機遮蓋6個氨基酸組成新序列。
2 CNN + Bi-LSTM識別模型
2.1 總體結(jié)構(gòu)
本文提出的基于CNN和Bi-LSTM模型的蛋白質(zhì)甲基化位點識別模型總體結(jié)構(gòu)如圖2所示。模型主要包含兩個并行的分支,即密集連接的CNN和堆疊的Bi-LSTM。
在模型中,首先進行數(shù)據(jù)預(yù)處理,經(jīng)過編碼的氨基酸序列通過嵌入層轉(zhuǎn)換為嵌入向量,然后分別使用密集連接的CNN和堆疊Bi-LSTM對嵌入向量進行特征提取,再進行特征融合,最后使用一個全連接層和softmax激活函數(shù)得到識別結(jié)果,如圖2(a)所示。
其中第一個分支中包含4個串行的CNN塊,具體結(jié)構(gòu)如圖2(b)所示,其中虛線框代表一個卷積塊。另一個分支為堆疊Bi-LSTM,包含2個串行的Bi-LSTM塊,每個塊的主要結(jié)構(gòu)如圖2(c)所示,并在兩個分支的前后分別添加嵌人層和全連接層。
2.2 密集連接的CNN
CNN在圖像處理[26-27]、語音識別[28-29]、故障診斷[30-31]、自然語言處理[32-33]等領(lǐng)域取得了廣泛應(yīng)用,CNN在甲基化位點識別方面也得到了應(yīng)用[34]。研究表明,隨著CNN 網(wǎng)絡(luò)深度的加深,CNN可能會存在梯度消失的問題,導(dǎo)致一些信息丟失,影響識別結(jié)果。為了解決這個問題,本文在每個卷積層的輸入采用了密集連接方式[35],即:
式中: xi 代表CNN分支中第 χi 個卷積層的輸入向量; Hi 代表一種復(fù)合函數(shù),包含第 i 個卷積塊的卷積、批標(biāo)準(zhǔn)化和激活函數(shù)的步驟
由于數(shù)據(jù)集的數(shù)量和長度較小,本文提出的使用密集連接的CNN網(wǎng)絡(luò)主要由4個卷積層和1個最大池化層組成,其中每個卷積層后面都有BatchNormalization層和Dropout層,三層串聯(lián)構(gòu)成一個卷積塊,用虛線框表示,并用標(biāo)志不同數(shù)字的箭頭表示每個卷積塊之間的輸入和輸出,即密集連接,如圖2
(b)所示。
在模型中,輸入為嵌入層輸出的嵌入向量,在卷積層中,通過卷積操作提取局部特征,通過滑動窗口的方式對整個輸入特征圖進行掃描,形成輸出特征圖。經(jīng)過批標(biāo)準(zhǔn)化,將每個小批量數(shù)據(jù)進行歸一化,以減少內(nèi)部協(xié)變量偏移,再使用ReLU激活函數(shù),將輸入映射到一個范圍,避免出現(xiàn)梯度消失或者梯度爆炸的問題,通過dropout層的作用,減少過擬合。在池化層中,CNN通過對輸出特征圖進行降采樣,縮小特征圖的尺寸和數(shù)量,減小網(wǎng)絡(luò)參數(shù)和計算量,最后將該CNN網(wǎng)絡(luò)的結(jié)果輸出
在密集連接的CNN中,層與層之間的信息傳遞更加流暢,同時也能直接接收到前面所有層的梯度信息,使得梯度可以更加順暢地傳遞,同時提高特征的重用性,減少訓(xùn)練所需的樣本數(shù),提高模型的表達能力和性能。
2.3 堆疊Bi-LSTM
針對Khanal在甲基化位點識別問題的研究[17],CNN難以處理序列數(shù)據(jù)和長距離依賴關(guān)系,而且其結(jié)構(gòu)可能會導(dǎo)致一些全局信息的丟失,從而影響模型的整體性能。雖然有學(xué)者嘗試使用LSTM和CNN融合的方法解決該問題[19],通過LSTM基于門控機制和細(xì)胞狀態(tài)提取了長距離的依賴信息,但其結(jié)構(gòu)是單向的,通過一個循環(huán)單元來處理輸入序列,其模型只接收一個輸入,并生成一個輸出和一個隱藏狀態(tài),該隱藏狀態(tài)被傳遞到下一時間,忽略了序列中反向的上下文信息,影響了識別結(jié)果。
為了解決該問題,在本文模型中,將Bi-LSTM應(yīng)用到甲基化位點識別中[36-37],如圖2(c)所示。所應(yīng)用的Bi-LSTM由兩個LSTM層組成[38-39],正向和反向的LSTM分別對序列進行處理,以更好地捕捉序列中雙向的依賴關(guān)系。
在本文模型中,將預(yù)處理后的一維氨基酸序列通過嵌入層轉(zhuǎn)換為輸入 xt ,Bi-LSTM網(wǎng)絡(luò)包含了正向(Forword)和反向(Backword)的兩個LSTM層,每個LSTM層的核心結(jié)構(gòu)主要由細(xì)胞狀態(tài)、輸入門、遺忘門和輸出門組成,通過這些結(jié)構(gòu)提取和更新氨基酸序列的特征信息。其中輸入門控制輸入的氨基酸序列的特征信息被加入到細(xì)胞狀態(tài)中的程度,遺忘門確定前一個時間步細(xì)胞狀態(tài)保留的特征信息,輸出門調(diào)節(jié)更新的細(xì)胞狀態(tài)的哪些部分被輸出,LSTM層的具體的提取特征流程可以由式(4)~(8)表示:
其中: 分別為時間 χt 時輸入門、遺忘門、輸出門、細(xì)胞狀態(tài)的輸出; xt',ht 分別為輸人向量和隱藏層向量; δ 為sigmoid激活函數(shù); W 和
為權(quán)重矩陣和偏置,下標(biāo)表示類別; Wi 和 bi 分別為輸入門的權(quán)重矩陣和偏置。
本文使用的Bi-LSTM具有兩個平行的LSTM層,兩個LSTM層都以上述相同的流程運行,在時間Ψt 時,兩個層分別從相反的方向處理輸入的氨基酸序列,再輸出隱狀態(tài)向量的和,最后將Bi-LSTM網(wǎng)絡(luò)的結(jié)果 yt 輸出。具體公式為
其中 ?yt 為Bi-LSTM的輸出; 分別為兩個并行LSTM層在兩個相反方向上的輸出結(jié)果; W1 和 W2 分別為兩個并行LSTM層在正向和反向兩個方向上的權(quán)重參數(shù);
為偏置。
在本文的Bi-LSTM模型中,除了LSTM層之外,還添加了Dropout層,其參數(shù)設(shè)置為0.5。第一層是將其添加到LSTM層的輸入中,即對輸入序列進行隨機丟棄,在保留序列信息的同時,降低模型的計算復(fù)雜度。第二層是添加到LSTM層的輸出中,隨機丟棄一定比例的隱狀態(tài),從而提高模型的泛化能力。
3 實驗結(jié)果與分析
3.1 數(shù)據(jù)集與評價指標(biāo)
本研究中的數(shù)據(jù)集如1.1所述。分為3個數(shù)據(jù)集:訓(xùn)練集、驗證集和測試集。數(shù)據(jù)集包含2429個正樣本和8483個負(fù)樣本,其中正樣本中間位點為精氨酸。
為了驗證所提出的模型,采用F1分?jǐn)?shù)(F1-score) ,準(zhǔn)確性(accuracy,ACC)和馬修斯相關(guān)系數(shù)(matthews correlation coefficient,MCC)三種評價指標(biāo)。 F1-score 和MCC適用于數(shù)據(jù)集不平衡和需要平衡精確率和召回率的情況,ACC作為識別準(zhǔn)確性的指標(biāo)。使用 F1-score 、MCC 和ACC作為評價指標(biāo),評估模型的準(zhǔn)確性和魯棒性。
同時,在與其他模型的對比實驗中還加入了特異性(Specificity, Sp )和靈敏性(Sensitive, Sn )作為評價指標(biāo),相關(guān)公式如下:
式中:TP(truepositive)為正確地識別正樣本的數(shù)量,F(xiàn)P(1positive)為錯誤地識別正樣本的數(shù)量,TN(truenegative)為正確地識別負(fù)樣本的數(shù)量,F(xiàn)N(1negative)為錯誤地識別負(fù)樣本的數(shù)量。
3.2 實驗設(shè)置
3.2.1 實驗基本設(shè)置
實驗中,損失函數(shù)采用交叉熵(crossentropy)損失函數(shù),優(yōu)化器選用自適應(yīng)矩估計(adaptivemomentestimation,Adam)優(yōu)化算法。為防止過擬合采取了隨機失活策略,在CNN中隨機失活率為0.7,在Bi-LSTM中則為0.5。實驗環(huán)境為Pytorch1.10.2框架,Python版本為3.6,操作系統(tǒng)為Windows10,GPU型號為RTX3060Laptop,主要設(shè)置如表1所示。
3.2.2 窗口大小選擇
研究表明,氨基酸序列的長度、甲基化位點的分布情況、模型的復(fù)雜度影響甲基化位點的識別結(jié)果編碼窗口大小決定了模型能提取的氨基酸序列的特征長度,為了確定最優(yōu)的窗口大小,設(shè)置了不同的窗口大小值進行實驗,結(jié)果如表2所示。
由表2可見,窗口太小會使得模型提取不到充分的特征,窗口太大會導(dǎo)致模型過擬合,當(dāng)窗口大小為19時,能得到最優(yōu)的結(jié)果,故在后續(xù)實驗中選擇窗口大小為19。
3.3 實驗結(jié)果與分析
3.3.1 預(yù)處理對比實驗
當(dāng)前,由于蛋白質(zhì)甲基化位點識別中已標(biāo)注的數(shù)據(jù)集正負(fù)樣本不平衡,多數(shù)學(xué)者解決該問題的方法為欠采樣,使負(fù)樣本減少到與正樣本相同的數(shù)量。這種方法使樣本數(shù)據(jù)減少,會影響到模型的性能。為了解決正樣本過少的問題,采用設(shè)置掩碼的方式進行數(shù)據(jù)擴充,如1.2.2節(jié)所示。
采用欠采樣的方法與設(shè)置掩碼的方法進行實驗,數(shù)據(jù)集說明如表3所示。表3中dataset1(d1)為原始數(shù)據(jù)集,dateset2(d2)為欠采樣處理后的數(shù)據(jù)集,dataset3(d3)為進行數(shù)據(jù)擴充的數(shù)據(jù)集。為了比較欠采樣和設(shè)置掩碼對模型性能的影響,應(yīng)用了CNN、Bi-LSTM和本文提出的模型(CNN+Bi-LSTM)進行實驗,實驗結(jié)果如表4所示。
本文模型表明,使用欠采樣的方法進行預(yù)處理,降低了模型的性能,說明當(dāng)數(shù)據(jù)集數(shù)量較少時,會導(dǎo)致模型無法充分學(xué)習(xí)到數(shù)據(jù)樣本的特征。使用設(shè)置掩碼的方法進行預(yù)處理,模型表現(xiàn)出更好的性能,說明通過設(shè)置掩碼的方法擴充數(shù)據(jù)集,能提升模型的性能和泛化能力。在后續(xù)實驗中,使用設(shè)置掩碼數(shù)據(jù)擴充的數(shù)據(jù)集dataset3。
由表4可見,利用dataset3進行訓(xùn)練,本文提出的 CNN+Bi -LSTM模型比單一的CNN和Bi-LSTM模型性能好。本文提出的模型比CNN模型在F1-score?SACC 和 S?MCC 上分別提高了 5.2%.5.5% 和18.4% 。與Bi-LSTM 相比,分別提高了 2.8% !3.0% 和 11.4% ,說明相比于單一模型,本文提出的模型能更充分地學(xué)習(xí)氨基酸序列的特征信息
3.3.2 與其他模型的比較與分析
為了進一步驗證所提出模型的性能,使用表3中進行數(shù)據(jù)擴充的數(shù)據(jù)集dataset3訓(xùn)練模型,并與當(dāng)前其他模型進行對比實驗,實驗結(jié)果如表5所示。
如表5所示,本文提出的模型相比于當(dāng)前的其他模型具有更好的性能。在 F1-score?SACC?S5 Ssn 和 S?MCC 上分別達到 0.8494,0.8519,0.9807 和0.7284。這是由于本模型在CNN和Bi-LSTM兩個分支上分別采取了密集連接和堆疊的方法。在Sp值上的性能沒有得到充分的體現(xiàn),可能受正負(fù)樣本數(shù)據(jù)集不平衡影響。
為了體現(xiàn)模型的穩(wěn)定性,采用準(zhǔn)確率曲線圖和損失函數(shù)曲線圖表示訓(xùn)練過程,結(jié)果如圖3所示。
由圖3(a)可以看到,本文模型的準(zhǔn)確率在曲線初期存在震蕩,而后逐步提升并趨于穩(wěn)定。分析圖3(b)損失函數(shù)曲線,訓(xùn)練剛開始下降速度很快,再逐漸轉(zhuǎn)為慢速降低最后曲線趨于平緩。說明本模型在訓(xùn)練過程中收斂速度快,具有穩(wěn)定性,且在測試集中表現(xiàn)良好。
3.4 分析與討論
3.4.1 氨基酸序列的長度分析
據(jù)研究,由于氨基酸序列的長度會影響模型的識別結(jié)果,說明甲基化的產(chǎn)生與被甲基化氨基酸位點前后的氨基酸組成有關(guān),模型需要最大限度提取氨基酸序列特征的同時,減少對局部特征的學(xué)習(xí)。
在模型中設(shè)置窗口大小進行實驗,最優(yōu)的窗口大小為19,如表2所示
3.4.2 數(shù)據(jù)集大小分析
實驗表明,數(shù)據(jù)集大小會影響模型的性能。本文使用設(shè)置掩碼的方式擴展數(shù)據(jù)集,以增強模型的學(xué)習(xí)能力和泛化能力。如表3和表4所示,經(jīng)過掩碼處理能擴充有限的正樣本數(shù)據(jù)集,提升模型識別蛋白質(zhì)甲基化位點的效果。
3.4.3 訓(xùn)練模型類型分析
蛋白質(zhì)甲基化識別的準(zhǔn)確率與模型結(jié)構(gòu)有關(guān),由表4可知,本文提出的混合模型識別準(zhǔn)確率高于單一模型,主要原因是氨基酸序列具有結(jié)構(gòu)和序列信息,而單一模型無法很好地處理序列信息,結(jié)合兩種模型進行特征提取可以達到更好的識別效果。
4結(jié)語
本文針對蛋白質(zhì)甲基化數(shù)據(jù)集正樣本過少的問題,提出設(shè)置掩碼的處理方式。在此基礎(chǔ)上,提出了基于CNN和Bi-LSTM模型的蛋白質(zhì)甲基化位點識別方法。模型中,密集連接的CNN使每層的輸人都可以獲得前一層所有的氨基酸序列信息,通過卷積層、批標(biāo)準(zhǔn)化層和池化層對嵌人向量進行特征提取。此后,使用堆疊的Bi-LSTM獲得氨基酸序列信息正向和反向的長期依賴關(guān)系和上下文信息,融合兩個分支的特征進行甲基化位點識別。實驗結(jié)果驗證了所提出模型的有效性。本文的研究為應(yīng)用深度學(xué)習(xí)進行蛋白質(zhì)甲基化位點的識別提供了新思路。進一步通過高效的識別模型,探索甲基化和構(gòu)成序列的相關(guān)性是今后重點研究方向。
參考文獻:
[1] LEEDY,TEYSSIERC,STRAHLBD,etal. Roleof Protein Methylation in Regulation of Transcription[J]. EndocrineReviews,2005,26(2):147.
[2] SCHUBERTHL,BLUMENTHALRM,CHENGX.1 Protein Methyltransferases:TheirDistribution Among the Five Structural Classes of AdoMet-Dependent Methyltransferases[M]. Enzymes,2006,24:3.
[3] NORVELL A,MCMAHONSB.Rise oftheRival[J]. Science,2010,327(5968):964.
[4] BEDFORD M T,RICHARD S. Arginine Methylation: Anemerging Regulator of Protein Function[J].MolecularCell,2005,18(3):263.
[5] ZHANGJ,JINGL,LI M,et al. Regulation of Histone 19(5) :3963.
[6]WANG Y P,LEI Q Y. Metabolic Recoding of Epigenetics in Cancer[J]. Cancer Communications,2018,38 (1) :25.
[7]MENG Lingkuan,CHAN Waisum,HUANG Lei,et al. Mini-review:Recent Advances in Post-translational Modification Site Prediction Based on Deep Learning [J]. Computational and Structural Biotechnology Journal, 2022,20:3522.
[8]YAMADA K,ITO Y. Recent Chemical Approaches for Site-Specific Conjugation of Native Antibodies : Technologies Toward Next-Generation Antibody-Drug Conjugates [J].Chembiochem,2019,20(21):2729.
[9]MAHMOOD T,YANG P C. Western Blot: Technique, Theory,and Trouble Shooting[J]. American Journal of the Medical Sciences,2012,4:429.
[10] OSAMA C,DIEGO C, JOHN M. Stable Isotope Labelling Methods in Mass Spectrometry-based Quantitative Proteomics[J]. Journal of Pharmaceutical and Biomedical Analysis,2015,113:2.
[11] CHEN H,XUE Y,HUANG N,et al. MeMo: a Web Tool for Prediction of Protein Methylation Modifications [J].Nucleic Acids,2006,34(suppl_2) : W249.
[12]SHI SP,QIU JD, SUN X Y,et al. PMeS: Prediction of Methylation Sites Based on Enhanced Feature Encoding Scheme[J]. Plos One,2012,7(6):e38772.
[13]QIU WR,XIAO X,LIN W Z,et al. iMethyl-PseAAC: Identification of Protein Methylation Sites Via a Pseudo Amino Acid Composition Approach[J]. BioMed Research International,2014(1) : 947416.
[14]WEN PP,SHI SP,XU HD,et al. Accurate in Silico Prediction of Species-specific Methylation Sites Based on Information Gain Feature Optimization[J]. Bioinformatics,2016,32(20) :3107.
[15]DENG W,WANG Y,MA L,et al. Computational Prediction of Methylation Types of Covalently Modified Lysine and Arginine Residues in Proteins[J]. Briefings in Bioinformatics,2017,18(4) :647.
[16]WEIL,XING P,SHI G,et al.Fast Prediction of Protein Methylation Sites Using a Sequence-based Feature Selection Technique[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics,2017,16:1264.
[17] KHANAL J,TAYARA H, ZOU Q,et al. Identifying DNA N4-methylcytosine Sites in the Rosaceae Genome with a Deep Learning Model Relying on Distributed Feature Representation[J]. Computational and Structural BiAssessment of Computational Predictors for Lysine Posttranslational Modification Sites[J].Briefings in Bioinformatics,2018,20(6) : 2267.
[19] CHAUDHARI M, THAPA N,ROY K,et al. Deep RMethyl Site:A Deep Learning Based Approach for Prediction of Arginine Methylation Sites in Proteins[J].Molecular Omics,2020,16(5) : 448.
[20]LUMBANRAJA F R,MAHESWORO B, CENGGORO T W,et al. SSMFN: A Fused Spatial and Sequential Deep Learning Model for Methylation Site Prediction[J]. PeerJ Computer Science, 2021,7: e683.
[21] SONG L,XU Y,WANG M,et al. Pre Car - Deep:A Deep Learning Framework for Prediction of Protein Carbonylation Sites Basedon Borderline-SMOTE Strategy [J].Chemometrics and Intelligent Laboratory Systems, 2021, 218:104428.
[22]APWEILER R,BAIROCH A,WU CH,et al. Uni Prot : the Universal Protein Knowledge Base[J]. Nucleic Acids Research,2004,32(suppl_1) : D115.
[23]EMRAH H, XUE B, ZHANG M J. Differential Evolution for Filter Feature Selection Based on Information Theory and Feature Ranking[J]. Knowledge-Based Systems, 2018,140:103.
[24]BASITH S,MANAVALAN B,HWAN SHIN T,et al. Machine Intelligence in Peptide Therapeutics:A Nextgeneration Tool for Rapid Disease Screening[J]. Med Res Rev,2020,40:1276.
[25]ZHENG Z W,NGUYENQ,KHANH L,et al.Mask DNA-PGD: An Innovative Deep Learning Model for Detecting DNA Methylation by Integrating Mask Sequences and Adversarial PGD Training as a Dataaugmentation Method[J]. Chemometrics and Intellgent Laboratory Systems,2023,232:104715.
[26] PATHAK D,KRAHENBUHL P,DONAHUE J,et al. Context Encoders : Feature Learning by Inpainting[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016:2536.
[27]王衛(wèi)兵,王卓,徐倩,等.基于三維卷積神經(jīng)網(wǎng)絡(luò)的肺 結(jié)節(jié)分類[J].哈爾濱理工大學(xué)學(xué)報,2021,26(4):87. WANG Weibing,WANG Zhuo, XU Qian, et al. Lung Nodule Classification Based on 3D Convolutional Neural Network[J]. Journal of Harbin University of Science and Technology,2021,26(4) :87.
[28]LIM C L P,WOO W L,DLAY S S,et al. Heartrate-dependent Heartwave Biometric Identification with Thresholding-based GMM-HMM Methodology[J]. IEEE Transactions on Industrial Informatics,2018,15(1) : 45.
[29]ZIMMERMANN M,MEHDIPOUR GHAZI M,EKENEL H K,et al. Visual Speech Recognition Using PCA NetworksandLSTMsina TandemGMM-HMMSystem[C]// Computer Vision-ACCV 2016 Workshops: ACCV 2016 International Workshops,Taipei, Taiwan,2017:264.
[30]柳秀,馬善濤,謝怡寧,等.面向軸承故障診斷的深度 學(xué)習(xí)方法[J].哈爾濱理工大學(xué)學(xué)報,2022,27 (4) :118. LIU Xiu,MA Shantao,XIE Yining,et al. Deep Learning Method for Bearing Fault Diagnosis[J]. Journal of HarbinUniversityof ScienceandTechnology,2022, 27(4):118.
[31]馬明晗,侯岳佳,李永剛,等.基于MSK-CNN和多源機 電信息融合的同步發(fā)電機故障診斷方法[J].電機與 控制學(xué)報,2023(1):1. MA Minghan,HOU Yuejia,LI Yonggang,et al. Synchronous Generator Fault Diagnosis Method Based on MSKCNN and Multi-source Electromechanical Information Fusion[J]. Electric Machines and Control,2O23(1):1.
[32]JOHNSON R,ZHANG T. Semi-supervised Convolutional Neural Networks for Text Categorization Via Region Embedding[J]. Advances in Neural Information Processing Systems,2015,28.
[33]WANG P,XUJ,XU B,et al. Semantic Clustering and Convolutional Neural Network for Short Text Categorization[C]// Meeting of the Association for Computational Linguistics and the,International Joint Conference on Natural Language Processing,2015:352.
[34]MOSTAVI M, SALEKIN S,HUANG Y. Deep ?2′ -O-Me: Predicting 2′ -O-methylation Sitesby Convolutional Neural Networks[C]//4Oth Annual International Conference of the IEEE Engineering in Medicine and Biology Society, 2018: 2394.
[35]HUANG G,LIU Z,VAN DER MAATEN,et al. Denselyconnected Convolutional Networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2017:4700.
[36] LE T, VO MT, VO B, et al. Improving Electric Energy Consumption Prediction Using CNN and Bi-LSTM[J]. Applied Sciences,2019,9(20):4237.
[37]SUN Qingnan,JANKOVIC M,BALLY L,et al. Predicting Blood Glucose with an LSTM and Bi-LSTM Based Deep Neural Network [J].Institute of Electrical and Electronics Engineers,2018:1.
[38]GRAVES A,SCHMIDHUBER J. Framewise Phoneme Classification with Bidirectional LSTMNetworks[C]// IEEE International Joint Conference on Neural Networks. IEEE,2005:2047.
[39]HOCHREITER S,SCHMIDHUBER J. Long Short-Term Memory[J]. Neural Computation,1997,9(8) :1735. (編輯:溫澤宇)