許耀奎,宋麗麗,王明輝
(青島科技大學 數(shù)理學院,山東 青島 266061)
蛋白質翻譯后修飾(PTMs)對蛋白質功能以及細胞生理學都起著重要作用,并可逆地決定細胞的動力學和可塑性。翻譯后修飾通常發(fā)生在編碼基因DNA序列轉錄為m RNA并翻譯成蛋白質序列之后,而異常的翻譯后修飾可能會引起某些疾病的發(fā)生,比如人類癌癥、免疫疾病和代謝綜合癥等其它生理機制的疾病。蛋白質巴豆?;鳛橐环N新型的蛋白質翻譯后修飾,在生命體中發(fā)揮重要的作用,因此,巴豆酰化作為近年來生物信息學研究的重大領域,已經(jīng)成為研究、開發(fā)藥物的新熱點。
近年來有很多研究人員采用不同類型的傳統(tǒng)實驗方法,如細胞培養(yǎng)中氨基酸的穩(wěn)定同位素標記、高效液相色譜分離、親和富集和高分辨率液相色譜串聯(lián)質譜等鑒定巴豆酰化位點,然而這些方法是浪費時間且價格昂貴的。目前,已經(jīng)有很多文章通過機器學習方法對蛋白質巴豆?;稽c進行研究,極大降低了實驗鑒定成本。LIU等[1]基于LightGBM提出crotonylation位點預測器Light GBM-CroSite,采用SMOTE算法對樣本進行平衡,選擇彈性網(wǎng)去除冗余信息,在刀切法檢驗下,預測模型的MCC值達到0.98,極大的提高了模型的泛化能力。LYU等[2]開發(fā)了一種基于深度學習的方法Deep-Kcr,用于巴豆?;稽c預測,結果表明卷積神經(jīng)網(wǎng)絡在大數(shù)據(jù)集上總能以較高的計算效率表現(xiàn)出最好的性能。JU等[3]基于支持向量機提出了一種新的預測器CKSAAP_crotsite,使用CKSAAP編碼方案預測巴豆?;稽c。
值得注意的是巴豆?;稽c預測雖然取得了顯著成果,但是仍然有很大的進步空間。傳統(tǒng)研究方法忽視多信息融合對巴豆酰化位點研究的重要性且傳統(tǒng)的分類器無法更好的適應大數(shù)據(jù)發(fā)展的要求,使預測的精度較低。
受此啟發(fā),本工作提出一種新的蛋白質翻譯后修飾預測方法Cro-Deep。首先,將特征提取方法:二元編碼(BE)、增強氨基酸組成(EAAC)、BLOSUM62轉化為數(shù)字信息并進行融合;其次,使用GRU對巴豆?;稽c進行預測;最后,利用十折交叉驗證對模型進行檢驗,建立蛋白質巴豆?;A測模型。最終,訓練集和獨立測試集ACC、MCC、和AUC值都達到了較好的指標。
在本研究中使用的數(shù)據(jù)集來自LYU等[2]的文獻。數(shù)據(jù)集包括HeLa細胞中3 734個組蛋白的14 311個巴豆?;稽c。CD-HIT程序[4]被用來篩選一致性閾值為30%的序列,去除冗余樣本。然后,將序列截取為長度大小為31個的片段,其中K位于中心。如果一個片段的中心K是crotonylation被定義為陽性樣本;否則,它被定義為陰性樣本。結果,獲得了大量的陰性樣品。為了平衡正負數(shù)據(jù),我們從非冗余的負樣本中隨機選擇正負樣本數(shù)量相同的序列。結果訓練集中13 950個樣本,測試集5 978個樣本,正負樣本各占一半。
BE:二元編碼(binary encoding,BE)主要反應蛋白質序列中巴豆酰化位點和非巴豆?;稽c周圍氨基酸的種類和相對位置信息,該方法原理較為簡單,主要通過將20種常見的氨基酸的字符信號轉化為用數(shù)字信號表示。20種常見的氨基酸和偽氨基酸X在進行二元編碼時,根據(jù)ACDEFGHIKLMNPQRSTVWYX的順序進行特征編碼,將每一個氨基酸序列片段中的殘基都轉化為21維的特征向量,例如對蛋白質序列中的A殘基,表示特征向量為(100 000 000 000 000 000 000)。因此,對于長度為n蛋白質序列,將會生成一個21×n維的特征向量。
EAAC:增強氨基酸組成(EAAC),由CHEN等[5]提出,從每條蛋白質序列的N-末端連續(xù)滑動到C-末端,計算固定長度子序列的氨基酸出現(xiàn)頻率,通常用于編碼長度相等的蛋白質序列。增強氨基酸組成特征提取計算公式:
其中,N(t,win)是滑動窗口win中氨基酸類型t的個數(shù)win∈(window1,window2,…,window N),N(win)是滑動窗口win的大小,固定長度的序列窗口大小默認值為5。
BLOSUM62:BLOSUM62矩陣[6]是建立在氨基酸序列的比對上,兩個肽序列之間的同一性不超過62%。BLOSUM62矩陣中的每一行都被用來編碼20個氨基酸之一,用于編碼長度相等的蛋白質序列?;贐LOSUM62矩陣中20個氨基酸的取代分數(shù),序列長度為n的氨基酸序列片段可編碼為20×n維的特征向量。
門控循環(huán)單元(GRU)[7]是RNN的改進版本。GRU包括更新門個重置門,更新門表示以前的信息是否需要更新,重置門用于控制忽略前一時刻的狀態(tài)信息的程度。更新門zt,重置門rt可以表示為式(3)。
其中,t是時間步長,σ表示Sigmoid激活函數(shù),W代表權重,xt代表時間t的輸入,h(t-1)表示在時間t-1的前一層的隱藏狀態(tài),b表示偏差,重置門和更新門每個元素都是[0,1]。
接下來,計算時間t的后選隱藏層,計算公式見式(4)。
其中,rt表示重置門得到的數(shù)據(jù)。下一步是存儲上面的信息,為了執(zhí)行此步驟,GRU計算第t層隱藏狀態(tài)ht,見式(5)。
隨后,將上面得到的隱藏狀態(tài)輸入全連接層并利用Softmax函數(shù)對巴豆?;稽c進行分類。
為了有效的評估模型的性能,本研究選擇十折交叉驗證和獨立測試集的方式對模型進行性能評估,選用準確性(ACC),特異性(Sp),敏感性(Sn)與馬氏關系數(shù)(MCC)來作為評估模型性能的指標,具體公式見式(5)~(9)。
其中,TP表示正確預測巴豆?;稽c定義為真陽性,TN表示正確預測非巴豆酰化位點定義為真陰性。FP表示錯誤的預測為巴豆酰化位點的數(shù)據(jù)定義為假陽性,FN表示錯誤的預測非巴豆?;稽c的數(shù)據(jù)定義為假陰性。此外,本工作還選擇ROC曲線和PR曲線來作為衡量模型好壞標準,曲線下面積越大代表模型魯棒性越好。
為方便起見,本工作提出的巴豆?;稽c預測方法稱之為Cro-Deep,計算流程見圖1。實驗環(huán)境為:Windows Server 2012R2 Intel(R)Xeon(TM)CPU E5-2650@2.30 GHz 2.30 GHz with 32.0 GB of RAM,MATLAB2016a和Python3.6編程實現(xiàn)。
圖1 Cro-Deep預測方法流程圖Fig.1 Flowchart of the Cro-Deep prediction method
Cro-Deep模型可以描述為以下幾個步驟:
1)獲得訓練集和測試集,并將數(shù)據(jù)集分成正負樣本。
2)特征編碼。利用3種特征編碼方法BE,EAAC和BLOSUM62,將蛋白質序列信息轉化為數(shù)字信息并進行融合。
3)分類器。根據(jù)步驟(2)將融合后的特征輸入GRU分類器進行位點預測。
4)模型評估。根據(jù)步驟(1)~(3)中建立的模型采用十折交叉驗證對模型進行評估。以ACC、AUPR、AUC、Sn、Sp、MCC值為評價 指標,并 繪制ROC曲線和PR曲線,使用獨立的測試數(shù)據(jù)集對模型進行測試。
在生物信息學中使用有效的特征提取序列信息對于模型預測結果有著重要的影響,然而使用單一的特征提取方法不能較好的說明巴豆?;稽c的特征信息,本工作采用使用了三種特征提取方法,分別包括序列信息的二元編碼,物理化學性質的EAAC,進化信息的BLOSUM62,將這些方法進行融合輸入到分類器GRU中得到新的預測值,預測結果見表1所示。
表1 對比不同特征提取方法指標Table 1 Comparison of indicators of different feature extraction methods
由表1可以看出,融合3種特征提取方法后的ACC,Sn,Sp,MCC和AUC值 分 別 為87.16%,0.857 0,0.886 3,0.743 7和0.935 7,均高于其它特征提取方法的指標。其中ACC高出0.99%~2.36%,MCC高出1.94%~6.5%,AUC高出0.59%~1.69%,不同的特征提取方法融合了不同的方面,使得信息更加全面,充分說明了特征融合的有效性。
本研究構建的模型使用了GRU分類器,GRU分類器很好地解決了梯度消失以及梯度爆炸問題,且相比于其他深度神經(jīng)網(wǎng)絡在計算方面更為簡潔從而有效地降低了計算量。為了驗證這種方法的有效性,選用7種分類算法進行對比,其中包括eXtreme Gradient Boosting(XGBoost)[8]、Gradient Boosting(GTB)[9]、Light Gradient Boosting Machine(LightGBM)[10],Extra randomized Trees(Extra Trees)[11]、邏輯回歸(LR)。深度神經(jīng)網(wǎng)絡DNN[12]。其 中XGBoost、GTB、Extra Trees、Bagging算法均采用默認參數(shù)。DNN使用3個全連接層,GRU使用兩個GRU層和一個全連接層。7種分類算法的性能度量指標見表2。
由表2可以看出,在與其它分類方法相比過程中,GRU分類器均在不同程度上優(yōu)于其它6種分類方法的分類效果,可見GRU分類算法能夠更好的分類巴豆?;稽c。
表2 對比不同分類方法的性能度量指標Table 2 Comparison of indicators of different classification methods
不同分類器ROC和PR曲線圖見圖2。圖2中可以看出,GRU分類器的曲線明顯覆蓋了其它的分類 器,AUC值 和AUPR值 分 別 達 到0.935 7和0.937 0。其中AUC值高出其它分類器對應指標值3.51%~20.54%,AUPR高出4.66%~43.61%,因此,訓練集通過十折交叉驗證在7種分類算法中性能評估可以得出,GRU分類算法能夠更好的對巴豆?;稽c進行分類。
圖2 對比不同分類器ROC和PR曲線圖Fig.2 Compare ROC and PR curves of different classifiers
為驗證本工作研究巴豆?;稽c的預測模型Cro-Deep的效果,判斷模型是否具有很好的魯棒性,和采用相同數(shù)據(jù)集的模型Deep-Kcr[2],Position-weight[13],CKSAAP-CroSite[3],Light GBMCroSite[1]4種方法的AUC值進行對比,見圖3。
圖3 基于訓練集和獨立集測試本研究方法和現(xiàn)存方法對比的AUC值Fig.3 AUC values of our proposed method and other existing tools based on training dataset and independent dataset
在圖3中可以看出,本工作構建的模型Cor_Deep在訓練集和獨立測試集都達到了較好的效果,AUC值分別達到0.935 7和0.961 5,均超過了其它現(xiàn)存的巴豆?;稽c預測模型,說明本工作構建的模型可以有效預測巴豆?;稽c,具有很好的魯棒性,在很大程度上提高巴豆?;稽c的預測性能。
提出的一種新的巴豆?;稽c預測模型Cro-Deep,通過融合蛋白質的不同信息,更加全面的將蛋白質的字符信號轉化為數(shù)字信號。并利用GRU分類器對巴豆酰化位點進行預測。最終,訓練集的ACC、MCC、和AUC值達到87.16%,0.743 7和0.935 7,獨立測試集ACC、MCC、和AUC值達到91.54%,0.831 3和0.961 5。實驗結果表明,本研究提出的Cro-Deep方法能夠有效的鑒定巴豆?;稽c,提高蛋白質翻譯后修飾的預測效果。因此,本工作提出的模型Cro-Deep對巴豆?;稽c能夠進行有效預測,為接下來實驗鑒定巴豆?;稽c提供更有意義的指導和幫助。