賀興時,李 錦,梁蕓蕓
(西安工程大學(xué) 理學(xué)院,陜西 西安 710048)
高血壓作為最普遍的慢性疾病,影響著全球1/4以上的人口[1],高血壓與心力衰竭、腎衰竭等一系列的疾病有關(guān)[2]。越來越多的人們遭受高血壓的困擾,雖然有α和β受體阻滯劑、利尿劑和腎素抑制劑等新的藥物,但這些藥物都有血管性水腫、腹瀉、皮疹等不同程度的副作用。因此,為減少或消除與高血壓相關(guān)的病痛,研發(fā)更安全、副作用小,可有效抑制高血壓的藥物意義重大。
深度學(xué)習(xí)[3]是機器學(xué)習(xí)中的一種新興技術(shù),近年來已廣泛應(yīng)用于生物信息學(xué)的研究[4-5]。基于計算方法的抗高血壓肽識別利用統(tǒng)計分析、數(shù)據(jù)挖掘方法提取蛋白質(zhì)的序列信息,并通過機器學(xué)習(xí)算法來識別預(yù)測。WANG等提出了一種通過偏最小二乘回歸方法識別蛋白質(zhì)的預(yù)測模型[6]。KUMAR等設(shè)計了基于氨基酸組分、原子組成和化學(xué)描述的模型,該模型使用支持向量機對多肽進(jìn)行預(yù)測[7]。WIN等提出了采用隨機森林結(jié)合多種計算方法預(yù)測AHTPs 的PAAP模型[8]。MANAVALAN等構(gòu)建了采用8種特征提取方法和集成分類器預(yù)測AHTPs 的mAHTPred模型[9]。ZHUANG等提出了基于預(yù)處理編碼算法和卷積神經(jīng)網(wǎng)絡(luò)捕獲抗AHTPs特征的模型[10]。SHI等提出一種新的AHTPs識別預(yù)測模型,該模型采用5種方法進(jìn)行特征提取,合并卷積神經(jīng)網(wǎng)絡(luò)和門控循環(huán)單元(gated recurrent units,GRU)為分類器對AHTPs進(jìn)行預(yù)測[11]。但這些模型存在識別精度低、過預(yù)測等缺點。
本文基于深度學(xué)習(xí)構(gòu)建iAHTPs-BiGRU的AHTPs識別模型。采用多源特征提取方法從不同維度提取肽序列的信息,包括新增強分組氨基酸組分(NEGAAC)、約簡的二肽組分(RDPC)、二肽頻率與預(yù)期平均值之間的偏差(DDE)、氨基酸理化性質(zhì)的距離變換(AAP-DT)和BLOSUM62編碼,并將得到的特征信息輸入到雙向門控循環(huán)單元(BiGRU)中,識別蛋白質(zhì)序列是否是抗高血壓肽,并采用10-折交叉驗證對基準(zhǔn)數(shù)據(jù)集和獨立數(shù)據(jù)集進(jìn)行性能評估。
為了開發(fā)預(yù)測模型,方便與其他識別模型進(jìn)行比較,采用構(gòu)建的基準(zhǔn)數(shù)據(jù)集和獨立數(shù)據(jù)集[7]。正樣本使用KUMAR等構(gòu)造的抗高血壓肽非冗基準(zhǔn)余數(shù)據(jù)集[5],數(shù)據(jù)集中的所有序列均從數(shù)據(jù)庫AHTPDB[12]和BIOPEP[13]得到,且都是經(jīng)實驗驗證的正樣本序列。因為較短的序列難以生成有用的信息特征,所以刪除長度小于5個氨基酸殘基的肽序列,剩余913條肽序列作為基準(zhǔn)數(shù)據(jù)集的正樣本。然后從Swiss-Prot中選擇913條隨機肽作為負(fù)樣本。獨立數(shù)據(jù)集是從AHTPDB和BIOPEP數(shù)據(jù)庫中通過人工提取實驗驗證的正樣本。此外,負(fù)樣本仍然是從Swiss-Prot中隨機肽產(chǎn)生。應(yīng)用CD-HIT[14]刪除獨立數(shù)據(jù)集中與基準(zhǔn)數(shù)據(jù)集中的序列一致度大于90%的序列,得到386個正樣本和386個負(fù)樣本。
在基準(zhǔn)數(shù)據(jù)集和獨立數(shù)據(jù)集中,小肽、中肽和大肽等肽序列的大小不同,但是在特征提取部分,部分方法需要相同長度的肽序列。為使肽序列信息保持完整,根據(jù)最長肽序列的長度采用虛擬氨基酸“X”補齊所有序列。
1.2.1 NEGAAC方法
EGAAC將20種氨基酸分為5組[15],并已應(yīng)用于病毒翻譯后修飾位點預(yù)測[16]、賴氨酸琥珀酰化位點預(yù)測[17]。本文采用新的分組方法對EGAAC方法進(jìn)行改進(jìn),將20種氨基酸根據(jù)親疏水性分為6組[18],提出NEGAAC方法。新的分組為m1:R, D, E, N, Q, K, H;m2:L, I, V, A, M, F;m3:S, T, Y, W;m4:P;m5:G;m6:C。
使用滑動窗口n沿著序列進(jìn)行掃描,NEGAAC計算公式為
式中:R(m,n)為基于NEGAAC的肽序列特征;W(m,n)為滑動窗口n中第m組氨基酸的數(shù)量;L為肽序列長度。通過式(1)得到(L-n+1)×6維的特征信息。
1.2.2 RDPC特征提取
RDPC是一種有效的特征提取方法,已應(yīng)用于抗癌肽的識別[19]。根據(jù)氨基酸化學(xué)結(jié)構(gòu)和極性將氨基酸分為r1:A, G, I, L, M, V;r2:F, W, Y;r3:H, K, R;r4:D, E;r5:C, N, P, Q, S, T等5組,即
(2)
式中:hi(i=1,2,…,25)為二肽出現(xiàn)的概率;ci為二肽的出現(xiàn)次數(shù)。
1.2.3 DDE特征表現(xiàn)
DDE特征表示方法[20]是將肽序列轉(zhuǎn)化為數(shù)值信息,已廣泛應(yīng)用于蛋白質(zhì)翻譯后的修飾位點[21]的預(yù)測。主要步驟如下:
第一步:計算蛋白質(zhì)序列二肽組分(D),計算公式為
(3)
式中:D(b,d)為氨基酸的二肽組分;wbd為氨基酸對b,d的數(shù)量。
第二步:計算肽序列的理論均值(M)和理論方差(V),計算公式為
(4)
(5)
式中:M(b,d)為肽序列的理論均值;V(b,d)為肽序列的理論方差;Ab和Ad分別為第1個氨基酸和第2個氨基酸的密碼子數(shù);Aw為氨基酸密碼子的總數(shù)。
第三步:由D、M、V計算肽序列的DDE,計算公式為
(6)
式中:PDDE為基于DDE的肽序列特征。
1.2.4 AAP-DT特征方法
根據(jù)氨基酸的9種理化性質(zhì)[22]將肽序列轉(zhuǎn)換為數(shù)值序列。對物理化學(xué)性質(zhì)的值進(jìn)行標(biāo)準(zhǔn)化,基于標(biāo)準(zhǔn)化之后的數(shù)據(jù),將每個肽序列轉(zhuǎn)換為一個性質(zhì)矩陣(A),即
A=(ai,j)L×9
(7)
式中:ai,j為第i個氨基酸的第j個理化性質(zhì)的值。最后根據(jù)距離變換方法將理化性質(zhì)矩陣轉(zhuǎn)換為肽序列的特征,即
(8)
式中:PAAP-DT為基于AAP-DT方法的氨基酸特征;j1與j2為2種理化性質(zhì)。根據(jù)肽序列的長度,設(shè)ε的最大值為10。
1.2.5 BLOSUM62編碼
蛋白質(zhì)替換計分矩陣BLOSUM是計算氨基酸之間的替換相對頻率和概率,反映肽序列的進(jìn)化信息,BLOSUM62由一致度大于62%的序列計算得到,已應(yīng)用于原核生物賴氨酸乙?;A(yù)測[23]、肽識別[24]等領(lǐng)域。基于BLOSUM62矩陣,每個氨基酸可編碼為20維的特征向量。
為準(zhǔn)確識別AHTPs,采用深度學(xué)習(xí)構(gòu)建一個具有混合架構(gòu)的神經(jīng)網(wǎng)絡(luò)。BiGRU神經(jīng)網(wǎng)絡(luò)包含輸入層、BiGRU[25]、全連接層、dropout層和輸出層,將數(shù)字信息矩陣輸入到神經(jīng)網(wǎng)絡(luò)中。
BiGRU由前向?qū)W習(xí)和后向?qū)W習(xí)2層GRU[26]組成,故在BiGRU(記為XBiGRU)中,t時刻的隱藏狀態(tài),即
(9)
本文共設(shè)置3層BiGRU,每層的神經(jīng)元個數(shù)分別為32、16和8。經(jīng)過BiGRU網(wǎng)絡(luò)得到輸入矩陣的高級特征,隨后將這些特征輸入到全鏈接層進(jìn)一步判別。同時為了避免過擬合,在每層的BiGRU網(wǎng)絡(luò)中引入Dropout[27]機制,Dropout以一定的概率刪除部分神經(jīng)元。模型中全連接層的神經(jīng)元個數(shù)分別為32、16和16,加入Dropout層提高了模型整體的泛化能力,Dropout層的參數(shù)設(shè)為0.1。全鏈接層為正向和反向傳播,用于不斷迭代更新參數(shù)和計算輸出結(jié)果。采用校正線性單元[28]作為激活函數(shù),整個網(wǎng)絡(luò)中使用Adam[29]算法進(jìn)行優(yōu)化。Softmax函數(shù)以概率的形式表示分類結(jié)果,故輸出層使用Softmax函數(shù)計算最終輸出。
為證明所構(gòu)建的識別模型的有效性,采用10-折交叉驗證方法進(jìn)行性能評估并輸出敏感度(Sn)、特異度(Sp)、準(zhǔn)確度(Acc)、馬修相關(guān)系數(shù)(CMC)4個評價指標(biāo),即
(10)
(11)
(12)
-1≤CMC≤1
(13)
在NEGAAC中,滑動窗口n值分別取2、3、4、5、6、7、8,計算2組數(shù)據(jù)集的識別精度,不同n值的精確度如圖1所示。當(dāng)n=5時,基準(zhǔn)數(shù)據(jù)集和獨立數(shù)據(jù)集的識別度達(dá)到84.37%和94.65%,因此最優(yōu)參數(shù)n取5。
圖 1 不同n值的精確度Fig.1 Accuracy of different n value
為避免所得到的特征信息過于簡單,使用 NEGAAC、RDPC、 DDE、AAP-DT和BLOSUM62編碼從氨基酸的理化性質(zhì)和進(jìn)化信息等角度表達(dá)肽序列的有效信息。為體現(xiàn)每個特征提取方法的識別性能,不同特征組的識別精確度結(jié)果如圖2所示。
圖 2 不同特征組的識別精確度Fig.2 Accuracy of different feature groups
從圖2可以看出,在基準(zhǔn)數(shù)據(jù)集中,單個特征組的識別精確度在68.63%~87.47%之間,拼接后的特征其識別準(zhǔn)確度也達(dá)到96.78%。在獨立數(shù)據(jù)集中,單個特征組的識別精確度在75.95%~96.66%之間,拼接后的特征其識別準(zhǔn)確度達(dá)到96.78%。說明針對本文所使用的數(shù)據(jù)集,該方法識別抗高血壓肽的效果相對較好,且提取的特征比單一特征識別性能更高。
對于NEGAAC特征提取方法,改進(jìn)后的精確度分別達(dá)到84.37%和96.65%,比改進(jìn)前分別高2.68%和2.85%,表明由NEGAAC提取出的特征更有效,更加具有識別性。
為了有效識別AHTPs,構(gòu)建基于深度學(xué)習(xí)的iAHTPs-BiGRU識別模型,iAHTPs-BiGRU模型基于多源特征和深度學(xué)習(xí)對肽序列進(jìn)行識別,得到了滿意的結(jié)果。分類器是預(yù)測模型中的關(guān)鍵部分,選擇不同的分類器對模型的最終輸出影響較大。為選擇最合適的分類器,選擇9種有代表性的分類學(xué)習(xí)算法與BiGRU進(jìn)行比較,其中XGboost、LGBM、ET、RF、GBDT為機器學(xué)習(xí)算法,LSTM、CNN、GRU、DNN等4種為深度學(xué)習(xí)算法,模型識別性能及不同分類器的比較見表1。
表 1 模型識別性能及不同分類器的比較
從表1可以看出,基于10-折交叉驗證,在基準(zhǔn)數(shù)據(jù)集上,評價指標(biāo)A、Sn、Sp、CMC分別達(dá)到96.78%、97.06%、96.48%、93.60%。在獨立數(shù)據(jù)集上,評價指標(biāo)A、Sn、Sp、CMC分別達(dá)到98.72%、97.95%、99.49%、97.51%,評價指標(biāo)的值都相對較高,表明iAHTPs-BiGRU模型對于識別預(yù)測AHTPs具有較好的效果?;?0-折交叉驗證,BiGRU在基準(zhǔn)數(shù)據(jù)集和獨立數(shù)據(jù)集上的識別準(zhǔn)確率分別超過其他分類器3.34%~34.89%和0.5%~13.33%,同時Sn和Sp的值相較于其他分類器也有明顯的提高,進(jìn)一步說明iAHTPs-BiGRU模型所使用的分類器識別性能相對較高。
為了更加準(zhǔn)確、公正地評價iAHTPs-BiGRU識別模型的性能,將iAHTPs-BiGRU模型性能與AHTpin_AAC[7]、 AHTpin_ATC[7]、 PAAP[8]、mAHTPred[9]、SHI等[11]5個識別模型在相同的數(shù)據(jù)集中進(jìn)行比較,不同模型的精確度如圖3所示。
圖 3 不同模型的精確度Fig.3 Accuracy comparison of different models
從圖3可以看出,在基準(zhǔn)數(shù)據(jù)集上,iAHTPs-BiGRU模型的識別準(zhǔn)確度超出其他5個模型0.55%~18.72%;在獨立數(shù)據(jù)集上,雖然比SHI等的模型識別精度低0.38%,但可以降低過擬合現(xiàn)象使泛化能力更強,進(jìn)一步表明iAHTPs-BiGRU模型是一個有效的、可遷移性強的識別工具。
1) 由NEGAAC、RDPC、 DDE、AAP-DT和BLOSUM62編碼等5個特征提取方法組成的多源特征信息充分表達(dá)了序列信息,提高了識別效果。
2) 基于深度學(xué)習(xí)的BiGRU算法利用多層的結(jié)構(gòu)表示特征信息中的抽象特征,預(yù)測效果優(yōu)良。