亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于LightGBM的蛋白質(zhì)類泛素化修飾位點(diǎn)預(yù)測(cè)

2022-06-09 07:46:38陳煥超魏志森於東軍楊敬民楊靜宇

南京理工大學(xué)學(xué)報(bào) 2022年2期

關(guān)鍵詞：特征

陳煥超，魏志森，於東軍，楊敬民，楊靜宇

(閩南師范大學(xué)1.計(jì)算機(jī)學(xué)院；2.數(shù)據(jù)科學(xué)與智能應(yīng)用福建省高校重點(diǎn)實(shí)驗(yàn)室，福建漳州 363000；3.南京理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院，江蘇南京 210094)

翻譯后修飾(Post-translational modifications，PTMs)是一種涉及蛋白質(zhì)原始化學(xué)組成改變的化學(xué)修飾，它可以將化學(xué)基團(tuán)添加到特殊殘基或在特定位置切割序列，從而擴(kuò)展從相同基因組序列生成蛋白質(zhì)的最終形式范圍，是增加蛋白質(zhì)組多樣性的關(guān)鍵機(jī)制[1]。PTMs在功能蛋白質(zhì)組中發(fā)揮關(guān)鍵作用，包括調(diào)節(jié)酶的活性和定位蛋白質(zhì)在細(xì)胞中的位置、介導(dǎo)信號(hào)轉(zhuǎn)導(dǎo)、激酶與識(shí)別候選蛋白和蛋白質(zhì)降解及泛素化調(diào)控等[2]。類泛素化(Sumoylation，SUMO)修飾位點(diǎn)是PTMs一種重要的類型，與許多人類疾病的發(fā)生息息相關(guān)，包括神經(jīng)退化疾病、阿爾茨海默病和癌癥等[2]。

傳統(tǒng)的SUMO修飾位點(diǎn)檢測(cè)方法利用生物濕試驗(yàn)，需要大量的人力物力，周期長(zhǎng)，成本高。近十幾年以來，開發(fā)計(jì)算模型預(yù)測(cè)SUMO修飾位點(diǎn)已經(jīng)成為生物信息學(xué)領(lǐng)域的一個(gè)研究熱點(diǎn)，特別是機(jī)器學(xué)習(xí)的發(fā)展促進(jìn)了相關(guān)機(jī)器學(xué)習(xí)算法在生物信息學(xué)領(lǐng)域的應(yīng)用，許多學(xué)者提出了不同的計(jì)算模型預(yù)測(cè)SUMO修飾位點(diǎn)，作為試驗(yàn)方法的一種低廉高效的補(bǔ)充手段。Xue等[3]基于同源蛋白質(zhì)序列聚類分組比對(duì)和序列模式匹配相結(jié)合的方法，開發(fā)一個(gè)在線SUMO修飾位點(diǎn)預(yù)測(cè)服務(wù)器SUMOsp。Ren等[4]將SUMOsp中的同源序列聚類分組比對(duì)算法進(jìn)行改進(jìn)，引入了試驗(yàn)觀察的分組先驗(yàn)信息。Zhao等[5]通過粒子群優(yōu)化算法改進(jìn)SUMOsp的同源序列聚類分組策略并取得了更好的預(yù)測(cè)性能。Xu等[6]提出基于數(shù)據(jù)集上的序列信息的概率統(tǒng)計(jì)預(yù)測(cè)新序列的SUMO修飾位點(diǎn)。Chen等[7]提出將氨基酸疏水性作為參數(shù)引入到傳統(tǒng)的二進(jìn)制編碼方案中，并使用支持向量機(jī)作為分類器，其試驗(yàn)證明了疏水性在SUMO修飾位點(diǎn)預(yù)測(cè)上的鑒別能力。Teng等[8]提出位置特異性得分矩陣和生物特征相結(jié)合的特征表示，并訓(xùn)練支持向量機(jī)和隨機(jī)森林進(jìn)行預(yù)測(cè)。Xu等[9]提出結(jié)合3種不同的序列特征表示方法，基于不同特征的組合使用線性判別分析進(jìn)行預(yù)測(cè)。Jia等[10]提出將序列偶合信息整合到一般的偽氨基酸組成中，并將其應(yīng)用于協(xié)方差判別算法，此預(yù)測(cè)器可以自動(dòng)緩解由數(shù)據(jù)不平衡所帶來的誤差。Sharma等[11]基于蛋白質(zhì)的半球裸露結(jié)構(gòu)特征訓(xùn)練決策樹分類器預(yù)測(cè)SUMO修飾位點(diǎn)。最近，Qian等[12]結(jié)合氨基酸的疏水性等物化屬性統(tǒng)計(jì)特征和氨基酸序列二元語法模式特征，訓(xùn)練級(jí)聯(lián)森林分類器，并使用遺傳算法對(duì)預(yù)測(cè)得分進(jìn)行加權(quán)平均。雖然這些工作在SUMO修飾位點(diǎn)的預(yù)測(cè)上取得了重要的進(jìn)展，但是預(yù)測(cè)精度還有較大的改進(jìn)空間。

本文提出了一種新的蛋白質(zhì)泛素化修飾位點(diǎn)預(yù)測(cè)模型，基于氨基酸的疏水性等物化屬性統(tǒng)計(jì)與氨基酸序列二元語法模式的特征組合，訓(xùn)練一種輕量型梯度提升機(jī)(Light gradient boosting machine，LightGBM)分類器[13]將待預(yù)測(cè)氨基酸殘基識(shí)別為修飾位點(diǎn)或非修飾位點(diǎn)，此模型記作SUMO-LGBM。在基準(zhǔn)數(shù)據(jù)集上進(jìn)行十折交叉驗(yàn)證試驗(yàn)，證明其泛化能力。

SUMO-LGBM的算法框架如圖1所示。對(duì)于蛋白質(zhì)序列中的某個(gè)賴氨酸(K)殘基，通過統(tǒng)計(jì)以其為中心的大小為21的滑動(dòng)窗口內(nèi)氨基酸殘基的物化屬性統(tǒng)計(jì)特征(Statistics property，SP)和二元語法模式(Bi-gram and k-skip-bi-gram，BK)，將其表示為一個(gè)62維的特征向量；然后，將這個(gè)特征向量輸入到多個(gè)決策樹集成的LightGBM分類器中，將分類器的輸出值與設(shè)置的閾值進(jìn)行比較，大于閾值則標(biāo)記為類泛素化修飾位點(diǎn)，否則標(biāo)記為非修飾位點(diǎn)。下文將對(duì)氨基酸殘基的特征描述和LightGBM分類器分別進(jìn)行介紹。

圖1 SMUO-LGBM預(yù)測(cè)模型的算法框架

1 氨基酸殘基的特征描述

將機(jī)器學(xué)習(xí)算法應(yīng)用于SUMO修飾位點(diǎn)預(yù)測(cè)問題，蛋白質(zhì)序列上的每個(gè)氨基酸殘基需要表示成一個(gè)特征向量。在本文中，每個(gè)氨基酸殘基由兩部分特征組合表示，一部分是物化屬性統(tǒng)計(jì)特征SP，另一部分是氨基酸序列二元語法模式特征BK。其中，SP是一個(gè)5維向量，而BK是一個(gè)57維向量，拼接得到一個(gè)62維的特征向量。在以氨基酸殘基為分類對(duì)象的生物信息學(xué)問題中，經(jīng)常將目標(biāo)殘基為中心的鄰域窗口內(nèi)的殘基的特征作為目標(biāo)殘基特征向量的一部分，以增強(qiáng)特征向量的鑒別力[14-17]。因此，本文對(duì)蛋白質(zhì)序列設(shè)置了一個(gè)滑動(dòng)窗口，每個(gè)氨基酸殘基由以其為中心的滑動(dòng)窗口內(nèi)的殘基的SP和BK特征拼接而成的特征向量表示。根據(jù)Qian等[12]報(bào)告的試驗(yàn)結(jié)果，本文同樣選擇滑動(dòng)窗口大小為21。

1.1 物化屬性統(tǒng)計(jì)特征SP

根據(jù)Beauclair等[18]的統(tǒng)計(jì)結(jié)果，將序列中SUMO修飾位點(diǎn)的位置標(biāo)注為0，往左n個(gè)位置標(biāo)注為-n，往右n個(gè)位置標(biāo)注為n，那么，在SUMO修飾位點(diǎn)的-1位置處，疏水性氨基酸的發(fā)生率更高，其中帶有脂肪族側(cè)鏈的殘基為大多數(shù)，占比67.5%，而芳香族氨基酸比較少，占比5.4%；在＋2位置處，酸性殘基比較富集；而在＋1位置處，沒有特定氨基酸表達(dá)。據(jù)此，Qian等[12]以目標(biāo)氨基酸殘基的-1位置和＋2位置處的氨基酸屬性作為鑒別特征。其中，將-1位置處的氨基酸分為4類:(1)I、L、V；(2)A、F、M、P、W；(3)G、Y；(4)其余的氨基酸；分別由(0，0，0，1)、(0，0，1，0)、(0，1，0，0)和(1，0，0，0)表示；將＋2位置處的氨基酸分為2類:D和E為一類，用0表示，其余為另一類，用1表示。將這2者組合起來，目標(biāo)氨基酸殘基可以由一個(gè)5維的特征向量表示。

1.2 氨基酸序列二元語法模式BK

在自然語言處理領(lǐng)域，單詞序列多元語法模式(K-skip-n-gram)[19]被用于統(tǒng)計(jì)單詞之間共現(xiàn)概率。由于蛋白質(zhì)序列與自然語言文本序列都是一維序列，可以將每個(gè)氨基酸殘基類比為文本序列的單詞，從而將K-skip-n-gram應(yīng)用于生物信息學(xué)領(lǐng)域[12]。本文采取Bi-gram和K-skip-bi-gram，其中K=1，2。Bi-gram相當(dāng)于K=0時(shí)的K-skipbi-gram。由于有20種氨基酸，兩兩組合二肽可得20*20=400種組合，因此特定位置的二肽可以描述為

式中

在矩陣F中，每一行代表每一種二肽組合，前20列代表K=0時(shí)每個(gè)位置出現(xiàn)某種二肽的概率，中間19列代表K=1時(shí)每個(gè)位置出現(xiàn)某種二肽的概率，最后18列代表K=2時(shí)每個(gè)位置出現(xiàn)某種二肽的概率。這樣，對(duì)于一個(gè)長(zhǎng)度為21的氨基酸序列，根據(jù)每個(gè)位置出現(xiàn)的二肽，由矩陣F中取相應(yīng)的元素，可以得到一個(gè)維數(shù)為20＋19＋18=57的特征向量。

2 LightGBM分類器

Ke等[13]提出的LightGBM算法是微軟發(fā)布的一個(gè)高效、開源的梯度提升決策樹(Gradient boosting decision tree，GBDT)算法[20]框架。相比于傳統(tǒng)的GBDT，LightGBM具有更快的訓(xùn)練速度、更低的內(nèi)存消耗、更高的準(zhǔn)確率和支持分布式等特點(diǎn)，可以快速地處理海量數(shù)據(jù)，因此得到廣泛應(yīng)用。

LightGBM的最大特點(diǎn)是在傳統(tǒng)的GBDT基礎(chǔ)上引入了基于梯度的單邊采樣(Gradient-based one-side sampling，GOSS)和互斥特征捆綁(Exclusive feature bundling，EFB)這兩種技術(shù)。GOSS技術(shù)根據(jù)梯度大小對(duì)訓(xùn)練樣本進(jìn)行排序，下采樣時(shí)隨機(jī)拋棄梯度比較小的樣本，保留對(duì)信息增益有更大影響的大梯度樣本。這種方法被證明在相同的采樣率下比隨機(jī)采樣具有更高的準(zhǔn)確率，尤其是在信息增益范圍較大時(shí)。

EFB算法將樣本中不同維度的互斥特征進(jìn)行捆綁，用一個(gè)合成特征代替多個(gè)互斥特征，從而達(dá)到降低特征維度的目的，提高算法的效率。其中，互斥特征是指在稀疏特征空間中，不同時(shí)為零值的兩個(gè)特征，比如獨(dú)熱編碼特征中的不同維度。

3 試驗(yàn)與分析

在本節(jié)中，將對(duì)試驗(yàn)用到的數(shù)據(jù)集，評(píng)估方法以及試驗(yàn)結(jié)果與分析進(jìn)行描述，并與現(xiàn)有的SUMO修飾位點(diǎn)預(yù)測(cè)方法進(jìn)行比較。

3.1 數(shù)據(jù)集

本文使用Qian等[12]構(gòu)建的基準(zhǔn)數(shù)據(jù)集對(duì)提出的方法進(jìn)行評(píng)估。此數(shù)據(jù)集從UniProt數(shù)據(jù)庫[21]獲取510個(gè)蛋白質(zhì)序列中以賴氨酸為中心的長(zhǎng)度為21的肽段。這些肽段的中心賴氨酸殘基如果被試驗(yàn)標(biāo)注為SUMO修飾位點(diǎn)則作為正樣本，否則作為負(fù)樣本。為了去除冗余數(shù)據(jù)，對(duì)數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行序列同一性的樣本篩選，確保數(shù)據(jù)集中任意兩個(gè)樣本的相似度小于40%，最終得到755個(gè)正樣本和9 944個(gè)負(fù)樣本。

3.2 評(píng)估方法

在本文的試驗(yàn)中，引入6種常用的指標(biāo)用于評(píng)估本文提出的方法以及與其他方法進(jìn)行比較，包括準(zhǔn)確率(Accuracy，Acc)、特異性(Specificity，Sp)、靈敏度(Sensitivity，Sn，也稱為召回率Recall)、馬修斯相關(guān)系數(shù)(Matthews correlation coefficient，MCC)、精確率(Precision)和F1指數(shù)。這些指標(biāo)定義如下

式中:TP為被正確分類的正樣本的數(shù)量，F(xiàn)P為被錯(cuò)誤分類的負(fù)樣本的數(shù)量，TN為被正確分類的負(fù)樣本的數(shù)量，F(xiàn)N為被錯(cuò)誤分類的正樣本的數(shù)量。由于數(shù)據(jù)集的兩類樣本分布不平衡，單一使用Acc、Sp、Sn評(píng)價(jià)無法很好地評(píng)估整體性能，因此，本文主要關(guān)注AUC、AUPR、MCC這3個(gè)能反映分類器整體性能的指標(biāo)，其中AUC是接收者操作特征曲線(Receiver operating characteristic curve，ROC曲線)下包圍的面積，AUPR表示精度召回率曲線(Precision recall curve，PR曲線)下包圍的面積，通常認(rèn)為這兩個(gè)面積越大，分類效果越好[22]。

本文將使用10折交叉驗(yàn)證和留一法交叉驗(yàn)證來評(píng)估提出的方法在數(shù)據(jù)集上的性能，通過使用不同的評(píng)價(jià)指標(biāo)來觀察參數(shù)對(duì)性能的影響，并選擇MCC、AUC和AUPR作為最終的評(píng)價(jià)指標(biāo)。

3.3 試驗(yàn)結(jié)果與分析

3.3.1 分類算法對(duì)比為了建立一個(gè)有效的預(yù)測(cè)模型，K近鄰算法(K-nearest neighbor，KNN)、決策樹(Decision tree，DT)、樸素貝葉斯(Naive bayesian，NB)、隨機(jī)森林(Random forest，RF)、邏輯回歸(Logistics regression，LR)、極端隨機(jī)樹(Extremely randomized trees，ET)和LightGBM被用于構(gòu)建分類模型。各種算法的參數(shù)通過十折交叉驗(yàn)證進(jìn)行優(yōu)化，其中，KNN的K值設(shè)置為10，極端隨機(jī)樹、邏輯回歸、決策樹和隨機(jī)森林對(duì)正負(fù)類樣本設(shè)置不同的權(quán)重，使得兩類樣本的權(quán)重之和相等。在基準(zhǔn)數(shù)據(jù)集上進(jìn)行十折交叉驗(yàn)證，各種分類算法構(gòu)建的分類器的性能指標(biāo)展示在表1中。為了更直觀地比較不同分類器的性能，圖2和圖3分別展示了數(shù)據(jù)集上十折交叉驗(yàn)證的平均ROC曲線和PR曲線。

表1 不同分類算法的性能比較 %

圖2 不同分類器的ROC曲線比較

圖3 不同分類器的PR曲線比較

從表1可以看出，LightGBM在所有評(píng)估指標(biāo)上均取得了最好的結(jié)果，其中，在F1指數(shù)、MCC、AUC和AUPR這幾個(gè)反映全局性能的指標(biāo)上分別達(dá)到了92.21%、91.64%、99.57%和96.59%，比排在第二的RF高出了11.21%、11.94%、1%和5.45%。這說明，與其他算法相比，LightGBM在分類準(zhǔn)確率和整體性能上均表現(xiàn)出更好的結(jié)果。另外，從表1也可以發(fā)現(xiàn)，相比于其他4種算法，LightGBM、RF和ET這3種算法在MCC等全局性能指標(biāo)上均獲得了較為明顯的更好的結(jié)果，這說明了樹分類器的集成算法在這一數(shù)據(jù)集上具有更好的分類性能。同樣，從圖2和圖3的ROC曲線和PR曲線中也能得出以上結(jié)論。在圖2的ROC曲線中，對(duì)于任意一個(gè)假陽性率(False positive rate，F(xiàn)PR)值，LightGBM的ROC曲線均位于其他算法的曲線之上，而在圖3的PR曲線上，對(duì)于任意一個(gè)召回率值，LightGBM的PR曲線均位于其他算法的曲線之上，這說明LightGBM在性能上顯著地戰(zhàn)勝了其他所有算法。同時(shí)，LightGBM、RF和ET這3種算法的曲線比較靠近，且明顯超越其他4種算法，進(jìn)一步驗(yàn)證了這類樹分類器的集成算法具有更好的分類性能。

3.3.2 特征分析

為了驗(yàn)證SP和BK這兩種特征表示方法的有效性，本文對(duì)單獨(dú)使用SP和BK特征，以及兩種特征的組合分別進(jìn)行了測(cè)試，同時(shí)與蛋白質(zhì)序列常用的另外兩種特征表示方法進(jìn)行了比較，即氨基酸組成(Amino acid composition，AAC)[23]和氨基酸二進(jìn)制編碼(Binary encoding，BE)[24]。基于以上的特征及特征組合分別訓(xùn)練LightGBM分類器，在基準(zhǔn)數(shù)據(jù)集上進(jìn)行十折交叉驗(yàn)證，對(duì)MCC、AUC和AUPR這幾個(gè)重要指標(biāo)進(jìn)行比較，結(jié)果展示在表2中。

從表2可以看出，在所有單特征表示中，BK在MCC、AUC和AUPR上分別取得了88.75%、99.44%和95.69%，顯著地高于其他所有的特征。而SP和BE的表現(xiàn)比較接近，SP取得了更高的M C C值，但是在AUC和AU P R上均弱于BE。另外，SP＋BK的特征組合進(jìn)一步提高了性能，比BK在M C C和F1上分別提升了2.89%和2.79%，在AUC和AUP R上有略微提高。這說明BK和SP特征具有一定的互補(bǔ)性，兩種特征的組合具有更好的鑒別性，能夠有效地提高預(yù)測(cè)模型的性能。

表2 不同特征的性能比較 %

3.3.3 與現(xiàn)有方法的比較

為了證明方法的有效性，將本文提出的SUMO-LGBM 與 pSumo-CD[10]、HseSUMO[11]、SUMO-Forest-FM[12]、SUMO-Forest-CM[12]等現(xiàn)有方法進(jìn)行了比較，結(jié)果展示在表3中，表中現(xiàn)有方法的數(shù)據(jù)均來自于文獻(xiàn)[12]。其中，除HseSUMO外，其他預(yù)測(cè)器與本文使用相同的基準(zhǔn)數(shù)據(jù)集。

表3 SUMO-LGBM預(yù)測(cè)器與其他方法的比較

如表3所示，在所有方法中，本文提出的SUMO-LGBM取得了最好的Acc、Sp、MCC和AUC。其中，MCC值為91.64%，超過第二高的SUMO-Forest-FM預(yù)測(cè)器2.1%；AUC值為99.57%，與SUMO-Forest-CM相近，超過SUMO-Forest-FM預(yù)測(cè)器1.4%。

為了更直觀地說明SUMO-LGBM模型的性能提升，SUMO-LGBM、SUMO-Forest-CM和SUMOForest-FM的ROC曲線和PR曲線分別展示在圖4和圖5中。由圖4可知，3種模型的ROC曲線是非常接近的，這也驗(yàn)證了SUMO-LGBM在AUC上只取得了輕微的提升。而從圖5可以發(fā)現(xiàn)，SUMO-LGBM的PR曲線顯著地高于另外兩個(gè)模型的PR曲線。這說明，在相同的召回率下，SUMO-LGBM模型具有更高的精確率，從而具有更好的預(yù)測(cè)性能。

圖4 與最新預(yù)測(cè)器的ROC曲線比較

圖5 與最新預(yù)測(cè)器的PR曲線比較

4 結(jié)束語

本文基于SUMO修飾位點(diǎn)鄰域內(nèi)氨基酸殘基的物化屬性和二肽統(tǒng)計(jì)規(guī)律，利用LightGBM算法出色的分類能力，提出了一種新的蛋白質(zhì)SUMO修飾位點(diǎn)預(yù)測(cè)模型SUMO-LGBM。在基準(zhǔn)數(shù)據(jù)集上的試驗(yàn)結(jié)果證明了本文所提模型的有效性和魯棒性，取得了當(dāng)前領(lǐng)先的預(yù)測(cè)性能，可作為試驗(yàn)方法識(shí)別SUMO修飾位點(diǎn)的一種輔助手段。

由于當(dāng)前的基準(zhǔn)數(shù)據(jù)集在規(guī)模上還無法滿足訓(xùn)練大通量預(yù)測(cè)模型的要求，在未來的研究工作中，一方面要探索更具鑒別性的特征和更復(fù)雜的機(jī)器學(xué)習(xí)模型的應(yīng)用，另一方面需要繼續(xù)收集數(shù)據(jù)，擴(kuò)充基準(zhǔn)數(shù)據(jù)集的規(guī)模以支持更復(fù)雜模型的訓(xùn)練和評(píng)估。