亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于LightGBM的蛋白質(zhì)類泛素化修飾位點(diǎn)預(yù)測(cè)

        2022-06-09 07:46:38陳煥超魏志森於東軍楊敬民楊靜宇
        關(guān)鍵詞:特征

        陳煥超,魏志森,於東軍,楊敬民,楊靜宇

        (閩南師范大學(xué)1.計(jì)算機(jī)學(xué)院;2.數(shù)據(jù)科學(xué)與智能應(yīng)用福建省高校重點(diǎn)實(shí)驗(yàn)室,福建 漳州 363000;3.南京理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,江蘇 南京 210094)

        翻譯后修飾(Post-translational modifications,PTMs)是一種涉及蛋白質(zhì)原始化學(xué)組成改變的化學(xué)修飾,它可以將化學(xué)基團(tuán)添加到特殊殘基或在特定位置切割序列,從而擴(kuò)展從相同基因組序列生成蛋白質(zhì)的最終形式范圍,是增加蛋白質(zhì)組多樣性的關(guān)鍵機(jī)制[1]。PTMs在功能蛋白質(zhì)組中發(fā)揮關(guān)鍵作用,包括調(diào)節(jié)酶的活性和定位蛋白質(zhì)在細(xì)胞中的位置、介導(dǎo)信號(hào)轉(zhuǎn)導(dǎo)、激酶與識(shí)別候選蛋白和蛋白質(zhì)降解及泛素化調(diào)控等[2]。類泛素化(Sumoylation,SUMO)修飾位點(diǎn)是PTMs一種重要的類型,與許多人類疾病的發(fā)生息息相關(guān),包括神經(jīng)退化疾病、阿爾茨海默病和癌癥等[2]。

        傳統(tǒng)的SUMO修飾位點(diǎn)檢測(cè)方法利用生物濕試驗(yàn),需要大量的人力物力,周期長(zhǎng),成本高。近十幾年以來,開發(fā)計(jì)算模型預(yù)測(cè)SUMO修飾位點(diǎn)已經(jīng)成為生物信息學(xué)領(lǐng)域的一個(gè)研究熱點(diǎn),特別是機(jī)器學(xué)習(xí)的發(fā)展促進(jìn)了相關(guān)機(jī)器學(xué)習(xí)算法在生物信息學(xué)領(lǐng)域的應(yīng)用,許多學(xué)者提出了不同的計(jì)算模型預(yù)測(cè)SUMO修飾位點(diǎn),作為試驗(yàn)方法的一種低廉高效的補(bǔ)充手段。Xue等[3]基于同源蛋白質(zhì)序列聚類分組比對(duì)和序列模式匹配相結(jié)合的方法,開發(fā)一個(gè)在線SUMO修飾位點(diǎn)預(yù)測(cè)服務(wù)器SUMOsp。Ren等[4]將SUMOsp中的同源序列聚類分組比對(duì)算法進(jìn)行改進(jìn),引入了試驗(yàn)觀察的分組先驗(yàn)信息。Zhao等[5]通過粒子群優(yōu)化算法改進(jìn)SUMOsp的同源序列聚類分組策略并取得了更好的預(yù)測(cè)性能。Xu等[6]提出基于數(shù)據(jù)集上的序列信息的概率統(tǒng)計(jì)預(yù)測(cè)新序列的SUMO修飾位點(diǎn)。Chen等[7]提出將氨基酸疏水性作為參數(shù)引入到傳統(tǒng)的二進(jìn)制編碼方案中,并使用支持向量機(jī)作為分類器,其試驗(yàn)證明了疏水性在SUMO修飾位點(diǎn)預(yù)測(cè)上的鑒別能力。Teng等[8]提出位置特異性得分矩陣和生物特征相結(jié)合的特征表示,并訓(xùn)練支持向量機(jī)和隨機(jī)森林進(jìn)行預(yù)測(cè)。Xu等[9]提出結(jié)合3種不同的序列特征表示方法,基于不同特征的組合使用線性判別分析進(jìn)行預(yù)測(cè)。Jia等[10]提出將序列偶合信息整合到一般的偽氨基酸組成中,并將其應(yīng)用于協(xié)方差判別算法,此預(yù)測(cè)器可以自動(dòng)緩解由數(shù)據(jù)不平衡所帶來的誤差。Sharma等[11]基于蛋白質(zhì)的半球裸露結(jié)構(gòu)特征訓(xùn)練決策樹分類器預(yù)測(cè)SUMO修飾位點(diǎn)。最近,Qian等[12]結(jié)合氨基酸的疏水性等物化屬性統(tǒng)計(jì)特征和氨基酸序列二元語法模式特征,訓(xùn)練級(jí)聯(lián)森林分類器,并使用遺傳算法對(duì)預(yù)測(cè)得分進(jìn)行加權(quán)平均。雖然這些工作在SUMO修飾位點(diǎn)的預(yù)測(cè)上取得了重要的進(jìn)展,但是預(yù)測(cè)精度還有較大的改進(jìn)空間。

        本文提出了一種新的蛋白質(zhì)泛素化修飾位點(diǎn)預(yù)測(cè)模型,基于氨基酸的疏水性等物化屬性統(tǒng)計(jì)與氨基酸序列二元語法模式的特征組合,訓(xùn)練一種輕量型梯度提升機(jī)(Light gradient boosting machine,LightGBM)分類器[13]將待預(yù)測(cè)氨基酸殘基識(shí)別為修飾位點(diǎn)或非修飾位點(diǎn),此模型記作SUMO-LGBM。在基準(zhǔn)數(shù)據(jù)集上進(jìn)行十折交叉驗(yàn)證試驗(yàn),證明其泛化能力。

        SUMO-LGBM的算法框架如圖1所示。對(duì)于蛋白質(zhì)序列中的某個(gè)賴氨酸(K)殘基,通過統(tǒng)計(jì)以其為中心的大小為21的滑動(dòng)窗口內(nèi)氨基酸殘基的物化屬性統(tǒng)計(jì)特征(Statistics property,SP)和二元語法模式(Bi-gram and k-skip-bi-gram,BK),將其表示為一個(gè)62維的特征向量;然后,將這個(gè)特征向量輸入到多個(gè)決策樹集成的LightGBM分類器中,將分類器的輸出值與設(shè)置的閾值進(jìn)行比較,大于閾值則標(biāo)記為類泛素化修飾位點(diǎn),否則標(biāo)記為非修飾位點(diǎn)。下文將對(duì)氨基酸殘基的特征描述和LightGBM分類器分別進(jìn)行介紹。

        圖1 SMUO-LGBM預(yù)測(cè)模型的算法框架

        1 氨基酸殘基的特征描述

        將機(jī)器學(xué)習(xí)算法應(yīng)用于SUMO修飾位點(diǎn)預(yù)測(cè)問題,蛋白質(zhì)序列上的每個(gè)氨基酸殘基需要表示成一個(gè)特征向量。在本文中,每個(gè)氨基酸殘基由兩部分特征組合表示,一部分是物化屬性統(tǒng)計(jì)特征SP,另一部分是氨基酸序列二元語法模式特征BK。其中,SP是一個(gè)5維向量,而BK是一個(gè)57維向量,拼接得到一個(gè)62維的特征向量。在以氨基酸殘基為分類對(duì)象的生物信息學(xué)問題中,經(jīng)常將目標(biāo)殘基為中心的鄰域窗口內(nèi)的殘基的特征作為目標(biāo)殘基特征向量的一部分,以增強(qiáng)特征向量的鑒別力[14-17]。因此,本文對(duì)蛋白質(zhì)序列設(shè)置了一個(gè)滑動(dòng)窗口,每個(gè)氨基酸殘基由以其為中心的滑動(dòng)窗口內(nèi)的殘基的SP和BK特征拼接而成的特征向量表示。根據(jù)Qian等[12]報(bào)告的試驗(yàn)結(jié)果,本文同樣選擇滑動(dòng)窗口大小為21。

        1.1 物化屬性統(tǒng)計(jì)特征SP

        根據(jù)Beauclair等[18]的統(tǒng)計(jì)結(jié)果,將序列中SUMO修飾位點(diǎn)的位置標(biāo)注為0,往左n個(gè)位置標(biāo)注為-n,往右n個(gè)位置標(biāo)注為n,那么,在SUMO修飾位點(diǎn)的-1位置處,疏水性氨基酸的發(fā)生率更高,其中帶有脂肪族側(cè)鏈的殘基為大多數(shù),占比67.5%,而芳香族氨基酸比較少,占比5.4%;在+2位置處,酸性殘基比較富集;而在+1位置處,沒有特定氨基酸表達(dá)。據(jù)此,Qian等[12]以目標(biāo)氨基酸殘基的-1位置和+2位置處的氨基酸屬性作為鑒別特征。其中,將-1位置處的氨基酸分為4類:(1)I、L、V;(2)A、F、M、P、W;(3)G、Y;(4)其余的氨基酸;分別由(0,0,0,1)、(0,0,1,0)、(0,1,0,0)和(1,0,0,0)表示;將+2位置處的氨基酸分為2類:D和E為一類,用0表示,其余為另一類,用1表示。將這2者組合起來,目標(biāo)氨基酸殘基可以由一個(gè)5維的特征向量表示。

        1.2 氨基酸序列二元語法模式BK

        在自然語言處理領(lǐng)域,單詞序列多元語法模式(K-skip-n-gram)[19]被用于統(tǒng)計(jì)單詞之間共現(xiàn)概率。由于蛋白質(zhì)序列與自然語言文本序列都是一維序列,可以將每個(gè)氨基酸殘基類比為文本序列的單詞,從而將K-skip-n-gram應(yīng)用于生物信息學(xué)領(lǐng)域[12]。本文采取Bi-gram和K-skip-bi-gram,其中K=1,2。Bi-gram相當(dāng)于K=0時(shí)的K-skipbi-gram。由于有20種氨基酸,兩兩組合二肽可得20*20=400種組合,因此特定位置的二肽可以描述為

        式中

        在矩陣F中,每一行代表每一種二肽組合,前20列代表K=0時(shí)每個(gè)位置出現(xiàn)某種二肽的概率,中間19列代表K=1時(shí)每個(gè)位置出現(xiàn)某種二肽的概率,最后18列代表K=2時(shí)每個(gè)位置出現(xiàn)某種二肽的概率。這樣,對(duì)于一個(gè)長(zhǎng)度為21的氨基酸序列,根據(jù)每個(gè)位置出現(xiàn)的二肽,由矩陣F中取相應(yīng)的元素,可以得到一個(gè)維數(shù)為20+19+18=57的特征向量。

        2 LightGBM分類器

        Ke等[13]提出的LightGBM算法是微軟發(fā)布的一個(gè)高效、開源的梯度提升決策樹(Gradient boosting decision tree,GBDT)算法[20]框架。相比于傳統(tǒng)的GBDT,LightGBM具有更快的訓(xùn)練速度、更低的內(nèi)存消耗、更高的準(zhǔn)確率和支持分布式等特點(diǎn),可以快速地處理海量數(shù)據(jù),因此得到廣泛應(yīng)用。

        LightGBM的最大特點(diǎn)是在傳統(tǒng)的GBDT基礎(chǔ)上引入了基于梯度的單邊采樣(Gradient-based one-side sampling,GOSS)和互斥特征捆綁(Exclusive feature bundling,EFB)這兩種技術(shù)。GOSS技術(shù)根據(jù)梯度大小對(duì)訓(xùn)練樣本進(jìn)行排序,下采樣時(shí)隨機(jī)拋棄梯度比較小的樣本,保留對(duì)信息增益有更大影響的大梯度樣本。這種方法被證明在相同的采樣率下比隨機(jī)采樣具有更高的準(zhǔn)確率,尤其是在信息增益范圍較大時(shí)。

        EFB算法將樣本中不同維度的互斥特征進(jìn)行捆綁,用一個(gè)合成特征代替多個(gè)互斥特征,從而達(dá)到降低特征維度的目的,提高算法的效率。其中,互斥特征是指在稀疏特征空間中,不同時(shí)為零值的兩個(gè)特征,比如獨(dú)熱編碼特征中的不同維度。

        3 試驗(yàn)與分析

        在本節(jié)中,將對(duì)試驗(yàn)用到的數(shù)據(jù)集,評(píng)估方法以及試驗(yàn)結(jié)果與分析進(jìn)行描述,并與現(xiàn)有的SUMO修飾位點(diǎn)預(yù)測(cè)方法進(jìn)行比較。

        3.1 數(shù)據(jù)集

        本文使用Qian等[12]構(gòu)建的基準(zhǔn)數(shù)據(jù)集對(duì)提出的方法進(jìn)行評(píng)估。此數(shù)據(jù)集從UniProt數(shù)據(jù)庫[21]獲取510個(gè)蛋白質(zhì)序列中以賴氨酸為中心的長(zhǎng)度為21的肽段。這些肽段的中心賴氨酸殘基如果被試驗(yàn)標(biāo)注為SUMO修飾位點(diǎn)則作為正樣本,否則作為負(fù)樣本。為了去除冗余數(shù)據(jù),對(duì)數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行序列同一性的樣本篩選,確保數(shù)據(jù)集中任意兩個(gè)樣本的相似度小于40%,最終得到755個(gè)正樣本和9 944個(gè)負(fù)樣本。

        3.2 評(píng)估方法

        在本文的試驗(yàn)中,引入6種常用的指標(biāo)用于評(píng)估本文提出的方法以及與其他方法進(jìn)行比較,包括準(zhǔn)確率(Accuracy,Acc)、特異性(Specificity,Sp)、靈敏度(Sensitivity,Sn,也稱為召回率Recall)、馬修斯相關(guān)系數(shù)(Matthews correlation coefficient,MCC)、精確率(Precision)和F1指數(shù)。這些指標(biāo)定義如下

        式中:TP為被正確分類的正樣本的數(shù)量,F(xiàn)P為被錯(cuò)誤分類的負(fù)樣本的數(shù)量,TN為被正確分類的負(fù)樣本的數(shù)量,F(xiàn)N為被錯(cuò)誤分類的正樣本的數(shù)量。由于數(shù)據(jù)集的兩類樣本分布不平衡,單一使用Acc、Sp、Sn評(píng)價(jià)無法很好地評(píng)估整體性能,因此,本文主要關(guān)注AUC、AUPR、MCC這3個(gè)能反映分類器整體性能的指標(biāo),其中AUC是接收者操作特征曲線(Receiver operating characteristic curve,ROC曲線)下包圍的面積,AUPR表示精度召回率曲線(Precision recall curve,PR曲線)下包圍的面積,通常認(rèn)為這兩個(gè)面積越大,分類效果越好[22]。

        本文將使用10折交叉驗(yàn)證和留一法交叉驗(yàn)證來評(píng)估提出的方法在數(shù)據(jù)集上的性能,通過使用不同的評(píng)價(jià)指標(biāo)來觀察參數(shù)對(duì)性能的影響,并選擇MCC、AUC和AUPR作為最終的評(píng)價(jià)指標(biāo)。

        3.3 試驗(yàn)結(jié)果與分析

        3.3.1 分類算法對(duì)比為了建立一個(gè)有效的預(yù)測(cè)模型,K近鄰算法(K-nearest neighbor,KNN)、決策樹(Decision tree,DT)、樸素貝葉斯(Naive bayesian,NB)、隨機(jī)森林(Random forest,RF)、邏輯回歸(Logistics regression,LR)、極端隨機(jī)樹(Extremely randomized trees,ET)和LightGBM被用于構(gòu)建分類模型。各種算法的參數(shù)通過十折交叉驗(yàn)證進(jìn)行優(yōu)化,其中,KNN的K值設(shè)置為10,極端隨機(jī)樹、邏輯回歸、決策樹和隨機(jī)森林對(duì)正負(fù)類樣本設(shè)置不同的權(quán)重,使得兩類樣本的權(quán)重之和相等。在基準(zhǔn)數(shù)據(jù)集上進(jìn)行十折交叉驗(yàn)證,各種分類算法構(gòu)建的分類器的性能指標(biāo)展示在表1中。為了更直觀地比較不同分類器的性能,圖2和圖3分別展示了數(shù)據(jù)集上十折交叉驗(yàn)證的平均ROC曲線和PR曲線。

        表1 不同分類算法的性能比較 %

        圖2 不同分類器的ROC曲線比較

        圖3 不同分類器的PR曲線比較

        從表1可以看出,LightGBM在所有評(píng)估指標(biāo)上均取得了最好的結(jié)果,其中,在F1指數(shù)、MCC、AUC和AUPR這幾個(gè)反映全局性能的指標(biāo)上分別達(dá)到了92.21%、91.64%、99.57%和96.59%,比排在第二的RF高出了11.21%、11.94%、1%和5.45%。這說明,與其他算法相比,LightGBM在分類準(zhǔn)確率和整體性能上均表現(xiàn)出更好的結(jié)果。另外,從表1也可以發(fā)現(xiàn),相比于其他4種算法,LightGBM、RF和ET這3種算法在MCC等全局性能指標(biāo)上均獲得了較為明顯的更好的結(jié)果,這說明了樹分類器的集成算法在這一數(shù)據(jù)集上具有更好的分類性能。同樣,從圖2和圖3的ROC曲線和PR曲線中也能得出以上結(jié)論。在圖2的ROC曲線中,對(duì)于任意一個(gè)假陽性率(False positive rate,F(xiàn)PR)值,LightGBM的ROC曲線均位于其他算法的曲線之上,而在圖3的PR曲線上,對(duì)于任意一個(gè)召回率值,LightGBM的PR曲線均位于其他算法的曲線之上,這說明LightGBM在性能上顯著地戰(zhàn)勝了其他所有算法。同時(shí),LightGBM、RF和ET這3種算法的曲線比較靠近,且明顯超越其他4種算法,進(jìn)一步驗(yàn)證了這類樹分類器的集成算法具有更好的分類性能。

        3.3.2 特征分析

        為了驗(yàn)證SP和BK這兩種特征表示方法的有效性,本文對(duì)單獨(dú)使用SP和BK特征,以及兩種特征的組合分別進(jìn)行了測(cè)試,同時(shí)與蛋白質(zhì)序列常用的另外兩種特征表示方法進(jìn)行了比較,即氨基酸組成(Amino acid composition,AAC)[23]和氨基酸二進(jìn)制編碼(Binary encoding,BE)[24]。基于以上的特征及特征組合分別訓(xùn)練LightGBM分類器,在基準(zhǔn)數(shù)據(jù)集上進(jìn)行十折交叉驗(yàn)證,對(duì)MCC、AUC和AUPR這幾個(gè)重要指標(biāo)進(jìn)行比較,結(jié)果展示在表2中。

        從表2可以看出,在所有單特征表示中,BK在MCC、AUC和AUPR上分別取得了88.75%、99.44%和95.69%,顯著地高于其他所有的特征。而SP和BE的表現(xiàn)比較接近,SP取得了更高的M C C值,但是在AUC和AU P R上均弱于BE。另外,SP+BK的特征組合進(jìn)一步提高了性能,比BK在M C C和F1上分別提升了2.89%和2.79%,在AUC和AUP R上有略微提高。這說明BK和SP特征具有一定的互補(bǔ)性,兩種特征的組合具有更好的鑒別性,能夠有效地提高預(yù)測(cè)模型的性能。

        表2 不同特征的性能比較 %

        3.3.3 與現(xiàn)有方法的比較

        為了證明方法的有效性,將本文提出的SUMO-LGBM 與 pSumo-CD[10]、HseSUMO[11]、SUMO-Forest-FM[12]、SUMO-Forest-CM[12]等現(xiàn)有方法進(jìn)行了比較,結(jié)果展示在表3中,表中現(xiàn)有方法的數(shù)據(jù)均來自于文獻(xiàn)[12]。其中,除HseSUMO外,其他預(yù)測(cè)器與本文使用相同的基準(zhǔn)數(shù)據(jù)集。

        表3 SUMO-LGBM預(yù)測(cè)器與其他方法的比較

        如表3所示,在所有方法中,本文提出的SUMO-LGBM取得了最好的Acc、Sp、MCC和AUC。其中,MCC值為91.64%,超過第二高的SUMO-Forest-FM預(yù)測(cè)器2.1%;AUC值為99.57%,與SUMO-Forest-CM相近,超過SUMO-Forest-FM預(yù)測(cè)器1.4%。

        為了更直觀地說明SUMO-LGBM模型的性能提升,SUMO-LGBM、SUMO-Forest-CM和SUMOForest-FM的ROC曲線和PR曲線分別展示在圖4和圖5中。由圖4可知,3種模型的ROC曲線是非常接近的,這也驗(yàn)證了SUMO-LGBM在AUC上只取得了輕微的提升。而從圖5可以發(fā)現(xiàn),SUMO-LGBM的PR曲線顯著地高于另外兩個(gè)模型的PR曲線。這說明,在相同的召回率下,SUMO-LGBM模型具有更高的精確率,從而具有更好的預(yù)測(cè)性能。

        圖4 與最新預(yù)測(cè)器的ROC曲線比較

        圖5 與最新預(yù)測(cè)器的PR曲線比較

        4 結(jié)束語

        本文基于SUMO修飾位點(diǎn)鄰域內(nèi)氨基酸殘基的物化屬性和二肽統(tǒng)計(jì)規(guī)律,利用LightGBM算法出色的分類能力,提出了一種新的蛋白質(zhì)SUMO修飾位點(diǎn)預(yù)測(cè)模型SUMO-LGBM。在基準(zhǔn)數(shù)據(jù)集上的試驗(yàn)結(jié)果證明了本文所提模型的有效性和魯棒性,取得了當(dāng)前領(lǐng)先的預(yù)測(cè)性能,可作為試驗(yàn)方法識(shí)別SUMO修飾位點(diǎn)的一種輔助手段。

        由于當(dāng)前的基準(zhǔn)數(shù)據(jù)集在規(guī)模上還無法滿足訓(xùn)練大通量預(yù)測(cè)模型的要求,在未來的研究工作中,一方面要探索更具鑒別性的特征和更復(fù)雜的機(jī)器學(xué)習(xí)模型的應(yīng)用,另一方面需要繼續(xù)收集數(shù)據(jù),擴(kuò)充基準(zhǔn)數(shù)據(jù)集的規(guī)模以支持更復(fù)雜模型的訓(xùn)練和評(píng)估。

        猜你喜歡
        特征
        抓住特征巧觀察
        離散型隨機(jī)變量的分布列與數(shù)字特征
        具有兩個(gè)P’維非線性不可約特征標(biāo)的非可解群
        月震特征及與地震的對(duì)比
        如何表達(dá)“特征”
        被k(2≤k≤16)整除的正整數(shù)的特征
        不忠誠的四個(gè)特征
        詈語的文化蘊(yùn)含與現(xiàn)代特征
        新聞傳播(2018年11期)2018-08-29 08:15:24
        抓住特征巧觀察
        基于特征篩選的模型選擇
        美女福利视频在线观看网址| 婷婷综合久久中文字幕蜜桃三电影 | 嫩草伊人久久精品少妇av| 人妻中文无码久热丝袜| 国产免费AV片在线看| 亚洲天堂免费成人av| 日韩精品一区二区在线天天狠天| 国产激情视频一区二区三区| 日韩AVAV天堂AV在线| 一亚洲一区二区中文字幕| 国产一级一片内射视频播放| 亚洲欧美日韩国产精品一区二区| 四虎影视亚洲精品| 黄片午夜免费观看视频国产| 亚洲最大免费福利视频网| 黑人巨大跨种族video| 超碰Av一区=区三区| 国产成人高清视频在线观看免费 | 欧美激情区| 国产精品国产三级在线专区| 日本亚洲国产精品久久| 欧美日韩不卡合集视频| av无码天堂一区二区三区| 中文字幕日本在线乱码 | 五级黄高潮片90分钟视频| 中文不卡视频| 亚洲永久免费中文字幕| 亚洲av无码专区在线观看下载 | 亚洲一区二区懂色av| 国产va免费精品观看精品| 色94色欧美sute亚洲线路二| 中文字幕精品永久在线| 国产亚洲自拍日本亚洲| 九九99久久精品国产| 日韩久久av电影| 中文国产乱码在线人妻一区二区| 中文字幕无码毛片免费看| 亚洲AV无码久久久一区二不卡| 日本一区二区三区在线观看视频| 天天做天天添av国产亚洲| 亚洲综合av在线在线播放|