梁 亮
(四川師范大學(xué) 網(wǎng)絡(luò)與通信技術(shù)研究所,四川 成都 610066)
蛋白質(zhì)的功能與其結(jié)構(gòu)之間存在著密切的關(guān)系[1]。因此,蛋白質(zhì)結(jié)構(gòu)的準(zhǔn)確解析對(duì)于理解生命活動(dòng)的過(guò)程具有重要意義[2-4]。
X射線晶體衍射技術(shù)(X-ray crystallography)是解析蛋白質(zhì)三維結(jié)構(gòu)最主要的手段之一。截至2021年4月28日,蛋白質(zhì)數(shù)據(jù)庫(kù)(Protein data bank,PDB)中共計(jì)177 219個(gè)蛋白質(zhì)結(jié)構(gòu),其中156 097個(gè)結(jié)構(gòu)是利用X射線晶體衍射技術(shù)解析的,約占總數(shù)的88.1%。然而,在實(shí)際的蛋白質(zhì)結(jié)構(gòu)解析過(guò)程中,X射線晶體衍射技術(shù)的成功率只有10%左右[5]。其主要原因是大量實(shí)驗(yàn)蛋白質(zhì)無(wú)法得到可供衍射的晶體,導(dǎo)致大量的時(shí)間和資源浪費(fèi)在那些無(wú)法結(jié)晶的蛋白質(zhì)上。另一方面,隨著現(xiàn)代測(cè)序技術(shù)的飛速發(fā)展,蛋白質(zhì)序列快速累積,結(jié)構(gòu)和序列之間的鴻溝日益增大[5,6]。鑒于此,若能直接從蛋白質(zhì)序列出發(fā)來(lái)準(zhǔn)確預(yù)測(cè)其結(jié)晶傾向性,則對(duì)于提高基于X射線晶體衍射技術(shù)測(cè)定蛋白結(jié)構(gòu)的成功率以及縮小蛋白質(zhì)序列與結(jié)構(gòu)之間的鴻溝將有重要價(jià)值。
已經(jīng)有不少研究人員展開(kāi)了從蛋白質(zhì)序列出發(fā)預(yù)測(cè)接近傾向性的研究[7]。例如,Overton和Barton[8]根據(jù)等電位點(diǎn)(Isoelectric point,pI)和疏水性特征,開(kāi)發(fā)了一個(gè)標(biāo)準(zhǔn)化的靶位分級(jí)量表,稱(chēng)為OB評(píng)分,可以用于結(jié)晶傾向性的評(píng)估。研究還發(fā)現(xiàn),蛋白質(zhì)的一些特定二級(jí)結(jié)構(gòu),如α螺旋、無(wú)規(guī)則卷曲等對(duì)蛋白質(zhì)的結(jié)晶有影響[9-11]。隨后,機(jī)器學(xué)習(xí)方法開(kāi)始逐步被應(yīng)用于蛋白質(zhì)結(jié)晶傾向性的預(yù)測(cè):例如Smialowski等[12]提出了一種SECRET方法,該方法基于蛋白質(zhì)序列特征,綜合使用支持向量機(jī)和樸素貝葉斯分類(lèi)器來(lái)進(jìn)行蛋白質(zhì)結(jié)晶傾向性的預(yù)測(cè);Kurgan團(tuán)隊(duì)也發(fā)表了一系列基于機(jī)器學(xué)習(xí)的蛋白質(zhì)結(jié)晶傾向性方法,如CRYSTALP[13]、PCCpred[14]、MetaCrys[8]、CRYSTALP2[15]以及CRYSpred[16];此外,其他比較流行的基于機(jī)器學(xué)習(xí)的方法還包括:PXS[17]、XtalPred[18]、MetaPPCP[8]、ParCrys[19]、SVMCRYS[20]、PPCinter[21]、RFCRYS[6]、CMCRYS[22]以及TargetCrys[7]等等。
調(diào)研文獻(xiàn)可以發(fā)現(xiàn),從序列出發(fā)預(yù)測(cè)蛋白質(zhì)的結(jié)晶傾向性已經(jīng)取得了不小的進(jìn)展,但是在精度上仍有提升的空間。本文提出了一種基于異質(zhì)分類(lèi)器集成的蛋白質(zhì)結(jié)晶傾向性預(yù)測(cè)方法。該方法從蛋白質(zhì)的組成成分以及進(jìn)化信息視角抽取不同的特征并進(jìn)行組合;然后,基于所抽取的特征訓(xùn)練多個(gè)異質(zhì)分類(lèi)模型;最后,將多個(gè)異質(zhì)分類(lèi)模型的輸出進(jìn)行集成作為最終的輸出。在公開(kāi)數(shù)據(jù)集上的評(píng)測(cè)結(jié)果表明,所提的蛋白質(zhì)結(jié)晶傾向性預(yù)測(cè)方法是有效的,是對(duì)現(xiàn)有方法的一種有效補(bǔ)充。
要使用機(jī)器學(xué)習(xí)技術(shù)來(lái)進(jìn)行蛋白質(zhì)結(jié)晶傾向性的預(yù)測(cè),首先要做的工作是將蛋白質(zhì)序列進(jìn)行特征表示[23,24]。特征表示的優(yōu)劣對(duì)于后續(xù)分類(lèi)器的性能有著至關(guān)重要的影響。本文將從蛋白質(zhì)序列抽取4種典型的特征用于蛋白質(zhì)結(jié)晶傾向性的預(yù)測(cè)。
用A1,A2,…,A19,及A20表示20種基本氨基酸。對(duì)于一條給定的長(zhǎng)度為L(zhǎng)的蛋白質(zhì)序列,ci(ci,1≤i≤20)為氨基酸Ai在蛋白質(zhì)序列中出現(xiàn)的次數(shù)。那么,該序列的氨基酸組成成分(Amino acid composition,AAC)特征是如式(1)所示的一個(gè)20維特征向量
(1)
蛋白質(zhì)的位置特異性得分矩陣(Position-specific scoring matrix,PSSM)編碼了其進(jìn)化信息,該信息可用于蛋白質(zhì)屬性(如結(jié)晶傾向性)的預(yù)測(cè)。對(duì)于一條給定的長(zhǎng)度為L(zhǎng)的蛋白質(zhì)序列,使用PSI-BLAST[27]搜索Swiss-Prot數(shù)據(jù)庫(kù)(E-value取值為0.001)可以得到其PSSM,為一個(gè)L×20的數(shù)值矩陣,記為:SPSSM=(si,j)L×20。
(2)
和AAC特征一樣,上述PSSM組成成分特征同樣丟失了序列中殘基之間的順序信息。因此,使用和PseAAC類(lèi)似的方法,在原始PSSM的每一列上計(jì)算每個(gè)殘基得分之間的相關(guān)性,從而得到偽位置特異性得分矩陣特征PsePSSM,過(guò)程如下[28,29]:
(3)
至此,PSSM的k階相關(guān)性特征可以用式(4)表示
如今已是西藏大學(xué)理學(xué)院教授、鐘揚(yáng)的學(xué)生拉瓊發(fā)現(xiàn),病后稍有恢復(fù)的鐘老師開(kāi)始變本加厲地工作,一天排滿了各種事。他的衣袋里總是裝著很多小紙片,上面密密麻麻寫(xiě)滿各種待辦事項(xiàng),每做完一項(xiàng)就用筆劃掉。
(4)
最終的PsePSSM特征即式(5)所示
(5)
式中:K取值為6。因此,最終的PsePSSM特征維數(shù)為140(=20+6×20)維。
氨基酸殘基的溶劑可及性(Solvent accessibility)是指蛋白質(zhì)浸在溶液中時(shí),溶劑分子與該殘基的接觸表面積。溶劑分子接觸到的殘基的面積越大,表明該殘基暴露在蛋白質(zhì)表面的部分越多;反之,則暴露的面積越小。已有的研究表明:蛋白質(zhì)的微觀表面性質(zhì)對(duì)蛋白質(zhì)的結(jié)晶行為有著至關(guān)重要的影響[30]。借鑒文獻(xiàn)[31]的思想,本文亦使用偽溶劑可及性特征(Pseudo predicted solvent accessibility,PsePSA)來(lái)進(jìn)行蛋白質(zhì)結(jié)晶傾向性的預(yù)測(cè)。
對(duì)于一條給定的長(zhǎng)度為L(zhǎng)的蛋白質(zhì)序列,首先使用工具軟件SANN[32]預(yù)測(cè)出相應(yīng)的溶劑可及性矩陣,記為PPSA=(pi,j)L×6。然后,采用和抽取PsePSSM特征一樣的策略:
(6)
至此,PPSA的g階相關(guān)性特征可以用式(7)表示
(7)
最終的PsePSA特征即如式(8)所示
(8)
式中:G取值為8。因此,最終的PsePSA特征維數(shù)為54(=6+6×8)維。
圖1給出了所提的基于異質(zhì)分類(lèi)器集成的蛋白質(zhì)結(jié)晶傾向性預(yù)測(cè)模型框架。對(duì)于一條給定的待預(yù)測(cè)序列,分別提取相應(yīng)的4種特征,亦即AAC、PseAAC、PsePSSM以及PsePSA;然后,將這4種特征進(jìn)行串行組合,最終得到一個(gè)282維的特征向量;將此特征向量輸入三個(gè)訓(xùn)練好的異質(zhì)分類(lèi)器,也就是支持向量機(jī)(Support vector machine,SVM)、隨機(jī)森林[33](Random forests,RF)以及徑向基神經(jīng)網(wǎng)絡(luò)(Radial basis function network,RBFN)。每個(gè)分類(lèi)器均輸出一個(gè)標(biāo)量值,表示待預(yù)測(cè)蛋白質(zhì)序列的結(jié)晶傾向性;隨后,將這些分類(lèi)器的輸出進(jìn)行集成。本文中,采用平均集成方案,即對(duì)每個(gè)分類(lèi)器的輸出進(jìn)行平均后作為最終預(yù)測(cè)的蛋白質(zhì)結(jié)晶傾向性。最后,使用一個(gè)閾值T*來(lái)判定待預(yù)測(cè)的蛋白質(zhì)序列是否會(huì)結(jié)晶,亦即:如果預(yù)測(cè)的結(jié)晶傾向性大于閾值T*,則判定為可結(jié)晶;否則,判定為不可結(jié)晶。
圖1 基于異質(zhì)分類(lèi)器集成的蛋白質(zhì)結(jié)晶傾向性預(yù)測(cè)框架
為評(píng)估所述方法的有效性,本文采用文獻(xiàn)[7]所使用的數(shù)據(jù)集。第一個(gè)數(shù)據(jù)集的訓(xùn)練集中包含756個(gè)正樣本(可結(jié)晶蛋白質(zhì))和744個(gè)負(fù)樣本(不可結(jié)晶蛋白質(zhì)),記為T(mén)RAIN1500;其對(duì)應(yīng)的獨(dú)立測(cè)試集中包含244個(gè)正樣本和256負(fù)樣本,記為T(mén)EST500。第二個(gè)數(shù)據(jù)集的訓(xùn)練集中包含1 204個(gè)正樣本和2 383個(gè)負(fù)樣本,記為T(mén)RAIN3587;其對(duì)應(yīng)的獨(dú)立測(cè)試集中包含1 204個(gè)正樣本和2 381個(gè)負(fù)樣本,記為T(mén)EST3585。
使用敏感性(Sensitivity,Sen)、特異性(Specificity,Spe)、準(zhǔn)確度(Accuracy,Acc)以及馬修斯系數(shù)(Mathew’s Correlation Coefficient,MCC)這4個(gè)指標(biāo)來(lái)度量預(yù)測(cè)模型的性能,具體定義如下
(9)
(10)
(11)
MCC=
(12)
式中:TP、FN、TN以及FP分別表示測(cè)試結(jié)果中真陽(yáng)性、假陰性、真陰性以及假陽(yáng)性的樣本數(shù)目。
為驗(yàn)證本文所提方法的有效性,在訓(xùn)練集上進(jìn)行交叉驗(yàn)證并在獨(dú)立測(cè)試集上進(jìn)行泛化能力評(píng)估。
表1給出所提方法與其他3種基分類(lèi)器方法(RBFN、SVM以及RF)在訓(xùn)練集TRAIN1500 和TRAIN3587 上五重交叉驗(yàn)證性能對(duì)比。
表1 所提方法與其他3種方法在訓(xùn)練集TRAIN1500和TRAIN3587上五重交叉驗(yàn)證性能對(duì)比
觀察表1可以發(fā)現(xiàn):在TRAIN1500數(shù)據(jù)集上,RBFN、SVM以及RF的MCC的分別為0.63、0.64以及0.65;在TRAIN3587數(shù)據(jù)集上,RBFN、SVM以及RF的MCC的分別為0.48、0.46以及0.49;其他3個(gè)指標(biāo),亦即Sen、Spe和Acc,3個(gè)方法在兩個(gè)數(shù)據(jù)集上也取得非常接近的性能。這些結(jié)果表明:用于對(duì)比的3種方法在兩個(gè)數(shù)據(jù)集上均取得了非常接近的預(yù)測(cè)性能。本文所提的方法在TRAIN1500和TRAIN3587的MCC值分別為0.68和0.56,比次優(yōu)方法(RF)分別提高了4.6%和14.2%。在其他3個(gè)指標(biāo)上,本文所提的方法也有不同程度的提升。實(shí)際上,本文所提的方法是對(duì)3種基分類(lèi)器(RBFN、SVM以及RF)進(jìn)行了集成,表1中的對(duì)比結(jié)果亦表明,集成后的方法比3種基分類(lèi)器的性能均有了提高。這表明,3種基分類(lèi)器的預(yù)測(cè)結(jié)果是具有互補(bǔ)性的。
為進(jìn)一步驗(yàn)證本文所提方法的泛化能力,將其和3種基分類(lèi)器方法在獨(dú)立測(cè)試集TEST500和TEST3585進(jìn)行了性能對(duì)比。需要注意的是,在測(cè)試TEST500時(shí),本文方法和3種基分類(lèi)器方法均是使用訓(xùn)練集TRAIN1500得到的;而在測(cè)試TEST3585時(shí),所有的方法均是使用訓(xùn)練集TRAIN3587得到的。表2給出了所提方法與其他3種方法在獨(dú)立測(cè)試集TEST500和TEST3585上的性能對(duì)比。觀察表2,可以得到如下幾個(gè)結(jié)論:首先,3種基分類(lèi)器方法在兩個(gè)獨(dú)立測(cè)試集上同樣得到了非常接近的結(jié)果;并且,對(duì)每種基分類(lèi)器方法而言,在獨(dú)立測(cè)試集上的結(jié)果和在對(duì)應(yīng)訓(xùn)練集上的交叉驗(yàn)證結(jié)果非常接近。這表明對(duì)每個(gè)基分類(lèi)器來(lái)說(shuō),其泛化能力沒(méi)有被高估。其次,所提方法在兩個(gè)獨(dú)立測(cè)試上的性能一致性地高于3種基分類(lèi)器方法。同樣以MCC指標(biāo)為例,所提方法在TEST500和TEST3585的結(jié)果分別為0.73和0.55,比次優(yōu)方法(SVM)分別提高了8.9%和12.2%。
表2 所提方法與其他3種方法在獨(dú)立測(cè)試集TEST500和TEST3585上的性能對(duì)比
綜合表1及表2中的結(jié)果來(lái)看,通過(guò)對(duì)基分類(lèi)器進(jìn)行集成,所得到的集成模型對(duì)蛋白質(zhì)結(jié)晶傾向性的預(yù)測(cè)能力進(jìn)一步得到了提高。
表3給出了所提方法與其他9個(gè)用于蛋白質(zhì)結(jié)晶傾向性預(yù)測(cè)的主流方法在獨(dú)立測(cè)試集TEST3585上的性能對(duì)比,以進(jìn)一步驗(yàn)證所提方法的有效性。由表3可以看出:首先,所提方法顯著地優(yōu)于前七種用于比較的方法,亦即MetaPPCP[8]、CRYSTALP2[15]、SVMCRYS[20]、XtalPred[18]、SCMCRYS[22]、PPCpred[14]以及RFCRYS[6];其次,所提方法的MCC值達(dá)到了0.55,和PPCinter[21]的MCC保持一致,略遜于用于比較方法中的最優(yōu)方法TargetCrys[7]。這些結(jié)果表明,所提方法對(duì)蛋白質(zhì)結(jié)晶傾向性的預(yù)測(cè)能力和最好的方法預(yù)測(cè)性能基本相當(dāng),也是對(duì)現(xiàn)有方法的有益補(bǔ)充。
表3 所提方法與其他蛋白質(zhì)結(jié)晶預(yù)測(cè)方法在獨(dú)立測(cè)試集TEST3585上的性能對(duì)比
本文提出了一種基于異質(zhì)分類(lèi)器集成的蛋白質(zhì)結(jié)晶傾向性預(yù)測(cè)方法。該方法從蛋白質(zhì)序列出發(fā),抽取多個(gè)視角的特征并進(jìn)行組合;然后,基于所抽取的特征在訓(xùn)練集上訓(xùn)練多個(gè)不同的異質(zhì)分類(lèi)器并進(jìn)行集成。在訓(xùn)練數(shù)據(jù)集上的交叉驗(yàn)證、獨(dú)立測(cè)試以及和現(xiàn)有方法的對(duì)比結(jié)果驗(yàn)證了所提方法的有效性。在后續(xù)的工作中,擬從抽取更有鑒別力的特征、設(shè)計(jì)更為有效的分類(lèi)模型以及提高模型的可解釋性等方面展開(kāi)研究,以進(jìn)一步提升蛋白質(zhì)結(jié)晶傾向性預(yù)測(cè)的性能。