亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于結(jié)構(gòu)域理化性質(zhì)的蛋白質(zhì)相互作用方向預(yù)測

2019-08-05 05:46:26衛(wèi)博翔

太原理工大學(xué)學(xué)報 2019年4期

衛(wèi)博翔，焦雄

(太原理工大學(xué) 生物醫(yī)學(xué)工程學(xué)院，太原 030024)

蛋白質(zhì)的功能必須通過其相互作用表現(xiàn)出來。蛋白質(zhì)相互作用作為細(xì)胞生命活動中信號傳遞的基礎(chǔ)，在生長、分化、代謝和凋亡中起著重要作用[1]。但是，現(xiàn)有蛋白質(zhì)相互作用網(wǎng)絡(luò)(PPI)通常不攜帶兩個相互作用蛋白質(zhì)之間的方向信息，如上游/下游，激活/抑制關(guān)系等。這阻礙了對生命活動中的信號傳遞的理解。因此，需要用相互作用蛋白質(zhì)間的信號傳遞的方向來進(jìn)一步注釋當(dāng)前的PPI網(wǎng)絡(luò)。

一些計算生物學(xué)家試圖從PPI網(wǎng)絡(luò)推斷信號傳遞方向。VINAYAGAM et al[2]基于信號通路是從質(zhì)膜相關(guān)受體開始到轉(zhuǎn)錄因子結(jié)束的假設(shè)，從蛋白質(zhì)相互作用網(wǎng)絡(luò)中導(dǎo)出最短路徑連接(SPC)特征，訓(xùn)練預(yù)測PPI網(wǎng)絡(luò)方向的樸素貝葉斯分類器。GITTER et al[3]提出了一種優(yōu)化方法來求解蛋白質(zhì)相互作用網(wǎng)絡(luò)中最大邊緣方向。該方法不需要其他的信息，僅需要蛋白質(zhì)相互作用網(wǎng)絡(luò)中的拓?fù)湫畔ⅲ谴嬖谟嬎銖?qiáng)度大的缺點。這種基于PPI網(wǎng)絡(luò)拓?fù)涞姆椒m然簡單直觀，但通常沒有利用KEGG和NetPath中提供的經(jīng)由實驗驗證的蛋白質(zhì)相互作用間的上游/下游信息，因此容易產(chǎn)生錯誤的信號蛋白通路和信號流方向。劉偉等[4]首先從兩個相互作用的蛋白質(zhì)之間的方向信息中歸納得到兩個相互作用蛋白質(zhì)的兩個結(jié)構(gòu)域之間的方向概率；然后提出了函數(shù)F來預(yù)測任何結(jié)構(gòu)域?qū)Φ姆较?，并且進(jìn)一步提出了參數(shù)PIDS來預(yù)測任何相互作用蛋白質(zhì)對之間信號傳遞的方向。但是僅憑兩個結(jié)構(gòu)域的方向信息尚不足以確定兩個蛋白質(zhì)之間的作用方向，需要考慮其他的輔助信息。梅素玉等[5]考慮到蛋白質(zhì)相互作用過程中結(jié)構(gòu)域的非線性組合，提取結(jié)構(gòu)域特征訓(xùn)練一個SVM支持向量機(jī)模型，用以預(yù)測蛋白質(zhì)相互作用間的激活/抑制關(guān)系。與那些基于PPI網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的方法相比，這些方法能夠有效地利用實驗驗證的相互作用蛋白質(zhì)之間的方向信息。

結(jié)構(gòu)域作為蛋白質(zhì)中具有進(jìn)化保守性的結(jié)構(gòu)功能單位，是蛋白質(zhì)相互作用中發(fā)揮著重要作用的結(jié)構(gòu)功能區(qū)域，結(jié)構(gòu)域信息在方向預(yù)測中具有重要地位。本文選用結(jié)構(gòu)域理化性質(zhì)，提出一種基于結(jié)構(gòu)域理化性質(zhì)[6-7]預(yù)測蛋白質(zhì)相互作用方向的新方法。該方法利用在線分析工具計算蛋白質(zhì)結(jié)構(gòu)域的理化性質(zhì)，構(gòu)成能夠反映相互作用蛋白質(zhì)對的特征向量，接著利用支持向量機(jī)技術(shù)分析代表這些相互作用蛋白質(zhì)對的特征向量，并對其進(jìn)行分類，由此預(yù)測相互作用蛋白質(zhì)間信號傳遞的方向。本方法將蛋白質(zhì)結(jié)構(gòu)域自有的理化性質(zhì)引入相互作用方向預(yù)測，不同于之前基于網(wǎng)絡(luò)拓?fù)涞姆椒?，為以后的研究提供了一個新思路。

1 實驗設(shè)計

結(jié)構(gòu)域(domain)是具有一定活性的蛋白質(zhì)超二級結(jié)構(gòu)單元，是蛋白質(zhì)折疊、設(shè)計、進(jìn)化以及功能實現(xiàn)的基本單位[8]。一個蛋白質(zhì)平均含有2～3個結(jié)構(gòu)域，平均50個氨基酸構(gòu)成一個蛋白質(zhì)的結(jié)構(gòu)域[9]。研究表明，76.4%的蛋白質(zhì)具有一個或多個結(jié)構(gòu)域，且結(jié)構(gòu)域相互作用的方向性是廣泛存在的，可以用于預(yù)測信號網(wǎng)絡(luò)中蛋白質(zhì)相互作用的方向[10]。因此，選取蛋白質(zhì)結(jié)構(gòu)域理化性質(zhì)作為樣本特征，并分析現(xiàn)有的具有明確方向的蛋白質(zhì)相互作用數(shù)據(jù)，可以為未來進(jìn)一步預(yù)測方向未知的蛋白質(zhì)相互作用提供有益的幫助。

1.1 數(shù)據(jù)集

為了訓(xùn)練及評估分類器，首先需要用于訓(xùn)練和分類的標(biāo)準(zhǔn)陽性集和標(biāo)準(zhǔn)陰性集。為方便起見，本文數(shù)據(jù)集采用文獻(xiàn)[11]中的數(shù)據(jù)集，該數(shù)據(jù)集從人、小鼠、大鼠、果蠅和酵母的所有信號網(wǎng)絡(luò)中，分離整理出2 803對具有特定方向的蛋白質(zhì)相互作用，包括激活、抑制、磷酸化、去磷酸化和泛素化，作為標(biāo)準(zhǔn)陽性集。同時，蛋白質(zhì)復(fù)合物中的蛋白質(zhì)相互作用被認(rèn)為是不具有方向的，構(gòu)建649個蛋白質(zhì)復(fù)合物，將其作為標(biāo)準(zhǔn)陰性集。

1.2 構(gòu)建特征向量

本文采用Expasy的protparam在線分析工具[12]，得到蛋白質(zhì)結(jié)構(gòu)域的10種理化性質(zhì)，包括氨基酸數(shù)量、分子量、理論等電點、帶負(fù)電的殘基總數(shù)、帶正電的殘基總數(shù)、消光系數(shù)、平均消光系數(shù)、不穩(wěn)定指數(shù)、脂肪族指數(shù)和親水性平均值。每一對相互作用蛋白質(zhì)對的結(jié)構(gòu)域均采用在pfam數(shù)據(jù)庫[13]中經(jīng)過注釋的結(jié)構(gòu)域。

1.3 特征向量歸一化

由于蛋白質(zhì)結(jié)構(gòu)域之間結(jié)構(gòu)的差異性，計算所得的理化特性值具有一個很大的跨度，范圍從幾百到幾萬。為了避免支持向量機(jī)模型參數(shù)被分布范圍較大或較小的數(shù)據(jù)支配，需要特征矩陣進(jìn)行歸一化處理。如公式(1)所示，特征矩陣S中的每一行對應(yīng)一對相互作用蛋白質(zhì)的結(jié)構(gòu)域理化性質(zhì)特征值，特征矩陣歸一化方法如式(2)所示。

(1)

(2)

式中：Si,j表示第i對蛋白質(zhì)的第j個特征值；max(S)和min(S)分別表示所有樣本中第j個特征值的最大值和最小值。

1.4 基于支持向量機(jī)的蛋白質(zhì)方向預(yù)測

支持向量機(jī)(support vector machine，SVM)是一種建立在結(jié)構(gòu)風(fēng)險最小原理基礎(chǔ)上的機(jī)器學(xué)習(xí)方法，其可以根據(jù)樣本信息在學(xué)習(xí)能力和模型的復(fù)雜性之間尋求最佳平衡。在預(yù)測蛋白質(zhì)相互作用方向中，支持向量機(jī)有專門針對有限樣本情況，理論上可以得到全局最優(yōu)點；對于不平衡樣本，能夠給定一個置信水平來避免過擬合；對于高通量的蛋白質(zhì)相互作用數(shù)據(jù)，能將特征向量映射到高維空間[14]，計算效率高，能夠進(jìn)行快速的訓(xùn)練。

本文選用SVM分類器利用蛋白質(zhì)理化性質(zhì)進(jìn)行蛋白質(zhì)相互作用方向預(yù)測，具體步驟如下：

1) 構(gòu)建特征向量。利用1.2小節(jié)的方法分別計算并構(gòu)建標(biāo)準(zhǔn)陽性集和標(biāo)準(zhǔn)陰性集的相互作用蛋白質(zhì)對的特征向量。最終得到的數(shù)據(jù)集樣本為3 452個，其中陽性集2 803個，陰性集649個，每個樣本維數(shù)為1 560維。

2) 特征向量的歸一化。由于模型的輸入值需在[0,1]范圍內(nèi)，使用1.3小節(jié)的方法對特征向量進(jìn)行歸一化，使特征向量的各個特征值在(0,1)范圍內(nèi)。

3) 生成訓(xùn)練集和測試集。將所有的樣本集分為訓(xùn)練集和測試集，在標(biāo)準(zhǔn)陽性集和標(biāo)準(zhǔn)陰性集中分別隨機(jī)選取4/5的數(shù)據(jù)，將這兩部分組成用于訓(xùn)練SVM分類器模型的訓(xùn)練集，其余的標(biāo)準(zhǔn)陽性集數(shù)據(jù)和標(biāo)準(zhǔn)陰性集數(shù)據(jù)組成測試集。

4) 利用訓(xùn)練集對SVM分類器進(jìn)行訓(xùn)練，并使用libsvm中的grid函數(shù)對模型進(jìn)行參數(shù)優(yōu)化。

2 實驗結(jié)果與分析

2.1 評價標(biāo)準(zhǔn)

為了定量評價基于結(jié)構(gòu)域理化性質(zhì)預(yù)測蛋白質(zhì)相互作用間信號傳遞方向的方法的性能，使用準(zhǔn)確率、精確度、召回率和F-measure 4種指標(biāo)來評價分類器模型的性能。4種評價指標(biāo)的含義分別為：

1) 準(zhǔn)確率(aaccuracy)：正確預(yù)測的蛋白質(zhì)有明確相互作用方向和無明確方向的樣本數(shù)在所有樣本中所占比例。

2) 精確度(bprecision)：正確預(yù)測的蛋白質(zhì)有明確相互作用方向的樣本占所有被預(yù)測為有明確方向樣本的比例。

3) 召回率(crecall)：正確預(yù)測為蛋白質(zhì)有明確相互作用方向占所有蛋白質(zhì)相互作用有方向樣本的比例。

4) F-measure(dF-measure)：精確度和召回率調(diào)和均值的2倍。

4種評價指標(biāo)的相關(guān)計算公式如下：

(1)

(2)

(3)

(4)

式中：PT表示預(yù)測正確的有明確方向的相互作用蛋白質(zhì)對數(shù)目；NT表示預(yù)測正確的無明確方向的相互作用蛋白質(zhì)對數(shù)目；PF表示將無明確方向預(yù)測為有明確方向的相互作用蛋白質(zhì)對數(shù)目；NF表示將有明確方向預(yù)測為無明確方向的相互作用的蛋白質(zhì)對數(shù)目。

此外，由于本文的實驗數(shù)據(jù)中有明確相互作用方向的樣本數(shù)據(jù)量遠(yuǎn)遠(yuǎn)大于無方向的，因此引入了接收者操作特征(receiver operating characteristic,ROC)曲線及其線下面積AUC值用于預(yù)測方法的性能評價。AUC值能更加全面地反映分類器的性能，避免由于樣本數(shù)量在不同類別上的不均衡所帶來的誤差。

2.2 實驗結(jié)果分析

SVM的核函數(shù)決定了模型的分類學(xué)習(xí)能力。目前支持向量機(jī)中常用的核函數(shù)有：線性核函數(shù)、多項式核函數(shù)、高斯徑向基核函數(shù)和Sigmoid核函數(shù)。線性核函數(shù)用于線性可分的情況，具有參數(shù)少、速度快的優(yōu)點，且特征空間和輸入空間的維數(shù)一樣，對于線性可分?jǐn)?shù)據(jù)，分類效果理想；多項式核函數(shù)可以將輸入空間的低維向量映射到特征空間的高維度，但是由于多項式和函數(shù)參數(shù)多，當(dāng)多項式的階數(shù)較高時，計算復(fù)雜度會阻礙分類；高斯徑向基核函數(shù)局部性強(qiáng)，可以將一個樣本映射到更高維的空間，應(yīng)用范圍廣，對大樣本或小樣本都有較好的分類性能，而且相對于多項式和函數(shù)，參數(shù)較少；而采用sigmoid核函數(shù)，支持向量機(jī)實現(xiàn)一種多層神經(jīng)網(wǎng)絡(luò)。所以，為支持向量機(jī)模型選擇恰當(dāng)?shù)暮撕瘮?shù)會達(dá)到事半功倍的效果。

首先對支持向量機(jī)的核函數(shù)進(jìn)行選擇，使用4/5的數(shù)據(jù)集訓(xùn)練分類器，剩余的1/5數(shù)據(jù)則作為測試集，測試選擇不同核函數(shù)時預(yù)測模型的分類性能，實驗結(jié)果如表1所示。由于實驗用的數(shù)據(jù)不均衡，標(biāo)準(zhǔn)陽性集大于標(biāo)準(zhǔn)陰性集。由表1可以看出，當(dāng)選擇高斯徑向基核函數(shù)時，分類器模型的準(zhǔn)確率遠(yuǎn)高于其他模型，可達(dá)86.79%.因此，選擇高斯徑向基核函數(shù)，使支持向量機(jī)模型預(yù)測結(jié)果更加精確。

表1 不同核函數(shù)SVM預(yù)測模型的性能比較Table 1 Performance comparison of SVM prediction models with different kernel functions

進(jìn)一步，使用libsvm中的grid函數(shù)來選擇最佳的高斯徑向基核函數(shù)的參數(shù)g和SVM的懲罰系數(shù)c.核函數(shù)參數(shù)g的網(wǎng)格搜索范圍設(shè)置為g∈[-15,-14,…,14,15]，懲罰系數(shù)c的網(wǎng)格搜索范圍設(shè)置為c∈[-15,-14,…,14,15].如圖1所示，當(dāng)c=2,g=0.000 122時，該預(yù)測模型的準(zhǔn)確率最高，為

圖1 c,g參數(shù)尋優(yōu)結(jié)果Fig.1 c, g parameter optimization results

88.17%.因此SVM預(yù)測模型的參數(shù)選擇如下：核函數(shù)選擇高斯徑向基核函數(shù)，高斯徑向基核函數(shù)的參數(shù)g=0.000 122，懲罰系數(shù)c=2.

將上述參數(shù)用于支持向量機(jī)模型；在測試集上，該模型的預(yù)測準(zhǔn)確率、精確度、召回率和F-measure分別為88.17%，82.94%，80.12%，81.51%.圖2給出了分類器的ROC曲線，以真陽性率作為縱軸，假陽性率作為橫軸，曲線下的面積越大，即AUC值越大，則分類器的性能越好。圖中曲線下面積AUC值為0.837，說明分類器有很好的分類性能。這些結(jié)果表明，基于蛋白質(zhì)結(jié)構(gòu)域理化性質(zhì)的支持向量機(jī)模型能夠有效預(yù)測蛋白質(zhì)相互作用間的信號傳遞方向。

圖2 預(yù)測模型的ROC曲線Fig.2 ROC plot of the predictive model

為了進(jìn)一步考察各種理化性質(zhì)對蛋白質(zhì)相互作用方向預(yù)測的影響，依次刪除不同的理化性質(zhì)，并采取5折交叉驗證的方法，計算預(yù)測模型的準(zhǔn)確率、均方誤差及平方相關(guān)系數(shù)，結(jié)果見表2。由表可見，刪除不同的理化性質(zhì)后，預(yù)測模型的準(zhǔn)確率、均方誤差及平方相關(guān)系數(shù)均有所下降，所以蛋白質(zhì)結(jié)構(gòu)域的10種理化性質(zhì)均有助于蛋白質(zhì)相互作用方向的預(yù)測。

表2 刪除不同理化性質(zhì)后在測試集上的預(yù)測性能比較Table 2 Comparison of prediction performance on test sets after removing different physicochemical properties

為了進(jìn)一步說明本文方法的可靠性，使用文獻(xiàn)[4]中評價標(biāo)準(zhǔn)，將預(yù)測模型與PIDS方法進(jìn)行對比，結(jié)果如表3所示。在準(zhǔn)確率和誤報率方面，本文的方法與PIDS方法相比略有不足；但是對于數(shù)據(jù)的覆蓋度，本文的方法領(lǐng)先于PIDS方法。綜上所述，本文提出的新方法用于預(yù)測的蛋白質(zhì)相互作用間的信號傳遞方向是有效的。

表3 不同方法的預(yù)測結(jié)果比較Table 3 Prediction results of different methods

3 結(jié)束語

筆者提出了一種基于結(jié)構(gòu)域的理化特性來推斷相互作用蛋白質(zhì)間的信號傳遞方向的新方法。與以往方法相比，本文的方法關(guān)注結(jié)構(gòu)域的理化性質(zhì)，利用經(jīng)過實驗注釋的具有明確方向的蛋白質(zhì)相互作用信息，著重于成對相互作用蛋白質(zhì)之間的信號傳遞方向預(yù)測。特別是，該方法可用于預(yù)測蛋白質(zhì)組范圍內(nèi)蛋白質(zhì)相互作用間的信號傳遞方向，并可進(jìn)一步注釋現(xiàn)有的蛋白質(zhì)相互作用網(wǎng)絡(luò)。但是此方法仍具有一定的局限性，本方法涉及到的蛋白質(zhì)結(jié)構(gòu)域的理化性質(zhì)信息僅僅只有10種；接下來?？梢試L試更多的蛋白質(zhì)結(jié)構(gòu)域信息，并使用特征提取方法對特征向量進(jìn)行選擇，來進(jìn)一步完善本文提出的預(yù)測模型。