亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于結(jié)構(gòu)域理化性質(zhì)的蛋白質(zhì)相互作用方向預(yù)測

        2019-08-05 05:46:26衛(wèi)博翔
        太原理工大學(xué)學(xué)報 2019年4期
        關(guān)鍵詞:方向方法模型

        衛(wèi)博翔,焦 雄

        (太原理工大學(xué) 生物醫(yī)學(xué)工程學(xué)院,太原 030024)

        蛋白質(zhì)的功能必須通過其相互作用表現(xiàn)出來。蛋白質(zhì)相互作用作為細(xì)胞生命活動中信號傳遞的基礎(chǔ),在生長、分化、代謝和凋亡中起著重要作用[1]。但是,現(xiàn)有蛋白質(zhì)相互作用網(wǎng)絡(luò)(PPI)通常不攜帶兩個相互作用蛋白質(zhì)之間的方向信息,如上游/下游,激活/抑制關(guān)系等。這阻礙了對生命活動中的信號傳遞的理解。因此,需要用相互作用蛋白質(zhì)間的信號傳遞的方向來進(jìn)一步注釋當(dāng)前的PPI網(wǎng)絡(luò)。

        一些計算生物學(xué)家試圖從PPI網(wǎng)絡(luò)推斷信號傳遞方向。VINAYAGAM et al[2]基于信號通路是從質(zhì)膜相關(guān)受體開始到轉(zhuǎn)錄因子結(jié)束的假設(shè),從蛋白質(zhì)相互作用網(wǎng)絡(luò)中導(dǎo)出最短路徑連接(SPC)特征,訓(xùn)練預(yù)測PPI網(wǎng)絡(luò)方向的樸素貝葉斯分類器。GITTER et al[3]提出了一種優(yōu)化方法來求解蛋白質(zhì)相互作用網(wǎng)絡(luò)中最大邊緣方向。該方法不需要其他的信息,僅需要蛋白質(zhì)相互作用網(wǎng)絡(luò)中的拓?fù)湫畔ⅲ谴嬖谟嬎銖?qiáng)度大的缺點。這種基于PPI網(wǎng)絡(luò)拓?fù)涞姆椒m然簡單直觀,但通常沒有利用KEGG和NetPath中提供的經(jīng)由實驗驗證的蛋白質(zhì)相互作用間的上游/下游信息,因此容易產(chǎn)生錯誤的信號蛋白通路和信號流方向。劉偉等[4]首先從兩個相互作用的蛋白質(zhì)之間的方向信息中歸納得到兩個相互作用蛋白質(zhì)的兩個結(jié)構(gòu)域之間的方向概率;然后提出了函數(shù)F來預(yù)測任何結(jié)構(gòu)域?qū)Φ姆较?,并且進(jìn)一步提出了參數(shù)PIDS來預(yù)測任何相互作用蛋白質(zhì)對之間信號傳遞的方向。但是僅憑兩個結(jié)構(gòu)域的方向信息尚不足以確定兩個蛋白質(zhì)之間的作用方向,需要考慮其他的輔助信息。梅素玉等[5]考慮到蛋白質(zhì)相互作用過程中結(jié)構(gòu)域的非線性組合,提取結(jié)構(gòu)域特征訓(xùn)練一個SVM支持向量機(jī)模型,用以預(yù)測蛋白質(zhì)相互作用間的激活/抑制關(guān)系。與那些基于PPI網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的方法相比,這些方法能夠有效地利用實驗驗證的相互作用蛋白質(zhì)之間的方向信息。

        結(jié)構(gòu)域作為蛋白質(zhì)中具有進(jìn)化保守性的結(jié)構(gòu)功能單位,是蛋白質(zhì)相互作用中發(fā)揮著重要作用的結(jié)構(gòu)功能區(qū)域,結(jié)構(gòu)域信息在方向預(yù)測中具有重要地位。本文選用結(jié)構(gòu)域理化性質(zhì),提出一種基于結(jié)構(gòu)域理化性質(zhì)[6-7]預(yù)測蛋白質(zhì)相互作用方向的新方法。該方法利用在線分析工具計算蛋白質(zhì)結(jié)構(gòu)域的理化性質(zhì),構(gòu)成能夠反映相互作用蛋白質(zhì)對的特征向量,接著利用支持向量機(jī)技術(shù)分析代表這些相互作用蛋白質(zhì)對的特征向量,并對其進(jìn)行分類,由此預(yù)測相互作用蛋白質(zhì)間信號傳遞的方向。本方法將蛋白質(zhì)結(jié)構(gòu)域自有的理化性質(zhì)引入相互作用方向預(yù)測,不同于之前基于網(wǎng)絡(luò)拓?fù)涞姆椒?,為以后的研究提供了一個新思路。

        1 實驗設(shè)計

        結(jié)構(gòu)域(domain)是具有一定活性的蛋白質(zhì)超二級結(jié)構(gòu)單元,是蛋白質(zhì)折疊、設(shè)計、進(jìn)化以及功能實現(xiàn)的基本單位[8]。一個蛋白質(zhì)平均含有2~3個結(jié)構(gòu)域,平均50個氨基酸構(gòu)成一個蛋白質(zhì)的結(jié)構(gòu)域[9]。研究表明,76.4%的蛋白質(zhì)具有一個或多個結(jié)構(gòu)域,且結(jié)構(gòu)域相互作用的方向性是廣泛存在的,可以用于預(yù)測信號網(wǎng)絡(luò)中蛋白質(zhì)相互作用的方向[10]。因此,選取蛋白質(zhì)結(jié)構(gòu)域理化性質(zhì)作為樣本特征,并分析現(xiàn)有的具有明確方向的蛋白質(zhì)相互作用數(shù)據(jù),可以為未來進(jìn)一步預(yù)測方向未知的蛋白質(zhì)相互作用提供有益的幫助。

        1.1 數(shù)據(jù)集

        為了訓(xùn)練及評估分類器,首先需要用于訓(xùn)練和分類的標(biāo)準(zhǔn)陽性集和標(biāo)準(zhǔn)陰性集。為方便起見,本文數(shù)據(jù)集采用文獻(xiàn)[11]中的數(shù)據(jù)集,該數(shù)據(jù)集從人、小鼠、大鼠、果蠅和酵母的所有信號網(wǎng)絡(luò)中,分離整理出2 803對具有特定方向的蛋白質(zhì)相互作用,包括激活、抑制、磷酸化、去磷酸化和泛素化,作為標(biāo)準(zhǔn)陽性集。同時,蛋白質(zhì)復(fù)合物中的蛋白質(zhì)相互作用被認(rèn)為是不具有方向的,構(gòu)建649個蛋白質(zhì)復(fù)合物,將其作為標(biāo)準(zhǔn)陰性集。

        1.2 構(gòu)建特征向量

        本文采用Expasy的protparam在線分析工具[12],得到蛋白質(zhì)結(jié)構(gòu)域的10種理化性質(zhì),包括氨基酸數(shù)量、分子量、理論等電點、帶負(fù)電的殘基總數(shù)、帶正電的殘基總數(shù)、消光系數(shù)、平均消光系數(shù)、不穩(wěn)定指數(shù)、脂肪族指數(shù)和親水性平均值。每一對相互作用蛋白質(zhì)對的結(jié)構(gòu)域均采用在pfam數(shù)據(jù)庫[13]中經(jīng)過注釋的結(jié)構(gòu)域。

        1.3 特征向量歸一化

        由于蛋白質(zhì)結(jié)構(gòu)域之間結(jié)構(gòu)的差異性,計算所得的理化特性值具有一個很大的跨度,范圍從幾百到幾萬。為了避免支持向量機(jī)模型參數(shù)被分布范圍較大或較小的數(shù)據(jù)支配,需要特征矩陣進(jìn)行歸一化處理。如公式(1)所示,特征矩陣S中的每一行對應(yīng)一對相互作用蛋白質(zhì)的結(jié)構(gòu)域理化性質(zhì)特征值,特征矩陣歸一化方法如式(2)所示。

        (1)

        (2)

        式中:Si,j表示第i對蛋白質(zhì)的第j個特征值;max(S)和min(S)分別表示所有樣本中第j個特征值的最大值和最小值。

        1.4 基于支持向量機(jī)的蛋白質(zhì)方向預(yù)測

        支持向量機(jī)(support vector machine,SVM)是一種建立在結(jié)構(gòu)風(fēng)險最小原理基礎(chǔ)上的機(jī)器學(xué)習(xí)方法,其可以根據(jù)樣本信息在學(xué)習(xí)能力和模型的復(fù)雜性之間尋求最佳平衡。在預(yù)測蛋白質(zhì)相互作用方向中,支持向量機(jī)有專門針對有限樣本情況,理論上可以得到全局最優(yōu)點;對于不平衡樣本,能夠給定一個置信水平來避免過擬合;對于高通量的蛋白質(zhì)相互作用數(shù)據(jù),能將特征向量映射到高維空間[14],計算效率高,能夠進(jìn)行快速的訓(xùn)練。

        本文選用SVM分類器利用蛋白質(zhì)理化性質(zhì)進(jìn)行蛋白質(zhì)相互作用方向預(yù)測,具體步驟如下:

        1) 構(gòu)建特征向量。利用1.2小節(jié)的方法分別計算并構(gòu)建標(biāo)準(zhǔn)陽性集和標(biāo)準(zhǔn)陰性集的相互作用蛋白質(zhì)對的特征向量。最終得到的數(shù)據(jù)集樣本為3 452個,其中陽性集2 803個,陰性集649個,每個樣本維數(shù)為1 560維。

        2) 特征向量的歸一化。由于模型的輸入值需在[0,1]范圍內(nèi),使用1.3小節(jié)的方法對特征向量進(jìn)行歸一化,使特征向量的各個特征值在(0,1)范圍內(nèi)。

        3) 生成訓(xùn)練集和測試集。將所有的樣本集分為訓(xùn)練集和測試集,在標(biāo)準(zhǔn)陽性集和標(biāo)準(zhǔn)陰性集中分別隨機(jī)選取4/5的數(shù)據(jù),將這兩部分組成用于訓(xùn)練SVM分類器模型的訓(xùn)練集,其余的標(biāo)準(zhǔn)陽性集數(shù)據(jù)和標(biāo)準(zhǔn)陰性集數(shù)據(jù)組成測試集。

        4) 利用訓(xùn)練集對SVM分類器進(jìn)行訓(xùn)練,并使用libsvm中的grid函數(shù)對模型進(jìn)行參數(shù)優(yōu)化。

        2 實驗結(jié)果與分析

        2.1 評價標(biāo)準(zhǔn)

        為了定量評價基于結(jié)構(gòu)域理化性質(zhì)預(yù)測蛋白質(zhì)相互作用間信號傳遞方向的方法的性能,使用準(zhǔn)確率、精確度、召回率和F-measure 4種指標(biāo)來評價分類器模型的性能。4種評價指標(biāo)的含義分別為:

        1) 準(zhǔn)確率(aaccuracy):正確預(yù)測的蛋白質(zhì)有明確相互作用方向和無明確方向的樣本數(shù)在所有樣本中所占比例。

        2) 精確度(bprecision):正確預(yù)測的蛋白質(zhì)有明確相互作用方向的樣本占所有被預(yù)測為有明確方向樣本的比例。

        3) 召回率(crecall):正確預(yù)測為蛋白質(zhì)有明確相互作用方向占所有蛋白質(zhì)相互作用有方向樣本的比例。

        4) F-measure(dF-measure):精確度和召回率調(diào)和均值的2倍。

        4種評價指標(biāo)的相關(guān)計算公式如下:

        (1)

        (2)

        (3)

        (4)

        式中:PT表示預(yù)測正確的有明確方向的相互作用蛋白質(zhì)對數(shù)目;NT表示預(yù)測正確的無明確方向的相互作用蛋白質(zhì)對數(shù)目;PF表示將無明確方向預(yù)測為有明確方向的相互作用蛋白質(zhì)對數(shù)目;NF表示將有明確方向預(yù)測為無明確方向的相互作用的蛋白質(zhì)對數(shù)目。

        此外,由于本文的實驗數(shù)據(jù)中有明確相互作用方向的樣本數(shù)據(jù)量遠(yuǎn)遠(yuǎn)大于無方向的,因此引入了接收者操作特征(receiver operating characteristic,ROC)曲線及其線下面積AUC值用于預(yù)測方法的性能評價。AUC值能更加全面地反映分類器的性能,避免由于樣本數(shù)量在不同類別上的不均衡所帶來的誤差。

        2.2 實驗結(jié)果分析

        SVM的核函數(shù)決定了模型的分類學(xué)習(xí)能力。目前支持向量機(jī)中常用的核函數(shù)有:線性核函數(shù)、多項式核函數(shù)、高斯徑向基核函數(shù)和Sigmoid核函數(shù)。線性核函數(shù)用于線性可分的情況,具有參數(shù)少、速度快的優(yōu)點,且特征空間和輸入空間的維數(shù)一樣,對于線性可分?jǐn)?shù)據(jù),分類效果理想;多項式核函數(shù)可以將輸入空間的低維向量映射到特征空間的高維度,但是由于多項式和函數(shù)參數(shù)多,當(dāng)多項式的階數(shù)較高時,計算復(fù)雜度會阻礙分類;高斯徑向基核函數(shù)局部性強(qiáng),可以將一個樣本映射到更高維的空間,應(yīng)用范圍廣,對大樣本或小樣本都有較好的分類性能,而且相對于多項式和函數(shù),參數(shù)較少;而采用sigmoid核函數(shù),支持向量機(jī)實現(xiàn)一種多層神經(jīng)網(wǎng)絡(luò)。所以,為支持向量機(jī)模型選擇恰當(dāng)?shù)暮撕瘮?shù)會達(dá)到事半功倍的效果。

        首先對支持向量機(jī)的核函數(shù)進(jìn)行選擇,使用4/5的數(shù)據(jù)集訓(xùn)練分類器,剩余的1/5數(shù)據(jù)則作為測試集,測試選擇不同核函數(shù)時預(yù)測模型的分類性能,實驗結(jié)果如表1所示。由于實驗用的數(shù)據(jù)不均衡,標(biāo)準(zhǔn)陽性集大于標(biāo)準(zhǔn)陰性集。由表1可以看出,當(dāng)選擇高斯徑向基核函數(shù)時,分類器模型的準(zhǔn)確率遠(yuǎn)高于其他模型,可達(dá)86.79%.因此,選擇高斯徑向基核函數(shù),使支持向量機(jī)模型預(yù)測結(jié)果更加精確。

        表1 不同核函數(shù)SVM預(yù)測模型的性能比較Table 1 Performance comparison of SVM prediction models with different kernel functions

        進(jìn)一步,使用libsvm中的grid函數(shù)來選擇最佳的高斯徑向基核函數(shù)的參數(shù)g和SVM的懲罰系數(shù)c.核函數(shù)參數(shù)g的網(wǎng)格搜索范圍設(shè)置為g∈[-15,-14,…,14,15],懲罰系數(shù)c的網(wǎng)格搜索范圍設(shè)置為c∈[-15,-14,…,14,15].如圖1所示,當(dāng)c=2,g=0.000 122時,該預(yù)測模型的準(zhǔn)確率最高,為

        圖1 c,g參數(shù)尋優(yōu)結(jié)果Fig.1 c, g parameter optimization results

        88.17%.因此SVM預(yù)測模型的參數(shù)選擇如下:核函數(shù)選擇高斯徑向基核函數(shù),高斯徑向基核函數(shù)的參數(shù)g=0.000 122,懲罰系數(shù)c=2.

        將上述參數(shù)用于支持向量機(jī)模型;在測試集上,該模型的預(yù)測準(zhǔn)確率、精確度、召回率和F-measure分別為88.17%,82.94%,80.12%,81.51%.圖2給出了分類器的ROC曲線,以真陽性率作為縱軸,假陽性率作為橫軸,曲線下的面積越大,即AUC值越大,則分類器的性能越好。圖中曲線下面積AUC值為0.837,說明分類器有很好的分類性能。這些結(jié)果表明,基于蛋白質(zhì)結(jié)構(gòu)域理化性質(zhì)的支持向量機(jī)模型能夠有效預(yù)測蛋白質(zhì)相互作用間的信號傳遞方向。

        圖2 預(yù)測模型的ROC曲線Fig.2 ROC plot of the predictive model

        為了進(jìn)一步考察各種理化性質(zhì)對蛋白質(zhì)相互作用方向預(yù)測的影響,依次刪除不同的理化性質(zhì),并采取5折交叉驗證的方法,計算預(yù)測模型的準(zhǔn)確率、均方誤差及平方相關(guān)系數(shù),結(jié)果見表2。由表可見,刪除不同的理化性質(zhì)后,預(yù)測模型的準(zhǔn)確率、均方誤差及平方相關(guān)系數(shù)均有所下降,所以蛋白質(zhì)結(jié)構(gòu)域的10種理化性質(zhì)均有助于蛋白質(zhì)相互作用方向的預(yù)測。

        表2 刪除不同理化性質(zhì)后在測試集上的預(yù)測性能比較Table 2 Comparison of prediction performance on test sets after removing different physicochemical properties

        為了進(jìn)一步說明本文方法的可靠性,使用文獻(xiàn)[4]中評價標(biāo)準(zhǔn),將預(yù)測模型與PIDS方法進(jìn)行對比,結(jié)果如表3所示。在準(zhǔn)確率和誤報率方面,本文的方法與PIDS方法相比略有不足;但是對于數(shù)據(jù)的覆蓋度,本文的方法領(lǐng)先于PIDS方法。綜上所述,本文提出的新方法用于預(yù)測的蛋白質(zhì)相互作用間的信號傳遞方向是有效的。

        表3 不同方法的預(yù)測結(jié)果比較Table 3 Prediction results of different methods

        3 結(jié)束語

        筆者提出了一種基于結(jié)構(gòu)域的理化特性來推斷相互作用蛋白質(zhì)間的信號傳遞方向的新方法。與以往方法相比,本文的方法關(guān)注結(jié)構(gòu)域的理化性質(zhì),利用經(jīng)過實驗注釋的具有明確方向的蛋白質(zhì)相互作用信息,著重于成對相互作用蛋白質(zhì)之間的信號傳遞方向預(yù)測。特別是,該方法可用于預(yù)測蛋白質(zhì)組范圍內(nèi)蛋白質(zhì)相互作用間的信號傳遞方向,并可進(jìn)一步注釋現(xiàn)有的蛋白質(zhì)相互作用網(wǎng)絡(luò)。但是此方法仍具有一定的局限性,本方法涉及到的蛋白質(zhì)結(jié)構(gòu)域的理化性質(zhì)信息僅僅只有10種;接下來??梢試L試更多的蛋白質(zhì)結(jié)構(gòu)域信息,并使用特征提取方法對特征向量進(jìn)行選擇,來進(jìn)一步完善本文提出的預(yù)測模型。

        猜你喜歡
        方向方法模型
        一半模型
        2022年組稿方向
        2021年組稿方向
        2021年組稿方向
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        可能是方法不對
        3D打印中的模型分割與打包
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        国产国拍亚洲精品午夜不卡17| 欧美成人精品三级网站| 97久久久一区二区少妇| 国内揄拍国内精品久久 | 亚洲国产一区二区,毛片| 谷原希美中文字幕在线| 亚洲不卡高清av网站| 亚洲天堂丰满人妻av| 日本成本人片视频免费| 情人伊人久久综合亚洲 | 在线观看国产三级av| 精品亚洲不卡一区二区| 日本一级二级三级在线| 激情亚洲不卡一区二区| 人妻少妇不满足中文字幕| 久久99精品久久久久久清纯| 天堂а在线中文在线新版| 成年免费视频黄网站zxgk| 日本一本久道| 在线视频青青草猎艳自拍69 | 天天插视频| 国产精品亚洲婷婷99久久精品| 精品综合久久88少妇激情| 草草影院发布页| 极品白嫩的小少妇| 野狼第一精品社区| 欧美婷婷六月丁香综合色| 特黄aa级毛片免费视频播放| 欧洲人体一区二区三区| 女优视频一区二区三区在线观看| 亚洲日本中文字幕乱码| 中国人在线观看免费的视频播放| 亚洲成av人片在线观看www| 欧美成a人片在线观看久| 亚洲福利视频一区| 国产在线拍偷自拍偷精品| 国产一区二区黑丝美女| 国产亚洲一本二本三道| 久久精品国产久精国产爱| 中文字幕精品久久久久人妻| 国产AV无码专区久久精品网站|