李 彬,孫 靜,王 希,李文彬,楊 勃,潘 理
(湖南理工學(xué)院 信息科學(xué)與工程學(xué)院,湖南 岳陽 414006)
蛋白質(zhì)是組成人體一切細胞組織的重要成分,關(guān)鍵蛋白質(zhì)更是生命活動中不可缺少的部分,常攜帶與重大疾病相關(guān)的基因.關(guān)鍵蛋白質(zhì)的偵測和識別對重大疾病的發(fā)現(xiàn)與治療具有重要意義.蛋白質(zhì)相互作用網(wǎng)絡(luò)(PPI 網(wǎng)絡(luò))由單個蛋白質(zhì)通過彼此之間的相互作用構(gòu)成,基于網(wǎng)絡(luò)拓撲的方法是識別關(guān)鍵蛋白質(zhì)的重要方法[1].由于蛋白質(zhì)相互作用數(shù)據(jù)存在假陰性和假陽性[2],因此通常需要綜合多種生物信息[3](如蛋白質(zhì)相互作用數(shù)據(jù)、基因表達水平數(shù)據(jù)和亞細胞定位數(shù)據(jù)等)來構(gòu)建更加可靠的PPI 網(wǎng)絡(luò).
為了集成基因表達信息,通常使用閾值方法判斷蛋白質(zhì)在各個時刻的基因表達活躍性.常用的閾值方法包括:固定閾值法和動態(tài)閾值法[4,5].固定閾值法使用單一閾值,可能導(dǎo)致整體基因表達水平值較低的蛋白質(zhì)都被過濾掉,致使與之相關(guān)的相互作用信息均不能被利用.針對這一問題,3Sigma 動態(tài)閾值方法被提出[4].該方法根據(jù)蛋白質(zhì)自身的基因表達水平曲線,為每個蛋白質(zhì)設(shè)置一個活性閾值,大大提高了所構(gòu)建PPI 網(wǎng)絡(luò)的質(zhì)量.本文在3Sigma 閾值方法的基礎(chǔ)上,引進標準差的指數(shù)h,并通過標準差系數(shù)k和指數(shù)h共同調(diào)節(jié)蛋白質(zhì)基因表達水平閾值,使得構(gòu)建的PPI 網(wǎng)絡(luò)具有更高的關(guān)鍵蛋白質(zhì)識別率.
在S-PPI的基礎(chǔ)上,通過增加時間或空間條件約束來構(gòu)建動態(tài)蛋白質(zhì)相互作用網(wǎng)絡(luò)(D-PPI).具體來說,對于S-PPI 中的相互作用,只有滿足時間和空間條件約束才能保留在D-PPI 中.
(1)存在tk∈T,使A(i,k)=A(j,k)=1;
(2)存在lp∈L,使loc(i,p)=loc(j,p)=1.
設(shè)V1是VD的一個非空子集,以V1為頂點集、以頂點均在V1中的邊為邊集的子圖稱為GD的導(dǎo)出子圖,記作.
在3Sigma 閾值方法的基礎(chǔ)上,引進一個新的參數(shù)h,將其作為標準差的指數(shù).改進3Sigma 方法的閾值計算公式為
其中μ(i)表示蛋白質(zhì)vi在m個觀測時點的基因表達水平值的均值,σ(i)表示蛋白質(zhì)vi基因表達水平值的標準差,th(i)表示蛋白質(zhì)vi的活躍性閾值.
參數(shù)k對標準差作線性調(diào)整,參數(shù)h對標準差作非線性調(diào)整.兩個參數(shù)對閾值的總體調(diào)整效果是:當(dāng)?shù)鞍踪|(zhì)的標準差σ偏小時,該蛋白質(zhì)的閾值接近均值μ;當(dāng)標準差σ偏大時,該蛋白質(zhì)的閾值遠離均值,或者說趨近峰值.
對于式(3),當(dāng)k=0 時,則蛋白質(zhì)vi的閾值等于它的所有觀測時點基因表達水平值的均值μ(i),即
當(dāng)h=0 時,則蛋白質(zhì)vi的閾值超過均值μ(i)的倍標準差,即
當(dāng)h=2 時,則變?yōu)槲腫4]的3Sigma 閾值方法,即
本實驗蛋白質(zhì)相互作用數(shù)據(jù)來自釀酒酵母蛋白質(zhì)相互作用數(shù)據(jù)集(DIPdatabase)[3],該數(shù)據(jù)集共有蛋白質(zhì)4746個,相互作用15166條.基因表達水平數(shù)據(jù)來自GEO數(shù)據(jù)庫的酵母基因表達數(shù)據(jù)GSE3431[6],共有6667條,每條數(shù)據(jù)含有36個觀測時點的表達值.亞細胞定位數(shù)據(jù)來自COMPARTMENTS數(shù)據(jù)庫,本實驗使用了其中11個亞細胞定位區(qū)域[7].已知關(guān)鍵蛋白質(zhì)數(shù)據(jù)分別來自DEG、MIPS、SGD、SGDP數(shù)據(jù)集[8],本實驗DIP數(shù)據(jù)集中含有1130個已知關(guān)鍵蛋白質(zhì).
實驗采用三種常用的中心性方法度量D-PPI 中蛋白質(zhì)的關(guān)鍵性,見表1.其中deg(i)表示頂點vi的度;Si表示頂點vi的鄰居頂點集;zij=|Si∩Sj|表示包含邊(vi,vj)的三角形個數(shù),即頂點vi和vj的鄰居集的交集;Ci表示GD的導(dǎo)出子圖GD(Si),degCi(j)表示頂點vj在導(dǎo)出子圖Ci中的度.
表1 中心性方法
分別采用DC、NC、LAC三種中心性方法,設(shè)置參數(shù)k的范圍為0~5,比較參數(shù)h=-1,0,1,2,3 情況下關(guān)鍵蛋白質(zhì)的識別數(shù)量.圖1 為DC 方法的實驗結(jié)果.可以看出,峰值最高的曲線均為h=0,優(yōu)于曲線h=2(3Sigma 方法)的識別數(shù)量.
圖1 不同h參數(shù)下DC 方法Top100~Top600中關(guān)鍵蛋白質(zhì)識別數(shù)量
圖2 為NC方法的實驗結(jié)果.Top100中,曲線h=3的峰值最高.對于Top200~Top600,曲線h=0的峰值超過h=2的峰值,均優(yōu)于3Sigma 方法的識別數(shù)量.
圖2 不同h參數(shù)下NC 方法Top100~Top600中關(guān)鍵蛋白質(zhì)識別數(shù)量
圖3 為LAC方法的實驗結(jié)果.最高峰值曲線分別為h=-1,0,1,均超過h=2時的識別數(shù)量.
圖3 不同h參數(shù)下LAC方法Top100~Top 600 中關(guān)鍵蛋白質(zhì)識別數(shù)量
綜上可知,對于三種中心性方法,當(dāng)參數(shù)h處于 -1~1時,關(guān)鍵蛋白質(zhì)識別數(shù)量優(yōu)于h=2時的數(shù)量.
接下來通過實驗獲得三種中心性方法對Top100~Top600關(guān)鍵蛋白質(zhì)的最優(yōu)識別數(shù)量.參數(shù)h的范圍取-2 ~5,步長為0.1;k的范圍取0~5,步長為0.1.實驗結(jié)果見表2~4.例如,表2中,DC方法Top100的最高數(shù)為88,對應(yīng)的參數(shù)h=0.3 和k=4.1,此時Top100~Top600的識別數(shù)目分別為88,158,218,272,320,357.
從表2~4可以看出,三種中心性方法取最優(yōu)值時,參數(shù)h的范圍是 -1~1.3,參數(shù)k的范圍是0.9~4.2.表5 列出了文[3]中三種中心性方法的關(guān)鍵蛋白質(zhì)識別結(jié)果.對比可知,DC 方法在Top100的關(guān)鍵蛋白質(zhì)識別數(shù)量上提高了31.3%,在Top600上提高了9.3%;NC方法在Top100的關(guān)鍵蛋白質(zhì)識別數(shù)量上提高了11.5%,在Top600上提高了6.7%;LAC方法在Top100的關(guān)鍵蛋白質(zhì)識別數(shù)量上提高了5.9%,在Top600上提高了6.3%.
表2 DC 方法的最優(yōu)識別結(jié)果
表3 NC 方法的最優(yōu)識別結(jié)果
表4 LAC 方法的最優(yōu)識別結(jié)果
表5 文[3]中三種中心性方法的識別結(jié)果(h=2,k=1)
上述實驗結(jié)果表明,運用改進3Sigma 方法(調(diào)整參數(shù)h和k)構(gòu)建的動態(tài)PPI 網(wǎng)絡(luò),在關(guān)鍵蛋白質(zhì)識別效果上明顯優(yōu)于采用原3Sigma 方法(僅調(diào)整k)構(gòu)建的動態(tài)PPI 網(wǎng)絡(luò).
本文提出了一種改進的3Sigma 閾值方法,通過引入標準差指數(shù)h,以非線性方式調(diào)節(jié)蛋白質(zhì)基因表達水平閾值.實驗表明,針對DC、NC、LAC 三種中心性方法,本文構(gòu)建的動態(tài)PPI 網(wǎng)絡(luò)在關(guān)鍵蛋白質(zhì)識別數(shù)量上明顯優(yōu)于現(xiàn)有動態(tài)PPI 網(wǎng)絡(luò).