王 希, 潘 理, 蔣軍強, 楊 勃, 李文彬
(湖南理工學院 信息科學與工程學院, 湖南 岳陽 414006)
蛋白質是生物生存的基礎, 也是構成生物細胞和組織并維持生命活動的基本物質.某些蛋白質的缺失會導致生物體的疾病或影響生長, 嚴重的甚至會導致生物體的滅絕.根據蛋白質對生物體生存繁衍的重要性, 蛋白質可分為兩大類: 關鍵蛋白質和非關鍵蛋白質.識別關鍵蛋白質對于了解細胞的生存和發(fā)育的最低要求、分析疾病的原因并發(fā)現(xiàn)藥物作用的機制等都具有重要意義, 現(xiàn)已成為生物信息學研究的熱點.
目前識別關鍵蛋白質的方法主要分為兩類: 網絡拓撲方法[1]和機器學習方法[2].網絡拓撲方法通過蛋白質相互作用進行蛋白質相互作用(Protein-Protein Interaction, PPI)網絡構建, 隨后對PPI 網絡中各蛋白質節(jié)點進行拓撲中心性排序以實現(xiàn)關鍵蛋白質識別.機器學習方法以PPI 網絡中各蛋白質節(jié)點的拓撲特征以及與之相關的其它生物信息(如基因表達水平, 亞細胞位置等) 作為訓練樣本的特征值, 隨后進行模型訓練以實現(xiàn)關鍵蛋白質識別.
靜態(tài)PPI 網絡只包含了蛋白質之間的相互作用, 但用于構建靜態(tài)PPI 網絡的蛋白質相互作用數(shù)據存在大量的假陰性與假陽性數(shù)據.為了更為精準地識別關鍵蛋白質, 研究人員提出了多信息融合的活躍PPI 網絡的構建方法: 固定閾值方法[3]和3Sigma 閾值方法[4].兩種方法均采用蛋白質相互作用信息與基因表達數(shù)據融合以提高PPI 網絡構建數(shù)據的可靠性.固定閾值方法對靜態(tài)PPI 網絡中蛋白質設置統(tǒng)一的活躍閾值, 若蛋白質在某時點的基因表達水平高于閾值, 則蛋白質在這個時點處于活躍狀態(tài), 可與其它在此時點同樣活躍的蛋白質進行相互作用; 否則, 該蛋白質在此時點為非活躍狀態(tài), 由此對PPI 網絡構建數(shù)據進行篩選.但該方法由于活躍閾值設置過于絕對, 在蛋白質活躍性判斷中, 部分蛋白質在所有時點都處于非活躍狀態(tài), 與這部分蛋白質相關的相互作用也就無法在PPI 網絡中得以體現(xiàn).3Sigma 閾值方法根據各蛋白質的基因表達數(shù)據特性對各蛋白質進行單獨的活躍閾值設定以比較判別各時點的活躍狀態(tài), 隨后進行PPI 網絡的數(shù)據篩選以及構建.雖然活躍PPI 網絡對用于構建網絡的蛋白質相互作用進行了有效篩選, 且關鍵蛋白質的識別率也得到了提升, 但整個網絡仍是一個單層的PPI 網絡, 沒有充分挖掘基因表達水平數(shù)據的時序特性, 蛋白質之間的動態(tài)特性并不能在網絡中體現(xiàn), 而現(xiàn)實中的蛋白質活動卻是一個隨著時間變化而變化的過程.
本文提出一種基于3Sigma 閾值的多層PPI 網絡構建方法, 該方法將靜態(tài)PPI 網絡中的相互作用映射到多個觀測時點網絡的子網中, 不僅能對網絡構建數(shù)據進行有效篩選,提高了網絡的可靠性, 并且整個多層網絡使得蛋白質相互作用之間的動態(tài)變化特性也得以體現(xiàn),提高了網絡的合理性.在關鍵蛋白質識別方面, 多層PPI 網絡的識別結果也優(yōu)于現(xiàn)有單層PPI 網絡.
一個靜態(tài)PPI 網絡可以描述為一個無向圖.令無向圖G0=(V0,E0)為一個靜態(tài)PPI 網絡, 其中
(1)V0={v1,v2,…,vn}是頂點集, 表示構建PPI 網絡的蛋白質集合;
(2)E0={(v i,v j)|v i,v j∈V0}是頂點之間邊的集合, 表示蛋白質之間相互作用的集合.
在無向圖中, 若兩個頂點是一條邊的兩個端點, 則稱這兩個頂點相鄰.即對任何vi,v j∈V0, 若存在ei∈E0, 使得ei=(vi,vj), 則vi和vj為一組相鄰頂點.若圖G0中任意兩個不同的頂點之間都是相鄰的, 則稱G0為完全圖.對于圖G0=(V0,E0)和圖G0′=(V0′,E0′), 若V0′ ?V0且E0′ ?E0, 則稱G0′是G0的子圖.設G0=(V0,E0),V1?V0且V1≠?, 由V1構建邊集E1={(vi,v j)|vi,v j∈V1}, 則稱圖G[V1]=(V1,E1)為關于V1的導出子圖.
鄰接矩陣表示圖中頂點之間相鄰關系的二維矩陣.靜態(tài)PPI 網絡G0的鄰接矩陣M0定義為
活躍PPI 網絡主要是利用基因表達水平時間序列數(shù)據, 從靜態(tài)PPI 網絡中, 刪除不能在任意同一時點保持活躍的兩個蛋白質的相互作用, 從而構建出活躍狀態(tài)下的PPI 網絡.
通常采用閾值方法判定蛋白質的活躍性, 即如果一個蛋白質在某一時點的基因表達水平值超過閾值, 則此蛋白質在該時點處于活躍狀態(tài).如果靜態(tài)PPI 網絡中的某條邊(蛋白質相互作用)關聯(lián)的兩個頂點(蛋白質)不存在相同的活躍時點, 則該條相互作用不能保留在活躍PPI 網絡中.
活躍PPI 網絡構建算法[5]如下:
?Algorithm 1: filterthe data of DIP Input: S-PPI, gene expression(EXP).Step 1: for each gene i do
calculate its active threshold Active_th(i) for t=1 to T do if expit>Active_th(i) apit=1 end if end for end for ?Step 2: for each edge(u,v)∈E in S-PPI do for t=1 to T do if there does not exist a time point i which satisfies apvt*aput=1 remove edge(u,v) from E end if end for end for Step 3: Output edge set E
該算法通過基因表達水平數(shù)據集以及活躍閾值的設定, 對靜態(tài)PPI 網絡中各蛋白質在整個周期各時點的活躍性進行判斷; 隨后對靜態(tài)PPI 網絡中每條相互作用進行活躍性判斷, 對每條相互作用的兩個蛋白質頂點進行共同活躍時點匹配, 若兩個蛋白質頂點在整個周期中存在相同的活躍時點, 則將其放入活躍相互作用邊集中.由活躍相互作用邊集構成的PPI 網絡, 稱為活躍PPI 網絡.
活躍PPI 網絡根據基因表達時間序列數(shù)據, 從靜態(tài)PPI 網絡中導出一個活躍PPI 網絡.與活躍PPI 網絡不同, 多層PPI 網絡將構建多個時點的活躍PPI 網絡.它對每個時點的所有蛋白質進行活躍性判斷, 并從靜態(tài)PPI 網絡導出每個時點的活躍PPI 子網絡, 從而構成多個時點的活躍PPI 網絡.
假設G0=(V0,E0)為靜態(tài)PPI 網絡.用EXP表示蛋白質的基因表達水平矩陣, 其中expit表示蛋白質i在觀測時點t的基因表達水平值, 這里t=1,2,…,T.用AP表示蛋白質的活躍性矩陣, 其中apit表示蛋白質i在觀測時點t的活躍性, 其計算公式為
其中TH為活躍閾值.用at={vi|apit=1}表示在t時點的所有活躍蛋白質的頂點集, 則G0[at]為根據活躍頂點集at從靜態(tài)PPI 網絡G0中導出的t時點的活躍PPI 子網絡.所有時點的活躍PPI 子網絡構成多層PPI網絡
多層PPI 網絡構建算法如下:
Algorithm2: build Multilayer PPIs Input: S-PPI, gene expression(EXP).Step 1: for each gene i do calculate its active threshold Active_th(i) for t=1 to T do if expit>Active_th(i) apit=1 end if end for end for Step 2: for t=1 to T do for each gene i do if apit==1 do node i add intoat end if end for end for
Step 3: for t=1 to T do for each edge(v,u) in S-PPI do if v and u in at edge(v,u) add into PPIt end if end for end for Step 4: Output Multilayer PPIs ?
下面通過例子說明多層PPI 網絡的構建過程.
(1) 靜態(tài)PPI 網絡構建以及基因表達水平文件獲取.靜態(tài)PPI 網絡G0=(V0,E0), 其中V0={p1,p2,p3,p4},E0={(p1,p2),(p1,p4),(p3,p4)}, 如圖1所示.
圖1 蛋白質活躍性
表1為靜態(tài)PPI 網絡G0中4 個蛋白質在3 個時點的基因表達水平數(shù)EXP.
(2) 蛋白質活躍時點判斷及活躍蛋白質集合獲取.依據3Sigma閾值方法[5], 計算得到各蛋白質的基因表達水平的活躍閾值分別為: 0.6146, 0.3785, 1.7823, 0.7258.然后得到蛋白質活躍性矩陣AP, 見表2.
根據表2, 得到各時點活躍蛋白質頂點集a1={p3,p4},a2={p1,p4},a3={p1,p2}.
表1 基因表達水平矩陣EXP
表2 蛋白質活躍性矩陣AP
(3) 導出各時點的活躍時點網絡.根據各時點的活躍蛋白質集合, 從靜態(tài)PPI 網絡導出各時點的活躍時點網絡, 如圖2所示.最后組合為多層PPI 網絡G={G0[a1],G0[a2],G0[a3]}.
圖2 多層PPI 網絡
蛋白質相互作用采用釀酒酵母(Saccharomyces cerevisiae)蛋白質相互作用數(shù)據集(DIP 數(shù)據庫[10]), 包括5093 個蛋白質及24743 條相互作用.基因表達水平數(shù)據來自GES3431(geneExpressionOmnibus[11]), 該文件包含了共6777 個蛋白質36 個時點(3 個周期)的基因表達水平數(shù)據.兩個數(shù)據集具有4846 個相同的蛋白質(占DIP 數(shù)據集的95%).因此, 用于構建活躍PPI 網絡和多層PPI 網絡的蛋白質為4846 個.在4846個蛋白質中, 已知的關鍵蛋白質有1167 個[5].
中心性度量方法是關鍵蛋白質識別的一種常用方法[6~8].表3列舉了三種常用的中心性方法:DC(度中心性)、NC(邊聚類系數(shù)中心性)和LAC(局部平均連接中心性), 其中NC和LAC是網絡拓撲方法中兩種識別效果最好的中心性方法.
表3 中心性方法
表3中,deg(v)表示蛋白質v的度;其中Zv,u表示包含節(jié)點v,u的這條邊的三角形的個數(shù);Nv是節(jié)點v的鄰居集合,Cv是靜態(tài)PPI 網絡中只包含節(jié)點v鄰居節(jié)點的導出子圖,deg Cv(w)為相應導出子圖中節(jié)點w的度.
下面以DC中心性方法為例, 介紹加權多層中心性方法的計算步驟.假設多層PPI 網絡已構建完成.
(1) 對每個時點子網絡, 計算該網絡中各活躍蛋白質的中心性度量值.用DC(i,t)表示在時點t子網絡中蛋白質vi的DC中心性度量值.
(2) 對每個蛋白質在各個子網絡中的中心性值進行加權求和.蛋白質vi的DC中心性值為其中wt是第t時點子網絡的權值系數(shù).
(3) 對所有蛋白質的DC中心性值進行排序, 取中心性值排名前100~600 的蛋白質, 計算其中包含已知關鍵蛋白質的數(shù)量, 得到DC中心性方法的關鍵蛋白質識別率.
NC和LAC均采用類似方法進行計算.
用S-PPI、A-PPI、M-PPI 分別表示靜態(tài)PPI 網絡、活躍PPI 網絡和多層PPI 網絡.下面通過實驗比較三種PPI 網絡中關鍵蛋白質的識別率.其中對A-PPI 和M-PPI, 蛋白質活躍性判定均采用3Sigma 方法[5].
給定M-PPI 各時點層加權系數(shù)W={62, 103, 39, 3, 25, 3, 12, 8, 718, 49, 55, 9}.分別針對三種中心性DC、NC和LAC, 采用加權多層中心性方法, 計算閾值k從 1- 到4 變化范圍內的關鍵蛋白質識別數(shù)量.實驗結果如圖3所示.
圖3 M-PPI 中三種中心性方法的關鍵蛋白質識別情況
由圖3可看出, 針對中心性DC, 其識別效果隨著閾值系數(shù)k的增大而提高, 但當閾值系數(shù)增長至3左右后, 隨著閾值系數(shù)的增大, 識別效果開始隨之降低; 對于中心性算法NC和LAC, 隨著閾值系數(shù)的提高, 其識別效果波動較小, 變化幅度不大, 當閾值系數(shù)增長至1.8 左右后, 其識別效果開始有了較為明顯的下滑趨勢, 當閾值系數(shù)增長至3.6 左右時, 識別效果大幅降低.
表4列出了三種中心性方法在M-PPI 中識別結果優(yōu)于A-PPI 最佳識別結果[5]的k值范圍.
表4 閾值k 參考范圍
由表4可看出, 對于DC, 當k值為0.9~3.4 時, 其M-PPI 的關鍵蛋白質識別數(shù)量優(yōu)于A-PPI.對于NC, 當k值為1.4~3.2 時, 其M-PPI 的關鍵蛋白質識別數(shù)量優(yōu)于A-PPI.對于LAC, 當k值為1.2~1.9 和2.7~3.2時, 其M-PPI 的關鍵蛋白質識別數(shù)量優(yōu)于A-PPI.綜上可知, 當k值為1.4~1.9 和2.7~3.2 時, M-PPI 中三種中心性方法均可取得優(yōu)于A-PPI 的識別結果.圖4和表5列出了S-PPI、A-PPI(2.5)k=和M-PPI(1.9k=,W={62, 103, 39, 3, 25, 3, 12, 8, 718, 49, 55, 9})中DC、NC、LAC的關鍵蛋白質識別結果.
圖4 關鍵蛋白質識別對比圖
表5 關鍵蛋白質識別數(shù)量
對于DC, 相比S-PPI、A-PPI, M-PPI 在Top600 中的識別率分別提升了29.8%和8.3%.對于NC, M-PPI相比S-PPI 和A-PPI, 分別提升了10.4%和5.2%.對于LAC, M-PPI 比S-PPI 和A-PPI 分別提升了10.1%和4.7%.表6給出了W和k取不同值時三種中心性方法在Top100~600 的識別結果, 均優(yōu)于目前A-PPI 中三種中心性的最優(yōu)識別結果.
表6 各加權系數(shù)下最優(yōu)閾值k 及對應關鍵蛋白質識別數(shù)量
由表6可以看出, 針對不同的加權系數(shù), 其對應M-PPI 網絡的最優(yōu)閾值存在一定差異; 但針對不同加權系數(shù), 其閾值系數(shù)為2 或3 左右時, M-PPI 網絡的識別結果均能優(yōu)A-PPI 網絡的識別結果.
本文在靜態(tài)PPI 網絡的基礎上, 利用基因表達水平時間序列數(shù)據, 構建了一種蛋白質相互作用多層網絡, 提出了基于多層網絡的中心性加權方法, 提高了關鍵蛋白質的識別率.