孫曉芳 劉亞秋 初硯碩
(東北林業(yè)大學,哈爾濱,150040)
責任編輯:王廣建。
蛋白質在細胞的各類生物過程中發(fā)揮著重要作用,且功能多樣廣泛(促進化學反應、進行信息傳遞等)。蛋白質通常是以相互作用的形式完成各種生物學功能。了解蛋白質相互作用(PPIs),可更好的了解蛋白質的功能及參與生物學的過程。
近年來,芥子油苷被證實是重要的抗癌藥物前體,能被模式植物擬南芥合成。針對參與芥子油苷生物合成過程的蛋白質相互作用進行預測,構建蛋白質相互作用網絡,從蛋白質一級序列抽取了蛋白質結構域信息并建立結構域特征向量,使用一對對稱的特征向量表示一對蛋白質關系,應用支撐向量機方法構建蛋白質相互作用預測器。
目前,使用生物實驗來判斷蛋白質之間發(fā)生相互作用的方法有酵母雙雜交、免疫共沉淀等,這類生物實驗方法費時費力,使用計算方法預測蛋白質相互作用,能輔助生物學實驗縮減待測樣本數(shù)量,提高驗證效率。
在眾多的基于蛋白質結構的蛋白質相互作用預測方法中,一類方法是從蛋白質的一級結構,即氨基酸序列中找到決定蛋白質相互作用的子序列;另一類方法是從蛋白質的一級結構中提取蛋白質的物理化學性質或者蛋白質的高級結構,通過這類信息進行預測蛋白質相互作用。這些方法特征向量的維度過高、計算復雜,且其特征向量中含有冗余特征。目前對特征向量降維方法有很多種,例如:將20 個氨基酸根據(jù)其極性以及配基的分子量、范德華力等壓縮為幾類氨基酸,或者從樣本中選取幾類主要特征、使用氨基酸的2 元組(3 元組)代替單位為1 個氨基酸的特征表示形式。
蛋白質的結構域被認為是構成蛋白質的框架結構。認為蛋白質結構域是長期進化而來的構成蛋白質結構和功能的基本單元,蛋白質結構域代表了蛋白質的結構特征?;诘鞍踪|結構域的蛋白質相互作用預測方法,認為蛋白質相互作用是蛋白質中的結構域和結構域相互作用而導致的。
Chen 等[1-2]使用結構域相互作用數(shù)據(jù)庫中的結構域信息加上文獻中的數(shù)據(jù)作為蛋白質相互作用預測的源數(shù)據(jù),這些數(shù)據(jù)含有3 713 個蛋白質、9 843個相互作用、4 239 個結構域,再加上該對蛋白是否真正發(fā)生相互作用,共組成了4240 維的蛋白質相互作用特征向量。使用決策森林作為蛋白質相互作用的學習機,進行蛋白質相互作用預測,然后用兩個蛋白質特征向量拼接的方法構建特征向量,拼接后的特征向量作為該組蛋白質對是否相互作用的特征。Jefferson 等[3]提出使用結構域的相互作用信息作為預測蛋白質相互作用,實驗結果表明使用結構域相互作用(DDIs)信息可以提高蛋白質相互作用預測的準確性。
本文使用數(shù)據(jù)庫AtPIN[4]中的擬南芥蛋白質相互作用數(shù)據(jù)作為源數(shù)據(jù),用Pfam25.0[5]中的結構域隱馬爾科夫模型,從蛋白質一級序列中識別結構域,DOMINE 數(shù)據(jù)庫中的結構域相互作用信息作為額外補充特征。根據(jù)以上數(shù)據(jù),構建對稱的蛋白質相互作用特征向量。使用該特征向量作為訓練樣本,訓練支撐向量機學習機;在參數(shù)選擇中,使用5 折交叉驗證的網格尋優(yōu)方法,優(yōu)化高斯徑向基核函數(shù)的降噪參數(shù)(c)和核寬參數(shù)(γ)。然后,使用高斯徑向支撐向量機作為蛋白質相互作用預測器,使用數(shù)據(jù)庫中的蛋白質相互作用對進行驗證,使用預測器預測蛋白質的相互作用。
蛋白質相互作用預測的問題可以形式化為兩類問題:每一個蛋白質對作為一個樣本,屬于相互作用類或者不相互作用類。蛋白質A 和蛋白質B 組成的蛋白質對屬于相互作用(或者不相互作用)類,可表述為A 與B 有相互作用(沒有相互作用),或者B與A 有相互作用(或沒有相互作用)。蛋白質A 和蛋白質B 組成的蛋白質對有無相互作用關系,表示為,那么,向量可以表示為同時使用這兩個對稱的向量來表示蛋白質對AB 之間的關系(有相互作用或無相互作用)。
源數(shù)據(jù)集合中共含有1913 個不重復Pfam 結構域,每一個結構域使用數(shù)字0 到1912 來一一對應標記。這樣每一個蛋白質使用一個1913 維數(shù)字向量表示,其每一維對應該位置序號的結構域數(shù)量。例如:如果一個蛋白質含有一個標記為5 的結構域,那么特征向量中對應的第5 個數(shù)字為1。Pfam25.0 可將蛋白質結構域分為5 個類型(Domain、Motif、Repeat、Family、PfamB)。根據(jù)蛋白質結構域的類型,統(tǒng)計一個蛋白質對應的所有由Pfam25.0 發(fā)現(xiàn)的各自類型結構域的數(shù)目。在原特征向量末尾額外連接5 個特征(D、M、R、F、P)。為表示一對蛋白質的關系,將兩個分別表示蛋白質的結構域的特征向量拼接成一個向量。即,蛋白質A 的特征向量表示為VA=[fA0,fA1,fA2,…,fAn-1,DA,F(xiàn)A,RA,MA,PA],其中,n=1 913,fA0表示蛋白質A 中標號為0 的結構域的數(shù)量,DA表示蛋白質A 中Domain 類型的結構域的數(shù)量,F(xiàn)A表示蛋白質A 中Family 類型結構域的數(shù)量,RA表示蛋白質A 中Repeat 的數(shù)量,MA表示蛋白質A 中Motif 的數(shù)量,PA表示蛋白質A 中PfamB 的數(shù)量。蛋白質A 和B 的相互作用關系可以表示為[VA,VB]或[VB,VA]。在結構域相互作用數(shù)據(jù)庫DOMINE中,結構域相互作用按照可信度分為高可信、中可信、低可信預測[6]。在特征向量[VA,VB]和[VB,VA]末尾拼接額外三維向量,分別對應該三類可信度結構域相互作用的數(shù)量。最終得到蛋白質A 和B 的相互作用關系的特征向量[VA,VB,HCPs,MCPs,LCPs]和[VB,VA,HCPs,MCPs,LCPs]。進一步對所有特征向量進行歸一化,使每一維度數(shù)值范圍在[0,1]。如式(1)所示,特征矩陣S'm,n中的每一行對應m 個樣本中相應的特征向量,特征矩陣歸一化方法如式(2)所示,
結構域相互作用數(shù)據(jù)庫DOMINE 搜集了已知和預測的蛋白質結構域相互作用。DOMINE 含有26 219 個結構域相互作用,涉及5 410 個不重復結構域,包含6 634 個直接從PDB 預測而來的DDIs,以及21 620 個由13 種預測算法預測而來的DDIs。在所有DDIs 中,共有2 989 個高可信DDIs、2 537 個中可信DDIs、2 537 個低可信DDIs。
擬南芥蛋白質相互作用數(shù)據(jù)庫AtPIN 收集了擬南芥蛋白質相互作用、本體、亞細胞定位等信息,是一個高可信的擬南芥蛋白質相互作用數(shù)據(jù)庫。在AtPIN 中,所有的蛋白質相互作用被分為2 類。
使用AtPIN 中,至少含有一個結構域的蛋白質對作為正樣本。經過濾,我們得到6320 個經過實驗驗證的蛋白質相互作用對,表示為POS,POS 包含有2695 個蛋白質。使用Pfam25.0 從氨基酸序列中識別結構域。蛋白質對應的氨基酸序列由數(shù)據(jù)庫BiowebDB(http://biowebdb.org/)中下載,該數(shù)據(jù)庫收集了擬南芥中的統(tǒng)一蛋白質資源(UniProt)。本文中使用的負樣本由隨機生成,生成負樣本的方法是在正樣本所涉及的蛋白質中隨機選取一對不在At-PIN 數(shù)據(jù)庫中的蛋白質對作為一例負樣本。本文生成了與正樣本同樣大小的負樣本,共含有2695 對蛋白質。
使用5 折交叉驗證的網格搜索高斯徑向基核(k(u,v)=exp(-γ*‖u-v‖2))支撐向量機中的降噪參數(shù)和核寬參數(shù)。參數(shù)(c)的網格范圍設置為logc2∈[-5,-3,-1,…,13],γ 設置為logy2∈[-15,-13,-11,…,3]。
由圖1所示,最佳精確度logc2=1 和logy2=-1,該坐標的5 折交叉驗證的高斯徑向基核支撐向量機的精確度為85.4549%,最優(yōu)參數(shù)c=2,γ=0.5。
圖1 5 折交叉驗證網格尋優(yōu)準確度熱力圖
圖2是根據(jù)最優(yōu)參數(shù)c=2,y=0.5 的5 折交叉驗證ROC 曲線和最優(yōu)參數(shù)訓練,得到支撐向量機的驗證ROC 曲線(模型預測)。這兩條ROC 曲線的下面積(AUC)分別用AUCCV、AUCMFP。一般地,由所有可用的正樣本POS 訓練而得的RBF-SVM 的分類性能,優(yōu)于部分正樣本訓練而得的RBF-SVM。所以,最終由全部正樣本訓練得到RBF-SVM 的真實分類性能在這兩個下面積之間,即:0.905 72(AUCCV)到0.995 53(AUCMFP)。
芥子油苷是擬南芥中的次代謝產物,富含氮、硫。芥子油苷是模式植物擬南芥與環(huán)境發(fā)生相互作用的媒介,是植物學研究的熱點[7-8]。另外,已證實,芥子油苷與擬南芥中的芥子降解酶發(fā)生相互作用時,生成異硫代氰酸鹽,該產物具有抗癌活性[9]。
圖2 5 折交叉驗證和PPI 預測模型的ROC 曲線
在模式植物擬南芥中,芥子油苷是一種次代謝產物,由氨基酸經過乙醛肟、氧化腈、酸式硝基化合物、脫硫芥子油苷等中間產物生成。其中,多種酶在此過程中起催化作用(細胞色素P450(CYS450)、P79(CYS79),谷胱甘肽轉移酶(G-ST),S-糖基轉移酶(SGT),磺基轉移酶(ST)等)。應用PPI 預測器構建擬南芥中芥子油苷合成途徑相關的PPI 網絡。
AtPIN 中的5697 個預測而得的蛋白質相互作用,所涉及的蛋白質結構域都存在于正樣本POS中;AtPIN 中的90043 個預測蛋白質相互作用不是高可信,且其數(shù)量巨大,若以該數(shù)據(jù)構建PPI 網絡將給研究擬南芥帶來很大的噪聲。將AtPIN 中的低可信的預測蛋白質相互作用標記出來,會有助于芥子油苷合成相關的蛋白質網絡相互作用的研究。
文獻[10]中列出了擬南芥中與芥子油苷合成相關的46 個基因?;贏tPIN 中的蛋白質相互作用,這46 個基因對應的蛋白質作為種子蛋白,來尋找新的與這46 個蛋白質相互作用的蛋白質。在At-PIN 中有4 個實驗證實的蛋白質相互作用,237 個預測相互作用。
圖3為該芥子油苷相關PPI 網絡,基于表1中列出的46 個種子蛋白質而構建的,該PPI 網絡的深度為1。
表1 芥子油苷合成相關的46 個基因
續(xù)(表1)
蛋白質結構域是不同蛋白質家族中結構保守區(qū)域。蛋白質相互作用是通過分子間的作用產生,而這種相互作用存在在蛋白質的特定的結構域中,因此,在結構域層面對蛋白質相互作用的理解,能夠加深對蛋白質功能的了解。使用結構域信息,預測芥子油苷相關的蛋白質相互作用并構建PPI 網絡。用對稱訓練方法解決蛋白質相互作用的對稱問題,即使用一對對稱的特征向量表示一對蛋白質的相互作用關系。特征向量基于從氨基酸序列中抽取的結構域和結構域相互作用信息構建。高斯徑向基核的降噪參數(shù)(c)和核寬參數(shù)(γ)由5 折交叉驗證的網格尋優(yōu)而得。使用ROC 曲線下面積來衡量RBF-SVM的預測性能。最優(yōu)RBF 為k(u,v)= exp(-0.5*‖u-v‖2),最佳降噪參數(shù)c=2。使用RBF-SVM 驗證了AtPIN 數(shù)據(jù)庫中的預測類蛋白質的可信度,并發(fā) 現(xiàn) 了 蛋 白 質 AGI,標 號 為 AT4G14800、AT5G54810、AT5G05730、AT4G18040、AT1G04510、AT5G05260 是相互作用的蛋白質對。目前,擬南芥中實驗證實的蛋白質相互作用的數(shù)量遠遠達不到研究所需,同時,在預測類的蛋白質相互作用數(shù)據(jù)中還含有未知數(shù)量的噪聲,因此,蛋白質相互作用的預測仍然是一大難題。
圖3 AtPIN 中芥子油苷合成相關的PPI 網絡
[1] Xuewen Chen,Mei Liu.Prediction of protein-protein interactions using random decision forest framework[J].Bioinformatics,2005,21(24):4394-4400.
[2] Xuewen Chen,Mei Liu.Domain-based predictive models for protein-protein interaction prediction[J].Eurasip Journal on Advances in Signal Process-ing,2006,2006:1-8.
[3] E R Jefferson,T P Walsh,G J Barton.Biological units and their effect upon the properties and prediction of Protein-Protein interactions[J].Journal of Molecular Biology,2006,364(5):1118-1129.
[4] Brand?o M M,Dantas L L,Silva-Filho M C.Atpin:Arabidopsis thaliana protein interaction net-work[J].BMC Bioinformatics,2009,10(1):454-458.
[5] Robert D F,John T,Jaina M,et al.The pfam protein families database[J].Nucleic Acids Research,2008,36:281-288.
[6] S Yellaboina,A Tasneem,D V Zaykin,et al.Domine:a comprehensive collection of known and predicted domain-domain interactions[J].Nucleic Acids Research,2011,39(1):730-735.
[7] Michael Reichelt,Paul D Brown,Bernd Schneider,et al.Benzoic acid glucosinolate esters and other glucosinolates from arabidopsis thaliana[J].Phytochemistry,2002,59(6):663-672.
[8] S J Tonsor,C Alonso-Blanco,M Koornneef.Gene function beyond the single trait:natural variation,gene effects,and evolutionary ecology in arabidopsis thaliana[J].Plant,Cell & Environment,2005,28(1):2-20.
[9] C Douglas Grubb,Steffen Abel.Glucosinolate metabolism and its control[J].Trends in Plant Science,2006,11(2):89-100.
[10] Yazhou Chen,Xiufeng Yan,Sixue Chen.Bioinformatic analysis of molecular network of glucosinolate biosynthesis[J].Computational Biology and Chemistry,2011,35(1):10-18.