姬廣超,王明輝,高會(huì)江,潘玉春*
(1.東北農(nóng)業(yè)大學(xué)動(dòng)物科學(xué)技術(shù)學(xué)院,哈爾濱 150030;2.上海交通大學(xué)農(nóng)業(yè)與生物學(xué)院,上海 200240;3.中國(guó)農(nóng)業(yè)科學(xué)院北京畜牧獸醫(yī)研究所,北京 100193)
金屬硫蛋白(Metallothionein,MT)是一種低分子質(zhì)量、富含半胱氨酸的金屬結(jié)合蛋白,于1957年由Margoshes和Vallee在馬腎皮質(zhì)中首先發(fā)現(xiàn)[1],隨后在人類、動(dòng)物、植物以及微生物中也被陸續(xù)發(fā)現(xiàn)。迄今為止,發(fā)現(xiàn)并確定了氨基酸序列的金屬硫蛋白超過200種。目前有四種金屬硫蛋白亞型在哺乳動(dòng)物中被發(fā)現(xiàn),分別為MT-1、MT-2、MT-3和MT-4。MT-1和MT-2在哺乳動(dòng)物所有細(xì)胞中都有表達(dá),肝臟中表達(dá)量最高;MT-3在腦中表達(dá),主要在谷氨酰胺能(Glutaminergic)神經(jīng)細(xì)胞中表達(dá),也有報(bào)道稱在胰臟和腸中有很低量表達(dá);MT-4在口腔上皮、食道、新生的皮膚等組織的復(fù)層鱗狀上皮細(xì)胞中表達(dá)[2-4]。
哺乳動(dòng)物金屬硫蛋白一般由61~68個(gè)氨基酸組成,含有保守的20個(gè)半胱氨酸殘基,三級(jí)結(jié)構(gòu)是由α和β兩個(gè)球狀的金屬結(jié)合結(jié)構(gòu)域組成,能夠有效地結(jié)合銅鋅等重金屬,具有維持微量元素的代謝平衡、重金屬解毒、影響細(xì)胞的增殖與凋亡、清除自由基及參與應(yīng)激反應(yīng)等重要的生物學(xué)功能[5-7]。對(duì)金屬硫蛋白的研究已約50年,傳統(tǒng)研究過多地集中于金屬硫蛋白的結(jié)構(gòu)和功能,而忽略了對(duì)其結(jié)構(gòu)和功能起決定作用的基因序列、代謝途徑和調(diào)控網(wǎng)絡(luò)等的研究。而這些序列中含有大量的生物信息,從中挖掘出重要的生物知識(shí),有利于為金屬硫蛋白的深入研究提供參考和指導(dǎo)。本研究利用哺乳動(dòng)物金屬硫蛋白的氨基酸序列及其編碼序列,通過對(duì)其選擇進(jìn)化和功能分歧進(jìn)行分析,有利于進(jìn)一步認(rèn)識(shí)金屬硫蛋白的生物學(xué)特性,有利于畜牧業(yè)中動(dòng)物營(yíng)養(yǎng)、飼養(yǎng)動(dòng)物抗應(yīng)激及轉(zhuǎn)基因動(dòng)物的研究與利用,有利于對(duì)人類疾病的研究和治療。
本研究利用已有的哺乳動(dòng)物金屬硫蛋白的氨基酸序列和對(duì)應(yīng)的編碼序列數(shù)據(jù)進(jìn)行研究,蛋白質(zhì)氨基酸序列來源于UniProt(http://www.uniprot.org/docs/metallo),對(duì)應(yīng)編碼序列來源于EMBL、GenBank和DDBJ數(shù)據(jù)庫(kù)。篩選保留氨基酸序列和對(duì)應(yīng)編碼序列都完整的數(shù)據(jù)。
1.2.1 序列比對(duì)與系統(tǒng)發(fā)生樹構(gòu)建
本研究使用Clustalx 1.83對(duì)氨基酸序列進(jìn)行比對(duì),然后使用MEGA 4.0.2通過NJ法來構(gòu)建系統(tǒng)發(fā)生樹,利用Bootstrap分析來確定不同內(nèi)部節(jié)點(diǎn)的可信度。如果Bootstrap值大于700/1 000,即認(rèn)為該內(nèi)部節(jié)點(diǎn)的拓?fù)浣Y(jié)構(gòu)具有合理的可信度[8]。
1.2.2 基于選擇壓力參數(shù)ω的選擇壓力分析
選擇壓力參數(shù)ω是編碼蛋白質(zhì)的核苷酸的非同義突變率與同義突變率的比值(dN/dS),可以用來衡量分子進(jìn)化受到選擇壓力的方向和量度。ω<1、ω=1和ω>1分別表示負(fù)選擇(純化選擇)、中性進(jìn)化和正選擇。
使用PAML 4.3a軟件包中的Codeml程序,選用位點(diǎn)模型(Site models)和枝位點(diǎn)模型(Branchsite models)對(duì)編碼序列數(shù)據(jù)進(jìn)行選擇壓力分析[9]。
位點(diǎn)模型考慮了不同位點(diǎn)進(jìn)化速率不同的情況,采用三對(duì)統(tǒng)計(jì)模型M0 vs.M3、M1a vs.M2a和M7 vs.M8來檢驗(yàn)是否存在正選擇位點(diǎn)。M0是單一速率模型,假設(shè)不同位點(diǎn)進(jìn)化速率是相同的。M3是離散模型,p0、p1和p2分別表示純化選擇、中性選擇和正選擇的比例;對(duì)應(yīng)的ω分別為ω0、ω1和ω2。M1a是中性選擇模型,該模型假設(shè)存在一部分保守位點(diǎn)(ω<1),在序列中所占比例為p0,而中性選擇位點(diǎn)(ω1=1)所占比例為p1=1-p0。M2a是正選擇模型,在中性選擇模型中加入正選擇位點(diǎn)的比例為p2=1-p1-p0,并且可以從數(shù)據(jù)中對(duì)ω2進(jìn)行估算。模型M7是一種Beta分布模型,該模型假設(shè)ω值在0與1之間。M8模型則是一種Beta分布加ω分布的模型,該模型假設(shè)一部分位點(diǎn)的ω>1。兩個(gè)模型中哪個(gè)模型更適合是通過似然比檢驗(yàn)(LRT)來評(píng)估的,發(fā)生正選擇的氨基酸位點(diǎn)是通過PAML中的Bayesian方法計(jì)算得到的。
枝位點(diǎn)模型同時(shí)考慮不同枝以及不同位點(diǎn)進(jìn)化速率的不同,將所有枝分為兩類:前景枝(Foreground branch)和背景枝(Background branch)。當(dāng)假設(shè)某位點(diǎn)在前景枝(待測(cè)枝)與在背景枝上進(jìn)化的ω值不同時(shí),可以將所有位點(diǎn)分為四類:第一類位點(diǎn)背景枝和前景枝上的ω值均為0<ω0<1;第二類位點(diǎn)背景枝和前景枝上的ω值為ω1=1;第三類和第四類位點(diǎn)背景枝上的ω值分別為0<ω0<1和ω1=1,而前景枝上的ω值均為ω2≥1。前兩類位點(diǎn)在兩種枝上的ω值不發(fā)生變化,表明該位點(diǎn)在整個(gè)進(jìn)化過程中受到恒定的選擇作用。后兩類位點(diǎn)在背景枝上分別為負(fù)選擇和中性選擇,而在前景枝上受到正選擇作用。基于這種假設(shè),采用兩對(duì)統(tǒng)計(jì)模型MA vs.M1a、MA vs.MA1來進(jìn)行檢驗(yàn)。MA是枝位點(diǎn)的正選擇模型,表示存在第三類及第四類正選擇位點(diǎn),與中性模型M1a比較進(jìn)行似然比檢驗(yàn)。如果似然比檢驗(yàn)顯著則需要采用MA vs.MA1來進(jìn)一步檢驗(yàn)正選擇,其中MA1模型是將ω2=1作零假設(shè)條件的模型。發(fā)生正選擇的氨基酸位點(diǎn)同樣采用Bayesian方法計(jì)算得到的。
1.2.3 基于功能分歧系數(shù)(Coefficient of functional divergence)θ的進(jìn)化分析
使用Diverge 2.0結(jié)合前面構(gòu)建好的系統(tǒng)發(fā)生樹對(duì)氨基酸序列數(shù)據(jù)進(jìn)行功能分歧分析。
Ⅰ型功能分歧導(dǎo)致了功能限制的改變,與基因復(fù)制之后基因成員進(jìn)化速率的改變高度相關(guān)。Ⅰ型功能分歧系數(shù)θⅠ如下計(jì)算:
其中,λ1與λ2分別為基因經(jīng)過一次復(fù)制之后產(chǎn)生的兩個(gè)基因成員的進(jìn)化速率。θⅠ從0到1之間變化,反應(yīng)了兩個(gè)基因成員之間功能分歧由弱到強(qiáng)的程度[10]。
Ⅱ型功能分歧并沒有導(dǎo)致基因復(fù)制之后成員之間的功能限制改變,但是氨基酸殘基的理化性質(zhì)發(fā)生了改變[11-12]。Ⅱ型功能分歧系數(shù)θⅡ,與Ⅰ型功能分歧系數(shù)θⅠ的關(guān)系如下式:
其中,π0是功能限制系數(shù)(Coefficient of functional constraint)[11]。
通過功能分歧分析,研究基因成員之間是否發(fā)生功能分歧,以及檢測(cè)影響基因成員之間功能分歧的重要氨基酸位點(diǎn)。
通過篩選,本研究共獲得了15種哺乳動(dòng)物43條金屬硫蛋白氨基酸序列及其對(duì)應(yīng)編碼序列。其中MT1G_HUMAN,數(shù)據(jù)庫(kù)給出了兩條氨基酸序列,分別命名為MT1G1_HUMAN和MT1G2_HUMAN。序列比對(duì)結(jié)果見圖1??梢园l(fā)現(xiàn)半胱氨酸十分保守,其次是賴氨酸也比較保守。
本研究利用啤酒酵母CUP1的氨基酸序列作為外群來構(gòu)建系統(tǒng)發(fā)生樹。建樹結(jié)果如圖2所示。由系統(tǒng)發(fā)生樹可見,哺乳動(dòng)物MT基因在進(jìn)化歷史中至少經(jīng)歷了3次基因復(fù)制,產(chǎn)生了四種分化,但是其中MT1和MT2分化比較復(fù)雜,并沒有明顯地完全區(qū)分開來。可以看到,哺乳動(dòng)物MT基因有三個(gè)明顯的進(jìn)化枝,MT1和MT2聚到了一起,Bootstrap值為87%(>70%),這也與已知二者的結(jié)構(gòu)與分布相似一致。而MT3和MT4也分別獨(dú)自聚在一起,Bootstrap值分別為97%和100%。每個(gè)進(jìn)化枝都有較高的可信度。
選擇壓力分析是利用MT的編碼序列(和氨基酸序列比對(duì)相對(duì)應(yīng)),使用PAML軟件進(jìn)行分析。
2.2.1 位點(diǎn)模型
選用三對(duì)模型來進(jìn)行正選擇分析,結(jié)果見表1。位點(diǎn)模型結(jié)果中,M3模型優(yōu)于M0模型,表示不同的枝有不同速率更符合事實(shí),單一的ω值不能很好地描述不同氨基酸位點(diǎn)的選擇壓力變化。但是M2a模型不優(yōu)于M1a模型、M8模型不優(yōu)于M7模型,表示位點(diǎn)模型在哺乳動(dòng)物MT基因整體進(jìn)化中沒有檢測(cè)出正選擇。并且,位點(diǎn)模型也沒有檢測(cè)出正選擇氨基酸位點(diǎn)。M2a模型并不優(yōu)于M1a模型,可以認(rèn)為M1a模型更適合描述MT基因的選擇進(jìn)化,表明MT基因經(jīng)歷著中性或純化選擇。從表2中M1a模型的參數(shù)估計(jì)ω0=0.03719(純化選擇)的比例p0為0.68322、ω1=1(中性選擇)的比例p1為0.31678可以看出,MT基因經(jīng)歷純化選擇的比例較高。
圖1 氨基酸序列比對(duì)結(jié)果(Clustalx1.83)Fig.1 Consequences of amino acid alignment(Clustalx1.83)
圖2 以啤酒酵母CUP1氨基酸序列為外群構(gòu)建的哺乳動(dòng)物MT基因(氨基酸序列)的系統(tǒng)發(fā)生樹Fig.2 Phylogenetic tree of MT gene in mammalian
表1 位點(diǎn)模型似然比結(jié)果Table 1 Results of likelihood ratio test for site model
表2 M1a模型參數(shù)Table 2 Parameters results of model 1a
2.2.2 枝位點(diǎn)模型
枝位點(diǎn)模型的結(jié)果見表3、4。枝位點(diǎn)模型同時(shí)考慮了不同枝以及不同位點(diǎn)進(jìn)化速率的不同,對(duì)于MT1&2和MT4基因,MA模型優(yōu)于M1a模型,可以認(rèn)為1&2基因與哺乳動(dòng)物MT基因整體的進(jìn)化速率及位點(diǎn)的進(jìn)化速率并不相同,且檢測(cè)出正選擇氨基酸位點(diǎn)17K;MT4基因同樣如此,且檢測(cè)出正選擇氨基酸位點(diǎn)4G、6T。進(jìn)一步分析發(fā)現(xiàn),針對(duì)于MT1&2基因,MA模型不優(yōu)于MA1模型,表明其在進(jìn)化中不存在正選擇,這從MA模型估計(jì)前景枝(MT1&2基因)的第三類及第四類位點(diǎn)的選擇壓力參數(shù)ω2a與ω2b都為1就可以看出來。而針對(duì)于MT4基因,MA模型優(yōu)于MA1模型,表明MT4基因的正選擇結(jié)果可靠。對(duì)于MT3基因,MA模型并不優(yōu)于M1a模型,表示M1a模型更適合描述MT3基因的選擇進(jìn)化,但檢測(cè)出了正選擇氨基酸位點(diǎn)51P,這可能是由于計(jì)算整個(gè)MT3基因的參數(shù)時(shí)湮沒了單個(gè)氨基酸的正選擇信息。PAML檢測(cè)出來的正選擇氨基酸位點(diǎn)順序是氨基酸比對(duì)結(jié)果剔除所有有空位列之后的位點(diǎn)順序,4 G、6 T、17 K、51 P分別對(duì)應(yīng)未剔除有空位列的比對(duì)結(jié)果的位置為4、7、22、70。
表3 枝位點(diǎn)模型似然比檢驗(yàn)結(jié)果Table 3 Results of likelihood ratio test for branch-site model
表4 枝位點(diǎn)模型MA模型參數(shù)Table 4 MA parameters results of branch-site model
使用DIVERGE2.0軟件,利用比對(duì)的氨基酸序列進(jìn)行功能分歧分析。根據(jù)前面所構(gòu)建的系統(tǒng)發(fā)生樹,其中MT1和MT2成一個(gè)組(Cluster),命名為MT1&2;MT3和MT4分別成一個(gè)組,分別命名為MT3與MT4(其中MT4基因只有3個(gè)樣本,Diverge2.0軟件不能把其作為一個(gè)組,所以MT4基因各取一個(gè)重復(fù)變?yōu)?個(gè)樣本成一個(gè)組,這樣并不改變?cè)摻M基因的進(jìn)化速率,不會(huì)影響基于進(jìn)化速率相關(guān)的功能分歧系數(shù))。結(jié)果如表5、6所示。由表5、6可見,每?jī)蓚€(gè)組之間都存在著明顯的Ⅰ型功能分歧。MT1&2其中與MT3之間的Ⅰ型功能分歧達(dá)到顯著水平,但是并沒有檢測(cè)到顯著的位點(diǎn),這可能是由于檢測(cè)功能分歧位點(diǎn)的閾值設(shè)定太高而造成的。MT1&2與MT4之間也有較高的Ⅰ型功能分歧,且達(dá)到顯著水平,并檢測(cè)到它們的氨基酸第7和第49位置存在顯著的Ⅰ型功能分歧。MT3與MT4之間的Ⅰ型功能分歧系數(shù)最大,其P值為0.07,并沒有達(dá)到0.05的顯著水平,但檢測(cè)到它們的氨基酸第4、7、16、18、49位置存在顯著的Ⅰ型功能分歧。
表5 Ⅰ型功能分歧分析結(jié)果Table 5 Results of typeⅠfunctional divergence
表6 Ⅱ型功能分歧分析結(jié)果Table 6 Results of typeⅡfunctional divergence
對(duì)每?jī)蓚€(gè)組進(jìn)行Ⅱ型功能分歧研究,任意兩個(gè)組之間的Ⅱ型功能分歧系數(shù)都比較小,雖然DIVERGER軟件并沒有給出顯著性檢驗(yàn),但是可以看出它們的標(biāo)準(zhǔn)差都相對(duì)較大。MT1&2與MT3兩個(gè)組之間可以檢測(cè)出第49和第50位置存在顯著的Ⅱ型功能分歧。
進(jìn)化歷史中,基因的復(fù)制過程產(chǎn)生遺傳變異,導(dǎo)致了功能分歧,隨后純化選擇將功能固定下來。少數(shù)位點(diǎn)甚至單個(gè)位點(diǎn)的氨基酸替換都有可能導(dǎo)致蛋白質(zhì)功能的改變,而整個(gè)基因的大多數(shù)位點(diǎn)都處于純化選擇或中性選擇的進(jìn)化狀態(tài),因此少數(shù)位點(diǎn)的正選擇信息會(huì)被其他大多數(shù)位點(diǎn)稀釋,可能會(huì)導(dǎo)致正選擇信息被整體湮沒?;趨?shù)ω的選擇壓力分析能檢測(cè)較短進(jìn)化時(shí)間的選擇作用,較長(zhǎng)進(jìn)化時(shí)間的選擇作用由于整體湮沒的原因而不能獲得較理想的信息,而功能分歧能夠很好地克服這一問題,可以檢測(cè)較長(zhǎng)進(jìn)化時(shí)間的選擇作用。另外,正選擇的氨基酸位點(diǎn)是否顯著的臨界值是由人為制定的,存在一定的不確定性,有一定概率漏掉某些同樣有重要作用的氨基酸位點(diǎn)。
本研究對(duì)哺乳動(dòng)物MT基因的進(jìn)化歷史以及進(jìn)化中受到選擇的作用以及功能分歧進(jìn)行了分析。系統(tǒng)發(fā)生樹構(gòu)建結(jié)果表明基因復(fù)制使哺乳動(dòng)物MT基因形成了三個(gè)明顯的進(jìn)化枝,MT1&2、MT3和MT4,這與已有知識(shí)相符合,哺乳動(dòng)物MT1與MT2基因結(jié)構(gòu)與分布十分相似,構(gòu)建系統(tǒng)發(fā)生樹時(shí)不能各自獨(dú)立成為一枝。其中MT4基因只在狗、小鼠、和人類中發(fā)現(xiàn),暗示了三個(gè)物種有著更近的親緣關(guān)系。選擇壓力分析的結(jié)果表明,哺乳動(dòng)物MT基因在進(jìn)化中主要受到純化選擇以及中性選擇,在進(jìn)化中的這種高度保守,也暗示了其在哺乳動(dòng)物中具有重要的生物學(xué)功能。枝位點(diǎn)模型中檢測(cè)出了4個(gè)受到正選擇的氨基酸位點(diǎn),這為進(jìn)一步研究不同MT基因不同功能提供了參考。功能分歧分析的結(jié)果表明,哺乳動(dòng)物MT基因存在明顯的功能分歧,可以推斷其在進(jìn)化歷史中曾經(jīng)受到過正選擇。而且可以看到,Ⅰ型功能分歧起主要作用。本研究也檢測(cè)到5個(gè)Ⅰ型功能分歧顯著的位點(diǎn)(其中第4、7位置在枝位點(diǎn)模型中也檢測(cè)出正選擇)和2個(gè)Ⅱ型功能分歧顯著的位點(diǎn)。
選擇進(jìn)化與功能分歧研究從整體上了解了哺乳動(dòng)物MT基因的進(jìn)化歷史及在進(jìn)化過程中受到的選擇作用,同時(shí)也檢測(cè)出對(duì)不同MT基因不同功能有重要作用的關(guān)鍵位點(diǎn),便于進(jìn)一步研究其結(jié)構(gòu)與功能,從而為將MT基因作為轉(zhuǎn)基因動(dòng)物的候選基因提供理論參考及依據(jù),為MT基因在畜牧業(yè)中的應(yīng)用以及人類對(duì)疾病的研究和治療提供幫助。
[1] Margoshes M,Vallee B L.A cadmium protein from equine kidney cortex[J].Journal of the American Chemical Society,1957,79(17):4813-4814.
[2] Quaife C J,Findley S D,Erickson J C,et al.Induction of a new metallothionein isoform(Mt-Iv)occurs during differentiation of stratified squamous epithelia[J].Biochemistry,1994,33(23):7250-7259.
[3] EbadiM,IversenPL,HaoR,etal.Expressionandregulationofbrain metallothionein[J].NeurochemistryInternational,1995,27(1):1-22.
[4] Haq F,Mahoney M,Koropatnick J.Signaling events for metallothionein induction[J].Mutation Research-Fundamental and Molecular Mechanisms of Mutagenesis,2003,533(1/2):211-226.
[5] Miles A T,Hawksworth G M,Beattie J H,et al.Induction,regulation,degradation,andbiologicalsignificanceofmammalianmetallothioneins[J].CriticalReviewsinBiochemistryandMolecularBiology,2000,35(1):35-70.
[6] 韓新燕,許梓榮.哺乳動(dòng)物金屬硫蛋白的研究進(jìn)展[J].中國(guó)獸醫(yī)科技,2003,33(11):28-32.
[7] 楊曉勃,王建庭.哺乳動(dòng)物金屬硫蛋白的研究概述[J].畜牧與飼料科學(xué),2009(4):134-136.
[8] Brown T A.基因組[M].袁建剛等譯.北京:科學(xué)出版社,2002.
[9] Yang Z.Paml 4:Phylogenetic analysis by maximum likelihood[J].Molecular Biology and Evolution,2007,24(8):1586-1591.
[10] Gu X.Statistical methods for testing functional divergence after gene duplication[J].Molecular Biology and Evolution,1999,16(12):1664-1674.
[11] Gu X.Maximum-likelihood approach for gene family evolution under functional divergence[J].Molecular Biology and Evolution,2001,18(4):453-464.
[12] Gu X.A simple statistical method for estimating type-Ii(clusterspecific)functional divergence of protein sequences[J].Molecular Biology and Evolution,2006,23(10):1937-1945.