宋興超,孟金柱,趙園園,吳震洋,安清明
(銅仁學院農(nóng)林工程與規(guī)劃學院貴州省梵凈山地區(qū)生物多樣性保護與利用重點實驗室,貴州 銅仁 554300)
脊椎動物生長激素(growth hormone,GH)由脊椎動物腦垂體前葉嗜酸性細胞合成和分泌,它和催乳素(prolactin,PRL)及胎盤催乳素(placental lactogen,PL)屬同一個基因家族,是與脊椎動物生長發(fā)育關(guān)系最為密切的一種單鏈多肽類激素[1]。GH的主要生物學功能是促進蛋白質(zhì)和核酸的合成[2],參與脂肪分解和葡萄糖吸收[3],加速脊椎動物骨骼和肌肉的生長發(fā)育[4]等。此外,GH 基因是一種寶貴的基因資源,在轉(zhuǎn)基因畜禽品種培育和生長激素制劑開發(fā)等方面具有重要的應用價值。迄今為止,國內(nèi)外對該基因的研究主要集中于馬鹿[5]、梅花鹿[6,7]、狐貍[8]、山羊[9,10]和家兔[11,12]等哺乳動物與雞[13]、鴨[14]等禽類以及魚類[15,16]GH 基因的克隆及其變異位點與重要經(jīng)濟性狀的相關(guān)性等方面。隨著基因組學大數(shù)據(jù)的逐漸更新,美國國立生物技術(shù)信息中心(National Center for Biotechnology Information,NCBI)的GenBank 數(shù)據(jù)庫中也集中收錄了大量物種GH 基因相關(guān)DNA 或mRNA 序列,然而,在分子水平上對生長性狀相關(guān)基因的研究還相對薄弱,遠遠滿足不了當今組學時代研究基因?qū)ιL性能影響機制的需要,同時也較少有研究者從比較基因組學角度探究不同物種GH 基因的變異及遺傳多樣性。為此,本研究選取GenBank公共數(shù)據(jù)庫中已報道的馬鹿等21 個物種的GH基因完整編碼區(qū)序列(codingregionsequence,CDS),利用比較基因組學和生物信息學結(jié)合的方法分析了不同物種間和物種內(nèi)GH 基因的遺傳多樣性,旨在探明該基因在不同物種種間和種內(nèi)的遺傳變異及分化特征,為進一步研究其調(diào)控動物生長、發(fā)育和分化等方面的分子遺傳學機制提供基礎(chǔ)資料,同時也為探尋調(diào)控鹿科動物特殊經(jīng)濟性狀的重要候選基因以及馬鹿的分子育種工作的深入開展奠定科學依據(jù)。
從美國國立生物技術(shù)信息中心(http://www.ncbi.nlm.nih.gov/)的GenBank 公共數(shù)據(jù)庫中查詢并下載馬鹿等21 個物種的150 條GH 基因CDS 序列(表1)。
表1 不同物種GH 基因序列信息Table 1 The information of sequences for GH genes in different species
續(xù)表
首先,利用BioEdit軟件(Version 3.3.19.0)的Clustal W 方法對選取的150 條序列的完整編碼區(qū)進行多重比對,運用DnaSP(Version 4.0.10.4)軟件對比對結(jié)果進行遺傳變異及多樣性分析,包括多態(tài)位點(S)、單一多態(tài)位點(SP)和簡約多態(tài)位點(PIP)等參數(shù),進一步生成單倍型,計算物種間核苷酸歧異度(Dxy)、凈遺傳距離(Da)、同義替換位點數(shù)(SS)、非同義替換位點數(shù)(NSS)以及密碼子有效值(ENC)和偏愛指標(CBI)。其次,采用MEGA 5.05 軟件的UPGMA 方法進行物種間聚類,分析物種間親緣關(guān)系的遠近。然后利用Prot-Param、SignalP[17]等相關(guān)在線軟件預測不同物種GH基因核苷酸及編碼氨基酸序列結(jié)構(gòu)特征。最后基于PHD 和SWISS-MODEL 同源建模的方法進行馬鹿GH 蛋白二級與三維結(jié)構(gòu)分析。
2.1.1 多態(tài)位點、單倍型和多樣性分析 在所研究的共有片段為576 bp 的不同物種150 條序列中,共發(fā)現(xiàn)426 個多態(tài)位點,其百分率約為63.68%,包括單一多態(tài)位點(S)43 個,占6.43%,簡約多態(tài)位點(PIP)383個,百分率為57.25%。21 個物種的GH 基因序列共生成92 種單倍型,單倍型多樣性(Hd)為0.985,平均核苷酸差異數(shù)目(K)為89.10,核苷酸多樣性()為0.1547。不同物種內(nèi)的多態(tài)位點數(shù)和單倍型數(shù)不一致表明GH基因在種群間存在遺傳變異(表2)。其中,山羊和原雞GH 基因的多態(tài)位點數(shù)較多,說明這兩個物種的GH基因多態(tài)性比較豐富。GH 基因在狨多態(tài)位點數(shù)為0,僅生成1 種單倍型,初步表明GH 基因編碼區(qū)核苷酸多態(tài)性在物種間比在物種內(nèi)豐富,也可能與該物種樣本含量較少有關(guān),有待進一步研究證實。獼猴GH 基因的多態(tài)位點、平均核苷酸差異數(shù)目最多,核苷酸多樣性也最高,經(jīng)查閱獼猴GH 基因序列(GenBank 登錄號:U02293)為GH 基因的一種變異體,利用BioEdit軟件多重比對后發(fā)現(xiàn)該序列變異位點很多,這可能是導致獼猴核苷酸多樣性最高的直接原因。
表2 不同物種GH 基因序列多態(tài)信息、單倍型及遺傳多樣性Table 2 Polymorphic information,haplotype and variety of GH gene in different species
續(xù)表
2.1.2 核苷酸歧異度、凈遺傳距離和遺傳分化 各物種間凈遺傳距離(Da)在0.004~0.474 之間,核苷酸歧異度(Dxy)在0.013~0.485 范圍(表3)。不同物種間凈遺傳距離和核苷酸歧異度的變化范圍均較大,說明不同物種之間的遺傳分化比較明顯。其中,綿羊和山羊之間的凈遺傳距離和核苷酸歧異度最小,表明綿羊和山羊之間的親緣關(guān)系在所分析的16 個物種間最近;Da的最大值出現(xiàn)在人、狨與草魚之間,而獼猴和草魚之間的Dxy 值最大,說明人、狨、獼猴與草魚間的親緣關(guān)系最遠,初步推測人、狨與草魚的GH 基因在進化過程中的遺傳分化較大。
表3 不同物種間凈遺傳距離(Da)和核苷酸歧異度(Dxy)Table 3 Net genetic distance and nucleotide divergence in different species
根據(jù)不同物種間的遺傳分化指數(shù)(Gst),利用MEGA 5.05 軟件的未加權(quán)配對組(UnweightedPairGroupMethod with Arithmetic mean,UPGMA)方法構(gòu)建16 個物種GH 基因的分子聚類圖(圖1)。由圖1可知,綿羊與山羊的親緣關(guān)系較近,草魚與其他物種間的親緣關(guān)系最遠,這與NCBI 中公布的動物形態(tài)、生理分類學結(jié)果基本相符。
圖1 根據(jù)16 個物種GH 基因的遺傳分化指數(shù)構(gòu)建的分子聚類圖Fig.1 Phylogenetic tree based on genetic differentiation of GH gene of 16 different species
2.1.3 編碼區(qū)核苷酸序列長度及終止密碼子的差異 由表1可知,不同物種GH 基因完整編碼區(qū)序列長度為633~654 bp,大多數(shù)物種GH 基因CDS 長654 bp,家馬、家犬、家貓、水貂、小家鼠、褐家鼠、原雞、火雞、鵪鶉、野鴨和鵝GH 基因CDS 為651 bp,草魚和斑馬魚為633 bp。終止密碼子TAG 普遍用于馬鹿、綿羊等哺乳動物及草魚、斑馬魚等魚類,鳥類中原雞、鵪鶉、野鴨和鵝采用TGA 作為GH 基因的終止密碼子。
2.2.1 密碼子偏愛性 本研究選取的各個物種GH基因序列編碼區(qū)密碼子有效值(Effective Number of Codon,ENC)為42.056(<61),密碼子偏愛指標(Codon Bias Index,CBI)為0.566(>0),經(jīng)過卡方檢驗并計算未校正的2 值為0.702,說明GH 基因?qū)γ艽a子有較強的偏愛性。
2.2.2 同義替換和非同義替換 不同物種的150 條GH基因序列編碼區(qū)中同義替換平均位點數(shù)為133.73,核苷酸多樣性均值為0.310 2,非同義替換平均位點數(shù)為418.27,核苷酸多樣性均值為0.099 8。含有兩條序列以上物種的同義替換位點數(shù)(Synonymous site,SS)為140.42~158.70,非同義替換位點數(shù)(Non-synonymous site,NSS)為478.25~489.28。本研究結(jié)果表明,所選物種GH 基因的同義替換位點數(shù)明顯低于非同義替換位點數(shù),說明所分析的這些不同物種在進化過程中可能受到正選擇的影響。獼猴的非同義替換位點數(shù)較其他物種多,初步表明獼猴GH 基因編碼區(qū)的非同義替換較其他物種高。
表4 不同物種GH 基因同義替換和非同義替換位點數(shù)Table 4 Synonymous and nonsynonymous substitution of GH gene among different species
2.2.3 不同物種GH 基因編碼氨基酸序列理化特性分析 利用在線工具ProtParam(http://web.expasy.org/protparam/)和SignalP 4.0(http://www.cbs.dtu.dk/services/SignalP/)分別預測不同物種GH 蛋白的理化特性及信號肽裂解位點(表5)。結(jié)果表明,21 個不同物種GH 基因編碼的氨基酸序列長度為210~217 aa,相對分子質(zhì)量為23 653.23~24 959.61 Da,大多數(shù)物種的理論等電點在7.00 以下(馬鹿、綿羊、山羊、牛、火雞和鵪鶉除外),為一種酸性蛋白,不穩(wěn)定系數(shù)和親水性值分別為29.81~53.44 與(-0.286)~(-0.080),推斷大多數(shù)物種GH 蛋白屬親水性不穩(wěn)定蛋白質(zhì)。GH 蛋白在N 端存在一段信號肽,不同物種信號肽的長度及裂解位點稍有差異,但親緣關(guān)系較近的物種裂解位點大致相同。
表5 不同物種GH 基因編碼氨基酸序列理化特性參數(shù)及信號肽裂解位點Table 5 Physicochemical characteristic parameters and cleavage sites of GH amino acid in different species
根據(jù)PHD(http://npsa-pbil.ibcp.fr)方法預測馬鹿GH 蛋白二級結(jié)構(gòu),由圖2可知,馬鹿GH 蛋白具有生長激素特征性的5 個螺旋區(qū)(圖中下劃線所示:H1~H5)。二級結(jié)構(gòu)主要為-螺旋(67.74%),其次是無規(guī)則卷曲(32.26%),它將5 個-螺旋區(qū)連接起來。
圖2 馬鹿GH 蛋白二級結(jié)構(gòu)Fig.2 Secondary structure prediction of the GH protein in Cervus elaphus
為精確揭示馬鹿GH 蛋白的高級結(jié)構(gòu),本研究采用SWISS-MODEL 同源建模方法構(gòu)建了馬鹿GH 蛋白的三維結(jié)構(gòu)模型。將馬鹿GH 蛋白(GenBank 登錄號:CAJ18232)進行模板比對,發(fā)現(xiàn)該蛋白28~216 位氨基酸與人Growth Hormone Prolactin 1~186 位氨基酸同源性達到64%,利用SPDBV 軟件顯示(圖3),初步表明馬鹿GH 蛋白的三級結(jié)構(gòu)與其他物種相似,28~216 位氨基酸包括4 個反向平行的-螺旋,推測與GH 蛋白功能相關(guān)的位點主要集中在這4 個螺旋中,反向平行的空間結(jié)構(gòu)更有利于疏水基團暴露于蛋白空間結(jié)構(gòu)的外側(cè),有利于功能的發(fā)揮。
圖3 馬鹿生長激素(GH)蛋白三級結(jié)構(gòu)Fig.3 Tertiary structure of GH protein in Cervus elaphus
從本研究所分析物種GH 基因核苷酸序列多態(tài)信息、單倍型及其多樣性等參數(shù)可以看出不同物種的相關(guān)遺傳變異參數(shù)存在較大差異,初步表明GH 基因存在種間遺傳變異,種內(nèi)相對保守,即種間遺傳多樣性較種內(nèi)豐富。研究顯示,GH基因在狨中僅生成1 種單倍型,分析認為,除了GH 基因在種內(nèi)比較保守外,還可能與該物種樣本量較少有關(guān)。本研究結(jié)果還表明,不同物種間的核苷酸歧異度、凈遺傳距離均較大,這說明不同物種間的遺傳分化已經(jīng)十分明顯。山羊和綿羊以及山羊和牛間的核苷酸歧異度最小,表明其親緣關(guān)系很近;草魚和獼猴間的核苷酸歧異度最大,表明二者間的親緣關(guān)系最遠。從16 個物種的150 條GH 基因序列構(gòu)建的聚類圖也可看到,山羊和綿羊之間的親緣關(guān)系最近,而斑馬魚、草魚和其他物種間具有較遠的親緣關(guān)系。上述結(jié)果與NCBI 中動物分類學基本一致。
本研究結(jié)果表明,生長激素GH 多肽鏈表現(xiàn)為親水性,理論等電點除馬鹿、山羊、綿羊、牛、火雞和鵪鶉外,其他物種均小于7.00,表現(xiàn)為酸性蛋白質(zhì),等電點高于7.00 的物種尚需進一步的生化試驗進行驗證。通過ProtParam 分析不同物種GH 蛋白發(fā)現(xiàn)其不穩(wěn)定系數(shù)在29.81~53.44,軟件分析得出大多數(shù)物種GH蛋白不穩(wěn)定(計算指數(shù)<40:穩(wěn)定,計算指數(shù)>40:不穩(wěn)定)。對21 個物種的GH 蛋白信號肽分析結(jié)果表明,這些物種的GH 蛋白都有一段約26 個氨基酸的信號肽,但親緣關(guān)系較近的物種裂解位點基本一致,可以推斷該基因在游離的核糖體上起始合成后再進行蛋白轉(zhuǎn)運從而發(fā)揮作用。蛋白質(zhì)在翻譯過程中,物種間或物種內(nèi)的不同基因在密碼子的使用上一般都有明顯的偏愛性[18],本研究也得出GH 基因?qū)γ艽a子具有較強的偏愛性。蛋白質(zhì)在翻譯過程中某些堿基會發(fā)生一定程度的替換,包括同義替換和非同義替換。同義替換現(xiàn)象的發(fā)生大多不受自然選擇的控制,同義替換速率遠遠高于非同義替換速率,且這種現(xiàn)象發(fā)生的速率與基因密切相關(guān),被認為是凈化選擇的結(jié)果。而在某些基因中,非同義替換速率則遠遠高于同義替換速率,前人分析在于達爾文正向選擇[19]。本研究結(jié)果顯示,所分析物種GH 基因的非同義替換位點數(shù)明顯高于同義提換位點數(shù),初步表明,所分析16 個物種在進化過程中很大程度上可能受到達爾文正向選擇的影響。利用DnaSP軟件分析發(fā)現(xiàn),狨GH 基因中非同義替換位點數(shù)為488.33,明顯多于其他物種,表明狨GH 基因編碼區(qū)的非同義替換較其他物種更為明顯,其原因尚待進一步深入分析。
蛋白質(zhì)結(jié)構(gòu)、功能及其關(guān)系的分析是蛋白質(zhì)組學研究中的一個重要組成部分。通過分析未知功能或新發(fā)現(xiàn)蛋白質(zhì)的結(jié)構(gòu),確認其功能單位或結(jié)構(gòu)域,可以為遺傳操作提供目標,為設計新的蛋白質(zhì)或改造已有蛋白質(zhì)提供可靠的依據(jù),為預測新基因的結(jié)構(gòu)和功能提供參照[20]。本研究預測馬鹿GH 蛋白二級結(jié)構(gòu)的方法為PHD,主要以-螺旋和無規(guī)則卷曲為主,-螺旋通常是脊椎動物的高度保守序列,而無規(guī)卷曲則將-螺旋連接起來,這與王磊等利用Jpred 3 在線軟件預測牦牛[21]和汪艷宏[22]采用DNAman 軟件分析赤鱗魚GH 蛋白二級結(jié)構(gòu)基本一致。說明馬鹿GH 基因編碼氨基酸序列具有生長激素典型的螺旋結(jié)構(gòu)。蛋白質(zhì)三級結(jié)構(gòu)的預測和分析,對理解蛋白質(zhì)結(jié)構(gòu)和功能之間的關(guān)系有著極其重要的意義。本研究通過SWISS-MODEL同源建模方法構(gòu)建了馬鹿GH 蛋白的三級結(jié)構(gòu),馬鹿GH 蛋白與其他物種的空間結(jié)構(gòu)相似,均形成4 個反向平行的生長激素特征性螺旋結(jié)構(gòu)模式,從側(cè)面更好地詮釋了GH 蛋白功能位點。
本研究基于比較基因組學和生物信息學方法分析發(fā)現(xiàn)GH 基因在21 個物種間的遺傳多樣性比較豐富,種內(nèi)相對保守;山羊和綿羊之間的親緣關(guān)系最近,斑馬魚、草魚和其他物種間具有較遠的親緣關(guān)系;GH蛋白屬不穩(wěn)定酸性蛋白,均存在1 個信號肽且親緣關(guān)系較近的物種具有相似的裂解位點;馬鹿GH 蛋白三級結(jié)構(gòu)存在4 個反向平行的互補螺旋。本研究結(jié)果可為進一步研究GH 基因功能及其應用奠定理論基礎(chǔ)。