摘要:利用生物信息學方法分析了小家鼠(Mus musculus)、褐家鼠(Rattus norvegicus)、人(Homo sapiens)、黑猩猩(Pan troglodytes)、大猩猩(Gorilla)、倭黑猩猩(Pan paniscus)、猿(Nomascus leucogenys)、狨(Callithrix jacchus)、亞馬遜松鼠猴(Saimiri boliviensis)、家馬(Equus caballus)、小耳大嬰猴(Otolemur garnettii)、家貓(Felis catus)、東非狒狒(Papio Anubis)、獼猴(Macaca mulatta)、犬(Cains lapus)、野豬(Sus scrofa)、大熊貓(Ailuropoda melanoleuca)等17個物種GATA-2基因編碼序列(Coding sequence,CDS),并對該基因的遺傳多樣性、信號肽、導肽、跨膜結構域、疏水性/親水性、蛋白質(zhì)二級結構、氨基酸序列進行了分析和預測。結果表明,在17個物種52條基因序列中共檢測到344個多態(tài)位點,有25種單倍型,GATA-2 基因序列編碼區(qū)的種內(nèi)、種間存在豐富的遺傳多樣性。GATA-2蛋白N端無信號肽,不具有導肽,沒有跨膜結構域,表現(xiàn)為親水性,蛋白質(zhì)二級結構主要結構元件是無規(guī)卷曲和α-螺旋,理論等電點為9.43,GATA-2蛋白呈堿性。
關鍵詞:GATA-2基因;物種;生物信息學分析;遺傳多樣性
中圖分類號:Q786 文獻標識碼:A 文章編號:0439-8114(2013)24-6182-05
GATA家族是一類能識別GATA基序(motif),并能與之結合的轉(zhuǎn)錄調(diào)節(jié)因子,在動物、真菌、植物等生物中存在比較廣泛。脊椎動物中已發(fā)現(xiàn)6種GATA結合蛋白,分為GATA-1/2/3和GATA-4/5/6兩大類,前者與紅細胞、淋巴及性腺的發(fā)育有關,后者控制心、腸及外胚等組織分化的轉(zhuǎn)錄[1,2]。GATA-2的cDNA大小為2.6 kb,編碼的轉(zhuǎn)錄因子為474個氨基酸。GATA-2屬于鋅指結構家族,可調(diào)控造血干/祖細胞的增殖和分化,在整個造血過程中對細胞的系統(tǒng)分化十分重要[3]。GATA-2還可調(diào)控其他造血相關因子的表達,與多種造血系統(tǒng)疾病相關。另外,GATA-2可作為胚胎發(fā)育過程中原腸胚期外胚層腹部的分子標記,還表達于胚胎發(fā)育時期和成年個體垂體中的[4],GATA-2失活后胚胎會因為造血功能的缺失而在懷孕中期死亡。GATA-2還可以與其他因子交互作用,從而在多方面發(fā)揮調(diào)控造血作用[5]。本研究利用生物信息學方法分析了GATA-2基因編碼區(qū)種內(nèi)和種間變異,研究了該基因不同種內(nèi)及種間的遺傳分化,為更好地研究該基因及GATA家族中其他成員的結構和功能奠定了基礎。
1 材料與方法
1.1 序列來源
1.2 方法
2 結果與分析
2.1 不同物種GATA-2基因核苷酸分析
2.1.1 多態(tài)位點、單倍型及核苷酸多樣性分析 在所分析片段長度為1 443 bp的52條序列中,發(fā)現(xiàn)344個多態(tài)位點,百分率為23.84%,其中單一多態(tài)位點65個,百分率為4.50%,簡約多態(tài)位點279個, 百分率為19.33%;共發(fā)現(xiàn)25種單倍型,單倍型的多樣性為0.967,說明GATA-2基因種間和種內(nèi)變異較大。不同物種的多態(tài)位點數(shù)和單倍型多樣性不一致,表明GATA-2基因的種間存在遺傳變異。17個物種種間的平均核苷酸差異數(shù)(k)為76.676,核苷酸多樣性為0.053。其中,人的GATA-2基因平均核苷酸差異數(shù)和核苷酸多樣性最高,與其他物種差異較大,這表明人的GATA-2基因存在豐富的遺傳多樣性(表2)。
2.1.2 核苷酸歧異度、遺傳分化和凈遺傳距離分析 不同物種GATA-2基因遺傳分化(Gst)在0.093~1.000之間,核苷酸歧異度(Dxy)和凈遺傳距離(Da)都在0.001~0.109之間(表3)。不同物種間核苷酸歧異度和遺傳分化、凈遺傳距離的變化范圍均很大,說明了不同物種間遺傳分化明顯。其中黑猩猩和倭黑猩猩、大猩猩、人的核苷酸歧異度、凈遺傳距離最小,說明黑猩猩與倭黑猩猩、大猩猩、人之間的親緣關系較近,小家鼠、褐家鼠與其他物種間的核苷酸歧異度、凈遺傳距離最大,說明小家鼠、褐家鼠與本研究中其他物種間親緣關系較遠。
2.2 不同物種GATA-2基因氨基酸多樣性分析
2.2.1 密碼子偏愛性 ENC值是評價基因整體密碼子偏愛性,其取值范圍為20(每個氨基酸只使用1個密碼子的極端情況)~61(各個密碼子均被平均使用),其值越低說明偏愛性越強,越高則說明偏愛性越低[6]。CBI值反映了一個基因中高表達優(yōu)越密碼子的組分情況,說明外源基因在目的宿主中可能的表達情況[7]。所選不同物種GATA-2基因序列編碼區(qū)中密碼子有效值(ENC)為42.383 (<61),偏愛指標(CBI)為0.494(>0),說明GATA-2基因?qū)γ艽a子有較強偏愛性。
2.2.2 同義替換和非同義替換 17個物種52條GATA-2基因序列編碼區(qū)中同義替換平均位點數(shù)為365.80個,非同義替換平均位點數(shù)為1 071.20個。不同物種同義替換位點數(shù)(SS)為364.50~367.50(表4),同義替換核苷酸多樣性均值[π(s)]為0.189;非同義替換位點數(shù)(NSS)為1 072.50~1 075.50,非同義替換核苷酸多樣性均值[π(a)]為0.006。GATA-2基因的非同義替換位點數(shù)均明顯高于同義替換位點數(shù),亞馬遜松鼠猴的非同義替換位點數(shù)較其他物種多,其次是家貓、小家鼠,說明亞馬遜松鼠猴GATA-2基因編碼區(qū)的非同義替換較其他物種高,家貓、小家鼠分別為第二、第三。由于達爾文的正向選擇有些基因中非同義替代速率遠遠高于同義替代[8],因此推測本研究中的GATA-2基因在進化過程中可能受到了正向選擇的影響。
2.2.3 不同物種GATA-2基因遺傳關系分析 根據(jù)不同物種間的核苷酸歧異度(Dxy),用MEGA5.0軟件的UPGMA方法進行聚類分析,構建不同物種分子聚類圖(圖1)。由圖1可以看出,人與黑猩猩、倭黑猩猩、大猩猩的親緣關系較近,小家鼠與褐家鼠與其他物種的親緣關系較遠,基本上與NCBI中的動物學分類相符合。
2.2.4 不同物種GATA-2基因的G+C含量 親緣關系相近的生物,核苷酸的堿基組成中的G+C含量相似,若生物之間G+C含量差別大,則表明它們的親緣關系遠。本研究中的GATA-2基因的堿基組成,發(fā)現(xiàn)它們之間的G+C含量的均值為64.60%,不同物種的G+C含量在62.20%~66.10%之間(表4),說明GATA-2基因在不同物種間發(fā)生了遺傳變異。小家鼠和褐家鼠GATA-2基因的G+C含量分別為62.60%、62.20%(表4),與其他物種GATA-2基因的G+C含量相差較大,說明小家鼠和褐家鼠與本研究中的其他物種親緣關系最遠,與本研究之前的結果相符。
2.3 不同物種氨基酸序列預測和分析
2.3.1 信號肽的預測與分析 一般認為,每一個需要運輸?shù)亩嚯亩己幸欢伟被嵝蛄校?稱為信號肽序列(Signal peptide,SP),引導多肽至不同的轉(zhuǎn)運系統(tǒng)[9]。信號肽幫助蛋白質(zhì)穿膜,與蛋白質(zhì)的細胞定位有關,通過分析蛋白序列N端信號肽的有無, 可以初步判斷某個蛋白是否為分泌蛋白[10]。利用蛋白分析專家EXPASY 工具里的SignalP 4.0 Server對17個物種GATA-2氨基酸序列進行預測,結果顯示所研究17個物種的GATA-2氨基酸序列均無信號肽,推測GATA-2不是分泌蛋白,在游離核糖體上起始合成后就于合成處發(fā)揮作用,可能不存在運輸,而保留在細胞基質(zhì)中合成,運輸?shù)郊毎髦衅鹱饔玫牡鞍踪|(zhì)。
2.3.2 導肽的預測和分析 導肽促使前體蛋白和細胞器膜相互作用,穿越過膜后被細胞器的蛋白酶切下轉(zhuǎn)運,繼續(xù)使整個蛋白穿越過膜,或直到中部導致轉(zhuǎn)運停止。利用在線工具TargetP1.1 Server 對13個物種GATA-2氨基酸序列進行預測,結果顯示本研究中17個物種的GATA-2氨基酸序列均沒有氨基酸殘基裂解位點,故推斷GATA-2氨基酸序列不具有導肽。
2.3.3 跨膜結構域的預測和分析 蛋白的跨膜結構域主要是膜內(nèi)在蛋白和細胞膜的膜脂相結合的部位,一般是由以α-螺旋形式存在的20個左右疏水氨基酸殘基構成[11],利用在線工具TMHMM 2.0 Server對17個物種GATA-2氨基酸序列的跨膜結構域進行預測,結果顯示本研究中17個物種的 GATA-2氨基酸序列均不存在跨膜結構域,整條肽鏈位于細胞外,推測該蛋白不是定位于生物膜的膜蛋白。結合信號肽的預測,說明GATA-2蛋白質(zhì)屬于定位在細胞基質(zhì)中的蛋白質(zhì),不屬于膜蛋白或分泌蛋白。
2.3.4 疏水性/親水性的預測和分析 疏水性和親水性分析對于預測蛋白質(zhì)的二級結構和功能域具有重要的生物學意義。疏水性的氨基酸傾向于遠離周圍水分子,將自己包埋進蛋白質(zhì)的內(nèi)部,親水氨基酸通常處于蛋白質(zhì)分子的表面[12]。利用在線工具 ProtScale 對17個物種GATA-2氨基酸序列的疏水性/親水性進行預測,結果顯示本研究17個物種的GATA-2氨基酸序列最低分值為-4.500,親水性最強;最高分值為4.500,疏水性最強。總體上看,親水區(qū)域大于疏水區(qū)域,故整條多肽鏈表現(xiàn)為親水性,因此認為GATA-2蛋白是親水性蛋白,處于蛋白質(zhì)分子的表面。
2.3.5 二級結構的預測和分析 二級結構主要指多肽鏈依賴氫鍵排列成在一維方向上具有周期性結構的構象,對其進行預測與分析,有助于認識蛋白的空間結構[13]。用 PBIL LYON-GERLAND信息庫對17個物種GATA-2氨基酸序列的二級結構進行預測,結果顯示本研究中17個物種的GATA-2蛋白質(zhì)二級結構的主要結構元件是無規(guī)卷曲(72.71%~75.83%),其次α-螺旋(11.46%~13.33%)、β折疊(7.29%-9.38%)、β轉(zhuǎn)角(3.75%~5.83%)。
2.3.6 氨基酸序列的組成成分及生化特性分析 用ProtParam在線工具分析17個物種GATA-2基因編碼的氨基酸序列,結果表明,理論等電點為9.43,GATA-2蛋白呈堿性,Pro是17個物種中最主要的氨基酸,含量在11.2%~11.7%;其次是Ala,含量在10.8%~11.5%;再次是Ser,含量在10.0%~11.0%。17個物種 GATA-2 蛋白的不穩(wěn)定系數(shù)在57.11~62.63之間,表明這種蛋白質(zhì)不穩(wěn)定[14]。
3 小結與討論
不同物種間GATA-2基因的核苷酸歧異度、凈遺傳距離和單倍型間的遺傳距離差異都較大,種內(nèi)及種間遺傳分化明顯。GATA-2基因?qū)γ艽a子有較強的偏愛性,非同義替換位點數(shù)均明顯高于同義替換位點數(shù),GATA-2基因在進化過程中可能受到正向選擇的影響。GATA-2基因物種間的親緣關系與動物學分類相符。
GATA-2蛋白N端無信號肽,無導肽,無跨膜結構域,整個多肽鏈表現(xiàn)為親水性,蛋白質(zhì)二級結構的主要元件為無規(guī)則卷曲和α-螺旋,除此之外還有少量β折疊和β轉(zhuǎn)角,GATA-2蛋白質(zhì)不屬于膜蛋白或分泌蛋白,應定位在細胞基質(zhì)。
參考文獻:
[1] MORRISEY E E, IP H S, TANG Z, et al. GATA-4 activates transcription via two novel domains that are conserved within the GATA-4/5/6 subfamily[J]. Journal of Biological Chemistry,1997,272(13):8515-8524.
[2] ONODERA K, YOMOGIDA K, SUWABE N, et al. Conserved structure, regulatory elements, and transcriptional regulation from the GATA-1 gene testis promoter[J]. Journal of Biochemistry,1997,121(2):251-263.
[3] IKONOMI P, RIVERA C E, RIORDAN M, et al. Overexpression of GATA-2 inhibits erythroid and promotes megakaryocyte different iat ion[J]. Exp Hematol,2000,28(12):1423-1431.
[4] SUH H, GAGE P J, DROUIN J, et al. Pitx2 is required at multiple stages of pituitary organogenesis: Pituitary primordium formation and cell specification[J]. Development,2002,129(2): 329-337.
[5] 吳秀麗,李揚秋.轉(zhuǎn)錄因子GATA-2的研究進展[J]. 現(xiàn)代臨床醫(yī)學生物工程學雜志,2003,9(5):387-389.
[6] WRIGHT F. The‘effective number of codons’ used in a gene[J]. Gene,1990,87(1):23-29.
[7] NOVEMBRE J A.Accounting for background nucleotide composition when measuring codon ussge bias[J]. Mol Biol Evol,2002,19(8):1390-1394.
[8] GUO Z P . Introduction to Population Genetics[M]. Beijing: Agricultural Press,1993.298-332.
[9] 彭佳師,龔繼明.信號肽與蛋白質(zhì)的分選轉(zhuǎn)運[J].植物生理學報,2011,47(1):9-17.
[10] 孫翰昌,楊 帆,徐敬明,等.草魚含信號肽分泌蛋白的預測分析[J].水產(chǎn)科學,2011,30(3):164-167.
[11] 張 耿,王 贊,關 寧,等.中間偃麥草Na+/H+逆向轉(zhuǎn)運蛋白的分子克隆及生物信息學分析[J].遺傳,2007,29(10):1263-1270.
[12] 胡秀珍.蛋白質(zhì)規(guī)則二級結構中親疏水氨基酸緊鄰關聯(lián)特性[J].內(nèi)蒙古大學學報(自然科學版),2002,33(4):395-400.
[13] 徐 飛,成述儒,羅玉柱. 綿羊DRB1基因生物信息學分析[J]. 生物技術通報,2011(1):113-118.
[14] 張雨良,張智俊,楊峰山,等.新疆鹽生植物車前PmNHXl 基因的克隆及生物信息學分析[J].中國生物工程,2009,29(1):27-33.