楊 興,劉 西,盛夢詩,劉秋艷,姜丹丹
(大理大學基礎(chǔ)醫(yī)學院,云南大理 671000)
密碼子是核酸與蛋白質(zhì)之間信息傳遞的基本單位,在生命活動中扮演著重要的角色。密碼子有64種,其中3種為終止密碼子,不編碼氨基酸,其余61種密碼子都參與氨基酸的編碼,它們共編碼20種氨基酸,由此造成了密碼子冗余的現(xiàn)象,即一種氨基酸對應多種密碼子,這些編碼同一種氨基酸的密碼子稱為同義密碼子(synonymous codon)[1]。自20世紀60年代開始,科學家們就對密碼子的使用特性進行了深入研究,發(fā)現(xiàn)同義密碼子的使用頻率并不相等,不同物種甚至同一物種不同基因間其同義密碼子的使用頻率大有不同,具有一定的偏愛性,這種現(xiàn)象稱為密碼子使用偏性(codon usage bias)[2]。影響密碼子使用偏性的因素有很多,包括突變壓力[3]、自然選擇[3]、基因長度[4]、GC含量[5]、蛋白結(jié)構(gòu)[6]、內(nèi)含子長度[7]、基因的進化年齡[8]、環(huán)境壓力[9]、編碼蛋白的親水性與芳香性[10]等。研究物種的密碼子偏好性及其影響因素,對于理解生物適應環(huán)境的分子機制,探討近緣物種間的進化關(guān)系,發(fā)現(xiàn)新基因[11],預測未知基因的功能、預測基因表達水平以及基因的異源表達具有重要的意義。
亞洲帶絳蟲是人畜共患蠕蟲,廣泛分布于東南亞,包括韓國、泰國、印度尼西亞等國以及我國的云南、廣西、貴州、四川、臺灣等省份[12]。先前人們對亞洲帶絳蟲的研究主要集中在形態(tài)學、流行病學、線粒體遺傳學、蛋白表達,而基于基因組水平的生物信息學研究卻鮮見報道。2016年,中國農(nóng)業(yè)科學院蘭州獸醫(yī)研究所家畜寄生蟲病創(chuàng)新團隊成功解析了亞洲帶絳蟲基因組[13],并從中預測出13 323個基因,這為亞洲帶絳蟲基因表達和密碼子偏性研究打下了基礎(chǔ)。本研究以亞洲帶絳蟲基因組數(shù)據(jù)為材料,通過分析亞洲帶絳蟲基因密碼子組成的各項指標,研究其密碼子使用特性及影響密碼子使用偏性的因素,以期為亞洲帶絳蟲重要功能基因的表達、分子進化和物種進化研究提供參考。
從http://www.wormbase.org的亞洲帶絳蟲基因組數(shù)據(jù)中獲取了13 323條編碼序列,從中選擇以ATG為起始密碼子,TAA、TAG、TGA為終止密碼子,且長度大于300 bp的11 203條亞洲帶絳蟲CDS序列作為分析樣本。
通過Perl語言程序?qū)π蛄羞M行篩選和處理。
利用CodonW 1.4.4軟件(http://codonw.sourceforge.net)計算密碼子組成和偏性指標。密碼子組成的相關(guān)指標:①GC含量;②同義密碼子第3位上各堿基含量(A3s、T3s、G3s、C3s);③密碼子第1、2、3位的G+C含量(GC1、GC2、GC3);④密碼子第1、2位上GC含量的平均值(GC12);⑤同義密碼子第3位上的GC含量(GC3s)。密碼子使用偏性的相關(guān)指標:①同義密碼子相對使用度;②有效密碼子數(shù)的取值范圍為20~61之間,值越小表明基因的密碼子使用偏性越大;③密碼子適應指數(shù)等。
中性繪圖分析(neutrality plot)是一種衡量密碼子偏性形成原因的有效方法。中性繪圖分析是以GC12為縱坐標,GC3s為橫坐標,通過分析GC12與GC3s之間的相關(guān)性來研究密碼子偏性的影響因素。若GC12與GC3s顯著相關(guān)且回歸斜率接近1,則表明密碼子3個位置的堿基組成無差異,密碼子使用受到突變的影響。如果GC12與GC3s不相關(guān)且回歸線斜率接近0,則表明密碼子3個位置的堿基組成存在差異,選擇是密碼子使用偏性的主要力量[14]。
在DNA的兩條互補鏈之間,如果不存在任何突變或選擇壓力上的偏性,則堿基A的含量應與T相等,G與C相等。這種方法針對的是有4種同義密碼子的氨基酸,包括絲氨酸(TCA、TCG、TCT、TCC)、亮氨酸(CTA、CTG、CTC、CTT)、精氨酸(CGA、CGT、CGC、CGG)、脯氨酸、蘇氨酸、纈氨酸、丙氨酸及甘氨酸。以各基因中上述氨基酸對應密碼子的A3/(A3+T3)為縱坐標,G3/(G3+C3)為橫坐標制圖,以(0.5,0.5)坐標為中心,從這個中心出發(fā)的矢量代表了奇偶偏好的方向和程度[15]。
對應性分析(corresponding analysis,COA)一種廣泛用于分析不同基因間同義密碼子使用偏性主要原因的方法。該方法是將所有基因分布到59維向量空間上,并從這個多維空間中選取影響力最大的2個軸來研究基因向量和基因間的RSCU差異,進而推測影響密碼子使用偏好發(fā)生的原因[16]。
參照文獻[17]方法,以高表達基因(核糖體蛋白基因、翻譯延長因子基因和Actin蛋白基因等)的序列作為參考,計算出亞洲帶絳蟲各基因的CAI值。再根據(jù)各基因CAI值的大小進行排序,得到高表達組和低表達組(各占基因總數(shù)的5%),計算出各組的RSCU值,最后通過卡方檢驗確定出最優(yōu)密碼子。
經(jīng)篩選,共獲得11 203條CDS序列用于密碼子分析,平均長度為1 386 bp。結(jié)果顯示,CDS序列的平均GC含量為50.20%,高于整個基因組的GC含量(43.15%),各序列的GC含量分布范圍在25.9%~74.1%(圖1)。密碼子3個位置的平均GC含量分別為GC1(43.90%)、GC2(56.60%)、GC3(50.10%)。GC3s分布范圍在10.8%~97.5%,均值為50.11%。
圖1 亞洲帶絳蟲CDS序列的GC含量分布
有效密碼子數(shù)ENC反映的是一個基因中所有用到密碼子種類的多少,其數(shù)值范圍在20~61。一般情況下,ENC值越小,密碼子偏好程度越大,基因表達量越高。亞洲帶絳蟲基因ENC分布范圍為20.64~61,平均值56.08。ENC取值35是區(qū)分密碼子偏好性強弱的標準[18]。亞洲帶絳蟲基因中ENC<35的有61條,占總數(shù)量的0.54%,ENC>35的有11 142條,占總數(shù)的99.45%。結(jié)果表明,亞洲帶絳蟲基因密碼子使用偏好程度整體較低,僅有部分基因具有較強的偏好性。
由圖2分析結(jié)果可以看出,GC12與GC3s呈現(xiàn)出正相關(guān),但差異性不顯著(回歸系數(shù)為0.061 5),說明亞洲帶絳蟲基因密碼子不同位置的堿基組成差異較大,其密碼子的使用更多地受到了選擇壓力的影響。
圖2 中性繪圖分析結(jié)果
以亞洲帶絳蟲基因組各基因的ENC值為縱坐標,GC3值為橫坐標作圖(圖3)。圖中大部分點都分布在遠離期望曲線的地方,只有少部分基因點分布在期望曲線周圍,說明除了突變壓力影響亞洲帶絳蟲密碼子的使用外,選擇壓力等其他因素也在亞洲帶絳蟲密碼子使用偏性的形成中起到重要作用。
圖3 亞洲帶絳蟲ENC-plot曲線
為了更準確的顯示觀測ENC與期望ENC之間的差異,進行了(ENCexp-ENCobs)/ENCexp計算。如圖4所示,(ENCexp-ENCobs)/ENCexp的比值主要集中在-0.1~0.1之間,說明觀測ENC與期望ENC之間存在較小的差異。這一結(jié)果說明突變不是影響亞洲帶絳蟲密碼子使用的唯一因素,但確實是一個重要的因素。
圖4 ENC比值頻率分布
采用PR2-plot分析了亞洲帶絳蟲各基因密碼子中4個堿基組分嘌呤(A和G)與嘧啶(T和C)之間的關(guān)系。如圖5所示,大部分基因都集中在第3象限,表明密碼子的第3位中C和T使用頻率高于A和G,4種堿基均不均衡使用,暗示亞洲帶絳蟲密碼子使用模式除了受到突變影響外,還受到了其他因素(如選擇)的影響。
圖5 PR2分析
本研究基于RSCU對應性分析發(fā)現(xiàn),第一軸存在6.54%的差異,另三軸依次分別為4.91%、4.07%、3.43%,說明第一軸對亞洲帶絳蟲密碼子使用偏性影響最大。為了研究GC含量對密碼子偏性的影響,以第一、二軸為縱、橫坐標將各基因分布于平面上(圖6),可以看出GC含量高于60%和GC含量低于45%的兩類基因集中分布在不同的區(qū)域,表明GC含量對密碼子使用模式起到了重要作用。
圖6 基于RSCU的對應性分析
有研究表明,蛋白質(zhì)的親水性(Gravy)與芳香度(Aromaticity)影響著密碼子使用偏性[19-20]。為此,以亞洲帶絳蟲基因的ENC值為縱坐標、Gravy和Aromaticity為橫坐標作圖和相關(guān)性分析(圖7和圖8),結(jié)果顯示,亞洲帶絳蟲ENC值分別與Gravy和Aromaticity值顯著相關(guān)(r=-0.082 5,P<0.01;r=0.055,P<0.01),提示蛋白質(zhì)的親水性和芳香度與密碼子使用偏性有關(guān)。
圖7 ENC與蛋白親水性的關(guān)系繪圖
圖8 ENC與蛋白芳香性的關(guān)系繪圖
在果蠅[21]、豬帶絳蟲[19]、棘球絳蟲[22]等多種生物基因組中發(fā)現(xiàn),密碼子使用偏性與基因的長度有關(guān)。為探究這一現(xiàn)象是否也存在于亞洲帶絳蟲中,以基因的ENC值為縱坐標、蛋白長度(protein length)為橫坐標作圖并進行相關(guān)性分析(圖9)。結(jié)果顯示,亞洲帶絳蟲基因的ENC值與蛋白質(zhì)長度呈顯著正相關(guān)(P<0.01),提示蛋白長度影響著亞洲帶絳蟲密碼子的使用模式,長度越長,其密碼子的使用偏性越弱。
圖9 ENC與蛋白長度的關(guān)系繪圖
采用Liu Q的方法對亞洲帶絳蟲基因組序列進行最優(yōu)密碼子的確定,共篩選出UUC、CUC、CUG、AUC、GUC、GUG、UAC、CAC、CAG、AAC、AAG、GAC、GAG、UCC、UCG、CCC、CCG、ACG、GCG、UGC、CGU、CGA、CGG、GGU、GGC共25個最優(yōu)密碼子,分別編碼Phe、Leu、Ile、Val、Tyr、His、Gln、Asn、Lys、Asp、Glu、Ser、Pro、Thr、Ala、Cys、Arg、Gly共18種氨基酸(表1)。這25個最優(yōu)密碼子中以G、C結(jié)尾的有22個,以U結(jié)尾的2個,以A結(jié)尾的1個,表明亞洲帶絳蟲合成蛋白質(zhì)時優(yōu)先使用以G或C結(jié)尾的密碼子。
表1 亞洲帶絳蟲基因組中高、低表達樣本的密碼子用法
生物最本質(zhì)的特征是進化,而密碼子使用模式則是生物進化過程中最重要的證據(jù)。研究不同物種基因組中密碼子的使用模式以及影響這種模式形成的因素,對于了解基因組特征和分子進化具有重要的啟示作用。亞洲帶絳蟲作為重要的人獸共患寄生蟲,由于基因組數(shù)據(jù)的缺乏,其遺傳背景和分子進化研究起步較晚,而國內(nèi)外對亞洲帶絳蟲密碼子偏好性相關(guān)報道更是少之又少。本研究為了了解亞洲帶絳蟲基因組密碼子使用偏好特征及其可能的影響因素,首先對預測的亞洲帶絳蟲CDS序列進行篩選,去除長度小于300 bp的序列,最后共獲得11 203條CDS用于密碼子分析。
目前,用于解釋密碼子使用偏性形成原因的理論主要有兩種,一種是中性理論,另一種是“選擇-突變-漂變”模型[23]。中性理論認為密碼子第3位的突變是中性選擇結(jié)果,因此,同義密碼子使用頻率應該是隨機的?!斑x擇-突變-漂變”模型認為密碼子使用偏性是突變壓力、遺傳漂變和弱的自然選擇的3種力量共同作用的結(jié)果。然而,近年來隨著越來越多物種的基因組的測序完成,密碼子研究的不斷深入,發(fā)現(xiàn)這兩種理論已不足以解釋這一現(xiàn)象了,更多影響密碼子使用模式的因素被報道出來。在本研究中,影響絳蟲密碼子使用的因素至少包括以下幾種:突變、選擇、堿基組成、基因長度、蛋白的親水性及芳香度。
堿基組成是基因組的一個重要特征,也是影響密碼子使用偏性的重要因素[19]。GC含量高的物種如細菌、古細菌、真菌、小麥、大麥和水稻等,其密碼子的第3位偏向于以G或C結(jié)尾[24-25]。同時,AT含量較高的物種如旋盤尾絲蟲、山羊支原體和惡性瘧原蟲等物種密碼子偏向以A或T結(jié)尾[26-28]。在本研究中,亞洲帶絳蟲編碼區(qū)GC含量為50.20%,理論上密碼子第3位會稍偏好以G或C結(jié)尾,而本研究實際觀察結(jié)果與預期結(jié)果一致,提示堿基組成是影響亞洲帶絳蟲密碼子使用模式的重要因素。
通常,密碼子的使用偏性會受到基因長度的影響[19]。在本文中,基因長度似乎對亞洲帶絳蟲密碼子使用偏性起到了重要的作用(即密碼子使用偏性與基因長度呈顯著負相關(guān))。相似的結(jié)果已在多種生物中發(fā)現(xiàn),如酵母、秀麗線蟲、果蠅、擬南芥、白花蠅子草等[20]。Moriyama E N等[29]認為有一種理論可以解釋這種現(xiàn)象,即如果長度較長的基因和長度較短的基因行使同樣的功能,則那些較長的基因需要消耗更多的能量并且對機體是不利的,因此在選擇壓力的作用下,高表達基因縮短了長度,最終導致了密碼子使用偏性與基因長度呈負相關(guān)。
確定最優(yōu)密碼子的首要環(huán)節(jié)是建立高、低表達樣本庫,而建立高、低表達樣本庫的方法有兩種,一種是根據(jù)ENC值的大小,另一種是根據(jù)CAI值的大小。建庫方法不同,結(jié)果亦略有差異。本研究是在后一種方法的基礎(chǔ)上,進一步利用卡方顯著性檢驗來確定最優(yōu)密碼子的。經(jīng)鑒定,共25種密碼子被確定為最優(yōu)密碼子,除CGU、CGA 和GGU外,其余均以G或C結(jié)尾。相似的結(jié)果已見于絳蟲綱的其他物種包括豬帶絳蟲[19]、牛帶絳蟲[20]、多房棘球絳蟲[22]、細粒棘球絳蟲[22]、微小膜殼絳蟲[22]等,這可能暗示著這些近緣物種間經(jīng)歷了相似選擇進化壓。亞洲帶絳蟲最優(yōu)密碼子的確定對于今后功能基因的外源表達、簡并引物的設計及生物學研究具有重要的理論和現(xiàn)實意義。