張玉波 周正湘 吳小玉
摘要:使用Codon W軟件分析大頭金蠅[Chrysomya megacephala(Fabricius,1794)]轉(zhuǎn)錄組10 923條全長(zhǎng)轉(zhuǎn)錄序列的密碼子偏好性。結(jié)果表明,大頭金蠅轉(zhuǎn)錄組中的AT含量(61.81%)遠(yuǎn)大于GC含量(38.19%);PR2(parity rule 2,即密碼子偏好性)繪圖結(jié)果顯示,密碼子第3位堿基A的使用頻率大于堿基T,堿基G的使用頻率大于堿基C;中性繪圖結(jié)果顯示,該序列密碼子的使用更多地受到選擇壓力的影響;有效密碼子數(shù)(effective number of codons,簡(jiǎn)稱ENC)在25.17~61.00個(gè)之間,均值為43.16個(gè);密碼子適應(yīng)指數(shù)(codon adaptation index,簡(jiǎn)稱CAI)在0.099~0.554之間,均值為0.215 8。結(jié)果共篩選出29個(gè)同義密碼子相對(duì)使用度(relative synonymous codon usage,簡(jiǎn)稱RSCU)>1的密碼子和28個(gè)最優(yōu)密碼子。
關(guān)鍵詞:大頭金蠅;轉(zhuǎn)錄組;密碼子偏好性;同義密碼子
中圖分類號(hào): Q969.451.9;S186? 文獻(xiàn)標(biāo)志碼: A? 文章編號(hào):1002-1302(2019)11-0078-04
轉(zhuǎn)錄組測(cè)序(RNA sequencing)是指利用第二代高通量測(cè)序技術(shù)進(jìn)行的cDNA測(cè)序,是一類專注于功能位點(diǎn)的測(cè)序策略,能全面快速地獲取研究材料的特定組織在某一狀態(tài)下的全部轉(zhuǎn)錄本信息[1]。隨著高通量測(cè)序技術(shù)的應(yīng)用[2],轉(zhuǎn)錄組測(cè)序以其較高的性價(jià)比而廣受各位學(xué)者歡迎,被廣泛應(yīng)用于動(dòng)植物的基因挖掘、功能鑒定等方面的研究,成為當(dāng)前生物學(xué)研究的熱點(diǎn)[3]。密碼子偏好性指在編碼氨基酸合成蛋白時(shí),往往優(yōu)先使用某一種或幾種密碼子[4],被優(yōu)先選用的密碼子稱為最優(yōu)密碼子,這一現(xiàn)象廣泛存在于生物類群中[5]。密碼子偏好性具有物種特異性,不同基因組在進(jìn)化過(guò)程中承受不同的選擇壓力,因此不同物種間密碼子的使用偏好性不同[6-7]。分析密碼子的偏好性可以深入了解編碼序列的堿基含量、二核苷酸偏向性和隱藏的剪接信號(hào)等基因序列特征,這些都與密碼子使用偏好性相關(guān),都可以影響基因合成的設(shè)計(jì)與蛋白表達(dá)[7]。? 大頭金蠅[Chrysomya megacephala (Fabricius,1794)]為重要的衛(wèi)生昆蟲,隸屬于麗蠅科(Calliphoridae)金蠅屬(Chrysomya)[8]。研究大頭金蠅轉(zhuǎn)錄組密碼子偏好性,可以揭示氨基酸翻譯過(guò)程中高表達(dá)與低表達(dá)基因?qū)γ艽a子的偏好選擇,有助于解釋其特殊生理效應(yīng)的遺傳機(jī)制,進(jìn)一步為相關(guān)基因的克隆與表達(dá)奠定基礎(chǔ)。
1 材料與方法
1.1 序列的獲取
本研究數(shù)據(jù)來(lái)源于美國(guó)國(guó)立生物技術(shù)信息中心(National Center for Biotechnology Information,簡(jiǎn)稱NCBI)網(wǎng)站,序列號(hào)為SRP050024,利用Codon W 1.4.2軟件分析大頭金蠅轉(zhuǎn)錄組10 923條序列的密碼子偏好性。大頭金蠅轉(zhuǎn)錄組測(cè)序數(shù)據(jù)見表1。
1.2 數(shù)據(jù)分析
1.2.1 堿基含量及PR2(parity rule 2,即密碼子偏好性)的繪圖分析 利用Codon W(version 1.4,http://bioweb.pasteur.fr/seqanal/ interfaces/codonw.html)軟件對(duì)大頭金蠅的轉(zhuǎn)錄組基因序列進(jìn)行分析,計(jì)算每條序列的密碼子總GC含量、第3位密碼子的GC含量(GC3)、有效密碼子數(shù)(effective number of codons,簡(jiǎn)稱ENC或Nc)及密碼子適應(yīng)指數(shù)(codon adaptation index,簡(jiǎn)稱CAI)。分別統(tǒng)計(jì)密碼子3個(gè)位置上的GC含量,密碼子第1位的GC含量表示為GC1,第2、3位的GC含量依次表示為GC2、GC3。GC1、GC2的平均值記為GC12。以GC12為縱坐標(biāo)、GC3為橫坐標(biāo)進(jìn)行中性繪圖(neutrality plot),分析密碼子第1、2位與第3位堿基組成的相關(guān)性,研究密碼子偏性的影響因素。選擇絲氨酸(TCA、TCC、TCG、TCT)、亮氨酸(CTA、CTC、CTG、CTT)、脯氨酸、精氨酸(CGA、CGC、CGG、CGT)、蘇氨酸、纈氨酸、丙氨酸和甘氨酸,計(jì)算每個(gè)基因的A3/(A3+T3)和G3/(G3+C3),分析各基因密碼子中4個(gè)堿基組分嘌呤(A和G)與嘧啶(T和C)之間的關(guān)系。
1.2.2 ENC及中性繪圖分析 有效密碼子數(shù)ENC用于檢測(cè)單個(gè)基因密碼子的使用偏好程度,取值范圍在20~61之間,其值越低,表明該基因的密碼子使用偏好性越強(qiáng)[9]。以密碼子第3位上同義密碼子GC的含量GC3s為橫坐標(biāo)、ENC為縱坐標(biāo),作二維散點(diǎn)圖,探討各基因密碼子的使用偏性情況,并檢測(cè)堿基組成對(duì)密碼子偏性的影響。
1.2.3 同義密碼子相對(duì)使用度及最優(yōu)密碼子分析 參照Sharp等的方法[10],同義密碼子相對(duì)使用度(relative synonymous codon usage,簡(jiǎn)稱RSCU)是對(duì)同義密碼子使用偏好的評(píng)估[10],該值等于同義密碼子的實(shí)際觀測(cè)值與同義密碼子平均使用期望值的比值。如果密碼子的使用無(wú)偏好性,則RSCU值為1;如果該密碼子比其他同義密碼子的使用更頻繁,則其RSCU值大于1,反之,RSCU值小于1。
利用高表達(dá)優(yōu)越密碼子分析方法[11],統(tǒng)計(jì)所有基因的ENC值、有序數(shù)據(jù)集上下10%區(qū)間內(nèi)形成的高RSCU集合和低RSCU集合,進(jìn)行最優(yōu)密碼子分析。根據(jù)2個(gè)子集的ΔRSCU值及卡方檢驗(yàn)結(jié)果確定最優(yōu)密碼子。
2 結(jié)果與分析
2.1 堿基含量及PR2、中性繪圖分析
對(duì)已經(jīng)得到的大頭金蠅轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行篩選,共獲得長(zhǎng)度為300 bp以上的10 923條完全閱讀框序列(全長(zhǎng)CDS)。用Codon W軟件進(jìn)行密碼子偏好性分析,結(jié)果表明,大頭金蠅轉(zhuǎn)錄組序列中平均總GC量為38.19%,分布范圍為 24.40%~62.90%,其中第3位點(diǎn)GC3s的平均值為25.67%,范圍為10.20%~83.70%;總A、T、C、G 4種堿基含量分別為 32.9%、28.9%、18.4%、19.7%,密碼子第3位點(diǎn)T3s、C3s、A3s和G3s含量的平均值分別為50.82%、17.97%、43.10%和 15.65%;GC12含量的均值為44.14%(23.40%~79.40%)(表2)。可以看出,在大頭金蠅轉(zhuǎn)錄組序列中的AT堿基含量遠(yuǎn)高于GC。由圖1可以看出,經(jīng)PR2分析,大頭金蠅轉(zhuǎn)錄組序列密碼子第3位點(diǎn)堿基使用不均衡,密碼子第3位堿基A的使用頻率小于堿基T,堿基G的使用頻率小于堿基C,表明大頭金蠅轉(zhuǎn)錄組序列中基因密碼子的使用模式受到突變壓力和自然選擇等多重因素的影響。
由圖2的中性繪圖結(jié)果可以看出,GC12含量與GC3含量呈現(xiàn)出負(fù)相關(guān),但相關(guān)性不明顯(r2=0.008 28),說(shuō)明大頭金蠅轉(zhuǎn)錄組序列的密碼子受到的突變壓力較小,GC含量較為保守,其密碼子的使用更多地受到選擇壓力的影響[12-14]。
2.2 ENC、CAI的分析結(jié)果
有效密碼子數(shù)是衡量基因密碼子偏好性的一個(gè)重要指標(biāo),數(shù)值范圍為20個(gè)(每個(gè)氨基酸只使用1個(gè)同義密碼子的極端偏好情況)~61個(gè)(每個(gè)同義密碼子被平均使用的無(wú)偏好情況)。研究表明,當(dāng)ENC≤35個(gè)時(shí),基因密碼子的使用偏好性隨ENC值的降低而增強(qiáng)[15]。大頭金蠅轉(zhuǎn)錄組序列的ENC在25.17~61.00個(gè)之間,均值為43.16個(gè)(表2),在 10 923 條序列中僅有359條序列的ENC小于35個(gè)[16]。CAI在0.099~0.554之間,均值為0.215 8。說(shuō)明大頭金蠅轉(zhuǎn)錄組中整體密碼子偏好性較低,只有極少部分序列具有較強(qiáng)的
密碼子偏好性。以ENC為縱坐標(biāo)、GC3為橫坐標(biāo)進(jìn)行ENC繪圖分析發(fā)現(xiàn),大部分序列沿標(biāo)準(zhǔn)曲線分布,小部分序列位于標(biāo)準(zhǔn)曲線以下較遠(yuǎn)的位置(圖3), 說(shuō)明大頭金蠅轉(zhuǎn)錄組的密碼子偏好性主要是受突變的影響,而選擇壓力僅在小部分序列中表現(xiàn)得比較明顯。
2.3 同義密碼子及最優(yōu)密碼子分析
經(jīng)過(guò)計(jì)算可知,13條編碼蛋白基因密碼子中RSCU大于1的共有29個(gè),除色氨酸(Trp)外,其他19種氨基酸及終止子均有RSCU值大于1的密碼子。在這29個(gè)使用度較高的密碼子中,第3位點(diǎn)嘌呤為U的有15個(gè),為A的有12個(gè),為G的有1個(gè),為C的有1個(gè),可以看出,在使用度較高的密碼子中,絕大部分以A或U結(jié)尾(表3)。
采用ΔRSCU值法對(duì)大頭金蠅轉(zhuǎn)錄組序列進(jìn)行最優(yōu)密碼子的確定,共篩選出UUC、UUG、CUC、AUU、AUC、GUU、GUC、UAC、CAC、CAA、AAC、AAG、GAC、GAA、UCU、UCC、AGC、CCU、CCC、ACU、ACC、GCU、GCC、UGC、CGU、CGC、GGU、GGC共28個(gè)最優(yōu)密碼子,分別編碼Phe、Leu、Ile、Val、Tyr、His、Gln、Asn、Lys、Asp、Glu、Ser、Pro、Thr、Ala、Cys、Arg、Gly共18種氨基酸(表4)。這28個(gè)最優(yōu)密碼子中以C結(jié)尾的有16個(gè),以U結(jié)尾的有8個(gè),以A、G結(jié)尾的均為2個(gè),這與高頻密碼子的統(tǒng)計(jì)結(jié)果相似,說(shuō)明大頭金蠅最優(yōu)密碼子偏向于以C、U結(jié)尾。
3 討論
目前已完成的雙翅目類群轉(zhuǎn)錄組的測(cè)序工作不多,基于昆蟲轉(zhuǎn)錄組的密碼子偏好性分析結(jié)果更少,本研究結(jié)果與其他昆蟲類群轉(zhuǎn)錄組密碼子的使用模式是否一致,還需進(jìn)一步分析確定。因此,若需要明確昆蟲基因組密碼子的使用模式及其與基因表達(dá)等之間的深入關(guān)系,則需要對(duì)昆蟲線粒體基因組數(shù)據(jù)進(jìn)行大量統(tǒng)計(jì)分析,而目前各數(shù)據(jù)庫(kù)中有關(guān)昆蟲線粒體基因組的數(shù)據(jù)相對(duì)較少,是否可以借鑒真菌、植物等真核生物線粒體成功測(cè)序的經(jīng)驗(yàn)完成大量昆蟲基因組的測(cè)序,進(jìn)而為其密碼子的真正“解密”提供原始材料,有待進(jìn)一步研究。
參考文獻(xiàn):
[1]賈新平,孫曉波,鄧衍明,等. 鳥巢蕨轉(zhuǎn)錄組高通量測(cè)序及分析[J]. 園藝學(xué)報(bào),2014,41(11):2329-2341.
[2]Margulies M,Egholm M,Altman W E,et al. Genome sequencing in microfabricated high-density picolitre reactors[J]. Nature,2005,437(757):376-380.
[3]張棋麟,袁明龍. 基于新一代測(cè)序技術(shù)的昆蟲轉(zhuǎn)錄組學(xué)研究進(jìn)展[J]. 昆蟲學(xué)報(bào),2013,56(12):1489-1508.
[4]Olejniczak M,Uhlenbeck O C. tRNA residues that have coevolved with their anticodon to ensure uniform and accurate codon recognition[J]. Biochimie,2006,88(8):943-950.
[5]Campos J L,Zeng K,Parker D J,et al. Codon usage bias and effective population sizes on the X chromosome versus the autosomes in Drosophila melanogaster[J]. Molecular Biology and Evolution,2013,30(4):811-823.
[6]時(shí) 慧,王 玉,楊路成,等. 茶樹抗寒調(diào)控轉(zhuǎn)錄因子ICE1密碼子偏性分析[J]. 園藝學(xué)報(bào),2012,39(7):1341-1352.
[7]Quax T E F,Claassens N J,Sll D,et al. Codon bias as a means to fine-tune gene expression[J]. Molecular Cell,2015,59(2):149-161.
[8]薛萬(wàn)琦,趙建銘. 中國(guó)蠅類(下冊(cè))[M]. 沈陽(yáng):遼寧科學(xué)技術(shù)出版社,1998:1438-1452.
[9]Wright F.The ‘effective number of codons used in a gene[J]. Gene,1990,87(1):23-29.
[10]Sharp P M,Li W H. The codon adaptation index-a measure of directional synonymous codon usage bias,and its potential applications[J]. Nucleic Acids Research,1987,15(3):1281-1295.
[11]Bellgard M,Schibeci D,Trifonov E,et al. Early detection of G+C differences in bacterial species inferred from the comparative analysis of the two completely sequenced Helicobacter pylori strains[J]. Journal of Molecular Evolution,2001,53(4/5):465-468.
[12]Sueoka N. Directional mutation pressure and neutral molecular evolution[J]. Proceedings of the National Academy of Sciences of the United States of America,1988,85(8):2653-2657.
[13]Sueoka N. Two aspects of DNA base composition:G+C content and translation-coupled deviation from intra-strand rule of A=T and G=C[J]. Journal of Molecular Evolution,1999,49(1):49-62.
[14]Nie X J,Deng P C,F(xiàn)eng K W,et al. Comparative analysis of codon usage patterns in chloroplast genomes of the Asteraceae family[J]. Plant Molecular Biology Reporter,2014,32(4):828-840.
[15]Comeron J M,Aguadé M. An evaluation of measures of synonymous codon usage bias[J]. Journal of Molecular Evolution,1998,47(3):268-274.
[16]Rai A,Yamazaki M,Takahashi H,et al. RNA-seq transcriptome analysis of Panax japonicus,and its comparison with other panax species to identify potential genes involved in the saponins biosynthesis[J]. Frontiers in Plant Science,2016,7:481.