何 燕 尹家奇 生 欣
(遵義醫(yī)科大學(xué)生物化學(xué)與分子生物學(xué)教研室, 遵義 563000)
游仆蟲(chóng)是進(jìn)化上較為高等的腹毛目纖毛蟲(chóng), 為一種常見(jiàn)的水生浮游生物, 以水中微生物為食。具有十分復(fù)雜的皮層微管骨架系統(tǒng)和背腹分化的纖毛器。常被作為研究微管裝配特征、纖毛結(jié)構(gòu)與功能、纖毛形態(tài)發(fā)生、纖毛基因定位和功能研究的重要模式生物。此外, 游仆蟲(chóng)不僅同時(shí)具有負(fù)責(zé)營(yíng)養(yǎng)的大核與負(fù)責(zé)生殖的小核, 而且具有其獨(dú)特的大核基因結(jié)構(gòu)特征, 如微染色體、特殊的終止密碼子和高頻率的編程性核糖體移碼(Programmed ribosomal frameshifting, PRF)等。因此, 近年來(lái), 游仆蟲(chóng)受到研究者的廣泛關(guān)注, 目前, 八肋游仆蟲(chóng)(Euplotes octocarinatus)、厚游仆蟲(chóng)(Euplotes crassus)和扇形游仆蟲(chóng)(Euplotes vannus)等的基因組數(shù)據(jù)庫(kù)已經(jīng)建立, 為進(jìn)一步揭秘這種水生浮游生物的基因、細(xì)胞和環(huán)境生物學(xué)特征提供了不可或缺的基礎(chǔ)資料。
艾美游仆蟲(chóng)(Euplotes amieti)為一類(lèi)較大型淡水種游仆蟲(chóng)?;铙w為(88—125) μm×(55—78) μm,呈不對(duì)稱(chēng)的卵圓形, 背腹扁平, 腹面觀右緣較左緣膨出, 體前有一明顯的領(lǐng)口區(qū)開(kāi)闊呈三角形約占體長(zhǎng)的活體時(shí)口側(cè)膜不易觀察到橫棘毛間有列短而不規(guī)則的嵴[1]。本課題組前期對(duì)艾美游仆蟲(chóng)微管類(lèi)細(xì)胞骨架、纖毛形態(tài)發(fā)生過(guò)程和γ-微管蛋白在纖毛裝配過(guò)程中的作用進(jìn)行了研究, 但由于缺乏該種游仆蟲(chóng)基因組和轉(zhuǎn)錄組數(shù)據(jù), 限制了對(duì)其相關(guān)基因功能的研究, 因此, 本研究通過(guò)提取艾美游仆蟲(chóng)大核基因組DNA和mRNA, 對(duì)其大核基因組DNA和轉(zhuǎn)錄組進(jìn)行了測(cè)序和基因注釋, 旨在篩選出與微管和纖毛相關(guān)蛋白基因, 分析其基因結(jié)構(gòu), 為進(jìn)一步探索其功能提供基礎(chǔ)資料。
本實(shí)驗(yàn)所用的艾美游仆蟲(chóng)(Euplotes amieti)釆自上海市青浦區(qū)近郊的農(nóng)田水塘中。本實(shí)驗(yàn)所用DNA提取試劑盒, RNA提取試劑盒購(gòu)買(mǎi)于TaKaRa公司?;蚪M測(cè)序及注釋由北京諾禾致源科技有限公司完成。轉(zhuǎn)錄組測(cè)序由上海派森諾生物科技股份有限公司完成。
艾美游仆蟲(chóng)的培養(yǎng)及收集 本研究所用的腹毛類(lèi)纖毛蟲(chóng)艾美游仆蟲(chóng)使用長(zhǎng)梭綠藻(Chlorogoium elongatum)喂食。在收集艾美游仆蟲(chóng)細(xì)胞前,先進(jìn)行饑餓處理5—7d。然后用孔徑較小的紗布過(guò)濾饑餓后的細(xì)胞, 除去較大的雜質(zhì)。隨后用定性濾紙濃縮收集蟲(chóng)體。同時(shí)除去較小雜質(zhì)。最后用純凈水將蟲(chóng)體收集到離心管中。4000 r/min離心5 min收集蟲(chóng)體, 棄掉上清備用。
艾美游仆蟲(chóng)DNA的提取及基因組測(cè)序 參照TaKaRa公司DNA提取試劑盒說(shuō)明書(shū), 提取的DNA采用瓊脂糖凝膠電泳分析DNA的純度和完整性。Nanodrop檢測(cè)DNA的純度(A260/A280比值);Qubit對(duì)DNA濃度進(jìn)行精確定量。檢驗(yàn)合格的DNA樣品通過(guò)Covaris破碎機(jī)隨機(jī)打斷成長(zhǎng)度為350 bp的片段。采用 NEB Next?Ultra DNA Library Prep Kit(NEB, USA)進(jìn)行建庫(kù), 構(gòu)建好的文庫(kù)通過(guò)Illumina NovaSeq PE150進(jìn)行測(cè)序。然后再采用SPAdes的“careful”模式進(jìn)行組裝。隨后, 利用CAP3將SPAdes 的拼接結(jié)果進(jìn)行融合。考慮其一些reads質(zhì)量較低, 采用blat將長(zhǎng)度小于500 bp的序列與長(zhǎng)度大于500 bp的序列比對(duì), 去掉一致性百分比≥90%, 覆蓋度≥80%的序列、細(xì)菌、古菌污染的DNA、無(wú)端粒序列及線粒體基因組序列, 11條長(zhǎng)度小于100 bp的序列等共去除9508條。最終得到Clean Contigs用于全基因組注釋。
RNA 的提取及轉(zhuǎn)錄組測(cè)序 RNA 的提取參照TaKaRa公司RNA提取試劑盒說(shuō)明書(shū), 將提取的RNA采用離子打斷的方式打斷成300 bp左右的片段。構(gòu)建好大小為450 bp文庫(kù)。采用第二代測(cè)序技術(shù), 基于 Illumina HiSeq 測(cè)序平臺(tái), 對(duì)這些文庫(kù)進(jìn)行雙末端 (Paired-end, PE)測(cè)序。Cutadapt 去除 3′端帶接頭的序列和平均質(zhì)量分?jǐn)?shù)低于Q20 的Reads, 得到的CleanData 用Trinity 軟件與基因組比對(duì), 然后根據(jù)比對(duì)結(jié)果, 使用Trinity的Genomeguid模式進(jìn)行從頭拼接、聚類(lèi)。挑選最長(zhǎng)的轉(zhuǎn)錄本作為Unigene, 并進(jìn)行后續(xù)基因功能注釋和基因結(jié)構(gòu)預(yù)測(cè)等。
基因注釋 重復(fù)序列注釋方法使用Repeatmasker和repeatproteinmas軟件對(duì)重復(fù)序列數(shù)據(jù)庫(kù)RepBase庫(kù)進(jìn)行同源序列比對(duì), 識(shí)別與已知重復(fù)序列相似的序列。從頭預(yù)測(cè)使用LTR_FINDER和RepeatScout, RepeatModele等軟件首先建立de novo重復(fù)序列庫(kù), 將de novo預(yù)測(cè)出來(lái)的重復(fù)序列庫(kù)與同源重復(fù)序列數(shù)據(jù)庫(kù)Repbase進(jìn)行整合, 再用Repeat-Masker軟件對(duì)艾美游仆蟲(chóng)基因組進(jìn)行repeat注釋。
基因的結(jié)構(gòu)預(yù)測(cè), 主要通過(guò)同源預(yù)測(cè),de novo預(yù)測(cè)和其他證據(jù)支持的預(yù)測(cè)。同源預(yù)測(cè)的方法是將已知的同源物種的編碼蛋白序列與新物種的基因組序列進(jìn)行比對(duì)(同源物種個(gè)數(shù)通常8—10個(gè)), 通過(guò)blast, genewise等比對(duì)軟件預(yù)測(cè)基因組中的基因結(jié)構(gòu)。de novo預(yù)測(cè)使用依賴(lài)于基因組序列數(shù)據(jù)統(tǒng)計(jì)學(xué)特征(如密碼子頻率和外顯子-內(nèi)含子分布)的軟件來(lái)預(yù)測(cè)基因結(jié)構(gòu), 常用的軟件有Augustus、GlimmerHMM和SNAP等。再結(jié)合轉(zhuǎn)錄組比對(duì)數(shù)據(jù), 使用EVidenceModeler(EVM)整合軟件,將各種方法預(yù)測(cè)得到的基因集整合成一個(gè)非冗余的, 更加完整的基因集。最后, 使用PASA(http://pasa.sourceforge.net/), 結(jié)合轉(zhuǎn)錄組組裝結(jié)果, 對(duì)EVM的注釋結(jié)果進(jìn)行校正, 加入U(xiǎn)TR及可變剪切等信息, 得到最終的基因集。
基因功能注釋, 是將基因結(jié)構(gòu)注釋得到的基因集, 利用比對(duì)軟件與已知蛋白數(shù)據(jù)庫(kù)(SwissProt、Nr、Pfam、KEGG和InterPro)等比對(duì), 得到基因的功能信息。注釋物種包括三偽尖毛蟲(chóng)(Oxytricha trifallax,O. trifallax)、線蟲(chóng)(Caenorhabditis elegans,C. elegans)、浮萍棘尾蟲(chóng)(Stylonychia lemnae,S.lemnae)、扇形游仆蟲(chóng)(Euplotes vannus,E. vannus)、草履蟲(chóng)(Paramecium duboscqui,P. duboscqui)、八肋游仆蟲(chóng)(Euplotes octocarinatus,E. octocarinatus)、四膜蟲(chóng)(Tetrahymena utriculariae,T. utriculariae)、杜氏利什曼蟲(chóng)(Leishmania donovani,L. donovani)、有孔蟲(chóng)(Reticulomyxa filosa,R. filosa)和艾美游仆蟲(chóng)(Euplotes amieti,E. amieti)等[2—15]。
非編碼RNA的注釋包括tRNA、rRNA、miRNA和snRNA。根據(jù)tRNA的結(jié)構(gòu)特征, 利用tRNAscan-SE(http://lowelab.ucsc.edu/tRNAscan-SE/)軟件來(lái)尋找基因組中的tRNA序列; 由于rRNA具有高度的保守性, 因此可以選擇近緣物種的rRNA序列作為參考序列, 通過(guò)blast比對(duì)來(lái)尋找基因組中的rRNA; 利用Rfam家族的協(xié)方差模型, 采用Rfam自帶的INFERNAL(http://infernal.janelia.org/)軟件可預(yù)測(cè)基因組上的miRNA和snRNA序列信息。最終得到艾美游仆蟲(chóng)基因組的ncRNA信息。
鑒于游仆蟲(chóng)基因組特點(diǎn), 利用二代測(cè)序技術(shù)Illumina測(cè)序平臺(tái)對(duì)艾美游仆蟲(chóng)基因組的200 bp小片段數(shù)據(jù)質(zhì)控和建庫(kù)進(jìn)行測(cè)序, 共得到10.92 Gb 原始數(shù)據(jù)。用 SPAdes拼接軟件進(jìn)行組裝, 初始組裝產(chǎn)生了64836條Contigs。由于在提取游仆蟲(chóng)基因組DNA的過(guò)程中, 無(wú)法將其線粒體基因組分離去除,所以拼接結(jié)果中也可能混有線粒體DNA的污染和其他雜菌污染, 初始數(shù)據(jù)經(jīng)去除細(xì)菌、線粒體基因組DNA污染, 去除<100 bp短序列后, 最終得到50287條艾美游仆蟲(chóng)基因組序列。這些基因序列的GC含量較低, 為 31%, 與其他纖毛蟲(chóng)類(lèi)似。此外,兩端同時(shí)具有端粒的微染色體數(shù)量為27542條, 占54.76%, 只含有一端端粒的基因數(shù)量為6118條(表 1)。與其他游仆蟲(chóng)相比, 艾美游仆蟲(chóng)大核基因組均大于八肋游仆蟲(chóng)(88.9 Mb)和扇形游仆蟲(chóng)(85.1 Mb)。但微染色體數(shù)量小于八肋游仆蟲(chóng)(29413)與扇形游仆蟲(chóng)(37501)。
表1 艾美游仆蟲(chóng)基因組測(cè)序數(shù)據(jù)統(tǒng)計(jì)Tab. 1 Genomic sequencing data statistics of Euplotes amieti
轉(zhuǎn)錄組測(cè)序結(jié)果去除低質(zhì)量的Raw Reads, 最終得到68900504條Clean Reads, 經(jīng)Trinity拼接后得到60691條Transcripts, 其平均長(zhǎng)度和N50值分別為1326.6和 1759 bp。所有的transcripts進(jìn)一步聚類(lèi)后獲得38588條Unigenes, Unigenes的平均長(zhǎng)度和N50值分別為1189.9和1643 bp(表 2), 將38588條轉(zhuǎn)錄組序列通過(guò)NCBI中進(jìn)行BLASTX進(jìn)行比對(duì), 并進(jìn)一步通過(guò)查找開(kāi)放閱讀框, 以E值2×10-5作為標(biāo)準(zhǔn), 發(fā)現(xiàn)其中2%—3%基因發(fā)生了編程性移碼。
表2 艾美游仆蟲(chóng)轉(zhuǎn)錄組拼接序列Tab. 2 Transcriptome splicing sequence of Euplotes amieti
用alveolata_odb10 進(jìn)行BUSCO評(píng)估測(cè)序結(jié)果的完整度, 其完整性評(píng)估基于其他原生動(dòng)物的數(shù)據(jù)庫(kù)建立, 且通過(guò)與目前已知的八肋游仆蟲(chóng)和扇形游仆蟲(chóng)基因組比較, 在基因組大小、微染色體數(shù)量、基因的GC含量、N50和基因長(zhǎng)度分布等方便均與已報(bào)道游仆蟲(chóng)類(lèi)似, 表明基因組測(cè)序質(zhì)量較好。
基因組通過(guò)結(jié)構(gòu)預(yù)測(cè)得到了27650個(gè)基因, 其中96.5%的基因能夠被預(yù)測(cè)出功能。分別將基因組27650個(gè)基因與轉(zhuǎn)錄組38588條Unigenes對(duì)比到已知的NR、GO、KEGG、SwissProt、Pfam、InterPro和eggNOG數(shù)據(jù)庫(kù), 其中有26673條大核基因獲得注釋, 在各數(shù)據(jù)庫(kù)中注釋成功的基因數(shù)與轉(zhuǎn)錄本數(shù)分別見(jiàn)圖 1A和1B。功能分析顯示, 在eggNOG數(shù)據(jù)庫(kù)中注釋最多的功能類(lèi)為信號(hào)轉(zhuǎn)導(dǎo)機(jī)制(1790條)和轉(zhuǎn)錄后修飾、蛋白折疊和分子伴侶(1157條)。而GO注釋主要富集在生殖詞條中(1599條); KEGG 分析富集主要在外界環(huán)境信息的信號(hào)轉(zhuǎn)導(dǎo)(962條)、細(xì)胞內(nèi)物質(zhì)運(yùn)輸與代謝分解、分泌、細(xì)胞增殖與死亡和環(huán)境適應(yīng)等。這些功能與游仆蟲(chóng)捕食浮游生物并進(jìn)行細(xì)胞內(nèi)消化與營(yíng)養(yǎng)物質(zhì)的運(yùn)輸、適應(yīng)外環(huán)境變化、分裂與結(jié)合生殖和個(gè)體間信息傳遞等生命活動(dòng)密切相關(guān)。
圖1 基因組及轉(zhuǎn)錄組測(cè)序結(jié)果Fig. 1 Genome and transcriptome sequencing results
將艾美游仆蟲(chóng)基因組測(cè)序得到的50287條大核基因組進(jìn)行重復(fù)序列的注釋得到含有19.31%的repeat序列。結(jié)合轉(zhuǎn)錄組測(cè)序結(jié)果進(jìn)行基因結(jié)構(gòu)注釋;注釋物種包括O. trifallax、C. elegans、S. lemnae、E. vannus、P. duboscqui、E. octocarinatus、T. utriculariae、L. donovani、R. filosa和E. amieti等。結(jié)果顯示艾美游仆蟲(chóng)的平均transcript長(zhǎng)度為680.21 bp,其中, 平均CDS為560.11 bp, 是幾種纖毛蟲(chóng)中最小的(圖 2A); 而每個(gè)基因的平均外顯子數(shù)為1.8, 是除八肋游仆蟲(chóng)外最大的(圖 2B)。此外, 其平均外顯子與內(nèi)含子大小分別為311.69和150.70 bp。與以上幾種纖毛蟲(chóng)相比, 盡管艾美游仆蟲(chóng)的平均trancript、CDS和外顯子長(zhǎng)度均較小, 而平均內(nèi)含子長(zhǎng)度與平均外顯子數(shù)量卻較大(圖 2C)。
圖2 基因結(jié)構(gòu)特征比較Fig. 2 Comparison of gene structures
通過(guò)對(duì)轉(zhuǎn)錄組38588條Unigenes分析發(fā)現(xiàn)艾美游仆蟲(chóng)中同樣存在較高頻率的編程性核糖體移碼現(xiàn)象, 發(fā)生率為2%—3%。其中絕大多數(shù)為+1PRF基因, 發(fā)生移碼的位置多見(jiàn)于滑動(dòng)序列的終止密碼子TAR(R為A或G); 也有部分為+2PRF基因, 多發(fā)生在滑動(dòng)序列的終止密碼子TAR(R為A或G), 同時(shí)跳過(guò)T和A, 這些可以證明艾美游仆蟲(chóng)也存在編程性移碼突變的現(xiàn)象。此外, 艾美游仆蟲(chóng)的終止密碼子既可以做終止密碼子也可以編碼蛋白質(zhì)。將艾美游仆蟲(chóng)與其他幾種纖毛蟲(chóng)的終止密碼子做比較, 艾美游仆蟲(chóng)與八肋游仆蟲(chóng)一樣, UAA 和 UAG常作為終止密碼子, 而UGA編碼半胱氨酸和硒代半胱氨酸。而在四膜蟲(chóng)草履蟲(chóng)和尖毛蟲(chóng)中, 只有 UGA 作為終止密碼子, 而UAA和 UAG 則編碼谷氨酰胺(圖 3)。
圖3 艾美游仆蟲(chóng)與多種真核生物基因組比較(進(jìn)化樹(shù)基于18S rRNA繪制)Fig. 3 CComparison of representative eukaryotic genome. The tree was constructed based on the sequences of 18S rRNA genes
利用tRNAscan-SE和Rfam等軟件對(duì)基因組中的非編碼RNA序列信息注釋; 結(jié)果顯示miRNA的基因有23個(gè), 平均長(zhǎng)度為125.78 bp; tRNA有105個(gè),平均長(zhǎng)度為74.32 bp; rRNA有56個(gè), 其中, 18S 26個(gè)和28S 2個(gè)。平均長(zhǎng)度分別為104.68和104.81 bp;snRNA 21個(gè)其中包括CD-box 1個(gè), splicing 9個(gè), 平均長(zhǎng)度分別為263和145.22 bp(表 3)。轉(zhuǎn)錄因子(Transcription factor, TF)是一類(lèi)能與基因5′端上游特定序列專(zhuān)一性結(jié)合, 并與RNA聚合酶Ⅱ形成轉(zhuǎn)錄起始復(fù)合體, 共同參與轉(zhuǎn)錄起始的過(guò)程的蛋白質(zhì)分子。將植物和動(dòng)物與PlantTFDB和AnimalTFDB數(shù)據(jù)庫(kù)比較, 從而預(yù)測(cè)得到轉(zhuǎn)錄因子及轉(zhuǎn)錄因子所屬的家族信息。在所有預(yù)測(cè)的轉(zhuǎn)錄因子家族中, zf-C2H2的Count數(shù)最多, 達(dá)139條, 其次分別為ZBTB 116條、MYB 89條、bHLH 55條等(圖 4)。
圖4 轉(zhuǎn)錄因子家族統(tǒng)計(jì)圖Fig. 4 Transcription factor family statistic
表3 非編碼RNA序列注釋Tab. 3 Noncoding RNA sequence annotation
將基因組及轉(zhuǎn)錄組測(cè)序的結(jié)果序列中隨機(jī)取50個(gè)基因進(jìn)行PCR驗(yàn)證?;蚪M驗(yàn)證結(jié)果如圖 5A和5B所示, 所用Marker大小為2000 bp, 圖中只呈現(xiàn)出1—48個(gè)基因的驗(yàn)證條帶, 基因組測(cè)序結(jié)果圖 5A和5B可以看出只有1個(gè)基因RABEP2未P出, 其余各個(gè)基因條帶大小與測(cè)序的基因大小一致。轉(zhuǎn)錄組驗(yàn)證結(jié)果如圖 5C和5D所示, 圖中除了POC1A外, 其余各基因條帶均與測(cè)序結(jié)果一致。
圖5 基因組及轉(zhuǎn)錄組結(jié)果驗(yàn)證Fig. 5 Genome and transcriptome validation
原生動(dòng)物纖毛蟲(chóng)種類(lèi)繁多, 不同類(lèi)型的纖毛蟲(chóng)在基因表達(dá)調(diào)控、大分子相互作用和應(yīng)激反應(yīng)等方面呈現(xiàn)極大的多樣性特征。如游仆蟲(chóng)中存在的編程性移碼現(xiàn)象[16], 尖毛蟲(chóng)中出現(xiàn)的由長(zhǎng)非編碼RNA指導(dǎo)的大規(guī)?;騺y序和重排等[17]。因此, 揭示這些存在于不同類(lèi)群纖毛蟲(chóng)中的分子與細(xì)胞生物學(xué)特征對(duì)于研究纖毛蟲(chóng)的系統(tǒng)發(fā)育和進(jìn)化關(guān)系具有重要的意義。然而, 基因組信息的缺失也極大地限制了纖毛蟲(chóng)分子和細(xì)胞生物學(xué)水平的多樣性研究。目前為止, 已經(jīng)獲得基因組測(cè)序資料的纖毛蟲(chóng)有20多種, 而游仆蟲(chóng)只有3種, 分別為厚游仆蟲(chóng)、八肋游仆蟲(chóng)和扇形游仆蟲(chóng), 這些研究揭示了游仆蟲(chóng)的共有特征: 含有微染色體, 即一個(gè)基因一個(gè)染色體; 終止密碼密碼子的重新分配; 程序性核糖體框架轉(zhuǎn)移和對(duì)環(huán)境應(yīng)激源的強(qiáng)烈抵抗力等[18]。
本研究對(duì)艾美游仆蟲(chóng)基因組和轉(zhuǎn)錄組測(cè)序組裝后, 最終成功注釋了50287條大核基因組序列, 其N(xiāo)50為2774 bp, GC含量為31%, 54.8%的基因含有兩端端粒, 與以上3種游仆蟲(chóng)大核基因組的組裝結(jié)果相似[19,20]。這表明艾美游仆蟲(chóng)測(cè)序與拼裝結(jié)果較好, 且符合游仆蟲(chóng)較低GC含量和微染色體的基因組基本結(jié)構(gòu)特點(diǎn)[19]。同時(shí)也存在一定的差異, 其GC含量和微染色體百分比均介于厚游仆蟲(chóng)與八肋游仆蟲(chóng)之間, 且艾美游仆蟲(chóng)中長(zhǎng)度小于500 bp的基因與含有一個(gè)端?;驘o(wú)端粒的基因數(shù)量均較八肋游仆蟲(chóng)和扇形游仆蟲(chóng)多。排除細(xì)菌與小核基因組污染, 推測(cè)可能是艾美游仆蟲(chóng)中還含有大量“聯(lián)合微染色體”, 這些染色體中含有2個(gè)以上基因[20]。盡管目前有研究“聯(lián)合微染色體”上不同基因的表達(dá)方向的可能相同或相反, 但微染色體所占的比例是否與生物進(jìn)化和物種親緣性相關(guān)還未見(jiàn)報(bào)道, 但可以確定的是, 不同游仆蟲(chóng)之間存在多樣化的基因組特征將為確定種屬之間的進(jìn)化地位提供新的依據(jù)。另一方面, 基因結(jié)構(gòu)分析顯示基因組序列中含
有19.31%的重復(fù)序列, 這種基因的高度串聯(lián)重復(fù)性最早在1983年在鬃棘尾蟲(chóng)小(Stylonychia pustulata)核中被報(bào)道[21—24], 此后這種現(xiàn)象在纖毛蟲(chóng)大核基因組中被廣泛報(bào)道, 可見(jiàn)高度重復(fù)性是纖毛蟲(chóng)的基因組特征之一。另外, 與幾種已知的腹毛類(lèi)纖毛蟲(chóng)基因結(jié)構(gòu)相比, 艾美游仆蟲(chóng)也具有內(nèi)含子較短的特征,平均長(zhǎng)度僅為150 bp, 與八肋游仆蟲(chóng)的189 bp類(lèi)似,而艾美游仆蟲(chóng)平均CDS區(qū)和外顯子大小均小于其他物種, 表明艾美游仆蟲(chóng)基因同樣具有高度片段化特征。
編程性核糖體移碼是一種重編碼事件, 它是指翻譯中的核糖體能夠在mRNA 上的特定位置, 從起始的0讀框轉(zhuǎn)換到+1或者-1讀框, 然后繼續(xù)進(jìn)行翻譯的現(xiàn)象。這種現(xiàn)象的發(fā)生是可調(diào)控的, 發(fā)生頻率高達(dá)80%。目前已經(jīng)報(bào)道的核糖體編程性移碼信號(hào)常見(jiàn)于3個(gè)主要元件, 即七核苷酸滑動(dòng)序列(5′—AAA-UAR-V-3′ R為A 或G; V≠U), 及其上游都有SD相似序列CAAGAA, 和5—12個(gè)核苷酸組成的間隔序列以及假結(jié)(Pseudonotes)或莖環(huán); 其可產(chǎn)生牽引效應(yīng)將XXX(AAA、GGG或UUU)和ZZZ(AAA或UUU)引入P和A位點(diǎn)然后引起核糖體結(jié)構(gòu)重排[16]。本研究中2%—3%的編程性移碼基因, 與目前報(bào)道的八肋游仆蟲(chóng)和扇形游仆蟲(chóng)中3.5%和2.8%的編程性移碼基因發(fā)生率相當(dāng)[10,25], 且其中絕大多數(shù)為+1PRF。此外, 與其他纖毛蟲(chóng)相比, 艾美游仆蟲(chóng)也發(fā)生了終止密碼子的重新分配, 與八肋游仆蟲(chóng)和扇形游仆蟲(chóng)一樣, UAA 和 UAG作為終止密碼子, 而UGA編碼半胱氨酸和硒代半胱氨酸。相比之下, 在四膜蟲(chóng)、草履蟲(chóng)和尖毛蟲(chóng)中, 只有 UGA 作為終止密碼子, 而UAA和 UAG 則編碼谷氨酰胺。以上結(jié)果進(jìn)一步證實(shí)游仆蟲(chóng)中存在著高頻率的編程性移碼現(xiàn)象, 這種現(xiàn)象是在翻譯水平上進(jìn)行基因表達(dá)調(diào)控的獨(dú)特方式, 對(duì)于游仆蟲(chóng)有限的大核基因信息來(lái)說(shuō), 通過(guò)編程性移框與終止密碼子的重新分配, 能夠產(chǎn)生多樣化的蛋白表型, 是其適應(yīng)外界環(huán)境的變化的分子基礎(chǔ)。目前, 部分研究顯示游仆蟲(chóng)中的編程性移碼在不同類(lèi)型之間還存在轉(zhuǎn)變現(xiàn)象, 這種現(xiàn)象存在簡(jiǎn)約和精致的調(diào)控機(jī)制[16], 這種調(diào)控機(jī)制的揭示將有利于闡述游仆蟲(chóng)高頻率編程性移碼與基因表達(dá)調(diào)控和環(huán)境適應(yīng)性之間的關(guān)系[22—24]。
另外, 轉(zhuǎn)錄組測(cè)序獲得了60691個(gè)轉(zhuǎn)錄本, 分別是扇形游仆蟲(chóng)與八肋游仆蟲(chóng)的1.5倍和的3倍。其中, 38588個(gè)基因被成功注釋, mRNA序列平均長(zhǎng)度為1189.99 bp, 96.5%的基因被成功預(yù)測(cè)功能。通過(guò)基因功能分析顯示, 基因組絕大多數(shù)基因富集到信號(hào)轉(zhuǎn)導(dǎo)、轉(zhuǎn)錄后修飾和蛋白質(zhì)折疊, 而GO與KEGG功能分析顯示其轉(zhuǎn)錄本顯著富集于生殖、單細(xì)胞過(guò)程、外界環(huán)境信息的信號(hào)轉(zhuǎn)導(dǎo)、細(xì)胞內(nèi)物質(zhì)運(yùn)輸與代謝分解、分泌、細(xì)胞增殖與死亡和環(huán)境適應(yīng)等。與八肋游仆蟲(chóng)和扇形游仆蟲(chóng)的功能富集上具有較大差別。這提示艾美游仆蟲(chóng)在營(yíng)養(yǎng)生長(zhǎng)期,除了編碼游仆蟲(chóng)屬特有的功能蛋白外, 還編碼大量蛋白質(zhì)以適應(yīng)外界環(huán)境變化。盡管本研究并未對(duì)不同溫度、離子濃度及pH等應(yīng)激狀態(tài)下的游仆蟲(chóng)進(jìn)行轉(zhuǎn)錄組測(cè)序, 從扇形游仆蟲(chóng)在營(yíng)養(yǎng)條件、極端溫度和鹽濃度等條件下的基因表達(dá)情況可見(jiàn), 游仆蟲(chóng)中存在具有應(yīng)對(duì)不同理化刺激的基因簇, 這些基因的表達(dá)對(duì)于其適應(yīng)外界環(huán)境具有重要意義。而不同游仆蟲(chóng)中應(yīng)對(duì)不同刺激基因簇是否一致還有待進(jìn)一步探索。此外, 非編碼RNA與轉(zhuǎn)錄因子分析顯示, 在艾美游仆蟲(chóng)中存在一定量的非編碼RNA,其中miRNA的數(shù)量為23個(gè), 未見(jiàn)長(zhǎng)非編碼RNA, 這在游仆蟲(chóng)中還未見(jiàn)報(bào)道。有研究顯示長(zhǎng)非編碼RNA在尖毛蟲(chóng)中具有指導(dǎo)大規(guī)模基因亂序與重排等作用[25], 因此, 這些miRNA是否也參與了游仆蟲(chóng)基因高度片段化和移碼突變等過(guò)程還有待進(jìn)一步研究。而在預(yù)測(cè)的轉(zhuǎn)錄因子家族中, 鋅指蛋白基因ZF-C2H2與ZBTB的數(shù)量最多, 盡管有研究顯示轉(zhuǎn)錄因子E2Fl1在嗜熱四膜蟲(chóng)中參與了減數(shù)分裂[26], 但這2種轉(zhuǎn)錄因子在纖毛蟲(chóng)中的功能研究還未見(jiàn)報(bào)道,在植物與細(xì)菌中的研究顯示, ZF-C2H2與ZBTB參與了真核生物生長(zhǎng)發(fā)育及逆境脅迫的耐受等[27], 表明艾美游仆蟲(chóng)可能通過(guò)這兩類(lèi)轉(zhuǎn)錄因子對(duì)基因表達(dá)調(diào)控, 從而適應(yīng)外界環(huán)境的變化。