胡豪 藺珍 薛彥斌 毛美琴 向奕璇 劉加文 周徐子鑫 馬均
摘 要:為了揭示lncRNA在紅苞鳳梨嵌合葉片形成和生長發(fā)育過程中的調(diào)控作用機制,該文以金邊紅苞鳳梨為材料,采用Hiseq2500測序和SMRT三代全長轉(zhuǎn)錄組測序聯(lián)合測序分析技術(shù),分析挖掘紅苞鳳梨lncRNA信息。結(jié)果表明:(1)鑒定得到6 018條lncRNA,包含3 298個基因間lncRNA,870個反義lncRNA,717個內(nèi)含子lncRNA和1 109個正義lncRNA,數(shù)據(jù)量較二代測序有了極大的提高。(2)結(jié)構(gòu)分析表明,紅苞鳳梨lncRNA的總體表達(dá)豐度低于mRNA;序列長度在 400~1 200 nt區(qū)間比例高于mRNA,而在>1 600 nt區(qū)間,lncRNA分布的比例顯著小于mRNA;lncRNA中的外顯子數(shù)量總體少于mRNA,開放閱讀框長度總體上也短于mRNA。(3)差異表達(dá)分析表明,在全綠、全白葉片發(fā)育過程中鑒定到1 710個差異表達(dá)lncRNA。(4)靶基因預(yù)測結(jié)果表明,5 441個lncRNA通過cis作用方式預(yù)測到靶基因,1 544個lncRNA通過trans方式預(yù)測到靶基因。(5)靶基因的功能注釋和富集分析顯示,差異表達(dá)lncRNA的靶基因主要作為酶蛋白參與調(diào)節(jié)葉片代謝活動和信號轉(zhuǎn)導(dǎo)等方面,與葉片的顏色形成、光合作用和生長發(fā)育密切相關(guān)。該文鑒定出的lncRNA信息以及對其結(jié)構(gòu)和功能的分析,為紅苞鳳梨以及鳳梨科其他植物的lncRNA表觀遺傳調(diào)控機理研究提供了數(shù)據(jù)基礎(chǔ),篩選出的差異表達(dá)lncRNA在金邊紅苞鳳梨葉片嵌合性狀的形成和生長發(fā)育中具有重要的調(diào)控作用。
關(guān)鍵詞:紅苞鳳梨,Hiseq2500測序,SMRT全長轉(zhuǎn)錄組測序,lncRNA鑒定
中圖分類號:Q943
文獻(xiàn)標(biāo)識碼:A
文章編號:1000-3142(2021)08-1237-14
Abstract: In order to reveal the regulation function of lncRNA on the chimeric character formation and development of the leaf of Ananas comosus var. bracteatus, Hiseq2500 sequencing and SMRT the third-generation full-length transcriptome sequencing were applyed to identify lncRNA of Ananas comosus var. bracteatus. The results were as follows: (1) A total of 6 018 lncRNA were identified, containing 3 298 intergenic lncRNA, 870 antisense lncRNA, 717 intron lncRNA and 1 109 sense lncRNA, which were greatly improved compared with the second-generation information. (2) Structural analysis showed that the overall expression level of lncRNA was lower than that of mRNA. The transcript length distribution of lncRNA in the range of 400-1 200 nt was higher than that of mRNA, while in the range > 1 600 nt, the proportion of lncRNA distribution was significantly lower than that of mRNA. The number of exons in lncRNA was generally less than that of mRNA, and the open reading frame was also shorter in length than that of mRNA. (3) For analysis of differential expression, 1 710 differentially expressed lncRNA were identified during the development of complete green and complete white leaves. (4) Target gene prediction results showed that 5 441 lncRNA were predicted target genes by Cis action, and 1 544 lncRNA were predicted target genes by Trans action. (5) Functional annotation and enrichment analysis of target genes revealed that the target genes of differentially expressed lncRNA mainly act on metabolic activities and signal transduction of leaves as enzyme proteins, and were closely related to leaf color formation, photosynthesis and leaf growth. The lncRNA information identified in this paper and, as well as the analysis of its structure and functions, provide the data basis for the study of the epigenetic regulation mechanism of lncRNA in Ananas comosus var. bracteatus and other plants in Bromeliaceae. The identified differentially expression of lncRNA plays an important role in the chimeric character formation and development of leaf of Ananas comosus var. bracteatus.
Key words: ?Ananas comosus var. bracteatus, Hiseq2500, SMRT full length transcriptome sequence, lncRNA identification
紅苞鳳梨 (Ananas comosus var. ?bracteatus)因其葉片綠白鑲嵌、花果顏色艷麗且觀賞期長,己成為一種重要的新型觀賞植物。紅苞鳳梨自交不親和,在生產(chǎn)中以吸芽進(jìn)行繁殖,繁殖系數(shù)低、苗木整齊度差,限制了紅苞鳳梨的規(guī)?;瘧?yīng)用。組織培養(yǎng)能快速繁殖紅苞鳳梨,但繁殖過程中葉片嵌合性狀不穩(wěn)定,再生植株葉片常失去嵌合性狀而變?yōu)槿G植株(曹莉,2011)。細(xì)胞白化突變是金邊嵌合葉片形成的基礎(chǔ),研究紅苞鳳梨葉片細(xì)胞白化突變的分子機理,對揭示紅苞鳳梨嵌合性狀的形成機理,提高嵌合性狀的穩(wěn)定性,培育新的嵌合性狀品種具有重要的理論和實踐意義。
本課題組前期研究結(jié)果表明,紅苞鳳梨白化細(xì)胞中葉綠素含量極顯著下降,但葉綠素合成代謝的結(jié)構(gòu)基因表達(dá)上調(diào)(Li et al.,2017;Xue et al.,2019),說明轉(zhuǎn)錄后調(diào)控在紅苞鳳梨細(xì)胞白化失綠、金邊嵌合性狀形成中發(fā)揮了重要調(diào)控作用。lncRNA具有類似mRNA的結(jié)構(gòu)特征,可在多個層面調(diào)控目標(biāo)基因的表達(dá)。可作為信號分子、誘餌分子、引導(dǎo)分子以及支架分子,在表觀遺傳、轉(zhuǎn)錄調(diào)控、轉(zhuǎn)錄后調(diào)控等多個水平發(fā)揮功能(Zhang et al., 2018)。目前,lncRNA在人類和動物中研究較為廣泛,與人類疾病的發(fā)生及生物體的生長發(fā)育密切相關(guān)(Johnson,2012;余鋮亮等,2015;王艷芳等,2018),而植物lncRNA的研究還處于起步階段。研究結(jié)果表明lncRNA在植物的開花誘導(dǎo)(Csorba et al.,2014)、花粉發(fā)育(Ding et al.,2012)、逆境脅迫(Qin et al.,2017)中具有重要功能,然而其具體作用機制及調(diào)節(jié)功能等尚不清楚。由于紅苞鳳梨沒有基因組數(shù)據(jù),且Hiseq2500二代測序技術(shù)讀長較短,使得紅苞鳳梨非編碼RNA的挖掘具有一定的局限性。隨著測序技術(shù)的發(fā)展,SMRT(single-molecule real-time)三代測序技術(shù)的出現(xiàn),因其無需進(jìn)行PCR擴增,大幅降低了因PCR反應(yīng)引入的堿基錯誤,操作更為簡單等優(yōu)點,已得到廣泛應(yīng)用(Flusberg et al.,2010)。目前,SMRT三代測序技術(shù)在基因組、甲基化識別、SNP 的鑒定、基因重測序和轉(zhuǎn)錄組學(xué)等方面的優(yōu)勢越來越明顯(Smith et al.,2012;Guo et al.,2018)。此外,SMRT測序技術(shù)得到幾千kb的數(shù)據(jù),讀長顯著增長,大大減少了測序后的 Contig數(shù)量,使得基因組和轉(zhuǎn)錄組的組裝得到極大改善(English et al.,2012)。但是,第三代測序技術(shù)也存在一定的缺點,測序錯誤率普遍偏高,測序產(chǎn)生的錯誤率可高達(dá)15%(Koren et al.,2017)。因此,采取二代測序和三代測序聯(lián)合分析已成為當(dāng)下基因組研究的主要方法。一般有兩種聯(lián)合手段,可以選擇以三代測序為主,進(jìn)行組裝,再通過二代測序得到的高質(zhì)量短片段對三代的數(shù)據(jù)進(jìn)行堿基糾錯和矯正;也可以選擇以二代測序為主,用三代測序得到的長片段Reads 進(jìn)行輔助組裝(馬建超,2018)。最為通常的手段是利用短的但準(zhǔn)確度高的二代數(shù)據(jù)去輔助校正長的但準(zhǔn)確度較低的三代數(shù)據(jù),并在此基礎(chǔ)上進(jìn)行混合組裝。經(jīng)驗證,通過這種混合組裝校正方法得到的數(shù)據(jù)準(zhǔn)確性可達(dá)99%(馬東娜等,2018)。因此,這種“2 + 3”的聯(lián)合模式已被廣泛認(rèn)可并應(yīng)用于動物、植物和微生物的基因組研究(Koren et al.,2012;Hackl et al.,2014;徐偉南等,2018)。
本研究以紅苞鳳梨為材料,利用二代和三代測序數(shù)據(jù)混合組裝校正方法,鑒定紅苞鳳梨葉片中存在的lncRNA,分析在全綠和全白突變?nèi)~片生長發(fā)育過程中差異表達(dá)的lncRNA,通過靶基因的功能注釋和富集分析,揭示lncRNA在紅苞鳳梨葉片細(xì)胞失綠白化及生長發(fā)育過程中的作用。本研究結(jié)果為紅苞鳳梨lncRNA表觀遺傳調(diào)控機理研究提供數(shù)據(jù)基礎(chǔ)。
1 材料與方法
1.1 試驗材料
本研究以金邊紅苞鳳梨莖段為外植體,通過組織培養(yǎng)獲得的全白和全綠植株為試驗材料。選取長勢均一的未展葉期、4~5葉期和10~12葉期三個發(fā)育時期的全綠及全白植株各10株的葉片作為樣本提取RNA(圖1)。樣本取下后立即轉(zhuǎn)入液氮速凍,后儲存于-80 ℃用于提取RNA進(jìn)行Hiseq2500二代轉(zhuǎn)錄組測序。
1.2 紅苞鳳梨RNA提取及二代Illumina Hiseq2500測序文庫構(gòu)建
1.2.1 紅苞鳳梨RNA提取及檢測 取-80 ℃凍存的紅苞鳳梨樣品,采用LABGENETM plant RNA Isolation kit多糖多酚植物RNA提取試劑盒分離總RNA,操作方法參考使用說明。高質(zhì)量的RNA是實驗成功的基礎(chǔ),為保證測序的準(zhǔn)確性,對樣品RNA進(jìn)行了檢測,分別采用熒光定量儀(Qubit 2.0)、微量分光光度計(Nanodrop)、生物分析儀(Aglient 2100)、電泳方法檢測RNA樣品的純度、濃度、完整性和是否有基因組DNA污染等,達(dá)到質(zhì)控要求的RNA樣品用于后續(xù)試驗。
1.2.2 Illumina Hiseq2500 cDNA文庫構(gòu)建及上機測序 利用epicentre Ribo-ZeroTM試劑盒去除樣品中的rRNA。以rRNA-depleted RNA為模板,用六堿基隨機引物(random hexamers)合成cDNA第一條鏈和第二條鏈。cDNA純化后進(jìn)行末端修復(fù)、加A尾并連接測序接頭,然后用AMPure XP beads進(jìn)行片段大小選擇。降解含U鏈,通過PCR富集得到cDNA文庫。文庫構(gòu)建后,經(jīng)Qubit 2.0定量,Agilent 2100檢測文庫的insert size質(zhì)量;釆用QPCR對文庫的濃度(文庫有效濃度>2nmol·L-1)進(jìn)行準(zhǔn)確定量,完成庫檢。庫撿完成后,采用Illumina Hiseq2500平臺對文庫進(jìn)行測序。
1.3 數(shù)據(jù)質(zhì)量監(jiān)控
測序所得Reads的過濾與修剪是保證分析數(shù)據(jù)可靠性的關(guān)鍵,結(jié)合前期SMRT測序結(jié)果(Ma et al.,2018)進(jìn)行混合組裝校正后,刪除Raw Reads中包含adapter、ploy-N的Reads和低質(zhì)量的Reads以獲得Clean Reads。以菠蘿基因組(Acomosus_321_v3https://phytozome.jgi.doe.gov/pz/portal.html#!info?alias=Org_Acomosus_er)為參考基因組,利用TopHat v2.0.9(Kim et al.,2013)軟件對Clean Reads進(jìn)行比對。采用Scripture(beta2)(Langmead et al.,2009)和Cuffiinks(v2.1.1)軟件對每個樣品比對上的Reads進(jìn)行裝配獲得轉(zhuǎn)錄本。
1.4 轉(zhuǎn)錄本表達(dá)水平和編碼潛能分析
使用Cufflinks軟件的Cuffdiff組件,對轉(zhuǎn)錄本表達(dá)水平進(jìn)行分析。根據(jù)lncRNA編碼的特點進(jìn)行基本篩選:選擇長度≥200 bp,Exon個數(shù)≥2及FPKM≥0.1的轉(zhuǎn)錄本。
因lncRNA不編碼蛋白,因此,通過對基本篩選得到的轉(zhuǎn)錄本進(jìn)行編碼潛能篩選,判斷其是否具有編碼潛能,從而可以判定該轉(zhuǎn)錄本是否為lncRNA。主要利用CPC分析、CNCI分析、CPAT分析、Pfam蛋白結(jié)構(gòu)域四種分析方法分析lncRNA的編碼能力。去掉基本篩選中具有潛在編碼能力的轉(zhuǎn)錄本,余下的即為預(yù)測的lncRNA。
通過與已知mRNA進(jìn)行比較,利用Cuff-compare分析結(jié)果中的class codes對篩選的lncRNA進(jìn)行分類。
1.5 lncRNA靶基因預(yù)測及功能富集分析
基于lncRNA與其靶基因的作用方式(cis和trans),采用兩種預(yù)測方法:第一種是根據(jù)lncRNA與mRNA的位置關(guān)系預(yù)測lncRNA的靶基因,即lncRNA 100 kb范圍內(nèi)的鄰近基因為其靶基因;第二種是使用LncTar靶基因預(yù)測工具進(jìn)行預(yù)測,其原理是利用lncRNA與mRNA之間堿基互補配對產(chǎn)生的作用來預(yù)測。
對差異表達(dá)IncRNA的靶基因利用KEGG(Kyoto Encyclopedia of Genesand Genomes)、GO(gene ontology)、NR (Non-Redundant Protein Sequences Database)、COG (clusters of orthologous groups of proteins)和 Swiss-Prot 數(shù)據(jù)庫進(jìn)行功能注釋和富集分析,分析結(jié)果顯著性用P值表示。
1.6 差異表達(dá)基因分析
以差異倍數(shù)(Fold Change)≥2且錯誤發(fā)現(xiàn)率FDR(False Discovery Rate)<0.05作為差異表達(dá)的篩選標(biāo)準(zhǔn),使用EBseq分析6個樣本間差異表達(dá)的lncRNA及mRNA。
2 結(jié)果與分析
2.1 測序數(shù)據(jù)與參考基因組比對效率分析
長鏈非編碼數(shù)據(jù)利用率的直接體現(xiàn)就是比對效率,即Mapped Reads占Clean Reads的百分比。經(jīng)SMRT全長轉(zhuǎn)錄組數(shù)據(jù)(NCBI提交號PRJNA564223)(Ma et al.,2018)修正后,6個樣品的Reads與所選參考基因組的比對效率為67.74%~78.58%,比單獨使用Hiseq2500二代測序數(shù)據(jù)的比對效率提高了約5%(藺珍,2019)(表1)。說明三代數(shù)據(jù)的修正,有效提高了lncRNA測序數(shù)據(jù)的利用效率,有利于進(jìn)一步深入挖掘紅苞鳳梨lncRNA信息。
2.2 紅苞鳳梨lncRNA的鑒定
對測序樣品Cuffiinks的拼接結(jié)果第一步經(jīng)過Cuffcompare軟件分析合并,篩選出轉(zhuǎn)錄本長度≥200 bp,外顯子個數(shù)≥2,F(xiàn)PKM ≥ 0.1的轉(zhuǎn)錄本,根據(jù)已知mRNA數(shù)據(jù)庫,進(jìn)行比較過濾mRNA,然后通過CNCI、CPC、CPAT 和Pfam四個軟件進(jìn)行蛋白編碼潛能篩選,最終鑒定得到6 018條lncRNA,其中新lncRNA 5 689條(圖2)。比利用Hiseq二代測序數(shù)據(jù)鑒定到的lncRNA數(shù)量增加了約70%(藺珍,2019),極大地提高了紅苞鳳梨lncRNA的數(shù)據(jù)信息量,為進(jìn)一步研究紅苞鳳梨的非編碼RNA調(diào)控機理提供了數(shù)據(jù)基礎(chǔ)。
鑒定得到的6 018個lncRNA中,包括了3 298個基因間lncRNA(intergenic lncRNA),870個反義lncRNA(antisense lncRNA),717個內(nèi)含子lncRNA(intronic lncRNA)和1 109個正義lncRNA(sense lncRNA)(圖2:B)。與二代測序分析鑒定結(jié)果相比,intergenic lncRNA所在比例顯著提高,由17%增加到55%。而sense lncRNA所占比例顯著下降,由76%下降到18.5%(藺珍,2019)。
2.3 紅苞鳳梨lncRNA結(jié)構(gòu)分析
為了進(jìn)一步分析紅苞鳳梨lncRNA的結(jié)構(gòu)特點,將lncRNA與蛋白質(zhì)編碼RNA在整體表達(dá)水平、序列長度分布、外顯子數(shù)目分布以及開放閱讀框長度分布情況進(jìn)行了比較分析(圖3)。分析結(jié)果表明,在總體表達(dá)水平上,mRNA的表達(dá)豐度高于lncRNA的表達(dá)豐度(圖3:A)。在轉(zhuǎn)錄本的長度分布上,lncRNA在400~1 200 nt區(qū)間分布比例高于mRNA(圖3:B),二代測序結(jié)果中則是表現(xiàn)在400~600 nt和1 400~1 600 nt區(qū)間(藺珍,2019);而在轉(zhuǎn)錄本長度>1 600 nt區(qū)間,lncRNA分布的比例顯著小于mRNA,尤其在>=3 000 nt區(qū)間(圖3:B)。lncRNA中的外顯子數(shù)量總體少于mRNA,約82%的lncRNA只含有2個外顯子(圖3:C)。而二代測序分析中有41.80%的lncRNA只有2個外顯子,而 31.62%的mRNA的外顯子數(shù)超過 5 個(藺珍,2019)。lncRNA的開放閱讀框長度總體上也短于mRNA。約99%的lncRNA開放閱讀框長度<=100 nt(圖3:D),而二代測序分析中66%的lncRNA的開放閱讀框在 0~100 nt之間(藺珍,2019)。
2.4 紅苞鳳梨lncRNA的差異表達(dá)分析
以Fold Change≥2.0且FDR<0.05作為篩選標(biāo)準(zhǔn),共鑒定得到了1 710個差異表達(dá)的lncRNA。對篩選出的差異表達(dá)lncRNA進(jìn)行了層次聚類分析(圖4:A)。在未展葉期,全綠和全白葉片中,大量差異表達(dá)的lncRNA表達(dá)豐度較高,在全白苗和全綠苗的發(fā)育到4~5葉期時,多數(shù)差異表達(dá)的lncRNA表達(dá)水平下降。而全白苗在第三發(fā)育時期有部分差異表達(dá)lncRNA表達(dá)水平顯著上調(diào)。在三個發(fā)育時期全綠和全白葉片間顯著差異表達(dá)的lncRNA可能是紅苞鳳梨嵌合性狀形成的關(guān)鍵調(diào)控因子。
同一發(fā)育時期的全綠和全白葉片差異表達(dá)的lncRNA數(shù)量和mRNA數(shù)量見圖4:B。在未展葉期,差異表達(dá)lncRNA共476個,其中在全白葉片中上調(diào)表達(dá)的lncRNA 192個,占比約40%;差異表達(dá)的mRNA共3 911個,其中上調(diào)表達(dá)的mRNA 2 152個,占比55%。在4~5葉期,差異表達(dá)lncRNA共397個,其中在全白葉片中上調(diào)表達(dá)的lncRNA 216個,占比約54%;差異表達(dá)的mRNA共2 300個,其中上調(diào)表達(dá)的1 036個,占比45%。在10~12葉期,差異表達(dá)lncRNA共594個,其中在全白葉片中上調(diào)表達(dá)的lncRNA 452個,占比約76%;差異表達(dá)的mRNA共2 100個,其中上調(diào)表達(dá)的856個,占比約41%??梢钥闯觯S著植株的生長,lncRNA在全綠植株與全白植株間的差異表達(dá)越發(fā)顯著,在全白植株中上調(diào)表達(dá)的lncRNA顯著增加,lncRNA的差異表達(dá)可能在綠、白葉色的差異形成過程中起著重要的調(diào)控作用。而這個過程中,差異表達(dá)的mRNA數(shù)量在減少,上調(diào)表達(dá)的基因占比也在減少。
2.5 紅苞鳳梨lncRNA靶基因預(yù)測
lncRNA調(diào)控其靶基因的方式有兩種,分為cis作用和trans作用。根據(jù)cis作用,我們將lncRNA 100 kb范圍內(nèi)的鄰近蛋白質(zhì)編碼基因為其靶基因,經(jīng)過分析預(yù)測,5 441個lncRNA通過cis作用方式預(yù)測到靶基因;trans作用是指lncRNA與mRNA由于堿基互補配對而產(chǎn)生作用,LncTar(Li et al.,2015)正是利用lncRNA和mRNA之間存在的互補配對關(guān)系進(jìn)行預(yù)測,通過計算配對位點自由能和標(biāo)準(zhǔn)化自由能,標(biāo)準(zhǔn)化自由能閾值以下的則認(rèn)為是lncRNA的靶基因。1 544個lncRNA通過trans方式預(yù)測到靶基因。靶基因的預(yù)測可以幫助理解lncRNA的功能,揭示lncRNA在紅苞鳳梨生長發(fā)育過程中的調(diào)控作用。
2.6 紅苞鳳梨差異表達(dá)lncRNA靶基因功能注釋和富集分析
2.6.1 差異表達(dá)lncRNA順式靶基因功能注釋和富集分析 對差異表達(dá)lncRNA的順式靶基因進(jìn)行了COG、GO、KEGG、KOG、NR和Swiss-Prot功能富集分析,富集分析結(jié)果如表2所示。
GO數(shù)據(jù)庫是一個結(jié)構(gòu)化的標(biāo)準(zhǔn)生物學(xué)注釋系統(tǒng),在GO分析中,基因注釋在三個層次上,即生物過程(biological process)、分子功能(molecular function)和細(xì)胞組分(cellular component)(圖5)。在未展葉期,差異表達(dá)lncRNA的靶基因主要富集在生物過程中的生物相、節(jié)律過程和移動,細(xì)胞組分方面的細(xì)胞外基質(zhì)和類核,分子功能方面的營養(yǎng)庫活性、蛋白質(zhì)結(jié)合轉(zhuǎn)錄因子活性、鳥苷酸交換因子活性。在4~5葉期,差異表達(dá)lncRNA的靶基因主要富集在細(xì)胞組分的類核和分子功能的蛋白質(zhì)結(jié)合轉(zhuǎn)錄因子活性、鳥苷酸交換因子活性。在10~12葉期,差異表達(dá)lncRNA的靶基因主要富集在生物過程中的生物粘附、節(jié)律過程和移動,分子功能的營養(yǎng)庫活性、蛋白質(zhì)結(jié)合轉(zhuǎn)錄因子活性、鳥苷酸交換因子活性。
在生物體內(nèi),不同的基因產(chǎn)物相互協(xié)調(diào)以執(zhí)行生物學(xué)功能,在GO分析基礎(chǔ)上,對差異表達(dá)lncRNA反式靶基因的信號通路注釋分析能夠進(jìn)一步解讀基因的功能(圖7)。在未展葉期,全綠葉片與全白葉片間的差異表達(dá)lncRNA的靶基因主要富集在核糖體、碳代謝、氧化磷酸化、淀粉和糖代謝、氨基酸代謝、脂類代謝等這些基礎(chǔ)代謝和植物激素信號轉(zhuǎn)錄通路上。同時,在卟啉和葉綠素代謝途徑中也富集了7個差異表達(dá)基因。在4~5葉期,差異表達(dá)lncRNA的靶基因主要富集在碳代謝、氧化磷酸化、氨基酸代謝、核糖體這些基礎(chǔ)代謝上。同時,也富集在植物激素信號轉(zhuǎn)導(dǎo)、嘌呤代謝、內(nèi)質(zhì)網(wǎng)蛋白過程、RNA降解、光合作用、淀粉和糖代謝方面。在10~12葉期,差異表達(dá)lncRNA的靶基因主要富集在核糖體、 碳代謝、 氨基酸代謝、氧化磷酸化、內(nèi)質(zhì)網(wǎng)蛋白過程、嘌呤代謝、RNA降解、RNA轉(zhuǎn)運等方面,在卟啉和葉綠素合成代謝途徑、光合作用途徑中也富集了差異表達(dá)基因。與二代測序結(jié)果(藺珍,2019)對比發(fā)現(xiàn),聯(lián)合測序分析增加的靶基因主要富集在碳代謝、氨基酸代謝、氧化磷酸化、RNA降解等通路上。差異表達(dá)基因的富集結(jié)果充分說明lncRNA參與了紅苞鳳梨葉片色素的合成、光合作用、物質(zhì)代謝、生長發(fā)育調(diào)控等生理過程的調(diào)控。
2.6.2 差異表達(dá)lncRNA反式靶基因功能注釋和富集分析 對差異表達(dá)lncRNA反式靶基因進(jìn)行COG、GO、KEGG、KOG、NR和Swiss-Prot功能富集分析,富集分析結(jié)果如表3所示。
功能注釋和富集分析結(jié)果表明,差異表達(dá)lncRNA反式靶基因功能注釋到的基因數(shù)量不多,在葉片發(fā)育過程中,全綠和全白葉片間差異表達(dá)lncRNA順式靶基因主要富集在核糖體、碳代謝、氨基酸的生物合成、氧化磷酸化、內(nèi)質(zhì)網(wǎng)中的蛋白質(zhì)加工以及淀粉與蔗糖代謝等方面;而差異表達(dá)lncRNA反式靶基因主要富集在TCA循環(huán)、淀粉和糖代謝、氨基糖和核糖代謝、RNA降解、氨基酸代謝等方面。兩類lncRNA在不同的生理代謝過程中發(fā)揮著調(diào)控作用。
3 討論與結(jié)論
植物葉色嵌合體嵌合性狀明顯,嵌合方式多樣且易于觀察,是研究植物生長發(fā)育以及遺傳育種的優(yōu)良材料。對植物葉色嵌合體的研究,己經(jīng)成為嵌合體研究的重要方向,深入研究植物嵌合體形成機理,對于植物生長發(fā)育過程中細(xì)胞間的相互作用、植物嵌合性狀穩(wěn)定繁殖以及植物遺傳育種具有十分重要的意義。紅苞鳳梨葉花果具有艷麗的顏色,是重要的新型觀賞植物,是研究葉色鑲嵌形成機理的理想材料。葉肉細(xì)胞的白化突變是金邊嵌合葉色形成的基礎(chǔ)和關(guān)鍵環(huán)節(jié),是多基因協(xié)同作用的結(jié)果。嵌合性狀的形成與穩(wěn)定,與基因表達(dá)的有序調(diào)控是密切相關(guān)的。前期研究表明,轉(zhuǎn)錄后調(diào)控在紅苞鳳梨金邊嵌合性狀形成過程中具有重要作用,而lncRNA可在表觀遺傳調(diào)控、轉(zhuǎn)錄調(diào)控、轉(zhuǎn)錄后調(diào)控等水平發(fā)揮功能,構(gòu)建紅苞鳳梨lncRNA表達(dá)譜,揭示lncRNA的調(diào)控機制對于明確紅苞鳳梨金邊嵌合性狀形成機理具有重要意義。由于紅苞鳳梨基因組信息的缺乏,lncRNA的鑒定分析以二代轉(zhuǎn)錄組測序數(shù)據(jù)為基礎(chǔ),以菠蘿基因組作為參考基因組進(jìn)行分析。紅苞鳳梨與菠蘿為同屬同種不同變種植物,親緣關(guān)系很近(Bartholomew et al.,2003),采用菠蘿基因組數(shù)據(jù)作為參考基因組能有效鑒定紅苞鳳梨的lncRNA,為紅苞鳳梨的表觀遺傳調(diào)控研究提供基礎(chǔ)數(shù)據(jù)。而二代測序技術(shù)由于其讀長短,不能提供完整的轉(zhuǎn)錄本(Koren et al.,2012),很難正確預(yù)測基因的結(jié)構(gòu)(Coghlan et al.,2008)。SMRT全長轉(zhuǎn)錄組測序克服了二代測序讀長短的缺點,是研究基因結(jié)構(gòu)、基因功能和比較基因組學(xué)的基本方法(Sharon et al.,2013;Luo et al.,2017)。本研究采用SMRT全長轉(zhuǎn)錄組測序數(shù)據(jù)和二代測序數(shù)據(jù)混合組裝修正后進(jìn)行l(wèi)ncRNA分析,以提高lncRNA分析的準(zhǔn)確性。
經(jīng)混合組裝校正后的Clean Reads比對到菠蘿參考基因組,比對效率達(dá)到67.74%~78.58%,比二代數(shù)據(jù)分析提高了約5%,有效地提高了長鏈非編碼數(shù)據(jù)的利用率(藺珍,2019)。經(jīng)CPC分析、CNCI分析、CPAT分析、pfam蛋白結(jié)構(gòu)域分析,共鑒定得到6 018個lncRNA,比之前鑒定得到的lncRNA數(shù)量提高了約70%,極大地豐富了紅苞鳳梨lncRNA數(shù)據(jù)庫,為紅苞鳳梨表觀遺傳調(diào)控的研究提供了基礎(chǔ)數(shù)據(jù)。在鑒定得到的6 018個lncRNA中,最多的是intergenic lncRNA,占比約55%,比之前結(jié)果提高了約2倍。而sense lncRNA的數(shù)量極顯著下降,由之前的75%下降到18.5%(藺珍,2019)。本次分析結(jié)果中4種lncRNA的數(shù)量分布與玉米(Zea mays)(Wang et al.,2016)基本相似,修正了之前分析結(jié)果中,sense lncRNA比例太高的情況。SMRT全長轉(zhuǎn)錄組測序數(shù)據(jù)與lncRNA二代轉(zhuǎn)錄組測序數(shù)據(jù)的聯(lián)合分析,有效地提高了lncRNA測序數(shù)據(jù)的利用效率,很大程度上彌補了以近緣種菠蘿基因組作為參考基因組鑒定lncRNA所帶來的缺陷,鑒定得到的lncRNA數(shù)量極顯著提高,豐富了紅苞鳳梨lncRNA數(shù)據(jù)庫信息。聯(lián)合分析結(jié)果中,修正了4種lncRNA數(shù)量分布的異常,提高了lncRNA鑒定結(jié)果的準(zhǔn)確性,有效地提高了后期相關(guān)研究的可行性和可靠性。lncRNA和mRNA序列結(jié)構(gòu)對比分析表明,與編碼基因相比,lncRNA具有表達(dá)豐度較低、序列長度較短、外顯子數(shù)目較少、ORF長度較短等結(jié)構(gòu)特點。這與斑馬魚(Brachydanio rerio)(高霄霄,2017)、臭橘(Poncirus trifoliata)(Wang et al.,2017)、楊樹(Populus)(田凈凈,2016)的分析結(jié)果一致,說明lncRNA的這些結(jié)構(gòu)特征在生物中具有普遍性。
lncRNA靶基因的預(yù)測以及靶基因的功能注釋和富集分析,是研究lncRNA功能的重要途徑(藺珍,2019)。本研究中GO和KEGG聯(lián)合分析結(jié)果表明,在葉片發(fā)育的三個時期,差異表達(dá)lncRNA的靶基因注釋到了葉片生長發(fā)育的多個方面,包括了碳代謝、氨基酸代謝、脂代謝、核糖體、淀粉和糖代謝等這些基礎(chǔ)代謝方面,也包括了植物激素信號轉(zhuǎn)導(dǎo)等調(diào)控機制方面。在未展葉期,差異表達(dá)lncRNA的靶基因注釋到了卟啉和葉綠素代謝途徑,說明在葉片發(fā)育的早期,全綠和全白葉片的葉綠素合成代謝就已出現(xiàn)差異,從而導(dǎo)致了葉片顏色的差異。在4~5葉期和10~12葉期,光合作用途徑富集了差異表達(dá)基因,說明由于葉片的失綠白化,光合作用受到抑制,相關(guān)基因差異表達(dá)。同時,由于光合作用能力的差異,全綠和全白葉片在各個生理代謝方面都表現(xiàn)出差異,在很多基礎(chǔ)代謝、調(diào)控途徑、核酸代謝等方面都富集了差異表達(dá)基因。這些基因表達(dá)模式說明,lncRNA對靶基因表達(dá)的調(diào)控作用可能在紅苞鳳梨葉片發(fā)育早期葉綠素合成代謝差異以及后期光合作用差異和其他生理代謝差異方面都起著重要的調(diào)控作用。本研究鑒定出的相關(guān)差異表達(dá)lncRNA信息,為進(jìn)一步研究lncRNA對靶基因的調(diào)控作用及靶基因在紅苞鳳梨葉片失綠白化突變機制,以及全面揭示紅苞鳳梨金邊嵌合體形成的機理提供了重要的數(shù)據(jù)基礎(chǔ)。
參考文獻(xiàn):
BARTHOLOMEW DP, PAULL RE, ROHRBACH KG, 2003, The pineapple: Botany, production and uses [M]. Wallingford: CABI Publishing.
CAO L, 2011. A study on in vitro culture of chimera cultivars of Ananas bracteatus schultes and their stability of chimeric traits [D]. Guangzhou: South China Agricultural University: 1-57. [曹莉, 2011. 紅苞鳳梨嵌合體品種離體培養(yǎng)及其穩(wěn)定性的研究 [D]. 廣州: 華南農(nóng)業(yè)大學(xué): 1-57.]
CSORBA T, QUESTA JI, SUN Q, et al., 2014. Antisense COOLAIR mediates the coordinated switching of chromatin states at FLC during vernalization [J]. Proc Natl Acad Sci USA, 111(45): 16160-16165.
COGHLAN A, FIEDLER TJ, MCKAY SJ, et al., 2008. nGASP—the nematode genome annotation assessment project [J]. BMC Bioinformatics, 9: 549DOI 10.1186/1471-2105-9-549.
DING JH, LU Q, OUYANG YD, et al., 2012. A long noncoding RNA regulates photoperiod-sensitive male sterility, an essential component of hybrid rice [J]. Proc Natl Acad Sci USA, 109(7): 2654-2659.
ENGLISH AC, RICHARDS S, HAN Y, et al., 2012. Mind the gap: Upgrading genomes with Pacific biosciences RS long-read sequencing technology [J]. PLoS ONE, 7(11): e47768.
FLUSBERG BA, WEBSTER DR, LEE JH, et al., 2010. Direct detection of DNA methylation during single-molecule, real-time sequencing [J]. Nat Methods, 7(6): 461-465.
FINN RD, BATEMAN A, CLEMENTS J, et al., 2014. Pfam: The protein families database [J]. Nucl Acid Res, 42(Database issue): D222-D230.
GUO F, WANG D, WANG LS, 2018. Progressive approach for SNP calling and haplotype assembly using single molecular sequencing data [J]. Bioinformatics, 34(12): 2012-2018.
GAO XX, 2017. Screening and identification of long noncoding RNAs in thepubertal female goats [D]. Hefei: Anhui Agricultural University: 1-39. [高霄霄, 2017. 初情期雌性山羊 lncRNA 的篩選與鑒定 [D]. 合肥: 安徽農(nóng)業(yè)大學(xué): 1-39.]
HACKL T, HEDRICH R, SCHULTZ J, et al., 2014. Proovread: Large-scale high-accuracy PacBio correction through iterative short read consensus [J]. Bioinformatics, 30(21):3004-3011.
JOHNSON R, 2012. Long non-coding RNAs in Huntingtons disease neurodegeneration [J]. Neurobiol Disease, 46(2):245-254.
KOREN S, WALENZ BP, BERLIN K, et al., 2017. Canu: Scalable and accurate long-read assembly via adaptive k-mer weighting and repeat separation [J]. Genome Res, 27(5):722-736.
KOREN S, SCHATZ MC, WALENZ BP, et al., 2012. Hybrid error correction and de novo assembly of single-molecule sequencing reads [J]. Nat Biotechnol, 30(7): 693-700.
KIM D, PERTEA G, TRAPNELL C, et al., 2013. TopHat2: Accurate alignment of transcriptomes in the presence of insertions, deletions and gene fusions [J]. Genome Biol, 14(4): R36.
KONG L, ZHANG Y, YE ZQ, et al., 2007. CPC: Assess the protein-coding potential of transcripts using sequence features and support vector machine [J]. Nucl Acid Res, 35(Web Server issue): W345-W349.
KOREN S, SCHATZ MC, WALENZ BP, et al., 2012. Hybrid error correction and de novo assembly of single-molecule sequencing reads [J]. Nat Biotechnol, 30(7): 693-700 DOI 10.1038/nbt.2280.
LIN Z, 2019. Identification of A. comosus var. bracteatus lncRNAs and functional verification of lncABCG11 [D]. Yaan: Sichuan Agricultural University: 1-113 [藺珍, 2019. 紅苞鳳梨lncRNAs的鑒定及l(fā)ncABCG11的功能驗證 [D]. 雅安: 四川農(nóng)業(yè)大學(xué): 1-113.]
LI X, KANAKALA S , HE YH, et al., 2017. Physiological characterization and comparative transcriptome analysis of white and green leaves of Ananas comosus var. bracteatus [J]. PLoS ONE, 12(1): e0169838.
LANGMEAD B, TRAPNELL C, POP M, et al., 2009. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome [J]. Genome Biol, 10(3): R25.
LI JW, MA W, ZENG P, et al., 2015. LncTar: A tool for predicting the RNA targets of long noncoding RNAs [J]. Brief Bioinform, 16(5): 806-812.
LUO YH, DING N, SHI X, et al., 2017. Generation and comparative analysis of full-length transcriptomes in sweetpotato and its putative wild ancestor I. trifida [J]. BioRxiv, https://doi.org/10.1101/112425
MA DN, ZHANG XT, WEI LF, et al., 2018. Benchmarking hybrid correction and assembly using short Illumina reads and long pac bio reads [J]. Genom Appl Biol, 37(4):1547-1555. [馬東娜, 張興坦, 魏柳鋒, 等, 2018. 基因組二代測序數(shù)據(jù)與三代測序數(shù)據(jù)的混合校正和組裝 [J]. 基因組學(xué)與應(yīng)用生物學(xué), 37(4): 1547-1555.]
MA J, XIANG YX, XIONG YY, et al., 2018. SMRT sequencing analysis reveals the full-length transcripts and alternativesplicing patterns in ?Ananas comosus var.bracteatus [J]. Peer J, 7: e7062
MA JC, 2018. Genome sequence of a widely cultivated poplar and its lnc RNAs response to salt stress [D].Lanzhou: Lanzhou University: 1-82. [馬建超, 2018. 新疆楊基因組及其lncRNA響應(yīng)鹽脅迫的研究 [D]. 蘭州: 蘭州大學(xué): 1-82.]
QIN T, ZHAO HY, CUI P, et al., 2017. A nucleus-localized long non-coding RNA enhances drought and salt stress tolerance [J]. Plant Physiol, 175(3): 1321-1336.
SMITH CC, WANG Q, CHIN CS, et al., 2012. Validation of ITD mutations in FLT3 as a therapeutic target in human acute myeloid leukaemia [J]. Nature, 485(7397): 260-263.
SUN L, LUO HT, BU DC, et al., 2013. Utilizing sequence intrinsic composition to classify protein-coding and long non-coding transcripts [J]. Nucl Acid Res, 41(17): e166.
SHARON D, TILGNER H, GRUBERT F, et al., 2013. A single-molecule long-readsurvey of the human transcriptome [J]. Nat Biotechnol, 31:1009-1014. DOI: 10.1038/nbt.2705.
TRAPNELL C, WILLIAMS BA, PERTEA G, et al., 2010. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation [J]. Nat Biotechnol, 28(5): 511-515.
TIAN JJ, 2016. The application of CRISPR/Cas9 system in the zebrafish gene editing [D]. Yangzhou: Yangzhou University: 1-68. [田凈凈, 2016CRISPR/Cas9 系統(tǒng)在斑馬魚基因編輯研究中的應(yīng)用 [D]. 揚州: 揚州大學(xué): 1-68.]
WANG YF,SU WY, ZHANG L, et al., 2018. Advances of long non-coding RNA in plants [J]. Acta Bot Boreal-Occident Sin, (3): 582-588. [王艷芳, 蘇婉玉, 張琳, 等, 2018. 植物中l(wèi)ncRNAs的研究進(jìn)展 [J]. 西北植物學(xué)報, (3): 582-588.]
WANG LG, PARK HJ, DASARI S, et al., 2013. CPAT: Coding-potential assessment tool using an alignment-free logistic regression model [J]. Nucl Acid Res, 41(6): e74.
WANG B , TSENG E , REGULSKI M , et al., 2016. Unveiling the complexity of the maize transcriptome by single-molecule long-read sequencing [J]. Nat Comm, 7: 11708.
WANG CY, LIU SR, ZHANG XY, et al., 2017. Genome-wide screening and characterization of long non-coding RNAs involved in flowering development of trifoliate orange (Poncirus trifoliata L. Raf.) [J]. Sci Rep, 7: 43226.
XIONG YY, MA J, HE YH , et al., 2018. High-throughput sequencing analysis revealed the regulation patterns of small RNAs on the development of Ananas comosus var. bracteatus leaves [J]. Sci Rep, 8(1):1947.
XIONG YY, 2019. MicroRNAs identification and screening and functional verification of key microRNAs involved in the albino of Ananas comosus var. ?bracteatus [D]. Yaan: Sichuan Agricultural University: 1-95. [熊穎媛, 2019. 紅苞鳳梨microRNA的鑒定及白化關(guān)鍵microRNA的篩選與功能驗證 [D]. 雅安: 四川農(nóng)業(yè)大學(xué): 1-95.]
XUE YB, MA J, HE YH, et al., 2019. Comparative transcriptomic and proteomic analyses of the green and white parts of chimeric leaves in Ananas comosus var. bracteatus [J]. PeerJ, 7: e7261.
XU WN, HUANG RM, LIU YY, et al., 2018. Genome sequencing and assembly strategy analyses of Flammulina filiformis [J]. Mycosystema, 37(12): 1578-1585. [徐偉南, 黃蓉梅, 劉媛媛, 等, 2018. 金針菇基因組測序與組裝策略分析 [J]. 菌物學(xué)報, 37(12): 1578-1585.]
YU CL, LUO L, LIAO Q, 2015. Annotation and functional prediction of lncRNAs [J]. Chin J Biochem Mol Biol, (3): 239-243. [余鋮亮, 駱亮, 廖奇, 2015. lncRNAs功能注釋和預(yù)測 [J]. 中國生物化學(xué)與分子生物學(xué)報, (3): 239-243.]
ZHANG YW, TAO Y, LIAO Q, 2018. Long noncoding RNA: A crosslink in biological regulatory network [J]. Brief Bioinform, 19(5): 930-945.
(責(zé)任編輯 李 莉)