任治鵬,王多佳,田 宇,婁貴成,李 暢,王政委,張 達(dá),蒼 晶
(東北農(nóng)業(yè)大學(xué)生命科學(xué)學(xué)院,黑龍江哈爾濱 150030)
MicroRNA(miRNA)是一類長(zhǎng)度為21~24 nt的非編碼RNA,廣泛存在于植物中,通過負(fù)調(diào)控其靶基因,參與調(diào)控植物的生長(zhǎng)發(fā)育和逆境脅迫響應(yīng)[1-2]。miRNA的生物合成過程主要包括miRNA基因的轉(zhuǎn)錄、初始轉(zhuǎn)錄本加工為成熟miRNA以及成熟miRNA裝載形成RNA誘導(dǎo)的沉默復(fù)合體(RNA-induced silencing complex,RISC)[3-7]。RISC通過酶切降解靶基因mRNA或者抑制靶基因mRNA的翻譯,從而對(duì)靶基因進(jìn)行轉(zhuǎn)錄后水平上的調(diào)控[8]。
在植物中,能夠轉(zhuǎn)錄形成miRNA的miRNA基因大部分位于基因間隔區(qū),作為獨(dú)立的轉(zhuǎn)錄單位,只有部分miRNA基因位于蛋白質(zhì)編碼基因內(nèi),能與宿主基因共同轉(zhuǎn)錄[9]。研究表明,miRNA基因由RNA聚合酶Ⅱ(RNA polymerase Ⅱ,Pol Ⅱ)轉(zhuǎn)錄[10]。Pol Ⅱ型啟動(dòng)子包括核心啟動(dòng)子區(qū)和上游作用元件,核心啟動(dòng)子區(qū)主要由TATA-box、轉(zhuǎn)錄起始位點(diǎn)(transcription start site,TSS)等構(gòu)成[11]。了解miRNA基因的位置、啟動(dòng)子的TSS、特定順式作用元件等上游序列特征,對(duì)于研究miRNA的表達(dá)模式及miRNA介導(dǎo)的調(diào)控網(wǎng)絡(luò)具有重要意義[12]。近年來(lái),通過生物信息學(xué)分析結(jié)合高通量測(cè)序,對(duì)植物miRNA基因的啟動(dòng)子開展了一定的研究。如在擬南芥中,Megraw等[13]和Xie等[14]通過5′-RACE的方法,發(fā)現(xiàn)大部分?jǐn)M南芥miRNA啟動(dòng)子包含TATA-box。Zhou等[15]通過CoVote的方法,在擬南芥、水稻等植物中鑒定了基因間miRNA基因的啟動(dòng)子,結(jié)果表明,miRNA基因與蛋白質(zhì)編碼基因均由Pol Ⅱ型啟動(dòng)子啟動(dòng),并具有特定的上游元件。Zhao等[16]利用cDNA數(shù)據(jù)對(duì)水稻和擬南芥兩種植物miRNA啟動(dòng)子元件進(jìn)行比較,同時(shí)通過ChIP方法對(duì)擬南芥miRNA基因的TSS進(jìn)行了預(yù)測(cè)[17]。隨著植物基因組研究的發(fā)展,促進(jìn)了miRNA啟動(dòng)子的鑒定和研究。如Cui等[18]通過基因組數(shù)據(jù),定位了水稻miRNA前體(miRNA precursor,pre-miRNA)在染色體上的位置,并通過TSSP軟件預(yù)測(cè)了miRNA基因的TSS、TATA-box等核心啟動(dòng)子區(qū)。Liu等[19]和Han等[20]利用大豆基因組數(shù)據(jù)對(duì)miRNA基因的啟動(dòng)子特征進(jìn)行了相關(guān)分析。Kanjanawattanawong[21]等發(fā)現(xiàn),橡膠樹中對(duì)乙烯響應(yīng)的miRNA啟動(dòng)子具有多種植物激素相關(guān)作用元件。Zhou等[22]利用TSSP-TCM軟件對(duì)擬南芥、毛果楊、水稻、高粱4種植物的miRNA啟動(dòng)子進(jìn)行生物信息學(xué)分析,發(fā)現(xiàn)基因間和基因內(nèi)以及保守和非保守miRNA的啟動(dòng)子具有不同的基因組分布特征及特異性作用元件。此外,研究者在擬南芥[23]、水稻[24]miRNA啟動(dòng)子中也發(fā)現(xiàn)具有與脅迫相關(guān)的特異性轉(zhuǎn)錄因子結(jié)合元件。
六倍體(2n=6x=42,AABBDD)普通小麥(TriticumaestivumL.)是全球種植最廣泛的農(nóng)作物之一,為人類提供了20%的消耗能量[25]。目前,對(duì)小麥miRNA的研究主要集中于克隆鑒定、表達(dá)特征分析以及通過預(yù)測(cè)靶基因進(jìn)行功能研究等方面[25-26],然而關(guān)于小麥miRNA啟動(dòng)子的研究報(bào)道較少。近年來(lái),國(guó)際小麥基因組測(cè)序聯(lián)盟(International Wheat Genome Sequencing Consortium,IWGSC)對(duì)中國(guó)春小麥基因組的組裝工作已經(jīng)完成,其公布的小麥全基因組序列信息對(duì)于小麥miRNA啟動(dòng)子的分析研究具有極大的促進(jìn)作用。本研究通過生物信息學(xué)方法對(duì)miRNA基因組位置分布、miRNA啟動(dòng)子預(yù)測(cè)以及順式作用元件的富集和特異性進(jìn)行研究,以期在基因組水平對(duì)小麥miRNA啟動(dòng)子有一個(gè)較為全面的了解,為小麥miRNA的轉(zhuǎn)錄調(diào)控探究以及新miRNA的預(yù)測(cè)提供依據(jù)。
所有的小麥miRNA序列來(lái)源于miRBase數(shù)據(jù)庫(kù)(Release 22.1,http://www.mirbase.org/)[27]。從Ensembl Plants(ftp://ftp.ensemblgenomes.org/pub/plants/release-48/fasta/triticum_aestivum/dna/)下載中國(guó)春小麥基因組序列信息。使用URGI BLAST(https://urgi.versailles.inrae.fr/blast/?dbgroup=wheat_iwgsc_refseq_v2_chromosomes&program=blastn)[28]進(jìn)行小麥pre-miRNA的基因組定位,選擇identities=100%的blast結(jié)果作為miRNA基因的位置,對(duì)于identities≠100%的miRNA則將identities≥97%且mismatches≤2的結(jié)果作為miRNA基因的位置[19]。預(yù)測(cè)的miRNA基因通過Mapchart 2.30[29]軟件進(jìn)行小麥染色體圖譜的繪制。所有能夠定位于小麥基因組上的miRNA基因根據(jù)兩種方法進(jìn)行分類,第一種分類方法是根據(jù)miRNA保守性分為保守和非保守miRNA基因,鑒定方法如下:首先利用miRBase提供的所有物種pre-miRNA序列建立本地blast庫(kù),然后將所有小麥pre-miRNA進(jìn)行本地blast比對(duì)。如果其他植物中存在identities>85%且alignment length>90%的相似序列[22],則該基因?yàn)樾←湵J豰iRNA基因,否則為非保守性miRNA基因。第二種分類方法則根據(jù)miRNA基因在染色體上的位置進(jìn)行分類,通過JBrowse(https://urgi.versailles.inra.fr/jbrowseiwgsc/gmod_jbrowse/)[30]判斷miRNA基因的分布情況,將miRNA基因分為基因間和基因內(nèi)兩種類型。基因間miRNA位于蛋白質(zhì)編碼基因之間,而基因內(nèi)miRNA序列位置則與蛋白質(zhì)編碼基因重疊[15]。判斷miRNA基因染色體位置參考的編碼蛋白質(zhì)基因數(shù)據(jù)為IWGSC中國(guó)春Annotation v1.1數(shù)據(jù)庫(kù)[31],包括可高信度(HC)和低信度(LC)蛋白質(zhì)編碼基因座。
首先通過Zhou等[15]的方法獲得pre-miRNA的基因間5′端上游序列,當(dāng)pre-miRNA與上游蛋白質(zhì)編碼基因轉(zhuǎn)錄方向相同時(shí),如果它們之間的距離大于2 400 bp,則檢索pre-miRNA上游2 000 bp序列;如果距離小于2 400 bp,則檢索上游蛋白質(zhì)編碼基因下游400 bp與pre-miRNA之間的序列。當(dāng)pre-miRNA及其上游蛋白質(zhì)編碼基因轉(zhuǎn)錄方向相反時(shí),如果它們之間的距離大于4 000 bp,則獲取pre-miRNA上游的2 000 bp序列,如果距離小于4 000 bp,則檢索從pre-miRNA到中間點(diǎn)(上游蛋白質(zhì)編碼基因與pre-miRNA之間)的序列。將以上方法獲得的序列作為潛在的啟動(dòng)子預(yù)測(cè)區(qū)域,利用TSSP(http://www.softberry.com)進(jìn)行小麥miRNA啟動(dòng)子及TSS的預(yù)測(cè)。
利用PlantCARE數(shù)據(jù)庫(kù)(http://bioinformatics.psb.ugent.be/webtools/plantcare/html/)[32]對(duì)miRNA啟動(dòng)子TSS到上游2 000 bp序列中的順式作用元件進(jìn)行分析。對(duì)于有多個(gè)啟動(dòng)子的miRNA基因,為獲得盡可能多的順式作用元件信息,選擇距離pre-miRNA起始位點(diǎn)最近的TSS進(jìn)行分析。為了進(jìn)一步研究miRNA啟動(dòng)子區(qū)域基序的特異性,通過MEME(https://meme-suite.org/meme//tools/meme)[33]對(duì)miRNA啟動(dòng)子上游序列中長(zhǎng)度為10 bp的基序進(jìn)行鑒定,選擇結(jié)果中前20個(gè)基序進(jìn)行分析,其他設(shè)定為默認(rèn)值。利用全基因組蒙特卡羅模擬方法獲得基序的Z-score,從而判斷各基序在小麥miRNA啟動(dòng)子的特異性[15],具體方法如下:首先將所有獲得的miRNA啟動(dòng)子序列作為目標(biāo)集,然后在小麥基因組上隨機(jī)選擇長(zhǎng)度為2 000 bp的序列作為參考集,參考集與目標(biāo)集的序列數(shù)目相同;通過FIMO(https://meme-suite.org/meme//tools/fimo)統(tǒng)計(jì)特定基序在目標(biāo)集和參考集miRNA序列上平均數(shù)量,分別記為Nt和Nr。Z-score的計(jì)算公式為Z=(Nt/Nr)=σ,它能測(cè)量目標(biāo)集中的基序平均出現(xiàn)次數(shù)與參考集樣本的均值之間的歸一化差異[22]。利用CpGPlot(http://emboss.bioinformatics.nl/cgi-bin/emboss/cpgplot)對(duì)小麥miRNA TSS上游序列中的CpG島進(jìn)行分析。
目前為止,miRBase數(shù)據(jù)庫(kù)(Release 22.1)共收錄122個(gè)小麥pre-miRNA序列。小麥pre-miRNA序列和中國(guó)春基因組序列blast結(jié)果表明,105個(gè)(86.1%)pre-miRNA定位于小麥染色體上的150個(gè)基因座上,而其余17個(gè)(13.9%)pre-miRNA位于未知染色體或基因組的基因座上,下文中不對(duì)此類pre-miRNA進(jìn)行統(tǒng)計(jì)。pre-miRNA分布在小麥所有42條染色體上,其中A組染色體上有54個(gè),B染色體上有56個(gè),而D組染色體上有40個(gè),93個(gè)(76.2%)pre-miRNA在染色體上只有1個(gè)拷貝,含有2個(gè)和2個(gè)以上拷貝的pre-miRNA分別有4和8個(gè),共占比 9.84%,其他17個(gè)pre-miRNA的拷貝為0。
150個(gè)小麥miRNA基因座中有148個(gè)能夠獲得啟動(dòng)子潛在區(qū)域,對(duì)148個(gè)miRNA基因座5’上游序列進(jìn)行啟動(dòng)子預(yù)測(cè),由于部分miRNA基因座能夠預(yù)測(cè)到多個(gè)啟動(dòng)子,因此共獲得166個(gè)miRNA潛在啟動(dòng)子。115個(gè)(77.7%)小麥pre-miRNA基因能夠預(yù)測(cè)到一個(gè)啟動(dòng)子,其中,69個(gè)基因的上游序列只能預(yù)測(cè)到一個(gè)啟動(dòng)子,而其他基因具有多個(gè)啟動(dòng)子。
TSS是重要的啟動(dòng)子核心元件,對(duì)小麥miRNA基因TSS位點(diǎn)與pre-miRNA距離分布進(jìn)行統(tǒng)計(jì)分析,發(fā)現(xiàn)大部分小麥miRNA基因的TSS分布在上游0.8 kb區(qū)域內(nèi)以及1.0~1.6 kb區(qū)域內(nèi),占全部啟動(dòng)子TSS數(shù)的81.9%(0~0.8 kb:54.2%,1.0~1.6 kb:27.7%)。在所有上游區(qū)域中,小麥miRNA基因的TSS在上游0.2 kb區(qū)域內(nèi)分布最多(24.1%),而在上游0.8~1.0 kb區(qū)域分布較少(5.4%)。
根據(jù)miRNA在基因組的位置不同,可分為基因間miRNA和基因內(nèi)miRNA,從圖1A可以看出,兩種miRNA的TSS均在基因上游0.2 kb區(qū)域內(nèi)分布較多,不同的是基因內(nèi)miRNA在上游0.2~0.4 kb、0.6~0.8 kb、1.4~1.6 kb間也具有較多的TSS分布,而基因間miRNA在這幾個(gè)區(qū)域內(nèi)無(wú)明顯的分布特殊性。根據(jù)miRNA的保守性,可分為保守性miRNA和非保守性miRNA,從圖1B可以看出,兩種miRNA的TSS均在基因上游0.2 kb區(qū)域內(nèi)分布最多,而與非保守miRNA相比,保守miRNA在上游1.4~1.6 kb區(qū)域內(nèi)也具有較多分布。
A:基因間和基因內(nèi)miRNA TSS的分布百分比;B:非保守和保守miRNA TSS的分布百分比。
利用PlantCARE對(duì)所有miRNA基因TSS上游2 000 bp序列進(jìn)行順式作用元件分析,結(jié)果(圖2)表明,miRNA啟動(dòng)子區(qū)域中含有的三種順式作用元件較多,分別為CAAT-box、TATA-box和Unnamed_4。此外與ABA響應(yīng)相關(guān)的元件(ABRE)、與MeJA響應(yīng)相關(guān)的元件(TGACG-motif、CGTCA-motif和MYC)、與光響應(yīng)相關(guān)的元件(G-box)以及與多種脅迫和代謝調(diào)控相關(guān)的元件(MYB)在小麥miRNA基因上游的占比也較高。
圖中數(shù)據(jù)為啟動(dòng)子上游順式作用元件所占百分比。
為進(jìn)一步鑒定小麥miRNA基因啟動(dòng)子上的基序特異性,通過MEME獲得在TSS上游序列出現(xiàn)頻率較高的且長(zhǎng)度為10 bp的基序,然后利用全基因組的蒙特卡羅模擬計(jì)算獲得基序的Z-score。Z-score的大小在一定程度上能反應(yīng)基序在miRNA啟動(dòng)子上的特異性,Z-score大于2的基序具有miRNA基因啟動(dòng)子特異性,與miRNA的轉(zhuǎn)錄調(diào)控有關(guān)的可能性較高[22];而Z-score小于2的基序在其他基因組區(qū)域普遍存在,因此不作為miRNA啟動(dòng)子重要基序進(jìn)行研究。根據(jù)以上標(biāo)準(zhǔn),獲得了3個(gè)Z-score≥2的小麥miRNA啟動(dòng)子特異性基序(表1)。
表1 小麥miRNA基因啟動(dòng)子特異性基序
除順式作用元件外,CpG島也是真核生物polⅡ型啟動(dòng)子的重要特征之一。由于本研究中MIR9670和MIE979可能通過同一個(gè)啟動(dòng)子進(jìn)行轉(zhuǎn)錄,因此對(duì)114個(gè)miRNA基因啟動(dòng)子的CpG島進(jìn)行分析,CpGPlot預(yù)測(cè)結(jié)果表明, 61.4%的小麥miRNA基因TSS上游序列有CpG島分布,啟動(dòng)子區(qū)域含有1、2、3和4個(gè)CpG島的miRNA基因分別有41、17、10、2個(gè)。
本研究首先將miRBase數(shù)據(jù)庫(kù)目前登錄的所有小麥pre-miRNA序列定位于小麥基因組上,在122個(gè)pre-miRNA中有部分序列無(wú)法通過blast獲得基因座,其可能原因?yàn)椋?1)基因位于數(shù)據(jù)庫(kù)中的未知染色體上;(2)pre-miRNA的序列信息不完全,或所研究品種的pre-miRNA序列與參考的中國(guó)春基因組序列存在差異;(3)由于小麥基因組較大,組裝困難,目前提供的基因組版本存在部分染色體序列的缺失。本研究染色體定位結(jié)果表明,所有小麥染色體上均存在miRNA基因。前人研究表明,在三個(gè)染色體組中,B組染色體上的miRNA基因分布最多,根據(jù)IWGSC數(shù)據(jù)庫(kù),編碼蛋白的基因也在B組染色體上的分布最多[21]。本研究選擇blast結(jié)果為100%的染色體位置為miRNA基因座,因此多拷貝的miRNA基因序列相同。具有多拷貝的miRNA基因中,只有MIR6197和MIR9774在三個(gè)染色體組上均具有拷貝,其他基因只在一個(gè)或兩個(gè)染色體組上具有拷貝,這說明大部分基因在不同染色體組上存在序列不同的情況。在動(dòng)物中,miRNA基因通常聚簇并形成多順反子RNA共轉(zhuǎn)錄,而只有部分植物miRNA基因存在成簇miRNA。與非成簇miRNA不同,成簇的多個(gè)miRNA可通過同一個(gè)啟動(dòng)子進(jìn)行轉(zhuǎn)錄[18]。Singh等[34]研究表明,小麥中209個(gè)miRNA存在于89個(gè)多順反子基因座上。本研究中,由于使用的miRBase數(shù)據(jù)庫(kù)的注釋miRNA信息有限,只發(fā)現(xiàn)了1個(gè)小麥miRNA簇,該miRNA簇中的MIR9670和MIR9779位于6D染色體上,為非保守miRNA,未在Singh等[35]的研究中報(bào)道。對(duì)MIR9670和MIR9779的啟動(dòng)子預(yù)測(cè)結(jié)果發(fā)現(xiàn),只有一個(gè)miRNA啟動(dòng)子位于上游序列,說明這兩個(gè)miRNA可能通過同一個(gè)啟動(dòng)子進(jìn)行轉(zhuǎn)錄。小麥成簇miRNA的啟動(dòng)子特點(diǎn)可通過其他miRNA庫(kù)進(jìn)行更深層次的研究。
150個(gè)miRNA基因中有148個(gè)具有啟動(dòng)子潛在區(qū)域,MIR1133和MIR1135基因與上游蛋白質(zhì)編碼基因距離過近,無(wú)法獲得啟動(dòng)子區(qū)域。本研究通過TSSP對(duì)小麥miRNA基因的polⅡ型啟動(dòng)子進(jìn)行了預(yù)測(cè),結(jié)果表明,大部分pre-miRNA(77.7%)上游具有潛在的啟動(dòng)子序列,而少部分miRNA基因無(wú)法預(yù)測(cè)到啟動(dòng)子,原因可能為:(1)原始miRNA序列較長(zhǎng),利用pri-RNA加工后形成pre-miRNA序列信息進(jìn)行啟動(dòng)子預(yù)測(cè),其啟動(dòng)子可能位于pre-miRNA的上游2 kb以外;(2)大多數(shù)啟動(dòng)子預(yù)測(cè)軟件都使用同源搜索的方法,因此可能無(wú)法預(yù)測(cè)miRNA啟動(dòng)子的非保守性啟動(dòng)子;(3)由于基因組的重復(fù)性,部分基因組上具有多個(gè)拷貝的pre-miRNA序列為假基因,不發(fā)生轉(zhuǎn)錄,因此無(wú)法進(jìn)行啟動(dòng)子預(yù)測(cè)[19]。miRNA根據(jù)基因位置分為基因間miRNA和基因內(nèi)miRNA,基因內(nèi)miRNA通常與宿主基因共同轉(zhuǎn)錄,但Cui等[18]的研究表明,基因內(nèi)miRNA也可能具有單獨(dú)的啟動(dòng)子,形成獨(dú)立的轉(zhuǎn)錄本。本研究對(duì)基因內(nèi)miRNA和基因間miRNA啟動(dòng)子數(shù)目分別進(jìn)行了統(tǒng)計(jì),發(fā)現(xiàn)74.3%的基因內(nèi)miRNA至少具有1個(gè)polⅡ型啟動(dòng)子。以上結(jié)果表明,小麥中相當(dāng)一部分的基因內(nèi)miRNA也同樣具有獨(dú)立的啟動(dòng)子,而未預(yù)測(cè)到啟動(dòng)子的基因內(nèi)miRNA則可能由宿主基因啟動(dòng)子啟動(dòng)轉(zhuǎn)錄。
TSS是基因的轉(zhuǎn)錄起始位點(diǎn),因此TSS的預(yù)測(cè)對(duì)于miRNA基因轉(zhuǎn)錄特點(diǎn)的研究具有一定的意義。本研究對(duì)TSS與pre-miRNA的距離進(jìn)行統(tǒng)計(jì)分析,結(jié)果表明,TSS大多數(shù)位于pre-miRNA序列上游800 bp內(nèi),尤其上游200 bp內(nèi)。該結(jié)果與大豆和水稻中的miRNA基因TSS統(tǒng)計(jì)結(jié)果類似[18-19],這說明小麥等植物的大多數(shù)miRNA核心啟動(dòng)子區(qū)域與pre-miRNA序列比較接近,miRNA的PolⅡ啟動(dòng)子近端區(qū)域的核心啟動(dòng)子區(qū)可能對(duì)miRNA的轉(zhuǎn)錄起到更大的作用。
植物基因啟動(dòng)子上的順式作用元件能夠識(shí)別結(jié)合特定的轉(zhuǎn)錄因子,從而對(duì)基因的轉(zhuǎn)錄進(jìn)行相應(yīng)的時(shí)空特異性調(diào)控[24]。本研究對(duì)TSS上游序列進(jìn)行了順式作用元件分析,結(jié)果表明,miRNA基因啟動(dòng)子區(qū)域存在多種順式作用元件。其中TATA-box最多,TATA-box是一種廣泛存在的DNA基序,擬南芥和水稻中miRNA特異性基序的功能尚不清楚,但新發(fā)現(xiàn)的基序?qū)τ谠谛←溨需b定新的特異性miRNA以及進(jìn)行miRNA的試驗(yàn)分析具有一定的借鑒意義。除順式作用元件外,CpG島也是重要的啟動(dòng)子序列特征[35]。本研究在小麥中部分miRNA基因上游序列鑒定出了CpG島,而前人在擬南芥miRNA啟動(dòng)子中未鑒定到CpG島,水稻miRNA啟動(dòng)子中鑒定出的CpG島也較少[15],煙草中的MIR169基因家族中也未鑒定到CpG島的存在[36]。以上結(jié)果說明,小麥、水稻等單子葉植物中,CpG島的分布情況可能與雙子葉植物不同。
miRNA在植物的基因調(diào)控中起到了重要作用,啟動(dòng)子是控制miRNA基因表達(dá)的重要結(jié)構(gòu),因此對(duì)于miRNA基因啟動(dòng)子的分析研究具有較大的意義。本研究利用公布的小麥基因組信息對(duì)小麥miRNA啟動(dòng)子進(jìn)行了分析,研究了小麥miRNA的染色體定位以及TSS分布、順式作用元件特異性等啟動(dòng)子特征,相關(guān)結(jié)果對(duì)于小麥miRNA表達(dá)調(diào)控的研究及新miRNA的預(yù)測(cè)具有一定的借鑒意義。在未來(lái)的研究中,隨著小RNA測(cè)序以及分子實(shí)驗(yàn)技術(shù)的進(jìn)步,可獲得更多的miRNA功能信息,并結(jié)合試驗(yàn)方法對(duì)相關(guān)結(jié)果進(jìn)行進(jìn)一步的驗(yàn)證。