夏麗飛,朱興正,梁名志,馬 偉,宋維希,田易萍,周 萌,陳林波
(云南省農(nóng)業(yè)科學(xué)院茶葉研究所/云南省茶樹(shù)種質(zhì)資源創(chuàng)新與配套栽培技術(shù)工程研究中心,云南 勐海 666201)
基于RNA-Seq技術(shù)的茶樹(shù)花轉(zhuǎn)錄組分析
夏麗飛,朱興正*,梁名志,馬 偉,宋維希,田易萍,周 萌,陳林波**
(云南省農(nóng)業(yè)科學(xué)院茶葉研究所/云南省茶樹(shù)種質(zhì)資源創(chuàng)新與配套栽培技術(shù)工程研究中心,云南 勐海 666201)
本研究利用RNA-seq技術(shù)對(duì)父本、母本、子代不育茶樹(shù)花三個(gè)樣本花的轉(zhuǎn)錄組進(jìn)行測(cè)定,經(jīng)組裝分析獲得403 469條高質(zhì)量的Unigenes。將獲得的Unigenes與SWISS-PROT、TREMBL、CDD、PFAM、NR和KOG庫(kù)進(jìn)行blast,共注釋到307 291條Unigenes。KOG功能分類顯示,有23 739個(gè)Unigenes被分為25類。KEGG通路分析表明,共識(shí)別出26 967個(gè)Unigenes涉及的pathway有328個(gè)。SSR查找發(fā)現(xiàn),從403 469個(gè)Unigenes中找到46 440個(gè)含有SSR序列。這些信息為茶樹(shù)不育基因篩選、不育機(jī)理研究以及分子標(biāo)記開(kāi)發(fā)奠定了基礎(chǔ)。
茶樹(shù);轉(zhuǎn)錄組測(cè)序;不育基因;分子標(biāo)記
茶樹(shù)是重要的葉用經(jīng)濟(jì)作物,茶樹(shù)栽培的目的是為了多采收嫩芽葉。茶樹(shù)的生長(zhǎng)過(guò)程包括營(yíng)養(yǎng)生長(zhǎng)和生殖生長(zhǎng),生殖生長(zhǎng)期長(zhǎng),從當(dāng)年的花芽分化和花器官發(fā)育,到下一年的茶果生長(zhǎng)成熟,要花費(fèi)1年半的時(shí)間,消耗大量的營(yíng)養(yǎng)物質(zhì),影響了茶葉的營(yíng)養(yǎng)生長(zhǎng)[1-2]。茶樹(shù)開(kāi)花結(jié)果會(huì)爭(zhēng)奪茶葉養(yǎng)分,致使茶葉產(chǎn)量下降、質(zhì)量降低[3-4]。因此,對(duì)于以采收嫩芽葉的茶樹(shù)來(lái)說(shuō),減少或阻止茶樹(shù)開(kāi)花結(jié)實(shí),控制生殖生長(zhǎng),促進(jìn)營(yíng)養(yǎng)生長(zhǎng)是關(guān)系到茶樹(shù)產(chǎn)量和品質(zhì)提高的關(guān)鍵,也是關(guān)系到茶樹(shù)育種的關(guān)鍵,同時(shí)也是防止茶樹(shù)老化的措施之一。
云南省農(nóng)業(yè)科學(xué)院茶葉研究所科技人員以福鼎大白茶茶樹(shù)作為父本、佛香2號(hào)茶樹(shù)作為母本,通過(guò)人工雜交授粉獲得一株特異茶樹(shù)材料。通過(guò)多年的觀測(cè)發(fā)現(xiàn),該花沒(méi)有花粉,經(jīng)人工去雄授粉發(fā)現(xiàn)該花不結(jié)茶果,自然狀態(tài)也不結(jié)果,對(duì)該花的可溶性糖分析發(fā)現(xiàn),其可溶性糖低于正常花。因此,該花在生理上或遺傳上顯示出明顯的不育特征[5],是茶樹(shù)花不育的天然突變體。本研究利用RNA-seq技術(shù)對(duì)母本、父本、子代不育花3樣本的轉(zhuǎn)錄組進(jìn)行測(cè)序以及生物信息學(xué)相關(guān)分析,為篩選茶樹(shù)不育基因以及進(jìn)一步開(kāi)展功能基因組研究提供幫助。
1.1 研究材料
選用云南省農(nóng)業(yè)科學(xué)院茶葉研究所實(shí)驗(yàn)基地的福鼎大白茶花(父本)、佛香2號(hào)花(母本)以及他們的雜交后代(不育花)為材料,11月份采摘父本花(花蕾、初開(kāi)花、盛開(kāi)花)、母本花(花蕾、初開(kāi)花、盛開(kāi)花)以及后代不育花(花蕾、初開(kāi)花、盛開(kāi)花),立即放入液氮中固定并放入低溫冰箱保存。
1.2 RNA的提取與檢測(cè)
RNA的提取選用CTAB-LiC1方法[6-7],分別提取佛香2號(hào)茶樹(shù)(母本)花蕾、初開(kāi)花、盛開(kāi)花RNA,采用Nanodrop核酸檢測(cè)儀及2 %的瓊脂糖凝膠電泳檢測(cè)總RNA的含量、穩(wěn)定性和完整性,再進(jìn)行等量混勻,作為母本花樣本RNA,同理獲得父本、不育花樣本RNA。將獲得的父本花RNA、母本花RNA以及不育花RNA送蘇州貝斯派生物科技有限公司分別進(jìn)行轉(zhuǎn)錄組測(cè)序。
1.3 轉(zhuǎn)錄組測(cè)序
1.3.1 Unigene序列組裝 采用Hiseq2500的paired-end測(cè)序得到的reads,利用cutadapt軟件切除reads中含N部分序列以及去除接頭,再使用軟件Trinity進(jìn)行拼接獲得Unigene。
1.3.2 序列注釋、功能分類和生物學(xué)通路分析 將獲得的Unigene與SWISS-PROT、TREMBL、CDD、PFAM、NR和KOG庫(kù)進(jìn)行比較,取相似度>30 %,且e<1e-5的注釋,對(duì)注釋的基因進(jìn)行KOG功能分類預(yù)測(cè)以及利用KEGG數(shù)據(jù)庫(kù)作參考進(jìn)行Unigene的pathway注釋。
1.4 SSR位點(diǎn)查找與分析
對(duì)拼接得到 UniGene進(jìn)行SSR簡(jiǎn)單重復(fù)序列的查找,二核苷酸重復(fù)的次數(shù)在6次或6次以上,三至六核苷酸重復(fù)的次數(shù)在5次或5次以上,同時(shí)分析SSR的基元類型的特征。
圖1 Unigenes序列長(zhǎng)度分布Fig.1 The length distribution of Unigenes sequence
2.1 高通量測(cè)序與序列組裝分析
通過(guò)Hiseq2500的paired-end高通量測(cè)序技術(shù)對(duì)父本、母本、子代不育花的轉(zhuǎn)錄組進(jìn)行測(cè)序,使用軟件Trinity的paired-end拼接方法進(jìn)行de novo拼接,對(duì)拼接序列刪除重復(fù),最終得到403 469個(gè)長(zhǎng)度大于200 bp的轉(zhuǎn)錄本,大小259 Mb。All-Unigene序列長(zhǎng)度主要分布在250~2000 bp,大于2000 bp的有10 618條,范圍在250~950 bp的較多,占全部序列數(shù)量的80 %以上見(jiàn)圖1。
2.2 Unigenes的功能注釋
將樣本Unigenes與Nr、SWISS-PROT、TrEMBL、Cdd、pfam和KOG庫(kù)進(jìn)行比較。307 291條Unigenes被注釋,有96 178的Unigenes未得到注釋,說(shuō)明了茶樹(shù)花轉(zhuǎn)錄組中含有大量的未知基因。表1為注釋到Nr、SWISS-PROT、TrEMBL、Cdd、pfam和KOG等6個(gè)數(shù)據(jù)庫(kù)條目。其中以TrEMBL、NR和PFAM數(shù)據(jù)得到的條目最多,分別占全部條目27.42 %、27.03 %和24.22 %。
注釋基因的同源序列的物種分布情況見(jiàn)圖2,注釋到葡萄(Vitisvinifera)的序列占40.78 %,其次是中粒種咖啡(Coffeacanephora),有10.21 %,再次是可可(Theobromacacao),有10.19 %。這是因?yàn)镹R數(shù)據(jù)庫(kù)中保存葡萄、咖啡和可可大量的基因信息,為本研究轉(zhuǎn)錄組的注釋提供豐富的參考序列。
表1 Unigenes的注釋統(tǒng)計(jì)
圖2 Unigenes在NR庫(kù)中物種分布Fig.2 Species classification of the Unigenes in NR bank
對(duì)Unigenes進(jìn)行GO功能分類預(yù)測(cè),Level2水平下的GO注釋,主要分為生物學(xué)過(guò)程、細(xì)胞組分和分子功能三大類67個(gè)小類。其中代謝過(guò)程、細(xì)胞組成過(guò)程、細(xì)胞、細(xì)胞部分、捆綁、催化活性6類富集程度較高,這可能與茶樹(shù)花發(fā)育過(guò)程分生組織不斷進(jìn)行細(xì)胞增殖以及花器官組織內(nèi)代謝活動(dòng)旺盛有關(guān),見(jiàn)圖3。
對(duì)預(yù)測(cè)基因進(jìn)行KOG功能分類預(yù)測(cè),共有23 739個(gè)Unigenes被注釋上25種KOG分類見(jiàn)圖4。如RNA加工與修飾、染色質(zhì)的結(jié)構(gòu)和動(dòng)力學(xué)、能源產(chǎn)生和轉(zhuǎn)換、細(xì)胞周期調(diào)控、氨基酸的轉(zhuǎn)運(yùn)和代謝等。在25種KOG分類中,注釋最多的是信號(hào)轉(zhuǎn)導(dǎo)機(jī)制(T),其次是一般功能預(yù)測(cè)(R)。值得注意的是,有3742條被注釋到信號(hào)轉(zhuǎn)導(dǎo)機(jī)制上,為后續(xù)研究茶樹(shù)花不育奠定了良好的基礎(chǔ)。
圖3 Unigenes的GO功能注釋及分類統(tǒng)計(jì)Fig.3 GO function annotation and classification of Unigenes
圖4 Unigenes的COG功能注釋分布Fig.4 COG functional annotation distribution of Unigenes
編號(hào)Code代謝途徑MetabolicpathwaysUnigene的條目Unigeneitems百分比(%)Percentage代謝通路IDMetabolicpathwaysID1碳代謝10613.93ko012002氨基酸的生物合成8463.14ko012303淀粉和蔗糖代謝6992.59ko005004糖酵解/糖質(zhì)新生5482.03ko000105丙酮酸代謝4341.61ko00620
表3 SSR不同重復(fù)基元分布及優(yōu)勢(shì)堿基組成
2.3 Unigenes的代謝通路分析
生物學(xué)通路主要包括代謝通路與信號(hào)轉(zhuǎn)導(dǎo)通路,根據(jù)KEGG pathway生物學(xué)通路的注釋和預(yù)測(cè),共識(shí)別出26 967個(gè) Unigenes,具有對(duì)應(yīng)的1081種酶(Enzy-me, EC)功能,并關(guān)聯(lián)到328條生物學(xué)通路。其中與 “代謝通路”相關(guān)的 Unigenes 最多是碳代謝通路,占3.93 %(1 061條),其次是氨基酸的生物合成、淀粉和蔗糖代謝,分別占3.14 %、2.59 %。表2列出Unigenes注釋最多的5個(gè)pathway。此外,從KEGG分析中,鑒定出29個(gè)編碼含MADS-box轉(zhuǎn)錄因子的Unigenes。這些注釋為后續(xù)研究茶樹(shù)花的發(fā)育以及不育機(jī)理提供有價(jià)值的信息。
2.4 SSR信息分析
對(duì)拼接得到Unigenes進(jìn)行SSR簡(jiǎn)單重復(fù)序列的查找。篩選標(biāo)準(zhǔn)為二核苷酸重復(fù)的次數(shù)在6次或6次以上,三至六核苷酸重復(fù)的次數(shù)在5次或5次以上,SSR結(jié)果的統(tǒng)計(jì)結(jié)果見(jiàn)表3。分析403 469條Unigenes中挖掘出46 440 SSR位點(diǎn),占11.51 %。從2個(gè)到6個(gè)堿基重復(fù)基元均存在,說(shuō)明SSR的類型豐富。其中2堿基型的最多,占74.24 %,其次是3堿基型的占23.53 %,最少的是5堿基型的占0.14 %。在SSR檢測(cè)中出現(xiàn)頻率最高的優(yōu)勢(shì)基元有AG/TC、TGG/ACC、CACT/GTGA、TGACA/ACTGT、CGCCAT /GCGGTA見(jiàn)下表4。上述SSR的分析,有助于開(kāi)展茶樹(shù)遺傳圖譜的構(gòu)建研究以及不育基因標(biāo)記的開(kāi)發(fā)。
近年來(lái),新一代測(cè)序技術(shù)憑借高通量、高靈敏度和運(yùn)行成本低已成為生命科學(xué)研究的新手段,而建立在高通量測(cè)序基礎(chǔ)上的轉(zhuǎn)錄組研究已逐步取代基因芯片技術(shù)成為目前從全基因組水平研究基因表達(dá)的主流方法[8-10]。RNA-seq測(cè)序技術(shù)進(jìn)行的轉(zhuǎn)錄組分析是近年來(lái)建立的分子生物學(xué)研究分析方法,具有信息涵蓋量大、分析準(zhǔn)確、數(shù)據(jù)冗余性低、可檢測(cè)到低表達(dá)的基因存在等特點(diǎn)[11]。本研究利用RNA-seq技術(shù)對(duì)茶樹(shù)母本、父本、子代不育花三樣本的轉(zhuǎn)錄組進(jìn)行測(cè)序以及生物信息學(xué)相關(guān)分析,共獲得403 469條質(zhì)量較高的Unigenes,有307 291得到了注釋,共識(shí)別出26 967個(gè)Unigenes對(duì)應(yīng)的1081種功能酶,并關(guān)聯(lián)到328條生物學(xué)通路上。這些數(shù)據(jù)的獲得為下一步分析正常花與不育花之間的基因表達(dá)差異、篩選不育基因以及研究不育機(jī)制奠定基礎(chǔ)。
MADS-box基因是一類編碼轉(zhuǎn)錄因子的基因家族,廣泛存在于動(dòng)物、植物和真菌中,其編碼的轉(zhuǎn)錄因子在真核生物的生長(zhǎng)發(fā)育和信號(hào)轉(zhuǎn)導(dǎo)過(guò)程中發(fā)揮著重要作用[12],特別是在決定花器官特征方面發(fā)揮著重要的調(diào)控作用[13-15]。目前研究最為清楚的是MADS-box基因與花器官發(fā)育之間的關(guān)系,即著名的ABCDE模型[16]。本研究鑒定出29個(gè)編碼含MADS-box轉(zhuǎn)錄因子基因片段,初步獲得了一些參與決定花器官特征的基因序列信息,為下一步MADS-box轉(zhuǎn)錄因子基因克隆、表達(dá)模式以及在茶樹(shù)花發(fā)育過(guò)程中的作用等方面的研究提供信息資料。
轉(zhuǎn)錄組數(shù)據(jù)是SSR和SNP開(kāi)發(fā)標(biāo)記的理想資源,而SSR是利用轉(zhuǎn)錄組數(shù)據(jù)開(kāi)發(fā)最多最常用的分子標(biāo)記[15-17]。本研究從3個(gè)茶樹(shù)花轉(zhuǎn)錄組403 469條transcript中挖掘出46 440個(gè)SSR位點(diǎn)。這些SSR信息的獲得將為下一步開(kāi)發(fā)不育基因的SSR標(biāo)記、遺傳多樣性的研究以及遺傳連鎖圖譜的構(gòu)建奠定基礎(chǔ)。
[1]陳興淡.茶樹(shù)育種學(xué)[M].北京:中國(guó)農(nóng)業(yè)出版社,1980:82-85.
[2]夏春華,束際林.茶樹(shù)化學(xué)除花與茶葉增產(chǎn)[J].植物雜志,1979(2):6-7.
[3]楊昌云,朱永興.茶樹(shù)生殖生長(zhǎng)的影響因素及控制方法[J].中國(guó)茶葉,1999(5):12-13.
[4]吳淑平.茶樹(shù)營(yíng)養(yǎng)生長(zhǎng)與生殖生長(zhǎng)的關(guān)系及調(diào)控方法[J].中國(guó)園藝文摘,2011(5):182-183.
[5]朱廠廉.太谷核不育小麥花藥內(nèi)游離脯氨酸的來(lái)源利用及不育花敗育的關(guān)系[J].植物生理學(xué)報(bào),1985,11(2):122-129.
[6]史成穎,宛曉春,江昌俊,等.提取高質(zhì)量茶樹(shù)總RNA的方法研究[J].安徽農(nóng)業(yè)大學(xué)學(xué)報(bào),2007,34(3):360-363.
[7]江昌俊,王朝霞,李葉云.茶樹(shù)中提取總RNA的研究[J].茶葉科學(xué),2000, 20(1):27-29.
[8]Sun C, Li Y, Wu Q, et al. De novo sequencing and analysis of the American ginseng root transcriptome using a GS FLX Titanium platform to discover putative genes involved in ginsenoside biosynthesis[J]. BMC Genomics, 2011,11:262.
[9]Wang W, Wang YJ, Zhang Q, et al. Global characterization of Artemisia annua glandular trichome transcriptome using 454 pyrosequencing[J]. BMC Genomics, 2009,10:465.
[10]楊 瑩,高 珊,潘寶平,等.青蛤(Cyclinasinensis)IRAK-4基因的克隆及其組織間的表達(dá)分析[J].安徽農(nóng)業(yè)科學(xué),2015,43(27):33-36.
[11]Alagna F D, Agostino N, Torchia L, et al. Comparative 454 pyrosequencing of transcripts from two olive genotypes during fruit development[J]. BMC Genomics, 2009,10(1):399.
[12]Becker A, Thesissen G. The major clades of of MADS-box genes and their role in the development and evolution of flowering plants[J]. Molecular Phylogenetics and Evolution, 2003,29(3):464-489.
[13]Theissen G. Development of floral organ identity: Stories from the MADS house[J]. Curr Opin Plant Biol, 2001,4(1):75-85.
[14]Heijmans K, Morel P, Vandenbussche M. MADS-box genes and floral development: The dark side[J].J Exp Bot,2012,63(15):5397-5404.
[15]袁秀云,蔣素華,王默霏,等.蝴蝶蘭MADS-Box基因克隆及植物表達(dá)載體的構(gòu)建[J].南方農(nóng)業(yè)學(xué)報(bào),2014,45(3):345-351.
[16]王力娜,范術(shù)麗,宋美珍,等.植物MADS-box基因的研究進(jìn)展[J].生物技術(shù)通報(bào),2010(8):12-19.
[17]Luro F L, Costantino G, Terol J, et al. Transferability of the EST-SSRs developed on Nules clementine (CitrusclementinaHort ex Tan) to otherCitrusspecies and their effectiveness for genetic mapping[J]. BMC Genomics, 2008, 9:287.
[18]Novaes E, Drost D R, Farmerie W G, et al. High-throughput gene and SNP discovery in Eucalyptus grandis, an uncharacterized genome[J]. BMC Genomics, 2008(9): 312.
[19]袁陽(yáng)陽(yáng),王青鋒,陳進(jìn)明.基于轉(zhuǎn)錄組測(cè)序信息的水生植物莕菜SSR標(biāo)記開(kāi)發(fā)[J].植物科學(xué)學(xué)報(bào),2013,31(5):485-492.
(責(zé)任編輯 王家銀)
Transcriptome Analysis of Flower from Tea Plant [Camelliasinensis(L.)O.Kuntz] via RNA-Seq Technology
XIA Li-fei, ZHU Xing-zheng*, LIANG Ming-zhi, MA Wei, SONG Wei-xi, TIAN Yi-ping, ZHOU Meng, CHEN Lin-bo**
(Tea Research Institute, Yunnan Academy of Agricultural Sciences/Yunnan Engineering Research Center of Tea Germplasm Innovation and Matching Cultivation, Yunnan Menghai 666201, China)
This research established a reference transcriptome sequencing and bioinformatics analysis of male parent, female parent and offspring sterility flowers fromCamelliasinensisby the RNA-Seq technology. A total of 403 469 unigenes were generated from theCamelliasinensisflowers transcriptome by using RNA-seq. A total of 307 291 unigenes were aligned to the sequences of public databases, such as Nr, TrEMBL, Cdd, pfam and the KOG database, and 23 739 unigenes were assigned at 25 KOG classifications and 26 967 unigenes at 328 KEGG pathways. The characteristic of SSR distribution showed that 46 440 SSRs loci were detected from 403 469 unigenes. These results laid the foundation for screening the sterility gene, studying sterile mechanism and developing of molecular markers.
Camelliasinensis; Transcriptome sequencing; Sterility gene; Molecular marker
1001-4829(2016)09-2058-05
10.16213/j.cnki.scjas.2016.09.009
2015-01-23
國(guó)家自然科學(xué)基金項(xiàng)目(31460216);云南省重點(diǎn)專項(xiàng)(2013BB006);云南省人才培養(yǎng)計(jì)劃(2015HB105);茶樹(shù)生物學(xué)與資源利用國(guó)家重點(diǎn)實(shí)驗(yàn)室開(kāi)放基金(SKLTOF20150105)
夏麗飛(1977-),副研究員,研究方向?yàn)椴铇?shù)生物技術(shù),*為共同第一作者,**為通訊作者。
S571.1
A