張賢,王建紅,喻曼,曹凱,莊俐,徐昌旭,曹衛(wèi)東
?
基于RNA-seq的能源植物芒轉(zhuǎn)錄組分析
張賢1,王建紅1,喻曼1,曹凱1,莊俐1,徐昌旭2,曹衛(wèi)東3
1 浙江省農(nóng)業(yè)科學(xué)院環(huán)境資源與土壤肥料研究所,浙江 杭州 310021 2 江西省農(nóng)業(yè)科學(xué)院土壤肥料與資源環(huán)境研究所,江西 南昌 330200 3 中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)資源與農(nóng)業(yè)區(qū)劃研究所,北京 100081
張賢, 王建紅, 喻曼, 等. 基于RNA-seq的能源植物芒轉(zhuǎn)錄組分析. 生物工程學(xué)報, 2015, 31(10): 1437–1448.Zhang X, Wang JH, Yu M, et al. Transcriptome analysis of bioenergy plant Miscanthus sinensis Anderss by RNA-Seq. Chin J Biotech, 2015, 31(10): 1437–1448.
芒(Anderss)是多年生C4草本植物,可為能量和纖維素產(chǎn)品生產(chǎn)提供高品質(zhì)的木質(zhì)纖維素材料,是一種理想的能源植物。采用Illumina HiSeq? 2000 高通量測序技術(shù),對芒花芽和葉芽進(jìn)行轉(zhuǎn)錄組分析。經(jīng)拼接組裝共獲得98 326個Unigene,序列平均長度822 bp, N50為1 337 bp。將Unigene 序列與NR、NT、Swiss-Prot、KEGG、GO和COG數(shù)據(jù)庫進(jìn)行比對 (Evalue<1e-5),共有74 134 條Unigene 獲得了基因注釋,占總Unigene的75.40%。其中,通過GO功能分類,45 507個Unigene映射到GO不同的功能節(jié)點(diǎn)上;通過KEGG pathways分析,共有36 710個Unigene參與了128個代謝通路;比對到同源序列比例最高的物種分別為高粱 (37 731,60.86%)、玉米 (16 258,26.22%)、水稻 (3 065,4.94%),共占所有同源序列的92.02%。此外,獲得了芒C4關(guān)鍵酶相關(guān)基因24個。這些注釋信息的完成為芒功能基因及相關(guān)候選基因的發(fā)掘提供了重要依據(jù)。
芒,轉(zhuǎn)錄組,RNA-seq,基因注釋
芒 (Anderss),禾本科黍亞科,原產(chǎn)于東亞,是一種具有木質(zhì)地下莖的多年生C4草本植物,自然分布從東南亞到中國、日本,直至玻利尼西亞,有一些種在非洲也有生長[1]。芒植株高大,莖稈粗壯,根莖發(fā)達(dá),具有產(chǎn)量高[2],光照、水分和氮素利用率高[3],不易受病蟲害侵染等特點(diǎn),對不適于糧食作物生產(chǎn)的邊際土地適應(yīng)性強(qiáng)[4-5],可為能量和纖維素產(chǎn)品生產(chǎn)提供高品質(zhì)的木質(zhì)纖維素材料,是一種理想的能源植物[6-7]。作為一種新興作物,芒基因資源及遺傳改良的資料還非常有限[8-9],至今芒基因組學(xué)的研究仍十分缺乏,嚴(yán)重阻礙了芒的遺傳改良[10],對于該作物基因資源的研究也有待進(jìn)一步深入。我國是世界芒的多樣性中心,但大量優(yōu)良的種質(zhì)資源尚處于野生狀態(tài),未被馴化栽培,豐富的基因資源沒有被有效利用。
轉(zhuǎn)錄組測序技術(shù) (又稱RNA-Seq)可以在沒有完整基因組序列的前提下,研究所有的mRNA 轉(zhuǎn)錄本的豐度信息,發(fā)掘新的轉(zhuǎn)錄本和可變剪接體[11-12],且可以得到定量更準(zhǔn)確、分析更可靠、重復(fù)性更高及檢測范圍更廣的結(jié)果[13]。
選取我國野生芒種質(zhì)資源,運(yùn)用RNA-Seq技術(shù),對芒花芽和葉芽轉(zhuǎn)錄組進(jìn)行測序,測序得到的大量Unigene 進(jìn)行GO、COG 和KEGG 分類統(tǒng)計,給出功能注釋和Pathway 注釋。研究旨在挖掘我國野生芒種質(zhì)中的珍貴基因資源,發(fā)現(xiàn)芒控制優(yōu)良性狀的重要功能基因,為芒的基因改良提供理論依據(jù)和物質(zhì)基礎(chǔ)。
野生芒種質(zhì)資源采集于浙江省臨安市郊區(qū),生境為林緣邊際土地,于孕蕾期在其生長地直接取花芽和葉芽,分別經(jīng)液氮速凍后儲存于–70 ℃超低溫冰箱備用。
1.2.1 文庫構(gòu)建及測序
采用通用植物總RNA 提取試劑盒提取芒花芽和葉芽總RNA,瓊脂糖凝膠電泳檢測RNA 完整性,Agilent 2100 Bioanalyzer檢測總RNA 濃度。用帶有Oligo(dT) 的磁珠富集mRNA;加入片段化緩沖液將mRNA打斷成短片段,以打斷后的mRNA為模板合成一鏈cDNA,然后加入緩沖液、dNTPs、RNase H和DNA polymeraseⅠ配制二鏈合成反應(yīng)體系合成二鏈cDNA,經(jīng)過PCR 擴(kuò)增,建立測序文庫;構(gòu)建好的文庫用Agilent 2100 Bioanalyzer和ABI StepOnePlus Real-Time PCR System質(zhì)檢合格后,使用Illumina HiSeq? 2000進(jìn)行測序。
1.2.2 數(shù)據(jù)分析
對測序后得到的原始數(shù)據(jù)total Raw reads進(jìn)行質(zhì)量分析,去除重復(fù)、含接頭、測序質(zhì)量低的reads,獲得Clean reads。使用短reads組裝軟件Trinity[10]做轉(zhuǎn)錄組從頭組裝。首先將具有一定長度重疊的reads連成更長的片段,通過reads重疊關(guān)系得到的組裝片段Contig。然后,將reads比對回Contig,通過paired-end reads確定來自同一轉(zhuǎn)錄本的不同Contig以及這些Contig之間的距離,Trinity將這些Contig連在一起,最后得到兩端不能再延長的序列,即為Unigene。
1.2.3 功能注釋
利用Blastx 將Unigene 序列與NR (Non-redundant Protein Sequence Database in GenBank)、Swiss-Prot (Swiss-Prot Protein Sequence Database)、KEGG (Kyoto Encyclopedia of Genes and Genomes)和COG (Cluster of Orthologous Groups of proteins) 數(shù)據(jù)庫進(jìn)行比對 (Evalue<1e-5),獲取與Unigene 具有最高序列相似性的蛋白,從而得到該Unigene 的蛋白功能注釋信息。根據(jù)NR 注釋信息,使用Blast2GO 軟件進(jìn)行GO 注釋,得到每個Unigene 的GO 信息后,用WEGO 軟件進(jìn)行GO 功能分類統(tǒng)計。
按Nr、SwissProt、KEGG、COG 的優(yōu)先級順序?qū)nigene 序列與以上蛋白庫進(jìn)行Blastx比對(Evalue<1e–5),取比對結(jié)果中等級最高的蛋白確定該Unigene的編碼區(qū)序列,然后根據(jù)標(biāo)準(zhǔn)密碼子表將編碼區(qū)序列翻譯成氨基酸序列,從而得到該Unigene編碼區(qū)的核酸序列 (序列方向5'–3') 和氨基酸序列。最后,跟以上蛋白庫皆比對不上的Unigene我們用軟件ESTScan預(yù)測其編碼區(qū),得到其編碼區(qū)的核酸序列 (序列方向5'–3') 和氨基酸序列。
芒花芽和葉芽文庫測序得到的Raw reads 及去除雜質(zhì)過濾之后的Clean reads 統(tǒng)計見表1,后續(xù)分析均基于Clean reads?;ㄑ亢腿~芽分別生成68 136 340個和68 452 222個Clean reads,總數(shù)量均高于68 M。花芽和葉芽Q20分別為97.78%和97.62%,Q20 比例大于80%,N 均為0.01%,比例小于0.5%,GC 比例為49.73%和51.43%,在35%–65%之間,結(jié)果表明測序質(zhì)量較好,滿足下一步分析的要求。
經(jīng)過Trinity 從頭組裝,芒花芽和葉芽測序文庫分別獲得重疊群Contig、Unigene及All-Unigene?;ㄑ亢腿~芽各獲得180 118個和159 514個Contig(表2),平均長度分別為314 nt和319 nt,花芽Contig個數(shù)高于葉芽;經(jīng)過拼接最終獲得98 326個All-Unigene,總長度 80 794 573 nt,平均長度822 nt,N50長1 337 nt。
組裝序列長度是組裝質(zhì)量的一個評估標(biāo)準(zhǔn)。對組裝出來的All-Unigene 進(jìn)行長度分布特征分析 (表3)。All-Unigene 的長度均大于 200 bp,長度為100–500 bp 的Unigene 所占比例最大,約占50.67%;長度大于1 000 bp 的Unigene比例達(dá)到28.3%。與花芽和葉芽相比,進(jìn)一步組裝后的All-Unigene短序列減少了,而長序列分布增多。
表1 測序產(chǎn)量統(tǒng)計表
表2 組裝長度統(tǒng)計
表3 Unigene長度分布
為了預(yù)測Unigene功能,分別將Unigene與主要的生物學(xué)數(shù)據(jù)庫NR、NT、SwissProt、KEGG、COG、GO 庫進(jìn)行比對。通過Blast 搜索比對 (表4),共有74 134 條Unigene 獲得了基因注釋,占All-Unigene的75.40%;有24 192 條Unigene (24.6%) 未被注釋。NT數(shù)據(jù)庫比對注釋的信息最多,注釋了70 122 條Unigene,COG 注釋的信息最少,僅23 653 條Unigene得到了注釋。在與蛋白數(shù)據(jù)庫有同源比對信息的Unigene中,比對到同源序列比例最高的物種分別為高粱 (37 731,60.86%)、玉米 (16 258,26.22%)、水稻 (3 065,4.94%) 占所有同源序列的92.02%;其中,相似性95%以上的19 009個,80%–95%的2 577個,60%–80%的8 997個,相似性60%以上的占總注釋Unigene數(shù)的85%以上。
將Unigene和COG數(shù)據(jù)庫比對,對其所編碼的蛋白進(jìn)行直系同源分類。23 653條All-Unigene被分成了25個類別 (圖1)。其中,比對到一般功能預(yù)測 (General function prediction only) 的基因數(shù)量最多 (8 506,35.96%),其次是未知功能基因 (Function unknown) (6 275,26.53%),轉(zhuǎn)錄 (Transcription)(5 958,25.19%)及復(fù)制、重組和修復(fù) (Replication, recombination and repair) (5 487,23.20 %);而參與核酸結(jié)構(gòu) (Nuclear structure) (10,0.04%)和細(xì)胞外結(jié)構(gòu) (Extracellular structures) (40,0.17%) 分類的基因數(shù)目較少。
GO (Gene ontology) 是一個國際標(biāo)準(zhǔn)化的基因功能分類體系,根據(jù)NR數(shù)據(jù)庫注釋的信息,有45 507條All-Unigene映射到GO不同的功節(jié)點(diǎn) (Term) 上,使用Blast2GO軟件將這些注釋的基因按照基因的分子功能 (Molecular function)、參與的生物過程 (Biological process)和所處的細(xì)胞位置 (Cellular component) 進(jìn)行分類 (圖2),從宏觀上認(rèn)識芒基因功能分布特征,全方位地注釋基因信息。由于經(jīng)常存在同一個轉(zhuǎn)錄本映射到不同節(jié)點(diǎn)現(xiàn)象,所以共有135 445條All-Unigene歸入生物學(xué)過程,其中,參與細(xì)胞過程 (Cellular process)(25 147,55.26%)和代謝過程 (Metabolic process)(25 361,55.73%) 的Unigene最多,均占55%以上;有127 037條All-Unigene歸入到細(xì)胞組分,細(xì)胞 (Cell) (32 798,72.07%) 和細(xì)胞構(gòu)成 (Cell part) (32 798,72.07%) Unigene最多,其次是細(xì)胞器 (Organelle)(28 377,62.36%);52 742條All-Unigene歸入分子功能,其中結(jié)合 (Binding)(24 070,52.89%) 和催化活性 (Catalytic activity)(21 759,47.81%) 最高,其余所占比例均在10%以下。
表4 注釋結(jié)果統(tǒng)計
圖1 COG功能分類表
圖2 GO分類圖
為了系統(tǒng)分析測序所得到轉(zhuǎn)錄本在芒花和葉片形成過程中參與的代謝途徑以及這些基因產(chǎn)物的功能,將Unigene比對到KEGG數(shù)據(jù)庫,發(fā)現(xiàn)共有36 710個Unigene參與了128個代謝通路 (表5)。其中參與代謝途徑 (Metabolic pathways) 的轉(zhuǎn)錄本最多(共9 628個,占比對總數(shù)的26.23%),其次是參與RNA 轉(zhuǎn)運(yùn)的轉(zhuǎn)錄本5 066個(13.8%),而參與mRNA surveillance 途徑4 305 (11.73%) 的轉(zhuǎn)錄本位居三。
分離和鑒定芒C4核心酶基因,是深入了解和調(diào)控芒生長發(fā)育重要方法。通過同源性搜索比對,在測序結(jié)果中獲得了芒基因中C4重要的酶基因。其中,功能注釋為碳酸酐酶 (Carbonic anhydrase) 的Unigene 5個,磷酸烯醇丙酮酸羧激酶(Phosphoenolpyruvate carboxylase) 10個,NADP-依賴蘋果酸酶 (NADP-dependent malic enzyme) 6個,丙酮酸磷酸雙激酶 (Pyruvate orthophosphate dikinas) 的基因3個 (表6)。這些Unigene 的注釋信息將為進(jìn)一步克隆功能基因的全長、研究其功能提供基礎(chǔ)數(shù)據(jù)。
將Unigene 序列按Nr、SwissProt、KEGG 和COG數(shù)據(jù)庫的優(yōu)先級順序分別進(jìn)行Blastx 比對(E 值<1e–5),確定該Unigene 的編碼區(qū)序列,然后根據(jù)標(biāo)準(zhǔn)密碼子表將編碼區(qū)序列翻譯成氨基酸序列,從而得到該Unigene 編碼區(qū)的核酸序列(序列方向5′–3′) 和氨基酸序列。最后,跟以上4 個數(shù)據(jù)庫皆比對不上的Unigene 用ESTscan 軟件預(yù)測其編碼區(qū),得到其編碼區(qū)核酸序列(序列方向?yàn)?′–3′) 和氨基酸序列。比對上Nr、SwissProt、KEGG和COG數(shù)據(jù)庫的Unigene序列,對其中的61 870個序列預(yù)測了編碼蛋白框 (CDS),圖3表示所預(yù)測CDS的長度統(tǒng)計,及根據(jù)預(yù)測的CDS翻譯成氨基酸后的長度統(tǒng)計。其中有22 175個基因預(yù)測氨基酸長度大于300,占35.84%所預(yù)測的基因,有1 124個基因預(yù)測的氨基酸長度超過1 000,占1.82%所預(yù)測的基因。另外,用ESTScan軟件對未比對上數(shù)據(jù)庫的2 480個基因進(jìn)行了編碼框的預(yù)測,有128個基因預(yù)測的氨基酸長度大于300,占所預(yù)測基因的5.16%,有1個基因預(yù)測的氨基酸長度超過1 000。
表5 KEGG pathway 注釋結(jié)果統(tǒng)計表
表6 光合作用相關(guān)酶基因
圖3 CDS 的長度分布統(tǒng)計圖
轉(zhuǎn)錄組學(xué)(Transcriptomics) 是功能基因組學(xué)研究的一個重要內(nèi)容,它是從整體水平上研究細(xì)胞中基因轉(zhuǎn)錄的情況及其轉(zhuǎn)錄調(diào)控規(guī)律。基于高通量測序技術(shù)的轉(zhuǎn)錄組測序 (RNA-seq) 通過對組織中的RNA (包括mRNA和非編碼RNA) 進(jìn)行測序,能夠全面快速地獲得某一物種特殊組織或器官在某一特定狀態(tài)下的幾乎所有轉(zhuǎn)錄本信息,具有高準(zhǔn)確性、高通量、高靈敏度和低運(yùn)行成本等突出優(yōu)勢,已經(jīng)廣泛應(yīng)用于各種生物轉(zhuǎn)錄組的研究[14-16]。應(yīng)用Illumina高通量測序技術(shù)對芒花芽和葉芽進(jìn)行轉(zhuǎn)錄組測序,分別獲得68 136 340個和68 452 222個Clean reads,經(jīng)拼接組裝,花芽和葉芽分別獲得180 118個和159 514個Contig,平均長度314和319 nt,最終共生成All- Unigene 98 326個。Changsoo等[17]采用454平臺進(jìn)行的芒根莖和葉片轉(zhuǎn)錄組測序,葉片和根莖各獲得 457 891和512 950個 reads,以及12 166 和13 170 個Contigs,平均長度970和923 nt。其所獲得reads數(shù)及Contig數(shù)較低,但平均長度較高。454 平臺讀長長,但準(zhǔn)確率較低。Illumina快速、高效、測序片段較短,但通過短序列有效地被組裝,序列讀長增加而且更精確[18-19]。本研究采用了Illumina高通量測序,雖然測序片段較短,但是組裝后得到的Unigene平均長度超過了800 bp,獲得的數(shù)據(jù)產(chǎn)量和組裝質(zhì)量完全可以滿足轉(zhuǎn)錄組分析的要求,且產(chǎn)生的數(shù)據(jù)量遠(yuǎn)高于Changsoo等[17]的研究。
由于芒沒有全基因組數(shù)據(jù),已知的生物信息量又很匱乏,這給轉(zhuǎn)錄組數(shù)據(jù)的分析帶來了困難。目前對沒有基因組物種的研究,主要采取將獲得的數(shù)據(jù)與已知的蛋白數(shù)據(jù)庫 (NR、Swiss-Prot、COG、KEGG) 進(jìn)行比對,以強(qiáng)大的生物信息學(xué)平臺作支撐,根據(jù)“基因結(jié)構(gòu)相似,功能同源”的原理,對基因的功能進(jìn)行注釋。本研究釆用同樣的方法,將獲得的數(shù)據(jù)與已知的蛋白數(shù)據(jù)庫進(jìn)行Blast 搜索比對,共有74 134 條Unigene 獲得了基因注釋,占All-Unigene 的75.40%;有24 192 條Unigene (24.6%) 未被注釋。對于沒有得到注釋的Unigene,有可能是芒特有的新基因,或由于數(shù)據(jù)庫現(xiàn)有的基因資源有限,基因功能注釋信息不豐富,從而造成部分序列暫時無法獲得對應(yīng)的功能注釋信息。
對于有參考基因組的物種,通常選擇已經(jīng)公布的相同或相近物種的基因組和基因信息為參考,將所測數(shù)據(jù)映射至參考基因組的數(shù)據(jù)中,進(jìn)行比對分析。Barling等[20]在對芒屬植物芒和荻的種間雜交種根莖的轉(zhuǎn)錄組研究中,就采用高粱基因組作為參考序列對轉(zhuǎn)錄組進(jìn)行有參分析,63%的reads 映射到高粱基因組中。本研究中選取的植物材料芒,是的親本之一[20],采用無參轉(zhuǎn)錄組分析,通過拼接組裝得到Unigene,與NT 蛋白數(shù)據(jù)庫有同源比對信息的Unigene中,比對到同源序列比例最高的物種分別為高粱 (37 731,60.86%)、玉米 (16 258,26.22%)、水稻 (3 065,4.94%) 占所有同源序列的92.02%,其中芒與高粱同源序列最多高達(dá)60.86%,這與有參轉(zhuǎn)錄組比對數(shù)據(jù)相似,芒及其與荻的種類雜交后代與高粱具有較高的同源性。
芒是多年生C4草本植物,光合作用效率高,CO2補(bǔ)償點(diǎn)低,氮素和水分利用效率高,植株高大[21]。C4植物能通過C4途徑的酶系統(tǒng)保持較高的光合效率。CO2被吸收后,反應(yīng)過程的速率主要受C4途徑中酶的數(shù)量和活性以及可利用的CO2的量的限制[22]。本研究通過NR同源性搜索比對,在測序結(jié)果中獲得了芒基因中C4重要的酶基因。包括C4核心循環(huán)相關(guān)的主要酶碳酸酐酶(Carbonic anhydrase,CA)、磷酸烯醇式丙酮酸羧化酶(Phosphoenolpyruvate carboxylase,PEPC)、依賴NADP的蘋果酸脫氫酶(NADP-dependent malic enzyme,NADP-ME)、丙酮酸二激酶(Pyruvate,orthophosphate dikinase,PPDK)。其中功能注釋為磷酸烯醇式丙酮酸羧化酶的Unigenes 10個,數(shù)目最多。PEPC是C4光合途徑關(guān)鍵酶之一,存在于葉肉細(xì)胞的細(xì)胞質(zhì)中,形成CO2濃縮機(jī)制,為維管束鞘細(xì)胞進(jìn)行的C3途徑提供CO2[23]。C4植物基因家族共有3個成員組成,其基本結(jié)構(gòu)很相似,分別是:C4型 (綠葉型),主要在葉片中大量表達(dá),并且受光照調(diào)控;根 (莖) 型,主要在根組織中特異表達(dá);黃化葉型或 C3型,主要在黃色葉片、莖等許多部位表達(dá)[24]。Barling等[14,20]在芒屬植物根莖轉(zhuǎn)錄組研究中也發(fā)現(xiàn)了高表達(dá)的基因。但本研究中通過同源比對所得到的10個PEPC相關(guān)基因,與玉米、高粱、黍表現(xiàn)出了高同源性,而非芒屬植物。在其他C4植物中,通過序列比較發(fā)現(xiàn),同一種植物來源的不同類型基因同源性較小,而存在于不同植物的同一類型的基因具有較高的同源性[25]。由此推測,本研究與Barling等[14,20]所得的基因可能為不同類型。這些C4代謝相關(guān)基因的注釋為研究芒C4光合途徑提供了重要依據(jù)。同時,了解芒光合作用相關(guān)酶基因的表達(dá)調(diào)控,對未來作物設(shè)計與改良具有重要意義。
[1] Lewandowski I, Clifton-Brown JC, Scurlock JMO, et al. Miscanthus: European experience with a novel energy crop. Biomass Bioenergy, 2000, 19(4): 209–227.
[2] Vermerris W. Genetic Improvement of Bioenergy Crops. New York: Springer, 2008: 274–290.
[3] Yan J, Chen W, Luo F, et al. Variability and adaptability ofspecies evaluated for energy crop domestication. GCB Bioenergy, 2012, 4(1): 49–60.
[4] Somerville C, Youngs H, Taylor C, et al. Feedstocks for lignocellulosic biofuels. Science, 2010, 329(5993): 790–792.
[5] Jones MB, Mary W.for Energy and Fiber. London: James & James (Science Publishers), 2001: 1–10.
[6] Heaton EA, Dohleman FG, Long SP. Meeting US biofuel goals with less land: the potential of. GCB Bioenergy, 2008, 14: 2000–2014.
[7] Naidu SL, Moose SP, AL-Shoaibi AK, et al. Cold Tolerance of C4photosynthesis in: adaptation in amounts and sequence of C4photosynthetic enzymes. Plant Physiol, 2003, 132(3): 1688–1697.
[8] Heaton EA, Long SP, Voigt TB, et al.for renewable energy generation: European union experience and projections for Illinois. Mitig Adapt Strategy Glob Chang, 2004, 9(4): 433–451.
[9] Vermerris W. Genetic Improvement of Bioenergy Crops. New York: Springer, 2008: 287.
[10] Glowacka K. A review of the genetic study of the energy crop. Biomass Bioenergy, 2011, 35(7): 2445–2454.
[11] Zhang GJ, Guo GW, Hu XD, et al. Deep RNA sequencing at single base-pair resolution reveals high complexity of the rice transcriptome. Genome Res, 2010, 20(5): 646–654.
[12] Lu TT, Lu GJ, Fan DL, et al. Function annotation of the rice transcriptome at single-nucleotide resolution by RNA-seq. Genome Res, 2010, 20(9): 1238–1249.
[13] Hao DC, Ge GB, Xiao PG, et al. The first insight into the tissue specifictranscriptome via Illumina second generation sequencing. PLoS ONE, 2011, 6(6): e21220.
[14] Grabherr MG, Haas BJ, Yassour M, et al. "Full-length transcriptome assembly from RNA-Seq data without a reference genome." Nat Biotechnol, 2011, 29(7): 644–652.
[15] Zhang CL, Qin ZJ, Wang GZ, et al. Transcriptome and RNA-Seq technology. Biotechnol Bull, 2012, (12): 51–56 (in Chinese).張春蘭, 秦孜娟, 王桂芝, 等. 轉(zhuǎn)錄組與RNA-Seq 技術(shù). 生物技術(shù)通報, 2012, (12): 51–56.
[16] Shendure J. The beginning of the end for microarrays? Nat Methods, 2008, 5(7): 585–587.
[17] Kim C, Lee TH, Guo H, et al. Sequencing of transcriptomes from twospecies reveals functional specificity in rhizomes, and clarifies evolutionary relationships. BMC Plant Biol, 2014, 14: 134.
[18] Wilhelm BT, Landry JR. RNA-Seq quantitative measurement of expression through massively parallel RNA sequencing. Methods, 2009, 48(3): 249–257.
[19] Wang Z, Gerstein M, Snyder M. RNA-Seq: a revolutionary tool for transcriptomics. Nat Rev Genet, 2009, 10(1): 57–63.
[20] Barling A, Kankshita S, Therese M,et al. A detailed gene expression study of thereveals changes in the transcriptome associated with the rejuvenation of spring rhizomes. BMC Genomics, 2013, 14: 864.
[21] Hodkinson TR, Renvoize S. Nomenclature of(Poaceae). Kew Bull, 2011, 56: 759–760.
[22] Beale CV, Long SP. Can perennial C4grasses attain high efficiencies of radiant energy conversion in cool climates? Plant Cell Environ, 1995, 18(6): 641–650.
[23] Wu H. Photosynthetic characteristic identification of& the functional study of C3/C4differentially expressed genes [D]. Wuhan: Huazhong Agricultural University, 2014 (in Chinese). 伍歡. 大莎草的光合模式鑒定及C3/C4差異表達(dá)基因的功能研究[D]. 武漢: 華中農(nóng)業(yè)大學(xué), 2014.
[24] Zhang GF. Cloning key enzyme (PEPC、PPDK) genes of C4photosynthesis from barnyardgrass () and PEPC gene transformation in rice () and tobacco () [D]. Beijing: China Agricultural University, 2005 (in Chinese).張桂芳. 稗草C4關(guān)鍵酶 (PEPC、PPDK) 基因的克隆及PEPC基因?qū)λ竞蜔煵莸倪z傳轉(zhuǎn)化[D]. 北京: 中國農(nóng)業(yè)大學(xué), 2005.
[25] Sch?ffner AR, Sheen J. Maize C4photosynthesis involves differential regulation of phosphoenolpyruvate carboxylas egenes. Plant J, 1992, 2(2): 221–232.
(本文責(zé)編 郝麗芳)
Transcriptome analysis of bioenergy plantAnderss by RNA-Seq
Xian Zhang1, Jianhong Wang1, Man Yu1, Kai Cao1, Li Zhuang1, Changxu Xu2, and Weidong Cao3
1 Institute of Environment, Resource, Soil & Fertilizer, Zhejiang Academy of Agricultural Sciences, Hangzhou 310021, Zhejiang, China 2 Institute of Soil, Fertilizer, and Environment Resource, Jiangxi Academy of Agricultural Sciences, Nanchang 330200, Jiangxi, China 3 Institute of Agricultural Resources and Regional Planning, Chinese Academy of Agricultural Sciences, Beijing 100081, China
Anderss is a perennial C4-grass. It is a promising bioenergy plant, which has been proposed as general feedstock for biomass and lignocellulosic biofuel production. In this study, the flower and leaf buds transcriptomes ofAnderss were sequenced by the platform of Illumina HiSeq? 2000. In total 98 326 Unigenes were generated byassembly with an average length of 822 bp and N50 of 1 023 bp. Based on the NR, NT, Swiss-Prot, KEGG, GO and COG databases (Evalue<1e-5), 74 134 (75.40%) Unigenes were annotated. A total of 45 507 Unigenes were mapped into different GO terms. In KEGG pathways identification, 36 710 sequences were assigned to 128 KEGG pathways.(37 731, 60.86%),(16 258, 26.22%), and(3 065, 4.94%) showed high similarity toAnderss. And 24 photosynthesis-related enzyme genes were identified. The result provides a foundation for further characterizing the functional genes inAnderss.
Anderss, transcriptome, RNA-seq, gene annotation
10.13345/j.cjb.150026
January 16, 2015; Accepted: March 30, 2015
Special Fund for Agro-scientific Research in the Public Interest (No. 201103005), Zhejiang Provincial Natural Science Foundation (No. LY14D010004).
Xian Zhang. Tel/Fax: +86-571-86404042; E-mail: zhangxian0399@126.com
公益性行業(yè) (農(nóng)業(yè)) 科研專項(xiàng) (No. 201103005),浙江省自然科學(xué)基金(No. LY14D010004) 資助。