張宇君 尚以順 王普昶
摘 要:利用Illumina HiSeq 2000高通量測(cè)序技術(shù)對(duì)巴哈雀稗葉片進(jìn)行轉(zhuǎn)錄組測(cè)序,共計(jì)獲得42 844 132個(gè)序列讀取片段,包含堿基序列信息6 426 619 800個(gè)。對(duì)讀取片段進(jìn)行序列組裝,得到99 235個(gè)單基因簇。圍繞GC含量、測(cè)序質(zhì)量、長(zhǎng)度分布的單基因簇評(píng)估測(cè)序數(shù)據(jù)均顯示質(zhì)量好、可信度較高。與Nr數(shù)據(jù)進(jìn)行序列同源性比對(duì)結(jié)果顯示,有53 886個(gè)單基因簇與其他植物的已知基因具有不同程度的同源性。結(jié)合GO數(shù)據(jù)庫(kù)對(duì)巴哈雀稗的單基因簇進(jìn)行功能分類(lèi),大致可分成為細(xì)胞組分、分子功能和生物學(xué)過(guò)程3大類(lèi)共計(jì)70個(gè)分支,其中大量的單基因簇主要與細(xì)胞進(jìn)程、結(jié)合活性及細(xì)胞成分有關(guān)。將單基因簇與COG數(shù)據(jù)庫(kù)進(jìn)行比對(duì)分析,依據(jù)其功能可大致分為25類(lèi)。以KEGG數(shù)據(jù)庫(kù)為參考,依據(jù)代謝途徑將單基因簇定位到31個(gè)代謝途徑分支上,具體包含核糖體代謝途徑、碳代謝途徑、氨基酸生物合成途徑、內(nèi)質(zhì)網(wǎng)蛋白加工、剪接體和甜菜紅色素生物合成等。通過(guò)SSR位點(diǎn)查找在巴哈雀稗99 235個(gè)單基因簇中共找到12 062個(gè)SSR位點(diǎn)。其SSR不同重復(fù)基序類(lèi)型中,A/T出現(xiàn)頻率最高,其次是AT/GA和AG/CT。
關(guān)鍵詞:巴哈雀稗;轉(zhuǎn)錄組;基因注釋;SSR
中圖分類(lèi)號(hào):Q789文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1006-060X(2019)10-0001-07
Abstract: The transcriptome of Paspalum notatum leaves was sequenced using Illumina HiSeq 2000 high-throughput sequencing technology, 42 844 132 sequences were readed, containing 6 426 619 800 bases. Sequence assembly of the read fragments yielded 99 235 unigenes. The evaluation of unigene based on GC content, sequencing quality and length distribution showed that the data volume and quality of sequencing were good and the reliability was high. Sequence homology analysis compared with Nr data revealed that 53 886 unigenes had different degrees of homology with known genes of other plants. Unigenes of Paspalum notatum were roughly divided into 70 branches of cell components, molecular functions and biological processes by function classification combined with the GO database, a large number of unigenes mainly related to cell processes, binding activities and cellular components. After comparing and analyzing the unigenes with COG databases, they were roughly classified into 25 categories according to their functions. Based on the KEGG database, unigenes were mapped to 31 metabolic pathway branches including ribosomal metabolism, carbon metabolism, amino acid biosynthesis, endoplasmic reticulum protein processing, splice and beet red color biosynthesis. A total of 12 062 SSR loci were found in the 235 unigenes of the Paspalum notatum by SSR locus analysis. A/T had the highest occurrence frequency among the different repeat motif types of SSR followed by AT/GA and AG/CT. This study provided an important source of genomic data for the molecular biology research of the genus Paspalum notatum.
Key words: Paspalum notatum; transcriptome; gene annotation; SSR
巴哈雀稗(Paspalum notatum)是一種原產(chǎn)于南美洲的禾本科雀稗屬黍族多年生草本植物。于20世紀(jì)50年代初首次引入臺(tái)灣,適宜在年降水量高于750 mm的熱帶和亞熱帶地區(qū)生長(zhǎng),尤其在中國(guó)的云、貴、川、湘等南方地區(qū)種植較多。目前已在中國(guó)西南、華南近10個(gè)省區(qū)推廣,并被成功應(yīng)用于三峽庫(kù)區(qū)的水土保持和生態(tài)防護(hù)工程中[1]。巴哈雀稗的抗逆性強(qiáng),具有耐貧瘠、抗旱、固地性強(qiáng)等特點(diǎn),在治理水土流失中發(fā)揮著重要作用[2]。因其對(duì)土壤的要求低,在肥力缺乏的沙質(zhì)土壤中仍能頑強(qiáng)生長(zhǎng),常被選作公路、堤壩、機(jī)場(chǎng)跑道綠化的優(yōu)選草種,具有較大的應(yīng)用開(kāi)發(fā)潛力。目前關(guān)于巴哈雀稗的研究主要集中在水土流失治理、荒山荒坡綠化、果園覆蓋、飼草料等方面[3],而有關(guān)巴哈雀稗遺傳多樣性、分子標(biāo)記開(kāi)發(fā)等分子方面的研究相對(duì)較少。開(kāi)展巴哈雀稗的轉(zhuǎn)錄組學(xué)研究,能為牧草、草坪草分子領(lǐng)域的相關(guān)研究提供基礎(chǔ)數(shù)據(jù)。
近年來(lái),在植物細(xì)胞代謝過(guò)程和生命活動(dòng)規(guī)律研究中被廣泛應(yīng)用的轉(zhuǎn)錄組測(cè)序技術(shù)來(lái)源于以大量基因序列或分子數(shù)據(jù)庫(kù)信息為前提的傳統(tǒng)芯片雜交平臺(tái)[4],該平臺(tái)的特點(diǎn)在于:不僅能夠準(zhǔn)確、快速、全面地獲得選定植物在特定狀態(tài)下某一組織的全部轉(zhuǎn)錄組信息[5],同時(shí)還能挖掘某些重要的功能基因。研究以采自貴州省羅甸縣龍坪鎮(zhèn)的野生巴哈雀稗為試驗(yàn)材料,利用高通量測(cè)序技術(shù)獲取巴哈雀稗幼苗葉片的轉(zhuǎn)錄組序列,以期通過(guò)序列組裝、功能注釋和深度分析,為今后開(kāi)展有關(guān)巴哈雀稗的分子生物學(xué)研究提供素材。
1 材料與方法
1.1 試驗(yàn)材料
供試野生巴哈雀稗采自貴州省羅甸縣龍坪鎮(zhèn)(106°41′56.99″E,25°23′8.93″N),由貴州省農(nóng)業(yè)科學(xué)院草業(yè)研究所提供。
1.2 試驗(yàn)方法
1.2.1 RNA提取與檢驗(yàn) 隨機(jī)選取10株使用Hoagland培養(yǎng)液培養(yǎng)至3葉一心時(shí)期的巴哈雀稗幼苗葉片,充分混合研磨后采取TRIzol法提取葉片的總RNA。采用NanoDrop-2000濃度測(cè)定儀對(duì)總RNA樣品進(jìn)行檢測(cè)評(píng)估,以確保樣品質(zhì)量符合要求。
1.2.2 cDNA文庫(kù)構(gòu)建和測(cè)序RNA 樣品經(jīng)檢驗(yàn)合格后,送上海生工生物工程有限公司進(jìn)行cDNA文庫(kù)構(gòu)建和Illumina HiSeq 2000測(cè)序。
1.2.3 轉(zhuǎn)錄組組裝 將獲得的原始序列采用Trimmomatic
進(jìn)行過(guò)濾,得到Clean數(shù)據(jù),使用Trinity將Clean數(shù)據(jù)de novo組拼接組裝成轉(zhuǎn)錄本,再對(duì)Trinity拼裝得到的轉(zhuǎn)錄本去冗余,取每個(gè)轉(zhuǎn)錄本聚類(lèi)中最長(zhǎng)序列作為單基因簇。
1.2.4 基因功能注釋 使用BLAST程序?qū)@得的單基因簇與NR數(shù)據(jù)庫(kù)進(jìn)行序列相似性比對(duì),然后選取最佳的功能注釋;利用WEGO軟件對(duì)所有的單基因簇進(jìn)行GO功能分類(lèi)統(tǒng)計(jì);對(duì)巴哈雀稗單基因簇分別進(jìn)行COG功能分類(lèi)和KEGG代謝途徑分析。
1.2.5 簡(jiǎn)單重復(fù)序列 對(duì)篩選獲得的大于1 kb的單基因簇序列利用MISA軟件進(jìn)行SSR分析。
2 結(jié)果與分析
2.1 巴哈雀稗轉(zhuǎn)錄組的序列組裝與分析
巴哈雀稗幼苗葉片轉(zhuǎn)錄組測(cè)序共計(jì)獲得6 426 619 800?bp的序列信息,其中包含序列讀取片段42 844 132個(gè),每一片段的長(zhǎng)度為150 bp;GC含量的平均值為62.62%;堿基Q30為92.18%。這表明該轉(zhuǎn)錄組測(cè)序數(shù)據(jù)量質(zhì)量較好。
對(duì)巴哈雀稗的reads片段進(jìn)行聚類(lèi)組裝,獲得177 162個(gè)轉(zhuǎn)錄本,最長(zhǎng)的為10 795 bp,最短的有201 bp,平均長(zhǎng)度為771.38 bp,N50為1 186 bp(表1)。其中,有50 320個(gè)轉(zhuǎn)錄本長(zhǎng)度在200~300 bp的范圍內(nèi),占比28.40%;300~500 bp的轉(zhuǎn)錄本有36 902個(gè),占比20.83%;500~1 000 bp的轉(zhuǎn)錄本有43 377個(gè),占比24.49%;1 000~2 000 bp的轉(zhuǎn)錄本有35 280個(gè),占比19.91%;≥2 000 bp的轉(zhuǎn)錄本有11 283個(gè),占比6.37%(表2)。
在轉(zhuǎn)錄本數(shù)據(jù)的基礎(chǔ)上,進(jìn)一步對(duì)序列進(jìn)行組裝,又獲得99 235個(gè)單基因簇,最長(zhǎng)的有10 795 bp,最短的為201 bp,平均長(zhǎng)度為641.96 bp(表1)。其中,單基因簇長(zhǎng)度在200~300 bp的有39 470個(gè),占比39.77%;單基因簇長(zhǎng)度在300~500 bp的有22 352個(gè),占比22.52%;長(zhǎng)度在500~1 000 bp的單基因簇有18 822個(gè),占比18.97%;1 000~2 000 bp的單基因簇有13 556個(gè),占比13.66%;≥2 000 bp的單基因簇有5 035個(gè),占比5.07%(表2)。
2.2 巴哈雀稗的單基因簇分析
2.2.1 單基因簇序列相似性分析 將組裝獲得的巴哈雀稗單基因簇與Nr數(shù)據(jù)庫(kù)利用BLAST程序進(jìn)行序列相似性比對(duì)。結(jié)果發(fā)現(xiàn),有53 886個(gè)單基因簇均可在Nr數(shù)據(jù)庫(kù)中找到相似序列;其中,巴哈雀稗與谷子(Setaria italica)的相似序列在匹配的近緣物種中所占比例最高,有14 130個(gè),占比26.22%;高粱(Sorghum bicolor)有10 594個(gè),占比19.66%;玉米(Zea mays)有6 908個(gè),占比12.82%;二穗短柄草(Brachypodium distachyon)有3 569個(gè),占比6.62%;大麥(Hordeum vulgare)有3 400個(gè),占比6.31%;節(jié)節(jié)麥(Aegilops tauschii)有2 366個(gè),占比4.39%;水稻(Oryza sativa)有1 913個(gè),占比3.55%(圖1)。
2.2.2 單基因簇的GO分類(lèi) 結(jié)合GO數(shù)據(jù)庫(kù)與NCBI
數(shù)據(jù)庫(kù)的功能注釋信息,對(duì)巴哈雀稗的單基因簇進(jìn)行功能分類(lèi)和表達(dá)基因功能分布特征分析,結(jié)果如圖2所示,巴哈雀稗單基因簇具體可以劃分為70個(gè)不同的功能組,歸屬于3大類(lèi):(1)生物學(xué)過(guò)程,有152 664個(gè)單基因簇;(2)細(xì)胞組分,有151 297個(gè)單基因簇;(3)分子功能,有61 339個(gè)單基因簇。其中,細(xì)胞(32 100個(gè))、細(xì)胞成分(32 022個(gè))、細(xì)胞進(jìn)程(27 602個(gè))、結(jié)合活性(26 715個(gè))、新陳代謝進(jìn)程(24 580個(gè))、細(xì)胞器(23 939個(gè))和催化活性(23 135個(gè))功能組中涉及的單基因簇較多;而細(xì)胞聚合(9個(gè))、受體調(diào)節(jié)活性(5個(gè))、趨化活性(2個(gè))、化學(xué)誘導(dǎo)活性(1個(gè))和生物節(jié)律性(1個(gè))功能組中所涉及的單基因簇較少。
2.2.3 單基因簇的COG分類(lèi) 對(duì)巴哈雀稗單基因簇進(jìn)行COG分類(lèi)和功能預(yù)測(cè),結(jié)果如圖3所示,具體可分為25類(lèi);其中,細(xì)胞運(yùn)動(dòng)類(lèi)單基因簇?cái)?shù)量最少,僅有9個(gè);核結(jié)構(gòu)類(lèi)和胞外結(jié)構(gòu)類(lèi)的單基因簇較少,分別只有103和77個(gè);一般功能預(yù)測(cè)類(lèi)和“翻譯、核糖體結(jié)構(gòu)和生物發(fā)生”類(lèi)的單基因簇稍多,分別有2 924和2 053個(gè);翻譯后修飾,蛋白質(zhì)折疊和分子伴侶類(lèi)的單基因簇較多,有3 105個(gè);信號(hào)傳導(dǎo)機(jī)制類(lèi)單基因簇最多,達(dá)3 330個(gè)。以上結(jié)果表明單基因簇涉及的COG功能類(lèi)別較為豐富。
2.2.4 單基因簇的KEGG分析 參考KEGG數(shù)據(jù)庫(kù),對(duì)巴哈雀稗單基因簇的代謝途徑進(jìn)行統(tǒng)計(jì)分類(lèi),結(jié)果如圖4所示,巴哈雀稗單基因簇可以分為細(xì)胞進(jìn)程、環(huán)境信息進(jìn)程、遺傳信息進(jìn)程、新陳代謝和生物系統(tǒng)共5個(gè)主要的代謝途徑,包含31類(lèi)代謝通路;其中,信號(hào)轉(zhuǎn)導(dǎo)、翻譯、碳水化合物代謝、“折疊、分類(lèi)和降解”、 代謝概況、“運(yùn)輸和代謝”、氨基酸代謝、能量代謝和脂類(lèi)物質(zhì)代謝等通路涉及的單基因簇較多。
結(jié)合KEGG pathway數(shù)據(jù)庫(kù),將巴哈雀稗單基因簇定位到具體的183個(gè)代謝途徑分支上,結(jié)果如表3所示,其中甜菜紅色素生物合成的基因最少,僅有1個(gè);占總體比例最大(5.54%)的是參與核糖體代謝途徑的基因,有1 022個(gè);碳代謝途徑的基因占總體的3.84%,有709個(gè);氨基酸生物合成途徑的基因占總體的3.14%,有580個(gè)。
2.3 SSR預(yù)測(cè)
通過(guò)SSR位點(diǎn)搜索,如表4所示,在巴哈雀稗的99 235個(gè)單基因簇中共檢測(cè)到12 062個(gè)SSR位點(diǎn);其中,三核苷酸重復(fù)所占比例最高,為52.85%;六核苷酸重復(fù)比例最低,僅占0.59%。在所有檢測(cè)到的SSR中,出現(xiàn)頻率最高的3類(lèi)基序?yàn)椋篈/T(3 602個(gè))、AT/GA(550個(gè))、AG/CT(487個(gè))。在上述SSR特征分析中,單核苷酸至六核苷酸重復(fù)類(lèi)型均存在,這有助于巴哈雀稗及其雀稗屬植物開(kāi)展遺傳圖譜構(gòu)建、基因組差異分析及通用性標(biāo)記開(kāi)發(fā)等研究,同時(shí)也表明了巴哈雀稗的SSR類(lèi)型較為豐富。
3 討 論
Illumina高通量測(cè)序技術(shù)具有成本低、速度快、數(shù)據(jù)量大、效率高的特點(diǎn)[6],尤其適用于類(lèi)似巴哈雀稗這樣缺乏基因組信息的植物轉(zhuǎn)錄組學(xué)研究。該研究對(duì)高通量測(cè)序獲得的42 844 132個(gè)巴哈雀稗r(nóng)eads序列進(jìn)一步拼接組裝后獲得99 235個(gè)單基因簇,長(zhǎng)度在201~10 795 bp范圍內(nèi),平均長(zhǎng)度為641.96 bp,N50為1 024 bp。 N50是評(píng)價(jià)組裝序列完整性的重要指標(biāo),N50越長(zhǎng),代表組裝的完整性越好。此次序列組裝的數(shù)據(jù)已滿(mǎn)足轉(zhuǎn)錄組分析的基本要求,這與賈新平等對(duì)海濱雀稗[7]和鳥(niǎo)巢蕨[8]的研究結(jié)果類(lèi)似。
該研究發(fā)現(xiàn)巴哈雀稗獲得的單基因簇與Nr數(shù)據(jù)庫(kù)比對(duì)存在53 886個(gè)相似序列,同時(shí)還獲得了45 349個(gè)新的單基因簇 (占總體的45.70%),這說(shuō)明對(duì)于缺乏基因組、EST及蛋白序列信息的植物,采用高通量測(cè)序技術(shù)不失為發(fā)現(xiàn)其功能基因的一種有效手段[9]。
功能注釋分析發(fā)現(xiàn),基于GO數(shù)據(jù)庫(kù)對(duì)巴哈雀稗單基因簇相關(guān)功能的注釋信息尚未完善,還存在部分的單基因簇沒(méi)有被賦予可能的GO條目,究其原因可能是GO數(shù)據(jù)庫(kù)結(jié)構(gòu)設(shè)計(jì)上存在缺陷,同時(shí)還有部分基因的特征尚未被注解,使得這些基因的注釋信息并不完整;也可能是這些序列不是注釋蛋白質(zhì)的重要同源物的緣故[10-11]。因此,后期還需要通過(guò)其他的方法對(duì)單基因簇功能注釋進(jìn)行補(bǔ)充和完善。在KEGG的代謝途徑中,部分代謝途徑與次生代謝物質(zhì)的生物合成及信號(hào)傳導(dǎo)途徑有關(guān),譬如β-丙氨酸代謝(ko00410)、苯丙素生物合成(ko00940)、淀粉與蔗糖代謝(ko00500)及丙酮酸代謝(ko00620)等。這些次生代謝產(chǎn)物及信號(hào)傳導(dǎo)途徑均為植物體內(nèi)重要的抗逆途徑,可以緩解或抵御因缺水、水澇等逆境造成的活性氧損傷[12]。從基因組水平上利用COG數(shù)據(jù)庫(kù)搜索直系同源體,既可預(yù)測(cè)未知ORF的生物學(xué)功能,又能對(duì)巴哈雀稗單基因簇的基因功能進(jìn)行分類(lèi),這能顯著提高基因功能注釋的準(zhǔn)確性。
SSR分子標(biāo)記具有遺傳信息量大、重復(fù)性好、多態(tài)性豐富、共顯性遺傳等多個(gè)優(yōu)點(diǎn)[13]。該研究發(fā)現(xiàn)的12 062個(gè)SSR位點(diǎn)出現(xiàn)頻率高且類(lèi)型豐富,恰好能為下一步巴哈雀稗SSR分子標(biāo)記開(kāi)發(fā)奠定基礎(chǔ)。
該研究采用高通量測(cè)序技術(shù)對(duì)巴哈雀稗幼苗葉片進(jìn)行了序列組裝、功能注釋、代謝途徑等分析,并獲得了其轉(zhuǎn)錄組數(shù)據(jù),該數(shù)據(jù)在今后有關(guān)雀稗屬植物的分子生物學(xué)研究中可作為雀稗數(shù)植物基因組的參考序列,提供可靠的數(shù)據(jù)資源。
參考文獻(xiàn):
[1] 侯曉龍,蔡麗平,韓 航,等. 鉛脅迫對(duì)百喜草葉綠素?zé)晒馓匦约懊富钚缘挠绊慬J]. 草業(yè)學(xué)報(bào),2017,26(3):142-148.
[2] 劉華榮,龍忠富,鄧 蓉,等. 百喜草在退耕坡地種植中的水土保持效應(yīng)及養(yǎng)羊效果[J]. 貴州農(nóng)業(yè)科學(xué),2012,40(7):145-148.
[3] 龍忠富. 百喜草種子生產(chǎn)技術(shù)研究[D]. 貴陽(yáng):貴州大學(xué),2006.
[4] 黃玉蘭,殷奎德,向君亮. 薏苡幼苗葉片轉(zhuǎn)錄組分析[J]. 農(nóng)業(yè)生物技術(shù)學(xué)報(bào),2017,25(3):386-396.
[5] Middleton A M,?beda-Tomás S,Griffiths J,et al. Mathematical modeling elucidates the role of transcriptional feedback in gibberellin signaling[J]. PNSA,2012,109(19):7571-7576.
[6] ??∑?,蘇建睦,王小敏,等. 基于高通量測(cè)序的金釵石斛葉轉(zhuǎn)錄組數(shù)據(jù)分析[J]. 分子植物育種,2018,16(3):747-756.
[7] 賈新平,孫曉波,鄧衍明,等. 鳥(niǎo)巢蕨轉(zhuǎn)錄組高通量測(cè)序及分析[J]. 園藝學(xué)報(bào),2014,41(11):2329-2341.
[8] 賈新平,葉曉青,梁麗建,等. 基于高通量測(cè)序的海濱雀稗轉(zhuǎn)錄組學(xué)研究[J]. 草業(yè)學(xué)報(bào),2014,23(6):242-252.
[9] Yan H,Jia H,Chen X,et al. The cotton WRKY transcription factor GhWRKY17 functions in drought and salt stress in transgenic Nicotiana benthamiana through ABA signaling and the modulation of reactive oxygen species production[J]. Plant Cell Physiol,2014,55(12):2060-2076.
[10] 王偉科,宋吉玲,閆 靜,等. 秀珍菇轉(zhuǎn)錄組測(cè)序和初步分析[J]. 南京農(nóng)業(yè)大學(xué)學(xué)報(bào),2019,42(2):292-299.
[11] 趙 胡,唐開(kāi)靜,范小瑩,等. ?‘黑油椿香椿嫩芽高通量轉(zhuǎn)錄組測(cè)序及萜類(lèi)代謝物質(zhì)初步分析[J]. 園藝學(xué)報(bào),2017,44(11):2135-2149.
[12] 張少平,邱珊蓮,鄭云云,等. 紫色黃秋葵轉(zhuǎn)錄組功能基因測(cè)序及分析[J]. 核農(nóng)學(xué)報(bào),2017,31(4):643-653.
[13] 楊 旭,楊志玲,譚 美,等. 厚樸轉(zhuǎn)錄組特征分析及EST-SSR標(biāo)記的開(kāi)發(fā)[J]. 核農(nóng)學(xué)報(bào),2019,33(7):1318-1329.
(責(zé)任編輯:成 平)