梅 瑜,李向榮,蔡時可,顧 艷,王繼華
(1.廣東省農(nóng)業(yè)科學院 作物研究所,廣東省農(nóng)作物遺傳改良重點實驗室,廣東 廣州 510640;2.汕尾市陸河縣農(nóng)業(yè)農(nóng)村局,廣東 汕尾 516600)
粉葛為豆科植物甘葛藤(Puerariathomsonii)的干燥根[1],性味甘、辛、涼,具有解肌退熱、生津止渴、升陽止瀉、通經(jīng)活絡、解酒毒等功效[2-3]。粉葛的藥用功能始載于東漢時期的《神農(nóng)本草經(jīng)》及《名醫(yī)別錄》,此外,在古典藥用植物《本草品匯精要》等書籍及現(xiàn)代的《中藥大辭典》和《中國藥典》中都有記載[4]。甘葛藤種質(zhì)資源豐富,在我國主要分布在云南、四川、西藏、江西、海南、廣東、廣西等地,部分地區(qū)還獲得了國家地理標志認證,如廣東的合水粉葛、火山粉葛、竹山粉葛、廟南粉葛、鶴山粉葛和活道粉葛等[5]。作為我國傳統(tǒng)的藥食兩用植物,其有效藥用物質(zhì)主要集中在根部,包括淀粉類、黃酮類、葛根苷類、香豆素類、三萜類和三萜皂苷類等100多種化合物,花中還鑒定出15種新的化合物[6]。其中,葛根素是功能研究較多的化合物,也稱葛根黃素,是異黃酮類衍生物,在葛根藥用成分中研究相對較多,具有退熱、擴冠狀的作用,在臨床上常用于冠心病心絞痛、高血壓的治療[7]。
粉葛醫(yī)藥保健作用越來越受到人們的重視,開發(fā)出來的產(chǎn)品種類也越來越豐富,開發(fā)前景廣闊,但其研究主要集中在化合物的分離和鑒定方面。轉錄組是基因功能研究的基礎和出發(fā)點,連接基因組遺傳信息與蛋白質(zhì)組。單分子測序技術為第3代測序技術,是近年逐漸成熟的新一代測序技術,在轉錄組學研究方面具有獨到優(yōu)勢。研究非模式植物的功能基因組學時,獲得全長轉錄本可推進基礎研究水平,第3代測序技術為此提供了較好的解決方案[8]。目前,全長轉錄組測序技術已經(jīng)廣泛應用于動植物的研究中,如利用全長轉錄組開發(fā)姜荷花(Curcumaalismatifolia)的分子標記[9];利用聯(lián)合測序技術研究丹參(SalviamiltiorrhizaBunge)活性成分的生物合成及調(diào)控機制[10];利用三代測序PacBio平臺獲得苦苣菜(SonchusoleraceusL.)葉片全長轉錄組參考序列,結合BGISEQ-500平臺的數(shù)字基因表達譜技術,分析不同濃度NaCl處理2 d苦苣菜葉片轉錄組表達譜,探究苦苣菜響應鹽脅迫的主要基因及代謝途徑[11],目前在粉葛的研究上還未見相關報道。本研究對甘葛藤進行全長轉錄組測序分析和基因注釋,并對轉錄因子(Transcription factor TFs)、R基因和SSR標記進行鑒定,為甘葛藤優(yōu)良品種選育和利用提供幫助。
一年生的甘葛藤植株取于廣東省廣州市南沙區(qū)廟街。分別采集植株葉片、嫩莖和根,立即在液氮冷凍,存儲于-80 ℃冰箱。
1.2.1 RNA提取 采用植物RNA提取試劑盒(TIANGEN(天根生化科技北京)有限公司,貨號DP441)分別提取甘葛藤3個器官的總RNA,用1%瓊脂糖凝膠電泳法檢測RNA的完整性,DNA Marker為全式金B(yǎng)M101(TransGen Biotech),15 000 bp。使用NanoPhotometer spectrophotometer和安捷倫2100生物分析儀(Agilent Technologies,Palo Alto,CA)評估RNA質(zhì)量和完整性。選擇3個OD260nm/230nm>1.8的總RNA等量混合,構建文庫,用Pacbio三代測序儀(Pacific Biosciences,US)進行全長轉錄組測序。
1.2.2 建庫測序與拼接組裝 采用PacBio三代測序儀對甘葛藤的cDNA進行測序。檢測合格后的RNA使用ClontechSMARTer PCR cDNA Synthesis Kit反轉錄為第1鏈cDNA;PCR擴增合成雙鏈cDNA;使用AMPure PB Bead對PCR擴增產(chǎn)物進行純化用于SMRTbell文庫構建,包括DNA損傷修復、末端修復、連接Adapter、文庫質(zhì)量評估,將SMRTbell文庫退火結合引物和聚合酶,采用MagBead Loading上機測序,由廣州基迪奧生物技術有限公司完成。利用Fast QC評估原始數(shù)據(jù),利用NGS QC工具包對數(shù)據(jù)進行過濾(去除含接頭或含N的讀長,大于10%未知核苷酸或大于40%低質(zhì)量堿基的讀長,Q值≤20),獲得質(zhì)量較高的讀長,然后用Trinily軟件進行轉錄本的拼接組裝[12]。
1.2.3 單基因功能注釋 利用BlastX程序?qū)CBI數(shù)據(jù)庫(Nr)、Swiss Prot蛋白數(shù)據(jù)庫、KEGG和COG/KOG數(shù)據(jù)庫進行比對分析,用Blast2GO軟件分析GO的功能注釋和Nr注釋結果[13],用WEGO軟件進行功能分類[14]。使用EST掃描軟件確認蛋白質(zhì)編碼序列和序列方向,將單基因的蛋白質(zhì)編碼序列與智能數(shù)據(jù)庫(SMART database)比對(版本號SMART 06/08/2012),獲得蛋白質(zhì)結構域注釋。
1.2.4 轉錄因子(TFs)和R基因分析 利用BlastP將單基因蛋白編碼序列與植物轉錄因子數(shù)據(jù)庫v4.0(http://planttfdb.cbi.pku.edu.cn/)進行比對,預測TF家族;通過BlastP將單基因的蛋白質(zhì)編碼序列與植物R基因數(shù)據(jù)庫PRGdb(http://PRGdb.crg.eu/wiki/Main_Page)進行比對,預測甘葛藤中的R基因。
1.2.5 SSRs預測 依據(jù)配置參數(shù)使用軟件MISA(http://pgrc.ipk-gatersleben.de/misa/)對甘葛藤轉錄組Isoform進行搜索,尋找Isoform中的SSR,并用Primer軟件設計SSR側翼區(qū)的引物。
利用單分子長讀數(shù)測序技術(Single-molecule longread sequencing technology, SMRT),總共獲得19 680 274 333 bp,去除低質(zhì)量序列后,獲得10 994 967個高質(zhì)量reads,N50為 2 524 bp,平均長度為1 789 bp。Full Passes數(shù)目大于等于2的序列為參數(shù),提取reads中的CCS序列得到492 223個reads,共1 177 436 362 bp,平均長度為2 392 bp。其中,含有5′primer的 CCS有444 921條,含有3′primer的CCS 有457 237條,含有polyA的CCS有449 010條。全長reads為416 045條,全長非嵌合序列(Full-length non-chimeric,F(xiàn)LNC)384 072條,占78.03%,共906 989 814 bp,平均長度2 361 bp;其次是非全長序列(Non-full-length reads)占15.29%;全長嵌合體序列(Full-length chimeric)和短序列(Short)占比較少,分別為6.50%,0.19%。
對reads進行聚類和校正,得到193 955條初步校正的一致性序列(Unpolished consensus isoforms);用Quiver算法對一致性序列進行進一步的校正得到高質(zhì)量序列146 312條,低質(zhì)量46 138條,平均長度2 365 bp。一致性序列進行去冗余得到高質(zhì)量序列90 856條,共218 049 687 bp,最長序列為14 015 bp,最短為131 bp,平均為2 399.95 bp,N50為2 777 bp,GC含量為40.31%。
利用公共數(shù)據(jù)庫對90 856個轉錄本進行比對注釋,結果85 239個單基因被NR、Swissprot、KOG和KEGG數(shù)據(jù)庫注釋。其中,84 675個基因被注釋到NR數(shù)據(jù)庫,占93.2%;73 149個基因被注釋到Swissprot數(shù)據(jù)庫,占80.51%;被KOG數(shù)據(jù)庫注釋的基因有59 931個,占65.96%;KEGG數(shù)據(jù)庫注釋的基因有38 460個,占42.33%;未被以上數(shù)據(jù)庫注釋的基因有5 617個,占組裝基因的6.12%,可能是新基因不能被注釋;被四大數(shù)據(jù)庫共同注釋的基因有32 037個。
利用BlastX進行同源序列比對,結果發(fā)現(xiàn),甘葛藤和大豆(Glycinemax)的單基因匹配率最高,共有39 603個(43.59%),其次是野大豆(Glycinesoja,12 598個,13.87%)、木豆(Cajanuscajan,10 230個,11.26%)、苜蓿(Medicagotruncatula,4 621個,5.09%)、綠豆(Vignaradiata,3 674個,4.04%)和赤豆(Vignaangularis,3 246個,3.57%)等(表1)。
表1 物種分布統(tǒng)計Tab.1 Statistical table of species distribution
2.2.1 KOG分析 共有59 931個基因被KOG注釋分為25類(圖1)。按照功能來分,大多數(shù)基因?qū)儆谝话愎δ茴A測(20 168;22.20%),其次是信號轉導機制(15 265;16.80%)和翻譯后修飾、蛋白轉換、伴侶(12 519;13.78%)等。少數(shù)單基因被分配到細胞動力,僅有81個;其次是細胞外結構和核結構,分別為362,445個;另有4 243個基因未知功能。有2 891個基因與次生代謝物生物合成、運輸和分解代謝相關,這些基因可能對甘葛藤中次生代謝物的特定生物合成、運輸和積累有重要作用。
2.2.2 GO 功能注釋分類 30 837個基因被注釋到GO數(shù)據(jù)庫,被分為三大類:生物過程、細胞組分和分子功能。46.93%的基因分布在生物過程,其中代謝過程的基因最多(19 087,21.01%),其次是細胞過程(17 710,19.49%)、單有機體過程(13 326,14.67%)、生物調(diào)節(jié)(5 678,6.25%)。30.89%的基因分布在細胞組分中,細胞(11 388,12.53%)和細胞部分(11 387,12.53%)是本亞類的最主要的組分,其次為細胞器(9 183,10.11%)、膜(6 139,6.76%)和膜部分(4 559,5.02%)等。22.18%的基因被注釋到分子功能,催化活性(18 249,20.09%)最為突出,其次是結合(15 027,16.54%)、運輸活性(1 516,1.67%)等(圖2)。
2.2.3 KEGG通路分析 通過KEGG數(shù)據(jù)庫比對分析,共有22 330個基因被注釋到132條途徑。其中代謝途徑(9 368,41.95%)分布的基因最多,其次是次級代謝產(chǎn)物生物合成(5 220,23.48%)、抗生素生物合成(2 372,10.62%)、不同環(huán)境的微生物代謝(2 258,10.11%)、碳代謝(1 783,7.98%)、氨基酸生物合成(1 261,5.65%)等(表2)。
表2 KEGG通路富集Tab.2 KEGG pathway enrichment
2.2.4 黃酮類生物合成基因的鑒定 黃酮類是植物的苯丙氨酸代謝過程中產(chǎn)生的植物次生代謝產(chǎn)物,是一類由肉桂酰輔酶A側鏈延長后環(huán)化形成以苯色酮環(huán)為基礎的酚類化合物。異黃酮類物質(zhì)是粉葛的主要活性成分,其中如葛根素、鳶尾苷元和鳶尾苷,是粉葛的主要的藥用成分之一[15]。根據(jù)粉葛的轉錄組數(shù)據(jù)繪制其黃酮類生物合成代謝途徑(圖3)。在苯丙酸生物合成途徑中,苯丙氨酸為底物,由苯丙氨酸解氨酶(Phenylalanine ammonialyase,PAL)將氨基基團從苯丙氨酸分子中移除而形成了肉桂酸(Cinnamic acid);然后在4-香豆酸-CoA連接酶(4-coumarate-CoA ligase,4CL)和肉桂酸-4羥化酶(Cinnamic acid 4-hydroxylase,C4H/CYP73A)作用下,在肉桂酸分子中添加上一個羥基基團而形成對-香豆酸(p-Coumarate);其側鏈結合輔酶A分子(CoA),從而轉變?yōu)閷?香豆酸輔酶A分子(p-Coumarate-CoA),作為黃酮類化合物合成的起始底物。對-香豆酰輔酶A在查爾酮合酶(Chalcone synthase,CHS)的催化下產(chǎn)生柚皮素查爾酮或異甘草素,經(jīng)查爾酮異構酶(Chalcone isomerase,CHI)作用,分別形成柚皮素或甘草素;之后,柚皮素作為中間產(chǎn)物進入代謝途徑,甘草素作為底物進入異黃酮生物合成途徑。除此之外,對-香豆酰輔酶A在莽草酸O-羥基肉桂酰基轉移酶(Shikimic acid O-hydroxy cinnamoyltransferas,HCT)、5-O-(4-香豆蔻?;?-D-奎寧酸3′-單加氧酶(5-O-(4-coumaroyl)-D-quinate 3′-monooxygenase,C3′H)作用下形成咖啡酰-CoA,經(jīng)查爾酮合酶催化形成2′,3,4,4′,6′五羥基查爾酮(2′,3,4,4′,6′Pentahydroxy chalcome);或經(jīng)咖啡酰輔酶A O-甲基轉移酶 (Caffeoyl-CoA O-methyltransferase,CCoAOMT)催化形成阿魏酰輔酶A,再由查爾酮合酶催化形成4,2′,4′,6′,四羥基-3-甲氧基查爾酮(4,2′,4′,6′,-Tetrahydroxy-3-methoxy chalcome)。甘葛藤黃酮類的合成在不同酶的催化下參與復雜的代謝過程,產(chǎn)生的次生代謝產(chǎn)物較多。在甘葛藤轉錄組數(shù)據(jù)中,與黃酮類合成相關的基因110個,其中,26個編碼HCT,3個編碼CHS,7個編碼CHI(表3)。
2.2.5 轉錄組中TFs和R基因分析 TFs在生物過程的基因表達模式主要起調(diào)節(jié)作用,如黃酮類化合物的生物合成途徑[16]。根據(jù)比對結果,3 507個基因被劃分到55個不同的轉錄因子家族(圖4)。其中Basic/Helix-Loop-Helix(bHLH)轉錄因子類的基因最多(290個),其次是C2H2(249個)、TALE(225個)、C3H(221個)、WRKY(179個)、bZIP(173個)等,最少的是GRF(1)和NZZ/SPL(1),這些轉錄因子信息為甘葛藤次生代謝產(chǎn)物的生物合成和抗逆性研究提供了依據(jù)。
植物R基因在識別病原菌的特異無毒性(Avr)基因和刺激誘導抗病的信號轉導級聯(lián)中起著關鍵作用[17]。14 127個基因被分為17個不同的R基因類別。受體樣蛋白(RLP)的種類最多(3 633個),其次是TNL(2 729個)、N(2 239個)、NL(1 621個)、CNL(1 203個)等(圖5);分配到PTO(1個)的基因最少,其次是RLP-Malectin(9個)和RLK-Malectin(2個)。
2.2.6 轉錄組中SSRs標記位點的分布 SSR標記被認為是基于DNA多態(tài)性的一種標記技術,是進行遺傳多樣性檢測和遺傳圖譜構建的有效工具之一[18]。從90 856個基因中篩選出了33 660個SSR,其中含有一個以上SSR的序列有6 628個,SSR以復合形式存在的序列有3 580個;在檢測到的核苷酸基序重復序列中,二核苷酸(14 778個,43.93%)和三核苷酸(12 927,38.41%)占比較多,其次為四核苷酸(2 791,8.29%)、五核苷酸(1 550,4.60%)、六核苷酸(1 614,4.80%)。類型最豐富的是AG/CT(8 863,26.33%),其次為AT/AT(3 479,10.34%)、AC/GT(2 433,7.23%)和AAG/CTT(2 784,8.27%)(圖6)。在此基礎上,利用Primer Premier設計引物,為甘葛藤遺傳多樣性研究和遺傳圖譜構建提供了數(shù)據(jù)基礎。
本草基因組學近幾年的發(fā)展加快了藥用植物基因資源的保護和利用。轉錄組分析是鑒定植物轉錄調(diào)控最為有效、準確和低成本的工具之一,也是本草基因組學研究的重要手段之一。在非模式植物的功能基因組學研究中,全長轉錄本提供的信息豐富,獲得能夠有力地推進相應基礎研究水平,第三代測序技術為此提供了較好的解決方案。有助于揭示其生長發(fā)育、逆境應答機制和次生代謝產(chǎn)物的富集調(diào)控機制。目前,全長轉錄組測序已經(jīng)廣泛應用于動植物和微生物測序研究中,尤其是對于沒有完成基因組序列測序的大多數(shù)藥用植物,將三代高通量測序用于植物全長轉錄組研究,對具有生物活性次級代謝物的調(diào)控基因的探索和分子標記的開發(fā)具有重要意義[10]。如在藥用模式植物丹參的研究中,基于二代測序獲得的大部分序列不具有全長cDNA特性,而利用RNA-seq、Iso-SeqNGS和SMRT技術對丹參周皮、韌皮部、木質(zhì)部進行轉錄本測序,獲得了高質(zhì)量的全長轉錄本,為丹參研究提供了完整的轉錄信息[8,19]。植物和傳統(tǒng)藥用植物中廣泛存在著植物天然化合物,天然產(chǎn)物一直以來都是研究的熱點。甘葛藤作為“藥食同源”植物,黃酮類化合物是甘葛藤的主要活性物質(zhì)之一,具有抗炎、抗氧化、保護心臟、降血糖等功效[20],越來越受到人們的青睞。但相對于其他農(nóng)作物而言,甘葛藤的仍采用傳統(tǒng)育種手段、比較落后,且育種周期較長、選育的品種藥效難以保證。而且隨著甘葛藤化學成分及藥理作用研究的不斷深入,其轉錄組學和基因組學的研究報道甚少,這不利于甘葛藤次生代謝產(chǎn)物合成途徑的解析。本研究利用三代高通量測序平臺對甘葛藤的3個不同組織進行混合測序,組裝出90 856個單基因,有85 239個得到注釋,獲得完整的參考轉錄組。目前還缺乏甘葛藤的參考基因組,但是基于轉錄開發(fā)的SSR有助于改善甘葛藤的分子標記。同時,這些單基因序列和注釋將有助于甘葛藤中新基因的發(fā)現(xiàn)和功能基因組分析。豆科有650個屬,18 000種植物,葛屬植物有20多種,本研究可為豆科植物的分子生物學研究提供參考。此外,葛根資源的系統(tǒng)收集和評價,以及新品種的培育是今后研究的重點,可為葛產(chǎn)業(yè)健康可持續(xù)發(fā)展提供保障。