徐世強 ,梅 瑜 ,曹 陽 ,黃志娜 ,蔡時可 ,王繼華 ,3
(1.廣東省農(nóng)業(yè)科學院作物研究所/廣東省農(nóng)作物遺傳改良重點實驗室,廣東 廣州 510640;2.廣東省農(nóng)業(yè)科學院農(nóng)業(yè)經(jīng)濟與農(nóng)村發(fā)展研究所,廣東 廣州 510640;3.農(nóng)業(yè)農(nóng)村部華南都市農(nóng)業(yè)重點實驗室,廣東 廣州 510640;4.中山永正生物醫(yī)療投資有限公司,廣東 中山 528400)
【研究意義】藥用植物遺傳資源是中藥新藥研發(fā)、優(yōu)良品種選育的基礎,但近年來國內外對中藥材的需求量急劇增長,導致中藥材面臨種質退化、資源耗竭、品質不穩(wěn)定等問題。因此,利用現(xiàn)代生物學技術解析藥用活性成分的合成途徑和調控機制來推動合成生物學的發(fā)展,是藥用植物資源的保護與利用的重要課題?!厩叭搜芯窟M展】龍脷葉(Sauropus spatulifoliusBeille),又名龍利葉、龍肝葉、龍舌葉、龍味葉和牛耳葉等,為大戟科守宮木屬常綠小灌木,廣泛分布于我國福建、廣東、廣西等地。龍脷葉具有重要的藥用價值和觀賞價值,其性甘、淡、平,具有清熱解毒、祛痰止咳的功效,常用于治療肺熱咳嗽以及上呼吸道炎癥引起的咽痛、急性支氣管炎等癥[1]。龍脷葉在我國南方也常作為食療藥材,其干燥的葉也是涼茶的主要原料之一?,F(xiàn)代藥理學研究表明龍脷葉具有抗炎鎮(zhèn)痛、抗過敏、抗氧化、止咳祛痰等活性[2-4]。化學成分研究表明龍脷葉中富含氨基酸、多糖、多酚類、有機酸類、甾醇、生物堿類、萜類、苯丙素類和黃酮類等物質[5-6]。黃酮及其糖苷類化合物是龍脷葉主要的活性成分之一,2015年版《中華人民共和國藥典》中將山奈酚3-O-龍膽二糖苷的含量作為評價龍脷葉質量的標準。基于高通量測序技術的轉錄組和生物信息學分析不受基因組信息的限制,在闡明藥用活性成分合成途徑、挖掘相關功能基因、揭示其生長發(fā)育規(guī)律、開發(fā)中藥鑒別的DNA分子標記等方面奠定了重要基礎[7-8]。目前,許多藥用植物的轉錄組學研究已經(jīng)開展,例如半枝蓮、白木香、茜草等,并鑒定到大量涉及黃酮類、萜類、蒽醌類等活性物質生物合成途徑相關的基因[9-11]?!颈狙芯壳腥朦c】目前,龍脷葉的研究多集中于藥理作用和化學成分鑒定等方面,關于龍脷葉的轉錄組學分析和次生代謝產(chǎn)物的合成途徑解析,尤其是黃酮類化合物生物合成關鍵基因的鑒定與研究還未見相關報道?!緮M解決的關鍵問題】由于缺乏龍脷葉基因組信息,本研究采用Illumina HiSeqTM4000測序技術對龍脷葉不同組織器官(葉、花和根)進行混池建庫和合并組裝構建龍脷葉的轉錄組unigene庫,并基于公共數(shù)據(jù)庫進行功能分析,解析龍脷葉黃酮類化合物生物合成途徑及相關的功能基因,為下一步克隆黃酮類生物合成關鍵基因、功能驗證以及開展合成調控機制研究提供基礎數(shù)據(jù)。
供試材料種植于廣東省中山市永正中草藥研究所的溫室,經(jīng)廣東省農(nóng)業(yè)科學院作物研究所蔡時可高級農(nóng)藝師鑒定為龍脷葉(S.spatulifolius)。選取健康的3年生龍脷葉5株,分別采集葉、花和根3個不同器官,立即在液氮中冷凍,存儲于-80 ℃冰箱保留備用。
1.2.1 RNA提取 采用植物RNA提取試劑盒(Omega)分別提取龍脷葉3個器官的總RNA,用1%瓊脂糖凝膠電泳檢測RNA的完整性。使用Agilent 2100 Bioanalyzer評估RNA的質量和完整性。將檢測合格的總RNA等量混合,用于Illumina平臺進行建庫與測序。
1.2.2 建庫測序與拼接組裝 采用帶有Oligo(dT)的磁珠富集mRNA并加入fragmentation buffer片段化,通過六堿基隨機引物反轉錄合成第一條cDNA鏈,然后通過DNA polymerase Ⅰ合成cDNA第二鏈,經(jīng)過QiaQuick PCR試劑盒純化并做末端修復、加poly(A)并連接測序接頭,通過片段大小選擇后進行PCR擴增,構建的龍脷葉測序文庫采用Illumina HiSeqTM4000進行測序。得到原始數(shù)據(jù)后,利用Fast QC進行評估,并使用NGS QC工具包進行過濾獲得高質量的clean reads,然后采用Trinily行轉錄本的拼接組裝獲得unigene[12-13]。
1.2.3 Unigene的功能注釋 采用blastx程序(E-value<0.00001)將組裝的unigene在Nr、SwissProt、KEGG和KOG數(shù)據(jù)庫進行比對分析。用Blast2GO軟件分析GO的功能注釋,并采用WEGO軟件進行功能分類。根據(jù)文獻報道的高等植物黃酮類合成途徑,結合轉錄組注釋的結果,采用本地blast進行比對分析,篩選參與龍脷葉黃酮類化合物合成的相關基因[14-15]。
1.2.4TFs、R基因和SSRs鑒定分析 采用blastp將unigene編碼的蛋白序列與植物轉錄因子數(shù)據(jù)庫v4.0(http://planttfdb.cbi.pku.edu.cn/)進行比對,預測龍脷葉TFs家族;通過與植物R基因數(shù)據(jù)庫PRGdb(http://PRGdb.crg.eu/wiki/Main_Page) 進行比對分析,預測龍脷葉中的R基因。采用軟件MISA(http://pgrc.ipk-gatersleben.de/misa/)對龍脷葉轉錄組所有Unigene 存在SSRs進行鑒定分析。
采用Illumina HiSeqTM 4000測序平臺進行龍脷葉轉錄組的高通量測序,共獲得90 679 574條raw reads,經(jīng)過數(shù)據(jù)過濾后共得到88 396 692條 clean reads,Q20達97.02%,Q30達92.49%,GC量為44.61%,表明測序質量較高,能夠滿足后續(xù)的生物信息學分析。利用Trinity軟件,共組裝46 600個unigene,平均長度877 bp,N50為1 441 bp,GC含量為41.66%。組裝的unigene長度分布表明,47.77%的unigene長度在200~500 bp之間,長度大于1 000 bp和大于2 000 bp的unigene分別占29.76%和9.82%(圖1A)。
使用BLAST軟件將組裝的unigene與NR、SwissProt、KOG和KEGG數(shù)據(jù)庫進行比對分析獲得龍脷葉轉錄組unigene的注釋信息。由圖1 B可知,共有34 188個(73.36%)unigene獲得功能注釋,其中34 092個(73.16%)和24 336個(52.22%)unigene分別在NR和SwissProt數(shù)據(jù)庫中得到注釋,9 799個(28.66%)unigene在各數(shù)據(jù)庫中均得到注釋,而12 412個(26.64%)unigene沒有獲得功能注釋。由圖1 C可知,龍脷葉unigene 在NR數(shù)據(jù)庫相似序列匹配的近緣物種中,麻風樹(Jatropha curcas)的匹配率最高,共有5 628個(16.51%)unigene,其后依次是蓖麻(Ricinus communis, 4 833個、14.18%)、胡楊(Populus euphratica, 3 819個、11.20%)、可可(Theobroma cacao, 2 086個、6.12%)、毛果楊(Populus trichocarpa, 1 924個、5.64%)。
共有(73.53%)34 267個unigene被注釋到25個KOG功能分類。其中涉及一般功能預測的基因最多,共有8 501個、占24.81%,其后依次是翻譯后修飾、蛋白質轉換、伴侶(3 662個、10.69%)、信號轉導機制(3 556個、10.38%)和轉錄(1 934個、5.64%),只有少數(shù)unigene被注釋到細胞運動和細胞外結構(分別為15、64個),還有1 367個unigene涉及功能未知;共有1 151個unigene分配到次生代謝物生物合成、運輸和分解代謝,占總數(shù)的3.36%,這些基因可能涉及龍脷葉中次生代謝物的生物合成、運輸和積累。
共有41 181個(88.37%)unigene被注釋為42個GO功能分類。其中45.39%的unigene注釋到生物過程中,依次為代謝過程(6 114個、14.85%)、細胞過程(4 889個、11.87%)、單有機體過程(3 720個、9.03%)和定位過程(1 043個、2.53%)等;28.94%的unigene注釋到分子功能中,依次為催化活性(6 564個、15.94%)、代謝過程(6 114個、14.85%)、細胞過程(4 889個、11.87%)和結合過程(4 319個、10.62%)等;25.66%的unigene分配到細胞成分,其中細胞和細胞部分注釋到的unigene數(shù)量最多(2 256個、5.48%),其后依次是細胞器(1 597個、3.83%)、膜(1 520個、3.69%)和膜部分(1 225個、2.98%)。
圖1 龍脷葉轉錄組組裝的unigene長度分布和功能注釋Fig. 1 Length distribution and functional annotation of unigenes assembled by S. spatulifolius Beille transcriptome
由圖2可知,共有6 902個unigene涉及參與萜類、黃酮類、脂質等132條代謝途徑。其中185個unigene涉及苯丙素生物合成(ko00940),56個unigene涉及類黃酮生物合成(ko00941),9個unigene參與黃酮和黃酮醇生物合成(ko00944),2個unigene參與異黃酮生物合成(ko00943)(圖2 A);72個unigene涉及萜類骨架生物合成(ko00900),46個unigene涉及類胡蘿卜素生物合成(ko00906),39個unigene涉及二萜類生物合成(ko00904),35個unigene涉及倍半萜和三萜生物合成(ko00909)和12個unigene涉及單萜生物合成(ko00902)(圖2 B)。
黃酮類通常以糖苷或其他結合物的形式積聚,合成的底物來源于苯丙酸途徑和三羧酸循環(huán)。黃酮類物質是龍脷葉的主要活性成分,其中山奈酚-3-O-龍膽二糖苷的含量是評價龍脷葉質量的標準。根據(jù)龍脷葉的轉錄組數(shù)據(jù)繪制龍脷葉黃酮類生物合成代謝途徑(圖3)。在苯丙酸生物合成途徑中,苯丙氨酸由苯丙氨酸解氨酶(PAL)、4-香豆酸-CoA連接酶(4CL)和肉桂酸4-羥化酶(CYP73A/C4H)催化合成肉桂酰CoA和對香豆酰CoA,作為黃酮類化合物合成的起始底物。在黃酮類化合物的生物合成中,對-香豆酰CoA和丙二酰CoA(來源于三羧酸循環(huán))在查爾酮合酶(CHS,黃酮類化合物生物合成的第一個關鍵酶)的催化下產(chǎn)生柚皮素查爾酮或異甘草素,然后在黃酮代謝途徑上游的關鍵酶查爾酮異構酶(CHI)的作用下,柚皮素查爾酮或異甘草素被迅速異構化形成柚皮素或甘草素。隨后,甘草素作為底物主要進入異黃酮生物合成途徑,柚皮素作為主要的中間產(chǎn)物進入多種代謝途徑。黃烷酮3-羥化酶(F3H)催化柚皮素合成二氫山奈酚,直接影響黃酮類化合物的合成。黃酮醇合酶(FLS)催化二氫山奈酚形成山奈酚,作為黃酮合成途徑的底物。龍脷葉中類黃酮生物合成過程中的產(chǎn)物在不同酶的催化下參與不同的代謝途徑,產(chǎn)生多種次生代謝產(chǎn)物。在龍脷葉的轉錄組數(shù)據(jù)中共發(fā)現(xiàn)38個主要參與黃酮類的生物合成的關鍵基因,其中5個編碼CHS,2個編碼CHI,3個編碼FLS(表1)。
圖2 基于KEGG數(shù)據(jù)庫的代謝途徑分析Fig. 2 Analysis of metabolic pathways based on KEGG database
TFs主要調節(jié)各種生物過程的基因表達模式,如黃酮類化合物的生物合成途徑[16]。根據(jù)比對結果,1 256個unigene被分為56個不同的轉錄因子家族,其中Basic/Helix-Loop-Helix(bHLH)轉錄因子類的unigene數(shù)量最多(92個),其次是ERF、MYB、WRKY、NAC等,這些轉錄因子信息為進一步用于提高龍脷葉類黃酮生物合成和抗逆性提供了理論依據(jù)。植物R基因在識別病原菌的特異無毒性(Avr)基因和刺激誘導抗病的信號轉導級聯(lián)中起著關鍵作用[17]。共有3 942個unigene被分為15個不同的R基因類別,其中受體樣蛋白(RLP)的種類最多(1 047個、占26.56%),其后依次是TNL(660個、占16.74%)、N(603個、占15.30%)和NL(530個、占13.44%),只有少數(shù)unigene被分配到RLPMalectin和L(分別為3、8個unigene)。
SSRs是檢測遺傳多樣性和構建遺傳圖譜的有效分子標記之一[18]。共從46 600個unigene中鑒定出3 356個SSRs,其中348個序列含有1個以上的SSRs,201個SSRs以復合形式存在,SSRs的平均分布密度為1/12.2kb。3 356個SSRs位點共檢測到333種核苷酸基序重復序列,其中以二核苷酸(1 785個、占53.19%)和三核苷酸(1 198個、占35.70%)最多,其次是四核苷酸(147個、占4.38%)、五核苷酸(129個、占3.84%)和六核苷酸(97個、占2.89%)。龍脷葉中SSRs最豐富的重復類型是AG/CT(1 496個、占44.58%),其次是AAG/CTT(396個、占11.80%),ATC/ATG(175個、占5.21%)和ACC/GGT(172個、占5.13%)?;? 356個SSRs,使用primer 1.1.4設計引物,為進一步研究龍脷葉的遺傳多樣性和構建遺傳圖譜提供了有價值的數(shù)據(jù)資源。
近年來,本草基因組學的發(fā)展加速了藥用植物基因資源的保護與利用[19]。轉錄組學研究是本草基因組學研究的重要手段之一,有助于揭示其生長發(fā)育、響應逆境脅迫和次生代謝產(chǎn)物富集的調控機制,特別適用于沒有完整基因組序列的藥用植物的基因結構和功能預測等研究。中藥龍脷葉是大戟科植物龍脷葉的干燥葉,常與其他藥物配伍治療間質性肺炎、急性支氣管炎。目前關于龍脷葉化學成分和藥理作用的研究不斷深入,而基因組、轉錄組學的研究尚未見報道,制約了龍脷葉次生代謝合成途徑的解析。本研究采用Illumina HiSeqTM4000測序平臺,對龍脷葉不同組織進行轉錄組測序并構建龍脷葉的unigene庫。通過de novo組裝共獲得46 600個unigene,N50為1 441 bp,長度大于1 000 bp的unigene占39.58%。N50的長度是評價轉錄組組裝質量的重要指標,龍脷葉轉錄組組裝的N50長度與茶樹(1 081 bp)的長度相近,但比新塔花的N50長(704 bp),表明龍脷葉轉錄組測序數(shù)據(jù)組裝效果較好,能夠滿足后續(xù)數(shù)據(jù)分析的要求[20-21]。
圖3 龍脷葉轉錄組中類黃酮生物合成途徑Fig. 3 Pathway of flavonoids biosynthesis in the S. spatulifolius Beille transcriptome
通過與公共數(shù)據(jù)庫進行比對分析獲得unigene的功能注釋,結果顯示共有73.36%的unigene獲得功能注釋,其中在NR數(shù)據(jù)庫中比對到最多的物種為大戟科近緣物種麻風樹和蓖麻,表明龍脷葉轉錄組組裝的序列結果可靠。但還有26.64%的unigene沒有獲得功能注釋,可能是由于組裝的unigene序列太短而缺乏保守結構域或者由于數(shù)據(jù)庫中龍脷葉基因組、轉錄組信息匱乏導致無法獲得功能注釋。在KEGG數(shù)據(jù)庫中共注釋到6 902個unigene參與132個代謝途徑,包括萜類、類胡蘿卜素、生物堿類、黃酮類等次級代謝的生物合成途徑。黃酮類化合物山奈酚及其衍生物具有抗氧化、抗炎、抗菌、抗癌、心臟保護、神經(jīng)保護、降糖和抗骨質疏松等藥理活性[22]。山奈酚3-O-龍膽苷是龍脷葉的主要活性物質之一,其含量常作為龍脷葉質量的檢測標準。目前黃酮類化合物的生物合成途徑在許多藥用植物中已經(jīng)明確,但關于龍脷葉中黃酮類的生物合成途徑和相關的功能基因還未見報道。本研究通過轉錄組測序和功能注釋共鑒定到38個unigene涉及黃酮類化合物生物合成途徑的關鍵基因,其中5個編碼CHS,2個編碼CHI,3個編碼FLS。轉錄因子能夠結合到基因上游的DNA結合域,從而對基因的表達起抑制或增強的作用。Huang等[23]在紫皮柚中鑒定到MYB類轉錄因子CgRuby1可以激活花青苷合成的結構基因CgF3'H和CgDFR的轉錄表達促進花青苷的合成。本研究在龍脷葉中還鑒定到56個unigene編碼 MYB轉錄因子。這些代謝通路和轉錄因子的發(fā)現(xiàn)為揭示龍脷葉次級代謝物的生物合成途徑和調控機制提供了基礎數(shù)據(jù)。
表1 類黃酮生物合成相關的候選基因數(shù)量Table 1 Summary of candidate genes related to flavonoids biosynthesis
本研究利用高通量測序技術獲得了龍脷葉的轉錄組特征,通過不同組織合并de novo組裝共獲得46 600個unigene,其中34 188(73.36%)個unigene在公共數(shù)據(jù)庫中獲得功能注釋。同時,在龍脷葉中還鑒定到1 256個轉錄因子、3 942個R基因和3 356個SSRs。KEGG代謝通路分析表明共有6 902個unigene涉及參與萜類、黃酮類、脂質等132條代謝途徑,通過功能注釋篩選到56個unigene涉及類黃酮生物合成、9個unigene參與類黃酮和類黃酮生物合成,2個unigene參與異黃酮生物合成。