譚志強(qiáng) 黃炬峰 李福明 鄧樂(lè)平 毛積鵬,2
(1.臺(tái)山市紅嶺種子園,廣東 江門(mén)529223;2. 華南農(nóng)業(yè)大學(xué) 林學(xué)與風(fēng)景園林學(xué)院/廣東省森林植物種質(zhì)創(chuàng)新與利用重點(diǎn)實(shí)驗(yàn)室,廣東 廣州 510642)
猴耳環(huán)Pithecellobium clypearia是我國(guó)南方一種重要的藥用植物,具有抗菌、抗炎、抗氧化、抗流感、抗腫瘤、降血糖、降血脂和免疫等作用[1-8]。特別是其高效的抗炎作用在臨床上被廣泛應(yīng)用于呼吸道感染、咽喉炎、扁桃體炎和腸胃炎等炎癥的治療。目前已研發(fā)出了猴耳環(huán)消炎片和猴耳環(huán)消炎膠囊等產(chǎn)品[9-11]。猴耳環(huán)的主要藥用部位為干燥的嫩枝和葉。近年來(lái)相關(guān)學(xué)者利用高效液相色譜(HPLC)和色譜—質(zhì)譜聯(lián)用(LC-MS)等技術(shù)對(duì)猴耳環(huán)的主要活性成分進(jìn)行了測(cè)定。結(jié)果表明:猴耳環(huán)的主要活性成分為沒(méi)食子酸、槲皮素、槲皮苷、楊梅苷、吡喃鼠李糖苷和表沒(méi)食子兒茶素等黃酮類(lèi)化合物[12]。雖然到目前為止已經(jīng)開(kāi)展了許多關(guān)于猴耳環(huán)的研究,但主要集中于其生長(zhǎng)特性研究、繁殖技術(shù)優(yōu)化和活性成分的鑒定等方面[13-15],其轉(zhuǎn)錄組測(cè)序信息尚未見(jiàn)報(bào)道。
轉(zhuǎn)錄組測(cè)序能在缺乏基因組信息的條件下,有效地挖掘功能基因并揭示其生物學(xué)特性和基因的內(nèi)在關(guān)系。此外,轉(zhuǎn)錄組測(cè)序獲得的EST-SSR分子標(biāo)記也是開(kāi)展群體遺傳多樣性分析和分子育種的重要基礎(chǔ)。目前,如鳳丹Paeonia suffruticosacv. Feng Dan[16]、半楓荷Semiliquidambar cathayensis[17]和羅布麻Apocynum venetum[18]等藥用植物,大豆Glycine max[19]、野生大豆Glycine soja[20]和蒺藜苜蓿Medicago truncatula[21]等豆科植物已經(jīng)完成了轉(zhuǎn)錄組測(cè)序分析,并鑒定出了一批和萜類(lèi)、黃酮類(lèi)和生物堿類(lèi)等主要活性成分生物合成與代謝相關(guān)的候選基因。本研究利用Illumina HiSeq 4 000 高通量測(cè)序平臺(tái)對(duì)猴耳環(huán)主要藥用部位嫩枝和葉的混合樣本進(jìn)行轉(zhuǎn)錄組測(cè)序分析。旨在建立猴耳環(huán)的轉(zhuǎn)錄組數(shù)據(jù)庫(kù),為猴耳環(huán)群體遺傳多樣性分析、功能基因的挖掘和主要活性成分生物合成與代謝調(diào)控分子機(jī)制提供依據(jù)。
猴耳環(huán)材料來(lái)自于廣東省臺(tái)山市紅嶺種子園。于2019 年9 月份取樣,分別采取了2 a 生且生長(zhǎng)旺盛的猴耳環(huán)植株的嫩枝和葉片組織,剪碎后放入50 mL 無(wú)菌的離心管中,隨即放入液氮中,-80 ℃保存至RNA 的提取。
猴耳環(huán)嫩枝和葉片樣本總RNA 的提取根據(jù)自我改良的CTAB 法[22]進(jìn)行,具體方法步驟如下:① 將約150 mg 的猴耳環(huán)樣本組織放入已經(jīng)滅菌的研缽中,在液氮下快速充分研磨成粉末狀,隨后立即轉(zhuǎn)移到1.5 mL 滅菌的離心管中;② 往離心管中加入1 mL 自配的CTAB 裂解液(100 mM Tris-HCl,25 mM EDTA,2 M NaCl,2% CTAB,2% PVP,0.5 g/L 亞精胺,pH=8) 和20 μL 的β-巰基乙醇,充分混勻后在65 ℃的金屬浴中溫浴20 min,期間混勻2~3 次;③溫浴后,4 ℃條件下,12 000 rpm 離心8 min,取上清液轉(zhuǎn)移至另一個(gè)新的1.5 mL 離心管中(盡量避免吸取到沉淀物,可放棄一小部分上清不取);④ 加入等體積的氯仿/異戊醇(24 : 1),充分混勻后,4 ℃條件下,12 000 rpm 離心5 min,收集上清液于另一個(gè)新的1.5 mL 離心管;⑤ 再次加入等體積的氯仿/異戊醇(24 : 1),充分混勻后,4 ℃條件下,12 000 rpm 離心5 min,收集上清液并加入1/4 體積的10 M LiCl 溶液,于4 ℃條件下靜置5~6 h;⑥ 隨后在4 ℃條件下,12 000 rpm 離心10 min,棄去上清液;⑦ 沉淀物先后用500 mL已提前-20 ℃預(yù)冷的75%乙醇和無(wú)水乙醇洗滌兩次,4 ℃條件下,12 000 rpm 離心5 min,棄上清夜后置于室溫條件下干燥5 min;⑧干燥后,加入30~50 μL 的DEPC 水溶解,隨后進(jìn)行總 RNA 濃度、純度和完整性的檢測(cè),符合要求的總RNA 樣品在-80 ℃條件下保存至cDNA 文庫(kù)的構(gòu)建。
cDNA 文庫(kù)的建庫(kù)流程和具體的操作步驟參考Foucart 等[23]的方法執(zhí)行,使用廣州瑞科基因科技有限公司(Science Corporation of Gene)的 Illumina HiSeq 4 000 測(cè)序平臺(tái)對(duì)所構(gòu)建的 cDNA 文庫(kù)進(jìn)行雙末端測(cè)序。利用fastx_toolkit 軟件中的fastx_clipper 工具和 fastq_quality_filter 工具去除測(cè)序接頭盒低質(zhì)量的reads 后,根據(jù)Hass 等[24]的 Trinity方法進(jìn)行高質(zhì)量 reads 的組裝。
利用 BLASTn 軟件對(duì)所組裝獲得的unigenes在Uniprot、Nr、KEGG、KOG 和GO 公共數(shù)據(jù)庫(kù)中進(jìn)行同源序列比對(duì)分析,其中 E 值設(shè)置為小于10-5。獲得與序列相似度最高的蛋白質(zhì)進(jìn)行猴耳環(huán) unigene 的功能注釋。利用 Blast2GO 軟件[25]將在Nr 數(shù)據(jù)庫(kù)中獲得注釋的 Unigene 進(jìn)行GO 注釋,并用WEGO 軟件[26]對(duì)其進(jìn)行GO 分類(lèi)功能統(tǒng)計(jì)。使用BLASTx 軟件并結(jié)合KEGG 數(shù)據(jù)庫(kù)進(jìn)行unigenes 的KEGG 通路分析。
簡(jiǎn)單重復(fù)序列(Simple Sequence Repeat, SSR)是一類(lèi)由幾個(gè)核苷酸為基本單元多次串聯(lián)重復(fù)而形成測(cè)DNA 片段,分布于整個(gè)基因組中,數(shù)量大多態(tài)性豐富,具有廣泛的應(yīng)用性。本研究利用MISA 軟件對(duì)猴耳環(huán)Unigene 的SSR 位點(diǎn)進(jìn)行了檢測(cè)。SSR 篩選標(biāo)準(zhǔn)是:?jiǎn)魏塑账嶂貜?fù)10 次及以上,二核苷酸重復(fù)6 次及以上,三核苷酸重復(fù)5次及以上,四核苷酸重復(fù)5 次及以上,五核苷酸重復(fù)5 次及以上,六核苷酸重復(fù)5 次及以上。
經(jīng)質(zhì)量評(píng)估和低質(zhì)量測(cè)序數(shù)據(jù)篩除后,共獲得24 748 936 個(gè)高質(zhì)量的reads,堿基數(shù)為7 424 680 800,Q30 含量為93. 89%,GC 含量為40.17%。利用Trinity 軟件對(duì)高質(zhì)量測(cè)序數(shù)據(jù)進(jìn)行拼接和組裝,一共獲得134 692 個(gè)轉(zhuǎn)錄本,轉(zhuǎn)錄本總長(zhǎng)度為244 535 825 bp,最大為17 499 bp,最小為184 bp,平均長(zhǎng)度為1 593 bp,N50 為2 509 bp。篩除相同轉(zhuǎn)錄本后共獲得63 299 個(gè)Unigenes,平均序列長(zhǎng)度為1 117 bp,序列長(zhǎng)度分布如圖1所示。
圖1 猴耳環(huán)63 299 個(gè)Unigene 序列長(zhǎng)度的分布Fig.1 Distribution of unigene lengths for Pithecellobium clypearia
將獲得的63 299 個(gè)Unigene 與Nr、UniProt、KEGG、KOG 和GO 共5 個(gè)公共數(shù)據(jù)庫(kù)進(jìn)行比對(duì)分析(E-value < 10-5)。結(jié)果表明,26 101 個(gè)Unigene(41.23%)獲得功能注釋?zhuān)渲?5 591個(gè)Unigene 比對(duì)到Nr 數(shù)據(jù)庫(kù);25 983 個(gè)Unigene比對(duì)到UniProt 數(shù)據(jù)庫(kù);8 530 個(gè)Unigene 比對(duì)到KEGG 數(shù)據(jù)庫(kù);13 974 個(gè)Unigene 比對(duì)到KOG 數(shù)據(jù)庫(kù);19 299 個(gè)Unigene 比對(duì)到GO 數(shù)據(jù)庫(kù)。根據(jù)Nr 數(shù)據(jù)庫(kù)比對(duì)到的最相似的基因進(jìn)行物種分布統(tǒng)計(jì)。結(jié)果發(fā)現(xiàn)3 383、3 211 和2 716 個(gè)Unigene 分別比對(duì)到木豆Cajanus cajan、大豆和狹葉羽扇豆Lupinus angustifolius的同源序列中(圖2)。
圖2 猴耳環(huán)轉(zhuǎn)錄組Unigenes 的Nr 數(shù)據(jù)庫(kù)注釋物種分布Fig.2 Nr database annotated species distribution of unigenes of transcriptome for Pithecellobium clypearia
GO 數(shù)據(jù)庫(kù)從生物學(xué)過(guò)程、細(xì)胞組分和分子功能3 個(gè)方面預(yù)測(cè)基因產(chǎn)物的功能。利用Blast2GO軟件對(duì)在GO 數(shù)據(jù)庫(kù)中注釋到的Unigenes 進(jìn)行功能分類(lèi)分析。結(jié)果發(fā)現(xiàn),19 299 個(gè)Unigene 被歸類(lèi)到36 個(gè)GO 功能亞類(lèi)中,其中注釋到生物過(guò)程大類(lèi)中的Unigenes 數(shù)量最多,其次是分子功能和細(xì)胞組分大類(lèi)(圖3)。在生物過(guò)程大類(lèi)中注釋到的Unigenes 主要分布在代謝過(guò)程、細(xì)胞過(guò)程、單一生物過(guò)程和生物調(diào)節(jié)等功能亞類(lèi)中。在分子功能大類(lèi)中,絕大部分被注釋到的Unigenes 分布在綁定和催化活性兩個(gè)GO 功能亞類(lèi)中。而在細(xì)胞組分大類(lèi)中,細(xì)胞、細(xì)胞膜和細(xì)胞器部分3 個(gè)功能亞類(lèi)中分布的Unigenes 顯著高于其它GO 亞類(lèi)。
為進(jìn)一步驗(yàn)證Unigenes 注釋結(jié)果功能分類(lèi)的可靠性,將所注釋到的Unigenes 進(jìn)行KOG 功能分類(lèi)分析,各KOG 分類(lèi)簇中Unigenes 的分布情況如圖4 所示。結(jié)果表明:共13 975 個(gè)Unigene 被注釋到25 個(gè)KOG 功能類(lèi)別簇中。其中一般功能預(yù)測(cè)類(lèi)別中分布的Unigenes 最多(3 759,26.8%),其次是翻譯后修飾、蛋白轉(zhuǎn)運(yùn)、分子信號(hào)和信號(hào)轉(zhuǎn)導(dǎo)機(jī)制等KOG 功能類(lèi)別。而在細(xì)胞核結(jié)構(gòu)、細(xì)胞外結(jié)構(gòu)和細(xì)胞運(yùn)動(dòng)3 個(gè)KOG 功能類(lèi)別中分布的Unigenes 分別只有6、1 和1 個(gè)。
圖3 猴耳環(huán)轉(zhuǎn)錄組Unigene 的GO 功能分類(lèi)統(tǒng)計(jì)Fig.3 GO functional classification of unigenes of transcriptome for Pithecellobium clypearia
圖4 猴耳環(huán)轉(zhuǎn)錄組Unigenes 的KOG 功能分布Fig.4 KOG functional annotation distribution of unigenes of transcriptome for Pithecellobium clypearia
在KEGG 數(shù)據(jù)庫(kù)中注釋到的8 530 個(gè)Unigenes主要分布在231 個(gè)KEGG 代謝通路中。主要涉及到了代謝、遺傳信息處理、環(huán)境信息處理、細(xì)胞過(guò)程及生物系統(tǒng)5 個(gè)大類(lèi)通路和26 個(gè)子類(lèi)通路中。結(jié)果表明,在KEGG 數(shù)據(jù)庫(kù)中被注釋到的Unigenes 主要分布在代謝通路大類(lèi)中,而生物系統(tǒng)通路大類(lèi)中分布的Unigene 最少。萜類(lèi)化合物和黃酮類(lèi)化合物為猴耳環(huán)的主要活性成分,分別通過(guò)萜類(lèi)骨架和苯丙烷途徑合成。本研究基于萜類(lèi)和黃酮類(lèi)化合物生物合成KEGG 通路及功能注釋結(jié)果,鑒定到192 個(gè)和黃酮類(lèi)化合物生物合成相關(guān)的Unigenes,主要定位在苯丙烷生物合成通路、黃酮類(lèi)化合物生物合成通路和異黃酮生物合成通路中(表1)。共鑒定到136 個(gè)和萜類(lèi)化合物生物合成相關(guān)的Unigenes,其中參與萜類(lèi)骨架生物合成的Unigene 53 個(gè)、參與二萜類(lèi)化合物生物合成通路的Unigenes 23 個(gè),參與四萜類(lèi)化合物類(lèi)胡蘿卜素生物合成通路的Unigene 29 個(gè)、參與倍半萜和單萜類(lèi)化合物生物合成通路的Unigene 28 個(gè)(表1)。
本研究利用MISA 軟件對(duì)組裝得到的134 692個(gè)轉(zhuǎn)錄本中的SSR 位點(diǎn)進(jìn)行檢測(cè)。結(jié)果在15 740個(gè)Unigenes 中共檢測(cè)到45 573 個(gè)SSR 位點(diǎn),發(fā)生頻率為33.84%。其中5 928 個(gè)Unigenes 含有2 個(gè)及2 個(gè)以上的SSR 位點(diǎn)。在猴耳環(huán)轉(zhuǎn)錄本SSR 類(lèi)型中共檢測(cè)到單核苷酸至六核苷酸6 種重復(fù)類(lèi)型。主要以單核苷酸重復(fù)(26 377, 57.87%)、二核苷酸重復(fù)(11 755,25.79%)和三核苷酸重復(fù)(6 853,15.04%)為主。四核苷酸重復(fù)、五核苷酸重復(fù)和六核苷酸重復(fù)只占總SSR 位點(diǎn)的1.29%。在單核苷酸重復(fù)類(lèi)別中,出現(xiàn)頻率最高的為A/T,占96.47%。出現(xiàn)頻率較高的AT/TA、AG/TC 和CT/GA 三種重復(fù)類(lèi)型分別占二核苷酸SSR 位點(diǎn)總數(shù)的26.47%、26.27%和23.23%。三核苷酸的主要重復(fù)類(lèi)型為AAG/TTC、CTT/GAA 和AGA/TCT。四核苷酸中,TTTA/AAAT 和AAAG/TTTC 為其優(yōu)勢(shì)重復(fù)類(lèi)型。然而在五核苷酸和六核苷酸SSR 位點(diǎn)中沒(méi)有具顯著優(yōu)勢(shì)的重復(fù)類(lèi)型。
隨著測(cè)序技術(shù)的不斷提高和測(cè)序成本下降,高通量轉(zhuǎn)錄組測(cè)序在無(wú)參考基因組物種功能基因挖掘和分子標(biāo)記開(kāi)發(fā)等方面的應(yīng)用越發(fā)廣泛。本研究利用RNA-seq 技術(shù)首次對(duì)猴耳環(huán)的主要藥用部位嫩枝和葉片的混合樣本進(jìn)行了轉(zhuǎn)錄組測(cè)序分析。共獲得2 474 893 個(gè)高質(zhì)量reads,Q30 高達(dá)93.89%,表明猴耳環(huán)的cDNA 文庫(kù)構(gòu)建質(zhì)量高。拼接和組裝后共獲得63 299 個(gè)Unigenes,平均序列長(zhǎng)度為1 117 bp。與其它已完成轉(zhuǎn)錄組測(cè)序的藥用植物相比,組裝到的Unigenes 與鳳丹[16]、五指毛桃Ficus hirta[27]、半楓荷[17]和羅布麻[18]等藥用植物相近,初步說(shuō)明猴耳環(huán)的轉(zhuǎn)錄組序列的拼接組裝效果較好,測(cè)序質(zhì)量可靠。但明顯低于同為豆科的大豆[19]、野生大豆[20]和蒺藜苜蓿[21]等植物。這可能是因?yàn)楹锒h(huán)缺少基因組信息導(dǎo)致的。
表1 猴耳環(huán)黃酮類(lèi)和萜類(lèi)化合物生物合成途徑相關(guān)基因Table 1 Related genes of flavonoids and terpenoids biosynthesis in Pithecellobium clypearia
表 2 猴耳環(huán)Unigenes 中SSR 重復(fù)單元的分布特征統(tǒng)計(jì)Table 2 Statistical information of the SSR motifs distribution in Pithecellobium clypearia
將猴耳環(huán)組裝到的Unigenes 序列與5 個(gè)公共數(shù)據(jù)庫(kù)進(jìn)行比對(duì)分析。結(jié)果發(fā)現(xiàn)只有26 101 個(gè)Unigenes(41.23%)有功能注釋?zhuān)?8.77%的Unigenes 沒(méi)有獲得功能注解信息。這與野三七Panax stipuleanatus[28]、 半夏Pinellia ternata[29]和羅布麻[21]等藥用植物的轉(zhuǎn)錄組數(shù)據(jù)的功能注釋結(jié)果相似??赡苁怯捎诙绦蛄姓急却蟆⒈J氐暮诵男蛄行畔⒉煌暾纫蛩貙?dǎo)致的。成功注釋到Nr 數(shù)據(jù)庫(kù)中的25 591 個(gè)Unigenes,65%比對(duì)上了木豆、大豆和蒺藜苜蓿的等11 種豆科植物的同源序列。這可能是由于猴耳環(huán)同為豆科植物與其具有較近的親緣關(guān)系,亦可能是因?yàn)槟径?、大豆和蒺藜苜蓿等物種具有參考基因組信息。在GO、KOG 和KEGG 數(shù)據(jù)庫(kù)中也分別注釋到19 299、13 974 和8 530 個(gè)Unigenes,主要分布在一般功能預(yù)測(cè)和代謝過(guò)程及通路中,說(shuō)明猴耳環(huán)主要藥用部位嫩枝和葉組織中參與次生代謝產(chǎn)物生物合成與調(diào)控的基因豐富。萜類(lèi)和黃酮類(lèi)化合物為猴耳環(huán)的主要活性物質(zhì),本研究中共鑒定到192 和黃酮類(lèi)化合物生物合成相關(guān)的Unigenes,主要參與苯丙烷、黃酮、黃酮醇、異黃酮和花青素等生物合成通路。136 個(gè)和萜類(lèi)化合生物合成相關(guān)的Unigenes,主要參與萜類(lèi)骨架、單萜、倍半萜、二萜和四萜化合物合成通路。這為揭示猴耳環(huán)萜類(lèi)和黃酮類(lèi)化合物合成及代謝調(diào)控網(wǎng)絡(luò)提供了理論基礎(chǔ)。SSR 標(biāo)記因其通量大、操作簡(jiǎn)單和重復(fù)性好等特點(diǎn)已被廣泛應(yīng)用于鐵皮石斛Dendrobium officinale[30]、木麻黃Casuarina equisetifolia[31]、枸杞Lycium barbarum[32]和黃芩Scutellaria baicalensis[33]等藥用植物分子標(biāo)記輔助育種和遺傳圖譜的構(gòu)建。本研究利用MISA 軟件在15 740 個(gè)Unigenes 中共檢測(cè)到45 573 個(gè)SSR 位點(diǎn),發(fā)生頻率高達(dá)33.84%,顯著高于連翹Forsythia suspensa[34]、人參Panax ginseng[35]、魚(yú)腥草Houttuynia cordata[36]和杜仲Eucommia ulmoides[37]等藥用植物中SSR 出現(xiàn)的頻率。猴耳環(huán)轉(zhuǎn)錄組中不同重復(fù)類(lèi)型的SSR 數(shù)量具有較大差異,主要以單核苷酸、二核苷酸和三核苷酸為主。在單核苷酸中,大部分為A/T 型SSR 位點(diǎn),G/C 含量少。導(dǎo)致這種差異的原因可能是因?yàn)榧谆疌 殘基變?yōu)門(mén) 堿基。此外二核苷酸和三核苷酸SSR 重復(fù)類(lèi)型也占據(jù)了很大比例,這與羅布麻和杜仲等藥用植物轉(zhuǎn)錄組數(shù)據(jù)的SSR 重復(fù)類(lèi)型比例相類(lèi)似。本研究鑒定到SSR 分子標(biāo)記可為分析猴耳環(huán)的遺傳多樣性、構(gòu)建遺傳圖譜、挖掘功能基因和分子標(biāo)記輔助育種等研究提供理論基礎(chǔ)。