王小敏,許婳婳,詹若挺,馬新業(yè)*
? 藥材與資源 ?
基于轉(zhuǎn)錄組測(cè)序的越南安息香根、莖和葉基因表達(dá)分析
王小敏1,許婳婳2,詹若挺1,馬新業(yè)1*
1. 廣州中醫(yī)藥大學(xué) 中藥資源科學(xué)與工程研究中心,嶺南中藥資源教育部重點(diǎn)實(shí)驗(yàn)室,國家中成藥工程技術(shù)研究中心 南藥研發(fā)實(shí)驗(yàn)室,廣東 廣州 510006 2. 廣州中醫(yī)藥大學(xué)中藥學(xué)院,廣東 廣州 510006
對(duì)越南安息香進(jìn)行轉(zhuǎn)錄組測(cè)序,獲得其根、莖和葉的轉(zhuǎn)錄組信息特征。以越南安息香的根、莖和葉作為研究對(duì)象,使用Illumina HiSeqTM2000進(jìn)行越南安息香根、莖和葉的轉(zhuǎn)錄組測(cè)序分析。轉(zhuǎn)錄組測(cè)序根、莖和葉共獲得53 835 045條高質(zhì)量序列(clean reads),Trinity de novo組裝獲得69 151條Unigenes,平均長度778.51 nt。BLAST分析表明分別有41 412(59.89%)、31 189(45.10%)、25 539(36.93%)、16 749(24.22%)個(gè)Unigenes在Nr、Swiss-port、KOG、KEGG數(shù)據(jù)庫中得到注釋,可歸入GO分類的細(xì)胞組分、生物過程和分子功能3大類46分支,涉及129條KEGG標(biāo)準(zhǔn)代謝通路,其中有31個(gè)次生代謝標(biāo)準(zhǔn)通路。蛋白編碼框序列3 461個(gè),涉及高等植物轉(zhuǎn)錄因子54個(gè)家族。使用MISA軟件挖掘10 974個(gè)簡(jiǎn)單重復(fù)序列(SSRs),二堿基重復(fù)SSRs數(shù)量最為豐富,有6282個(gè)(57.24%),五堿基重復(fù)SSRs最少,占2.45%。利用高通量技術(shù)和生物信息分析獲得了越南安息香根、莖和葉的轉(zhuǎn)錄組信息特征,為后期越南安息香基因功能鑒定、次生代謝途徑解析及調(diào)控機(jī)制的研究奠定基礎(chǔ)。
越南安息香;轉(zhuǎn)錄組;功能基因;代謝通路;簡(jiǎn)單重復(fù)序列
越南安息香(Pierre) Crail ex Har-tw.為安息香科(Styracaceae)安息香屬落葉喬木,又名越南安息香、白背安息香和滇桂野茉莉,俗稱“東京野茉莉”,廣泛分布于我國嶺南地區(qū),老撾、緬甸等國也有分布;其莖皮受到傷害后的分泌物干燥后作為安息香[1],始載于《新修本草》,味辛、苦,平,無毒;主心腹惡氣鬼疰。安息香的現(xiàn)代藥理學(xué)認(rèn)為安息香具有抗細(xì)菌[2]、抗真菌[3]、抗補(bǔ)體[4]、抗氧化[5]、抗白血病[6]、抗腫瘤[7]等藥理活性?,F(xiàn)代中藥學(xué)揭示安息香含有香脂酸類成分,包括苯甲酸、松柏樹乙醚、香草醛、苯甲酸芐脂、2-丙炔酮[8],此外,安息香含有三萜類成分,包含蘇門答刺樹脂酸、泰安息香樹脂酸、齊墩果酸[6],可為藥物研發(fā)提供豐富的化合物前體。因此,安息香的資源開發(fā)和基礎(chǔ)研究具有重要的價(jià)值和前景。
轉(zhuǎn)錄組測(cè)序?qū)τ跊]有基因組的物種來說,可以有效地表征和鑒定植物中次生代謝物質(zhì)的生物合成相關(guān)途徑,揭示植物體的生長發(fā)育、生理適應(yīng)性以及探索其中的基因序列和表達(dá)水平[9-11]。近年來,Illumina測(cè)序技術(shù)已廣泛應(yīng)用于研究植物基因組,并且也應(yīng)用在番茄[12]、人參[13]、扁豆[14]等物種中,為其種植資源和基因遺傳打下基礎(chǔ)。本研究選擇越南安息香幼苗的根、莖和葉作為基礎(chǔ)材料,使用Illumina HiSeq-2000采集RNA-seq讀數(shù),以期挖掘安息香根、莖和葉的整體基因表達(dá)特征,為該植物基因功能研究、次生代謝途徑解析和調(diào)控探究提供數(shù)據(jù)基礎(chǔ)。
植物材料于2015年10月采自廣州中醫(yī)藥大學(xué),經(jīng)廣州中醫(yī)藥大學(xué)馬新業(yè)副研究員鑒定為越南安息香(Pierre) Crail ex Har-tw.。取單株植物根、莖、葉液氮冷凍后迅速存于?80 ℃冰箱至使用。
越南安息香幼苗根、莖和葉的總RNA分離后,用含有Oligo(dT)的磁珠富集mRNA,加入fragmentation buffer使mRNA成為短片段,合成cDNA第1條鏈?zhǔn)褂玫氖橇鶋A基隨機(jī)引物(random hexamers),使用添加EB緩沖液的QiaQuick PCR試劑盒純化并洗脫,經(jīng)末端修復(fù)、加測(cè)序接頭、加poly(A),大小片段的回收使用瓊脂糖凝膠電泳,最后通過PCR擴(kuò)增完成cDNA文庫制備,由廣州基迪奧生物科技有限公司(廣州)使用Illumina HiSeqTM2000進(jìn)行測(cè)序。
采用FastQC軟件(http://www. bioinformatics. babraham.ac.uk/projects/fastqc/)評(píng)估原始數(shù)據(jù)的質(zhì)量,NGS QC Toolkit(v2.3.3)軟件舍棄低質(zhì)量讀?。╤ttp://59.163.192.90:8080/ngsqctoolkit/)。使用Trinitysoftware[11]對(duì)RNA-Seq從頭組裝獲得Unigene,其總體表達(dá)量使用RPKM法[15]計(jì)算。
為了注釋轉(zhuǎn)錄組,利用BLAST將Unigenes比對(duì)到蛋白數(shù)據(jù)庫Nr、Swiss-prot、蛋白相鄰類的聚簇(KOG)和京都基因與基因百科全書(kyoto encyclopedia of genes and genomes,KEGG)(值<1×10?5),獲得與相應(yīng)Unigenes具有最高相似性的蛋白,從而得到相應(yīng)的注釋,使用Blast2GO軟件對(duì)Unigenes進(jìn)行GO(gene ontology)分類, 用WEGO軟件對(duì)獲得的Unigenes進(jìn)行GO分類,宏觀上認(rèn)識(shí)該物種基因功能的分布情況。
按照Nr、Swiss-Prot、KOG和KEGG優(yōu)先順序把Unigenes序列和以上數(shù)據(jù)庫進(jìn)行BLASTx比對(duì)(<1×10?5),并確定該Unigene編碼區(qū)的核苷酸序列(序列方向5’至3’端)及氨基酸序列。使用ESTScan預(yù)測(cè)與以上數(shù)據(jù)庫對(duì)比不上的Unigenes的編碼區(qū)和序列方向。將預(yù)測(cè)到的Unigenes編碼蛋白序列和植物轉(zhuǎn)錄因子數(shù)據(jù)庫plantTFDB進(jìn)行hmmscan比對(duì),獲得轉(zhuǎn)錄因子家族和相關(guān)成員。
MISA軟件被用到越南安息香轉(zhuǎn)錄組Unigenes的檢測(cè),搜索SSRs同時(shí)進(jìn)行統(tǒng)計(jì)分析。
通過Illumina HiSeqTM2000測(cè)序,越南安息香的根、莖和葉分別獲得65 475 824、66 555 768、56 770 948條raw reads,濾過后獲得64 267 196(98.15%)、65 122 652(97.85%)、55 714 504(98.14%)條clean reads,分別包含濾過后核苷酸8 033 399 500、8 140 331 500和6 964 313 000個(gè)。Q20(堿基量≥20%)均大于98%和Q30(堿基量≥30%)均>96%,說明測(cè)序數(shù)據(jù)控制良好,clean reads質(zhì)量合格。Trinity組裝得到69 151條Unigenes,平均長度778.51 nt,最長達(dá)10 486 nt,最短為201 nt,N50等于1333。
用BLAST將所獲得的Unigenes比對(duì)到Nr、Swiss-port、KOG、KEGG數(shù)據(jù)庫,并統(tǒng)計(jì)所注釋到的Unigenes數(shù)目和功能信息。結(jié)果顯示,41 412(59.89%)條Unigenes在Nr數(shù)據(jù)庫得到注釋,在Swiss-prot、KOG和KEGG數(shù)據(jù)庫分別注釋了31 189(74.3%)、25 539(60.9%)、16 749(39.9%)條Unigenes。成功注釋的Unigenes共41 951條,占66.67%,27 200(39.33%)條未得到注釋。Unigenes長度分布見圖1-A,17 387條Unigenes長度大于等于1000 nt,5674條Unigenes超過2000 nt。圖1-B展示的是reads在Unigene上的覆蓋度,reads在11~100的Unigenes數(shù)量最多,有27 240條;其次是reads在1~10的Unigenes,有5150條;reads在101~200、2001~4000、1001~2000、>10 000的數(shù)量分別是4669、4226、3935和3186條;其他reads在Unigenes上的覆蓋度均相對(duì)較小。
以注釋到Nr數(shù)據(jù)庫的Unigenes為例,同源物種如圖2,在匹配度最高的物種中,葡萄L.占的比率為最高,達(dá)4160(10.05%)條;其次為歐洲油菜L. 1889(4.56%),黃豆(Linn.) Merr. 1630(3.94%),毛果楊L. 1615(3.90%),蒺藜苜蓿L. 1614(3.90%),擬南芥L. 1577(3.81%),粳稻Japonica Group 1563(3.77%),可可樹L. 1537(3.71%),番茄L. 1400(3.38%),蘋果B. 1262(3.05%);匹配度在3.04%~1.46%的有13 304條,小于1.46%匹配度的有9 861條,占23.81%。根據(jù)Nr進(jìn)一步獲得GO分類信息,如圖3,148 884條Unigenes被注釋到細(xì)胞組分、生物過程和分子功能3個(gè)GO類別的46個(gè)小組。生物過程中代謝過程(metabolic process)、細(xì)胞過程(cell process)和多細(xì)胞生物過程(multicellular organismal process)豐度最高,分別為15 930、14 748和11 806 條;生物調(diào)節(jié)(biological regulation)和應(yīng)激適應(yīng)(response to stimulus)分別有5087和4630條。分子功能中催化活性(catalytic activity)和結(jié)合功能(binding)的基因最多,分別達(dá)15 160和14 029條,其他基因表達(dá)量都較少。細(xì)胞組分中細(xì)胞(cell)及細(xì)胞組分(cell part)較高,分別達(dá)10 915和10 914條;細(xì)胞器(organelle)、細(xì)胞膜(membrane)分別有8509和5938條;細(xì)胞膜組分(membrane part)、器官組分(organelle part)和大分子復(fù)合物(macromolecular complex)分別有4125、3713和2712條,其他基因均較小。
圖1 Unigenes的長度分布(A) 和reads的覆蓋范圍(B)
圖2 Unigenes在Nr數(shù)據(jù)庫中的物種匹配
圖3 轉(zhuǎn)錄組Unigenes的GO分布
為了進(jìn)一步分析越南安息香的轉(zhuǎn)錄組Unigenes的功能,使用KOG功能分類分析(圖4),一共獲得25種KOG分類,種類較全面,其中,一般功能預(yù)測(cè)的基因(general function prediction only)達(dá)8 025條,為最多;信號(hào)轉(zhuǎn)導(dǎo)機(jī)制類(signal transduction mechanisms)、翻譯后修飾、蛋白反轉(zhuǎn)和伴侶(posttranslational modification, protein turnover, chaperones)次之,分別有5082和4862條;其他分類基因豐度參差不齊。
越南安息香根、莖和葉的轉(zhuǎn)錄組Unigenes參與KEGG代謝通路被分為5類:代謝(metabolism)8878條、遺傳信息處理(genetic information processing)3 936條、細(xì)胞過程(cellular processes)753條、有機(jī)系統(tǒng)(organismal systems)573條和環(huán)境信息處理(environmental information processing)548條。其中,7533條Unigenes被歸類于94個(gè)標(biāo)準(zhǔn)代謝通路,根據(jù)注釋量選擇前9個(gè)代謝通路展示見表1,這些通路含有的Unigenes數(shù)量均不低于200條。
圖4 轉(zhuǎn)錄組Unigenes的KOG分布
表1 轉(zhuǎn)錄組Unigenes的KEGG通路統(tǒng)計(jì)分析
進(jìn)一步分析KEGG發(fā)現(xiàn),940條Unigenes參與苯丙烷類、類黃酮類、萜類等20個(gè)次生代謝標(biāo)準(zhǔn)生物合成通路(表2)。其中,苯丙烷類生物合成(ko00940)注釋到的基因數(shù)最多,達(dá)276條;其次是類黃酮的生物合成(ko00941),基因數(shù)為100條;萜類化合物骨架生物合成(ko00900)有關(guān)基因93條;80條基因與芪類化合物、二芳基庚烷和姜辣素(ko00945)有關(guān);分別有64、46、45和41條基因與類胡蘿卜素生物合成(ko00906)、異喹啉生物堿生物合成(ko00950)、二萜類生物合成(ko00904)和莨菪烷類、哌啶和哌啶生物堿生物合成(ko00960)有關(guān);37條參與玉米素的生物合成(ko00908);油菜素類固醇的生物合成(ko00905)有35條;34條基因涉及倍半萜和三萜類的生物合成(ko00909);花青素、單環(huán)內(nèi)酰胺類、檸檬烯和蒎烯的降解、單萜類生物合成、黃酮和黃酮醇類合成、異黃酮類合成、芥子油苷的生物合成、咖啡因的合成和甜菜紅色素的生物合成相關(guān)的基因均較少,在30條以下。這些數(shù)據(jù)為越南安息香次生代謝機(jī)制研究提供數(shù)據(jù)基礎(chǔ)。
對(duì)越南安息香所有Unigenes進(jìn)行CDS分析,通過BLAST獲得41 351個(gè)CDS序列,利用ESTscan數(shù)據(jù)庫得到3461條CDS。轉(zhuǎn)錄因子通過預(yù)測(cè),被分到54個(gè)轉(zhuǎn)錄因子家族,其中C2H2、ERF、bHLH、MYB、GRAS、NAC、MYB-relate和WRKY占主體,說明眾多轉(zhuǎn)錄調(diào)控過程(圖5)參與了越南安息香根、莖和葉的生理代謝。
表2 轉(zhuǎn)錄組Unigenes次生代謝的KEGG通路注釋統(tǒng)計(jì)
圖5 轉(zhuǎn)錄因子分析
MISA軟件用于Unigenes的SSRs檢索,8712個(gè)Unigenes中有10 974個(gè)SSRs(表3)。二堿基重復(fù)SSRs豐度最高,為6282(57.24%)個(gè),其中,AG/CT類型所占比例最高;其次是三堿基重復(fù),3072(27.99%)個(gè);四、五和六堿基分別有777(7.08%)、269(2.45%)和574(5.23%)個(gè)。
表3 轉(zhuǎn)錄組Unigenes SSRs分布
高通量測(cè)序技術(shù)在藥用植物的研究上已經(jīng)展開了較為廣泛的應(yīng)用,并取得了重大的進(jìn)展[16]。該研究首次對(duì)越南安息香采用Illumina HiSeqTM2000技術(shù)獲得其轉(zhuǎn)錄組數(shù)據(jù)并進(jìn)行相關(guān)分析,測(cè)序質(zhì)量與質(zhì)控結(jié)果均良好,53 835 045條clean reads組裝得到69 151條Unigenes,其長度與reads覆蓋度均合理。Unigenes數(shù)據(jù)巨大,基本涵蓋所有轉(zhuǎn)錄組信息,初步揭示越南安息香根、莖和葉的基因表達(dá)特征。
高通量測(cè)序獲得的轉(zhuǎn)錄組數(shù)據(jù)的相關(guān)分析與生物信息學(xué)分析密切關(guān)聯(lián)。本研究通過生物信息學(xué)分析對(duì)所獲得的轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行reads濾過、組裝,以及基因注釋和功能的分類等,涉及的軟件有BLAST、Trinity、ESTscan等。
基于BLAST分析,69 151條Unigenes通過4大數(shù)據(jù)庫(Nr、KEGG、KOG和Swiss-port)比對(duì)有41 951(60.67%)條被成功注釋,該注釋占比與已經(jīng)報(bào)道的甘草[17]、黃精[18]、地黃[19]等物種類似,反映了越南安息香中存在大量未知序列特征及功能的Unigenes,有待進(jìn)一步探究。
越南安息香轉(zhuǎn)錄組的GO分類揭示其特性與細(xì)胞組分、細(xì)胞過程和分子功能相關(guān);通過KOG數(shù)據(jù)庫從基因水平尋找直系同源物種,預(yù)測(cè)ORF的生物學(xué)功能,很大程度上提高了注釋的準(zhǔn)確度[20],該研究獲得較為全面的KOG類群(25個(gè))。進(jìn)一步通過KEGG數(shù)據(jù)庫對(duì)越南安息香轉(zhuǎn)錄組分析,發(fā)現(xiàn)了94個(gè)標(biāo)準(zhǔn)代謝通路,這些通路可能與越南安息香的水分和礦物質(zhì)吸收、光合和呼吸作用等生理過程相關(guān)。此外,還發(fā)現(xiàn)20條次生代謝標(biāo)準(zhǔn)通路,涉及了苯丙烷類、黃酮類及萜類等生物合成。其中,參與苯丙烷類生物合成、萜類生物合成的Unigenes分別有276個(gè)和91個(gè)。越南安息香的次生代謝產(chǎn)物以苯丙烷類和萜類為主[21],本研究轉(zhuǎn)錄組數(shù)據(jù)為其生物合成通路及調(diào)控提供重要的依據(jù)。
轉(zhuǎn)錄因子在基因表達(dá)上起到重要的調(diào)控作用。C2H2、AP2/ERF、bHLH、MYB等家族在植物細(xì)胞苯丙烷類、甲羥戊酸代謝途徑中起到調(diào)控作用[22]。越南安息香Unigenes覆蓋了plantTGdb數(shù)據(jù)庫54個(gè)轉(zhuǎn)錄因子家族,涉及到次生代謝調(diào)控的轉(zhuǎn)錄因子較多,說明了越南安息香植物體中復(fù)雜的轉(zhuǎn)錄調(diào)控機(jī)制。
轉(zhuǎn)錄組數(shù)據(jù)應(yīng)用于構(gòu)建遺傳圖譜和分析遺傳多樣性是其另外的功用[23],本研究挖掘了越南安息香8 712個(gè)Unigenes的10 974個(gè)SSRs位點(diǎn),重復(fù)類型以二核苷酸為主,三核苷酸次之,與以二核苷酸為主的當(dāng)歸[23]的研究一致。雙核苷酸重復(fù)以AG/CT類型為主,三核苷酸重復(fù)以AAG/CTT類型為主,與當(dāng)歸[23]、甘草[23]等植物相同。初步認(rèn)為,植物中SSRs重復(fù)以雙核苷酸和三核苷酸重復(fù)為主,同時(shí),不同的物種又有所區(qū)別。
越南安息香的轉(zhuǎn)錄組數(shù)據(jù)研究初步獲得了大量的基因信息,后續(xù)通過進(jìn)一步系統(tǒng)分析,以期揭示越南安息香中苯丙素脂、三萜類等活性物質(zhì)的生物合成、調(diào)控機(jī)制,以及該物種的遺傳特征,為越南安息香資源的開發(fā)及利用提供數(shù)據(jù)基礎(chǔ)。
利益沖突 所有作者均聲明不存在利益沖突
[1] Burger P, Casale A, Kerdudo A,. New insights in the chemical composition of benzoin balsams [J]., 2016, 210: 613-622.
[2] Orchard A, Viljoen A, van Vuuren S. Antimicrobial essential oil combinations to combat foot odour [J]., 2018, 84(9/10): 662-673.
[3] Shin S. Anti-activities of plant essential oils and their combination effects with ketoconazole or amphotericin B [J]., 2003, 26(5): 389-393.
[4] Min B S, Oh S R, Ahn K S,. Anti-complement activity of norlignans and terpenes from the stem bark of[J]., 2004, 70(12): 1210- 1215.
[5] Min B S, Na M K, Oh S R,. New furofuran and butyrolactone lignans with antioxidant activity from the stem bark of[J]., 2004, 67(12): 1980-1984.
[6] Wang F, Hua H M, Pei Y H,. Triterpenoids from the resin ofand their antiproliferative and differentiation effects in human leukemia HL-60 cells [J]., 2006, 69(5): 807-810.
[7] Sabbah D A, Al-Tarawneh F, Talib W H,. Benzoin schiff bases: Design, synthesis, and biological evaluation as potential antitumor agents [J]., 2018, 14(7): 695-708.
[8] Castel C, Fernandez X, Lizzani-Cuvelier L,. Characterization of the chemical composition of a byproduct fromgum [J]., 2006, 54(23): 8848-8854.
[9] Ha J, Kang Y G, Lee T,. Comprehensive RNA sequencing and co-expression network analysis to complete the biosynthetic pathway of coumestrol, a phytoestrogen [J]., 2019, 9(1): 1934.
[10] Xu Z C, Peters R J, Weirather J,. Full-length transcriptome sequences and splice variants obtained by a combination of sequencing platforms applied to different root tissues ofand tanshinone biosynthesis [J]., 2015, 82(6): 951-961.
[11] Grabherr M G, Haas B J, Yassour M,. Full-length transcriptome assembly from RNA-Seq data without a reference genome [J]., 2011, 29(7): 644-652.
[12] Zhang Z H, Cao B L, Li N,. Comparative transcriptome analysis of the regulation of ABA signaling genes in different rootstock grafted tomato seedlings under drought stress [J]., 2019, 166: 103814.
[13] Tang J R, Lu Y C, Gao Z J,. Comparative transcriptome analysis reveals a gene expression profile that contributes to rhizome swelling invar.[J]., 2020, 154(4): 515-523.
[14] Cao Z, Li L, Kapoor K,. Using a transcriptome sequencing approach to explore candidate resistance genes againstin the wild lentil species Lens ervoides [J]., 2019, 19(1): 399.
[15] Mortazavi A, Williams B A, McCue K,. Mapping and quantifying mammalian transcriptomes by RNA-Seq [J]., 2008, 5(7): 621-628.
[16] Haile Z M, Nagpala-De Guzman E G, Moretto M,. Transcriptome profiles of strawberry () fruit interacting withat different ripening stages [J]., 2019, 10: 1131.
[17] Liu Y L, Zhang P F, Song M L,. Transcriptome analysis and development of SSR molecular markers infisch [J]., 2015, 10(11): e0143017.
[18] Wang S Q, Wang B, Hua W P,. De novo assembly and analysis oftranscriptome and identification of genes involved in polysaccharide biosynthesis [J]., 2017, 18(9): E1950.
[19] Zhou Y Q, Wang X N, Wang W S,. De novo transcriptome sequencing-based discovery and expression analyses of verbascoside biosynthesis-associated genes intuberous roots [J]., 2016, 36(10): 1-11.
[20] Mudado M d e A, Ortega J M. A picture of gene sampling/expression in model organisms using ESTs and KOG proteins [J]., 2006, 5(1): 242-253.
[21] Hovaneissian M, Archier P, Mathe C,. Analytical investigation of Styrax and benzoin balsams by HPLC-PAD-fluorimetry and GC-MS [J]., 2008, 19(4): 301-310.
[22] Sun R Z, Cheng G, Li Q,. Light-induced variation in phenolic compounds in cabernet sauvignon grapes (L.) involves extensive transcriptome reprogramming of biosynthetic enzymes, transcription factors, and phytohormonal regulators [J]., 2017, 8: 547.
[23] Chen C, Chen Y J, Huang W J,. Mining of simple sequence repeats (SSRs) loci and development of novel transferability-across EST-SSR markers from de novo transcriptome assembly of[J]., 2019, 14(8): e0221040.
Transcriptiomic data analysis of roots, stems, and leaves of
WANG Xiao-min1, XU Hua-hua2, ZHAN Ruo-ting1, MA Xin-ye1
1. Key Laboratory of Chinese Medicinal Resource from Lingnan, Ministry of Education, Research Center of Chinese Herbal Resource Science and Engineering, South Medicine Research and Development Laboratory of National Engineering Research Center for Chinese Patent Medicine, Guangzhou University of Chinese Medicine, Guangzhou 510006, China 2. School of Chinese Materia Medica, Guangzhou University of Chinese Medicine, Guangzhou 510006, China
To obtain the transcriptome information characteristics of roots, stems, and leaves by transcriptome sequencing of.The roots, stems, and leaves ofwere selected as the research objects, and Illumina HiSeqTM2000 was used to carry out the transcriptome sequencing analysis of these roots, stems, and leaves.A total of 53 835 045 high-quality sequences (clean reads) were obtained from the roots, stems and leaves by transcriptome sequencing, and 69 151 Unigenes were assembled by Trinity de novo, with an average length of 778 nt. BLAST analysis showed that 41 412 (59.89%), 31 189 (45.10%), 25 539 (36.93%), and 16 749 (24.22%) Unigenes were annotated in the Nr, Swiss-port, KOG, and KEGG databases, respectively, which could be classified into 46 branches of cell components, biological processes and molecular functions of the three major classes in GO classification, involving 129 KEGG standard metabolic pathways, of which 31 had secondary metabolic pathways. There were 3 461 protein coding frame sequences, involving 54 families of higher plant transcription factors. MISA software was used to mine 10 974 simple repeat sequences (SSRs), in which the two-base repeat SSRs was the most abundant, with 6 282 (57.24%), and the five-base repeat SSRs were the least, accounting for 2.45%.The transcriptome information characteristics ofroots, stems, and leaves were obtained by high-throughput technology and bioinformatics analysis, which laid a foundation for the study of functional identification, secondary metabolic pathway analysis and regulation mechanism of.
(Pierre) Crail ex Har-tw.; transcriptome; functional genes; metabolism pathway; simple sequence repeats
R282.12
A
0253 - 2670(2021)08 - 2392 - 08
10.7501/j.issn.0253-2670.2021.08.023
2020-08-06
國家自然科學(xué)基金青年基金項(xiàng)目(81102764);廣東省教育廳重點(diǎn)提升平臺(tái)建設(shè)項(xiàng)目—嶺南中藥資源教育部重點(diǎn)實(shí)驗(yàn)室(2014KTSPT016)
王小敏(1990—),男,碩士研究生,研究方向?yàn)榉枷闼幱弥参镔Y源學(xué)。Tel: 19860209295 E-mail: 807548046@qq.com
馬新業(yè)(1976—),男,博士,副研究員,主要從事中藥資源學(xué)研究工作。Tel: 15817036306 E-mail: usermxy@163.com
[責(zé)任編輯 時(shí)圣明]