肖啟蒙
摘 要 板藍(Strobilanthes cusia)具有極高的藥用價值,全草可入藥,是中草藥南板藍根的主要成分。為了厘清板藍基因組的進化歷程,探究板藍的生物學功能,通過將板藍基因組與葡萄(Vitis vinifera)、漾濞槭(Acer yangbiense)基因組進行全基因組比對,采用推斷基因組同源性、同義堿基替換、Ks的核函數(shù)分析、鑒定染色體的直系和旁系同源區(qū)域、全基因組與局部比對等方法,發(fā)現(xiàn)板藍在經(jīng)歷了核心真雙子葉共享的三倍化事件后,還額外經(jīng)歷了一次三倍化事件,并且確定時間節(jié)點在106~120個百萬年前。
關鍵詞 板藍;共線性;多倍化;全基因組比對;同義核苷酸替換率
中圖分類號:S567.23+9 文獻標志碼:A DOI:10.19415/j.cnki.1673-890x.2023.15.003
板藍(Strobilanthes cusia)是爵床科灌木狀多年生草本植物,廣泛分布在我國的四川、貴州、浙江和福建等地。板藍全身皆可入藥,根被稱為“南板藍根”,莖和葉經(jīng)加工后可得青黛,能夠治療病毒性肝炎、流感、感冒、肺炎、炎癥、皰疹、丹毒、蛇咬傷等[1],青黛是牛黃消炎丸、桂林西瓜霜等的主要原料[2-3]。其中,福建馬藍(板藍)青黛品質最佳,是福建省大宗地道藥材之一[4]。最近,高質量板藍基因組數(shù)據(jù)可獲得[5],為進一步探究板藍基因組進化歷史及生物學特征奠定了基礎。
多倍化(polyploidy)是物種多樣性演化的重要基因組動力,為地球上綠色植物的龐大類群的出現(xiàn)做出了巨大貢獻,尤其在被子植物的演化過程中尤為突出[6]。物種經(jīng)歷多倍化,其早期基因組將以古老的多倍體形式存在,而后會出現(xiàn)大規(guī)模的染色體重排,以及伴隨發(fā)生的重復基因丟失現(xiàn)象,這就導致現(xiàn)存物種基因組相對其祖先,已經(jīng)發(fā)生了復雜的變化,因此也為研究其古老的演化歷史帶來了挑戰(zhàn)。板藍作為真雙子葉植物,至少經(jīng)歷了3次多倍化事件,包括種子植物共享的全基因組加倍ζ(zeta)事件和被子植物共有的ε(epsilon)事件,以及最近發(fā)生的一次核心真雙子葉植物共同經(jīng)歷的古老六倍體γ(gamma)事件。多倍化事件的鑒定及對物種進化的影響,是基因組研究的一個熱點,其中對于古老時期、且在一個較短的時間里,發(fā)生的潛在的由多倍化導致的基因組激變事件的鑒定是一個難點。地球上真雙子葉植物出現(xiàn)距今有約1.5億年[7-9],早期分化關鍵節(jié)點幾乎是在同一歷史時期,對于板藍而言,其從核心雙子葉中分化出來的時間較早且分化較快,受到輻射性演化的影響,因而增加了這一分化前后的全基因組加倍事件的分析難度。
本研究通過使用前人開發(fā)的方法[10],將板藍基因組與兩個優(yōu)良的參考基因組——葡萄(Vitis vinifera)和漾濞槭(Acer yangbiense)進行共線性分析和全基因組比對分析,旨在厘清板藍基因組的進化歷程,探究板藍的生物學功能。
1? 材料與方法
1.1? 植物基因組數(shù)據(jù)
從不同的網(wǎng)站下載了每個基因組項目的基因組序列和注釋文件。葡萄的基因組數(shù)據(jù)可以在NCBI上找到(https://www.ncbi.nlm.nih.gov/),漾濞槭的基因組信息可以在GenBank找到(http://www.ncbi.nlm.nih.gov/genbank/),板藍的基因組數(shù)據(jù)可以在CNGB Sequence Archive (CNSA) 找到(https://ftp.cngb.org/pub/CNSA/data3/CNP0001632/CNS0343944/CNA0019301/)。
1.2? 推斷基因組同源性
基因共線性表明基因組之間的基因和基因順序在一定程度上是保守的,這可以反映共同祖先的同源染色體結構;這對于理解基因組變化,特別是推斷復雜植物基因組的進化至關重要。通過BLAST對蛋白質序列進行比較[11],E值<1e-5,得分>100。隨后,來自BLAST的同源基因信息被用作ColinerScan軟件[12]的輸入,為了定位同源基因對,筆者將同源基因之間的最大間隙分別設置為10、20、40、50、60、80、100和200個干預基因,并通過使用這些信息獲得同源基因點圖[13-14]。最后,當閾值設置為50時,發(fā)現(xiàn)了最清晰的共線性片段,并確定出旁系同源和直系同源基因。
1.3? 同義堿基替換
使用Nei-Gojobori方法[15],通過使用Bioperl統(tǒng)計模塊,估計同義位點(Ks)上的同義核苷酸替換。然后,對齊多個基因CDS,并使用ClustalW v2.0設置默認參數(shù)[16]。
1.4? Ks的核函數(shù)分析
使用核函數(shù)來分析基因組內和基因組之間的同基因同源物的Ks分布。Ks分布被認為是正態(tài)分布的混合。MATLAB v9.2.0[17]用于估計每個Ks列表的密度并獲得密度分布曲線,而核平滑密度函數(shù)的寬度參數(shù)設置為0.05。通過在擬合工具箱工具中執(zhí)行高斯函數(shù)來擬合曲線,評估擬合優(yōu)度的參數(shù)R2通常設置為不小于95%。本文使用Ks分布曲線的最大似然估計μ(Ks峰值)。
1.5? 鑒定染色體的直系和旁系同源區(qū)域
通過比較與物種分化和特定多倍體事件相關的同源區(qū)域的Ks值,確定了同源和旁系的染色體區(qū)域。
1.6? 全基因組與局部比對
基于多基因組比對關系,使用McScanX的jcvi模型展示筆者在參考基因組和板藍基因組之間選擇的同源基因深度比關系的信息[18]。
2? 結果與分析
2.1? 共線性基因及Ks分布表征
為了探究板藍的多倍化歷程,筆者比較了板藍基因組與葡萄、漾濞槭基因組間的共線性關系(見表1)。在葡萄和漾濞槭基因組中,當共線性區(qū)域所包含的共線性基因對大于4對時,分別鑒定出了位于385和670個同源共線性區(qū)域上的3 558和4 853對共線性基因對。然而,在相同條件下,在板藍基因組內鑒定出13 225對共線性基因對位于1 520個同源區(qū)域上,這大約是葡萄和漾濞槭基因組內共線性基因對的3倍左右。隨后,筆者對基因組間也進行了比較,發(fā)現(xiàn)板藍與葡萄、漾濞槭間分別存在50、51個長片段(連續(xù)基因對數(shù)量大于50對),包括了4 016和4 673對共線性基因對,值得注意的是,在葡萄與漾濞槭基因組間存在8 611對共線性基因對,這大約是板藍與兩個參考基因組間的2倍。這些基因組比較表明,板藍基因組中有更多的區(qū)塊,并且它們更小,這表明板藍可能在ECH后經(jīng)歷了進一步的多倍化事件。
筆者對共線性基因對所處的同源區(qū)域進行了同義核苷酸替換分析,計算了多倍化事件和物種分化所對應的Ks峰,并進一步推斷了進化關鍵事件發(fā)生的時間節(jié)點(見封三圖1)。葡萄、漾濞槭和板藍基因組中的共線性基因對分別在0.978 9、1.251和1.09處存在峰值,并且板藍基因組存在一個更小的峰,約為0.929 8,因此筆者推測前面三個峰對應核心真雙子葉共享的多倍化事件(core eudicots hexaploidy, ECH),板藍的較小峰對應板藍額外經(jīng)歷的多倍化事件。此外,筆者發(fā)現(xiàn)板藍與葡萄、漾濞槭分化的峰分別為1.31和1.43,均大于葡萄與漾濞槭分化的峰(0.946 9),表明板藍先于葡萄、漾濞槭分化,隨后葡萄和漾濞槭再分開。進一步地,筆者對板藍及參考基因組進化過程中的關鍵進化事件進行時間節(jié)點的推斷,利用之前研究中確定的ECH事件發(fā)生在大約115~130個百萬年前[9],筆者推算出板藍大約在111~126個百萬年前與葡萄、漾濞槭分支發(fā)生分化,隨后在約106~120個百萬年前經(jīng)歷了額外的多倍化事件,最后葡萄與漾濞槭在85~96個百萬年前發(fā)生分化。從上述結果中,筆者可以看到,在ECH事件后,板藍基因組在相當短的時間內經(jīng)歷了多倍化及分化事件,這會增大多倍化事件的鑒定難度,是板藍基因組分析中的巨大挑戰(zhàn)。
2.2? 確定板藍額外多倍化事件為三倍化
為了揭示板藍基因組的多倍化歷程,筆者對葡萄和板藍基因組進行比較,發(fā)現(xiàn)板藍的9個直系染色體區(qū)域與葡萄3個由ECH事件產(chǎn)生的旁系染色體區(qū)域相匹配。比如,葡萄基因組中由ECH事件產(chǎn)生的Vvi4、Vvi9、Vvi11與板藍基因組中的9個旁系染色體區(qū)域Scu2、Scu9、Scu10、Scu5、Scu15、Scu16、Scu3、Scu6、Scu8相匹配(見封三圖2A)。當用漾濞槭基因組與板藍基因組進行比較時,也可觀察到類似的結果(圖2B)。這些基因組間共線性分析表明,葡萄與板藍,漾濞槭與板藍間的直系同源共線性深度比皆為3∶9。進一步地,對板藍基因組內也進行全基因組比較,發(fā)現(xiàn)其自身存在兩個旁系同源區(qū)域,比如,Scu3和Scu4、Scu6為旁系同源區(qū)域(圖2C)。綜合基因組間和基因組內比較結果,表明板藍基因組應該在ECH事件后經(jīng)歷了一次額外的三倍化事件。參考基因組與板藍間的進化關系如圖2D所示。
2.3? 多重基因組比對與共線性列表的構建
在前面鑒定出的直系同源與旁系同源區(qū)域的基礎上,筆者可以區(qū)分出多倍化事件相關的共線性區(qū)域。葡萄、漾濞槭和板藍間分化的直系同源關系如封三圖3A所示。比如,葡萄的18號染色體有一個直系同源區(qū)域位于漾濞槭的10號染色體上。有3個直系同源區(qū)域分別位于板藍的3、14和16號染色體上(圖3B)。同時,由于多倍化后會存在大量的基因丟失,所以在板藍和兩個參考基因組之間的微共線性同源區(qū)域的基因清楚地表明,存在一些基因沒有顯示出預期的共線性深度同源比(見圖3B)。
此外,基于三個比較基因組中同源基因的位置,筆者構建了一個分層次和事件相關的多基因組比對表。在這里,以葡萄為參考基因組,筆者將葡萄的所有基因ID填充到第一列,然后根據(jù)多重比對推斷出的基因組合成,逐列逐種添加葡萄、漾濞槭、板藍的基因標識符。假設沒有基因丟失,來自ECH事件的葡萄中的三個旁系基因中的每一個都分別在漾濞槭和板藍中有一個和三個同源基因。因此,多基因組比對表包括15(3+3+9)列,其中包含三列葡萄基因、三列漾濞槭基因和九列板藍基因。當一個基因在預期位置缺失時,通常是由于基因丟失、易位或可能的組裝不充分,筆者在相應的位置輸入一個點來表示缺失的基因,利用構建的列表進行多基因組比對(圖3C)。該表總結了多重基因組和事件相關比對的結果,反映了遞歸多倍體化導致的三倍同源性,為爵床科生物信息學的進一步深入探究提供了重要的基因組學資源。
3? 討論與結論
遞歸多倍體化在植物基因組中頻繁發(fā)生,為基因組功能創(chuàng)新提供了巨大的機會[19-22]。多倍體化后,植物基因組常常伴隨著基因丟失和染色體重排,這使得基因組更加復雜,在識別多倍化事件時也會產(chǎn)生巨大的挑戰(zhàn)[23]。比如,對最好匹配片段的選擇存在差異[24],多倍體后進化速度加快,導致與最近多倍體事件相關的同源區(qū)塊的Ks值與ECH事件的Ks值無法區(qū)分[9]等。在之前對板藍基因組的分析中,并沒有提到板藍在進化過程中經(jīng)歷了全基因組多倍化事件[5]。本文對板藍與參考基因組進行了深入的全基因組比對分析,發(fā)現(xiàn)葡萄與漾濞槭,葡萄與板藍的直系同源比分別為1∶1,1∶3,表明板藍基因組在ECH事件后又經(jīng)歷了一次額外的三倍化事件。這不僅可以成為探究爵床科植物進化歷程的模式,也因筆者對板藍基因組構建的多重基因組比對列表,而能為后續(xù)爵床科植物基因組學研究打下堅實的基礎。此外,本研究為進一步加強板藍育種工作,提高板藍產(chǎn)量提供了理論基礎。
參考文獻:
[1] GU W, ZHANG Y, HAO X J, et al. Indole alkaloid glycosides from the aerial parts of Strobilanthes cusia[J]. Journal of natural products, 2014, 77(12): 2590-2594.
[2] 胡永樂,寧書菊,葉齊,等.流式細胞術測定馬藍基因組大小[J].中成藥,2023,45(2):634-636.
[3] 郭志英,李卿,吳循循,等.馬藍WRKY轉錄因子家族生物信息學及表達特征分析[J].藥學學報,2022,57(9):2864-2875.
[4] 劉小英,彭建平,林志敏.建青黛產(chǎn)業(yè)現(xiàn)狀、存在問題及發(fā)展對策[J].福建農(nóng)業(yè)科技,2016(3):59-62.
[5] HU Y, MA D, NING S, et al. High-Quality Genome of the Medicinal Plant Strobilanthes cusia Provides Insights Into the Biosynthesis of Indole Alkaloids[J]. Frontiers in plant science, 2021, 12: 742420.
[6] SOLTIS P S, SOLTIS D E. Ancient WGD events as drivers of key innovations in angiosperms[J]. Current opinion in plant biology, 2016, 30: 159-165.
[7] MING R, VANBUREN R, LIU Y, et al. Genome of the long-living sacred lotus (Nelumbo nucifera Gaertn.)[J]. Genome biology, 2013, 14(5): R41.
[8] MOORE M J, SOLTIS P S, BELL C D, et al. Phylogenetic analysis of 83 plastid genes further resolves the early diversification of eudicots[J]. Proc Natl Acad Sci U S A, 2010, 107(10): 4623-4628.
[9] JIAO Y, WICKETT N J, AYYAMPALAYAM S, et al. Ancestral polyploidy in seed plants and angiosperms[J]. Nature, 2011, 473(7345): 97-100.
[10] WANG J, SUN P, LI Y, et al. An Overlooked Paleotetraploidization in Cucurbitaceae[J]. Molecular biology and evolution, 2018, 35(1): 16-26.
[11] CAMACHO C, COULOURIS G, AVAGYAN V, et al. BLAST+: architecture and applications[J]. BMC bioinformatics, 2009, 10: 421.
[12] WANG X, SHI X, LI Z, et al. Statistical inference of chromosomal homology based on gene colinearity and applications to Arabidopsis and rice[J]. BMC bioinformatics, 2006, 7: 447.
[13] WANG X, WANG J, JIN D, et al. Genome Alignment Spanning Major Poaceae Lineages Reveals Heterogeneous Evolutionary Rates and Alters Inferred Dates for Key Evolutionary Events[J]. Molecular plant, 2015, 8(6): 885-898.
[14] WANG X, GUO H, WANG J, et al. Comparative genomic de-convolution of the cotton genome revealed a decaploid ancestor and widespread chromosomal fractionation[J]. The New phytologist, 2016, 209(3): 1252-1263.
[15] NEI M, GOJOBORI T. Simple methods for estimating the numbers of synonymous and nonsynonymous nucleotide substitutions[J]. Molecular biology and evolution, 1986, 3(5): 418-426.
[16] THOMPSON J D, GIBSON T J, HIGGINS D G. Multiple sequence alignment using ClustalW and ClustalX[J]. Current protocols in bioinformatics, 2003(1): Unit 2.3.
[17] CICHOSZ S L, JENSEN M H, LARSEN T K, et al. A Matlab Tool for Organizing and Analyzing NHANES Data[J]. Studies in health technology and informatics, 2020, 270: 1179-1180.
[18] WANG Y, TANG H, DEBARRY J D, et al. MCScanX: a toolkit for detection and evolutionary analysis of gene synteny and collinearity[J]. Nucleic acids research, 2012, 40(7): e49.
[19] VAN DE PEER Y, MIZRACHI E, MARCHAL K. The evolutionary significance of polyploidy[J]. Nature reviews Genetics, 2017, 18(7): 411-424.
[20] JIAO Y, LEEBENS-MACK J, AYYAMPALAYAM S, et al. A genome triplication associated with early diversification of the core eudicots[J]. Genome biology, 2012, 13(1): 1-14.
[21] SOLTIS P S, MARCHANT D B, VAN DE PEER Y, et al. Polyploidy and genome evolution in plants[J]. Current opinion in genetics & development, 2015, 35: 119-125.
[22] LANDIS J B, SOLTIS D E, LI Z, et al. Impact of whole-genome duplication events on diversification rates in angiosperms[J]. American journal of botany, 2018, 105(3): 348-363.
[23] PATERSON A H, BOWERS J E, CHAPMAN B A. Ancient polyploidization predating divergence of the cereals, and its consequences for comparative genomics[J]. Proc Natl Acad Sci U S A, 2004, 101(26): 9903-9908.
[24] WANG J, SUN P, LI Y, et al. Hierarchically Aligning 10 Legume Genomes Establishes a Family-Level Genomics Platform[J]. Plant physiology, 2017, 174(1): 284-300.
(責任編輯:丁志祥)