林艷 何紫迪 毛積鵬 蔣開彬 王金榜 黃少偉
摘 要 為開發(fā)木荷分子標(biāo)記,采用高通量測序技術(shù)獲得木荷基因組原始數(shù)據(jù),經(jīng)生物信息學(xué)軟件對木荷基因組序列進(jìn)行序列拼接、組裝和對比,共獲得308 418條Contig序列和459 984條Scafford序列。采用MISA軟件搜索木荷基因組序列中微衛(wèi)星(Microsatellite)位點(diǎn),共得到334 843個SSR序列,總長度5 074 708 bp,占木荷基因組大小的0.98%,木荷基因組SSR序列平均長度為15.2 bp,平均分布頻率為644個/Mb。木荷SSR序列中,單核苷酸序列數(shù)量最多,共188 217個,占木荷SSR序列總數(shù)的56.21%,其次是二核苷酸(23%)>三核苷酸(13%)>四核苷酸(5%)>五核苷酸(2%)>六核苷酸(1%)。木荷全基因組SSR序列中共包括400種重復(fù)基元,其中單核苷酸重復(fù)基元A和二核苷酸重復(fù)基元AT是主要重復(fù)基元,分別占總SSR的56%和11%,SSR基元的重復(fù)次數(shù)分布在4~40次,主要分布在4~25次。本研究豐富了木荷分子標(biāo)記類型,為進(jìn)一步群體遺傳結(jié)構(gòu)和遺傳多樣性分析提供了基礎(chǔ)數(shù)據(jù)。
關(guān)鍵詞 木荷;SSR標(biāo)記;生物信息學(xué);基因組;高通量
中圖分類號 S792.99 文獻(xiàn)標(biāo)識碼 A
Abstract In order to develop the molecular marker of Schima superba, high-throughput sequencing was used to obtain the original data of S. superba. Bioinformatics softwares were used to sequence, assemble and compare the S. superba genomic sequences. A total of 308 418 contig sequences and 459 984 scafford sequences were obtained. In total, 334 843 SSR sequences were obtained by using the bioinformatics analysis software MISA. The total length of the SSR was 5 074 708 bp, accounting for 0.98% of the genome size of S. superba, with an average length of 15.2 bp. The mean distribution frequency was 644/Mb. Among the SSR of S. superba genome, the number of single nucleotides was the largest, with a total number of 188 217, accounting for 56.21% of the total SSR of S. superba, followed by dinucleotide (23%) > trinucleotides (13%) > teranucleotides (5%) > pentanucleotides (2%) > hexanucleotide (1%). The SSR sequences of S. superba genome was consisted of 400 repeat motifs, in which mononucleotide repeat A and dinucleotide repeat AT were the major repeat motifs, accounting for 56% and 11% of the total SSR respectively. The number of repetitions of SSR motifs was distributed from 4 to 40, mainly between 4 and 25 times. This study would provide basic data for further genetic diversity analysis of S. superba.
Keywords Schima superba; simple sequence repeat; bioinformatics; genomes; high-throughput sequencing
DOI 10.3969/j.issn.1000-2561.2018.09.013
微衛(wèi)星(Microsatellite),又稱簡單重復(fù)序列(Simple Sequence Repeats,SSRs),在原核生物和真核生物基因組中普遍存在,分布于基因間隔區(qū)、UTR區(qū)、內(nèi)含子區(qū)等區(qū)域。SSR標(biāo)記為共顯性標(biāo)記,具有數(shù)量多、分布廣、多態(tài)性高和信息量大等優(yōu)點(diǎn)[1]。SSR序列由1~6個重復(fù)并且串聯(lián)的核苷酸組成,由高度變異的核心序列和高度保守的側(cè)翼序列組成,可根據(jù)兩端保守的側(cè)翼序列針對性地設(shè)計(jì)引物,用于多態(tài)性的檢測[2]。SSR重復(fù)類型包括:單核苷酸(Mononucleotide)重復(fù)、二核苷酸(Dinucleotide)重復(fù)、三核苷酸(Trinucleotide)重復(fù)和四核苷酸(Teranucleotide)及以上重復(fù)[3],長度大多為100~200 bp,根據(jù)微衛(wèi)星片段長度的不同又形成簡單序列長度多態(tài)性(Simple Sequence Length Polymorphism,SSLP)[4]。近年來,SSR分子標(biāo)記技術(shù)作為第二代微衛(wèi)星分子標(biāo)記技術(shù),已廣泛應(yīng)用于群體遺傳多樣性分析[5]、種群內(nèi)和種群間遺傳變異分析[6-7]、連鎖遺傳圖譜構(gòu)建和群體遺傳結(jié)構(gòu)分析等[8-9]。
木荷(Schima superba Gardn.et Champ)屬山茶科(Theaceae),木荷屬(Schima),常綠闊葉喬木,自然分布于福建、廣東、江西、浙江等31N以南,105E以東的地區(qū)[10]。木荷為典型的亞熱帶樹種,葉呈厚革質(zhì),含水量高達(dá)42%,混植于易發(fā)生火災(zāi)的松樹林,可以起到很好的防火阻隔作用[11]。木荷作為南方重要的防火樹種,具有很大的研究價值,近幾年來已經(jīng)成為林木遺傳育種專家重要的研究樹種。目前,從有關(guān)木荷SSR位點(diǎn)分析的文獻(xiàn)來看,研究者們采用的都是傳統(tǒng)的分子生物學(xué)方法[12-13],囿于依賴傳統(tǒng)的實(shí)驗(yàn)技術(shù)方法,具有一定的局限性。
過去,人們對某些疾病現(xiàn)象的揭示局限于單個基因位點(diǎn)的研究,往往不能全面的揭示這些原理,隨著分子生物技術(shù)的進(jìn)一步發(fā)展,第二代測序技術(shù)的出現(xiàn)將研究者們帶到了全基因組整體水平的研究層面,打破了傳統(tǒng)只對單個基因位點(diǎn)研究的局限,具有通量高、周期短、成本低和信息量全面等優(yōu)點(diǎn)[14]。然而,面對如此巨大且復(fù)雜的數(shù)據(jù)量,生物信息學(xué)的作用不可忽視,生物信息學(xué)和第二代測序的出現(xiàn)大大推動了分子生物學(xué)的發(fā)展。迄今為止,未見有利用高通量測序和生物信息學(xué)方法開發(fā)木荷基因組SSR的報(bào)道。本研究在高通量測序的基礎(chǔ)上,利用生物信息學(xué)方法搜索木荷基因組SSR位點(diǎn),分析木荷SSR序列生物信息學(xué)特征,為進(jìn)一步遺傳結(jié)構(gòu)和遺傳多樣性分析提供了基礎(chǔ)數(shù)據(jù),還有助于利用分子標(biāo)記輔助育種方法選育我國木荷優(yōu)良種質(zhì)資源。
1 材料與方法
1.1 材料
實(shí)驗(yàn)材料為單一木荷無性系,來源于廣東省英德市林業(yè)科學(xué)研究所橋頭基地木荷優(yōu)樹無性系種質(zhì)基因庫,占地面積75 hm2,相對濕度77%,年降雨量1 906.2 mm,年平均氣溫21.1 ℃。采集木荷幼嫩葉片5~10片,寫上標(biāo)簽并用密封袋裝好,帶回實(shí)驗(yàn)室80 ℃超低溫冰箱保存,用于DNA提取。
1.2 方法
1.2.1 木荷DNA的提取 采用常規(guī)試劑盒方法提取木荷DNA,經(jīng)1%瓊脂糖凝膠電泳檢測,用紫外分光光度計(jì)(NanoDrop 2000 spectroph?oto?me?ter)檢測DNA濃度和純度,置于20 ℃低溫保存。
1.2.2 木荷基因組的高通量測序 采用高通量測序平臺Illumina Hiseq 2500進(jìn)行測序,測序讀長PE250 (Pair-end 250)或PE150(Pair-end 150)。
1.2.3 數(shù)據(jù)處理 數(shù)據(jù)處理的過程分為4個步驟:數(shù)據(jù)質(zhì)控,篩選高通量測序數(shù)據(jù)中質(zhì)量較高的數(shù)據(jù)(Clean Reads),篩選標(biāo)準(zhǔn)為:去除含N堿基或含有3個以上堿基質(zhì)量值低于20的測序序列;序列組裝,采用Denove[15]序列組裝軟件,將測序數(shù)據(jù)組裝成scaffold序列;序列標(biāo)簽聚類,采用序列比對方法,為減少比對誤差導(dǎo)致的SSR檢測錯誤,要求比對到SSR區(qū)域的測序片段為雙末端同時比對到參考序列。將相同的序列標(biāo)簽聚類到一起,為后續(xù)的多態(tài)性檢測做準(zhǔn)備。最終將得到的數(shù)據(jù)以fasta格式保存用于后續(xù)分析。
1.2.4 數(shù)據(jù)分析 采用生物信息學(xué)分析軟件MISA (http://pgrc.ipk-gatersleben.de/misa) 結(jié)合Perl語言,搜索基因組中所有SSR。統(tǒng)計(jì)標(biāo)準(zhǔn)設(shè)置如下:要求單核苷酸重復(fù)不少于10次,二核苷酸重復(fù)不少于6次,三核苷酸重復(fù)、四核苷酸重復(fù)、五核苷酸重復(fù)和六核苷酸重復(fù)不少于4次。重復(fù)序列兩邊的側(cè)翼序列大小設(shè)置為100 bp。
2 結(jié)果與分析
2.1 高通量測序數(shù)據(jù)分析
利用高通量測序技術(shù)共獲得34 574 976條原始數(shù)據(jù)(Raw reads),經(jīng)過序列組裝和去除冗余序列得到34 379 120條高質(zhì)量數(shù)據(jù)(High-quality reads)(表1),占Raw reads的99.4%,對SSR序列進(jìn)行拼接分別得到308 418條和459 984條長度大于500 bp的contigs和scafford(圖1),堿基最長的contig序列長度為6 108 bp,堿基最長的scaffold序列長度為19 000 bp。
2.2 木荷SSR位點(diǎn)的數(shù)量分布
通過SSR生物信息學(xué)軟件MISA共檢測到334 843個SSR序列,木荷基因組SSR平均出現(xiàn)頻率為644個/Mb。SSR序列在木荷基因組上種類豐富,單核苷酸至六核苷酸均有分布,但數(shù)量上差異較大(表2)。其中,單核苷酸重復(fù)位點(diǎn)數(shù)量最為豐富(188 217個),占56.21%,二核苷酸重復(fù)位點(diǎn)數(shù)量高達(dá)五分之一(22.36%),三核苷酸重復(fù)位點(diǎn)次之(43 631個),占13.03%,四核苷酸重復(fù)位點(diǎn)共17 559個,占5.24%,五核苷酸重復(fù)位點(diǎn)6 277個,占1.87%,六核苷酸重復(fù)位點(diǎn)數(shù)量最少,3 027個,僅占0.90%,由此可見,木荷基因組SSR重復(fù)基元的數(shù)量隨著堿基重復(fù)次數(shù)的增加呈降低趨勢(圖2,圖3)。
2.3 木荷基因組SSR重復(fù)基元數(shù)量、頻率、長度特征
木荷基因組SSR各重復(fù)基元的種類和各重復(fù)基元的數(shù)量分布呈顯著差異(表3,圖3,圖4), 各重復(fù)類別的優(yōu)勢重復(fù)基元數(shù)量分布情況見圖5。從木荷基因組中找到的SSR種類共400種,其中,單核苷酸重復(fù)類別共2種,以A重復(fù)基元占絕大多數(shù)(187 723個),占單核苷酸重復(fù)類別的99.7%,占所有SSR總數(shù)的兩種重復(fù)基元的56.1%,出現(xiàn)的頻率分別是361.01個/Mb,C重復(fù)基元出現(xiàn)頻率僅0.59個/Mb。在二核苷酸重復(fù)類別中,以AT重復(fù)基元數(shù)量最多(36 551個),占二核苷酸重復(fù)基元的48%,出現(xiàn)頻率為70.29個/Mb,AG重復(fù)基元數(shù)量和頻率略低于AT重復(fù)基元,分別為34 716個和66.8個/Mb。AC重復(fù)基元和CG重復(fù)基元出現(xiàn)的次數(shù)較低,出現(xiàn)頻率分別為9.22個/Mb和0.14個/Mb;在三核苷酸重復(fù)類別中,以AAT重復(fù)基元出現(xiàn)的次數(shù)最多(20 913個),出現(xiàn)頻率為40.22個/Mb,然后依次是AAG>ACC>ATC,出現(xiàn)頻率分別為15.97個/Mb、8.67個/Mb和5.33個/Mb。
木荷基因組四核苷酸重復(fù)類型共32種,AAAT為主要的重復(fù)基元(13 468個),出現(xiàn)頻率最高,為25.9個/Mb,其次為AAAC重復(fù)基元和AAAG重復(fù)基元,出現(xiàn)頻率分別為1.50個/Mb和1.51個/Mb。五核苷酸重復(fù)類型一共93種,數(shù)量最多的重復(fù)基元是AAAAT,出現(xiàn)頻率為5.29個/Mb。六核苷酸重復(fù)拷貝類型的種類最多,一共有259種,占所有重復(fù)基元數(shù)的65%,數(shù)量最多的重復(fù)類別為AAAAAT,出現(xiàn)頻率為1.47個/Mb,其余重復(fù)基元不占優(yōu)勢,出現(xiàn)的頻率均較低,重復(fù)基元種類隨重復(fù)次數(shù)增加。
木荷基因組SSR序列總長度為5 074 708 bp,平均長度為15.12 bp,總長度占木荷總基因組大小的0.98%,單核苷酸重復(fù)類型的總長度最長,從單核苷酸至六核苷酸長度依次降低,各重復(fù)類別平均長度分布規(guī)律與總長度相反,從單核苷酸至六核苷酸呈升高的趨勢,依次為12.74、19.62、15.20、17.61、21.32、25.81 bp(表4)。六核苷酸重復(fù)基元平均長度最長,其中單核苷酸重復(fù)類型共兩種,分別為A和C,二核苷酸重復(fù)基元類別共四種,三核苷酸、四核苷酸、五核苷酸重復(fù)類型以及六核苷酸重復(fù)類型種類逐漸遞增,依次為10種、32種、93種和259種,六核苷酸重復(fù)種類最多,占所有核苷酸種類的65%,由此可見,重復(fù)類型種類隨著堿基重復(fù)次數(shù)的增加而增加。
木荷基因組SSR中,單核苷酸重復(fù)基元的分布范圍在10~40次,主要分布在10~25次,占99%;二核苷酸重復(fù)基元分布范圍為6~40次,主要分布在6~20次,占97%;三核苷酸重復(fù)基元分布在4~21次,主要分布在4~13次,占99%;四核苷酸重復(fù)基元分布在4~10次,主要分布在4~7次,占99%;五核苷酸重復(fù)基元分布范圍為4~9次,主要分布在4~5次,占96%;六核苷酸重復(fù)基元范圍分布在4~9次,主要分布在4~5次,占95% (圖6)。
3 討論
分析木荷基因組序列共得到334 843個SSR序列,平均每個SSR位點(diǎn)出現(xiàn)的頻率為644個/Mb,相比茶樹[16]、柑橘[17]、楊樹[18]等植物,出現(xiàn)頻率更高,說明木荷基因組SSR位點(diǎn)較為豐富。木荷基因組SSR各重復(fù)類別中,單核苷酸重復(fù)類別出現(xiàn)的頻率最高,為361.96個/Mb,其次為二核苷酸重復(fù)(146.41個/Mb)>三核苷酸重復(fù)(83.91個/Mb)>四核苷酸重復(fù)(33.77個/Mb)>五核苷酸重復(fù)(12.07個/Mb)>六核苷酸重復(fù)(5.82個/Mb)。
目前,SSR標(biāo)記技術(shù)已大量用于農(nóng)作物和動物基因SSR位點(diǎn)開發(fā)[19-20]。木荷基因組SSR重復(fù)序列中以單核苷酸重復(fù)類型最為豐富,其次是二核苷酸重復(fù)類型,這與在模式植物楊樹上的研究結(jié)果相似[21]。鄭燕等[22]在水稻、玉米、高粱這3種禾本科植物的研究中,發(fā)現(xiàn)三核苷酸重復(fù)出現(xiàn)次數(shù)最多,其次為六核苷酸SSR重復(fù)序列。孫蛟龍等[23]在浮萍轉(zhuǎn)錄組中發(fā)現(xiàn)二核苷酸重復(fù)類型數(shù)量最多,其次為三核苷酸重復(fù)類型。由此可見,SSR序列的分布規(guī)律在不同的物種上差異較大,這可能是由于物種間基因組大小不同造成優(yōu)勢SSR序列差異。在木荷基因組單核苷酸至六核苷酸重復(fù)類別中,數(shù)量最多的重復(fù)基元分別為A、AT、AAT、AAAT、AAAAT以及AAAAAT,說明這些優(yōu)勢重復(fù)基元富含A/T核酸,在木荷基因組中大量存在,這與棗樹[24]、楊樹[25]、黑麥草[26]等植物基因組SSR序列研究一致。
本研究基于高通量測序技術(shù),首次利用生物信息學(xué)分析方法發(fā)掘木荷基因組SSR序列,統(tǒng)計(jì)分析木荷基因組SSR數(shù)量、長度、頻率和密度等生物信息學(xué)特征,成功開發(fā)了大量木荷SSR位點(diǎn),豐富木荷分子標(biāo)記類型,為木荷群體遺傳結(jié)構(gòu)和遺傳多樣性分析提供數(shù)據(jù)基礎(chǔ),有利于加快建立木荷種質(zhì)資源評價與保護(hù)機(jī)制,也有利于進(jìn)一步木荷種質(zhì)資源多樣性研究和品種選育。
參考文獻(xiàn)
[1] 張立榮, 徐大慶, 劉大群. SSR和ISSR分子標(biāo)記及其在植物遺傳育種研究中的應(yīng)用[J]. 河北農(nóng)業(yè)大學(xué)學(xué)報(bào), 2002(1): 90-94.
[2] Xu M, Liu X, Wang J W, et al. Transcriptome sequencing and development of novel genic SSR markers for Dendrobium officinale[J]. Molecular Breeding, 2017, 37: 18.
[3] 鄢秀芹, 魯 敏, 安華明. 刺梨轉(zhuǎn)錄組SSR信息分析及其分子標(biāo)記開發(fā)[J]. 園藝學(xué)報(bào), 2015,42(2): 341-349.
[4] Xie J K, Chen D Z, Xiao Y Q, et al. Genetic diversity of Dongxiang wild rice (Oryza rufipogon Griff.) detected by SSLP markers[J]. Agricultural Sciences in China, 2003, 2(7): 12-18.
[5] 白 玉. DNA分子標(biāo)記技術(shù)及其應(yīng)用[J]. 安徽農(nóng)業(yè)科學(xué), 2007, 35(24): 7 422-7 424.
[6] 左力輝, 張 雙, 梁海永, 等. 榆樹轉(zhuǎn)錄組EST-SSR引物開發(fā)及遺傳多樣性分析[J]. 植物遺傳資源學(xué)報(bào), 2018, 19(1): 157-166.
[7] 楊育峰, 史典義, 王雁楠, 等. 基于轉(zhuǎn)錄組測序數(shù)據(jù)的甘薯SSR標(biāo)記開發(fā)及群體聚類分析[J].分子植物育種, 2018, 16(11): 3 569-3 579.
[8] 洪彥彬, 梁炫強(qiáng), 陳小平, 等. 花生栽培種SSR遺傳圖譜的構(gòu)建[J]. 作物學(xué)報(bào), 2009, 35(3): 395-402.
[9] 徐立安, 李新軍, 潘惠新, 等. 用SSR研究栲樹群體遺傳結(jié)構(gòu)[J]. 植物學(xué)報(bào), 2001, 43(4): 409-412.
[10] 楊智杰, 陳光水, 謝錦升, 等. 杉木、木荷純林及其混交林凋落物量和碳?xì)w還量[J]. 應(yīng)用生態(tài)學(xué)報(bào), 2010, 21(9): 2 235-2 240.
[11] 趙秀軍. 木荷的生物學(xué)特征及其栽培技術(shù)要點(diǎn)[J]. 南方農(nóng)業(yè), 2017, 11(17): 50-51.
[12] 辛娜娜, 張 蕊, 徐肇友, 等. 木荷1代育種群體遺傳多樣性分析[J]. 林業(yè)科學(xué)研究, 2015, 28(3): 332-338.
[13] 金則新, 李鈞敏, 李建輝. 木荷種群遺傳多樣性的ISSR分析[J]. 浙江大學(xué)學(xué)報(bào)(農(nóng)業(yè)與生命科學(xué)版), 2007, 33(3): 271-276.
[14] 周家蓬, 裴智勇, 陳禹保, 等. 基于高通量測序的全基因組關(guān)聯(lián)研究策略[J]. 遺傳, 2014, 36(11): 1 099-1 111.
[15] Li G, Zhao Y, Liu Z, et al. De novo assembly and characterization of the spleen transcriptome of common carp (Cyprinus carpio) using Illumina paired-end sequencing[J]. Fish & Shellfish Immunology, 2015, 44: 420-429.
[16] 楊 華, 陳 琪, 韋朝領(lǐng), 等. 茶樹轉(zhuǎn)錄組中SSR位點(diǎn)的信息分析[J]. 安徽農(nóng)業(yè)大學(xué)學(xué)報(bào), 2011, 38 (6): 882-886.
[17] Chen C, Zhou P, Choi YA, et al. Mining and characterizing microsatellites from citrus ESTs[J]. Theoretical and Applied Genetics, 2006, 112 (7): 1 248-1 257.
[18] 張新葉, 宋叢文, 張亞東, 等. 楊樹EST-SSR標(biāo)記的開發(fā)[J]. 林業(yè)科學(xué), 2009, 45(9): 53-59.
[19] 呂遠(yuǎn)大, 李 坦, 石 麗, 等. 基于全基因組重測序信息開發(fā)玉米H99自交系特異分子標(biāo)記[J]. 作物學(xué)報(bào), 2014, 40(2): 191-197.
[20] 白俊艷, 王玉琴, 龐有志, 等. 絨山羊EST序列的生物信息學(xué)分析[C]//中國畜牧獸醫(yī)學(xué)會信息技術(shù)分會. 中國畜牧獸醫(yī)學(xué)會信息技術(shù)分會2012年學(xué)術(shù)研討會論文集. 北海: 中國畜牧獸醫(yī)學(xué)會. 2012: 5.
[21] Li S, Yin T. Map and analysis of microsatellites in the genome of Populus: The first sequenced perennial plant[J]. Science in China Series C: Life Sciences, 2007, 50(5): 690-699.
[22] 鄭 燕, 張 耿, 吳為人. 禾本科植物微衛(wèi)星序列的特征分析和比較[J]. 基因組學(xué)與應(yīng)用生物學(xué), 2011, 30(5): 513-520.
[23] 孫蛟龍, 方 揚(yáng), 靳艷玲, 等. 浮萍轉(zhuǎn)錄組數(shù)據(jù)SSR位點(diǎn)的生物信息學(xué)分析[J]. 應(yīng)用與環(huán)境生物學(xué)報(bào), 2015, 21(3): 401-405.
[24] 肖 京. 棗基因組SSR位點(diǎn)特征分析及引物開發(fā)[D]. 保定: 河北農(nóng)業(yè)大學(xué), 2014.
[25] 蔣雪梅, 胡廷章, 向興勝, 等. 楊樹全基因組微衛(wèi)星序列的統(tǒng)計(jì)及其生物信息學(xué)分析[J]. 西南農(nóng)業(yè)學(xué)報(bào), 2015, 28(2): 527-533.
[26] Hou S, Sun Z, Linghu B, et al. Genetic diversity of Buckwheat Cultivars (Fagopyrum tartaricum Gaertn.) assessed with SSR markers developed from genome survey sequences[J]. Plant Molecular Biology Reporter, 2016, 34(1): 233-241.