賈 婕,馮源恒,楊章旗
(廣西壯族自治區(qū)林業(yè)科學(xué)研究院 國(guó)家林業(yè)和草原局馬尾松工程技術(shù)研究中心廣西馬尾松工程技術(shù)研究中心,廣西南寧 530002)
馬尾松(Pinus massoniana)是我國(guó)南方主要的鄉(xiāng)土樹(shù)種, 具有分布廣、生長(zhǎng)迅速和適應(yīng)性強(qiáng)等特點(diǎn),在森林資源和松脂產(chǎn)業(yè)發(fā)展以及森林生態(tài)服務(wù)功能等方面發(fā)揮著重要作用,在創(chuàng)造經(jīng)濟(jì)價(jià)值和發(fā)揮生態(tài)效應(yīng)方面有重要地位[1]。隨著馬尾松育種研究的深入,越來(lái)越多的問(wèn)題需要從分子機(jī)理上進(jìn)行解析。由于馬尾松尚未開(kāi)展全基因組測(cè)序,基因組及轉(zhuǎn)錄組數(shù)據(jù)缺乏,其生長(zhǎng)發(fā)育的相關(guān)研究、遺傳多樣性研究以及分子標(biāo)記開(kāi)發(fā)和遺傳圖譜構(gòu)建等研究相對(duì)滯后[2]。
全基因組重測(cè)序是對(duì)已知基因組序列物種的個(gè)體進(jìn)行基因組測(cè)序, 并在此基礎(chǔ)上對(duì)個(gè)體或群體進(jìn)行差異性分析的一項(xiàng)測(cè)序技術(shù)。利用全基因組重測(cè)序技術(shù)可以在全基因組范圍內(nèi)挖掘單核苷酸多態(tài)性(SNP)、插入缺失標(biāo)記(InDel)、結(jié)構(gòu)變異(SV)和基因拷貝數(shù)變異(CNV),其廣泛應(yīng)用于變異檢測(cè)、遺傳圖譜構(gòu)建、性狀定位和群體進(jìn)化研究等[3],已經(jīng)在玉米(Zea mays)[4-5]、水稻(Oryza sativa)[6]、油 菜(Brassica campestris)[7-8]和 辣 椒(Capsicum annuum)[9]等作物中得到了廣泛應(yīng)用。朱風(fēng)麗等[10]將韓國(guó)赤芝(Ganoderma lucidum)重測(cè)序數(shù)據(jù)與中國(guó)赤芝CGMCC 5.0026 參考基因組進(jìn)行對(duì)比,共發(fā)現(xiàn)10 607 個(gè)基因發(fā)生非同義SNP,4 774 個(gè)InDel 和1 428 個(gè)SV,并找到了與菌絲生長(zhǎng)相關(guān)的候選基因。張國(guó)儒等[11]以基因組重測(cè)序?yàn)榛A(chǔ),檢測(cè)出大量栽培型加工番茄(Lycopersicon esculentum)‘M82’和潘那利漸滲系‘IL71’兩品系間差異的In-Del 標(biāo)記位點(diǎn),利用這些位點(diǎn)序列設(shè)計(jì)引物后,共檢測(cè)出40 對(duì)特異性位點(diǎn),為后期雜種種子純度鑒定提供了依據(jù)。
火炬松(P. taeda)是第一個(gè)完成全基因組測(cè)序的松類(lèi)樹(shù)種,且與馬尾松同為松屬植物。用火炬松基因組為馬尾松分子研究提供參考,可在很大程度上彌補(bǔ)馬尾松無(wú)參考基因組的缺憾。本研究通過(guò)基因組重測(cè)序技術(shù),比較馬尾松與火炬松基因組,探討以火炬松基因組作為馬尾松分子研究參考基因組的可行性。
材料為馬尾松無(wú)性系NP7 號(hào),采自南寧市林科所馬尾松種質(zhì)資源庫(kù),該無(wú)性系母株來(lái)自廣西壯族自治區(qū)寧明縣桐棉鄉(xiāng)那卜村。
火炬松全基因組序列從https://www.ncbi.nlm.nih.gov/assembly/ GCA_000404065.3 網(wǎng)站下載, 數(shù)據(jù)更新時(shí)間為2018年12月。
1.2.1 全基因組DNA提取
采用植物基因組DNA 提取試劑盒(TIAN-GEN,DP305)提取樣本的總DNA。
1.2.2 基因組重測(cè)序
對(duì)提取的基因組DNA 進(jìn)行檢測(cè),合格后采用超聲波法將DNA 片段化,將片段化的DNA 進(jìn)行片段純化、末端修復(fù)、3'端加A 和連接測(cè)序接頭;用瓊脂糖凝膠電泳進(jìn)行片段大小選擇,并進(jìn)行PCR 擴(kuò)增以形成測(cè)序文庫(kù), 對(duì)建好的文庫(kù)進(jìn)行文庫(kù)質(zhì)檢,采用Xten 對(duì)質(zhì)檢合格的文庫(kù)進(jìn)行測(cè)序;對(duì)測(cè)序得到的原始reads(雙端序列)進(jìn)行質(zhì)量評(píng)估,過(guò)濾得到Clean Reads,用于后續(xù)生物信息學(xué)分析。
1.2.3 與參考基因組比對(duì)統(tǒng)計(jì)
采用bwa軟件[12]將Clean Reads與參考基因組序列進(jìn)行比對(duì),定位Clean Reads 在參考基因組上的位置,統(tǒng)計(jì)各樣品的測(cè)序深度和基因組覆蓋度等信息。
統(tǒng)計(jì)重測(cè)序的Q20、Q30 和GC 含量與參考基因組的比對(duì)率(表1)。通過(guò)測(cè)序,共得到231.27 Gbp的Clean Data,Q30 達(dá)到87.61%;拼接得到的馬尾松reads 數(shù)目有771 625 883 個(gè),GC 含量38.14%;堿基質(zhì)量分布基本無(wú)AT和GC分離現(xiàn)象。
表1 樣品測(cè)序數(shù)據(jù)評(píng)估統(tǒng)計(jì)Tab.1 Statistic of sample sequencing data evaluation
將重測(cè)序結(jié)果與火炬松Ptaeda 2.0 基因組進(jìn)行比較,發(fā)現(xiàn)96.98%的reads 可定位在參考基因組上,60.98%的reads 雙端測(cè)序序列均可定位到參考基因組上且距離符合測(cè)序片段的長(zhǎng)度分布(表2)。結(jié)果表明,馬尾松基因組與火炬松基因組匹配率高。
表2 與參考基因組對(duì)比結(jié)果Tab.2 Comparative results with reference genome
樣品的平均覆蓋深度為8 倍,基因組被覆蓋的較均勻,測(cè)序隨機(jī)性較好;馬尾松reads 對(duì)火炬松參考基因組的覆蓋度為62.59%,覆蓋到參考基因組的區(qū)域不高(表3)。
表3 覆蓋深度和覆蓋度比例Tab.3 Coverage depth and coverage ratio
松科(Pinaceae)植物基因組保守性較高,基因組進(jìn)化緩慢,遺傳信息可以在親緣關(guān)系較近的樹(shù)種間轉(zhuǎn)移[13-15]。劉希華等[16]為研究馬尾松4CL基因的遺傳進(jìn)化及系統(tǒng)發(fā)育情況,以馬尾松基因組DNA 為模板,根據(jù)NCBI 上登記的21 種松屬植物4CL基因序列進(jìn)行SNP 對(duì)比分析,發(fā)現(xiàn)松屬植物在進(jìn)化過(guò)程中,未出現(xiàn)大規(guī)模的遺傳分化現(xiàn)象,但松屬植物種間有差異,馬尾松、火炬松、班克松(P.banksiana)和小干松(P.contorta)親緣關(guān)系較近。
本研究中,馬尾松基因組與火炬松基因組的匹配率高達(dá)96.98%,以火炬松基因組為馬尾松分子研究分析的參考基因組是可行的。羅群鳳等[17]采用高通量測(cè)序技術(shù)對(duì)馬尾松葉綠體基因組進(jìn)行了測(cè)序和組裝,以發(fā)表的火炬松序列為參考組,成功組裝出了馬尾松葉綠體基因組。本研究發(fā)現(xiàn),馬尾松reads對(duì)火炬松參考基因組的覆蓋度為62.59%,馬尾松reads對(duì)火炬松的覆蓋度明顯低于其在火炬松基因組上的定位率,說(shuō)明測(cè)序得到的96%以上的馬尾松序列與火炬松基因組中62.59%的區(qū)域高度相似,其余37.41%的區(qū)域差異較大。這一方面可能源于在進(jìn)化過(guò)程中火炬松產(chǎn)生了新的基因,這些基因序列是馬尾松所不具備的,從基因的數(shù)量和復(fù)雜度來(lái)說(shuō),火炬松高于馬尾松,火炬松的進(jìn)化地位相對(duì)馬尾松更高,這與Liston等[18]和洑香香等[19]對(duì)松屬進(jìn)化關(guān)系研究的結(jié)論一致。另一方面可能是由于測(cè)序與組裝技術(shù)不穩(wěn)定,比如在超聲波片段化時(shí),馬尾松基因組片段不均勻,所得馬尾松reads對(duì)馬尾松自身基因組覆蓋不夠,或是因?yàn)榛鹁嫠蓞⒖蓟蚪M自身組裝不精確。