摘要:楠木(Phoebezhennan)是重要的木材和園林綠化樹種,國家二級保護瀕危種,但氣候急劇變化和濫砍亂伐導(dǎo)致楠木資源破壞嚴重,因此,開展楠木遺傳多樣性評價對種質(zhì)資源保護和遺傳育種具有重要意義。DNA分子標記技術(shù)是研究遺傳多樣性的重要手段,特別是SSR(SimpleSequenceRepeats,微衛(wèi)星DNA)、SNP(singlenucleotidepolymorphism,單核苷酸多態(tài)性)、InDel(insertion-deletion,插入缺失標記)分子標記技術(shù)已得到廣泛應(yīng)用。本研究利用MISA(MIcroSAtelliteidentificationtool)軟件及GATK(GenomeAnalysisToolkit)軟件,對楠木轉(zhuǎn)錄組數(shù)據(jù)SSR、SNP、InDel位點信息進行分析。根據(jù)60250條unigenes查找,在12916條unigenes上共發(fā)現(xiàn)SSR位點18793個,占比21.44%。其中單堿基重復(fù)基元占比最大,二、三、四、五、六堿基重復(fù)次數(shù)逐漸遞減,單堿基重復(fù)基元A/T出現(xiàn)次數(shù)最多,共9060次占比48.21%,其他類型重復(fù)基元的出現(xiàn)次數(shù)同樣逐漸遞減。SNP和InDel位點查找,獲得SNP位點1566350個,平均約每28bp就有一個SNP位點的存在,其中轉(zhuǎn)變位點有990457個,顛換位點有575893個,占比較高的是T/A和C/G。InDel位點共發(fā)現(xiàn)178227個,平均每253bp就有一個InDel位點的存在。結(jié)合數(shù)據(jù)來看楠木轉(zhuǎn)錄組中有著豐富的SSR、SNP、InDel位點,具有較高的多態(tài)性,為楠木的分子標記開發(fā)及深入研究遺傳多樣性提供了基礎(chǔ)數(shù)據(jù)。
關(guān)鍵詞:楠木;轉(zhuǎn)錄組;SSR;SNP;InDel
中圖分類號:Q755
文獻標識碼:A
文章編號:1008-0457(2023)04-0083-05
國際DOI編碼:10.15958/j.cnki.sdnyswxb.2023.04.014
楠木(PhoebezhennanS.Lee)為樟科(Lauraceae)楠屬(PhoebeNees)常綠大喬木,國家二級瀕危植物,其木質(zhì)堅硬,經(jīng)久耐用,耐腐性能極好,帶有特殊的香味,能避免蟲蛀,是名貴的材用和園林綠化樹種[1]。目前楠木資源主要分布在湖北西部、貴州西北部及四川等地,呈現(xiàn)片段化分布[2]。由于氣候變遷、自然災(zāi)害、楠木自身繁殖率較低及人們對楠木的亂砍濫伐,導(dǎo)致楠木資源日益枯竭[3]。因此,對楠木開展保護生物學研究非常重要,這不僅是分子水平的遺傳多樣性保護生物學中的一個中心問題,也是保護生物學的核心領(lǐng)域之一。形態(tài)特征結(jié)合分子水平綜合分析,可以更好地反映楠木資源遺傳多樣性水平的變化,探討楠木瀕危機制,提出相應(yīng)的保護建議,為楠木資源保護提供有效的技術(shù)方法和策略。
分子標記是研究生物遺傳多樣性的重要手段,包括限制性片段長度多態(tài)性(RestrictionFragmentLengthPolymorphism,RFLP)、擴增片段長度多態(tài)性(AmplifiedFragmentLengthPolymorphism,AFLP)、隨機擴增多態(tài)性DNA(RandomAmplifiedPolymorphismDNA,RAPD)、ISSR(Inter-simplesequencerepeat)、簡單重復(fù)序列(SimpleSequenceRepeats,SSR)、單核苷酸變異(SingleNucleotidePolymorphism,SNP)、Indel(Inter-SimpleSequenceRepeat)等。江香梅等[4]利用RAPD分子標記技術(shù)對8個天然閩楠群體進行遺傳多樣性分析,發(fā)現(xiàn)閩楠群體內(nèi)的變異與群體間的變異相比較高。李娟等[5]通過ISSR技術(shù)對7個樹種的35份楠木品種進行檢測,共擴增出126條多態(tài)性條帶,并說明了四川峨眉山、重慶江津的兩個楨楠群體與福建南平、廣西富川、湖北來鳳的3個閩楠群體的遺傳距離較小。丁亞軍[6-7]利用EST-SSR技術(shù)對浙江楠群體進行分析發(fā)現(xiàn)地理位置為群體遺傳距離的主要因素。利用AFLP標記技術(shù)對楨楠的白化苗與正常苗進行研究,發(fā)現(xiàn)在楨楠的正常苗和白化苗之間有兩對引物(P6和P11)存在差異[8]。第一代分子標記技術(shù)與第二、三代分子標記技術(shù)相比,檢測時間長、實驗操作繁瑣、花費較高,目前第二代(SSR)與第三代(SNP)分子標記技術(shù)被廣泛應(yīng)用于植物遺傳多樣性研究。
隨著測序技術(shù)的不斷完善和發(fā)展,使得越來越多物種的SSR及SNP位點得到標記和應(yīng)用開發(fā)。劉丹等[9]基于IlluminaHiSeq測序結(jié)果利用MISA軟件在閩楠轉(zhuǎn)錄組中找到35972個SSR位點。何暢等[10]基于油楠的轉(zhuǎn)錄組數(shù)據(jù)搜索得到SSR位點97443個。時小東等[11]基于楠木轉(zhuǎn)錄組序列進行SSR分子標記開發(fā)并分析其多態(tài)性,初步驗證了楠木中SSR位點的可行性。本研究基于實驗室獲得的楠木轉(zhuǎn)錄組數(shù)據(jù),利用MISA軟件及GATK軟件,對搜索出來的SSR、SNP、InDel位點信息進行特征分析,為進一步深入研究楠屬物種的遺傳多樣性、親緣關(guān)系與進一步開發(fā)楠木分子標記位點提供基礎(chǔ)數(shù)據(jù)。
1數(shù)據(jù)來源與分析方法
1.1數(shù)據(jù)來源
以本實驗室楠木轉(zhuǎn)錄組數(shù)據(jù)(NCBI登錄號:RJNA778346)為基礎(chǔ)數(shù)據(jù)[12]。
1.2分析方法
1.2.1SSR位點分析
參照徐志文[13]篩選轉(zhuǎn)錄組SSR位點的方法,使用MISA軟件對楠木轉(zhuǎn)錄組SSR位點進行篩選,其參數(shù)設(shè)置為單堿基核苷酸重復(fù)次數(shù)≥10,二堿基核苷酸重復(fù)次數(shù)≥6,三、四、五、六堿基核苷酸重復(fù)次數(shù)≥5。
1.2.2SNP和InDel位點分析
參照王藝儒等[14]的方法利用GATK軟件對轉(zhuǎn)錄組數(shù)據(jù)的SNP位點和InDel位點進行搜索,其篩選條件設(shè)置為:(1)映射質(zhì)量過濾器等于PASS;(2)QD(QualityDepth)gt;2;(3)MQ(MappingQuality)gt;40;(4)QUALgt;30;此外,如果覆蓋范圍小于10,在5bp之內(nèi)SNP有2個,InDel附近的SNP在5bp以內(nèi),則進一步篩選變異。
1.3數(shù)據(jù)統(tǒng)計
使用Excel數(shù)據(jù)處理軟件對搜索到的SSR位點的長度、核苷酸類型、各類型的重復(fù)次數(shù)及各類型優(yōu)勢重復(fù)的基礎(chǔ)數(shù)據(jù)信息進行統(tǒng)計分析,并依據(jù)已有的信息設(shè)計SSR引物。同時對得到的SNP及InDel位點的信息做基本的統(tǒng)計及闡述。
2結(jié)果與分析
2.1楠木轉(zhuǎn)錄組SSR位點長度統(tǒng)計分析
使用MISA軟件在60250條unigenes中搜索,在12916條unigenes中發(fā)現(xiàn)SSR位點18793個,發(fā)生頻率為21.44%,其中包含一個以上SSR的序列有3959條,復(fù)合型的SSR位點有2659個。SSR長度之間也有差異,楠木轉(zhuǎn)錄組SSR序列長度分布在10~675bp之間,發(fā)現(xiàn)隨著序列長度的增加序列之中的SSR位點逐漸減小。其中10~20bp之間有較多的SSR位點,共計10354個,約占總數(shù)的64.18%,SSR隨著序列長度的增加而逐漸減少,分布在21~30bp、31~40bp、41~50bp、gt;50bp的分別有2575、879、459、1867個SSR位點,約占總數(shù)的15.96%、5.45%、2.85%、11.56%(圖1)。
2.2楠木轉(zhuǎn)錄組SSR位點核苷酸類型分析
對楠木轉(zhuǎn)錄組的SSR位點的不同核苷酸類型進行分析,發(fā)現(xiàn)楠木轉(zhuǎn)錄組數(shù)據(jù)中單核苷酸重復(fù)序列共出現(xiàn)9154次(48.71%),是在所有核苷酸重復(fù)序列中出現(xiàn)最多的。其次是二堿基核苷酸重復(fù)與三堿基核苷酸重復(fù)序列,分別出現(xiàn)5777次(30.74%)和3555次(18.92%)。五核苷酸重復(fù)及六核苷酸重復(fù)序列占總數(shù)的比例較低為0.27%(圖2)。
2.3楠木轉(zhuǎn)錄組SSR位點各類型重復(fù)次數(shù)分析
由圖3可知,SSR位點數(shù)量隨著重復(fù)次數(shù)的增加逐漸減少,其中單核苷酸比其他類型核苷酸的下降速度快,其余核苷酸SSR數(shù)量隨著重復(fù)次數(shù)的增加也呈現(xiàn)下降的趨勢,但其下降速度較為平緩。且單核苷酸的重復(fù)次數(shù)主要集中于10~11之間,二核苷酸的重復(fù)次數(shù)集中于6~8之間,三核苷酸的重復(fù)次數(shù)集中于5~6之間,四、五、六核苷酸的重復(fù)次數(shù)主要集中在5次。
2.4楠木轉(zhuǎn)錄組SSR位點各類型優(yōu)勢重復(fù)分析
對搜索得到的SSR位點進行分析發(fā)現(xiàn),SSR位點的堿基重復(fù)基元同樣存在差異。SSR位點堿基重復(fù)基元有93種,其中單堿基核苷酸重復(fù)基元2種、二堿基核苷酸重復(fù)基元4種、三堿基核苷酸重復(fù)基元10種、四堿基核苷酸重復(fù)基元23種、五堿基核苷酸重復(fù)基元21種和六堿基核苷酸重復(fù)基元33種。單堿基重復(fù)基元為優(yōu)勢重復(fù)類型共有9154個(48.71%),出現(xiàn)頻率最多的重復(fù)類型是A/T(98.97%)。二堿基重復(fù)類型共有5777個,出現(xiàn)頻率為30.74%,優(yōu)勢重復(fù)類型為AG/CT(77.39%)。三堿基重復(fù)類型共有3555個,出現(xiàn)頻率為18.92%,優(yōu)勢重復(fù)類型為AAG/CTT(43.66%)。四堿基重復(fù)類型共有205個,出現(xiàn)頻率為1.09%,優(yōu)勢重復(fù)類型為AAAG/CTTT(29.27%)。五堿基重復(fù)類型共有51個,出現(xiàn)頻率為0.27%,優(yōu)勢重復(fù)類型為AAGAG/CTCTT(23.52%)。六堿基重復(fù)類型有51,出現(xiàn)頻率為0.27%,優(yōu)勢重復(fù)類型為AAGGAG/CTTCT(11.76%)和AGAGGG/CCCTCT(11.76%)(表1)。
2.5楠木轉(zhuǎn)錄組SSR引物設(shè)計
由于SSR在基因組中的位置不同,但其兩端的序列大多是保守的單拷貝序列,所以SSR引物的設(shè)計可以根據(jù)SSR兩端的互補序列進行[15]。使用軟件Primer3進行SSR引物設(shè)計[16]。去除有多處比對的引物,共得到引物9742條。依照單堿基重復(fù)的SSR位點設(shè)計得到的引物有4181條占所有引物的42.92%,其次是二堿基重復(fù)(2328條,23.90%)與三堿基重復(fù)(1998條,20.51%)。所得到的引物Tm值及GC含量均符合試驗要求[17],為后續(xù)的試驗提供便利。部分引物結(jié)果如表2所示。為驗證引物的通用性,使用楠木cDNA擴增,部分結(jié)果如圖4所示。
2.6楠木轉(zhuǎn)錄組SNP和InDel位點特征分析
利用GATK軟件對楠木轉(zhuǎn)錄組數(shù)據(jù)庫SNP位點搜索分析發(fā)現(xiàn),60250個unigene中存在有1566350個SNP位點,平均每28bp就有SNP位點的出現(xiàn)。在已得到的SNP位點中存在轉(zhuǎn)換(transitions)位點有990457個,顛換(transversions)位點有575893個。其中6種單核苷酸發(fā)生變化的主要以C∶Ggt;T∶A為主,共有504697個,發(fā)生頻率為32.22%。其次為T∶Agt;C∶G共有485760個,發(fā)生頻率為31.01%(表3)。由表4可以看出SNP位點主要以轉(zhuǎn)換為主。
使用GATK軟件對InDel位點進行搜索,在楠木轉(zhuǎn)錄組數(shù)據(jù)中共篩選到178227個InDel位點,平均每249bp有一個InDel位點存在,同時與SNP位點相比InDel位點變異較少。將外顯子區(qū)和所有范圍的InDel長度進行統(tǒng)計發(fā)現(xiàn)(圖5),外顯子和所有范圍內(nèi)的InDel位點長度在-1與1的范圍內(nèi)的數(shù)量是最多的。
3結(jié)論與討論
近年來,由于分子標記技術(shù)不斷發(fā)展,基于轉(zhuǎn)錄組測序技術(shù)分析篩選SSR、SNP、InDel等分子標記位點在杜仲[18]、擬南芥[19]、茶[20]等植物中被廣泛應(yīng)用,主要應(yīng)用于物種的親緣關(guān)系鑒定、種群關(guān)系分析等方面。
楠木的轉(zhuǎn)錄組具有豐富的SSR位點,對于楠屬親緣關(guān)系的鑒定及物種的遺傳多樣性研究具有重要的作用。本研究基于楠木轉(zhuǎn)錄組數(shù)據(jù),在60250條unigene上共篩選出18793個SSR位點,發(fā)生頻率為21.44%,平均每2.4kb出現(xiàn)一個SSR位點,與時小東[11]對于轉(zhuǎn)錄組序列的楠木SSR分子標記開發(fā)的結(jié)果較一致。SSR位點以單堿基核苷酸、二堿基核苷酸和三堿基核苷酸為優(yōu)勢重復(fù)類型,其SSR位點數(shù)量為9154(48.71%)、5777(30.74%)、3555(18.92%),其優(yōu)勢重復(fù)基元分別為A/T、AG/CT和AAG/CTT。同時還發(fā)現(xiàn)了在其他高等植物中較少出現(xiàn)的CG/CG(875次重復(fù))重復(fù)基元。
研究發(fā)現(xiàn),SSR中重復(fù)單元的數(shù)量存在較大的變異,表現(xiàn)為SSR數(shù)量的整數(shù)變異,或者重復(fù)單元序列中的序列可能不完全相同,從而導(dǎo)致多個位點的多態(tài)性[21]。如能揭示這些變異,我們可以發(fā)現(xiàn)不同個體間SSR的多態(tài)性,從而進一步了解種間進化的過程[22]。多態(tài)性是SSR的一個重要衡量標準[23]。SSR重復(fù)基元的重復(fù)次數(shù)與序列長度是影響SSR位點多態(tài)性的重要因素[24]。本研究中楠木的SSR位點長度主要分布在10~20bp,共有10354個(64.18%),其中單堿基和二堿基核苷酸重復(fù)次數(shù)占比較多。≥20bp的SSR位點有5780個,占比35.82%,此類SSR位點存在較多的多態(tài)性,對于后續(xù)楠木相關(guān)研究具有較大的作用。
本研究利用GATK軟件共搜索到SNP位點1566350個,平均而言,每28bp就有一個SNP位點,其中轉(zhuǎn)換位點990457個,顛換位點有575893,二者的比值為1.7,與理論值0.5相比稍大,此類現(xiàn)象被稱為轉(zhuǎn)換偏差,這與堿基組成和進化過程中的選擇機制有關(guān),說明堿基的轉(zhuǎn)換突變可能不是隨機產(chǎn)生的[25]。同時還檢測到InDel位點78227個,平均每249bp就存在一個InDel位點,與SNP位點相比InDel位點變異相對較少。
綜上所述,實驗室構(gòu)建的楠木轉(zhuǎn)錄組中含有較多SSR、SNP、InDel位點,具有較高的多態(tài)性,為后續(xù)對貴州楠木資源遺傳多樣性、遺傳育種、種間親緣關(guān)系的鑒定等方面的研究提供了基礎(chǔ)數(shù)據(jù)。
(責任編輯:段麗麗)
參考文獻:
[1]陳桂瓊.淺談楠木育苗與造林技術(shù)應(yīng)用[J].農(nóng)業(yè)與技術(shù),2018,38(17):66-67.
[2]潘穎瑛,歐陽先恒,王曉麗,等.珍稀植物楠木的地理分布及潛在分布區(qū)的預(yù)測[J].浙江林業(yè)科技,2021,41(2):35-40.
[3]賈賢,黃秋生,劉光華,等.我國楠木資源的研究現(xiàn)狀[J].中國園藝文摘,2014,30(10):55-59.
[4]江香梅,溫強,葉金山,等.閩楠天然種群遺傳多樣性的RAPD分析[J].生態(tài)學報,2009,29(1):438-444.
[5]李娟,董利軍,林建勇,等.楠木樹種種質(zhì)資源的ISSR分析[J].分子植物育種,2018,16(19):6428-6435.
[6]丁亞軍.浙江楠EST-SSR標記開發(fā)及天然種群遺傳多樣性研究[D].杭州:浙江農(nóng)林大學,2014.
[7]張煒,龍漢利,賈廷彬,等.楨楠DNA提取和RAPD條件的優(yōu)化[J].四川林業(yè)科技,2011,32(4):55-57,62.
[8]張煒,陳忠,龍漢利,等.基于AFLP技術(shù)對楨楠實生白化苗與正常苗的比較研究[J].四川林業(yè)科技,2014,35(4):9-12.
[9]劉丹.閩楠種質(zhì)資源遺傳多樣性的SSR分析[D].福州:福建農(nóng)林大學,2019.
[10]何暢,楊錦昌,余紐,等.基于油楠(Sindoraglabra)轉(zhuǎn)錄組測序的SSR分子標記的開發(fā)[J].分子植物育種,2020,18(7):2280-2289.
[11]時小東,朱學慧,盛玉珍,等.基于轉(zhuǎn)錄組序列的楠木SSR分子標記開發(fā)[J].林業(yè)科學,2016,52(11):71-78.
[12]XieN,LiB,YuJing,etal.TranscriptomicandproteomicanalysesuncoverthedroughtadaptionlandscapeofPhoebezhennan[J].BMCPlantBiology,2022,22(1):95.
[13]徐志文,任雪敏,王俊,等.椰子織蛾轉(zhuǎn)錄組分析[J].西南林業(yè)大學學報(自然科學),2018,38(5):38-45.
[14]王藝儒,索玉靜,傅建敏.小果甜柿果實轉(zhuǎn)錄組的SSR、SNP和InDel特征分析[J].西北農(nóng)林科技大學學報(自然科學版),2022,50(7):2-9.
[15]范勇.大豆疫霉菌群體遺傳結(jié)構(gòu)研究[D].福州:福建師范大學,2009.
[16]UntergasserA,CutcutacheI,KoressaarT,etal.Primer3--newcapabilitiesandinterfaces[J].NucleicAcidsResearch,2012,40(15):115.
[17]張新宇,高燕寧.PCR引物設(shè)計及軟件使用技巧[J].生物信息學,2004,1(4):15-18,46.
[18]黃海燕,杜紅巖,烏云塔娜,等.基于杜仲轉(zhuǎn)錄組序列的SSR分子標記的開發(fā)[J].林業(yè)科學,2013,49(5):176-181.
[19]楊明康,陳楚敏,張會,等.西藏擬南芥InDel分子標記開發(fā)與株高調(diào)控基因初步定位[J].分子植物育種,2021,1-15.
[20]成楊.江華苦茶親緣關(guān)系與遺傳多樣性研究[D].長沙:湖南農(nóng)業(yè)大學,2018.
[21]王忠華,董西征,錢國英.DNA分子標記技術(shù)在水生動物遺傳多樣性研究中的應(yīng)用[J].科技通報,2008,24(5):623-630.
[22]王冬梅.甘藍類作物親緣關(guān)系的SSR分析[D].北京:中國農(nóng)業(yè)科學院,2011.
[23]林琿,李永平,薛珠政,等.花椰菜轉(zhuǎn)錄組SSR位點分析及其分子標記開發(fā)[J].西北農(nóng)林科技大學學報(自然科學版),2019,47(3):85-93.
[24]MegléczE,NèveG,BiffinE,etal.Breakdownofphylogeneticsignal:asurveyofmicrosatellitedensitiesin454shotgunsequencesfrom154nonmodeleukaryotespecies[J].PLoSONE,2012,8(12):87-89.
[25]ZhaoHui,LiQizhai,LiJun,etal.Thestudyofneighboringnucleotidecompositionandtransition/transversionbias[J].ScienceinChina(SeriesC:LifeSciences),2006,49(4):395-402.