李 彥 更吉卓瑪 賈留坤 王智華 陳世龍 高慶波
(1.中國(guó)科學(xué)院高山植物適應(yīng)與進(jìn)化重點(diǎn)實(shí)驗(yàn)室,中國(guó)科學(xué)院西北高原生物研究所,西寧 810001; 2.中國(guó)科學(xué)院大學(xué),北京 100039; 3.青海省作物分子育種重點(diǎn)實(shí)驗(yàn)室,中國(guó)科學(xué)院西北高原生物研究所,西寧 810001)
青藏高原復(fù)雜的地理拓?fù)浣Y(jié)構(gòu)、特殊的自然環(huán)境以及豐富獨(dú)特的生物資源,使其成為全球25個(gè)生物多樣性重點(diǎn)保護(hù)地區(qū)之一[1]。研究表明,第四紀(jì)冰期與間冰期反復(fù)交替所引起的氣候波動(dòng)嚴(yán)重影響了該地區(qū)現(xiàn)有生物類群的地理分布和遺傳結(jié)構(gòu)[2~3]。山地虎耳草(SaxifragasinomontanaJ.T.Pan & Gornall)為虎耳草科(Saxifragaceae)虎耳草屬(SaxifragaL.)多年生草本植物,在我國(guó)主要分布于青海、甘肅、四川、云南及西藏等地,其生境多為海拔2 700~5 300 m的高山草甸、灌叢和石隙[4],是青藏高原高寒草甸的重要組成部分,對(duì)維護(hù)該地區(qū)的生態(tài)平衡發(fā)揮著重要的作用。此外,山地虎耳草還具有藥用價(jià)值,其花入藥,可治頭痛、神經(jīng)痛等。隨著分子生物學(xué)技術(shù)和分析方法的發(fā)展,DNA分子標(biāo)記已廣泛應(yīng)用于虎耳草屬植物的系統(tǒng)發(fā)育學(xué)和譜系地理學(xué)研究[5~11],以揭示北極和高山地區(qū)植物的分化模式。研究表明,山地虎耳草是虎耳草屬山羊臭組(Saxifragasubsect.CiliataeHaw.)中較為年輕的一個(gè)物種,其居群分化歷史小于5百萬(wàn)年甚至更短[6],可能具有更復(fù)雜的遺傳結(jié)構(gòu)和第四紀(jì)冰期進(jìn)化歷史。
簡(jiǎn)單重復(fù)序列(simple sequence repeats,SSR)或微衛(wèi)星(microsatellite)是一類由幾個(gè)核苷酸(2~6個(gè))為重復(fù)單位組成的長(zhǎng)達(dá)幾十個(gè)核苷酸的重復(fù)序列,廣泛分布于真核生物基因組中,并利用重復(fù)序列的重復(fù)次數(shù)在同一物種不同基因型間的差異來(lái)揭示物種的長(zhǎng)度多態(tài)性[12~14]。微衛(wèi)星作為一種共顯性表達(dá)分子標(biāo)記,具有數(shù)量多,長(zhǎng)度短,分布廣且均勻,多態(tài)性高,易于檢測(cè)等優(yōu)點(diǎn),廣泛應(yīng)用于動(dòng)植物遺傳多樣性分析,系統(tǒng)發(fā)育,遺傳圖譜構(gòu)建及分子育種研究等[15~17]。近年來(lái),基于高通量測(cè)序?qū)η嗖馗咴貐^(qū)高山植物的遺傳多樣性研究也越來(lái)越多,例如唐古特紅景天[18]、藍(lán)玉簪龍膽[19]和西川紅景天[20]等,但是關(guān)于虎耳草屬植物還鮮有報(bào)道。
本研究基于山地虎耳草的高通量測(cè)序結(jié)果,利用MISA(MicroSatellite)軟件搜索該物種的SSR位點(diǎn),通過(guò)分析其微衛(wèi)星重復(fù)序列特征,為山地虎耳草SSR標(biāo)記的開發(fā)和遺傳多樣性檢測(cè)提供理論依據(jù)。
山地虎耳草(S.sinomontana)采集于青海省玉樹藏族自治州玉樹縣小蘇莽鄉(xiāng)(32°34′20.7″N,97°12′41.6″E,4 880 m)。將野外采集的活體材料置于室內(nèi)種植68天,再采取同一叢植株上的葉片,放入冷凍管中,用液氮處理約15秒后放入-80℃冰箱保存。憑證標(biāo)本保存于中國(guó)科學(xué)院西北高原生物研究所青藏高原生物標(biāo)本館(HNWP)。
1.2.1 樣品檢測(cè)、文庫(kù)構(gòu)建與測(cè)序
從山地虎耳草的葉片材料中提取100 μg總RNA,用瓊脂糖凝膠電泳分析RNA的降解程度以及是否有污染,用Nanodrop初步檢測(cè)RNA的純度,最后分別選擇Qubit和Agilent 2100來(lái)精確定量RNA濃度并檢測(cè)其完整性。
樣品檢測(cè)合格后,用帶有Oligo(dT)的磁珠富集山地虎耳草的mRNA。之后加入fragmentation buffer將mRNA打斷成短片段,以mRNA為模板,用六堿基隨機(jī)引物(random hexamers)合成第一鏈cDNA,然后加入緩沖液、dNTPs、DNA polymeraseⅠ及RNase H合成雙鏈cDNA,再用AMPure XP beads純化雙鏈cDNA。純化的雙鏈cDNA先進(jìn)行末端修復(fù),加A尾并連接測(cè)序接頭,再用AMPure XP beads對(duì)其片段大小進(jìn)行選擇。最后進(jìn)行PCR擴(kuò)增,并用AMPure XP beads純化PCR產(chǎn)物,得到最終的文庫(kù)。文庫(kù)構(gòu)建完成后,先使用Qubit 2.0進(jìn)行初步定量,稀釋文庫(kù)至1.5 ng·μL-1,隨后使用Agilent 2100對(duì)文庫(kù)的insert size進(jìn)行檢測(cè),insert size符合預(yù)期后,使用Q-PCR方法對(duì)文庫(kù)的有效濃度進(jìn)行準(zhǔn)確定量(文庫(kù)有效濃度>2 nmol·L-1),以保證文庫(kù)質(zhì)量。
庫(kù)檢合格后,把不同文庫(kù)按照有效濃度及目標(biāo)下機(jī)數(shù)據(jù)量的需求混池后用Illumina HiSeqTM2000進(jìn)行測(cè)序。
1.2.2 質(zhì)量評(píng)估與拼接
對(duì)所得的數(shù)據(jù)進(jìn)行質(zhì)量評(píng)估,包括測(cè)序錯(cuò)誤率分布檢查;A/T/G/C含量分布檢查;對(duì)測(cè)得的原始讀序(Raw reads)進(jìn)行過(guò)濾:去除帶接頭(adapter)的和N比例大于10%的reads,去除低質(zhì)量的reads,得到干凈的讀序(Clean reads)后,再用Trinity(版本:v2012-10-05;參數(shù)設(shè)置:min_kmer_cov為2,其它參數(shù)為默認(rèn)參數(shù))[21]對(duì)得到的Clean reads進(jìn)行拼接,并取每條基因中最長(zhǎng)的轉(zhuǎn)錄本作為Unigene,以此進(jìn)行后續(xù)分析。
1.2.3 SSR的篩選和統(tǒng)計(jì)分析
以組裝出來(lái)的Unigene作為參考序列,使用MicroSatellite(MISA;版本:1.0;默認(rèn)參數(shù);http://pgrc.ipk-gatersleben.de/misa/)對(duì)Unigene進(jìn)行SSR檢測(cè)、篩選和分析。檢索標(biāo)準(zhǔn)同時(shí)包括精確型(perfect)及復(fù)合型(compound)SSR重復(fù)單元[22],各重復(fù)微衛(wèi)星類型重復(fù)次數(shù)設(shè)定如下:兩堿基(di-nucleotide repeats,DNRs)至少重復(fù)6次,三堿基(tri-nucleotide repeats,TNRs)至少重復(fù)5次,四堿基(tetra-nucleotide repeats,TTNRs)至少重復(fù)5次,五堿基(penta-nucleotide repeats,PTNRs)至少重復(fù)5次,六堿基(hexa-nucleotide repeats,HXNRs)至少重復(fù)5次。并利用Excel(版本:Microsoft office 2016;默認(rèn)參數(shù))軟件對(duì)SSR的類型、數(shù)量及發(fā)生頻率等進(jìn)行統(tǒng)計(jì)分析。
對(duì)于RNA-seq技術(shù),其測(cè)序錯(cuò)誤率會(huì)隨著測(cè)序序列長(zhǎng)度的增加而升高[23~24],且單個(gè)堿基位置的測(cè)序錯(cuò)誤率一般低于1%。山地虎耳草高通量測(cè)序獲得94 855 756個(gè)Raw reads,過(guò)濾后獲得90 311 228個(gè)Clean reads,占Raw reads的95.21%,單堿基錯(cuò)誤率為0.035%,Q30值為88.98%,堿基G和C的數(shù)量總和占總堿基的42.39%。
對(duì)山地虎耳草的Raw reads進(jìn)行處理后,用Trinity軟件對(duì)所得的Clean reads進(jìn)行組裝,最終獲得176 110個(gè)Transcripts和63 763個(gè)Unigene,并對(duì)二者的長(zhǎng)度進(jìn)行統(tǒng)計(jì)(圖1),其中在拼接得到的Transcripts中N50為1 708,N90為465;在拼接得到的Unigene中N50為1 295,N90為276,其總的核苷酸數(shù)分別為189 919 691個(gè)、46 218 250個(gè)。
圖1 拼接后的Transcript與Unigene長(zhǎng)度分布圖Fig.1 The length distribution of Transcript and Unigene after assemblage
采用MISA對(duì)Unigene進(jìn)行SSR檢測(cè),共檢出含有SSR的序列為7 700條,發(fā)生頻率為12.08%,其中6 454條序列含有單個(gè)SSR,1 246條序列含有1個(gè)以上的SSR。此外,共檢測(cè)出4 622個(gè)SSR,包括4 098個(gè)完全型SSR和524個(gè)復(fù)合型SSR,其發(fā)生頻率為7.25%(檢測(cè)出的SSR數(shù)量與總序列數(shù)目的比值)。從分布情況來(lái)看,山地虎耳草轉(zhuǎn)錄組序列中平均每10.00 kB出現(xiàn)一個(gè)SSR。
對(duì)SSR類型進(jìn)行統(tǒng)計(jì)發(fā)現(xiàn),二至六核苷酸重復(fù)類型均有出現(xiàn),其種類較為豐富,但各類型出現(xiàn)的頻率和分布的平均距離相差較大。其中三核苷酸重復(fù)類型的SSR含量最多,占總SSR的55.50%;其次為二核苷酸重復(fù)類型,所占比例為30.23%;其他類型(四核苷酸、五核苷酸、六核苷酸和復(fù)合核苷酸重復(fù))所占比例較小,分別為2.25%、0.41%、0.28%和11.34%,總計(jì)14.28%。從分布情況來(lái)看,不同重復(fù)基元SSR分布的平均距離差別較大,其中三核苷酸重復(fù)最多,出現(xiàn)頻率為4.02%,每條SSR分布的平均距離為18.02 kB,六核苷酸重復(fù)最少,出現(xiàn)頻率為0.02%,平均距離為3 355.25 kB(表1)。
表1山地虎耳草SSR序列的出現(xiàn)頻率
Table1FrequencyofSSRsequencesofS.sinomontana
重復(fù)基元類型Repeat type數(shù)量Number比例Proportion(%)頻率Frequency(%)平均距離Average distance(kB)二核苷酸Di-nucleotide139730.232.1933.08三核苷酸Tri-nucleotide256555.504.0218.02四核苷酸Tetra-nucleotide1042.250.16444.41五核苷酸Penta-nucleotide190.410.032432.54六核苷酸Hexa-nucleotide130.280.023355.25復(fù)合Compound52411.340.8288.20合計(jì)Total46221007.2510.00
注:比例.各核苷酸SSR在總SSR中所占比例;頻率.含有SSR的序列數(shù)目與總序列數(shù)目的比值;平均分布距離.序列總長(zhǎng)度與SSR數(shù)目之比值 下同。
Note:Proportion. Proportion in all SSRs; Frequency. The percentage of SSR number in all sequences; Average distance. Ratio of total sequence length and SSR number The same as below.
在山地虎耳草轉(zhuǎn)錄組4 098個(gè)完全型SSR中共發(fā)現(xiàn)了110種重復(fù)基元, 其中二核苷酸、三核苷酸、四核苷酸、五核苷酸和六核苷酸重復(fù)基元分別有6、30、42、19和13種,占總SSR的比例范圍為0.02%~11.27%。
表2 山地虎耳草轉(zhuǎn)錄組中不同SSR序列的出現(xiàn)情況
在二核苷酸重復(fù)基元中,AG/TC(521個(gè))出現(xiàn)次數(shù)最多,為二堿基的優(yōu)勢(shì)重復(fù)單元,占二核苷酸重復(fù)基元SSR總數(shù)的37.29%,其次為AT/TA(346個(gè),占24.77%)、CT/GA(292個(gè),占20.90%)、AC/TG(131個(gè),占9.38%)、CA/GT(101個(gè),占7.23%),CG/GC(6個(gè),0.43%)。其中,AG/TC也是所有2~6核苷酸重復(fù)基元中數(shù)量最多的SSR,占總SSR的11.27%。三核苷酸重復(fù)基元中,AAG/TTC(233個(gè))出現(xiàn)頻率最高,占三核苷酸重復(fù)基元的9.08%,即三堿基的優(yōu)勢(shì)重復(fù)基元,其次為CTT/GAA(202個(gè),占7.88%)、AAC/TTG(180個(gè),占7.02%)、AGA/TCT(164個(gè),占6.39%)。四核苷酸重復(fù)類型中,AAGA/TTCT(8個(gè))出現(xiàn)頻率最高為7.69%,其次是AGAA/TCTT和CAAA/GTTT,二者均為6個(gè),出現(xiàn)頻率均為5.77%,AACA/TTGT(5個(gè),占4.81%),其他類型出現(xiàn)頻率較低。五核苷酸和六核苷酸中各重復(fù)基元的個(gè)數(shù)均為1,出現(xiàn)頻率普遍偏低,分別占相應(yīng)重復(fù)類型的5.26%、7.69%(表2)。
在SSR中,基元重復(fù)次數(shù)差異而引起的位點(diǎn)長(zhǎng)度變化是產(chǎn)生SSRs位點(diǎn)多態(tài)性的主要原因[25~26]。通過(guò)對(duì)山地虎耳草4 098個(gè)完全型SSR進(jìn)行分類統(tǒng)計(jì),發(fā)現(xiàn)隨著重復(fù)次數(shù)的增加,SSR數(shù)量逐漸減少。且山地虎耳草SSR重復(fù)次數(shù)大部分分布在5~10次的較低重復(fù)次數(shù)基元中,共4 036個(gè)SSRs,占總SSR的98.49%,是山地虎耳草SSR的重要重復(fù)部分;11次、12次和14次為一般重復(fù)次數(shù)基元,分布有61個(gè)SSRs,占總SSR的1.49%;20次以上為較高重復(fù)次數(shù)基元,本研究中只出現(xiàn)了50次的重復(fù),且僅含1個(gè)SSR。在5~11次重復(fù)中,發(fā)現(xiàn)重復(fù)基元以5次出現(xiàn)的頻率最高,有1 640個(gè),占總SSR的40.02%。其次為6~8次重復(fù),分別占總SSR數(shù)量的31.67%、16.42%、5.76%(圖2)。
圖2 山地虎耳草轉(zhuǎn)錄組SSR重復(fù)次數(shù)分布Fig.2 The distribution of repeat number of SSR in transcriptome of S.sinomontana
據(jù)統(tǒng)計(jì),二核苷酸基元重復(fù)次數(shù)類型最多,有8種,其分布為6~12次和50次,共1 397個(gè),其中6~9次重復(fù)為主要類型,共1 258個(gè),占二核苷酸基元的90.05%;三核苷酸基元重復(fù)次數(shù)類型次之,有5種,其分布為5~8次和14次,共2 565個(gè),以5~7次重復(fù)為主要類型,共2 536個(gè),占三核苷酸基元的98.87%;四、五、六核苷酸基元的重復(fù)次數(shù)分布分別是5~9、5~7和5~9次,其中5次重復(fù)最多。在這五種核苷酸基元中,隨著重復(fù)次數(shù)的增加,SSR數(shù)量所占比例都有逐漸減少的趨勢(shì)(圖3)。
圖3 山地虎耳草轉(zhuǎn)錄組SSR不同重復(fù)類型的重復(fù)次數(shù)分布Fig.3 The distribution of repeat number of SSR for different repeat types in transcriptome of S.sinomontana
在所有堿基中二核苷酸重復(fù)基元的重復(fù)次數(shù)類型多,跨度大,其中AG/TC跨度最大,重復(fù)次數(shù)類型為8種,其次是AT/TA和CT/GA,重復(fù)次數(shù)類型均為7種,AC/TG和CA/GT為6種,而CG/GC重復(fù)次數(shù)類型最少,僅有2種;三核苷酸重復(fù)基元的重復(fù)次數(shù)類型和跨度次之,其中ATT/TAA跨度最大,重復(fù)次數(shù)類型為5種,其余有15種重復(fù)基元均出現(xiàn)了4種重復(fù)次數(shù)類型,占三核苷酸總重復(fù)基元的50%;四核苷酸重復(fù)基元中僅有14種重復(fù)基元出現(xiàn)了兩種重復(fù)次數(shù)類型,占四核苷酸總重復(fù)基元的33.33%,其余的重復(fù)基元僅有1種重復(fù)次數(shù)類型;在五核苷酸和六核苷酸重復(fù)基元中,均只有1種重復(fù)次數(shù)類型出現(xiàn)。
山地虎耳草EST-SSR基元長(zhǎng)度區(qū)間為12~100 bp,其中最大的片段長(zhǎng)度為二核苷酸重復(fù)50次(100 bp)的SSR。從整體來(lái)看,其分布范圍較為集中,主要在12~30 bp(4 090個(gè),占99.80%),大于30 bp的SSR數(shù)量較少(8個(gè),占0.20%)。在所有SSR中,最多的為15 bp長(zhǎng)度的SSR(1 529個(gè),占37.31%),并且均為5次重復(fù)的三核苷酸基元,其次為18、12、21 bp的基元長(zhǎng)度,分布情況分別為760個(gè)(18.55%)、627個(gè)(15.30%)、355個(gè)(8.66%)(圖4)。
圖4 山地虎耳草轉(zhuǎn)錄組SSR基元長(zhǎng)度分布Fig.4 SSR motif length distribution in transcriptome of S.sinomontana
表4山地虎耳草轉(zhuǎn)錄組SSR不同重復(fù)類型的基元長(zhǎng)度分布
Table4ThedistributionofmotiflengthofSSRfordifferentrepeattypesintranscriptomeofS.sinomontana
重復(fù)類型Repeat type長(zhǎng)度Length(bp)SSR數(shù)量Number of SSRsSSR所占百分比Percent of total SSR(%)二核苷酸Di-nucleotide1262744.881431522.551620814.89181087.7320785.5822533.792470.5010010.07三核苷酸Tri-nucleotide15152959.611865225.422135513.8424281.094210.04四核苷酸Tetra-nucleotide208581.73241716.352810.963610.96五核苷酸Penta-nucleotide251789.473015.263515.26六核苷酸Hexa-nucleotide30969.233617.694217.6954215.38
研究發(fā)現(xiàn),當(dāng)SSR基序長(zhǎng)度大于等于20 bp時(shí)其多態(tài)性較高,長(zhǎng)度在12~20 bp時(shí)多態(tài)性中等,而長(zhǎng)度在12 bp以下時(shí)多態(tài)性極低[27]。本研究篩選得到的山地虎耳草轉(zhuǎn)錄組SSR的長(zhǎng)度均大于等于12 bp,其中12~19 bp的SSR有3 439個(gè)(83.92%),這些SSR具有中等多態(tài)性;而大于等于20 bp的SSR有659個(gè)(16.08%),這些SSR具有較高的多態(tài)性,所以推測(cè)本研究中山地虎耳草轉(zhuǎn)錄組SSR的多態(tài)性均在中等以上。此外,研究發(fā)現(xiàn)高級(jí)基元SSR的多態(tài)性普遍比低級(jí)基元的低[28]。本研究中二核苷酸和三核苷酸基元占總SSR的96.68%,在長(zhǎng)度大于等于20 bp的SSR中,包含低級(jí)基元二核苷酸、三核苷酸共523條,占長(zhǎng)度大于等于20 bp的所有SSR的79.36%,表明大部分山地虎耳草轉(zhuǎn)錄組SSR具有高多態(tài)性潛能(表4)。
本研究從山地虎耳草轉(zhuǎn)錄組63 763個(gè)Unigene中檢測(cè)出了4 622個(gè)SSR,平均分布距離為1/10.00 kB,與其他檢索二至六核苷酸重復(fù)基元SSR(即不包含單核苷酸的SSR)的植物相比,山地虎耳草轉(zhuǎn)錄組SSR的平均分布距離明顯高于冷蒿(1/18.46 kB)[29]、地黃(1/23.08 kB)[30]、杜仲(1/26.13 kB)[31]和馬鈴薯(1/40.06 kB)[32]等,與藍(lán)玉簪龍膽(1/9.97 kB)[19]、菊花(1/10.64 kB)[33]相差較小,但低于唐古特紅景天(1/8.52 kB)[18]、紅白忍冬(1/7.49 kB)[34]和刺梨(1/1.68 kB)[35]。由此表明,山地虎耳草轉(zhuǎn)錄組中SSR的數(shù)量比較豐富。此外,山地虎耳草轉(zhuǎn)錄組中SSR出現(xiàn)頻率為7.25%,與唐古特紅景天(7.1%)[18]的出現(xiàn)頻率較為接近,高于冷蒿(2.61%)[29]和藍(lán)玉簪龍膽(6.12%)[19]。出現(xiàn)這種差異可能與物種選擇、組裝方法、篩選軟件、SSR搜索的標(biāo)準(zhǔn)(如SSR重復(fù)基元的類型、重復(fù)次數(shù)和長(zhǎng)度等)及分析方法有關(guān)。
研究表明,大多數(shù)植物的SSR主要重復(fù)基元類型是二核苷酸和三核苷酸,但是主導(dǎo)重復(fù)基元的類型有所不同[36~37]。本研究發(fā)現(xiàn),山地虎耳草轉(zhuǎn)錄組SSR的優(yōu)勢(shì)基元是三核苷酸重復(fù),占總SSR的55.50%,其次為二核苷酸重復(fù),占總SSR的30.23%,這與冷蒿[29]、唐古特紅景天[18]、藍(lán)玉簪龍膽[19]等植物的優(yōu)勢(shì)基元結(jié)果相一致。但在杜仲[31]、紅白忍冬[34]和芝麻[38]等植物中二核苷酸重復(fù)占主導(dǎo)地位,在川西獐牙菜[36]、燈盞花[37]和半夏[39]等植物中二核苷酸和三核苷酸重復(fù)共同為主導(dǎo)類型。以上這種主導(dǎo)重復(fù)基元的差別可能與物種的差異有關(guān)。有研究表明三核苷酸、六核苷酸SSR重復(fù)基序的突變情況,可能是一種有利于植物進(jìn)化的突變[40],在山地虎耳草中以三核苷酸SSR為主體的分布可能是自然選擇的結(jié)果。此外,有研究指出轉(zhuǎn)錄區(qū)的三核苷酸基序?qū)ψ匀贿x擇機(jī)制表現(xiàn)出積極選擇作用,在編碼區(qū)由于受到重大突變壓力的影響而存在豐富的核苷酸重復(fù)基序[40~43]。即當(dāng)植物表現(xiàn)出某些抗逆性時(shí)三核苷酸重復(fù)分布較為豐富。我們推測(cè),隨著第四紀(jì)冰期氣候的反復(fù)波動(dòng),該物種產(chǎn)生了相應(yīng)的抵御與適應(yīng)機(jī)制,并形成了豐富特殊的三核苷酸重復(fù)結(jié)構(gòu)。
被子植物和蕨類植物主要以AG/CT為二核苷酸的優(yōu)勢(shì)基元,而裸子植物以AT/AT為優(yōu)勢(shì)基元;雙子葉植物、蕨類植物和少數(shù)單子葉植物以AAG/CTT為三核苷酸的優(yōu)勢(shì)基元[29]。在山地虎耳草的SSR中,二核苷酸重復(fù)基元以AG/TC(521,37.29%)為優(yōu)勢(shì)重復(fù)類型,三核苷酸重復(fù)基元中以AAG/TTC(233,9.08%)為優(yōu)勢(shì)重復(fù)類型,這與地黃[30]、馬鈴薯[32]、刺梨[35]等研究結(jié)果相類似。范三紅[44]等認(rèn)為這種占優(yōu)勢(shì)的重復(fù)基元可能與其編碼相應(yīng)蛋白質(zhì)的使用頻率較高有關(guān)。
GC含量作為堿基序列的重要特征之一,反映了基因的結(jié)構(gòu)、功能和進(jìn)化信息,GC分布不均會(huì)導(dǎo)致基因不同,GC含量序列不同其性質(zhì)和功能也有差異[45],而且在大多數(shù)植物中GC重復(fù)基元很少出現(xiàn),例如在唐古特紅景天[18]和紅白忍冬[34]等植物中均未發(fā)現(xiàn)該重復(fù)基元,但在山地虎耳草轉(zhuǎn)錄組SSR中檢測(cè)到了6個(gè)GC重復(fù)基元,這種現(xiàn)象在大豆[14]、刺梨[35]、川西獐牙菜[36]中也均有出現(xiàn)。此外,多個(gè)研究指出GC重復(fù)基元可能與某特定的功能相關(guān),SSR序列中GC含量的增加會(huì)使某些氨基酸序列的增加而獲得某些特定功能,如脅迫抗性、轉(zhuǎn)錄調(diào)控、信號(hào)轉(zhuǎn)導(dǎo)等[22,46]。對(duì)于山地虎耳草來(lái)講,其適應(yīng)青藏高原高、寒、旱環(huán)境的特性是否與GC重復(fù)單元有關(guān)還需要后期研究來(lái)加以探討。
SSR位點(diǎn)多態(tài)性主要是由基元的重復(fù)次數(shù)和堿基數(shù)不同來(lái)決定的[39]。在山地虎耳草轉(zhuǎn)錄組SSR中二核苷酸重復(fù)基元的重復(fù)次數(shù)類型多,跨度大,其中AG/TC跨度最大,重復(fù)類型次數(shù)為8種,從6~12次,最高達(dá)50次,三核苷酸重復(fù)基元中ATT/TAA跨度最大,重復(fù)次數(shù)類型為5種,四、五、六核苷酸重復(fù)基元重復(fù)次數(shù)類型較少,僅有1~2種。Gao等[47]研究表明重復(fù)次數(shù)與SSR的變異呈正相關(guān),所以本研究中二核苷酸SSR應(yīng)具有更高的多態(tài)性[48]。
綜上所述,通過(guò)分析和挖掘山地虎耳草轉(zhuǎn)錄組序列中SSR的信息,可為今后該物種SSR標(biāo)記的開發(fā)和篩選奠定生物信息學(xué)基礎(chǔ),使其更合理、更有效地應(yīng)用于系統(tǒng)發(fā)育學(xué)和譜系地理學(xué)等研究,為第四紀(jì)氣候波動(dòng)對(duì)高山植物的遺傳多樣性影響及其演化歷史提供更有力的證據(jù)。此外,作為國(guó)家生態(tài)建設(shè)的戰(zhàn)略要地,青藏高原擁有著類型多樣的極端環(huán)境,如高寒缺氧、晝夜溫差大、日照強(qiáng)烈、多風(fēng)多雪、干旱貧瘠的土壤等,存在極大的脆弱性,所以通過(guò)物種遺傳多樣性的研究可以為高原生態(tài)可持續(xù)發(fā)展提供一定的理論基礎(chǔ)和相應(yīng)的保護(hù)策略,進(jìn)而推動(dòng)國(guó)家“一帶一路”戰(zhàn)略的實(shí)施。