蘇 群,田 敏,劉 俊,王凌云,李春牛,李先民,黃展文,王虹妍*
(1.廣西農(nóng)業(yè)科學(xué)院花卉研究所,廣西 南寧 530007;2.云南省農(nóng)業(yè)科學(xué)院花卉研究所/國家觀賞園藝工程技術(shù)研究中心,云南 昆明 650200;3.廣州市番禺區(qū)蓮花山旅游區(qū),廣東 廣州 511400;4.金華市農(nóng)業(yè)科學(xué)研究院,浙江 金華 321000)
【研究意義】睡蓮為睡蓮科(Nymphaeaceae)睡蓮屬(NymphaeaL.)多年生草本宿根花卉[1],其花朵挺于或浮于水面,香味馥郁芬芳,色彩絢麗而多變,是極好的園林造景素材;花梗和葉??勺魇卟耸秤?,且根莖具有良好的凈化水質(zhì)作用[2-3]。藍星睡蓮(N.colorata)具有其他園林花卉中不常見的純藍色花瓣,是睡蓮育種中藍色基因親本的來源之一,且基因組有較小[4];小花睡蓮(N.micrantha)葉片具胎生能力,可短時間內(nèi)繁殖大量個體,是培育胎生品種的重要親本。但目前有關(guān)睡蓮分子遺傳學(xué)和分子生物學(xué)及針對睡蓮屬植物開展特異性分子標記的研究較少[5],在睡蓮屬植物群體遺傳結(jié)構(gòu)分析及分子層面品種鑒定等相關(guān)工作嚴重滯后,睡蓮優(yōu)質(zhì)種質(zhì)資源的篩選和后續(xù)開發(fā)利用進展緩慢。因此,分析藍星睡蓮和小花睡蓮葉片轉(zhuǎn)錄組測序產(chǎn)生的Unigene及藍星睡蓮全基因組序列的簡單重復(fù)序列(SSR)位點特征,對睡蓮屬植物種質(zhì)資源鑒定、遺傳多樣性分析及遺傳連鎖圖譜構(gòu)建均具有重要意義?!厩叭搜芯窟M展】Peter等[6]、蘇群等[7]研究發(fā)現(xiàn),ISSR分子標記可應(yīng)用于睡蓮屬植物的遺傳多樣性分析,ISSR分子標記為單引物標記,雖具有較好的種屬間通用性,但其特異性相對較差。SSR為共顯性分子標記(第二代分子標記技術(shù)),具有分布廣、重復(fù)性好、多態(tài)性高、種屬間通用性良好、信息量大及結(jié)果穩(wěn)定等優(yōu)點[8],已廣泛應(yīng)用于植物種質(zhì)資源庫[9-10]和DNA指紋圖譜構(gòu)建[11]、群體遺傳多樣性分析[12-13]及連鎖遺傳圖譜構(gòu)建[14-15]等。傳統(tǒng)SSR分子標記的開發(fā)與合成投入高、難度大、耗時長相對費時,而轉(zhuǎn)錄組測序技(RNA-Seq)屬于新一代高通量測序技術(shù),可為低廉、高效、大規(guī)模地開發(fā)SSR分子標記提供新的有效方法。楊彬等[16]利用云錦杜鵑轉(zhuǎn)錄組數(shù)據(jù)開發(fā)出8439對SSR引物,隨即合成的45對引物中有32對引物擴增出多態(tài)性條帶。段豪等[17]對天竺桂根部和葉片組織進行轉(zhuǎn)錄組測序,利用Primer 3.0設(shè)計EST-SSR引物,并隨機挑選50對SSR引物,測出可進行有效擴增引物23對,其中7對引物具有多態(tài)性。許岳軍等[18]利用苧麻轉(zhuǎn)錄組數(shù)據(jù)開發(fā)出1214對EST-SSR引物,其中有216對引物表現(xiàn)出良好的多態(tài)性,占總引物的17.79%。可見,根據(jù)轉(zhuǎn)錄組數(shù)據(jù)開發(fā)的EST-SSR分子標記簡便而可行,具有較好的實用性。楊夢婷等[19]研究認為,EST-SSR擴增效果較好,與已知功能基因密切相關(guān),轉(zhuǎn)染水平高,共顯性遺傳,但其多態(tài)性較低?!颈狙芯壳腥朦c】至今,鮮見針對以睡蓮屬植物開發(fā)強特異性SSR分子標記的研究報道?!緮M解決的關(guān)鍵問題】利用本課題組前期研究獲得的藍星睡蓮和小花睡蓮葉片轉(zhuǎn)錄組Unigene及已公開發(fā)表的藍星睡蓮基因組數(shù)據(jù),以MISA(http://pgrc.ipk-gatersleben.de/misa)進行SSR位點搜索,并統(tǒng)計分析SSR位點出現(xiàn)的頻率、基元序列長度和基元類型等,以期為睡蓮屬植物種質(zhì)資源鑒定、遺傳多樣性分析及遺傳連鎖圖譜構(gòu)建等提供基礎(chǔ)數(shù)據(jù)。
藍星睡蓮和小花睡蓮4個不同發(fā)育階段葉片轉(zhuǎn)錄組測序產(chǎn)生的Unigene序列(NCBI登錄號GSE164888)由本課題組在前期研究獲得;藍星睡蓮全基因組數(shù)據(jù)(ftp://download.big.ac.cn/gwh/Plants/Nymphaea_colorata_Nym_GWHAAYW0000 0000/GWHAAYW00000000.genome.fasta.gz)已于2019年公開發(fā)表[4]。
以MISA進行SSR位點搜索,并統(tǒng)計、分析藍星睡蓮和小花睡蓮葉片轉(zhuǎn)錄組及已公開發(fā)表的藍星睡蓮全基因組中SSR位點出現(xiàn)的頻率、基元類型和基元序列長度等。選擇默認參數(shù),對應(yīng)的各重復(fù)基元類型為二核苷酸至少重復(fù)6次,三核苷酸~六核苷酸至少重復(fù)5次。采用熒光毛細血管電泳法,利用8份形態(tài)差異較明顯的睡蓮屬植物篩選和驗證合成的144對SSR引物。
試驗數(shù)據(jù)采用Excel 2016進行統(tǒng)計分析,使用GeneMarker讀取引物篩選基因型數(shù)據(jù)。
在藍星睡蓮和小花睡蓮葉片轉(zhuǎn)錄組的114 762個Unigenes序列中共搜索到38 998個SSR位點(表1),其中完整型SSR位點30 124個,復(fù)合型SSR位點8874個,實際以全部38 998個SSR位點進行分析;SSR位點出現(xiàn)頻率為33.98%,平均分布距離11.94 kb,即在睡蓮轉(zhuǎn)錄組中平均11.94 kb就出現(xiàn)1個SSR位點,說明SSR較豐富,可為后期SSR引物的開發(fā)提供豐富基礎(chǔ)數(shù)據(jù)。在藍星睡蓮基因組中共搜索到249 029個SSR位點,其中完整型SSR位點163 265個,復(fù)合型SSR位點85 764個,實際以全部249 029個SSR位點進行分析;平均分布頻率為609.0個/Mb,即在藍星睡蓮基因組中平均1.0 Mb分布609.0個SSR位點;SSR基元序列總長度為2 775 181 bp,總平均為27.25 bp,占基因組大小的0.68%。在藍星睡蓮和小花睡蓮葉片轉(zhuǎn)錄組及藍星睡蓮基因組的SSR重復(fù)基元中,以二核苷酸和單核苷酸的重復(fù)次數(shù)最多,分別為19 059次(占48.87%)和15 999次(占41.03%)、128 748次(占51.70%)和108 006次(占43.37%),而三核苷酸和四核苷酸在轉(zhuǎn)錄組和基因組的SSR重復(fù)基元中分別出現(xiàn)3694次(占9.47%)和183次(占0.47%)、9657次(占3.88)和1609次(占0.65%)。
從表1還可看出,在藍星睡蓮和小花睡蓮葉片轉(zhuǎn)錄組中,二核苷酸的平均分布距離最短,其次為單核苷酸和三核苷酸,分別為24.43、29.01和126.03 kb,五核苷酸的平均分布距離最長,達16 626.79 kb。在藍星睡蓮基因組中,二核苷酸平均1.0 Mb分布315.0個SSR位點,其次為單核苷酸的264.0個和三核苷酸的24.0個,五核苷酸分布的SSR位點最少,平均1.0 Mb分布0.7個。
綜上所述,藍星睡蓮和小花睡蓮二核苷酸和單核苷酸的SSR位點出現(xiàn)數(shù)量及頻率遠高于其他重復(fù)基元類型核苷酸,藍星睡蓮基因組中的單核苷酸和二核苷酸重復(fù)占比略高于藍星睡蓮和小花睡蓮葉片轉(zhuǎn)錄組。
圖1 藍星睡蓮和小花睡蓮轉(zhuǎn)錄組及藍星睡蓮基因組的SSR基元重復(fù)次數(shù)比較Fig.1 The number of SSR repeat motifs in the transcriptome of N.colorata and N.micrantha and in the genome of N.colorata
從圖1可看出,在藍星睡蓮和小花睡蓮葉片轉(zhuǎn)錄組中,SSR重復(fù)基元以單一重復(fù)10次最多,重復(fù)數(shù)達8001個;重復(fù)6次的有5818個,重復(fù)11次的有4529個,重復(fù)9次的重復(fù)數(shù)最少,為2085個;重復(fù)基元重復(fù)11次以上的各重復(fù)次數(shù)合計有9853個。在藍星睡蓮基因組中,SSR重復(fù)基元也以單一重復(fù)10次最多,重復(fù)次數(shù)達54 579個;重復(fù)11次的有30 078個,重復(fù)6次的有26 754個,重復(fù)7次的有18 555個;重復(fù)11次以上的各重復(fù)次數(shù)合計有85 406個??梢?,在藍星睡蓮和小花睡蓮葉片轉(zhuǎn)錄組及藍星睡蓮基因組中,SSR重復(fù)基元均以重復(fù)10次的最多,重復(fù)基元重復(fù)6次和11次的也占有較高比例。
由表2可知,藍星睡蓮和小花睡蓮葉片轉(zhuǎn)錄組中單核苷酸重復(fù)基元有A/T和C/G 2種類型,其中A/T型占整個轉(zhuǎn)錄組重復(fù)基元的40.13%;二核苷酸重復(fù)基元有AG/TC、AC/TG、AT/TA和CG/GC 4種類型,各類型占整個轉(zhuǎn)錄組重復(fù)基元的比例排序為AG/TC(31.41%)>AC/TG(8.73%)>AT/TA(8.60%)>C/G(0.13%),其中AG/TC型在二核苷酸重復(fù)基元中占絕對多數(shù);三核苷酸重復(fù)基元有10種類型,其在整個轉(zhuǎn)錄組重復(fù)基元中占比排名前3位的類型排序為AAG/TTC(3.50%)>AGG/TCC(1.41%)>AGC/TCG(1.23%),而ACT/TGA型在整個轉(zhuǎn)錄組重復(fù)基元中占比最低,僅占0.07%;四核苷酸中主要重復(fù)基元有8種類型,各類型占比均較低,占比最高的為AAAT/TTTA型,最低的為AAAC/TTTG型(0.02%);五核苷酸和六核苷酸各基元重復(fù)類型總計占比非常低,分別為0.07%和0.09%。
表1 藍星睡蓮和小花睡蓮葉片轉(zhuǎn)錄組及藍星睡蓮基因組SSR的分布特征
表2 藍星睡蓮和小花睡蓮葉片轉(zhuǎn)錄組及藍星睡蓮基因組SSR重復(fù)基元類型比較
在藍星睡蓮基因組中,單核苷酸重復(fù)基元有A/T和C/G 2種類型,其中A/T型占整個基因組重復(fù)基元的41.69%,略高于轉(zhuǎn)錄組中的A/T型占比;二核苷酸重復(fù)基元有6種類型,其中在整個基因組重復(fù)基元中占比排名前3位的類型排序為AT/TA(22.47%)>AG/TC(12.19%)>CT/GA(9.74%);三核苷酸重復(fù)基元主要有10種類型,其中在整個基因組重復(fù)基元中占比排名前3位的類型排序為AAG/TTC(0.57%)>AGA/TCT(0.46%)>CTT/GAA(0.44%);四核苷酸重復(fù)基元主要有9種類型,各類型在整個基因組重復(fù)基元中占比均較低,占比最高的為ATAA/TATT型和AAAT/TTTA型,最低的為AGAA/TCTT型。
綜上所述,在轉(zhuǎn)錄組和基因組的單核苷酸重復(fù)基元中,A/T型占比均在40.00%以上,為優(yōu)勢重復(fù)基元;在二核苷酸重復(fù)基元中,AG/TC和AT/TA型占比較高,且遠高于其他類型重復(fù)基元,為優(yōu)勢重復(fù)基元,均含有豐富的A/T核酸。
由表3可知,藍星睡蓮和小花睡蓮葉片轉(zhuǎn)錄組SSR基元序列總長度為465 550 bp,總平均為21.65 bp,其中,二核苷酸重復(fù)類型SSR基元序列的總長度最長,為240 766 bp,平均為18.53 bp;單核苷酸和三核苷酸重復(fù)類型SSR基元序列的總長度次之,分別為167 917和52 665 bp,平均分別為12.01和17.72 bp;四核苷酸~六核苷酸重復(fù)類型SSR基元序列的平均長度依次增大,分別為22.33、25.65和33.68 bp。藍星睡蓮基因組SSR基元序列總長度為2 775 181 bp,總平均為27.25 bp,其中,二核苷酸重復(fù)類型SSR基元序列的總長度最長,為1 544 754 bp,平均為23.33 bp;單核苷酸重復(fù)類型SSR基元序列總長度為1 048 644 bp,平均為11.84 bp;三核苷酸~六核苷酸重復(fù)類型SSR基元序列總長度分別為128 505、14 580、5290和33 408 bp,平均分別為18.23、21.92、27.41和60.74 bp??梢?,在藍星睡蓮和小花睡蓮葉片轉(zhuǎn)錄組和基因組各重復(fù)類型SSR基元序列的總長度中,均以二核苷酸重復(fù)類型SSR基元序列的長度最長,單核苷酸~六核苷酸重復(fù)類型SSR基元序列的平均長度呈增大趨勢。
從圖2可看出,在藍星睡蓮和小花睡蓮葉片轉(zhuǎn)錄組及藍星睡蓮基因組中,SSR基元數(shù)均隨著基元長度的增加呈下降趨勢。其中,長度為10~20 bp的SSR基元最多,分別為29 367和168 201個,各占對應(yīng)總SSR基元數(shù)的75.30%和67.54%;長度為21~30 bp的SSR基元分別為4223和22 272個,各占對應(yīng)總SSR基元數(shù)的10.83%和8.94%;長度為31~40 bp的SSR基元分別為1908和12 858個,各占對應(yīng)總SSR基元數(shù)的4.89%和5.17%;長度大于40 bp的SSR基元分別為3500和45 688個(長度大于100 bp的SSR基元累計分別為777和12 902個),分別占對應(yīng)總SSR基元數(shù)的8.98%和18.35%。可見,藍星睡蓮和小花睡蓮葉片轉(zhuǎn)錄組及藍星睡蓮基因組中的低級基元類型非常豐富,種類較多,具有開發(fā)為高多態(tài)性SSR引物的潛力。
圖2 藍星睡蓮和小花睡蓮轉(zhuǎn)錄組及藍星睡蓮基因組SSR基元長度的分布情況Fig.2 Distribution of SSR motif length in the transcriptome of N.colorata and N.micrantha and in the genome of N.colorata
表3 藍星睡蓮和小花睡蓮葉片轉(zhuǎn)錄組及藍星睡蓮基因組各重復(fù)類型SSR基元序列的長度比較
A~H分別代表睡蓮屬樣本紫色幻想、米奴塔、小花睡蓮、增值睡蓮、喀麥隆、小白子午蓮、墨西哥黃睡蓮和白巨睡蓮 A-H correspond to Nymphaea samples N.purple fantasy,N.minnuta,N.micrantha,N.prolifera wiersema,N.zenkeri,N.tetragona,N.maxicana,N.gigantea Albert de Lestang圖3 SSR引物NtG006在8份睡蓮樣本中的毛細管電泳結(jié)果Fig.3 The capillary electrophoresis of SSR primers NtG006 in eight water lily samples
以藍星睡蓮和小花睡蓮葉片轉(zhuǎn)錄組及藍星睡蓮基因組數(shù)據(jù)合成144對SSR引物,采用熒光毛細血管電泳法,選取8份形態(tài)差異較明顯的睡蓮屬植物為篩選樣本進行驗證。圖3為引物NtG006在8份睡蓮屬植物樣本中的毛細管電泳結(jié)果,從圖3可看出,在預(yù)設(shè)產(chǎn)物為120~160 bp間出現(xiàn)1~2個較好的峰值,經(jīng)重復(fù)試驗后,不同樣本間峰值穩(wěn)定,說明引物NtG006在睡蓮屬植物樣本中具有較好的擴增性和多態(tài)性。最終從合成的144對SSR引物中篩選出12對擴增性好且多態(tài)性高的SSR引物(表4),可用于睡蓮屬植物種質(zhì)資源鑒定、遺傳多樣性分析及遺傳連鎖圖譜構(gòu)建。
表4 12對擴增性好且多態(tài)性高的SSR引物序列信息
本研究結(jié)果表明,從藍星睡蓮和小花睡蓮葉片轉(zhuǎn)錄組獲得的114 762個Unigene序列中共搜索到38 998個SSR位點,SSR位點出現(xiàn)頻率為33.98%,高于木本植物的油茶(33.58%)[20]、牡丹(29.19%)[21]和南酸棗(25.52%)[22],也高于草本植物的密花香薷(28.10%)[23]、云南火焰蘭(5.95%)[24]、金釵石斛(15.78%)[25]和山地虎耳草(7.25%)[26];在藍星睡蓮基因組中共搜索到249 029個SSR位點,占藍星睡蓮全基因組大小的0.68%,平均分布頻率為609.0個/Mb,略低于木荷的644.0個/Mb[27],高于燈盞花的190.0個/Mb[28]和茶樹的272.0個/Mb[29]。說明睡蓮具有豐富的SSR位點。
多數(shù)植物的SSR基元重復(fù)類型雖存在明顯差異,但均以二核苷酸和三核苷酸重復(fù)類型為主[30-31]。本研究中,睡蓮基元重復(fù)類型最多的為二核苷酸,其次為單核苷酸和三核苷酸,其中,轉(zhuǎn)錄組中的二核苷酸基元重復(fù)頻率(16.61%)>單核苷酸基元重復(fù)頻率(13.94%)>三核苷酸基元重復(fù)頻率(3.22%),基因組中的二核苷酸分布頻率(315.0個/Mb)>單核苷酸分布頻率(264.0個/Mb)>三核苷酸分布頻率(24.0個/Mb),與燈盞花的基元重復(fù)類型相似[28]??梢?,無論是轉(zhuǎn)錄組還是基因組,均以二核苷酸重復(fù)基元占主導(dǎo)地位。本研究還發(fā)現(xiàn),在藍星睡蓮和小花睡蓮葉片轉(zhuǎn)錄組SSR重復(fù)基元類型中,單核苷酸以A/T型為主(占比40.13%),二核苷酸以AG/TC、AC/TG和AT/TA型(分別占31.41%、8.73%和8.60%)為主,三核苷酸以AAG/TTC型(占3.50%)為主,四核苷酸以AAAT/TTTA(占0.13%)為主;而在藍星睡蓮基因組中,單核苷酸以A/T型為主(占41.96%),二核苷酸以AT/TA型、AG/TC和CT/GA型(分別占22.47%、12.19%和9.74%)為主,三核苷酸以AAG/TTC型(占0.57%)為主,四核苷酸以ATAA/TATT和AAAT/TTTA型(均占0.09%)為主。可見,在轉(zhuǎn)錄組和基因組中,數(shù)量較多的重復(fù)基元(優(yōu)勢重復(fù)基元)均為A/T、AG/TC、AT/TA、AAG/TTC和AAAT/TTTA,說明這些重復(fù)基元中含有豐富的A/T核酸,與前人對木荷[27]、火龍果[32]、中國櫻桃[33]、黑麥草[34]等植物的研究結(jié)果一致。
SSR基元長度是影響SSR多態(tài)性的主要因素[35]。已有研究表明,SSR基元長度大于20 bp時具有較高的多態(tài)性,小于20 bp時SSR的多態(tài)性隨著SSR基元長度的減少而降低[29]。本研究中,睡蓮葉片轉(zhuǎn)錄組和基因組中長度為10~20 bp的SSR基元數(shù)最多,分別占總SSR基元數(shù)的75.30%和67.54%;長度大于20 bp的SSR基元數(shù)占對應(yīng)總SSR基元數(shù)的24.7%和32.46%,表現(xiàn)出較高的多態(tài)性;低級基元類型SSR的多態(tài)性普遍高于高級基元類型SSR,二核苷酸和三核苷酸中長度大于20 bp的基元序列可作為潛在的SSR引物序列信息給予重點考慮,與Dreisigacker等[36]的研究結(jié)果相似。
藍星睡蓮和小花睡蓮葉片轉(zhuǎn)錄組及藍星睡蓮基因組SSR中的低級基元類型非常豐富,種類較多,具有開發(fā)為高多態(tài)性SSR引物的潛力;篩選出12對擴增性好且多態(tài)性高的SSR引物可用于開展睡蓮屬植物種質(zhì)資源鑒定、遺傳多樣性分析及遺傳連鎖圖譜構(gòu)建等研究。