宋琪, 劉金龍, 郭憲光*
(1.中國科學院成都生物研究所,成都610041; 2. 中國科學院大學,北京100049)
微衛(wèi)星(microsatellite)又稱為簡短串聯(lián)重復(short tandem repeats,STRs)或簡單序列重復(simple sequence repeats,SSRs),Skinner等(1974)在寄居蟹Paguruspollicaris中發(fā)現(xiàn)微衛(wèi)星DNA序列開啟了對真核生物中微衛(wèi)星序列的了解。直到Powell等(1996)定義了微衛(wèi)星位點,認為微衛(wèi)星DNA序列一般是以1~6個核苷酸為重復單位的串聯(lián)重復序列,在從病毒到真核生物的基因組中均有分布,并且具有高度的長度多態(tài)性(Zaneetal.,2002)。由于微衛(wèi)星突變速率快、多態(tài)性高、分布廣泛、符合孟德爾遺傳、易于檢測等優(yōu)點,被廣泛應用于種群遺傳、譜系地理和親子鑒定等領域。據(jù)Guichoux等(2011)統(tǒng)計,1990—2009年有關微衛(wèi)星的論文數(shù)量增長迅猛。而開發(fā)微衛(wèi)星標記的傳統(tǒng)方法耗時、耗力(Abdelkrimetal.,2009),采用高通量測序技術獲得微衛(wèi)星序列已發(fā)展為主流方法(曾聰?shù)龋?013;黃杰等,2015;Zhouetal.,2016)。其中,二代測序技術——Roche 454 測序除高效、快捷外,其片段讀長更大,更適合微衛(wèi)星標記的開發(fā)(Allentoftetal.,2009;程曉鳳等,2011)。
葉城沙蜥Phrynocephalusaxillaris隸屬于鬣蜥科Agamidae沙蜥屬Phrynocephalus,是我國特有的一種小型爬行動物,分布于我國新疆天山山脈南部地區(qū),包括塔里木盆地及周邊的吐魯番-哈密盆地和敦煌盆地(趙爾宓等,1999)。其棲息生境為戈壁、荒漠或沙漠邊緣地帶以及固定沙丘的丘間平地(<3 000 m;趙爾宓等,1999)。有關葉城沙蜥種群遺傳結構,利用線粒體基因數(shù)據(jù)并未得到很好的解析,這可能與其分化時間太短或不完全譜系分選有關(Zhangetal.,2010;李俊,2013)。基于微衛(wèi)星位點變異速率快、多態(tài)性高等特點,有望更全面地解析葉城沙蜥的種群遺傳結構。
葉城沙蜥微衛(wèi)星標記的研究僅見于Nie等(2015)運用轉錄組測序對青海沙蜥P.vlangalii開展的微衛(wèi)星位點開發(fā),跨物種在葉城沙蜥中檢測到17個可擴增的微衛(wèi)星位點。本研究通過Roche 454 GS FLX高通量測序,對葉城沙蜥基因組進行測序,同時用搜索軟件掃描基因組序列,搜索和輸出其微衛(wèi)星序列。本研究首次對葉城沙蜥核基因組微衛(wèi)星序列進行了初步的統(tǒng)計和分析,旨在對其基因組水平上的微衛(wèi)星重復序列的種類、數(shù)量等進行初步探索,以期為開發(fā)和篩選大量高質量微衛(wèi)星標記提供數(shù)據(jù)支持,也為利用微衛(wèi)星標記研究葉城沙蜥的種群遺傳結構和譜系地理模式奠定基礎。
用于基因組測序的葉城沙蜥標本(標本號:WGXG08226)于2008年6月采于新疆維吾爾自治區(qū)吐魯番沙漠植物園(89.19°E,42.86°N),經(jīng)75%乙醇固定后,保存于中國科學院成都生物研究所兩棲爬行動物標本館。其肝臟組織樣品固定于95%乙醇中,-20 ℃保存。2013年11月將提取的基因組DNA送上海美吉生物信息科技有限公司,采用基于焦磷酸測序法的高通量基因測序系統(tǒng)——Roche 454 GS FLX進行基因組測序。
采用Roche 454 GS FLX系統(tǒng)對測序數(shù)據(jù)進行過濾、整理,使用Newbler 2.6(Roche,2011)對優(yōu)化后的原始數(shù)據(jù)從頭拼裝(denovoassembly),并將組裝出的contigs和未拼裝的single read序列合并。采用Krait(Duetal.,2018)對合并的總序列進行微衛(wèi)星位點的查找,所使用的搜索標準如下:單堿基重復≥9次,其他堿基重復(二堿基、三堿基、四堿基、五堿基、六堿基)≥5次,其余參數(shù)采用默認設置。
原始測序數(shù)據(jù)的每條read經(jīng)過質量過濾后,對下機數(shù)據(jù)進行統(tǒng)計,得到91 190條reads,共47 982 924 bp,最短的27 bp,最長的1 168 bp,平均長度為526.2 bp,主要集中分布在550~750 bp(圖1)。
利用Newbler對reads拼接,得到715個contigs,共359 650 bp,最短的100 bp,最長的15 025 bp,平均為503 bp。未拼接上的reads有65 873個,共34 820 132 bp。
將組裝出的contigs和未組裝的single read序列合并,得到合并序列66 588個,共35 179 782 bp。對合并的總序列進行微衛(wèi)星位點分析,獲得微衛(wèi)星重復序列29 890個。重復類型最多的為單堿基重復類型,占總重復類型的48.95%;其次是二堿基重復類型,占28.60%;最少的為六堿基重復類型,僅占0.32%(表1)。
圖1 Roche 454 GS FLX原始數(shù)據(jù)長度分布統(tǒng)計Fig. 1 Distribution of the sequence length for the raw reads data in Roche 454 GS FLX
A~C″代表不同的序列長度范圍 A to C″ means different ranges of sequence length; A. 1~40, B. 41~60, C. 61~80, D. 81~100, E. 101~120, F. 121~140, G. 141~160, H. 161~180, I. 181~200, J. 201~220, K. 221~240, L. 241~260, M. 261~280, N. 281~300, O. 301~320, P. 321~340, Q. 341~360, R. 361~380, S. 381~400, T. 401~420, U. 421~440, V. 441~460, W. 461~480, X. 481~500, Y. 501~520, Z. 521~540, A′. 541~560, B′. 561~580, C′. 581~600, D′. 601~620, E′. 621~640, F′. 641~660, G′. 661~680, H′. 681~700, I′. 701~720, G′. 721~740, K′. 741~760, L′. 761~780, M′. 781~800, N′. 801~820, O′. 821~840, P′. 841~860, Q′. 861~880, R′. 881~900, S′. 901~920, T′. 921~940, U′. 941~960, V′. 961~980, W′. 981~1 000, X′. 1 001~1 020, Y′. 1 021~1 040, Z′. 1 041~1 060, A″. 1 061~1 080, B″. 1 081~1 140, C″. 1 141~1 180
表1 不同重復類型的完美型微衛(wèi)星在葉城沙蜥基因組的分布Table 1 Distribution of perfect microsatellites for different repeat types in the genome of Phrynocephalus axillaris
2.3.1各重復拷貝類型的數(shù)量和相應的比例同一種類型的重復序列中,各重復拷貝類型所占的比例不相同(表2)。二堿基重復類型中,AC重復拷貝類型最多,占二堿基重復序列總數(shù)的54.94%,有4 697個,其次是AG(37.20%)和AT(6.84%),CG最少,只有87個,占1.02%。三堿基重復類型中,有 9種重復拷貝類型,數(shù)量較多的是ATC和AAT,分別有588個和498個,占三堿基重復序列總數(shù)的18.78%和15.90%,其他類型詳見表2。四堿基重復類型的重復拷貝類型有27種,最多的是AAAT,有1 288個,占四堿基重復序列總數(shù)的40.16%,其次是ATAG,占15.06%,其他類型相對較少,占比均不超過10%。五堿基重復類型中,AAAAT重復拷貝類型最多,有87個,占五堿基重復序列總數(shù)的31.75%;其次是AAAAC(16.42%)、AATAG(5.11%)、AAAAG(4.01%),其他類型均不超過10個。六堿基重復類型中,最多的是AATCCC,有20個,占六堿基重復序列總數(shù)的20.62%,其他類型均不超過20個。
表2 葉城沙蜥基因組中分布頻率最高的微衛(wèi)星重復類型Table 2 The most frequent microsatellite motifs detected in the genome of Phrynocephalus axillaris
2.3.2各種重復類型微衛(wèi)星拷貝數(shù)的數(shù)量分布二堿基重復為5~186次,主要分布在5~9次,有6 248個,占二堿基重復類型總數(shù)的73.08%;三堿基重復為5~36次,主要分布在5~10次,有2 162個,占三堿基重復類型總數(shù)的69.03%;四堿基重復為5~43次,主要分布在5~14次,共2 625個,占四堿基重復類型總數(shù)的81.85%;五堿基重復為5~11次,共261個,占五堿基重復類型總數(shù)的95.26%;六堿基重復為5~17次,主要分布在5~9次,共87個,占六堿基重復類型總數(shù)的89.69%(圖2)。
數(shù)量最多的前11個完美型微衛(wèi)星重復類型依次是C、A、AC、AG、AAAT、ATC、AT、AAT、ATAG、AGG、AAC,這些微衛(wèi)星在基因組中均出現(xiàn)400次以上,占完美型微衛(wèi)星總數(shù)的89.96%。
圖2 葉城沙蜥不同重復類型微衛(wèi)星拷貝數(shù)的分布Fig. 2 Distribution of the copy number in different microsatellite motifs for Phrynocephalus axillaris
由于單堿基重復難以準確測定(Sunetal.,2006),通常在分析開始就被舍棄(Kimetal., 2008)。本研究表明,除單堿基重復外的所有重復類型中,二堿基重復最多,這與大熊貓Ailuropodamelanoleuca和北極熊Ursusmaritimus(李午佼等,2014)、褐菖鲉Sebastiscusmarmoratus(Songetal.,2017)和團頭魴Megalobramaamblycephala(曾聰?shù)龋?013)等類似。這可能與微衛(wèi)星序列越長、突變率越高、穩(wěn)定性越差有關(Wierdletal.,1997)。在很多真核生物中,重復長度和重復頻率呈負相關(Kattietal.,2001)。本研究發(fā)現(xiàn)隨拷貝數(shù)增加,重復序列數(shù)量變少,也符合這一整體趨勢。此外,AC重復是葉城沙蜥基因組中二堿基重復中最多的類型,占54.94%,同時也是除單堿基重復外所有重復類型中最多的一類。脊椎動物基因組的30%~67%微衛(wèi)星重復是二堿基重復,而AC重復是最多的一種(Tóthetal.,2000),本研究結果也支持了此觀點。
表3 分布頻率最高的重復類型微衛(wèi)星的拷貝數(shù)分布Table 3 Distribution of the copy repeats number of the most frequent microsatellite motifs
二代測序出現(xiàn)前,對于非模式生物,微衛(wèi)星重復類型的獲得均是一個瓶頸(Guichouxetal.,2011)。隨著高通量測序技術的發(fā)展,測序成本逐漸降低,可獲得的數(shù)據(jù)越來越多,這為進一步增進對非模式物種的深度了解提供了契機。Nie等(2015)運用高通量測序技術對青海沙蜥進行轉錄組測序,鑒定、篩選出25個微衛(wèi)星位點,其中17個可在葉城沙蜥中擴增;而經(jīng)Bonferroni校正后,其中有9個顯著偏離哈迪-溫伯格平衡(P<0.01),且這些位點的擴增適用性及多態(tài)性尚未在葉城沙蜥的不同種群中驗證。本研究使用高通量測序技術對葉城沙蜥進行基因組SSR分子標記開發(fā)及分析,并基于Krait(Duetal.,2018)對基因組中完美型微衛(wèi)星進行統(tǒng)計,深化了對葉城沙蜥基因組的認識和了解,并為下一步開發(fā)和篩選大量高質量微衛(wèi)星標記提供數(shù)據(jù)支持,還為利用微衛(wèi)星標記研究葉城沙蜥種群遺傳結構和譜系地理模式奠定了基礎。