屈政委,宋紅梅,汪學杰,劉 奕,牟希東,劉 超,胡隱昌
(1.中國水產科學研究院珠江水產研究所,農業(yè)農村部休閑漁業(yè)重點實驗室,廣東省現代休閑漁業(yè)工程技術研究中心,廣州 510380;2.上海海洋大學水產與生命學院,上海 201306)
印尼虎魚,又名印尼擬松鯛(DatnioidesPulcher),隸屬鱸形目(Perciformes)鱸亞目(Percoidei)松鯛科(Lobotidae)擬松鯛屬(Datnioides),俗稱印尼虎魚,主要分布于湄南河流域、湄公河流域以及印尼蘇門答臘的婆羅洲西部,是當地一種非常珍稀的物種。印尼虎魚因其紋路深邃,對比分明,身板寬厚有力,捕食間隙展示了它的力量之美,因而備受人們喜愛,本世紀初作為觀賞魚引入我國,常與龍魚同池養(yǎng)殖,寓意“龍爭虎斗”。然而虎魚價格一直居高不下,關于其遺傳背景、遺傳結構等基礎生物學等研究嚴重匱乏,虎魚存在雌雄難以辨別、雌雄發(fā)育成熟時期不一致等特點,在國內也尚未有人工繁殖成功的報道,在雌雄鑒別、親本鑒定和遺傳結構等方面資料甚少,僅有線粒體數據分析[1],急需填補相關基礎研究數據。
簡單重復序列(simple sequence repeats,SSR)又稱微衛(wèi)星序列,是由長度為1~6 bp的重復單元和側翼序列組成的DNA序列串,而根據其開發(fā)的DNA分子標記具有共顯性、重復性好、穩(wěn)定性高、操作簡單、遍布整個基因組等特點。自20世紀70年代發(fā)展起來,已被廣泛應用到動植物的遺傳研究中,隨著更多物種轉錄組等基因組數據的獲得,SSR標記應用于布什羅非魚(Tilapiabuttikoferi)[2]、草魚(Ctenopharyngodonidella)[3]、鯽(Carassiusauratus)[4]等水產動物的遺傳圖譜、遺傳多樣性、遺傳進化、親緣關系分析等方面研究也多有報道。近年來,依據磁珠富集法及EST及數據開發(fā)和挖掘SSR標記的方法廣泛被采用,如孔杰等采用磁珠富集法開發(fā)長臀鮠(Cranoglanisbouderius)具有多態(tài)性的微衛(wèi)星分子標記27對[5],曹柱等采用磁珠富集法開發(fā)方正銀鯽(C.auratusgibelio(Bloch))具有多態(tài)性位點的微衛(wèi)星標記30對,并進行群體驗證[6]。此后,利用轉錄組數據庫開發(fā)微衛(wèi)星標記的方法也在動植物中被大量報道,如銀鲴(Xenocyprisargentea)[7]、紅鯛(Lutjanuscampechanus)[8]、鮸(Miichthysmiiuy)[9]、烏鱧(Channaargus)[10]、大黃魚(Larimichthyscrocea)[11]、馬氏珠母貝[12]、臘梅(Chimonanthuspraecox)[13]等的SSR標記開發(fā)。然而轉錄組相對成本較高,目前,印尼虎魚尚未獲得全基因組或轉錄組數據,甚至也沒有擬松鯛科近源物種的可參考全基因組序列。
近年來,在第2代測序基礎上發(fā)展而來的RAD測序技術(Restriction-site-associated DNA sequencing)應運而生,利用限制性內切酶對基因組DNA進行酶切,并對酶切片段進行高通量測序,所實現的簡化基因組測序技術被逐步運用。簡化基因組測序技術極大的降低基因組的復雜度,且不受參考基因組的限制,無參考基因組的物種也可以使用該技術進行大量的 SNP 和 SSR 標記開發(fā),測序成本也顯著降低、準確率高[14-15]。采用此方法,已經在煙草[16]、大刺鰍[17]、異型花[18]等其他動植物中開發(fā)出 SSR 標記并應用于遺傳研究。本研究采用RAD-seq技術,對印尼虎魚進行簡化基因組測序,分析SSR位點的數量、基序類型、基序重復次數,開發(fā)印尼虎魚微衛(wèi)星標記,篩選具有多態(tài)性的SSR引物,為印尼虎魚擬松鯛魚類多態(tài)性SSR的篩選和遺傳研究提供參考。
試驗魚取自廣州珠江水產研究所觀賞魚基地,試驗魚三尾,采樣后取鰭條在4 ℃冰箱中放置,過夜后放入-80 ℃冰箱保存?zhèn)溆?。使用試劑?TIANamp Genomic DNA Kit,TIANGEN)提取基因組DNA。
提取過程:每尾魚取約0.03 g組織,加400 μL裂解液,用勻漿機將樣品充分研磨。室溫10 000 r/min離心1 min,倒掉上清液,加200 μL緩沖液GA,震蕩至徹底懸浮。隨后再加20 μL 20 mg/mL蛋白酶K,混勻后55 ℃恒溫水浴,水浴過程中上下顛倒加速溶解,至組織消解完全,簡短離心。加200 μL緩沖液GB,充分顛倒混勻,70 ℃水浴10 min,混合液變得清亮后,簡短離心。加200 μL無水乙醇,充分震蕩15 s,簡短離心。將混合液轉移至吸附柱中,室溫12 000 r/min離心30 s,倒掉廢液。向吸附柱中加500 μL緩沖液GD,室溫12 000 r/min離心30 s,倒掉廢液。向吸附柱中加600 μL漂洗液PW,室溫12 000 r/min離心30 s,倒掉廢液。12 000 r/min離心2 min,倒掉廢液,室溫下晾干至無乙醇味。將吸附柱放在新的離心管中,加30 μL雙蒸水靜置數分鐘充分溶解,12 000 r/min離心2 min,將DNA收集到離心管中。所提取的模板DNA經瓊脂糖凝膠定性檢測,再用酶標儀定量檢測,經檢測OD260/OD280的比值以及模板DNA濃度符合作為模板DNA的條件,保存在-20 ℃中備用。
利用RAD-seq測序技術,對印尼虎魚的基因組DNA進行簡化測序。簡易流程如下:采用6堿基酶EcoRI進行RAD酶切建庫,Paired-End100策略上機(Illumina HiSeq2000)進行高通量測序,測序所得數據進行RAD tag(標簽)的聚類,產生組裝apire-end read(read 2),通過contig檢測和組裝得到長度約300 bp的酶切相關contig,用以開發(fā)SSR標記。
利用MISA軟件(MicroSatellite identification tool,http://pgrc.ikp- gatersleben.de/misa)在read 2覆蓋的參考基因組序列中進行SSR位點搜索,搜索標準為單堿基、二堿基和三堿基重復次數分別在15、6和5次及以上,四、五、六堿基重復類型在4次及以上,相鄰的SSR序列不少于100 bp。根據SSR位點兩翼序列,利用Primer3.0軟件設計引物,數據庫中隨機選取100對微衛(wèi)星引物,由廣州擎科生物技術公司合成。對虎魚基因組DNA樣品(6個樣品)進行序列分析,若在測序個體間存在重復差異即為多態(tài)性SSR。
PCR反應為25 μL體系:酶0.25 μL,10×Buffer(含Mg2+)2.5 μL,4×dNTP 0.5 μL,10 μmol/L上游引物0.5 μL,10 μmol/L下游引物0.5 μL,模板cDNA 0.5 μL,加無菌水補足至25 μL。PCR反應程序為:94 ℃預變性4 min,94 ℃變性30 s,Tm退火30 s(退火溫度視情況而定),72 ℃延伸1 min,進行30個循環(huán);72 ℃延伸10 min,4 ℃保存。PCR產物用8%的非變性聚丙烯酰胺凝膠進行電泳,然后再通過銀染得到目的條帶。
印尼虎魚RAD-seq結果顯示,數據庫中獲得總長度為1.96 Gb,具有13 427 412個干凈讀長(clean reads)的原始數據(表1),對原始數據進行質量控制、過濾,共獲得13 308 806個高質量干凈讀長(HQ clean reads),平均Q30(測序堿基質量值,即測序時錯誤識別的概率為0.1%、正確率為99.9%的堿基比例)為93.31%,平均的GC含量為42.72%。從表1得知,過濾前后差異不大,Q30處于較高水平,表明測序數據的準確可靠性,GC含量稍低,但對此次測序反應的影響不大。
表1 RAD-seq 基因組測序數據統計表
此次RAD-seq獲得的干凈讀長(clean reads)進行簡化基因組組裝,read2拼接所得平均長度333 bp大小的片段163 510個,利用MISA軟件在reads覆蓋區(qū)域中查找SSR位點,在樣本中共有21 259個reads含有SSR位點,共檢測到26 359個SSR位點, SSR位點出現頻率(含SSR位點個數與read2的contig總個數的比值)為16.1%。這些SSR位點中,完全重復型(P型)所占比例最大,共計20 616個,占位點總數的78.21%;復合型(C型)只有3 105個,占位點總數的11.78%。
26 359個微衛(wèi)星位點由496種重復基序組成(表2),主要分布在三、四、五堿基重復類型中,分別有57、173和199種,占基元總數比為11.49%、34.88%和40.12%。而單核苷酸重復位點的基元種數共4種(即ATCG四種堿基),六核苷酸重復基元種數為51種,所占基元總數比例為10.28%。
印尼虎魚不同類型SSR位點中單核苷酸基元的重復次數集中在15~20次,二核苷酸和三核苷酸基元主要集中在6~13次和5~9次,四核苷酸基元在4~6次,而五核苷酸和六核苷酸基元的重復次數4~5次;以6次基元重復次數的SSR位點數最高,達到5 214個SSR位點,占總SSR位點數19.78%;7次和8次重復次數分別為3 076和2 176個SSR位點,占總SSR位點數11.67%和8.26%。另外,隨重復次數的增加各個位點類型出現的頻率逐漸下降。通過分析所得到的SSR數目的具體結果列入表3。
表2 印尼虎魚基因組-微衛(wèi)星位點的分布信息
表3 印尼虎魚基因組中 SSR 位點的基序重復次數分布
如表3所示,SSR位點中二核苷酸類型出現比例最高,達19 492個,占位點總數的73.95%;其次是單核苷酸類型和三核苷酸類型差別不大,分別為2 209(8.38%)和2 271個(8.62%);四核苷酸類型為1 847個(7.01%);五核苷酸和六核苷酸類型最少,分別僅有479(1.82%)和61個(0.23%)。此外,有3 105個位點以復合重復形式出現,多態(tài)性SSR數目為2 783個。
圖1 基元類型比例圖Fig.1 Primitive type scale
在SSR重復序列中,二堿基重復序列所占比最大,主要有AC/GT、AG/CT、AT/AT三種重復序列,其中AC/GT重復序列16 040個,占比最高為總數的60.9%,其次為AG/CT重復序列3 027個,占11.5%,最后是AT/AT重復序列374個,所占比例為1.4%;其次是單堿基重復序列,主要有A/T、C/G兩種重復類型,其中A/T重復序列1 998個,所占比例較大,比例為7.6%,C/G重復序列211個,占比為0.8%。三堿基重復序列包含6種重復類型,分別為AAC/GTT、AAG/CTT、AAT/ATG、AGC/CTG、AGG/CCT、ATC/ATG,各個序列的數目分別為339、364、348、381、468、179,所占比例分別為1.3%、1.0%、1.3%、1.4%、1.8%、0.7%;四堿基重復序列包括4種重復類型,分別為AAAC/GTTT、AAAT/ATTT、ACAG/CTGT、AGAT/ATCT,每個重復序列的數目分別為344、305、215、211,所占比例分別為1.3%、1.2%、0.8%、0.8%;五堿基重復序列和六堿基重復序列共有1 665個,占序列總數目的6.3%。除二堿基重復類型外,A/T重復序列占比7.6%最大,其他類型的基元占比相差無幾,大部分在1%左右。各基元頻率分布見圖1。
利用Primer 3.0軟件對26 359個SSR位點進行引物設計,成功設計出20 066對SSR引物,引物設計成功率為76.13%;根據印尼虎魚簡化測序數據,初步發(fā)現其中有2 783對引物的SSR位點具有多態(tài)性,多態(tài)性比例為13.9%。隨機選擇100對可能具有多態(tài)性位點的SSR引物,對SSR位點的多態(tài)性進行驗證。有92對引物在檢測樣品中均能擴出清晰的條帶,其中有 20對引物的擴增產物具有多態(tài)性。具有多態(tài)性的20對SSR引物信息及驗證結果如表 4 所示。
表4 20對多態(tài)性SSRs引物信息
本研究在21 259個reads覆蓋的參考基因組序列中共檢測到完全重復型(P型)和復合型(C型)兩種SSR位點共計26 359個,其中P型20 616個,所占比例最大(78.21%),C型只有3 105個,占位點總數的11.79%。在所有SSR位點中二核苷酸類型出現比例最高,達73.95%,這與其他動植物基因組中SSR位點的分布特征相符[16,19,20],其他物種中大多數都是二堿基重復類型占據主體地位,但二堿基比例如此高的并不多見。如對牙鲆(Paralichthysolivaceus)EST資源的SSR信息分析中,二堿基重復類型所占比例為59.02%[21]。從目前報道的結果來看,馬氏珠母貝的EST-SSR也是以二核苷酸重復類型為主(48.5%)[12],而在縊蟶(Sinonovaculaconstricta)EST-SSR分布特征及引物開發(fā)利用研究中卻是以三核苷酸重復類型為主(37.13%)[22]。這種現象可能是因為密碼子以三核苷酸為功能單位,在翻譯成蛋白質時發(fā)生基因突變而造成三核苷酸的位移,但沒有對一個表達基因的閱讀框造成太大的影響[23]。
在SSR 位點重復類型上,本研究中印尼虎魚的二核苷酸類型出現比例最高,這與多數物種中以二核苷酸重復類型為主的結果一致[21];在SSR基序的結構方面,共發(fā)現496種基序,各核苷酸類型中以A/T、AC/GT、AG/CT、AGG/CCT 、AGC/CTG、AAAC/GTTT基序最為豐富,這與烏鱧、斑鱧、鳙魚等SSR位點特征相似[10,24],在重復類型分布上,單核苷酸、二核苷酸和三核苷酸均表現出一定的偏倚性,如單核苷酸重復類型中A/T重復序列1 998個,而C/G重復序列只有211個,在二核苷酸重復類型中AC/GT占主要優(yōu)勢,三堿基重復類型中最多的是AGG/CCT,二、三核苷酸重復類型在不同物種間差異較大[6,17],這種重復單元的偏倚性和重復類型的差異與種間差異性有關[5,22]。
SSR位點的多態(tài)性與重復基元的重復次數呈正相關關系[25]。本研究中獲得的SSR位點中,單核苷酸基元類型重復次數集中在15~20次,二核苷酸和三核苷酸基元主要集中在5~13次,隨重復次數的增加各個位點類型出現的頻率逐漸下降。為找到具有多態(tài)性的位點,本研究挑選的基元類型中,二核苷酸類型重復次數≥6、三核苷酸重復次數≥5、四核苷酸重復次數≥4,錦鯉選取重復單元次數較高的序列進行篩選。挑出100對SSR引物,以6個印尼虎魚樣本基因組DNA為模板進行檢測驗證,其中肯定能擴增出目的片段的引物有73對,剩余27對未擴增出條帶或擴增出非目的片段。73對有效擴增的引物中有20對具有多態(tài)性,初步開發(fā)的20個具有多態(tài)性的SSR位點,可用于擬松鯛魚類的群體遺傳背景分析,同時本研究也證實了通過RAD-seq技術開發(fā)印尼虎魚SSR標記的可行性。
本研究采用RAD-seq首次對印尼虎魚樣本進行了測序,共獲得13 308 806個高質量干凈讀長(HQ clean reads),通過序列分析,在21 259個reads覆蓋的參考基因組序列中共檢測到26 359個SSR位點,主要以單核苷酸、二核苷酸和三核苷酸重復類型為主。從中隨機選二、三、四核苷酸重復類型微衛(wèi)星位點100個,合成引物進行PCR擴增驗證,可穩(wěn)定擴增出目的條帶的有73對,其中20對具有多態(tài)性。