熊良偉,王帥兵,封 琦,王建國,岳麗佳,張 娟,吳云菲,王 權(quán)
(江蘇農(nóng)牧科技職業(yè)學(xué)院,江蘇泰州225300)
鳑鲏魚是一種常見的淡水小型鯉科魚類,在歐洲和亞洲地區(qū)分布廣泛,全世界鳑鲏魚有近40個(gè)種[1]。繁殖期時(shí),雌鳑鲏魚利用生殖管突將卵產(chǎn)到背角無齒蚌(Anodonta woodiana)等淡水蚌的鰓中,同時(shí)雄鳑鲏將精子射到蚌體內(nèi),鳑鲏魚胚胎在蚌鰓瓣發(fā)育成熟后游出蚌體,由于其特殊的繁殖習(xí)性,一直以來,鳑鲏魚被當(dāng)作共同進(jìn)化研究理想材料[2-3]。而中華鳑鲏(Rhodeus sinensis)是我國特有鳑鲏魚類,是長江、珠江等支流水體中常見魚類之一,由于其資源豐富、色彩鮮艷、體型優(yōu)美,還被用作觀賞魚類進(jìn)行開發(fā)[4]。近年來,由于水體污染、水利設(shè)施建設(shè),中華鳑鲏生存環(huán)境遭到破壞,中華鳑鲏野生種群數(shù)量不斷下降,一些水體中華鳑鲏正逐漸消失[5],為此對中華鳑鲏的保護(hù)迫在眉睫。
利用分子標(biāo)記技術(shù)分析水產(chǎn)動(dòng)物遺傳多樣性可以為其資源保護(hù)和利用提供理論指導(dǎo)。微衛(wèi)星(microsatellite)亦稱簡單重復(fù)序列(simple sequence repeats,SSR),因其在基因組中分布廣泛、多態(tài)性豐富、PCR擴(kuò)增重復(fù)性好和呈共顯性遺傳的優(yōu)點(diǎn),已廣泛應(yīng)用于水生動(dòng)物群體遺傳結(jié)構(gòu)分析、遺傳圖譜構(gòu)建及分子標(biāo)記輔助育種等研究[6-8],成為當(dāng)前常用分子標(biāo)記之一。然而,每種生物的SSR標(biāo)記在首次使用時(shí)須先進(jìn)行分離和PCR擴(kuò)增驗(yàn)證,傳統(tǒng)通過構(gòu)建富集文庫方法分離SSR標(biāo)記須要經(jīng)過建庫、雜交、分離、測序等步驟,試驗(yàn)操作繁瑣、效率低[9]。利用高通量測序開發(fā)SSR標(biāo)記具有操作簡單、效率高等特點(diǎn)[10-12]。本研究利用Illumina Miseq測序技術(shù)對中華鳑鲏基因組進(jìn)行測序開發(fā)SSR標(biāo)記,通過試驗(yàn)驗(yàn)證首次獲得中華鳑鲏21個(gè)多態(tài)性SSR標(biāo)記,為中華鳑鲏遺傳種質(zhì)資源保護(hù)和利用提供研究基礎(chǔ)。
中華鳑鲏為筆者所在項(xiàng)目組2015年3—6月從泰州地區(qū)河道內(nèi)收集經(jīng)馴化中華鳑鲏。試驗(yàn)時(shí)取活中華鳑鲏的背部和尾柄部肌肉置于100%乙醇中低溫保存,共采30尾。
采用苯酚/三氯甲烷抽提和乙醇沉淀的方法分別提取中華鳑鲏基因組DNA,用0.8%瓊脂糖電泳檢測DNA完整性,用NanoDrop 2 000超微量分光光度計(jì)檢測DNA濃度和純度,要求 DNA 電泳主帶 21 kb,D260nm/D280nm在 1.80 ~2.00 nm,DNA樣品檢測符合要求后置于-80℃超低溫冰箱保存待用。
取1尾經(jīng)檢測符合要求中華鳑鲏基因組DNA(約10μg)送上海美吉生物醫(yī)藥科技有限公司進(jìn)行基因組掃描。
根據(jù)Illumina Miseq測序試驗(yàn)流程構(gòu)建1個(gè)350 bp Illumina Miseq PE文庫,利用MiSeq測序儀完成測序工作。利用生物信息統(tǒng)計(jì)學(xué)方法對原始測序數(shù)據(jù)(reads)進(jìn)行質(zhì)控。去除原始測序數(shù)據(jù)中的接頭(adapter)序列;去除原始測序數(shù)據(jù)的5'端含有非A、T、G、C堿基;修剪測序質(zhì)量值<Q20的原始測序數(shù)據(jù)末端;去除含N的比例達(dá)到10%的原始測序數(shù)據(jù);舍棄質(zhì)量修剪后長度<25 bp的小片段,經(jīng)過上述剪切獲得高質(zhì)量的測序片段。
對剪切后的數(shù)據(jù)使用錯(cuò)誤校正(ErrorCorrection),去除低頻率的測序錯(cuò)誤;后對校正后的數(shù)據(jù)進(jìn)行連接(merge),基于重疊(overlap)關(guān)系將剪切后的原始測序數(shù)據(jù)連接到一起;最后用專業(yè)組裝軟件GSde Novo Assembler v2.8對連接好的數(shù)據(jù)進(jìn)行拼接獲得重疊群序列(Contigs)。
利用 SSR位點(diǎn)查找軟件 MISA(MIcroSAtellite Identification Tool)在組裝的重疊群序列中查找SSR位點(diǎn)。參數(shù)設(shè)置:重復(fù)單元為1~6個(gè)堿基分別要求重復(fù)10、6、5、5、5、5次及以上。查找到的SSR序列記錄下重復(fù)序列單位(如AG、AAG)、重復(fù)次數(shù)和該位點(diǎn)重疊群序列號。
查找到的 SSR用 primer3(http://www.simgene.com/primer3)軟件設(shè)計(jì)SSR位點(diǎn)擴(kuò)增引物,引物長度18~27 bp、GC含量50% ~80%,正反引物相差不超過20%,退火溫度(Tm)值控制57~63℃,正反引物Tm值相差不超過1℃,擴(kuò)增片段大小為100~300 bp。
從不同重疊群序列中選擇設(shè)計(jì)好引物的SSR位點(diǎn)50個(gè),要求SSR重復(fù)單元為2個(gè)或2個(gè)以上核苷酸,SSR引物由生工生物工程(上海)股份有限公司合成。先用8個(gè)中華鳑鲏基因組DNA樣品進(jìn)行 PCR擴(kuò)增、PAGE電泳,檢測選擇SSR標(biāo)記擴(kuò)增效果;選擇擴(kuò)增條帶清晰、多態(tài)性好的SSR標(biāo)記檢測泰州地區(qū)中華鳑鲏遺傳多樣性。
PCR反應(yīng)體積10μL,其中 DNA模板(約50 ng/μL)1μL,2×Tap PCR MasterMix(上海旭飛生物科技有限公司)5μL,上下游引物(10 μmol/L)各 0.5 μL,去離子水 3 μL。PCR反應(yīng)程序?yàn)?94℃ 預(yù)變性5 min;94℃變性40 s,退火1 min,72℃延伸1 min,35個(gè)循環(huán);72℃延伸10 min;4℃保存。PCR產(chǎn)物利用12%非變性聚丙烯酰胺凝膠電泳進(jìn)行檢測,銀染法顯色、定影,照相機(jī)拍照保存[13]。
參考 DNA Marker標(biāo)記(DL500 DNA marker,TaKaRa),根據(jù)中華鳑鲏每個(gè)個(gè)體在檢測SSR位點(diǎn)電泳條帶的位置確定每個(gè)個(gè)體的基因型。利用CONVERT1.3.1軟件[14]將中華鳑鲏各位點(diǎn)基因型進(jìn)行轉(zhuǎn)換。每個(gè)檢測SSR位點(diǎn)等位基因數(shù)(N)、觀測雜合度(HO)和期望雜合度(HE)由Popgene 1.32分析;用PICCale 0.6計(jì)算多態(tài)信息含量(PIC);哈迪-溫伯格平衡(Hardy-weinberg equilibrium,HWE)和連鎖不平衡情況由Popgene4.2檢驗(yàn)。
通過對中華鳑鲏350 bp Illumina Miseq PE文庫高通量測序獲得原始測序數(shù)據(jù) 151 418 131個(gè) ×2條,堿基數(shù)45.43 Gb,對獲得原始測序數(shù)據(jù)每個(gè)位點(diǎn)堿基進(jìn)行分析,結(jié)果獲得的reads序列第10位點(diǎn)后,各位點(diǎn)ATGC 4種堿基波動(dòng)較小,幾乎呈一直線,N的比例非常低,說明建庫均勻,測序結(jié)果好,可用于后續(xù)分析。
通過對原始reads質(zhì)量剪切,獲得高質(zhì)量序列43.38 Gb。利用序列拼接軟件對剪切后數(shù)據(jù)進(jìn)行組裝(表1),共獲得重疊群序列 416 997個(gè),片段累計(jì)長度5.17 Gb,GC含量為37.81%;組裝的重疊群序列中片段長段>1 kb有203 411個(gè),占48.78%;N50 和 N90 分別為1 852、1 139 bp,說明中華鳑鲏基因組組裝質(zhì)量好。
表1 中華鳑鲏基因組組裝情況一覽表
從組裝的序列中共檢測到249 167個(gè)SSR位點(diǎn),其中二核苷酸重復(fù) SSR最多,有 133 528個(gè),占總 SSR數(shù)量的53.59%;其次為單核苷酸重復(fù)SSR,有85 198個(gè);其他數(shù)量由多到少依次為三核苷酸、四核苷酸、五核苷酸和六核苷酸重復(fù)SSR,分別為 17 652、11 436、1 124、229 個(gè)(表 2)。隨著重復(fù)單元重復(fù)次數(shù)增加,SSR數(shù)量逐漸減少(圖1)。
表2 中華鳑鲏基因組中不同類型SSR統(tǒng)計(jì)
由表2可知,二核苷酸重復(fù)SSR占總SSR數(shù)量達(dá)到53.59%,說明二核苷酸重復(fù)SSR是中華鳑鲏主要SSR類型。在SSR分析過程中,考慮到堿基互補(bǔ)配對,將同類重復(fù)兼并為一種重復(fù),二核苷酸重復(fù)SSR有AC/CA/TG/GT、AG/GA/TC/CT、AT/TA、GC/CG 4種重復(fù)類型。由圖2可知,二核苷酸重復(fù)SSR 4種類型重復(fù)SSR數(shù)量相差較大,重復(fù)序列為AC/CA/TG/GT SSR有80 964個(gè),比例達(dá)到60.63%;重復(fù)類型為GC/CG SSR僅有423個(gè),比例僅為0.32%;重復(fù)類型為AG/GA/TC/CT和 AT/TA的 SSR數(shù)量較為接近,分別有29 587 個(gè)(22.16%)和 22 554 個(gè)(16.89%)。
在查找的SSR位點(diǎn)中有212 109個(gè)位點(diǎn)設(shè)計(jì)出符合條件的PCR引物,占總位點(diǎn)數(shù)的85.13%。隨機(jī)合成的50對PCR引物擴(kuò)增驗(yàn)證結(jié)果中有9對引物未能檢測出擴(kuò)增產(chǎn)物;41對引物檢測出擴(kuò)增產(chǎn)物,其中,在8份DNA樣品中擴(kuò)增產(chǎn)物帶型復(fù)雜或無多態(tài)性的引物有13對,其余28對引物擴(kuò)增產(chǎn)物帶型清晰、無(或少量)雜帶、具多態(tài)性。
采用“2.3”中多態(tài)性豐富、擴(kuò)增條帶清晰的28對SSR引物檢測分析中華鳑鲏泰州野生群體遺傳多樣性,28對引物中有21對引物擴(kuò)增效果穩(wěn)定、產(chǎn)物帶型清楚,其SSR特征見表3。21個(gè)SSR位點(diǎn)中每個(gè)位點(diǎn)觀測到等位基因3~13個(gè);觀測雜合度和期望雜合度分別為 0.306 7~0.914 5和0.384 5 ~0.952 1;多態(tài)性信息含量為 0.317 3 ~0.910 5;分析得到 Rs4、Rs9和 Rs36 3個(gè)位點(diǎn)存在無效等位基因;經(jīng)Bonferroni校正后,除 Rs4、Rs43、Rs44 3個(gè)位點(diǎn)外,其余位點(diǎn)等位基因頻率符合Hardy-Weinberg平衡;連鎖不平衡檢測表明,各位點(diǎn)間不存在連鎖不平衡現(xiàn)象。
SSR是由1~6個(gè)核苷酸為重復(fù)單元組成的DNA序列,在真核生物基因組中廣泛存在[15],有了生物基因組信息就可以分析基因組SSR特征。隨著基因組學(xué)研究技術(shù)進(jìn)步,世界上許多重要經(jīng)濟(jì)魚類基因組序列圖譜已經(jīng)繪制。我國鯉科魚類資源豐富,2014年和2015年我國研究人員先后完成了鯉魚(Cyprinuscarpio)[16]和草魚(Ctenopharyngodon idellus)[17]基因組測序工作,其中鯉魚基因組為16.9 Gb,雌草魚基因組0.9 Gb、雄草魚1.07 Gb。2016年Yang等完成了滇池金線鲃(S.grahami)、犀角金線鲃(S.rhinocerous)和安水金線鲃(S.anshuiensis)基因組序列研究工作,獲得3種金線鲃基因組序列分別為 1.75、1.73、1.68 Gb[18]。本試驗(yàn)利用 Illumina Miseq測序技術(shù)對中華鳑鲏基因組進(jìn)行掃描,獲得高質(zhì)量基因組序列43.38 Gb,組裝后的contigs序列長度達(dá)到5.17 Gb。參考草魚、金線鲃和鯉魚基因組大小,本次中華鳑鲏基因組測序深度大,基因組覆蓋率高,組裝后的contigs序列特征能代表基因組特征,因此本次開發(fā)的微衛(wèi)星標(biāo)記能反映中華鳑鲏基因組SSR標(biāo)記特征。
從查找到中華鳑鲏SSR位點(diǎn)來看,中華鳑鲏SSR種類較豐富,基因組中1~6核苷酸的重復(fù)SSR均存在,其中二核苷酸重復(fù)SSR占主導(dǎo)地位,占SSR總數(shù)的53.59%,其次是單核苷酸重復(fù)SSR,占SSR總數(shù)的34.19%,而3~6核苷酸重復(fù)SSR含量較低,均不超過8.00%。進(jìn)一步分析發(fā)現(xiàn),二核苷酸重復(fù)的4種類型SSR標(biāo)記數(shù)量相差較大,AC/CA/TG/GT重復(fù)序列SSR占二核苷酸標(biāo)記60.63%,GC/CG重復(fù)序列僅占0.32%,AG/GA/TC/CT和 AT/TA重復(fù)序列SSR分別占22.16%和16.89%。說明在中華鳑鲏基因組中以二核苷酸重復(fù)SSR標(biāo)記為主,AC/CA/TG/GT重復(fù)序列SSR數(shù)量豐富,而GC/CG重復(fù)序列SSR少見。在裸體異鰾鰍(Xenophysogobio nudicorpa)SSR特征分析中發(fā)現(xiàn),二堿基重復(fù)SSR占總SSR比例高達(dá)83.15%,AC/CA/TG/GT重復(fù)占二堿基重復(fù)SSR 49.36%,僅發(fā)現(xiàn)4個(gè)核心序列為GC/CG的重復(fù)類型[11];中華絨螯蟹(Eriocheir sinensis)基因組掃描分析結(jié)果表明,二堿基重復(fù)SSR占總SSR比例最高,達(dá)到58.54%,二堿基重復(fù) SSR中 AC/CA/TG/GT重復(fù)類型為 67.55%,GC/CG 重復(fù)類型不到0.01%[10]。裸體異鰾鰍和中華絨螯蟹SSR特征與中華鳑鲏SSR特征相似,說明AC/CA/TG/GT重復(fù)SSR在水產(chǎn)動(dòng)物基因組中分布較多,GC/CG重復(fù)SSR較少。
在高通量測序技術(shù)廣泛應(yīng)用之前,富集法成為開發(fā)SSR標(biāo)記最常用的方法。魯翠云等采用磁珠富集法結(jié)合放射性同位素雜交法得到 SSR序列 325個(gè),合成引物 145對,有44.62%SSR位點(diǎn)可以設(shè)計(jì)引物[19];郭寶英等采用生物素標(biāo)記的(CA)12探針從黑斑原鮡(Glyptosternum maculatum)基因組富集庫中篩選SSR標(biāo)記,結(jié)果124個(gè)含SSR序列中有59條可以設(shè)計(jì)引物,比例為47.58%[20]。本研究利用 Illumina Miseq測序技術(shù)開發(fā)中華鳑鲏SSR標(biāo)記,從基因組中查找到各種類型重復(fù) SSR位點(diǎn)249 167個(gè),由于組裝序列長,85.13%SSR位點(diǎn)可以設(shè)計(jì)出引物,PCR擴(kuò)增試驗(yàn)中合成的50對引物中僅9對引物未能得到擴(kuò)增產(chǎn)物。由此可以看出,利用高通量測序技術(shù)開發(fā)SSR標(biāo)記不僅數(shù)量大,而且拼接后序列長,可設(shè)計(jì)PCR引物的SSR位點(diǎn)比例高。
表3 中華鳑鲏21個(gè)多態(tài)性微衛(wèi)星位點(diǎn)的基本信息和遺傳多親性參數(shù)
21個(gè)多態(tài)性SSR檢測泰州地區(qū)中華鳑鲏群體結(jié)果顯示,每個(gè)SSR位點(diǎn)存在等位基因3~13個(gè),平均7個(gè),PIC平均值超過0.500 0,達(dá)到0.655 3,絕大多數(shù)標(biāo)記(21個(gè)標(biāo)記中的18個(gè))符合Hardy-Weinberg平衡,且各位點(diǎn)間不存在連鎖不平衡現(xiàn)象。上述結(jié)果表明,本研究開發(fā)21個(gè)多態(tài)性SSR標(biāo)記適用于我國中華鳑鲏野生資源評估和遺傳多樣性分析。