王傳聰, 唐修陽, 項 杰, 歐江濤
(鹽城工學院海洋與生物工程學院,江蘇鹽城 224051)
羅氏沼蝦別稱馬來西亞大蝦,隸屬節(jié)肢動物門、甲殼綱、十足目、長臂蝦科、沼蝦屬。原產(chǎn)于南亞、東南亞以及大洋洲北部等地區(qū),生活在淡水或咸淡水水域,自然棲息于受潮汐影響的河口區(qū),是一種較大型的熱帶經(jīng)濟蝦類[1],具有生長快、肉質(zhì)營養(yǎng)成分好以及養(yǎng)殖周期短等優(yōu)點,素有“淡水蝦王”之稱[2]。然而,隨著集約化養(yǎng)殖的快速發(fā)展,一些嚴重的疾病已在羅氏沼蝦中流行,包括由新型病原——螺原體引起的2010年羅氏沼蝦螺原體病,引發(fā)大規(guī)模的死亡,給水產(chǎn)養(yǎng)殖業(yè)造成重大經(jīng)濟損失。這些水產(chǎn)動物病害在帶來巨大經(jīng)濟效益損失的同時,也嚴重制約了羅氏沼蝦產(chǎn)業(yè)的可持續(xù)發(fā)展[3]。因此,及時開展羅氏沼蝦的抗病研究是極為重要的。
微衛(wèi)星標記是目前最常用的分子標記之一。由于與其他分子標記相比,它具有保守性高、多態(tài)性豐富、在基因組中分布廣泛等特點[3],近年來,在動物遺傳連鎖圖譜的構(gòu)建、種質(zhì)鑒定、遺傳多樣性分析以及分子標記輔助育種等領域被廣泛應用。目前在水生動物的相關研究中,研究者已經(jīng)對牙鲆、二長棘鯛、興國紅鯉、中國明對蝦等品種進行了轉(zhuǎn)錄組測序,并基于測序結(jié)果對所得數(shù)據(jù)進行了深入分析[4-7]。因此,開展羅氏沼蝦轉(zhuǎn)錄組簡單重復序列(simple sequence repeat,簡稱SSR)的研究具有重要的理論和現(xiàn)實意義。本研究通過對羅氏沼蝦轉(zhuǎn)錄組測序,篩選出SSR位點,對其進行數(shù)量分析和多態(tài)性評價等,從而為羅氏沼蝦基因克隆、遺傳圖譜構(gòu)建、遺傳多樣性分析以及為羅氏沼蝦病害防治和選育種工作等提供基礎數(shù)據(jù)。
羅氏沼蝦:購于江蘇省南京市仙林農(nóng)貿(mào)市場,個體質(zhì)量在20~25 g,共計100尾,用PCR方法檢測螺原體,結(jié)果均呈陰性,在26~28 ℃水溫條件下養(yǎng)殖備用。螺原體MR-1008:分離于江蘇省高郵市自然發(fā)病的羅氏沼蝦,在R2液體培養(yǎng)基中于30 ℃孵育48 h,待其生長到最具有侵染能力的對數(shù)期備用。
采用TRIzol提取法提取羅氏沼蝦肝胰腺組織總RNA,提取產(chǎn)物用15 g/L瓊脂糖凝膠電泳進行質(zhì)檢。質(zhì)檢合格的樣品保存在干冰中送往聯(lián)川生物公司進行測序。
經(jīng)Illumina HiSeq2000/2500進行測序,在健康羅氏沼蝦和螺原體感染羅氏沼蝦的肝胰腺組織中得到總mRNA原始數(shù)據(jù)(raw reads)分別為 53 070 612、61 244 504條,對raw reads進行過濾得到有效數(shù)據(jù)(clean reads)分別為 52 757 004、60 719 728條(表1)。將得到的有效數(shù)據(jù)使用Trinity軟件進行拼接,最終得到33 450條Unigenes(總長度 29 327.225 kb)對應43 405個轉(zhuǎn)錄本,長度在200~2 000 bp之間的超過85%,符合基因轉(zhuǎn)錄本的長度規(guī)律(表2)。
表1 測序數(shù)據(jù)預處理結(jié)果
注:Q20和Q30分別代表堿基被測錯的概率P為1%和1‰,其計算公式為Q= -10lgP。GC為G和C的數(shù)量總和占總堿基數(shù)量的百分比,用于檢測有無AT、GC分離現(xiàn)象。
SSR檢測是以組裝出來的Unigene作為參考序列,使用MISA軟件批量識別和定位所有SSR,然后對羅氏沼蝦轉(zhuǎn)錄組SSR數(shù)據(jù)進行分類統(tǒng)計分析。
表2 拼接結(jié)果統(tǒng)計
注:N50表示將Unigenes從長到短排序,依次累加Unigenes堿基數(shù)后,Unigenes總堿基數(shù)50%的Unigenes的長度,轉(zhuǎn)錄本同。
對組裝所得的33 450條unigenes序列進行比對篩選,結(jié)果發(fā)現(xiàn)15 356個SSR位點,分布在12 930條Unigenes上,發(fā)生頻率(含有SSR的Unigenes條數(shù)占總Unigenes條數(shù)的比例)為38.65%,其中10 504條Unigenes序列只含有單個SSR位點,2 426條Unigenes序列含有2個或2個以上的SSR位點。由表3可知,羅氏沼蝦的SSR序列平均距離為1.91 kb,總長度為230 820 bp,平均長度為15 bp。
羅氏沼蝦轉(zhuǎn)錄組中各種SSR出現(xiàn)頻率差異較大,各類型出現(xiàn)的頻率不同,主要為單核苷酸、二核苷酸、三核苷酸重復(圖1)。單核苷酸重復的SSR數(shù)量最多,其分布頻率為17.70%,占羅氏沼蝦總SSR的38.56%,其次為二核苷酸重復,其分布頻率為16.53%,占羅氏沼蝦總SSR的36.00%,三核苷酸重復的SSR分布頻率為10.71%,占羅氏沼蝦總SSR的23.32%。四核苷酸、五核苷酸、六核苷酸重復類型的SSR類型較少,分布頻率分別為0.53%、0.24%、0.21%,分別占羅氏沼蝦總SSR的1.15%、0.52%、0.45%。
表3 SSR在羅氏沼蝦轉(zhuǎn)錄組中出現(xiàn)的頻率
由表4可知,羅氏沼蝦SSR重復次數(shù)為5、6、7、12次的SSR位點較多,分別為2 245、4 540、1 647、1 796個,分別占羅氏沼蝦總SSR的14.62%、29.56%、10.73%、11.70%,其次為重復8、13、14次的SSR位點,分別為938、1 216、925個,分別占總SSR的6.11%、7.92%、6.02%,重復次數(shù)≥16次的SSR位點相對較少,總共為1 277個,占總SSR的8.32%。
羅氏沼蝦轉(zhuǎn)錄組中共搜索到512種不同序列類型的SSR,其中單核苷酸、二核苷酸、三核苷酸、四核苷酸、五核苷酸和六核苷酸重復序列類型分別有40、66、201、89、60、56種。單核苷酸中出現(xiàn)的重復類型多為A/T,分別占羅氏沼蝦總SSR的39.33%,C/G類型單核苷酸序列的SSR非常少。在二核苷酸重復中主要以GA/TC、AG/CT和AT/TA為主,分別為1 184、1 501、1 300個,分別占二核苷酸重復SSR的21.42%、27.15%、23.52%,分別占羅氏沼蝦總SSR的7.71%、9.77%、8.47%。三核苷酸重復在羅氏沼蝦總SSR中的占比較大,其重復類型見表5。各種三核苷酸重復類型出現(xiàn)的數(shù)量差別較大,其中AAT/TTA出現(xiàn)的數(shù)量最多,為216個,出現(xiàn)頻率為0.65%,占羅氏沼蝦總SSR的1.41%;其次為AAG/TTC、ATT/TAA、CCT/GGA、CTC/GAG、CTT/GAA,分別為204、187、197、191、215個,分別占羅氏沼蝦總SSR的1.33%、1.22%、1.28%、1.24%、1.40%;其中CGG/GCC出現(xiàn)的數(shù)量最少,僅為8個,占羅氏沼蝦總SSR的0.05%。
由圖2可知,羅氏沼蝦SSR重復長度分布中重復長度最小為12 bp,最大為25 bp,平均長度為15 bp。其中重復長度主要為12~16 bp及18 bp,占羅氏沼蝦總SSR的86.33%,其次是重復長度為17 bp及20~22 bp,占羅氏沼蝦總SSR的11.91%,重復長度在19 bp和≥23 bp的SSR位點數(shù)相對較少,分別僅占羅氏沼蝦總SSR的0.79%、0.96%。根據(jù)該結(jié)果,可推測該研究中Ⅱ型SSR(長度為12~<20 bp)的比例為89.07%,具有中等多態(tài)性,有較高的潛在可用性。而具有高度多態(tài)性的Ⅰ型SSR(長度≥20 bp)則較少。
利用軟件對成功篩查到的SSR位點所在的12 930條Unigene序列進行功能注釋。通過Blast比對,有410個Unigene被注釋到NCBI Nr數(shù)據(jù)庫的已知序列,并呈現(xiàn)較高的相似性和同源性,但有96.83%的Unigene未得到任何注釋。
表4 羅氏沼蝦SSR重復次數(shù)分布
將15 356條SSR位點所在的12 930條Unigene序列注釋到KOG數(shù)據(jù)庫中進行相關基因功能的預測和分類。結(jié)果顯示其中的275條Unigene(2.13%)能夠在KOG找到相應的注釋信息,根據(jù)其功能可以被分為22類(圖3),并對其進行數(shù)量統(tǒng)計。從分析結(jié)果可以看出,這275條被注釋的Unigene功能種類較為全面,涉及大多數(shù)的生命活動過程或功能?!耙话愎δ茴A測”是最大的一個分類,包含57條Unigene。其次是“信號轉(zhuǎn)導機制”“翻譯后修飾,蛋白質(zhì)周轉(zhuǎn),分子伴侶”和“RNA加工和修飾”,分別包含34、26和19條Unigene?!昂私Y(jié)構(gòu)”這個分類中包含的Unigene數(shù)最少,僅有1條。
本研究通過IlluminaHiSeq2000/2500高通量測序平臺對羅氏沼蝦肝胰腺組織轉(zhuǎn)錄組測序,從大量組裝所得轉(zhuǎn)錄組Unigene序列中篩選獲得15 356個SSR位點。相對于傳統(tǒng)微衛(wèi)星標記的篩選方式,此方法篩選效率較高,工作量相對較小,適合大范圍開拓SSR標記位點[7]。
SSR在整個基因組的不同位點都有分布,多態(tài)信息含量(polymorphism information content,簡稱PIC)起衡量基因位點多態(tài)性的作用,通常PIC能反映某個群體的遺傳變異程度、位點多樣性等[8]。另外SSR片段長度也是判斷其多態(tài)性的重要依據(jù)[9]。從轉(zhuǎn)錄組數(shù)據(jù)篩選得到的SSR中,重復序列長度在12 bp以上的SSR標記位點數(shù)占總SSR數(shù)的76.95%,多態(tài)性較豐富,基于該研究結(jié)果能夠進行有針對性的引物設計。在數(shù)量性狀位點(QTL)定位研究及遺傳連鎖圖譜的構(gòu)建中,SSR多態(tài)性越高,所建立的圖譜越精密和精確,基因的定位越精準[10-11]。
隨著微衛(wèi)星輔助育種技術的廣泛應用,通過遺傳操作培養(yǎng)出羅氏沼蝦抗病品種,是蝦病控制中一個值得選擇的方法。已有的研究表明,疾病發(fā)生時群體內(nèi)會有顯著的變異,通過微衛(wèi)星等標記對發(fā)病動物中死亡群體和存活群體的遺傳變異進行研究,有望獲得與抗病性狀相連鎖的標記,進而對抗病基因進行標記和定位以培育出具有持久抗病能力的優(yōu)良品種[12]。
本研究對羅氏沼蝦SSR的分布特征進行分析,不僅在RNA水平上體現(xiàn)了羅氏沼蝦SSR的分布特點和規(guī)律,而且也為開發(fā)羅氏沼蝦功能基因奠定了SSR分子標記基礎,同時也為羅氏沼蝦QTL定位、基因克隆、遺傳結(jié)構(gòu)分析及其他遺傳學研究提供了有效的分子標記。
表5 三核苷酸SSR不同重復單元的比例
注:頻率為含有SSR的Unigenes數(shù)與總Unigenes數(shù)之比;占比為該重復基元SSR占總SSR的比例。