欒培賢,張曉峰,戶國
(中國水產科學研究院黑龍江水產研究所,黑龍江 哈爾濱 150070)
水產動物遺傳資源是漁業(yè)生產和可持續(xù)發(fā)展的基礎,也是滿足未來不可預見需求的重要基因庫。因此,世界主要國家均極為重視水產動物遺傳資源的保護。在制定保護計劃過程中,為使有限的人、財、物力發(fā)揮更好的效果,需要對保護的資源進行選擇,區(qū)別需要保護的緊迫性和重要性,客觀地評價物種及地理居群受威脅的狀況[1]。受自然環(huán)境變遷及水利工程、過度捕撈、外來物種入侵等人類活動影響,我國東北、西北、西南等廣大內陸地區(qū)自然水域以魚類為代表的水產動物遺傳資源都趨于衰退[2]。
一般說來,水產動物自然群體或小規(guī)模保種群體會發(fā)生小群體近交、個體生殖策略改變、個體小型化等情況,導致基因組某些位點的等位基因頻率改變或者丟失,非等位基因組合發(fā)生顯著變化[3]。這些基因組核苷酸水平的微小變化會體現(xiàn)在個體間親緣系數(shù)改變,體質量、體型以及適應性等重要經濟性狀的加性效應和非加性效應方差組分變化[4]。有鑒于此,研發(fā)高效易行的水產動物基因組近交分析方法并在水生野生動物保護實踐中應用,已成為保護遺傳學和水產生物技術領域共同關心的重要問題之一。
本研究用高通量的SNP 分子標記替代傳統(tǒng)家養(yǎng)群體中的系譜記錄信息,擬開發(fā)精準快速的軟件工具包,在無系譜信息魚類的野生自然群體或捕獲群體中構建實現(xiàn)分子親緣關系矩陣,以多種分析方法解析并呈現(xiàn)群體遺傳特征,提供如基因組共祖系數(shù)(Genomic coancestry coefficient)、顯性親緣關系(Dominance coefficient)、血緣同源(Identity By Descent,IBD)、狀態(tài)同源(Identical By State,IBS)、基因組近交系數(shù)(Genomic inbreeding coefficient)、多維標度分析(Multidimensional Scaling,MDS)及群體遺傳結構等統(tǒng)計基因組分析領域常見統(tǒng)計參數(shù)的估計值。本軟件可以應用于水產動物遺傳資源受威脅程度及保種群體規(guī)模需求量化分析方法研究,并為評價內陸珍稀水產動物小群體保種、親本遺傳管理及種群修復效果提供新的技術途徑和科學可靠的參考依據(jù)。
本軟件以試驗群體全部個體的全基因組范圍內SNP 標記的分型數(shù)據(jù)為數(shù)據(jù)流起點;經過核心處理過程對輸入數(shù)據(jù)進行全面的預處理,如樣本分組、SNP 位點篩選、數(shù)據(jù)格式轉換,將預處理后得到的最終數(shù)據(jù)集作為模型估計的輸入信息;根據(jù)所框選的統(tǒng)計模型和分析算法完成基因組SNP 標記的各類親緣關系參數(shù)的估計,最終以多種分析方法解析并呈現(xiàn)群體遺傳特征,數(shù)據(jù)流和功能結構如圖1所示。
圖1 技術路線Fig.1 Technical route
本軟件采用數(shù)據(jù)處理層、模型工具層和可視化交互層的C/S 三層交互性構架結構設計(圖2)。數(shù)據(jù)處理層包含SNP 基因分型數(shù)據(jù)集、個體和分組等數(shù)據(jù)的預處理;模型工具層包含集成的開源分析工具(內嵌了R、Perl 等軟件及工作環(huán)境),可作為數(shù)據(jù)處理、模型建立、參數(shù)估計和計算結果統(tǒng)計分析的工作環(huán)境;可視化層包含工具包可視化交互環(huán)境,以及親緣關系和群體遺傳結構分析的可視化呈現(xiàn)。
圖2 軟件開發(fā)的三層交互結構Fig.2 Three layers interactive structure in software development
本軟件是在Windows 操作系統(tǒng)下,基于VB.NET 2012 語言、開源工具包(R、PLINK[5]和GVCBLUP[6]、LEA[7]、SnpSift[8])開發(fā)完成,可在安裝有Microsoft.NET Framework 4.0 運行環(huán)境的Windows 10 操作系統(tǒng)上運行。為使本軟運行穩(wěn)定流暢,操作系統(tǒng)的硬件配置不低于酷睿i3 處理器、主頻2.13 GHz、4 GB內存和128 GB 硬盤。
本軟件通過原始數(shù)據(jù)提交、數(shù)據(jù)預處理、遺傳分析等3 個功能模塊實現(xiàn)其功能,具體情況如下:
工具包使用者通過原始數(shù)據(jù)提交模塊,選擇需要分析的原始數(shù)據(jù)(VCF 格式文件)。原始數(shù)據(jù)提交后,工具包會自動解析原始數(shù)據(jù)信息,給出所提交數(shù)據(jù)集中樣本數(shù)量和SNP 標記數(shù)量信息等相關信息,如圖3 所示。
圖3 原始數(shù)據(jù)提交模塊Fig.3 VCF file submission module
該模塊是數(shù)據(jù)分析前的重要預處理環(huán)節(jié),用來對原始數(shù)據(jù)進行數(shù)據(jù)質量控制、SNP 標記篩選和樣本標簽的管理(圖4)。選擇有效的約束條件和控制標準,可以降低數(shù)據(jù)背景噪聲,提高結果的準確性和可讀性。使用者可以通過多種技術手段高通量獲得全基因組范圍內SNP 基因分型信息,如基因組重測序、簡化基因組測序和基因芯片等。由于建庫方式、測序量等不同,使全基因組范圍內各個SNP 座位的數(shù)據(jù)完整性不同。該模塊能夠對原始數(shù)據(jù)進行質量控制,設定次要等位基因頻率、哈溫平衡檢測顯著水平、缺失基因型比例等閾值,使每個樣本用于進一步分析的SNP 標記具有較好的一致性。
圖4 數(shù)據(jù)預處理模塊Fig.4 Data preprocessing module
基因分型文件內的樣本標簽多為測序分析公司內部編號。為了滿足分析的實際要求,需將無意義的測序編號對應有序的一組個體編號上。此外,進行群體遺傳結果分析時,也需要為個體所在群體指定群體編號。使用者需要將基因分型的個體編號與分析編號、群體編號相互對應,保存在文檔中進行上傳。
該模塊是本軟件的核心模塊,集成了多種開源工具包,估計個體近交水平和個體間基因組親緣關系,分析群體遺傳結構等。使用者只需點選所需分析內容(圖5),軟件工具通過后臺調用集成在本軟件內的分析工具,即可在后臺完成全部分析過程,輸出相應結果。
圖5 遺傳分析模塊Fig.5 Genetic analysis module
2.3.1 個體近交分析
該子模塊基于全基因組范圍內的SNP 標記估計個體近交水平,使用者通過個體分組信息,可進一步獲取不同群體的近交水平等信息。該工具包提供兩種個體基因組近交系數(shù)的估算方法:一是經典數(shù)量遺傳學理論基于個體加性關系矩陣對角線元素計算個體近交系數(shù);二是群體遺傳學基于觀測和期望純合子關系評估個體近交系數(shù)。
2.3.2 親緣關系分析
該子模塊提供多種基因組親緣關系參數(shù)估計方法,如共祖系數(shù)、顯性親緣關系、血緣同源(IBD)、狀態(tài)同源(IBS)等,可從多個維度解析樣本個體間的親緣關系構成。使用者可以根據(jù)分析需求,選取關注的基因組親緣關系參數(shù),同時還能選擇參數(shù)估計的模型。
2.3.3 群體遺傳分析模塊
該子模塊基于高通量SNPs 標記計算分析常見群體遺傳結構參數(shù)。多維標度分析(MDS)是一種類似于主成分分析(Principal components analysis,PCA)的降維分析方法??稍诙S或三維空間展示個體間的基因組相似性,呈現(xiàn)出基于基因組相似性的個體空間散布圖,展示群體結構。本軟件還集成了LEA 工具,利用非連鎖的SNP 標記估計群體遺傳組成單元,推測現(xiàn)有群體中個體的原始來源。
采用本軟件,以利用SLAF-seq 技術分子標記開發(fā)的SNP 數(shù)據(jù)集為示例,按如下流程分析了新疆兩個白斑狗魚Esox lucius 群體共計68 尾個體(圖6)。該數(shù)據(jù)集將酶切片段長度在414~464 的序列定義為SLAF 標簽,預測到138 626 個SLAF 標簽。實驗中選擇RsaI+HaeIII 的酶切方案,共得到189.71 Mreads,獲得多態(tài)性的SLAF 標簽313 663 個。
圖6 野生魚類親緣關系和近交水平分析流程Fig.6 Analysis flowing chart of genomic relatedness and inbreeding of wild fishes
在數(shù)據(jù)預處理模塊中,用戶可以根據(jù)自身對測序數(shù)據(jù)集質量控制的需要設置相應參數(shù),獲得相應的數(shù)據(jù)集用于進一步遺傳分析。本研究相關參數(shù)設置為測序質量值QUAL 不低于30,次要等位基因頻率不低于0.05,位點哈溫平衡顯著水平設置為0.01,每個SNP 位點的完整性為95%,樣本編號信息采用自定義編號。原始數(shù)據(jù)進行預處理之后,得到14 124 個位點的高質量數(shù)據(jù)。在遺傳分析模塊中,直接點選全部四種基因組親緣關系分析方法,并勾選定義6 估計共祖系數(shù)和顯性親緣關系;選擇PLINK 估計方法,估計個體的基因組近交系數(shù)。在群體遺傳分析模塊中,選擇默認參數(shù),用LEA 和MDS 兩種分析方法顯示群體遺傳結構。
可以直接下載基因組近交系數(shù)估計值,也可將個體的近交系數(shù)估計值以柱形圖的形式展示(圖7)。
圖7 近交系數(shù)柱形圖Fig.7 Histogram of genomic inbreeding coefficient
共祖系數(shù)、顯性親緣關系、血緣同源、狀態(tài)同源等基因組親緣關系參數(shù)均以熱圖方式呈現(xiàn)。本文中以共祖系數(shù)為例,以熱圖形式展示相關結果(圖8)。
圖8 共祖系數(shù)熱圖Fig.8 Heatmap of genomic coancestry coefficient
基于LEA 推測群體構成結構(圖9),用MDS方法展示個體空間散布圖(圖10),兩種群體遺傳結構分析的常用方法也可以直接以圖形的方式從軟件輸出。
圖9 個體遺傳來源估計結果展示圖Fig.9 Histogram of individual ancestral genetic source estimation
圖10 二維MDS 散點圖Fig.10 Two dimensional plot of MDS
目前,增殖放流已成為水生生物資源養(yǎng)護的一項重要措施之一[9]。但是,野生自然群體沒有遺傳結構清晰的系譜記錄信息,傳統(tǒng)的標志放流方法無法準確評估有效群體規(guī)模、近交率等遺傳滅絕風險指標,無法精確量化評價遺傳資源瀕危程度[10]。一些研究者和社會觀察家認為,如果僅靠單純數(shù)量意義上的增殖放流不僅會在經濟、環(huán)境和增殖放流效果等方面不可持續(xù),而且會降低野生群體的遺傳多樣性,使得種群遺傳結構趨于簡單化[11]。同樣,野生自然群體沒有遺傳結構清晰的系譜記錄信息,無法采用傳統(tǒng)家養(yǎng)動物的遺傳評定手段[12],有時甚至會出現(xiàn)放流種群非土著居群后代,占據(jù)了土著種群的生存空間和生態(tài)位,替代本地野生群體;或者放流群體與本地土著群體發(fā)生遺傳交流,改變本地野生群體的遺傳組成,破壞本地魚類遺傳資源。
現(xiàn)階段,人們可以方便快捷并廉價地獲得基于二代、三代測序技術的高通量SNP 分子遺傳標記,應用這些標記信息就可以準確地估計野生水生動物的基因組近交水平。在開展?jié)O業(yè)資源養(yǎng)護過程中,必須考慮水產動物基因組近交水平等因素。為此,本軟件為一線野生水生動物保護工作者集成了現(xiàn)有依托于不同環(huán)境如R、Perl 及常用獨立群體基因組學軟件包的功能,提供了主流群體基因組和保護遺傳學常用基因組參數(shù)估計,并利用VB.Net 予以界面可視化,實現(xiàn)全程鼠標點選即可實現(xiàn)高難度的群體基因組學分析。
遺傳模擬分析中,本軟件集成的各類方法理論上適用各種二倍體有性生殖動物。本研究還選取了新疆重要的土著經濟魚類白斑狗魚群體的SLAF 簡化基因組測序數(shù)據(jù)集作為本研究的實際案例,用于確認軟件功能的有效性,也取得了實際效果。盡管如此,在樣本量較大或受成本制約等情況下,有時仍會考慮使用SSR 等傳統(tǒng)分子標記。因此,本研究也拓展了可以兼容SSR 標記的分子標記共祖分析方法[13,14],將在下一階段軟件升級時集成整合。該軟件的推廣和應用有望提升漁業(yè)領域的保種技術水平,推動我國水產動物種質資源保存及管理工作。
綜上所述,本軟件包界面簡約友好,功能較為全面,預期可以應用在水產動物種質資源保存管理、土著魚類野生種群修復效果評價等很多領域。本軟件提供的基因組近交分析工具可以協(xié)助建立基于水產動物遺傳資源瀕危程度評價模型,計算水產動物同一群體內或不同群體間個體親緣關系、近交系數(shù)、保種所需有效群體規(guī)模等,并在此基礎上,設計小群體保種的合理交配策略。