周茜 ,陳亞東 ,盧昇 ,劉洋 ,徐文騰 ,b,李仰真 ,王磊 ,王娜 ,b,楊英明 ,陳松林 ,b,*
a Key Laboratory for Sustainable Development of Marine Fisheries, Ministry of Agriculture, Yellow Sea Fisheries Research Institute, Chinese Academy of Fishery Sciences, Qingdao 266071, China
b Laboratory for Marine Fisheries Science and Food Production Processes, Pilot National Laboratory for Marine Science and Technology (Qingdao), Qingdao 266373, China
單核苷酸多態(tài)性(SNP)芯片是一種高質(zhì)量、便捷的基因分型平臺。使用SNP芯片,可同時檢測樣本中成千上萬的SNP,從而實現(xiàn)高通量和高效率的基因組研究和良種選育。SNP芯片已被成功用于多種經(jīng)濟物種的種質(zhì)鑒定、復(fù)雜性狀解析、分子標記輔助選育(MAS)和基因組選擇(GS)?;蚪M選擇利用全基因組范圍內(nèi)的遺傳標記來預(yù)測基因組估計育種值(GEBV),并選擇具有高GEBV的個體進行育種[1]?;蚪M選擇在育種中的應(yīng)用非常成功,例如,在許多國家,奶牛育種主要依賴基因組選擇和奶牛商業(yè)化SNP芯片[2,3]。
在過去幾年中,中國已經(jīng)完成了20多種魚類的全基因組測序[4]。全基因組序列的獲得,促進了養(yǎng)殖魚類基因組選擇技術(shù)和SNP芯片的研究和發(fā)展。近年來,研究人員研發(fā)了多種養(yǎng)殖魚類的SNP芯片,如大西洋鮭魚(Salmo salar)[5,6]、鯉魚(Cyprinus carpio)[7]、虹鱒(Oncorhynchus mykiss)[8]和鯰魚(Ictaluru spunctatus和Ictalurus furcatus)[9]。然而,目前尚無鲆鰈魚類SNP芯片及魚類抗病育種基因芯片的報道。在許多國家,包括中國、韓國和日本,牙鲆是一種重要的水產(chǎn)養(yǎng)殖品種,日本和中國分別于20世紀70年代初和20世紀90年代開始進行牙鲆的良種選育。然而目前,牙鲆養(yǎng)殖的可持續(xù)發(fā)展面臨多種挑戰(zhàn),如種質(zhì)退化、傳染病頻發(fā)和缺乏優(yōu)良品種等。因此,迫切需要先進的基因組育種技術(shù)培育優(yōu)良品種,以提高牙鲆養(yǎng)殖的產(chǎn)量和質(zhì)量。已有一些研究嘗試進行牙鲆的良種選育和養(yǎng)殖,例如,鑒定一個抗淋巴囊腫病相關(guān)微衛(wèi)星標記(Poli9-8TUF),并將其應(yīng)用于MAS[10];通過SNP遺傳連鎖圖譜定位了抗鰻弧菌(Vibrio anguillarum)病相關(guān)的數(shù)量性狀基因座(QTL)[11]等。這些研究有助于我們深化對抗病性狀遺傳結(jié)構(gòu)的認識。但是,標記數(shù)量少,限制了選擇育種的效果,而抗病性狀是由多個基因控制的復(fù)雜性狀,因此迫切需要采用基于全基因組范圍的SNP的基因組選擇進行良種選育[12,13]。
我們使用新一代測序(NGS)技術(shù)完成了牙鲆的全基因組測序和組裝[14],并基于大規(guī)?;蚪M重測序數(shù)據(jù)建立了牙鲆抗細菌病基因組選擇技術(shù)[15]。本研究中,我們設(shè)計、研發(fā)了一款牙鲆50K SNP芯片“魚芯1號”,以1099個牙鲆個體的基因組重測序數(shù)據(jù)為基礎(chǔ),篩選了高質(zhì)量且信息豐富的SNP研制芯片,并驗證了其基因分型效果。當使用“魚芯1號”芯片作為分型工具開展牙鲆抗細菌病基因組選擇時,獲得了較高的GEBV估計準確性。因此,“魚芯1號”芯片在抗病及其他重要經(jīng)濟性狀的基因組育種計劃中具有應(yīng)用潛力。任何感興趣的各方都可以公開獲得“魚芯1號”芯片。
“魚芯1號”芯片的SNP位點來自1099個牙鲆個體的全基因組重測序數(shù)據(jù),其中包括Liu等[15]報道的931個個體和本研究測序的168個個體(NCBI SRA登錄號SRP253464)。簡而言之,從鰭條組織中提取基因組DNA,根據(jù)標準方法(Illumina公司,美國)構(gòu)建雙端測序文庫。重測序原始短序列在Illumina HiSeq 2000測序平臺上產(chǎn)生,然后使用QC-Chain工具進行質(zhì)量過濾[16]以去除低質(zhì)量序列、接頭序列和不明核苷酸(N)等。使用Burrows-Wheeler aligner工具[17]將質(zhì)量控制后的序列比對到牙鲆參考基因組(NCBI登錄號GCA_001904815.2),然后使用GATK軟件(默認參數(shù))[18]預(yù)測SNP,以最小比對質(zhì)量值20、SNP質(zhì)量得分20和堿基質(zhì)量得分30等參數(shù)進行SNP質(zhì)量過濾,獲得初始SNP集。
通過多個步驟及參數(shù)對初始SNP集進行篩選。首先,使用PLINK(v1.07)計算最小等位基因頻率(MAF)和缺失率[19],去除MAF≤0.05和缺失率≥0.1的SNP;使用VCFtools(v0.1.14)[20]-hwe參數(shù)檢測哈迪-溫伯格平衡(Hardy-Weinberg equilibrium, HWE),并刪除嚴重偏離HWE(p< 0.01)的SNP;將過濾后的SNP及其上下游35 bp側(cè)翼序列提交至Affymetrix Axiom?myDesign GW生物信息分析流程(Thermo Fisher Scientific Inc.,美國)進行探針設(shè)計。在該流程中,每個SNP被分配一個p-convert值(介于0和1之間),表示給定的SNP在Affymetrix Axiom芯片系統(tǒng)上轉(zhuǎn)換為可靠SNP位點的概率,該值綜合考慮了SNP序列、結(jié)合能、預(yù)期的非特異性結(jié)合程度以及與多個基因組區(qū)域的雜交情況等。根據(jù)流程中的p-convert值和其他一些質(zhì)量控制指標,SNP被分類為“recommended”[p-convert值大于0.6,無干擾多態(tài)性(wobble)和polycount = 0]、“not recommended”(p-convert值小于0.4,或者無wobble大于等于3,或者polycount > 0,或者重復(fù)計數(shù)大于0)、“not possible”(在給定的鏈上不能構(gòu)建探針來分型該方向上的SNP)和“neutral”(其他)。僅保留“recommended”或“neutral”類SNP的探針以供進一步分析。同時,要求候選SNP的側(cè)翼序列沒有其他變異或重復(fù)元件,側(cè)翼序列的GC含量為30%~70%。
在此基礎(chǔ)上進行進一步過濾,以確保SNP在整個基因組中分布均勻。我們排除了大多數(shù)A/T和C/G類型的SNP,因為這些標記在Affymetrix Axiom芯片平臺上占據(jù)的空間是其他類型標記的兩倍。將最終選擇的SNP探針與2000個DQC探針(陰性對照)錨定在芯片上。最后,我們使用SNPeff(v4.2)預(yù)測芯片上SNP對牙鲆基因功能的潛在影響[21]。
為了評估“魚芯1號”芯片的分型效果,我們對168個牙鲆個體進行了基因分型,包括從基因組重測序樣品中隨機選擇的96個(用于初始SNP集發(fā)掘)和從基因組選擇參考群體中隨機選擇的72個[15]。
從每個樣品中提取基因組DNA,并根據(jù)Affymetrix Axiom?2.0檢測方案進行標記,最終DNA濃度為50 ng?μL?1,體積為10 μL。DNA雜交和芯片掃描在Affymetrix GeneTitan芯片系統(tǒng)(Thermo Fisher公司,美國)上完成,生成原始數(shù)據(jù)CEL文件。這些文件被導(dǎo)入Axiom Analysis Suite軟件中進行質(zhì)量控制和基因分型。樣品質(zhì)量控制參數(shù)為:DQC值≥0.82、檢出率≥0.97、合格樣品的百分數(shù)≥95%、合格樣品的平均檢出率≥98.5%(遵循“最佳實踐工作流程”),并采用默認的SNP質(zhì)量控制閾值過濾基因分型結(jié)果。
通過信號強度和聚類分析評估SNP的探針轉(zhuǎn)化質(zhì)量,并計算雜合/純合基因型的數(shù)量。根據(jù)這些指標,將SNP分為6類:“PolyHighResolution”(SNP具有良好的聚類分辨率,并且至少有兩個樣本具有最小等位基因)、“MonoHighResolution”(SNP具有良好的聚類分辨率,但是具有最小等位基因的樣本不到兩個)、“NoMinorHom”(SNP具有良好的聚類分辨率,但沒有樣本具有最小等位基因)、“OffTargetVariation”(OTV,被稱為脫靶變異集群)、“CallRateBelowThreshold”(SNP的檢出率低于閾值,但是其他屬性高于閾值)和“Other”(一個以上聚類屬性低于閾值)[22]。
為了進一步測試SNP芯片的基因分型質(zhì)量和準確性,我們從基因組重測序樣本中隨機挑選了96個個體,并比較了由這兩種方法獲得的基因型的一致性。
葡萄作為一種喜光植物,所以在促成栽培的過程中進行良好的光照調(diào)節(jié)是非常有必要的。為了更好的保證棚內(nèi)葡萄可以得到充分的光照,果農(nóng)每年都應(yīng)該為大棚更換新的無滴膜,在這個基礎(chǔ)上也可以通過在葡萄藤下設(shè)置反光膜和膜下滴灌技術(shù)來更好的保證葡萄的光合作用。
基于芯片分析獲得了168個個體的基因分型數(shù)據(jù),我們利用GCTA [23]工具進行了主成分分析(PCA),并繪制了第一個和第二個成分的主成分分析圖。
我們在前期工作中,利用全基因組重測序數(shù)據(jù),研究了基因組選擇技術(shù)在牙鲆抗遲緩愛德華氏菌(Edwardsiella tarda)選育中的應(yīng)用前景[15]。在本研究中,我們使用“魚芯1號”芯片對72個候選個體進行了基因分型,其中27個個體(包括14尾雄魚和13尾雌魚)是16個家系的親本。使用加權(quán)基因組最佳線性無偏預(yù)測(wGBLUP)估算GEBV,將雙親GEBV均值作為相應(yīng)家系的GEBV。估計育種值(EBV)利用包含四代系譜數(shù)據(jù)的最佳線性無偏預(yù)測(ABLUP)進行估算,(G)EBV估計的模型為:
式中,y是表型向量,其中包含個體表型值(0表示在感染實驗中死亡,1表示存活);b是固定效應(yīng)向量(包括均值、不同的感染實驗批次以及感染時的年齡);g是隨機效應(yīng)向量;e是隨機殘差。對于wGBLUP [24],假定隨機效應(yīng)向量服從N(0,G*σg2),其中G*為通過迭代算法得到的加權(quán)基因組關(guān)系矩陣[25]。對于ABLUP,假設(shè)g服從N(0,Aσg2),其中A是具有四代譜系的親緣關(guān)系矩陣;σg是加性遺傳方差;X和Z是構(gòu)造矩陣,分別用于聯(lián)系表型和固定效應(yīng)以及表型和個體隨機效應(yīng)。使用R腳本構(gòu)建加權(quán)G矩陣,并在R-ASReml中估算(G)EBV [26]。
由于已經(jīng)對16個子代牙鲆家系進行了遲緩愛德華氏菌感染實驗,wGBLUP和ABLUP的預(yù)測準確性可以通過家系GEBV和感染存活率進行評估。將受試者工作特征曲線(AUC)下面積[27]用作衡量wGBLUP和ABLUP預(yù)測準確性的指標。為了估計AUC,將16個家系的平均感染存活率(44.33%)作為閾值,高于和低于平均值的家系分別記為1和0。使用R-pROC估算AUC [28]。
本研究旨在研發(fā)牙鲆高質(zhì)量和標準化的SNP芯片,并驗證其在基因組選擇育種中的應(yīng)用效果。影響SNP芯片設(shè)計和質(zhì)量的因素很多,如初始SNP集的質(zhì)量、SNP過濾和篩選參數(shù)以及芯片生產(chǎn)技術(shù)等。Affymetrix公司和Illumina公司提供了兩種最常用的SNP芯片制作平臺。兩種平臺均使用靶標雜交技術(shù)檢測位點特異性探針,并且探針強度反映了相應(yīng)等位基因的豐度[29]。在Affymetrix芯片中,指定位置的探針平鋪在芯片表面以獲得SNP信息,而Illumina芯片則使用微珠固定探針,這些SNP基因分型平臺已被廣泛應(yīng)用于遺傳學(xué)研究。高通量NGS是一種用于鑒定全基因組SNP的有效技術(shù),可用于為SNP芯片篩選SNP。
我們對168條牙鲆進行全基因組重測序,在質(zhì)量控制后獲得了974.9 Gb的測序數(shù)據(jù)。將這些數(shù)據(jù)與來自90 個育種家系的931個個體的測序數(shù)據(jù)相結(jié)合,這931 個個體具有系譜信息并且具有不同的抗病表型[15]。最后,將1099個個體的3.54 Tb測序數(shù)據(jù)(見附錄A中的表S1)與參考基因組進行比對,鑒定了超過4220萬個SNP。不同家系個體的大規(guī)?;蚪M重測序使我們能夠獲得高質(zhì)量的候選SNP集,這對于芯片的SNP篩選非常有利。
初步鑒定的SNP集使用以下篩選步驟:首先,我們過濾并保留了MAF≥0.05、缺失率小于0.1和未顯著偏離HWE(p< 0.01)的SNP。MAF過濾排除了變異頻率很低的SNP,缺失率高表明該基因型在群體中的數(shù)量有限,HWE過濾排除了由測序錯誤和自然選擇引起的SNP。因此,這些過濾去除了可能影響結(jié)果的低質(zhì)量SNP。過濾后得到一個包含3 410 891個SNP的候選SNP集,這些SNP被提交到Affymetrixin silico探針設(shè)計流程,其中959 651個SNP通過了p-convert評估。最后,我們選擇了均勻分布于全基因組的48 697個SNP,這些SNP的平均p-convert值為0.684。
圖1.牙鲆“魚芯1號”SNP芯片中SNP位點的MAF。(a)MAF的比例;(b)MAF在24條染色體上的分布。
為了評估SNP在整個基因組中的分布,我們將芯片上的SNP位點與牙鲆參考基因組進行比對,計算了SNP位點間的距離。我們發(fā)現(xiàn),SNP廣泛分布于牙鲆基因組,且相鄰SNP位點間具有均勻的間隔,平均間隔距離為9.6 kb [圖2(a)]:5125個SNP間距小于6 kb、5175個(10.8%)SNP間距為6~7 kb、6315個(13.1%)SNP間距為7~8 kb、5471個(11.4%)SNP間距為8~9 kb、5546個(11.6%)SNP間距為9~10 kb、6017個(12.5%)SNP間距為10~11 kb、6557個(13.7%)SNP間距為11~12 kb、5964個(12.4%)SNP間距為12~13 kb;累計約96%相鄰SNP的間距大于13 kb。這些SNP均勻地分布在整個基因組中,在24條染色體中的平均間距的中位數(shù)為9.8 kb[圖2(b)]。對于SNP之間距離較大的區(qū)域,只有少數(shù)SNP符合篩選標準。
對芯片上的所有SNP進行注釋,并根據(jù)預(yù)測效應(yīng)將其分為不同的類別(表1)。在48 697個SNP中,有26 274個SNP(53.9%)位于基因區(qū),包括外顯子、內(nèi)含子、剪接位點以及基因上游和下游序列的1 kb區(qū)域?;騾^(qū)中兩個最豐富的類別是內(nèi)含子和同義突變,分別包含23 475個和1912個SNP。非基因區(qū)SNP包括1684個(3.46%)上游(距離起始密碼子1~5 kb)、1754個(3.60%)下游(距離終止密碼子1~5 kb)和18 985個(38.99%)基因間SNP。
表1 牙鲆“魚芯1號”SNP芯片上SNP位點的效應(yīng)類別
采用來自育種家系的168個DNA樣本評估了芯片的分型效果,其中166個樣本(98.2%)通過了樣本質(zhì)控,檢出率閾值為97%。針對基因型檢出率、聚類分離、多態(tài)性以及芯片與重測序分型的SNP的一致性,評估了“魚芯1號”芯片的基因分型效果。
圖2.牙鲆“魚芯1號”SNP芯片的位點間距分布。(a)24條染色體上的位點間距;(b)具有不同位點間距的SNP分布。
在“ 魚 芯1號 ” 芯 片 的48 697個SNP中, 有36 383個SNP(74.71%)通過了所有的質(zhì)量標準。在這些SNP位點中,有41.07%被歸類為多態(tài)性的(“PolyHighResolution”和“NoMinorHom”),有33.64%被歸類為單態(tài)性的(“MonoHighResolution”)。其他位點的基因分型質(zhì)量較差,聚類效果不好,被分類為“OTV”“CallRateBelowThreshold”或“Others”。檢測到較高比例(33.64%)的單態(tài)SNP,其中一些可能是SNP發(fā)掘過程中的假陽性,或者由于缺乏合適的檢測標記而無法對SNP進行有效鑒定。另外,我們使用的168 個個體與重測序進行SNP發(fā)掘的群體屬于同一群體,因此基因型非常相似;如果對更多的群體進行基因分型,則其中一些SNP可能是多態(tài)的。
我們比較了“魚芯1號”芯片獲得的基因型和重測序數(shù)據(jù)獲得的基因型。在包含96個樣本的測試中,應(yīng)用芯片成功對95個樣本實現(xiàn)基因分型。在分型成功的SNP位點中,14 899個(41.0%)位點與重測序數(shù)據(jù)獲得的結(jié)果一致,4002個(11.0%)、3421個(9.4%)和3162 個(8.7%)SNP的一致率分別為0.95~0.99、0.90~0.95和0.85~0.90。綜上所述,70%的SNP的一致率不低于85%,表明“魚芯1號”芯片和基因組重測序獲得的SNP分型結(jié)果能夠相互驗證。
群體結(jié)構(gòu)分析是許多群體遺傳學(xué)研究的基礎(chǔ)。為了評估“魚芯1號”芯片是否可以檢測群體分離狀況,我們基于168個個體的SNP進行了主成分分析。根據(jù)第一和第二主成分(PC),將所有樣本分為兩個組(圖3),分別對應(yīng)于我國河北省和山東省的起源/采樣地點,證明了“魚芯1號”具有表征群體結(jié)構(gòu)的能力。
選擇育種可以對魚類的重要經(jīng)濟性狀進行遺傳改良。我們基于不同的育種家系和遲緩愛德華氏菌人工感染,完成了牙鲆抗病基因組選擇技術(shù)的研究[15]。為了測試“魚芯1號”芯片在基因組選擇中的應(yīng)用效果,我們應(yīng)用芯片對16個隨機選擇的家系的親本(共27個個體)進行基因分型,并利用參考群體估算了(G)EBV [15]。其中7個家系的平均存活率是61.13%(命名為抗病家系),其余9個家系的平均存活率為31.27%(命名為易感家系),抗病家系的平均GEBV(2.10)高于易感家系的平均GEBV(1.56)(表2)。由圖4可知,wGBLUP的預(yù)測準確性高達80%,超過了ABLUP方法(66%),并且與ABLUP方法相比,將SNP芯片和wGBLUP相結(jié)合預(yù)測育種值的準確性相對提高了21.21%。此外,GEBV與EBV之間中等強度相關(guān)(Pearson相關(guān)系數(shù)為0.70),表明基因組選擇方法和ABLUP方法預(yù)測育種值的準確性具有差異。我們的結(jié)果與已報道的魚類抗病基因組選擇研究一致,即與ABLUP方法相比,基因組選擇方法在GEBV估計方面表現(xiàn)得更好,預(yù)測準確性提高了13%~52% [30–32]。上述結(jié)果表明,“魚芯1號”芯片可用于牙鲆抗病基因組選擇育種。然而,本研究中用于估計GEBV的個體數(shù)有限,不能完全模擬牙鲆抗遲緩愛德華氏菌的基因組選擇,因此,需要增加個體數(shù)目以全面評估“魚芯1號”芯片用于基因組選擇的效果。目前,我們正在努力增加參考群體和候選群體的樣本數(shù)量,并使用SNP芯片完成基因分型。
表2 16個牙鲆家系感染遲緩愛德華氏菌后的存活率及估計育種值
圖3.使用牙鲆“魚芯1號”芯片獲得的基因分型結(jié)果開展種群結(jié)構(gòu)主成分分析?!癏ebei”“Shandong”分別表示在我國河北省和山東省收集的個體。
圖4.使用受試者工作特征曲線評估wGBLUP和ABLUP對基因組選擇的預(yù)測準確性。
本文報道了牙鲆50K“魚芯1號”SNP芯片的設(shè)計和研發(fā)。利用1099個個體的全基因組重測序數(shù)據(jù),鑒定了超過4220萬個變異位點的起始SNP集;根據(jù)MAF、基因組位置和Thermo Fisher Axiom?技術(shù)的探針設(shè)計建議,選擇了48 697個SNP制作芯片。利用“魚芯1號”芯片,獲得了168個樣本的高質(zhì)量的基因分型數(shù)據(jù),這些數(shù)據(jù)用于抗病基因組選擇中的效果與已報道的研究一致,預(yù)測準確性高于傳統(tǒng)基于系譜的BLUP方法。結(jié)果表明,“魚芯1號”芯片適用于重要經(jīng)濟性狀的基因組選擇,可以為牙鲆基因分型和良種選育提供一個重要的技術(shù)平臺。
致謝
本研究得到了山東省自然科學(xué)基金(ZR2016QZ003)、國家自然科學(xué)基金(31461163005)、中央級公益性科研院所基本科研業(yè)務(wù)費(2020TD20和2016HY-ZD0201)、青島海洋科學(xué)技術(shù)國家實驗室支持的鰲山科技人才培養(yǎng)計劃(2017ASTCP-OS15),以及山東省泰山學(xué)者攀登計劃項目的支持。
Authors’ contribution
Song-lin Chen obtained the funding, and conceived and instructed the study.Qian Zhou performed the SNP selection and probe design for the SNP array.Ya-dong Chen and Yang Liu prepared the DNA sample.Qian Zhou, Sheng Lu, and Yadong Chen performed the SNP array scanning and analyzed the genotyping data.Sheng Lu performed GEBV calculation.Yang-zhen Li, Lei Wang, and Yingming Yang performed the family construction and bacterial challenging experiment.Wen-teng Xu and Na Wang participated the project managements.Qian Zhou, Sheng Lu, and Song-lin Chen wrote the manuscript.All authors reviewed the manuscript.
Compliance with ethics guidelines
Qian Zhou, Ya-dong Chen, Sheng Lu, Yang Liu, Wenteng Xu, Yang-zhen Li, Lei Wang, Na Wang, Ying-ming Yang, and Song-lin Chen declare that they have no conflict of interest or financial conflicts to disclose.
Appendix A.Supplementary data
Supplementary data to this article can be found online at https://doi.org/10.1016/j.eng.2020.06.017.