孫正文,匡猛,馬峙英,王省芬
?
利用CottonSNP63K芯片構建棉花品種的指紋圖譜
孫正文1,匡猛2,馬峙英1,王省芬1
(1河北農業(yè)大學農學院/教育部華北作物種質資源研究與利用重點實驗室,河北保定 071001;2中國農業(yè)科學院棉花研究所/棉花生物學國家重點實驗室,河南安陽 455000)
利用SNP位點的單拷貝特性,結合陸地棉TM-1參考基因組序列信息,篩選基因組特異的SNP。以719份遺傳背景來源廣泛的陸地棉種質資源為材料,采用Illumina公司開發(fā)的CottonSNP63K芯片,利用GenomeStudio軟件對芯片掃描所獲得原始數(shù)據(jù)進行基因型數(shù)據(jù)質量控制,獲得待測樣品SNP位點的基因型數(shù)據(jù)。根據(jù)已公布的陸地棉TM-1基因組的兩個版本——中國農業(yè)科學院棉花研究所版本(AD1)genome BGI v1.0與南京農業(yè)大學版本(AD1)genome NBI v1.1為參考序列,對CottonSNP63K芯片(63 058個SNP)各位點的側翼序列分別進行全基因組Blast比對分析,以篩選具有單拷貝特性的特異SNP位點并用于樣品指紋圖譜的構建。利用CottonSNP63K芯片對719份材料進行SNP位點基因分型,主要表現(xiàn)為無檢出信號的SNP位點、無多態(tài)性的SNP位點、具有多態(tài)性的SNP位點,而具有多態(tài)性的SNP位點的分型結果又可分為單位點SNP(基因組特異SNP)、雙位點SNP和多位點SNP。通過對兩個已公布的陸地棉TM-1參考基因組序列Blast比對結果表明,中國農業(yè)科學院棉花研究所TM-1基因組版本比對獲得基因組特異SNP標記為5 474個,而南京農業(yè)大學TM-1基因組版本比對獲得基因組特異SNP標記僅為1 850個,兩者共有的特異SNP為1 594個,進一步通過分型效果、檢出率及多態(tài)性3個評價指標,篩選score值≥0.7,call frequency值≥0.95,且MAF值≥0.2的SNP位點,獲得471個分型效果理想,檢出率高且多態(tài)性較高的特異SNP位點。在471個SNP位點中,430個位于染色體上,41個位于scaffold片段上??紤]到標記間的連鎖程度,剔除連鎖標記37個,最終獲得393個核心SNP位點。利用393個核心SNP構建了719份品種資源的特征DNA指紋圖譜,除個別材料之間遺傳背景高度相似、基因型完全一致外,97%的材料均能實現(xiàn)準確有效的鑒別。篩選出393個基因組特異的SNP,并利用這些核心SNP構建了719份資源材料的特征DNA指紋圖譜,為SNP分子標記應用于棉花重要性狀遺傳改良提供了參考。
棉花;SNP標記;GenomeStudio;芯片分型;指紋圖譜
【研究意義】陸地棉(,AADD,2n=4x=52)為異源四倍體棉種,是世界范圍內重要的經濟作物,約占全球棉花種植總面積的95%[1]。陸地棉由亞洲棉(,AA)和雷蒙德氏棉(,DD)雜交加倍而來[2],在人工馴化選擇下,其性狀不斷按照人類需求的方向進化發(fā)展,包括高產、優(yōu)質、較強耐逆性以及廣泛的適應性[3]。SNP(single nucleotide polymorphism)即單核苷酸多態(tài)性,是指在基因組水平上由于單個核苷酸變異(轉換、顛換、缺失和插入等)引起的DNA序列多態(tài)性。SNP在基因組中分布率極高,是很多物種基因組的最常見變異形式[4]。作為最新一代的分子標記,SNP標記由于具有數(shù)量多、分布廣、遺傳的穩(wěn)定性、易于自動化操作等優(yōu)勢,已成為繼SSR標記之后最具潛力的第3代分子標記,近年來已被廣泛應用于農作物遺傳圖譜構建、遺傳多樣性分析、品種鑒定和分子標記輔助選擇育種等[5-7],逐漸成為主流的分子標記。【前人研究進展】隨著棉花D基因組[2-8]、A基因組[9]和AD基因組[10-11]測序工作的相繼完成以及新一代測序技術、基因芯片技術的迅速發(fā)展,加快了分子標記技術的應用,尤其是SNP標記的大規(guī)模開發(fā)與研究,將對陸地棉復雜性狀的基因定位以及優(yōu)良品種的選育起到巨大的推動作用[12-13]。隨著SNP標記技術的逐漸完善,相應的SNP檢測技術也不斷發(fā)展,而SNP芯片作為一種集高通量、微型化和自動化等優(yōu)點為一體的檢測手段,其基本原理是通過將待測樣本DNA與固定在載體上的密集的寡核苷酸探針陣列進行等位基因特異性雜交反應,根據(jù)釋放的熒光信號有無和強弱確定SNP位點?;蚪M序列中存在4種堿基,SNP可以是二等位多態(tài)性,也可以是三或四等位多態(tài)性,但實際情況中常以二等位多態(tài)性為主,因此便于估計其等位基因頻率并進行基因型的自動化分析[14]。目前商業(yè)化的SNP芯片主要有兩類,分別由美國Affymetrix和Illumina公司開發(fā),其中最具代表性的是Illumina公司開發(fā)的Goldengate以及Infinium高通量分析技術。大規(guī)模、高通量SNP芯片檢測最先在人類群體遺傳學研究中得到廣泛應用,并在人類關聯(lián)分析上取得較大進展[15-16]。SNP芯片也被應用于一些家畜全基因組關聯(lián)分析、QTL定位、候選基因篩選[17-18]。而在棉花中,Hulse-Kemp等[19]基于Infinium技術成功開發(fā)出首款包含45 104個陸地棉種內的SNP標記和17 954個陸地棉與其他棉種的種間SNP標記的高密度(63K)芯片,單張芯片可一次性檢測24個樣品,并用1 156個樣本對其進行了驗證,分析出38 822個多態(tài)性標記。這為棉花中SNP標記的真正大規(guī)模檢測開辟了先河[20-21]。目前,該芯片已被用于棉花高密度遺傳圖譜構建和纖維品質、產量、農藝性狀的QTL定位[22-23]。另外,高效的數(shù)據(jù)分析工具對SNP的鑒別是必不可少的。Illumina公司成功開發(fā)的GenomeStudio軟件,可以分析微陣列和測序產生的數(shù)據(jù)。對于研究人員來說,GenomeStudio軟件能夠實現(xiàn)多種應用中的生物變異關聯(lián),并將結果以圖形顯示,這種分型方案適用于所有二倍體物種,在水稻、玉米等植物遺傳圖譜構建及多樣性分析等方面已得到了廣泛的應用[24-25]?!颈狙芯壳腥朦c】然而,對于異源四倍體的棉花栽培種,亞組間的同源染色體與亞組內的重復序列導致大部分標記具有多拷貝的情況,從而給SNP的準確分型帶來了種種困難。通過篩選具有單拷貝特性的SNP位點,可將復雜的多倍體分型轉化為二倍體分型,是一種行之有效的手段?!緮M解決的關鍵問題】結合四倍體陸地棉TM-1參考基因組序列信息,篩選一批基因組特異的SNP,推動SNP標記在棉花種質資源鑒定、群體進化分析以及分子標記輔助育種等方面的應用。
試驗于2014年在河北農業(yè)大學棉花遺傳育種研究室完成。
供試材料為遺傳背景來源廣泛的719份陸地棉種質資源[22],由河北農業(yè)大學棉花遺傳育種研究室收集保存,其中包括588份來自中國不同省份的陸地棉品種,以及131份來自美國、前蘇聯(lián)等其他國家的陸地棉品種。
采用改良CTAB法[26]提取719份材料幼嫩葉片基因組DNA,用0.8%瓊脂糖電泳和Nano Drop 2000分光光度計檢測所提取DNA的質量,以滿足SNP檢測的質量要求:即瓊脂糖電泳顯示DNA條帶單一,沒有明顯彌散;紫外分光光度計檢測A260/A280介于1.8—2.0,且DNA濃度>50 ng·μL-1。
采用Illumina公司開發(fā)的CottonSNP63K芯片,包括63 058個SNP標記。SNP檢測參照標準實驗流程(基于光纖微珠芯片的Infinium技術)進行,用iScan芯片掃描儀對雜交結果進行掃描,獲得原始數(shù)據(jù)。利用GenomeStudio軟件對芯片掃描所獲得原始數(shù)據(jù)進行基因型數(shù)據(jù)質量控制分析,獲得待測四倍體棉花樣品SNP位點的基因型。根據(jù)中國農業(yè)科學院棉花研究所版本(AD1)genome BGI v1.0與南京農業(yè)大學版本(AD1)genome NBI v1.1兩個陸地棉TM-1基因組為參考序列,對CottonSNP63K芯片各SNP位點的側翼序列分別進行全基因組BLAST比對分析,以篩選基因組特異SNP位點,利用PowerMarker v3.25軟件[27]進行遺傳分析。
基于CottonSNP63K芯片對供試的719份棉花材料進行基因分型,統(tǒng)計分析結果表明,SNP位點主要表現(xiàn)為以下幾種類型:無檢出信號的SNP位點(圖1)、無多態(tài)性的SNP位點(圖2)和具有多態(tài)性的SNP位點(圖3)。而具有多態(tài)性的SNP位點分型結果主要表現(xiàn)為以下3種類型:第Ⅰ種是雙位點SNP,即在基因組上具有兩個拷貝,且這兩個拷貝一般成對分布于兩條部分同源染色體上,具體可表現(xiàn)為雙位點單態(tài)(兩個拷貝中僅一個拷貝表現(xiàn)出多態(tài))和雙位點雙態(tài)(兩個拷貝均表現(xiàn)出多態(tài));其中,雙位點單態(tài)SNP可Cluster為3種基因型,3種基因型既有可能位于分型圖的左半側(圖3-A,從左到右基因型依次為AAAA、AAAB和AABB),也有可能位于分型圖的右半側(圖3-B,從左到右基因型依次為AABB、ABBB和BBBB);而雙位點雙態(tài)可Cluster為5種基因型(圖3-C,從左到右基因型依次為AAAA、AAAB、AABB、ABBB和BBBB)。第Ⅱ種是多位點SNP,即在基因組上具有兩個以上的拷貝,具體表現(xiàn)為多位點多態(tài)(多個位點均表現(xiàn)出多態(tài)性)和多位點單態(tài)(多個位點中僅一個位點表現(xiàn)出多態(tài));圖3-D所示為三位點三態(tài)的SNP分型圖,可Cluster為7種基因型,從左到右基因型依次為AAAAAA、AAAAAB、AAAABB、AAABBB、AABBBB、ABBBBB及BBBBBB。圖3-E為多位點單態(tài)的SNP分型圖,可Cluster為3種基因型,且3種基因型距離很近,難也分辨。第Ⅲ種是單位點SNP(基因組特異SNP),即在基因組上只有一個拷貝,這種基因組特異SNP具有二倍體作物SNP的特性,分型相對簡單,可Cluster為3種基因型(圖3-F),從左到右基因型依次為AA、AB和BB型,這種基因組特異SNP位點通過軟件即可實現(xiàn)自動準確的分型,無需手動對Cluster結果進行優(yōu)化調整,非常適合于品種指紋圖譜的構建。
坐標軸表示標準化的信號強度。圖2、圖3同Axis was normalized signal intensity. The same as Fig. 2, Fig. 3
圖片中的數(shù)字代表相應基因型的樣品個數(shù)。圖3同The numbers in the picture indicated individuals of the corresponding genotypes. The same as Fig. 3
Blast比對結果表明,中國農業(yè)科學院棉花研究所TM-1基因組版本比對獲得特異SNP標記為5 474個,占8.6%,其中4 186個SNP標記位于拼接的染色體上,占76.5%,染色體分布情況見表1,At亞組平均每條染色體具有114個基因組特異SNP標記,而Dt亞組平均每條染色體具有208個特異SNP標記,即Dt亞組所含有的特異SNP約為At亞組的兩倍。特異SNP標記最多的是Dt_chr9號染色體,多達592個,而對應的部分同源染色體At_chr9在At亞組上也含有最多的單位點SNP標記。特異SNP標記數(shù)量最少的是At_chr5,僅有67個。
利用南京農業(yè)大學TM-1基因組版本比對獲得的基因組特異SNP標記僅為1 850個,占2.9%,其中1 653個SNP標記位于拼接的染色體上,占89.4%,染色體分布情況見表2。At亞組平均每條染色體具有61個SNP標記,Dt亞組平均每條染色體具有66個SNP標記,即At亞組與Dt亞組的特異SNP平均數(shù)量是相當?shù)摹挝稽cSNP標記最多的是D05號染色體,為121個,最少的是D11號染色體,僅33個。
以兩個陸地棉TM-1基因組版本作為參考序列分別Blast比對獲得的特異SNP標記中,共有的特異SNP為1 594個,將這些SNP標記在兩個參考基因組上的染色體物理位置信息進行比對,結果表明(表3),13對部分同源染色體中,9對部分同源染色體的對應關系在兩個基因組版本中是吻合的,4對部分同源染色體的對應關系在兩個版本中不完全吻合,這可能是由于At亞組內的At_chr3與At_chr5,At_chr7與At_chr1,Dt亞組內的Dt_chr5與Dt_chr3,Dt_chr1與Dt_chr7存在較高的亞組內同源性。兩個陸地棉TM-1參考基因組比對結果的差異可能是由于基因組序列組裝過程中所使用的遺傳群體或算法差異等因素所導致。
以兩個陸地棉TM-1基因組版本所共有的1 594個特異SNP作為候選標記,利用719份材料對這些SNP位點進行全面評估與篩選。
2.3.1 SNP分型效果評估 GenomeStudio軟件獲得的GenTrain score值為0—1.00,該數(shù)值反應了3種基因型Cluster分型結果的準確性,score值越大,數(shù)據(jù)點的準確性與可靠性越高。1 594個特異SNP的GenTrain score值統(tǒng)計結果如下(圖 4):score值≤0.60的SNP位點僅有133個,占8.3%;score值在0.6—0.7的SNP位點有92個,占5.8%;score值>0.7的位點有1 369個,占85.9%,表明絕大部分基因組特異SNP分型效果較為理想。
表1 特異SNP染色體分布情況(BGIv1.0)
表2 特異SNP染色體分布情況(NBI v1.1)
2.3.2 SNP分型檢出率評估 Call frequency值反映受檢所有樣品在每個SNP位點的檢出率,1 594個特異SNP的call frequency值統(tǒng)計結果如圖5所示,在719份材料中call frequency值≥0.95共有1 520個,其中完全檢出的有1 466個,占92%;call frequency值在0.01—0.94的SNP位點有31個,占1.9%;完全未檢出的SNP位點有43個,僅占2.7%,表明絕大部分基因組特異SNP具有極好的穩(wěn)定性與重復性。
表3 兩個陸地棉TM-1基因組版本染色體編號對應關系
圖4 基于1 594個特異SNP的GenTrain值分布情況
圖5 基于1 594個特異SNP的檢出率分布情況
2.3.3 SNP多態(tài)性評估 最小等位基因頻率(minor allele frequency,MAF)可反映各SNP位點在受檢樣品中的遺傳多樣性水平,1 594個特異SNP的MAF值<0.2的SNP位點達1 037個,占65.1%;MAF值≥0.2的SNP位點有557個,僅占34.9%(圖6),表明陸地棉遺傳背景比較狹窄,大部分SNP位點多樣性較低。
2.3.4 核心SNP位點篩選 基于以上評估結果,綜合考慮分型效果、檢出率及多態(tài)性3個評價指標,即篩選score值≥0.7,call frequency值≥0.95,且MAF值≥0.2的SNP位點,共獲得471個分型效果理想、檢出率高且多態(tài)性較高的特異SNP位點(定義為核心SNP位點)。在471個SNP位點中,去除41個位于scaffold片段上的位點,其余430個位于染色體上。進一步考慮到標記間的連鎖程度,剔除物理位置鄰近且遺傳多樣性與分型結果完全相同的37個連鎖標記,最后獲得393個核心SNP位點,平均每條染色體為15個,染色體具體分布情況見圖7。A亞組中,核心位點最多的是A01,達28個,最少的是A06,僅5個;D亞組中,核心位點最多的是D02,達30個,最少的是D03,僅4個(表4)。核心SNP位點在染色體上的不對稱分布可能是由于染色體的大小不同、遺傳重組率差異等因素造成的。
圖6 基于1 594個特異SNP的最小等位基因頻率分布情況
2.3.5 品種特征指紋圖譜構建 利用393個核心SNP組合構建了719份資源材料的特征DNA指紋圖譜,每行代表一個品種,每列代表一個SNP標記(圖8),結果表明,除個別材料之間遺傳背景高度相似、基因型完全一致外,97%以上的材料之間均能實現(xiàn)準確有效的鑒別?;贕enomeStudio軟件的基因型數(shù)據(jù)統(tǒng)計結果顯示(表5),平均score值達0.9,call frequency值達1.00,MAF值達0.4;基于PowerMarker統(tǒng)計結果(表5),gene diversity平均值為0.45,PIC平均值為0.35。表明這套核心SNP標記同時具備理想的分型效果、高檢出率及高多態(tài)性的優(yōu)點,完全滿足棉花品種DNA身份鑒定對高質量標記的要求,可以應用于大量樣品的指紋數(shù)據(jù)庫構建及遺傳多樣性分析。
SSR標記在品種指紋圖譜構建方面一直發(fā)揮著重要作用[28-29]。隨著基因組學的快速發(fā)展,重要農作物的指紋圖譜構建開始傾向于應用SNP標記,兩種標記技術均適合品種指紋分析,各自具有優(yōu)缺點,且可優(yōu)勢互補。SSR標記的優(yōu)勢表現(xiàn)為:(1)SSR標記一般不受選擇壓的影響,為中性變異位點,屬于最適合品種鑒定的標記;(2)就單個位點而言,SSR比SNP展示了更高的多態(tài)性;(3)SSR技術相對成熟,研究基礎較強,易推廣應用;(4)單個樣品檢測成本低。而SSR標記技術也存在兩個方面的局限性:(1)不同平臺之間數(shù)據(jù)不能直接比較、整合,需要設立參照樣品;(2)檢測通量相對較低,且引物位點數(shù)量增加時,檢測工作量和成本都隨之增加。相比之下,SNP標記技術的優(yōu)勢:(1)易實現(xiàn)數(shù)據(jù)間比較整合,代表基因組中最小的遺傳變異單元,并且數(shù)據(jù)統(tǒng)計相對簡單;(2)易實現(xiàn)高通量檢測,位點檢測通量可達成千上萬。當前SNP標記技術局限性主要為儀器成本較高,推廣應用較難。因此,應繼續(xù)發(fā)揮SSR標記技術的作用,并積極研發(fā)推進SNP檢測技術。
圖7 393個核心SNP位點的染色體分布圖
圖8 品種特征指紋圖譜的總體圖與局部放大圖
表4 393個核心SNP位點基于陸地棉TM-1基因組(NBI v1.1)的分布情況
表5 核心SNP位點評價情況
目前,SNP檢測技術已被國際種子檢驗協(xié)會(ISTA)、國際植物新品種保護聯(lián)盟(UPOV)、國際種子聯(lián)盟(ISF)等國際組織推薦為品種身份鑒定的輔助方法[30-31]。SNP標記檢測手段較多,目前主流的SNP分型技術均是基于高通量的檢測平臺,主要包括位點高通量的芯片檢測平臺與樣品高通量的檢測平臺,如本研究所采用的棉花CottonSNP63K芯片是由美國、澳大利亞等國家的研究人員與Illumina公司共同合作開發(fā)的全球第一款商業(yè)化的棉花SNP芯片產品,一次試驗即可實現(xiàn)對棉花全基因組63 058個SNP位點的同時檢測,所獲得的遺傳信息數(shù)據(jù)量是SSR標記所遠不能及的。目前該芯片產品已被應用于棉花全基因組關聯(lián)分析、高密度遺傳連鎖圖譜的繪制及QTL定位等研究中[22-23]。
SNP標記高通量的檢測技術與數(shù)據(jù)分析的實現(xiàn)主要是基于其二等位變異的遺傳特性:利用兩種不同的熒光基團分別標記兩種不同的等位變異,通過熒光檢測系統(tǒng),即可實現(xiàn)兩種純合與一種雜合基因型的有效鑒別,這種分型方案適用于所有二倍體物種,在水稻、玉米等植物遺傳圖譜構建及多樣性分析等方面已得到了廣泛的應用[24-25]。然而,對于多倍體作物,亞組間的同源染色體與亞組內的重復序列導致大部分標記具有多拷貝的特性,多拷貝的特性給SNP的準確分型帶來了諸如上述的種種困難,而通過篩選具有單拷貝特性的SNP位點,可將復雜的多倍體分型轉化為二倍體分型,是一種有效的手段。本研究結合兩個已發(fā)表的四倍體陸地棉參考基因組為參考序列,比較兩個基因組中共同存在的SNP位點,避免不同基因組組裝上差異,使得到的SNP位點更可靠,最終篩選出一批基因組特異的SNP。然而,由于陸地棉A亞組與D亞組具有極高的同源性,導致特異SNP數(shù)量不足10%,且符合品種鑒定需求的高質量標記更少。由于目前陸地棉四倍體基因組測序工作才剛完成[10-11],可供篩選的SNP標記數(shù)量仍然有限,為滿足大規(guī)模檢測與指紋數(shù)據(jù)庫構建的需要,還需進行大量SNP標記的開發(fā)與篩選工作[32],以達到理想的品種鑒定效果。同時,隨著棉花功能基因組學和基因工程研究的快速發(fā)展,眾多的已知功能基因將得到克隆和測序。而SNP標記相比其他分子標記,與功能基因的關聯(lián)度更高,更容易開發(fā)到與性狀相關的功能標記,從而將標記和性狀聯(lián)系起來,為SNP標記在棉花品種鑒定中的應用展現(xiàn)了更加廣闊的前景。
利用CottonSNP63K芯片對719份陸地棉種質資源進行SNP基因分型,篩選出393個基因組特異的SNP,并進一步利用這些核心SNP構建了719份資源材料的特征DNA指紋圖譜。
[1] CHEN Z J, SCHEFFLER B E, DENNIS E, TRIPLETT B A, ZHANG T, GUO W, CHEN X, STELLY D M, RABINOWICZ P D, TOWN C D, ARIOLI T, BRUBAKER C, CANTRELL R G, LACAPE J M, ULLOA M, CHEE P, GINGLE A R, HAIGLER C H, PERCY R, SAHA S, WILKINS T, WRIGHT R J, VAN DEYNZE A, ZHU Y, YU S, ABDURAKHMONOV I, KATAGERI I, KUMAR P A, MEHBOOB UR R, ZAFAR Y, YU J Z, KOHEL R J, WENDEL J F, PATERSON A H. Toward sequencing cotton () genomes., 2007, 145(4): 1303-1310.
[2] PATERSON A H, WENDEL J F, GUNDLACH H, GUO H, JENKINS J, JIN D, LLEWELLYN D, SHOWMAKER K C, SHU S, UDALL J, YOO M J, BYERS R, CHEN W, DORON-FAIGENBOIM A, DUKE M V, GONG L, GRIMWOOD J, GROVER C, GRUPP K, HU G, LEE T H, LI J, LIN L, LIU T, MARLER B S, PAGE J T, ROBERTS A W, ROMANEL E, SANDERS W S, SZADKOWSKI E, TAN X, TANG H, XU C, WANG J, WANG Z, ZHANG D, ZHANG L, ASHRAFI H, BEDON F, BOWERS J E, BRUBAKER C L, CHEE P W, DAS S, GINGLE A R, HAIGLER C H, HARKER D, HOFFMANN L V, HOVAV R, JONES D C, LEMKE C, MANSOOR S, UR RAHMAN M, RAINVILLE L N, RAMBANI A, REDDY U K, RONG J K, SARANGA Y, SCHEFFLER B E, SCHEFFLER J A, STELLY D M, TRIPLETT B A, VAN DEYNZE A, VASLIN M F, WAGHMARE V N, WALFORD S A, WRIGHT R J, ZAKI E A, ZHANG T, DENNIS E S, MAYER K F, PETERSON D G, ROKHSAR D S, WANG X, SCHMUTZ J. Repeated polyploidization ofgenomes and the evolution of spinnable cotton fibres., 2012, 492(7429): 423-427.
[3] ZHANG H B, LI Y, WANG B, CHEE P W. Recent advances in cotton genomics., 2008, 2008: 742304.
[4] WRAY N R, YANG J, HAYES B J, PRICE A L, GODDARD M E, VISSCHER P M. Pitfalls of predicting complex traits from SNPs., 2013, 14(7): 507-515.
[5] CICHY K A, WIESINGER J A, MENDOZA F A. Genetic diversity and genome-wide association analysis of cooking time in dry bean (L.)., 2015, 128(8): 1555-1567.
[6] ROSTOKS N, RAMSAY L, MACKENZIE K, CARDLE L, BHAT P R, ROOSE M L, SVENSSON J T, STEIN N, VARSHNEY R K, MARSHALL D F, GRANER A, CLOSE T J, WAUGH R. Recent history of artificial outcrossing facilitates whole-genome association mapping in elite inbred crop varieties., 2006, 103(49): 18656-18661.
[7] LU H, LIN T, KLEIN J, WANGS H, QI J, ZHOU Q, SUN J, ZHANG Z, WENG Y, HUANG S. QTL-seq identifies an early flowering QTL located nearin cucumber., 2014, 127(7): 1491-1499.
[8] WANG K, WANG Z, LI F, YE W, WANG J, SONG G, YUE Z, CONG L, SHANG H, ZHU S, ZOU C, LI Q, YUAN Y, LU C, WEI H, GOU C, ZHENG Z, YIN Y, ZHANG X, LIU K, WANG B, SONG C, SHI N, KOHEL R J, PERCY R G, YU J Z, ZHU Y X, WANG J, YU S. The draft genome of a diploid cotton., 2012, 44(10): 1098-1103.
[9] LI F, FAN G, WANG K, SUN F, YUAN Y, SONG G, LI Q, MA Z, LU C, ZOU C, CHEN W, LIANG X, SHANG H, LIU W, SHI C, XIAO G, GOU C, YE W, XU X, ZHANG X, WEI H, LI Z, ZHANG G, WANG J, LIU K, KOHEL R J, PERCY R G, YU J Z, ZHU Y X, WANG J, YU S. Genome sequence of the cultivated cotton., 2014, 46(6): 567-572.
[10] LI F, FAN G, LU C, XIAO G, ZOU C, KOHEL R J, MA Z, SHANG H, MA X, WU J, LIANG X, HUANG G, PERCY R G, LIU K, YANG W, CHEN W, DU X, SHI C, YUAN Y, YE W, LIU X, ZHANG X, LIU W, WEI H, WEI S, HUANG G, ZHANG X, ZHU S, ZHANG H, SUN F, WANG X, LIANG J, WANG J, HE Q, HUANG L, WANG J, CUI J, SONG G, WANG K, XU X, YU J Z, ZHU Y, YU S. Genome sequence of cultivated Upland cotton (TM-1) provides insights into genome evolution., 2015, 33(5): 524-530.
[11] ZHANG T, HU Y, JIANG W, FANG L, GUAN X, CHEN J, ZHANG J, SASKI C A, SCHEFFLER B E, STELLY D M, HULSE-KEMP A M, WAN Q, LIU B, LIU C, WANG S, PAN M, WANG Y, WANG D, YE W, CHANG L, ZHANG W, SONG Q, KIRKBRIDE R C, CHEN X, DENNIS E, LLEWELLYN D J, PETERSON D G, THAXTON P, JONES D C, WANG Q, XU X, ZHANG H, WU H, ZHOU L, MEI G, CHEN S, TIAN Y, XIANG D, LI X, DING J, ZUO Q, TAO L, LIU Y, LI J, LIN Y, HUI Y, CAO Z, CAI C, ZHU X, JIANG Z, ZHOU B, GUO W, LI R, CHEN Z J. Sequencing of allotetraploid cotton (L. acc. TM-1) provides a resource for fiber improvement., 2015, 33(5): 531-537.
[12] WANG S, WONG D, FORREST K, ALLEN A, CHAO S, HUANG B E, MACCAFERRI M, SALVI S, MILNER S G, CATTIVELLI L, MASTRANGELO A M, WHAN A, STEPHEN S, BARKER G, WIESEKE R, PLIESKE J, INTERNATIONAL WHEAT GENOME SEQUENCING C, LILLEMO M, MATHER D, APPELS R, DOLFERUS R, BROWN-GUEDIRA G, KOROL A, AKHUNOVA A R, FEUILLET C, SALSE J, MORGANTE M, POZNIAK C, LUO M C, DVORAK J, MORELL M, DUBCOVSKY J, GANAL M, TUBEROSA R, LAWLEY C, MIKOULITCH I, CAVANAGH C, EDWARDS K J, HAYDEN M, AKHUNOV E. Characterization of polyploid wheat genomic diversity using a high-density 90 000 single nucleotide polymorphism array., 2014, 12(6): 787-796.
[13] LI X, GAO W, GUO H, ZHANG X, FANG D D, LIN Z. Development of EST-based SNP and InDel markers and their utilization in tetraploid cotton genetic mapping., 2014, 15: 1046.
[14] RITCHIE M E, LIU R, CARVALHO B S, AUSTRALIA, The Australia and New Zealand Multiple Sclerosis Genetics Consortium (ANZgene), IRIZARRY R A. Comparing genotyping algorithms for Illumina’s Infinium whole-genome SNP BeadChips., 2011, 12: 68.
[15] CONRAD D F, JAKOBSSON M, COOP G, WEN X, WALL J D, ROSENBERG N A, PRITCHARD J K. A worldwide survey of haplotype variation and linkage disequilibrium in the human genome., 2006, 38(11): 1251-1260.
[16] MANCUSO N, SHI H, GODDARD P, KICHAEV G, GUSEV A, PASANIUC B. Integrating gene expression with summary association statistics to identify genes associated with 30 complex traits., 2017, 100(3): 473-487.
[17] REN X, YANG G L, PENG W F, ZHAO Y X, ZHANG M, CHEN Z H, WU F A, KANTANEN J, SHEN M, LI M H. A genome-wide association study identifies a genomic region for the polycerate phenotype in sheep ()., 2016, 6: 21111.
[18] WANG Z, ZHANG H, YANG H, WANG S, RONG E, PEI W, LI H, WANG N. Genome-wide association study for wool production traits in a Chinese Merino sheep population., 2014, 9(9): e107101.
[19] HULSE-KEMP A M, LEMM J, PLIESKE J, ASHRAFI H, BUYYARAPU R, FANG D D, FRELICHOWSKI J, GIBAND M, HAGUE S, HINZE L L, KOCHAN K J, RIGGS P K, SCHEFFLER J A, UDALL J A, ULLOA M, WANG S S, ZHU Q H, BAG S K, BHARDWAJ A, BURKE J J, BYERS R L, CLAVERIE M, GORE M A, HARKER D B, ISLAM M S, JENKINS J N, JONES D C, LACAPE J M, LLEWELLYN D J, PERCY R G, PEPPER A E, POLAND J A, MOHAN RAI K, SAWANT S V, SINGH S K, SPRIGGS A, TAYLOR J M, WANG F, YOURSTONE S M, ZHENG X, LAWLEY C T, GANAL M W, VAN DEYNZE A, WILSON I W, STELLY D M. Development of a 63K SNP array for cotton and high-density mapping of intraspecific and interspecific populations ofspp., 2015, 5(6): 1187-1209.
[20] KUANG M, WEI S J, WANG Y Q, ZHOU D Y, MA L, FANG D, YANG W H, MA Z Y. Development of a core set of SNP markers for the identification of upland cotton cultivars in China., 2016, 15(5): 954-962.
[21] 匡猛, 王延琴, 周大云, 馬磊, 方丹, 徐雙嬌, 楊偉華, 魏守軍, 馬峙英. 基于單拷貝SNP標記的棉花雜交種純度高通量檢測技術. 棉花學報, 2016, 28(3): 227-233.
KUANG M, WANG Y Q, ZHOU D Y, MA L, FANG D, XU S J, YANG W H, WEI S J, MA Z Y. High-throughput genotyping assay technology for cotton hybrid purity based on single-copy SNP markers., 2016, 28(3): 227-233. (in Chinese)
[22] SUN Z, WANG X, LIU Z, GU Q, ZHANG Y, LI Z, KE H, YANG J, WU J, WU L, ZHANG G, ZHANG C, MA Z. Genome-wide association study discovered genetic variation and candidate genes of fibre quality traits inL., 2017, doi:10.1111/pbi.12693.
[23] HUANG C, NIE X, SHEN C, YOU C, LI W, ZHAO W, ZHANG X, LIN Z. Population structure and genetic basis of the agronomic traits of upland cotton in China revealed by a genome-wide association study using high-density SNPs., 2017, doi:10.1111/pbi.12722.
[24] ZHAO K, TUNG C W, EIZENGA G C, WRIGHT M H, ALI M L, PRICE A H, NORTON G J, ISLAM M R, REYNOLDS A, MEZEY J, MCCLUNG A M, BUSTAMANTE C D, MCCOUCH S R. Genome-wide association mapping reveals a rich genetic architecture of complex traits in., 2011, 2: 467.
[25] ZHANG X, WARBURTON M L, SETTER T, LIU H, XUE Y, YANG N, YAN J, XIAO Y. Genome-wide association studies of drought-related metabolic changes in maize using an enlarged SNP panel., 2016, 129(8): 1449-1463.
[26] ZHANG J, STEWART J M. Economical and rapid method for extracting cotton genomic DNA., 2000, 4(3): 193-201.
[27] LIU K, MUSE S V. PowerMarker: an integrated analysis environment for genetic marker analysis., 2005, 21(9): 2128-2129.
[28] 王省芬, 馬峙英, 張桂寅, 溫小杰, 李喜煥. SSR和AFLP技術鑒定棉花遺傳資源的比較研究. 棉花學報, 2006, 18(6): 391-393.
WANG X F, MA Z Y, ZHANG G Y, WEN X J, LI X H. Comparision of identification for cotton genetic resources using ssr and aflp markers., 2006, 18(6): 391-393. (in Chinese)
[29] 匡猛, 楊偉華, 許紅霞, 王延琴, 周大云, 馮新愛. 中國棉花主栽品種DNA指紋圖譜構建及SSR標記遺傳多樣性分析. 中國農業(yè)科學, 2011, 44(1): 20-27.
KUANG M, YANG W H, XU H X, WANG Y Q, ZHOU D Y, FENG A X. Construction of DNA fingerprinting and analysis of genetic diversity with SSR markers for cotton major cultivars in china., 2011, 44(1): 20-27.
[30] RAFALSKI A. Applications of single nucleotide polymorphisms in crop genetics., 2002, 5(2): 94-100.
[31] JONES E S, SULLIVAN H, BHATTRAMAKKI D, SMITH J S. A comparison of simple sequence repeat and single nucleotide polymorphism marker technologies for the genotypic analysis of maize (L.)., 2007, 115(3): 361-371.
[32] 王曉歌, 陰祖軍, 王俊娟, 王德龍, 樊偉麗, 王帥, 葉武威. 陸地棉轉錄組耐鹽相關SNP挖掘及分析. 分子植物育種, 2016, 14(6): 1524-1532.
WANG X G, YIN Z J, WANG J J, WANG D L, FAN W L, WANG S, YE W W. Mining and analyzing of SNP related to salinity stress in transcriptome of upload cotton (L.)., 2016, 14(6): 1524-1532. (in Chinese)
(責任編輯 岳梅)
Construction of Cotton Variety Fingerprints Using CottonSNP63K Array
SUN Zhengwen1, KUANG Meng2, MA Zhiying1, WANG Xingfen1
(1College of Agronomy, Hebei Agricultural University/North China Key Laboratory for Crop Germplasm Resources of Ministry of Education, Baoding 071001, Hebei;2Institute of Cotton Research, Chinese Academy of Agricultural Sciences/State Key Laboratory of Cotton Biology, Anyang 455000, Henan)
The objective of this study is to screen genomic-specific SNPs, considering the SNP with single loci and the reference genomic sequence information of upland cotton TM-1.Based on 719 natural germplasm resources with plentiful genetic backgrounds, using the CottonSNP63K array developed by Illumina, quality control of the original genotyping data obtained from chip scanning was performed by GenomeStudio software, the genotyping data of the SNP locus of the tested samples were obtained. According to the two publishedTM-1 genome versions, including the(AD1) genome BGI v1.0 of Cotton Research Institute of Chinese Academy of Agricultural Sciences and the(AD1) genome NBI v1.1 of Nanjing Agricultural University, the genome-wide BLAST analysis was performed on the flanking sequences of each SNP with CottonSNP63K (63 058 SNPs) array to screen specific SNP loci with single copy, and these SNPs were used for the construction of fingerprints.SNP genotyping of 719 materials using CottonSNP63K was classified into SNP locus without detectable signal, SNP locus without polymorphism and the polymorphism SNP loci. The polymorphism SNP loci could be divided into double-site SNP, multiple-site SNP and single-site SNP (genomic-specific SNP). The results of the Blast analysis with the two upland cotton TM-1 reference genome sequences showed that there were 5 474 specific SNP markers in the BGI v1.0 version, while NBI v1.1 TM-1 version only 1 850, and the common specific SNPs of both were 1 594. Further considering the three evaluation indexes including the genotyping effect, call rate and polymorphism, the SNPs with scores≥0.7, call frequency≥0.95 and MAF≥0.2 were screened, and 471 specific SNPs with high call rate and high polymorphism were obtained. Among these SNP loci, 430 were on chromosomes and 41 were on scaffolds. Taking into account of the degree of linkage between the markers, finally 393 core SNP loci were obtained after removing 37 linkage markers, and the DNA fingerprints of 719 resource materials were constructed by using 393 core SNPs. The results showed that 97% of the materials could be accurately and effectively identified except for some accessions with similar genetic background.A total of 393 genomic-specific SNPs were screened out, and these core SNPs were used to construct the DNA fingerprints of 719 resource materials. This study will provide a reference for application of SNP molecular markers in genetic improvement of important cotton traits.
cotton; SNP marker; GenomeStudio; genotyping array; fingerprints
2017-05-25;
2017-06-23
國家棉花產業(yè)技術體系(CARS-18-08)、河北省科技支撐計劃(16226307D)、河北農業(yè)大學作物學科梯隊建設基金(TD2016C201)
孫正文,E-mail:sunzhengwen654@163.com。匡猛,E-mail:kuangmeng007@163.com。孫正文和匡猛為同等貢獻作者。
王省芬,E-mail:cotton@hebau.edu.cn