王鳳格,李欣,楊揚(yáng),易紅梅,江彬,張憲晨,霍永學(xué),朱麗,葛建镕, 王蕊,任潔,王璐,田紅麗,趙久然
?
植物品種SSR指紋分析專(zhuān)用軟件SSR Analyser的研發(fā)
王鳳格1,李欣2,楊揚(yáng)1,易紅梅1,江彬2,張憲晨2,霍永學(xué)2,朱麗2,葛建镕1, 王蕊1,任潔1,王璐1,田紅麗1,趙久然1
(1北京市農(nóng)林科學(xué)院玉米研究中心/玉米DNA指紋及分子育種北京市重點(diǎn)實(shí)驗(yàn)室,北京 100097,2北京華生恒業(yè)科技有限公司,北京 100083)
【目的】開(kāi)發(fā)適用于植物品種SSR指紋分析的軟件工具,實(shí)現(xiàn)植物品種SSR指紋分析的自動(dòng)化和標(biāo)準(zhǔn)化,解決SSR標(biāo)記在實(shí)際應(yīng)用中存在的數(shù)據(jù)采集效率較低、數(shù)據(jù)共享難度較大等問(wèn)題。【方法】在商業(yè)化軟件GeneMarker?的基礎(chǔ)上,針對(duì)植物品種SSR指紋分析的特殊性,在SSR指紋處理、panel設(shè)計(jì)、數(shù)據(jù)庫(kù)對(duì)接等方面進(jìn)行算法開(kāi)發(fā)或優(yōu)化,形成植物品種定制化軟件SSR Analyser,并在玉米等多種作物上測(cè)試其分析效果?!窘Y(jié)果】在SSR指紋處理功能上,軟件通過(guò)先用系統(tǒng)計(jì)算的矩陣進(jìn)行弱消除,再用Pull-up峰匹配算法進(jìn)行單峰消除的方案實(shí)現(xiàn)了對(duì)pull-up峰準(zhǔn)確自動(dòng)消除;通過(guò)優(yōu)化N+1峰、連續(xù)多峰等特殊峰型讀取的算法,解決了特異峰不識(shí)別、讀不準(zhǔn)、誤讀等問(wèn)題,對(duì)2 bp重復(fù)類(lèi)型SSR標(biāo)記為主的植物品種指紋采集更加精準(zhǔn);通過(guò)完善鄰峰過(guò)濾、高低峰過(guò)濾和二倍體過(guò)濾算法,解決了植物品種混合樣品的有效峰采集問(wèn)題。在Panel設(shè)計(jì)功能上,軟件兼顧了Panel設(shè)計(jì)的靈活性、方便性和統(tǒng)一性,在保證數(shù)據(jù)采集標(biāo)準(zhǔn)化的前提下,更加適應(yīng)復(fù)雜的試驗(yàn)情況:提高了標(biāo)記參數(shù)設(shè)置的靈活性,根據(jù)不同參數(shù)作用范圍,標(biāo)記參數(shù)設(shè)置既有針對(duì)特定物種、Panel一次性固定設(shè)置的參數(shù),也有針對(duì)每個(gè)引物位點(diǎn)、每塊電泳板單獨(dú)設(shè)定或微調(diào)的參數(shù);實(shí)現(xiàn)了從已有標(biāo)記中快速重新組合形成新panel的功能;保證了panel的統(tǒng)一調(diào)用和同步更新。通過(guò)將軟件與指紋庫(kù)管理系統(tǒng)的無(wú)縫對(duì)接,實(shí)現(xiàn)了樣品準(zhǔn)備到指紋采集全流程的自動(dòng)化、標(biāo)準(zhǔn)化,形成的指紋庫(kù)具有直觀可追溯的優(yōu)勢(shì)。將SSR Analyser在玉米大規(guī)模建庫(kù)中試用,表明該軟件的指紋分析更加簡(jiǎn)單高效,比原軟件分析效率提高了10倍以上;將SSR Analyser擴(kuò)大到水稻、大豆、黃瓜、西瓜、大白菜等多種二倍體作物和小麥、棉花等多倍體作物中試用,表明在二倍體作物上使用效果較好;在多倍體作物上,對(duì)其中的二倍體化的標(biāo)記使用效果較好,但對(duì)非二倍體化的標(biāo)記仍需進(jìn)一步完善過(guò)濾算法?!窘Y(jié)論】開(kāi)發(fā)的SSR Analyser軟件具有數(shù)據(jù)分析程序簡(jiǎn)單高效、對(duì)特殊峰型的SSR標(biāo)記指紋采集精準(zhǔn)、適合基于混合樣品的植物品種SSR指紋采集、與指紋庫(kù)管理系統(tǒng)無(wú)縫對(duì)接的優(yōu)點(diǎn),大大改善了SSR標(biāo)記在植物品種鑒定中的應(yīng)用效果。
植物品種;SSR;DNA指紋;熒光毛細(xì)管電泳;軟件開(kāi)發(fā)
【研究意義】SSR標(biāo)記由于其多態(tài)性高、共顯性等特點(diǎn)在DNA指紋庫(kù)構(gòu)建、品種鑒定及種質(zhì)資源分析中具有獨(dú)特的優(yōu)勢(shì)[1]。然而,由于SSR標(biāo)記的等位基因數(shù)較多,與只有2個(gè)等位基因的SNP、INDEL等標(biāo)記相比,在實(shí)際應(yīng)用中存在數(shù)據(jù)采集效率較低、數(shù)據(jù)共享難度較大等問(wèn)題[2-3],影響了SSR標(biāo)記的應(yīng)用效果。通過(guò)采用熒光毛細(xì)管電泳平臺(tái)代替普通凝膠電泳平臺(tái),已初步實(shí)現(xiàn)了SSR標(biāo)記在試驗(yàn)程序上的自動(dòng)化和標(biāo)準(zhǔn)化[4]。如果能進(jìn)一步通過(guò)開(kāi)發(fā)SSR指紋分析工具,實(shí)現(xiàn)SSR標(biāo)記在數(shù)據(jù)采集上的自動(dòng)化和標(biāo)準(zhǔn)化,將對(duì)推動(dòng)SSR標(biāo)記在實(shí)踐中更加廣泛應(yīng)用具有重要意義?!厩叭搜芯窟M(jìn)展】目前,SSR指紋分析的常用商業(yè)化軟件有GeneMapper?和GeneMarker?2個(gè)系列[5]。GeneMapper?是ABI公司委托第三方開(kāi)發(fā)的與熒光毛細(xì)管電泳儀捆綁銷(xiāo)售的DNA片段分析軟件,分析對(duì)象以人類(lèi)及馬、牛、羊等動(dòng)物為主[6],針對(duì)法庭科學(xué)和司法鑒定等應(yīng)用需求,形成了人類(lèi)DNA鑒定專(zhuān)用定制版本GeneMapper? ID,主要兼容使用AmpF?STR試劑盒[7-8]。GeneMarker?是SoftGenetics公司研發(fā)的能夠處理主流的熒光毛細(xì)管電泳平臺(tái)輸出的DNA數(shù)據(jù)的商業(yè)化軟件,面對(duì)人類(lèi)個(gè)體鑒定等業(yè)務(wù)的巨大需求,專(zhuān)為法醫(yī)學(xué)研究提供了人類(lèi)身份認(rèn)定STR分型檢測(cè)軟件GeneMarker? HID[9]??擅赓M(fèi)獲取的分析軟件主要有ABI公司提供peak scanner[10],SoftGenetics公司提供的GeneMarker?試用版(http://www.softgenetics. com/GeneMarker.php),以及University of California Davis提供的STRend(http://www.vgl.ucdavis.edu/ informatics/strand.php)等。為解決人類(lèi)DNA指紋鑒定中的混合樣品分析問(wèn)題,先后開(kāi)發(fā)了MasterMIX[11]、PENDULUM[12]、MIX05[13]、LoComatioN[14]、TrueAllele[15]、Forensim[16]等開(kāi)放軟件以及GeneMapper ?ID- X[17]、GeneMarker?HID[18]等商業(yè)化軟件。此外,為了商業(yè)化客戶的需要,除了單機(jī)版的分析工具,還出現(xiàn)了一些將分析軟件與實(shí)驗(yàn)室管理系統(tǒng)等相耦合的操作更加便捷的集成系統(tǒng)[19-20]?!颈狙芯壳腥朦c(diǎn)】雖然已經(jīng)開(kāi)發(fā)了大量的SSR分型軟件,特別是GeneMapper?和GeneMarker?系列商業(yè)化定制軟件在人類(lèi)DNA指紋庫(kù)構(gòu)建及親子鑒定中得到成功應(yīng)用,然而,這些軟件直接應(yīng)用到植物品種SSR指紋分析時(shí)效果還不太理想,主要原因如下:(1)人類(lèi)DNA鑒定以單一來(lái)源樣品的個(gè)體識(shí)別為主,不同個(gè)體的樣品混合需作為特殊情況處理[21],植物品種DNA鑒定則以群體識(shí)別為主,利用同一品種內(nèi)部大量不同個(gè)體混合形成的混合樣品進(jìn)行DNA指紋分析是主要的樣品準(zhǔn)備形式,需要將混合樣品帶來(lái)的問(wèn)題作為普遍問(wèn)題處理[22];(2)人類(lèi)的DNA指紋研究比較成熟,SSR標(biāo)記位點(diǎn)質(zhì)量高,重復(fù)序列以4—5堿基為主,已形成商業(yè)化的各種試劑盒產(chǎn)品[23-24],而不同植物物種的DNA指紋研究基礎(chǔ)參差不齊,只有少數(shù)植物開(kāi)始參照人類(lèi)對(duì)標(biāo)記選擇的標(biāo)準(zhǔn)開(kāi)發(fā)篩選適合品種鑒定需要的SSR標(biāo)記[25-26],多數(shù)植物入選的SSR標(biāo)記仍以2堿基重復(fù)的標(biāo)記類(lèi)型為主,且試驗(yàn)條件標(biāo)準(zhǔn)化程度較低,容易出現(xiàn)連續(xù)多峰、N+1峰等特殊峰型,需要更加強(qiáng)大的峰識(shí)別算法;(3)人類(lèi)是二倍體物種,生成的基因分型數(shù)據(jù)類(lèi)型較為簡(jiǎn)單,易于后期的數(shù)據(jù)分析,而植物物種較多,倍性復(fù)雜[27],除了二倍體(如玉米、水稻),還有四倍體(如棉花、油菜)、六倍體(如小麥)等多種類(lèi)型,增加了指紋采集的難度;(4)人類(lèi)的DNA指紋庫(kù)只需要采集數(shù)據(jù)入庫(kù),而植物品種由于其指紋圖譜反映的信息量比較大,有同時(shí)采集數(shù)據(jù)和指紋圖譜的需求。因此,開(kāi)發(fā)一款適合植物品種SSR指紋分析的軟件是非常必要的?!緮M解決的關(guān)鍵問(wèn)題】本研究針對(duì)植物品種SSR指紋的特殊性,在GeneMarker的基礎(chǔ)上進(jìn)一步定制適用于植物品種SSR指紋分析的專(zhuān)用軟件-SSR Analyser,解決植物品種SSR指紋分析的自動(dòng)化和標(biāo)準(zhǔn)化的問(wèn)題,并以玉米等植物的SSR指紋分析為例,驗(yàn)證SSR Analyser的分析性能及應(yīng)用價(jià)值。
軟件開(kāi)發(fā)階段所用供試材料為玉米品種,參考行業(yè)標(biāo)準(zhǔn)《玉米品種鑒定技術(shù)規(guī)程 SSR標(biāo)記法》[28]進(jìn)行DNA提取、PCR擴(kuò)增、熒光毛細(xì)管電泳(DNA分析儀型號(hào):ABI3730XL),通過(guò)Data Collection軟件將DNA分析儀上獲得信號(hào)轉(zhuǎn)換為.fsa格式文件,這些原始文件將用于測(cè)試軟件指紋分析效果。軟件試用階段所用供試材料擴(kuò)大到水稻[29]、小麥[30]、棉花[31]、高粱[32]、黃瓜[33]、蘇丹草[34]等作物品種,所用SSR引物主要從相應(yīng)作物的行業(yè)標(biāo)準(zhǔn)中或試用單位自行篩選的引物名單中選取。
針對(duì)植物品種SSR指紋分析的特殊性,在Genemarker的基礎(chǔ)上形成整體定制方案(圖1),涉及3個(gè)方面:SSR指紋處理、panel編輯、數(shù)據(jù)庫(kù)對(duì)接。SSR指紋處理是整個(gè)軟件開(kāi)發(fā)的難點(diǎn),分為3個(gè)環(huán)節(jié):原始數(shù)據(jù)預(yù)處理、特異峰識(shí)別、有效峰采集。原始數(shù)據(jù)預(yù)處理的研究對(duì)象是電泳形成的原始數(shù)據(jù),主要包括熒光基線校正、峰圖坐標(biāo)轉(zhuǎn)換、峰的平滑、飽和峰校正、Pull-up峰消除等;特異峰識(shí)別的研究對(duì)象是原始數(shù)據(jù)預(yù)處理后形成的原始峰,包括單峰、N+1峰、連續(xù)多峰等的識(shí)別;有效峰采集的研究對(duì)象是已識(shí)別出的特異峰,包括鄰峰過(guò)濾、高低峰過(guò)濾、二倍體過(guò)濾等。Panel編輯主要解決Panel設(shè)計(jì)、標(biāo)記參數(shù)設(shè)置、panel調(diào)用等問(wèn)題。為了實(shí)現(xiàn)植物品種指紋庫(kù)構(gòu)建及鑒定的全程自動(dòng)化,將單機(jī)版軟件進(jìn)一步與指紋庫(kù)管理系統(tǒng)進(jìn)行無(wú)縫對(duì)接,實(shí)現(xiàn)軟件直接調(diào)用、數(shù)據(jù)和指紋自動(dòng)上傳、指紋庫(kù)統(tǒng)一管理和分析等功能。
圖1 軟件開(kāi)發(fā)方案
1.3.1 原始數(shù)據(jù)預(yù)處理 原軟件對(duì)熒光基線校正、峰圖坐標(biāo)轉(zhuǎn)換、飽和峰校正等問(wèn)題已經(jīng)解決,因此該環(huán)節(jié)主要問(wèn)題是對(duì)pull-up峰的識(shí)別和消除效果有待改善。Pull-up峰的解決方案有2種:第一種是定義不同熒光之間的作用關(guān)系矩陣,按其比例關(guān)系對(duì)某一顏色的熒光進(jìn)行整體消除,該方案有2個(gè)缺陷,一是不精準(zhǔn),容易產(chǎn)生過(guò)度消除或者消除不足;二是熒光之間的作用關(guān)系在不同電泳板間是變化的,按固定的比例關(guān)系進(jìn)行消除會(huì)出現(xiàn)與實(shí)際不符的情況。第二種是結(jié)合峰高比例、峰型特征、峰位置等信息,對(duì)Pull-up峰進(jìn)行定位及消除,該方案也有2個(gè)缺陷,一是峰高比例偏高時(shí)容易過(guò)度消除;二是峰型跨度大于分析單元時(shí)容易誤消。原軟件的算法采用了第一種方案,即采用用戶自定義的矩陣或系統(tǒng)自動(dòng)計(jì)算的矩陣進(jìn)行Pull-up峰消除,新軟件的算法綜合了上述2種方案,即先用系統(tǒng)計(jì)算的矩陣進(jìn)行弱消除,避免過(guò)度消除的問(wèn)題,如果有消除不徹底的情況,再用自定義矩陣進(jìn)行單峰消除,從而兼顧了自動(dòng)化和靈活性。
1.3.2 特異峰識(shí)別 原始數(shù)據(jù)經(jīng)過(guò)預(yù)處理后,以峰圖的形式呈現(xiàn),需要從中識(shí)別出特異峰。特異峰的基本類(lèi)型有單峰、N+1峰、連續(xù)多峰3種。N+1峰、連續(xù)多峰是識(shí)別的難點(diǎn),原軟件對(duì)這兩種峰的識(shí)別存在位置讀不準(zhǔn)、峰值估不準(zhǔn)、多識(shí)別或少識(shí)別峰的問(wèn)題。
N+1峰是 PCR過(guò)程中普通Taq酶在非模板擴(kuò)增片段3'端自動(dòng)加一個(gè)腺苷酸引起的,表現(xiàn)為在同一等位基因位置出現(xiàn)相差1 bp的2個(gè)峰[35]。原軟件對(duì)N+1峰按照讀取最高峰的方式進(jìn)行識(shí)別,由于N+1峰按照最高峰出現(xiàn)的位置分為總是左高或總是右高型、時(shí)左時(shí)右型和接近等高型3種類(lèi)型,對(duì)后2種類(lèi)型在位置讀取時(shí)容易造成1 bp的偏差。為此,新軟件提供了3種讀取方式,即讀最高峰、讀左峰、讀右峰。用戶根據(jù)標(biāo)記的N+1峰類(lèi)型自行設(shè)定不同讀取方式:對(duì)總是左高或總是右高型,設(shè)定讀最高峰;對(duì)接近等高型,固定讀左峰或讀右峰;對(duì)有時(shí)左高有時(shí)右高型,根據(jù)最常出現(xiàn)的情況初始設(shè)定讀左峰或讀右峰,隨后針對(duì)特定電泳板的實(shí)際情況可進(jìn)行臨時(shí)調(diào)整。無(wú)論位置讀的是哪個(gè)峰,峰值均采集最高峰的。
連續(xù)多峰是PCR擴(kuò)增過(guò)程中Taq酶在模板鏈上滑動(dòng)引起的,表現(xiàn)為擴(kuò)增產(chǎn)物長(zhǎng)度連續(xù)梯度遞減的一組峰[36],原軟件對(duì)連續(xù)多峰采取讀最高峰的方式進(jìn)行識(shí)別,識(shí)別能力較弱,體現(xiàn)在幾個(gè)方面:(1)連續(xù)多峰由于其峰型的特殊性,將一個(gè)正常特異峰的高度分散到相差2 bp的多個(gè)小峰上,使得單個(gè)峰的高度很低,如果采用最高峰的峰值,則該連續(xù)多峰容易被隨后的高低峰過(guò)濾和二倍體過(guò)濾算法過(guò)濾掉;(2)連續(xù)多峰最高峰的位置因樣品不同或試驗(yàn)不同而出現(xiàn)變化,造成至少2 bp的讀取偏差。新軟件形成改進(jìn)的連續(xù)多峰識(shí)別算法:將引物擴(kuò)增區(qū)間范圍內(nèi)有3個(gè)及以上間隔約2 bp、遞增的子峰當(dāng)成一個(gè)整體識(shí)別為連續(xù)多峰;如果連續(xù)多峰由峰高遞增的子峰構(gòu)成,則將其最高峰識(shí)別為終點(diǎn)峰,如果連續(xù)多峰由峰高接近的子峰構(gòu)成,以峰高大于最高子峰峰高的特定閾值(默認(rèn)值是87%)的最右邊子峰為其終點(diǎn)峰;將終點(diǎn)峰的位置作為為該連續(xù)多峰的讀取位置;將連續(xù)多峰的所有子峰峰高的累加值作為該連續(xù)多峰的峰值并標(biāo)注在終點(diǎn)峰上,后續(xù)的高低峰過(guò)濾、二倍體過(guò)濾環(huán)節(jié)均采用此峰值作為過(guò)濾依據(jù)。
1.3.3 有效峰采集 特異峰識(shí)別環(huán)節(jié)完成后,往往還會(huì)有鄰峰、高低峰、三峰或多峰的情況,需進(jìn)一步篩選出可采集入庫(kù)的有效峰,這就需要一系列過(guò)濾掉無(wú)效峰的算法,主要包括鄰峰過(guò)濾、高低峰過(guò)濾和二倍體過(guò)濾算法。
原軟件的過(guò)濾算法主要是針對(duì)個(gè)體樣品的指紋采集設(shè)計(jì)的,在應(yīng)用到植物品種混合樣品的指紋采集時(shí)效果不太理想,主要原因在于:個(gè)體樣品上出現(xiàn)的高低峰主要是PCR擴(kuò)增時(shí)因引物不對(duì)稱(chēng)擴(kuò)增造成的;出現(xiàn)3個(gè)或多個(gè)峰主要是特異峰識(shí)別錯(cuò)誤造成的,因此過(guò)濾算法主要保證數(shù)據(jù)采集的準(zhǔn)確性。而植物品種混合樣品上出現(xiàn)的高低峰、三峰或多個(gè)峰,則是樣品一致性差和引物不對(duì)稱(chēng)擴(kuò)增兩種因素綜合作用的結(jié)果,過(guò)濾算法主要保證數(shù)據(jù)采集的一致性。為此,新軟件對(duì)原有過(guò)濾算法改進(jìn)后形成新算法如下:首先執(zhí)行鄰峰過(guò)濾,將特異峰中相差2 bp且峰高低于鄰峰閾值的低峰過(guò)濾掉;然后執(zhí)行高低峰過(guò)濾,將峰高低于高低峰閾值的低峰過(guò)濾掉;如果剩下的峰仍有2個(gè)以上,進(jìn)一步執(zhí)行二倍體過(guò)濾算法,將低于二倍體閾值的繼續(xù)過(guò)濾掉,最終剩下1—3個(gè)峰。如果是3個(gè)峰,對(duì)峰高前兩位的采集入庫(kù),對(duì)第三個(gè)峰在指紋圖譜上標(biāo)識(shí),但數(shù)據(jù)不入庫(kù),如果是1—2個(gè)峰,則直接采集入庫(kù)。
Panel編輯主要包括新panel設(shè)計(jì)、標(biāo)記參數(shù)設(shè)置、panel調(diào)用3個(gè)方面內(nèi)容。原軟件在panel編輯上存在靈活性、方便性和統(tǒng)一性的欠缺問(wèn)題:新panel生成時(shí)需要先從標(biāo)記設(shè)計(jì)開(kāi)始,不能利用已有panel中的標(biāo)記進(jìn)行重組;標(biāo)記參數(shù)設(shè)置完成后不能根據(jù)具體試驗(yàn)情況進(jìn)行調(diào)整修改;panel的調(diào)用比較隨意,不同實(shí)驗(yàn)員在自己的電腦上分析時(shí),可隨時(shí)修改panel,造成不同批次分析的數(shù)據(jù)不具有可比性。
新軟件為提高panel設(shè)計(jì)的方便性,增加了針對(duì)已有panel中的標(biāo)記重組設(shè)計(jì)的功能,用戶進(jìn)行panel設(shè)計(jì)時(shí)只需遵守標(biāo)記組合的基本原則(即相同熒光的不同引物范圍沒(méi)有交叉區(qū),不同熒光的引物重疊區(qū)最?。?,就可對(duì)已有的標(biāo)記進(jìn)行重新組合形成新的panel。
新軟件為提高標(biāo)記參數(shù)設(shè)置的靈活性,不再對(duì)所有參數(shù)固定化統(tǒng)一設(shè)定,而是區(qū)分了不同參數(shù)的作用范圍,分為3種情況:(1)針對(duì)特定物種或panel統(tǒng)一設(shè)定的參數(shù),包括讀取長(zhǎng)度范圍、讀取峰高范圍、高低峰過(guò)濾、二倍體過(guò)濾;(2)針對(duì)每個(gè)引物位點(diǎn)單獨(dú)設(shè)定的參數(shù),包括連續(xù)多峰過(guò)濾、N+1峰過(guò)濾、鄰峰過(guò)濾、Intensity過(guò)濾;(3)針對(duì)每塊電泳板進(jìn)行微調(diào)的參數(shù),包括N+1 峰過(guò)濾、Intensity過(guò)濾。
新軟件為保證不同實(shí)驗(yàn)室、不同實(shí)驗(yàn)員在同一時(shí)期使用完全相同的一套panel,實(shí)現(xiàn)建庫(kù)標(biāo)準(zhǔn)化和數(shù)據(jù)共享,采取了三節(jié)點(diǎn)的panel調(diào)用方案,將panel從原來(lái)的一種狀態(tài)或類(lèi)型區(qū)分為3種,即用戶自定義的、分析時(shí)正在啟用的、系統(tǒng)默認(rèn)的:(1)用戶自定義panel與原軟件的狀態(tài)相同,由實(shí)驗(yàn)員自行設(shè)計(jì)、自己使用,可新建、修改或刪除,包括從已設(shè)定的panel中選擇引物自由組合成新的panel。(2)新軟件新增了2個(gè)狀態(tài),一個(gè)是系統(tǒng)默認(rèn)panel,由管理員設(shè)計(jì)并提供給整個(gè)系統(tǒng)同步使用,實(shí)驗(yàn)員只能使用,但不能做任何修改和調(diào)整,以保證實(shí)驗(yàn)員能夠采用相同的panel進(jìn)行分析,并保證panel的實(shí)時(shí)更新;一個(gè)是正在啟用panel,實(shí)驗(yàn)員可修改其部分參數(shù),但不能自動(dòng)保存,可進(jìn)行標(biāo)記范圍的左右整體移動(dòng),但不可修改等位基因命名及范圍,以兼容不同電泳試驗(yàn)的系統(tǒng)誤差。
在軟件的功能開(kāi)發(fā)及調(diào)試完畢后,將其與北京市農(nóng)林科學(xué)院玉米研究中心開(kāi)發(fā)的植物品種DNA指紋庫(kù)管理系統(tǒng)(以下簡(jiǎn)稱(chēng)指紋庫(kù)系統(tǒng),軟件登記號(hào):2015SR085905)進(jìn)行無(wú)縫對(duì)接,主要內(nèi)容包括:(1)軟件直接調(diào)用,將軟件與指紋庫(kù)系統(tǒng)鏈接,在數(shù)據(jù)庫(kù)界面下可直接打開(kāi)軟件進(jìn)行SSR指紋分析,原始文件、panel文件則在指紋庫(kù)系統(tǒng)中管理和調(diào)用。(2)數(shù)據(jù)和指紋圖譜自動(dòng)上傳,軟件分析后形成的數(shù)據(jù)和指紋,直接點(diǎn)擊上傳,指紋庫(kù)系統(tǒng)將無(wú)效數(shù)據(jù)和指紋過(guò)濾后,對(duì)符合條件的自動(dòng)入庫(kù),供下一步分析使用。
軟件基于 Borland公司的Borland C++ Builder 6、在GeneMarker基礎(chǔ)定制開(kāi)發(fā)而成,可在Windows(XP及以上)操作系統(tǒng)上運(yùn)行。計(jì)算機(jī)硬件環(huán)境的基本性能要求為:Pentium?III、1 GHz以上的CPU處理器;512 MB以上的內(nèi)存;20GB以上的可用硬盤(pán)空間。該軟件具有界面友好、操作簡(jiǎn)單、功能強(qiáng)大等優(yōu)點(diǎn)(圖2),已經(jīng)以SSR指紋分析器(英文名:SSR Analyser)的名稱(chēng)申請(qǐng)并獲得了計(jì)算機(jī)軟件著作權(quán)(登記號(hào):2015SR161217)。SSR Analyser軟件可以從官方網(wǎng)站或QQ群上獲取,QQ群名為ssr-analyser,群號(hào)為683096128;網(wǎng)站鏈接為http://ssr-analyser.maizedna.org/或http://ssr-analyser.soft.today,在線文檔可以幫助潛在用戶學(xué)習(xí)軟件各項(xiàng)功能,安裝指南及快速上手指南可以幫助用戶安裝及使用軟件,如果仍有問(wèn)題,可通過(guò)郵箱與作者直接聯(lián)系。
SSR Analyser軟件實(shí)現(xiàn)了對(duì)pull-up峰準(zhǔn)確自動(dòng)消除;解決了N+1峰、連續(xù)多峰等特殊峰型不識(shí)別、讀不準(zhǔn)、誤讀等問(wèn)題;通過(guò)改進(jìn)鄰峰過(guò)濾、高低峰過(guò)濾和二倍體過(guò)濾算法,解決了植物品種混合樣品的有效峰采集問(wèn)題。圖3以玉米SSR引物為例展示了新軟件在pullup峰消除(圖3-A)、N+1峰識(shí)別(圖3-B)、連續(xù)多峰識(shí)別(圖3-C)、鄰峰過(guò)濾(圖3-D)、高低峰過(guò)濾(圖3-E)、二倍體過(guò)濾(圖3-F)等方面的效果,表明SSR Analyser對(duì)植物品種的SSR指紋分析效果有明顯改善,滿足了基于混合樣品的、以2 bp重復(fù)類(lèi)型SSR標(biāo)記為主的植物品種SSR指紋分析的需求。
SSR Analyser軟件較好的兼顧了Panel編輯的靈活性、方便性和統(tǒng)一性,在保證數(shù)據(jù)采集標(biāo)準(zhǔn)化的前提下,更加適應(yīng)復(fù)雜的試驗(yàn)情況:(1)實(shí)現(xiàn)了從已有panel中快速重新組合形成新panel的功能,保證了即使沒(méi)有使用相同的panel,只要使用了相同的標(biāo)記就能形成標(biāo)準(zhǔn)化的指紋數(shù)據(jù)(圖4-A);(2)提高了標(biāo)記參數(shù)設(shè)置的靈活性,根據(jù)不同參數(shù)作用范圍,標(biāo)記參數(shù)設(shè)置既有針對(duì)特定物種、panel一次性固定設(shè)置的參數(shù),也有針對(duì)每個(gè)引物位點(diǎn)、每塊電泳板單獨(dú)設(shè)定或微調(diào)的參數(shù)(圖4-B);(3)保證了panel的統(tǒng)一調(diào)用和同步更新,通過(guò)三節(jié)點(diǎn)的panel調(diào)用方案,將系統(tǒng)統(tǒng)一管理的panel和實(shí)驗(yàn)員自己管理的panel分開(kāi),和正在運(yùn)行的可進(jìn)行參數(shù)微調(diào)的panel分開(kāi),兼顧了panel的穩(wěn)定性和試驗(yàn)的靈活性(圖4-C)。
A:主界面;B:原始數(shù)據(jù)導(dǎo)入;C:參數(shù)設(shè)置;D:分析工程生成
A: main interface; B: Raw data import; C: Parameter settings; D: creation of analysis project
圖2 SSR Analyser軟件分析界面
Fig. 2 The user interface of the SSR analyser
A:Pull-up峰消除(以前的算法:pull-up峰由于位于引物擴(kuò)增區(qū)間范圍內(nèi),未能準(zhǔn)確識(shí)別并消除;新的算法:pull-up峰識(shí)別時(shí)考慮到峰型特征,將其準(zhǔn)確識(shí)別并消除。其中紅色底紋表明識(shí)別的峰未落入設(shè)定的等位基因區(qū)間內(nèi),灰色底紋表明識(shí)別的峰落入設(shè)定的等位基因區(qū)間內(nèi));B:N+1峰識(shí)別(以前的算法:由于總是讀最高峰,導(dǎo)致位置存在1 bp誤差,新的算法:根據(jù)該引物N+1峰的特征指定讀右峰,避免了位置誤差);C:連續(xù)多峰識(shí)別(以前的算法:該組連續(xù)多峰由于峰高過(guò)低未能識(shí)別;新的算法:成功識(shí)別該組連續(xù)多峰,峰的高度為所有子峰高度的累加);D:鄰峰過(guò)濾(以前的算法:未能將相鄰的低峰過(guò)濾掉;新的算法:將相鄰的低于設(shè)定閾值的鄰峰過(guò)濾掉);E:高低峰過(guò)濾(以前的算法:未能將低峰過(guò)濾掉;新的算法:能夠?qū)⒌头暹^(guò)濾掉);F:二倍體過(guò)濾(以前的算法:僅標(biāo)識(shí)2個(gè)峰;新的算法:對(duì)符合設(shè)定閾值的第三個(gè)峰在圖上用未加框的灰色底紋標(biāo)識(shí)。)。左側(cè)和右側(cè)的圖分別為原軟件和新軟件的處理效果
A: Pull-up peak elimination (previous algorithm: Because the pull-up peak was located in the range of the primer amplification products, it couldn’t be accurately identified and eliminated; new algorithm: Considering the peak shape feature, it was accurately identified and eliminated. Red shading indicated that the peak did not fall into the allele interval, while grey shading showed that the peak fell into the allele interval); B: N+1 peak recognition (previous algorithm: always read the highest peak, cause 1bp error in position; with new algorithm: read the right peak); C: Tailed peak recognition (pervious algorithm: the height of the tailed peak is too low to be recognized; new algorithm: the tailed peak are successfully identified since the peak height is the summation of all sub peaks height); D: Adjacent peak filtration (Previous algorithms: failed to filter adjacent low peaks; new algorithm: filtered adjacent peaks below the set threshold); E: High-low peak filtration (Previous algorithms: failed to filter low peaks; new algorithm: low peaks couldn’t be filtered out); F: Diploid filtration (Previous algorithms: only two peaks was identified; new algorithm: the third peak that meted the set threshold was marked on the map with no framed grey shade).Graphs on the left show the results of the previous software; graphs on the right show the results of the new software
圖3 SSR指紋處理功能的實(shí)現(xiàn)效果
Fig. 3 The effect of SSR fingerprint processing function
A:利用已有panel設(shè)計(jì)新panel;B:標(biāo)記參數(shù)設(shè)置;C:Panel使用
A: Designing a new panel with a existing panel; B: Parameter setting of the markers; C: Using the panel
圖4 Panel編輯功能的實(shí)現(xiàn)效果
Fig. 4 The implementation of the panel editing function
SSR Analyser軟件與指紋庫(kù)系統(tǒng)的無(wú)縫對(duì)接,實(shí)現(xiàn)了樣品準(zhǔn)備到指紋采集全流程的自動(dòng)化、標(biāo)準(zhǔn)化,形成的指紋庫(kù)具有直觀可追溯的優(yōu)勢(shì)(圖5)。
SSR Analyser軟件開(kāi)發(fā)后,率先在玉米品種SSR指紋庫(kù)構(gòu)建中得到大規(guī)模應(yīng)用[37]。建庫(kù)SSR引物40個(gè),采用十重電泳,一塊電泳板形成的FSA原始文件中包括96個(gè)樣品、96×10=960個(gè)數(shù)據(jù)點(diǎn),按10個(gè)引物一組設(shè)計(jì)形成4組系統(tǒng)默認(rèn)panel(Q1、Q2、Q3和Q4),由兩位實(shí)驗(yàn)員進(jìn)行兩組獨(dú)立平行試驗(yàn)并獨(dú)立進(jìn)行指紋分析。不考慮數(shù)據(jù)缺失進(jìn)行的補(bǔ)板,共形成FSA文件數(shù)為42×4×2=336個(gè)。首先通過(guò)比較兩位實(shí)驗(yàn)員獨(dú)立分析的平行試驗(yàn)數(shù)據(jù)來(lái)評(píng)估軟件分析結(jié)果的準(zhǔn)確性,兩組指紋數(shù)據(jù)的的吻合度達(dá)到99.9%。其次評(píng)估軟件分析效率,如果用GeneMapper分析一個(gè)FSA文件,需要人工訂正的數(shù)據(jù)占10%—20%,平均分析時(shí)間為30—40 min,用SSR Analyser分析同樣的文件,人工訂正的數(shù)據(jù)量減少為0.5%—1%,平均分析時(shí)間縮短為約3 min,兩位實(shí)驗(yàn)員完成全部336個(gè)FSA文件的分析最快需要84 h/人。由此可見(jiàn),SSR Analyser軟件不僅分析準(zhǔn)確性高,分析效率也提高了10倍。
A:在指紋庫(kù)系統(tǒng)上直接調(diào)用分析器;B:分析完畢后直接上傳指紋庫(kù)系統(tǒng);C:在指紋庫(kù)系統(tǒng)上管理數(shù)據(jù)和指紋
為全面系統(tǒng)評(píng)價(jià)SSR Analyser對(duì)不同物種的分析效果,進(jìn)一步聯(lián)合多家研究單位在水稻、高粱、黃瓜、番茄、蘇丹草等多種二倍體植物的指紋庫(kù)構(gòu)建中試用,表明在二倍體作物上的應(yīng)用是成功的;在小麥、棉花等多倍體植物的指紋庫(kù)構(gòu)建中試用,表明對(duì)其中二倍體化的標(biāo)記使用效果較好,對(duì)非二倍體化的標(biāo)記仍需進(jìn)一步完善過(guò)濾算法。
隨著品種審定登記、品種權(quán)保護(hù)等系列制度的實(shí)施,植物品種SSR指紋庫(kù)構(gòu)建及品種鑒定已經(jīng)進(jìn)入日程。本研究開(kāi)發(fā)的SSR Analyser軟件解決了植物品種SSR分析自動(dòng)化和標(biāo)準(zhǔn)化的問(wèn)題,與已有的軟件相比,更加符合植物品種SSR指紋分析的需求:(1)數(shù)據(jù)分析更加簡(jiǎn)單高效,從導(dǎo)入數(shù)據(jù)、設(shè)置參數(shù)、分析數(shù)據(jù)、上傳數(shù)據(jù),只需連續(xù)的四步就可完成,比原軟件分析效率提高了10倍以上。(2)對(duì)2 bp重復(fù)類(lèi)型SSR標(biāo)記為主的植物品種指紋采集更加精準(zhǔn),提供了N+1峰、連續(xù)多峰等特殊峰型讀取的完美解決方案。(3)更加適合基于混合樣品的植物品種SSR指紋采集,對(duì)混合樣品帶來(lái)的高低峰、三峰、多峰等的指紋采集進(jìn)行了針對(duì)性開(kāi)發(fā),解決了混合樣品的指紋準(zhǔn)確讀取的問(wèn)題。(4)與DNA指紋庫(kù)管理系統(tǒng)自動(dòng)對(duì)接,批量上傳數(shù)據(jù)和指紋圖譜。
與GeneMapper ID、GeneMarker HID等定制化商業(yè)軟件僅解決人類(lèi)一個(gè)物種的指紋自動(dòng)化分析不同,SSR Analyser需要解決大部分植物物種的指紋自動(dòng)化分析。從SSR Analyser在多個(gè)作物上試用的情況看,在二倍體作物上分析效果最好,下一步可在更多的二倍體作物上推廣使用。在多倍體作物上的使用效果則受不同SSR標(biāo)記特征的影響,如果選用的SSR標(biāo)記類(lèi)型是二倍體化的,則分析效果較好;如果是多倍體化的,但不同染色體亞組的等位基因落在不同的區(qū)間范圍內(nèi),通過(guò)拆解成2個(gè)或3個(gè)二倍體化的標(biāo)記,也可獲得較好的分析效果。如果無(wú)法進(jìn)行拆解,則面臨采集的數(shù)據(jù)信息不完全的問(wèn)題。從SSR Analyser軟件本身而言,下一步可完善二倍體過(guò)濾算法,形成可兼容二倍體、四倍體、六倍體等多種倍性植物的過(guò)濾算法;然而,從指紋庫(kù)構(gòu)建而言,多倍體過(guò)濾算法不僅改變了SSR Analyser的數(shù)據(jù)采集,還影響到數(shù)據(jù)庫(kù)結(jié)構(gòu)設(shè)計(jì)及品種比較算法的邏輯,因此當(dāng)開(kāi)展多倍體植物品種SSR指紋庫(kù)構(gòu)建工作時(shí),到底是采取開(kāi)發(fā)二倍體化的SSR標(biāo)記的方案,還是采取開(kāi)發(fā)多倍體過(guò)濾算法的方案,仍需更多的實(shí)踐檢驗(yàn)。
人類(lèi)DNA指紋鑒定多數(shù)情況下采集的是個(gè)體樣品的DNA指紋,個(gè)別情況下采集的混合樣品主要來(lái)自犯罪現(xiàn)場(chǎng)的未知樣品,混合樣品中混合的不同個(gè)體數(shù)一般只有2個(gè),即一個(gè)未知DNA指紋的個(gè)體(嫌疑人)和一個(gè)已知DNA指紋的個(gè)體(受害者)[11-21],即使如此,對(duì)混合樣品的指紋解析仍很難達(dá)成一致結(jié)果[38]。與人類(lèi)不同,植物品種DNA指紋鑒定可以采集由大量個(gè)體混合形成的混合樣品,也可以先分別采集多個(gè)個(gè)體樣品,然后統(tǒng)計(jì)其主要基因型作為該品種的標(biāo)準(zhǔn)指紋,而混合樣品在品種預(yù)期一致性較高的情況下是首選方案[22]。與人類(lèi)上主要處理個(gè)體樣品或混合2個(gè)個(gè)體的混合樣品的情況不同,SSR Analyser主要處理植物品種混合大量個(gè)體的混合DNA,需采取不同的指紋采集算法。在開(kāi)發(fā)策略選擇上,采取數(shù)據(jù)采集和指紋圖譜采集相結(jié)合的方式,數(shù)據(jù)采集時(shí)通過(guò)高低峰過(guò)濾和二倍體過(guò)濾算法,僅保留峰高排在前面的1—2個(gè)峰,對(duì)第3個(gè)峰在指紋圖譜上標(biāo)注,在上傳數(shù)據(jù)庫(kù)時(shí),將數(shù)據(jù)及對(duì)應(yīng)的指紋圖譜一并上傳,在指紋庫(kù)管理系統(tǒng)中建立數(shù)據(jù)和指紋圖譜之間的鏈接,以便于通過(guò)指紋圖譜獲得更詳細(xì)的信息。從已構(gòu)建的玉米等作物品種SSR指紋庫(kù)使用情況看,同時(shí)采集數(shù)據(jù)和指紋大大提升了指紋庫(kù)的應(yīng)用價(jià)值,在品種真實(shí)性鑒定中發(fā)揮了重要的作用[37-39]。
基于GeneMarker開(kāi)發(fā)了適用于植物品種SSR指紋分析的定制化專(zhuān)用軟件-SSR Analyser,解決了植物品種SSR指紋分析的自動(dòng)化和標(biāo)準(zhǔn)化的問(wèn)題。與已有軟件相比,數(shù)據(jù)分析程序更加簡(jiǎn)單高效,對(duì)特殊峰型的SSR標(biāo)記指紋采集更加精準(zhǔn),更加適合基于混合樣品的植物品種SSR指紋采集。軟件的開(kāi)發(fā)及在多種作物上的成功應(yīng)用大大改善了SSR標(biāo)記在植物品種鑒定中的應(yīng)用效果。
[1] Guichoux E, Lagache L, Wagner S, Chaumeil P, LéGer P, Lepais O, Lepoittevin C, Malausa T, Revardel E, Salin F, Petit R J. Current trends in microsatellite genotyping., 2011, 11(4): 591-611.
[2] Lü Y, Liu Y, Zhao H. mInDel: a high-throughput and efficient pipeline for genome-wide InDel marker development., 2016, 17(1): 290.
[3] Jones E S, Sullivan H, Bhattramakki D, Smith J S C. A comparison of simple sequence repeat and single nucleotide polymorphism marker technologies for the genotypic analysis of maize (L.)., 2007, 115(3): 361-371.
[4] Sánchez-Pérez R, Ballester J, Dicenta F, Arús P, Martínez-Gómez P. Comparison of SSR polymorphisms using automated capillary sequencers, and polyacrylamide and agarose gel electrophoresis: Implications for the assessment of genetic diversity and relatedness in almond., 2006, 108(3): 310-316.
[5] Phillips N R. Expert systems for high throughput analysis of single source samples: A comparison of GeneMarker? HID v1.71 and GeneMapper? ID v3.2 and Validation of GeneMapper? ID v3.2., 2009.
[6] Chatterji S, Pachter L. Reference based annotation with GeneMapper., 2006, 4(7): R29.
[7] Tsukada K, Harayama Y, Itoga Y, Shimizu M, Kurasawa Y, Kasahara K. Comparison of DNA typing using AmpFlSTR Yfiler and PowerPlex Y System, for specimens subject to very long storage., 2013, 4(1): e162-e163.
[8] Bessetti J. Using GeneMapper? ID with Promega STR Systems., 2005, 8(2): 14-15.
[9] Holland M M, Parson W. GeneMarker? HID: A Reliable software tool for the analysis of forensic STR data., 2011, 56(1): 29-35.
[10] Ream W, Gellar B, Trempy J, Field K. Adding Size Standards to Peak Scanner - Molecular Microbiology Laboratory (Second Edition)-Appendix I. Molecular Microbiology Laboratory: Academic Press, 2013: 197-202.
[11] Gill P, Sparkes R, Pinchin R, Clayton T, Whitaker J, Buckleton J. Interpreting simple STR mixtures using allele peak areas., 1998, 91: 41-53.
[12] Bill M, Gill P, Curran J, Clayton T, Pinchin R, Healy M, Buckleton J. PENDULUM-a guideline-based approach to the interpretation of STR mixtures., 2005, 148(2/3): 181-189.
[13] Slooten K. Validation of DNA-based identification software by computation of pedigree likelihood ratios., 2011, 5(4): 308-315.
[14] Gill P, Kirkham A, Curran J. LoComatioN: A software tool for the analysis of low copy number DNA profiles., 2007, 166(2/3): 128-138.
[15] Perlin M W, Legler M M, Spencer C E, Smith J L, Allan W P, Belrose J L, W D B. Validating TrueAllele? DNA Mixture Interpretation.pdf., 2011, 56(6): 1430-1447.
[16] Haned H. Forensim: an open-source initiative for the evaluation of statistical methods in forensic genetics., 2011, 5: 265-268.
[17] Hansson O, Gill P. Evaluation of GeneMapper? ID-X mixture analysis tool., 2011, 3(1): e11-e12.
[18] He H, Snyder-Leiby T, Qi R, Liu J. Analysis of DNA mixtures in GeneMarker? HID software: with or without single source reference samples., 2009.
[19] Schumm J W, Cunningham H M, Cave C A, Stafford S, Leonard D A. The BodeChecks solution: A high throughput analysis software combining GeneMapper? ID, FSS-i3, LIMS, and artificial intelligence., 2008, 1(1): 125-127.
[20] Rossum T V, Tripp B, Daley D. SLIMS-a user-friendly sample operations and inventory management system for genotyping labs., 2010, 26(14): 1808-1810.
[21] Hu N, Cong B, Li S, Ma C, Fu L, Zhang X. Current developments in forensic interpretation of mixed DNA samples (Review)., 2014, 2(3): 309-316.
[22] 王鳳格, 唐浩, 鄧超, 周澤宇, 韓瑞璽, 易紅梅, 金石橋, 張力科, 趙久然, 呂波, 堵苑苑, 田紅麗. NY/T2594-2016 植物品種鑒定DNA分子標(biāo)記法總則.北京: 中國(guó)農(nóng)業(yè)出版社, 2016.
Wang F G, Tang H, Deng C, Zhou Z Y, Hang R X, Yi H M, Jin S Q, Zhang L K, Zhao J R, Lü B, Du Y Y, Tian H L. NY/T2594- 2016. Beijing: China Agriculture Press, 2016. (in Chinese)
[23] White J, Hughes-Stamm S, Gangitano D. Development and validation of a rapid pcr method for the powerplex? 16 hs system for forensic dna identification., 2015, 129(4): 715-723.
[24] Schumm J W, Gutierrez-Mateo C, Tan E, Selden R. A 27-locus STR assay to meet all united states and european law enforcement agency standards., 2013, 58(6): 1584-1592.
[25] 劉文彬, 許理文, 王鳳格, 趙久然, 馮博, 趙涵, 呂遠(yuǎn)大, 蔚榮海. 基于兩種熒光毛細(xì)管電泳平臺(tái)篩選評(píng)估玉米新型SSR引物. 玉米科學(xué), 2017, 25(2): 24-30.
Liu W B, Xu L W, Wang F G, Zhao J R, Feng B, Zhao H, Lü Y D, Yu R H. Evaluating and screening new maize SSR primer based on two kinds of fluorescent capillary electrophoresis platform., 2017, 25(2): 24-30. (in Chinese)
[26] Bang T C D, Raji A A, Ingelbrecht I L. A multiplex microsatellite marker kit for diversity assessment of large cassava (Crantz) germplasm., 2011, 29(3): 655-662.
[27] Soltis D E, Soltis P S, H L. Molecular data and the dynamic nature of polyploidy., 1993, 12(3): 243-273.
[28] 王鳳格, 易紅梅, 趙久然, 劉平, 張新明, 田紅麗, 堵苑苑. NY/T 1432-2014 玉米品種鑒定技術(shù)規(guī)程 SSR標(biāo)記法. 北京: 中國(guó)農(nóng)業(yè)出版社, 2014.
Wang F G, Yi H M, Zhao J R, Liu P, Zhang X M, Tian H L, Du Y Y. NY/T 1432-2014. Beijing: China Agriculture Press, 2014. (in Chinese)
[29] 徐群, 魏興華, 莊杰云, 呂波, 袁筱萍, 劉平, 張新明, 余漢勇, 堵苑苑. NY/T 1433-2014 水稻品種鑒定技術(shù)規(guī)程 SSR標(biāo)記法.北京: 中國(guó)農(nóng)業(yè)出版社,2014.
Xu Q, Wei X H, Zhuang J Y, Lü B, Yuan Y P, Liu P, Zhang X M, Yu H Y, Du Y Y. NY/T 1433-2014. Beijing: China Agriculture Press, 2014. (in Chinese)
[30] 趙昌平, 支巨振, 邱軍, 龐斌雙, 劉麗華, 王立新, 谷鐵城, 劉豐澤, 吳明生, 劉陽(yáng)娜, 張立平, 張風(fēng)廷, 李宏博, 趙海燕. NY/T2859-2015 主要農(nóng)作物品種真實(shí)性SSR分子標(biāo)記檢測(cè)普通小麥. 北京: 中國(guó)農(nóng)業(yè)出版社, 2015.
Zhao C P, Zhi J Z, Qiu J, Pang B S, Liu L H, Wang L X, Gu T C, Liu F Z, Wu M S, Liu Y N, Zhang L P, Zhang F T, Li H B, Zhao H Y. NY/T2859-2015(L.). Beijing: China Agriculture Press, 2015. (in Chinese)
[31] 楊劍波, 路曦結(jié), 何團(tuán)結(jié), 陸徐忠, 鄭曙峰, 張小娟, 倪金龍. NY/T 2634-2014 棉花品種真實(shí)性鑒定 SSR分子標(biāo)記法.北京: 中國(guó)農(nóng)業(yè)出版社, 2014.
Yang J B, Lu X J, He T J, Lu X Z, Zheng S F, Zhang X J, Ni J L. NY/T 2634-2014. Beijing: China Agriculture Press, 2014. (in Chinese)
[32] 李曉輝, 王鳳華, 張春宵, 張學(xué)軍, 周海濤, 郝彩環(huán), 李淑芳, 劉艷芝, 陶蕊, 李萬(wàn)軍, 徐寧. NY/T 2467-2013 高粱品種鑒定技術(shù)規(guī)程 SSR分子標(biāo)記法.北京: 中國(guó)農(nóng)業(yè)出版社,2013.
Li X H, Wang F H, Zhang C X, Zhang X J, Zhou H T, Hao C H, LI S F, Liu Y Z, Tao R, Li W J, Xu N. NY/T 2467-2013. Beijing: China Agriculture Press, 2013. (in Chinese)
[33] 苗晗, 張圣平, 顧興芳, 王燁, 莫青. NY/T 2474-2013 黃瓜品種鑒定技術(shù)規(guī)程 SSR分子標(biāo)記法. 北京: 中國(guó)農(nóng)業(yè)出版社, 2013.
Miao H, Zhang S P, Gu X F, Wang Y, Mo Q. NY/T 2474-2013. Beijing: China Agriculture Press, 2013. (in Chinese)
[34] 王杰, 高秋, 楊國(guó)鋒, 孫娟, 馬金星, 馮葆昌. 國(guó)審蘇丹草和高丹草品種SSR指紋圖譜構(gòu)建及遺傳多樣性分析. 草地學(xué)報(bào), 2016, 24(1): 156-164.
Wang J, Gao Q, Yang G F, Sun J, Ma J X, Feng B C. Fingerprint constructing and genetic diversity analyzing ofand×with SSR markers., 2016, 24(1): 156-164. (in Chinese)
[35] Olejniczak M, Krzyzosiak W J. Genotyping of simple sequence repeats-factors implicated in shadow band generation revisited., 2006, 27(19): 3724-3734.
[36] Guichoux E, Lagache L, Wagner S, Chaumeil P, Léger P, Lepais O, Lepoittevin C, Malausa T, Revardel E, Salin F, Petit RJ. Current trends in microsatellite genotyping., 2011, 11(4): 591-611.
[37] 王鳳格, 楊揚(yáng), 易紅梅, 趙久然, 任潔, 王璐, 葛建镕, 江彬, 張憲晨, 田紅麗, 侯振華. 中國(guó)玉米審定品種標(biāo)準(zhǔn)SSR指紋庫(kù)的構(gòu)建. 中國(guó)農(nóng)業(yè)科學(xué), 2017, 50(1): 1-14.
Wang F G, Yang Y, Yi H M, Zhao J R, Ren J, Wang L, Ge J R, Jiang B, Zhang X C, Tian H L, Hou Z H. Construction of an SSR-Based standard fingerprint database for corn variety authorized in China., 2017, 50(1): 1-14. (in Chinese)
[38] Dror I E, Hampikian G. Subjectivity and bias in forensic DNA mixture interpretation., 2011, 51(4): 204-208.
[39] 鄭永勝, 張晗, 王東建, 孫加梅, 王雪梅, 段麗麗, 李華, 王瑋, 李汝玉. 基于熒光檢測(cè)技術(shù)的小麥品種SSR鑒定體系的建立. 中國(guó)農(nóng)業(yè)科學(xué), 2014, (19): 3725-3735.
Zheng Y S, Zhang H, Wang D J, Sun J M, Wang X M, Duan L L, Li H, Wang W, Li R Y. Development of a wheat variety identification system based on fluorescently labeled SSR markers., 2014, 47(19): 3725-3735. (in Chinese)
(責(zé)任編輯 李莉)
SSR Analyser:A Special Software Suitable for SSR Fingerprinting of Plant Varieties
WANG FengGe1, LI Xin2, YANG Yang1, YI HongMei1, JIANG Bin2, ZHANG XianChen2, HUO YongXue2, ZHU Li2, GE JianRong1, WANG Rui1, REN Jie1, WANG Lu1, TIAN HongLi1, ZHAO JiuRan1
(1Maize Research Center, Beijing Academy of Agricultural and Forestry Sciences/Beijing Key Laboratory of Maize DNA Fingerprinting and Molecular Breeding, Beijing 100097;2BeijingTodaysoft Limited Company, Beijing 100083)
【Objective】Develop software tools for plant variety identification by SSR fingerprinting to realize the automatic and standardized analysis of plant variety identification, solving problems of low efficiency of data collection and hard for data sharing et al for SSR markers in practice. 【Method】Based on commercialized software GeneMarker?, develop and optimize algorithms to deal with the specialty of SSR fingerprinting analysis for data analysis, panel design, database synchronization et al. SSR Analyser is generated as personalized software and tested on maize and other crops for its effectiveness. 【Result】From the perspective of processing function, the software is able to first weakly eliminate pull-up peak using matrix by system calculation. Then, use matching algorithm with single peak removal method to completely remove pull-up peak automatically and correctly. By optimizing the reading algorithm of N+1 peak, stutter peak et al, unrecognized/inaccurate/mis-reading of special peak is solved. Therefore, it is more accurate for Dinucleotide SSR markers’ fingerprinting. By completing the filtering algorithm of neighboring peak, high and low peak, and diploid crops, it solves the problem of effective peak collection for blended samples. From the perspective of panel design, the software balances the flexibility, convenience and uniformity. On the premise of standardized data collection, the software is more suitable for complicated experiment: enhances the flexibility of marker parameter settings, which include setting parameters at one time for specific species using panels, or setting parameters individually for electrophoresis gel for each primer locus; realizes that generating new panels from existing markers; ensures the unification by calling panels and its synchronous updating. By seamless connecting the software and fingerprinting database management system, it realizes the automation and standardization from sample preparation to fingerprint collection, which makes the database more intuitive and traceable. Using the SSR Analyser for building database of maize indicates that the software is more efficient than the original software, which is 10 times of efficiency; After expanding the SSR Analyser’s application scope to rice, soybean, cucumber, watermelon, Chinese cabbage and other diploid crops, and polyploidy crops such as wheat and cotton, suggests that it is more applicable to diploid crops for polyploidy crops, markers developed based on diploid principle have better application. However, other types of markers need optimization on filtering algorithm. 【Conclusion】SSR Analyser is simple and effective in data analysis, which can accurately collect special peak for SSR markers. It is suitable for fingerprint collection of mixed samples and seamless connects with fingerprint database system, which greatly improves the application of SSR markers in plant variety identification.
plant varieties; SSR; DNA fingerprinting; fluorescent capillary electrophoresis; software development
2018-02-06;
2018-03-28
國(guó)家重點(diǎn)研發(fā)計(jì)劃(2017YFD0102001)、北京市科委科技計(jì)劃課題(Z161100001116089)
王鳳格,E-mail:gege0106@163.com。李欣,E-mail:lxwgcool@gmail.com。楊揚(yáng),E-mail:caurwx@163.com;王鳳格、李欣、楊揚(yáng)為同等貢獻(xiàn)作者。
趙久然,E-mail:maizezhao@126.com
10.3864/j.issn.0578-1752.2018.12.003