徐鵬,蔡繼鴻,郭琪,張香桂,徐珍珍,沈新蓮
亞洲棉EST-SNP的挖掘及其在陸地棉中的驗(yàn)證
徐鵬,蔡繼鴻,郭琪,張香桂,徐珍珍,沈新蓮*
(江蘇省農(nóng)業(yè)科學(xué)院經(jīng)濟(jì)作物研究所/農(nóng)業(yè)部長(zhǎng)江下游棉花油菜重點(diǎn)實(shí)驗(yàn)室,江蘇南京210014)
【目的】隨著不同棉種序列數(shù)據(jù)庫(kù)的逐步完善以及高通量測(cè)序技術(shù)的發(fā)展,棉花單核苷酸多態(tài)性(Single nucleotidepolymorphism,SNP)標(biāo)記開(kāi)發(fā)可利用的公共數(shù)據(jù)資源逐步增加?!痉椒ā勘狙芯炕陉懙孛拮嫦然蚪M的現(xiàn)代種亞洲棉表達(dá)序列標(biāo)簽(Expressed sequencetag,EST)數(shù)據(jù)庫(kù),利用CAP3對(duì)亞洲棉EST數(shù)據(jù)庫(kù)進(jìn)行拼接。拼接獲得7 187個(gè)重疊群(Contig),再利用QualitySNP軟件進(jìn)行SNP位點(diǎn)分析?!窘Y(jié)果】在807條含有4條以上EST序列的Contig中查找到2 690個(gè)SNP位點(diǎn)。通過(guò)篩選次要等位基因頻率大于30%的位點(diǎn),獲得953個(gè)可靠度較高的候選SNP,通過(guò)電子篩選,最終獲得可用于陸地棉分析的SNP 149個(gè),利用位點(diǎn)特異性聚合酶鏈?zhǔn)椒磻?yīng)以及酶切擴(kuò)增多態(tài)序列驗(yàn)證了EST-SNP的準(zhǔn)確性?!窘Y(jié)論】本研究證實(shí)基于亞洲棉EST數(shù)據(jù)庫(kù)挖掘用于陸地棉研究的EST-SNP切實(shí)可行,并有望將EST-SNP用于陸地棉遺傳圖譜構(gòu)建、重要性狀的基因定位以及分子標(biāo)記輔助育種。
亞洲棉;單核苷酸多態(tài)性;酶切擴(kuò)增多態(tài)性序列;表達(dá)序列標(biāo)簽
Abstract:[Objective]With the development of the cotton genome sequence database and next-generation high-throughput sequencing techniques,the resources available for generating single nucleotide polymorphism (SNP)markers are gradually expanding.[Method]The Gossypium arboreum expressed sequence tags(ESTs)downloaded from the NCBIdatabase were assembled into 7 187 contigs using the CAP3 program.Additionally,the QualitySNPprogram was used for SNPmining.[Result]A total of 2 690 SNPs were obtained from 807 contigs that consisted of more than four ESTs.We obtained 953 highly reliable candidate SNPsby screening for a minor loci frequency of more than 30%.Finally,a total of 149 candidate EST-SNPsthat may be used in G.hirsutum were obtained through in silico screening.An allele-specific polymerase chain reaction and cleaved amplified polymorphic sequencemolecular markerswereused to validatethe accuracy of the selected candidate SNPsin G.hirsutum.[Conclusion]The EST-SNPmarkers from G.arboreum may be used to analyze G.hirsutum.The obtained EST-SNPmarkers will beused to construct genetic maps,map important traits,and completemarker-assisted selection in G.hirsutum.
Keywords:Gossypium arboreum;single nucleotide polymorphism;cleaved amplified polymorphic sequence;expressed sequence tag
目前棉花分子標(biāo)記的開(kāi)發(fā)和應(yīng)用主要集中于利用公用數(shù)據(jù)庫(kù)開(kāi)發(fā)的簡(jiǎn)單重復(fù)序列(Simple sequence repeat,SSR)分子標(biāo)記。由于陸地棉的遺傳基礎(chǔ)狹窄,種內(nèi)遺傳圖譜所含的SSR標(biāo)記數(shù)較少,覆蓋率低,不能滿(mǎn)足實(shí)際育種的需要;所以,開(kāi)發(fā)更多其他類(lèi)型的分子標(biāo)記成為研究者迫切需要解決的問(wèn)題。單核苷酸多態(tài)性 (Single nucleotide polymorphism,SNP)分子標(biāo)記廣泛分布于基因組范圍內(nèi),具有變異來(lái)源豐富、潛在數(shù)量巨大等優(yōu)點(diǎn),具有廣闊的應(yīng)用前景[1]。
較高的前期測(cè)序成本是大規(guī)模開(kāi)發(fā)SNP標(biāo)記的主要限制因素。因此,通過(guò)生物信息學(xué)方法利用現(xiàn)有數(shù)據(jù)進(jìn)行SNP位點(diǎn)的查找并通過(guò)后期試驗(yàn)加以驗(yàn)證已成為1種快捷高效的SNP開(kāi)發(fā)途徑。隨著不同棉種序列數(shù)據(jù)庫(kù)的逐步完善以及高通量測(cè)序技術(shù)的發(fā)展,棉花SNP標(biāo)記開(kāi)發(fā)的可利用公共數(shù)據(jù)資源逐步增加,使得利用表達(dá)序列標(biāo)簽(Expressed sequence tag,EST)進(jìn)行 SNP 標(biāo)記的開(kāi)發(fā)具有很多的優(yōu)勢(shì)。當(dāng)前,異源四倍體棉花中存在2個(gè)不同進(jìn)化來(lái)源的亞基因組,在進(jìn)行SNP檢測(cè)時(shí),亞基因組間和亞基因組內(nèi)SNP位點(diǎn)的區(qū)分較困難。通過(guò)序列比對(duì)所發(fā)現(xiàn)的SNP很多是部分同源(異源多倍體內(nèi)亞基因組間的同源性)序列間的差異,而不是等位同源序列間的差異[2]。陸地棉A、D亞基因組種間同源序列的差異使得基于陸地棉EST開(kāi)發(fā)SNP具有較高的假陽(yáng)性,開(kāi)發(fā)效率很低。亞洲棉(Gossypium arboreum)、雷蒙德氏棉(G.raimondii)被認(rèn)為是異源多倍體祖先基因組的現(xiàn)代種。陸地棉中具有部分同源性的A、D亞基因組分別與亞洲棉、雷蒙德氏棉的基因組具有極小的序列分歧[3]。二倍體與多倍體亞基因組間的相似性、共線性為多倍體陸地棉基因組中區(qū)分SNP提供了材料基礎(chǔ)。
SNP標(biāo)記檢測(cè)方法由于操作復(fù)雜、成本昂貴,需要高端的儀器設(shè)備;因此,SNP標(biāo)記技術(shù)在動(dòng)植物遺傳育種中的應(yīng)用受到了嚴(yán)重限制。酶切擴(kuò)增多態(tài)性序列 (Cleaved amplified polymorphic sequence,CAPS)是1種將特異引物聚合酶鏈?zhǔn)椒磻?yīng)(Polymerasechain reaction,PCR)與限制性?xún)?nèi)切酶消化結(jié)合的分子標(biāo)記檢測(cè)技術(shù),具有共顯性、位點(diǎn)特異性、操作簡(jiǎn)單和成本低等特點(diǎn),是檢測(cè)SNP位點(diǎn)的常用方法[4]。本研究基于陸地棉祖先基因組的現(xiàn)代種亞洲棉EST數(shù)據(jù)庫(kù),利用生物信息學(xué)手段大規(guī)模查找SNP位點(diǎn),通過(guò)電子篩選,獲得可用于陸地棉分析的SNP,對(duì)部分SNP位點(diǎn)在陸地棉中進(jìn)行位點(diǎn)特異性PCR以及對(duì)含有酶切位點(diǎn)的SNP位點(diǎn)在陸地棉中CAPS驗(yàn)證,以期用于陸地棉遺傳圖譜構(gòu)建、重要性狀的基因定位以及分子標(biāo)記輔助育種。
1.1 供試材料
截至2016年6月,61 898條亞洲棉EST序列下載于美國(guó)國(guó)立生物技術(shù)信息中心 (NCBI)網(wǎng)站(http://www.ncbi.nlm.nih.gov/),所有 EST 序列以fasta格式保存。
用于SNP驗(yàn)證的陸地棉品種分別為DP555、Miscott7913-83、蘇 12、枝棉 3 號(hào)、徐州 142、魯棉研28。
1.2 EST序列的聚類(lèi)和拼接
為了得到更可靠的SNP位點(diǎn),首先要對(duì)EST序列進(jìn)行預(yù)處理,從而獲得clean序列用于后續(xù)SNP位點(diǎn)分析。利用Cross_match[5]對(duì)EST序列進(jìn)行載體序列屏蔽,通過(guò) EST_trimmer.pl(http://pgrc.ipk-gatersleben.de/misa/download/est_trinimer.pl)腳本進(jìn)行PolyA以及過(guò)短和過(guò)長(zhǎng)EST的處理, 具體參數(shù)為-amb=2,50;-tr5=T,5,50;-tr3=A,5,50;-cut=100 700(參數(shù)含義分別為去掉末端50 bp內(nèi)不明確的堿基,去掉5'的Poly T,去掉3'端Poly A,選擇長(zhǎng)度介于100到700 bp的序列);CAP3軟件對(duì)EST序列進(jìn)行聚類(lèi)與拼接,拼接最小重疊堿基為100 bp,具體參數(shù)為-p 95-o 100(相似度95%,最小重疊堿基數(shù)100 bp)。
1.3 EST-SNP位點(diǎn)的挖掘
提取在CAP3拼接結(jié)果中4條及以上的EST序列重疊群用于SNP位點(diǎn)開(kāi)發(fā)。利用軟件Qual itySNP[6](http://www.bioinformatics.nl/tools/snpweb/)對(duì)含有4條以上亞洲棉EST序列的重疊群開(kāi)發(fā)SNP位點(diǎn),同時(shí)分析SNP的類(lèi)型,并對(duì)次要等位基因的頻率進(jìn)行篩選。
1.4 候選SNP位點(diǎn)的驗(yàn)證
根據(jù)突變位點(diǎn)設(shè)計(jì)特異PCR引物(http://ausubellab.mgh.harvard.edu/,SNAP program)。 引物設(shè)計(jì)的主要參數(shù):引物長(zhǎng)度20~36 bp;Tm62~70℃(最適為67℃);GC含量為45%~65%,最適為 50%。95℃預(yù)變性 5 min;94℃變性30 s,65℃退火45 s,72℃延伸 1 min,36個(gè)循環(huán);72℃延伸 10 min;4 ℃保存。產(chǎn)物在 12 g·L-1瓊脂糖凝膠上電泳,觀察電泳條帶是否具有多態(tài)性。
在候選SNP中隨機(jī)選取具有酶切位點(diǎn)的候選SNP進(jìn)行CAPS驗(yàn)證。首先保證目標(biāo)序列中只存在1個(gè)目標(biāo)酶切位點(diǎn),然后在目標(biāo)酶切位點(diǎn)兩側(cè)用Primer5.0進(jìn)行引物設(shè)計(jì),引物設(shè)計(jì)的主要參數(shù)為引物長(zhǎng)度18~22 bp(最適為20 bp),Tm55~65℃(最適為60℃),GC含量為45%~65%(最適為50%)。95℃預(yù)變性5 min;94℃變性30 s,60 ℃退火 45 s,72 ℃延伸 1 min,36 個(gè)循環(huán);72℃延伸10 min;4℃永久保存。酶切分析參照TaKaRa的內(nèi)切酶操作指南,用限制性核酸內(nèi)切酶酶切PCR產(chǎn)物,酶切體系包括10 U·μL-1限制酶 0.3μL、1μL buffer、5.7μL ddH2O、3μL PCR 產(chǎn)物,酶切2 h。酶切完畢后酶切產(chǎn)物在12 g·L-1瓊脂糖凝膠上電泳,觀察電泳條帶的多態(tài)性。
2.1 亞洲棉EST的處理及拼接
利用Cross_match和EST_trimmer.pl對(duì)原始EST序列進(jìn)行預(yù)處理后,最終獲得57 308條clean亞洲棉EST序列。利用CAP3對(duì)clean EST拼接,拼接最小重疊堿基為100 bp,序列相似度為95%。亞洲棉EST拼接后獲得7 187條重疊群(Contig),平均每個(gè)重疊群含有4.54條EST,含有2條EST序列的重疊群3 363條,含有3條EST序列的重疊群1 336條,含有4條及以上EST序列的重疊群2 488條,24 688條EST未參與拼接(表 1)。
表1 亞洲棉EST序列拼接結(jié)果Table 1 Assembling results of G.arboreum EST
2.2 EST-SNP位點(diǎn)分析
由于序列的拼接需要大量的冗余序列作為基礎(chǔ),才能保證候選SNP的可靠度,所以本研究選擇2 488條含有4條以上亞洲棉EST序列的Contig利用QualitySNP軟件查找SNP位點(diǎn) (圖1)。結(jié)果表明,所有用于開(kāi)發(fā)SNP的Contig序列總長(zhǎng)為2 293 541 bp,其中807個(gè)Contig含2 690個(gè)候選SNP,平均每852 bp出現(xiàn) 1個(gè)SNP,每個(gè)Contig含有1~87個(gè)SNP,平均每個(gè)Contig含有3.33個(gè)SNP。隨著Contig所含的EST數(shù)目的增加,SNP數(shù)目也表現(xiàn)為逐漸增加的趨勢(shì)(圖2)。其中Contig88由132條EST拼接而成,共含有87個(gè)SNP位點(diǎn)。在2 690個(gè)候選SNP位點(diǎn)中,顛換類(lèi)型有1 139個(gè),轉(zhuǎn)換類(lèi)型1 106個(gè),單堿基插入缺失類(lèi)型445個(gè)。其中A-G轉(zhuǎn)換類(lèi)型的SNP最多,占22.71%;其次為C-T轉(zhuǎn)換類(lèi)型,占18.40%;C-插入缺失類(lèi)型則最少,僅占2.83%(表2)。為了提高候選SNP的可靠度,進(jìn)一步篩選候選SNP次要等位基因的頻率至少為30%的SNP位點(diǎn),最終獲得953個(gè)可靠度較高的候選SNP用于后續(xù)的分析。
2.3 可用于陸地棉分析的EST-SNP的電子篩選及其驗(yàn)證
圖1 EST-SNP位點(diǎn)的挖掘Fig.1 Identification of EST-SNP
圖2 不同規(guī)格重疊群平均候選SNP數(shù)量Fig.2 Average amounts of candidate SNP from different contigs
表2 候選SNP的類(lèi)型分析Table 2 Analysis of candidate SNP types
利用以上獲得的807條含候選SNP的Contig作為查詢(xún)序列,以陸地棉EST數(shù)據(jù)庫(kù)(下載于http://www.ncbi.nlm.nih.gov/)作為參考序列進(jìn)行本地 Blastn[7](E-value<10-10),獲得與 807 條亞洲棉Contig聯(lián)配的陸地棉EST 40 728條。以QualitySNP分析后產(chǎn)生的allavailsnp文件作為查詢(xún)序列,以上獲得的40 728條與亞洲棉Contig聯(lián)配的陸地棉EST作為參考數(shù)據(jù)庫(kù),利用短序列比對(duì)軟件 bowtie(http://bowtie-bio.sourceforge.net/index.shtml)進(jìn)行比對(duì),總共681個(gè)SNP能夠比對(duì)到參考數(shù)據(jù)庫(kù)(圖3),其中532個(gè)SNP位點(diǎn)只有1個(gè)基因型能夠匹配,即該類(lèi)型的SNP在陸地棉中表現(xiàn)為單態(tài)性。篩選SNP位點(diǎn)2種基因型均能夠與陸地棉EST完全匹配的序列作為候選,最終獲得149個(gè)可用于陸地棉分析的候選EST-SNP(表 3)。
為了驗(yàn)證候選SNP的可靠性,從149個(gè)候選的EST-SNP中隨機(jī)選擇位點(diǎn)進(jìn)行驗(yàn)證。為了保證獲得合適大小的PCR產(chǎn)物,隨機(jī)選擇SNP位于序列5'端的Contig2325,利用SNAPprogram根據(jù)突變位點(diǎn)設(shè)計(jì)特異PCR引物Contig2325-F:5'-AATGGCTTCCATGCTTAGCTCTGGACT-3',Contig2325-R:5'-CAAAGGCCTCAGGGTCGGCTG-3'。驗(yàn)證結(jié)果表明,在不同的陸地棉品種中Contig2325的候選SNP具有多態(tài)性(圖4)。
圖3 候選SNP在陸地棉EST中的匹配分析Fig.3 Analysis of SNP mapping to EST database of Gossypium hirsutum
表3 149個(gè)可用于陸地棉分析的候選EST-SNP信息Table 3 Information of 149 candidate EST-SNPs
表3 (續(xù))Table 3(Continued)
表3 (續(xù))Table 3(Continued)
表3 (續(xù))Table 3(Continued)
表3 (續(xù))Table 3(Continued)
表3 (續(xù))Table 3(Continued)
表3 (續(xù))Table 3(Continued)
隨機(jī)選取具有酶切位點(diǎn)的候選SNP進(jìn)行CAPS驗(yàn)證,用酶切位點(diǎn)識(shí)別序列去搜索149條候選的SNP序列信息。本研究用常用的限制性?xún)?nèi)切酶識(shí)別序列去搜索allavailsnp文件中149個(gè)SNP序列信息 (表 3), 發(fā)現(xiàn) Contig167、Contig3231在 Eco RⅠ酶切位點(diǎn)處有 SNP。由于Contig3231的酶切位點(diǎn)識(shí)別序列位于序列的5'端,無(wú)法設(shè)計(jì)引物;因此,僅對(duì)Contig167設(shè)計(jì)引物,引物序列為Contig167-F:5'-CATACCTCCC CGATCTTACACC-3',Contig167-R:5'-ACTAATGCACTGCACTTGACGC-3'。PCR擴(kuò)增酶切產(chǎn)物的電泳結(jié)果顯示,Contig167的候選SNP具有多態(tài)性(圖5)。因此,通過(guò)亞洲棉EST開(kāi)發(fā)用于陸地棉分析的EST-SNP基本可行。
圖4 Contig2325候選SNP位點(diǎn)特異性PCR驗(yàn)證Fig.4 Validation of the candidate SNP of the contig2325 using allele-specific PCR
圖5 Contig167候選SNP位點(diǎn)的CAPS驗(yàn)證結(jié)果Fig.5 Validation of the candidate SNP of the contig167 using CAPS
利用現(xiàn)有數(shù)據(jù),結(jié)合生物信息學(xué)知識(shí)及相關(guān)分析軟件進(jìn)行SNP標(biāo)記開(kāi)發(fā),再制定針對(duì)候選SNP位點(diǎn)的驗(yàn)證方法,因其具有開(kāi)發(fā)成本低快捷高效等優(yōu)點(diǎn),而被廣大科研工作者青睞。公共數(shù)據(jù)庫(kù)中已經(jīng)積累了大量的EST序列,很多來(lái)源于不同的個(gè)體或品種,大量的冗余序列拼接時(shí)往往會(huì)出現(xiàn)不一致的堿基,即為EST-SNP突變位點(diǎn),這些位點(diǎn)可以通過(guò)生物信息學(xué)方法檢測(cè)到[8]。近些年來(lái),在植物方面從模式植物擬南芥[9],到主要糧食作物水稻[10]、玉米[11]、小麥[12]和大麥[13],及一些小物種植物,如番茄[14]、松樹(shù)[15]、蘋(píng)果[16]等,該方法均得到了普遍應(yīng)用。EST來(lái)源于功能基因表達(dá)的cDNA片段,相關(guān)公共數(shù)據(jù)庫(kù)中增速最快的核苷酸序列是EST序列,使得以EST序列為基礎(chǔ)進(jìn)行相關(guān)分子標(biāo)記開(kāi)發(fā)變得越來(lái)越方便。同時(shí)利用EST序列開(kāi)發(fā)出的候選SNP位點(diǎn)很可能與表達(dá)基因緊密相關(guān)或直接位于基因的編碼區(qū)內(nèi),可直接應(yīng)用于植物分子育種的研究實(shí)踐。本研究基于陸地棉祖先基因組的現(xiàn)代種亞洲棉EST數(shù)據(jù)庫(kù),利用軟件QualitySNP查找到953個(gè)可靠度較高的SNP位點(diǎn),通過(guò)在陸地棉EST數(shù)據(jù)庫(kù)中電子篩選,最終獲得149個(gè)可用于陸地棉分析的候選EST-SNP,以期用于陸地棉遺傳圖譜構(gòu)建、重要性狀的基因定位以及分子標(biāo)記輔助育種的研究。
棉花上SNP標(biāo)記大規(guī)模開(kāi)發(fā)的首次報(bào)道是在2009年Van Deynze等[17]以陸地棉和海島棉為主要研究對(duì)象,開(kāi)發(fā)了約1 000個(gè)海陸棉種之間的SNP。隨著測(cè)序技術(shù)的發(fā)展,在棉花SNP標(biāo)記的開(kāi)發(fā)方面已獲得初步進(jìn)展。Hulse-Kemp等[18]首先對(duì)陸地棉遺傳標(biāo)準(zhǔn)系TM-1的細(xì)菌人工染色體(Bacterial artificial chromosome,BAC) 文庫(kù)進(jìn)行末端測(cè)序,然后利用這些末端序列為參考對(duì)12個(gè)陸地棉材料、1個(gè)海島棉及1個(gè)長(zhǎng)萼棉(G.longicalyx Hutchinson&Lee)基因組重測(cè)序并進(jìn)行序列比對(duì),在12個(gè)陸地棉材料中發(fā)現(xiàn)了132 262個(gè)種內(nèi)SNP標(biāo)記,在陸地棉與海島棉間挖掘到了223 138個(gè)SNP標(biāo)記,在陸地棉與長(zhǎng)萼棉間挖掘了70631個(gè)SNP標(biāo)記。Zhu等[19]通過(guò)簡(jiǎn)化基因組測(cè)序 (RAD-seq)在22個(gè)陸地棉品種中得到3 090個(gè)SNP標(biāo)記。目前利用公共數(shù)據(jù)庫(kù)開(kāi)發(fā)棉花SNP的研究則報(bào)道較少。Li等[20]利用HaploSNPer軟件對(duì)收集到的陸地棉和海島棉的EST進(jìn)行序列比對(duì),開(kāi)發(fā)出了356個(gè)SNP標(biāo)記。
棉花栽培種主要為異源四倍體,A和D亞基因組間的部分同源序列區(qū)分困難,難以區(qū)別棉花中2個(gè)亞基因組間的單核苷酸變異和亞基因組內(nèi)的單核苷酸變異。這在很大程度上阻礙了棉花中SNP標(biāo)記的開(kāi)發(fā)和應(yīng)用進(jìn)程。此外,棉花測(cè)序工作完成較晚,無(wú)法提供參考基因組,這些對(duì)棉花中SNP標(biāo)記的開(kāi)發(fā)進(jìn)程有一定的影響。陸地棉中具有部分同源性的A、D亞基因組分別與亞洲棉、雷蒙德氏棉的基因組具有極小的序列分歧[3]。隨著不同棉種基因組測(cè)序的完成,基于基因組重測(cè)序能夠快速找到大量的基因組變異,因此它是目前發(fā)掘SNP標(biāo)記最強(qiáng)大的工具。Wang等[21]對(duì)陸地棉TM-1和海島棉海7124進(jìn)行了基因組重測(cè)序,以TM-1基因組序列作為參考序列,共在2個(gè)材料間鑒定出6 476 899個(gè)SNP標(biāo)記。
本研究基于陸地棉祖先基因組的現(xiàn)代種亞洲棉EST數(shù)據(jù)庫(kù),消除部分同源序列之間的干擾,提高了開(kāi)發(fā)效率,證實(shí)了通過(guò)亞洲棉EST開(kāi)發(fā)用于陸地棉基因組分析的EST-SNP的可行性。
[1]Ganal M W,Altmann T,R?der M S.SNPidentification in crop plants[J].Current Opinionin Plant Biology,2009,12(2):211-217.
[2]Kaur S,Francki M G,Forster JW.Identification,characterization and interpretation of single-nucleotide sequence variation in allopolyploid crop species[J].Plant Biotechnology Journal,2012,10(2):125-138.
[3]Senchina D S,Alvarez I,Cronn R C,et al.Rate variation among nuclear genesand theageof polyploidy in Gossypium[J].Molecular Biology and Evolution,2003,20(4):633-643.
[4]Lee GA,Koh H J,Chung H K,et al.Development of SNP-based CAPS and dCAPS markers in eight different genes involved in starch biosynthesis in rice[J].Molecular Breeding,2009,24(1):93-101.
[5]Ewing B,Green P.Base-calling of automated sequencer traces using phred.Ⅱ.Error probabilities[J].Genome Research,1998,8:186-194.
[6]Tang Jifeng,Vosman B,Voorrips R E,et al.QualitySNP:a pipeline for detecting single nucleotide polymorphisms and insertions/deletionsin EST datafrom diploid and polyploid species[J/OL].BMCBioinformatics,2006,7:438[2016-10-17].http://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-7-438.DOI:10.1186/1471-2105-7-438.
[7]Altschul S F,Madden T L,Schaffera A,et al.Gapped BLAST and PSI-BLAST:A new generation of protein database search program[J].Nucleic Acids Research,1997,25:3389-3402.
[8]Picoultnewberg L,Ideker T E,Pohl M G,et al.Mining SNPs from EST database[J].Genome Research,1999,9(2):167-174.
[9]Torjk O,Berger D,Meyer RC,et al.Establishment of a high-efficiency SNP-based framework marker set for Arabidopsis[J].The Plant Journal,2003,36(1):122-140.
[10]Feltus FA,Wan J,Schulze SR,et al.An SNPresource for rice genetics and breeding based on subspecies indica and japonica genome alignments[J].Genome Research,2004,14(9):1812-1819.
[11]Batley J,Barker G,O'Sullivan H,et al.Mining for single nucleotide polymorphisms and insertions/deletions in maize expressed sequence tag data[J].Plant Physiology,2003,132(1):84-91.
[12]Rustgi S,Bandopadhyay R,Balyan H S,et al.EST-SNPs in bread wheat:discovery,validation,genotyping and haplotype structure[J].Czech Journal of Geneticsand Plant Breeding,2009,45:106-116.
[13]Kota R,Varshney RK,Prasad M,et al.EST-derived single nucleotide polymorphism markers for assembling genetic andphysical mapsof thebarley genome[J].Functional&Integrative Genomics,2008,8(3):223-233.
[14]Yamamoto N,Tsugane T,Watanabe M,et al.Expressed sequence tags from the laboratory-grown miniature tomato(Lycopersicon esculentum)cultivar Micro-Tom and mining for single nucleotide polymorphisms and insertions/deletions in tomato cultivars[J].Gene,2005,356:127-134.
[15]Dantec L L,ChagnéD,Pot D,et al.Automated SNPdetection in expressed sequence tags:Statistical considerations and application to maritime pine sequences[J].Plant Molecular Biology,2004,54(3):461-470.
[16]ChagnéD,Gasic K,Crowhurst RN,et al.Development of a set of SNPmarkers present in expressed genes of the apple[J/OL].Genomics,2008,92(5):353[2016-10-17].http://www.sciencedirect.com/science/article/pii/S0888754308001808.DOI:10.1016/j.ygeno.2008.07.008.
[17]Van Deynze A,Stoffel K,Lee M,et al.Sampling nucleotide diversity in cotton[J/OL].BMC Plant Biology,2009,9(1):125[2016-10-17].https://bmcplantbiol.biomedcentral.com/articles/10.1186/1471-2229-9-125.DOI:10.1186/1471-2229-9-125.
[18]Hulse-Kemp A M,Ashrafi H,Stoffel K,et al.BAC-end sequence-based SNPmining in allotetraploid cotton(Gossypium)utilizing resequencing data,phylogenetic inferences,and perspectives for genetic mapping[J].Genes Genomes Genetics,2015,5(6):1095-1105.
[19]Zhu Qianhao,Spriggs A,Taylor JM,et al.Transcriptome and complexity-reduced,DNA-based identification of intraspecies single-nucleotide polymorphisms in the polyploid Gossypium hirsutum L.[J].Genes Genomes Genetics,2014,4(10):1893-1905.
[20]Li Ximei,Gao Wenhui,Guo Huanle,et al.Development of EST-based SNP and InDel markers and their utilization in tetraploid cotton genetic mapping[J/OL].BMC Genomics,2014,15(1):1046[2016-10-17].http://bmcgenomics.biomedcentral.com/articles/10.1186/1471-2164-15-1046.DOI:10.1186/1471-2164-15-1046.
[21]Wang Sen,Chen Jiedan,Zhang Wenpan,et al.Sequence-based ultra-dense genetic and physical maps reveal structural variations of allopolyploid cotton genomes[J/OL].Genome Biology,2015,16(1):108[2016-10-17].http://genomebiology.biomedcentral.com/articles/10.1186/s13059-015-0678-1.DOI:10.1186/s13059-015-0678-1. ●
Development of EST-SNP Markers in Gossypium arboreum and Their Validation in G.hirsutum
Xu Peng,Cai Jihong,Guo Qi,Zhang Xianggui,Xu Zhenzhen,Shen Xinlian*
(Institute of Industrial Crops,Jiangsu Academy of Agricultural Sciences/Key Laboratory of Cotton and Rapeseed,Ministry of A-griculture,Nanjing 210014,China)
S562.03
A
1002-7807(2017)05-0401-14
10.11963/1002-7807.xpsxl.20170628
2016-10-17 第一作者簡(jiǎn)介:徐鵬(1981―),男,Semon528@hotmail.com。*通信作者:xlshen68@126.com
國(guó)家自然科學(xué)基金(31471545);江蘇省自然科學(xué)基金(BK20160580);國(guó)家科技重大專(zhuān)項(xiàng)——轉(zhuǎn)基因生物新品種培育(2014ZX08005-004-002);棉花生物學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室開(kāi)放課題(CB2015A12);江蘇省協(xié)同創(chuàng)新中心