胡艷華,李敏,,張虎芳*,李生才,王青,趙惠玲
(1.山西農(nóng)業(yè)大學 農(nóng)學院,山西 太谷 030801;2.太原師范學院 生物系,山西 太原 030031)
粘蟲轉錄組中SSR位點的信息分析
胡艷華1,李敏1,2,張虎芳1*,李生才1,王青2,趙惠玲2
(1.山西農(nóng)業(yè)大學 農(nóng)學院,山西 太谷 030801;2.太原師范學院 生物系,山西 太原 030031)
粘蟲Mythimnaseparata(Walker)是一種遷飛性害蟲,嚴重危害玉米、水稻、小麥等糧食作物。SSR是指以1~6個核苷酸為基本重復單位的串聯(lián)重復DNA序列。SSR位點的信息分析為粘蟲擴散、遷飛和交配等行為分子機制的研究以及粘蟲的綜合防治奠定理論基礎。本研究基于高通量測序獲得的粘蟲轉錄組數(shù)據(jù),利用軟件msatcommander發(fā)掘粘蟲SSR位點。結果從20 776條轉錄組Unigenes中共搜索出400個SSR,分布于372條Unigenes中。在粘蟲轉錄組SSR中,三核苷酸重復的數(shù)量最為豐富,有271個;其次是二核苷酸和單核苷酸重復,分別是70個和49個;四至六核苷酸重復的數(shù)量都很少,共10個。粘蟲轉錄組SSR共包含24種重復基元,其中CCG/CGG是優(yōu)勢重復基元類型,有69個;其次是AAG/CTT,有57個。CG/CG有18個,在二核苷酸重復基元中所占的比例達到25.7%。此研究發(fā)掘到的SSR位點將為粘蟲遺傳圖譜的構建、遺傳多樣性分析、親緣關系分析等提供豐富的分子標記。
粘蟲;轉錄組;SSR;重復類型;重復基元
簡單重復序列(Simple Sequence Repeat,SSR)又稱微衛(wèi)星(Microsatellites DNA),是指以1~6個核苷酸為基本重復單位的串聯(lián)重復序列,如 An、(AT)n、(TGG)n和(ATTC)n等重復[1]。SSR廣泛存在于真核生物和部分原核生物核基因組中,是一種有效的基于DNA長度多態(tài)性的分子標記,具有高度多態(tài)性、雜合性高、分布廣泛、變異豐富、呈共顯性遺傳和檢測快速方便諸多優(yōu)點,已被廣泛應用于遺傳圖譜繪制、種群遺傳結構和遺傳多樣性分析、基因定位與克隆、分子標記輔助育種、親緣關系分析等研究領域[2,3]。
粘蟲Mythimnaseparata(Walker)屬于鱗翅目夜蛾科,具有遷飛性和暴發(fā)性,是糧食作物的主要害蟲,嚴重威脅我國農(nóng)業(yè)生產(chǎn)和糧食安全,在亞洲和澳洲其它國家也常發(fā)生危害[4]。2012年三代粘蟲在我國暴發(fā)成災,發(fā)生面積和危害程度為近十年之最[5]。粘蟲SSR標記位點的開發(fā)有利于構建粘蟲的遺傳圖譜,探究其種群遺傳結構和遺傳多樣性,從分子水平探究粘蟲擴散、遷飛和交配等行為,為制定科學合理的檢測及防控措施奠定理論基礎。
傳統(tǒng)的從基因組DNA序列中開發(fā)SSR的方法存在步驟繁瑣、成本高、效率低以及耗時長等問題。隨著新一代高通量測序技術的發(fā)展,從轉錄組數(shù)據(jù)庫中搜索并鑒定SSR位點為SSR位點的開發(fā)提供了一種經(jīng)濟、高效的途徑和豐富的遺傳學資源。同時,由于基于轉錄組開發(fā)的SSR位于蛋白質的編碼區(qū)域,這些編碼區(qū)中包含著已知或者未知的基因功能,因而可用于鑒定功能基因,從而可進一步進行表型研究。
至今,基于轉錄組對EST-SSR位點的開發(fā)已有相關報道。Bai et al[7]通過對溫帶臭蟲(Cimex lectulariusLinnaeus)的轉錄組數(shù)據(jù)庫篩選得到370個SSR,其中三核苷酸重復的數(shù)量最豐富。Wei et al[8]基于嗜蟲書虱(Liposcelisentomophila(Enderlein))轉錄組篩選得到1 110個EST-SSR,并成功設計出231對引物。Xu et al[9]從白背飛虱(Sogatellafurcifera(Horváth))轉錄組數(shù)據(jù)中搜索得到7 291個SSR位點,并且預測有7.26%的蛋白質編碼序列位于這些SSR中。Duan et al[10]從綠豆象(CallosobruchuschinensisLinnaeus)轉錄組數(shù)據(jù)中搜索并鑒定出6 303個SSR遺傳標記,并從中篩選出20對高度多態(tài)性的SSR遺傳標記已經(jīng)成功用于分析綠豆象種群的遺傳多樣性。Sun et al[11]從 褐 飛 虱 (Nilaparvatalugens(St?l))轉錄組中發(fā)掘得到 465個 SSR,將含有SSR的序列與NCBI中nonredundant(nr)蛋白質數(shù)據(jù)庫比對發(fā)現(xiàn)37.2%的序列是已知功能的基因,62.4%的基因功能未知。對鱗翅目昆蟲的研究報道中,Xie et al[12]從小菜蛾(PlutellaXylostella(Linnaeus))轉錄組中發(fā)掘出2 351個SSR位點,三核苷酸重復的數(shù)量最豐富。Li et al[13]基于二點委夜蛾(Athetislepigone(M?schler))轉錄組發(fā)掘到2 819個SSR,分布于2 411條序列中。Zhu et al[14]從細梢小卷蛾(RhyacionialeptotubulaLiu et Bai)轉錄組中發(fā)掘到1 450個SSR位點,其中(ATC)n是出現(xiàn)最多的重復基元。Pascual et al[15]從甜菜夜蛾(Spodopteraexigua(Hübner))轉錄組中發(fā)掘到351個SSR位點,25%的SSR位于預測的開放閱讀框(ORFs)中。
本研究通過新一代高通量測序技術對粘蟲進行轉錄組測序,利用從頭組裝軟件獲得粘蟲的Unigenes,通過搜索軟件對其EST-SSR位點進行大批量搜索,并對其進行分析,以便了解粘蟲轉錄組EST-SSR位點的組成和分布特征,為后續(xù)粘蟲的SSR引物的設計、遺傳多樣性分析以及功能基因的研究提供有效的分子標記。
試蟲引自西北農(nóng)林科技大學無公害農(nóng)藥研究服務中心飼養(yǎng)多年的粘蟲,飼養(yǎng)期間不接觸任何藥劑。取粘蟲卵、1~6齡幼蟲、蛹和成蟲,采用trizol法抽提粘蟲總RNA。利用Nanodrop 2000分光光度計檢測總RNA質量,當總RNA的濃度大于等于200mg·L-1、OD260/280值在1.8~2.2之間時,表明所提取的RNA符合轉錄組測序要求。
總RNA樣品達到轉錄組測序要求后采用華大基因Illumina HiSeq2000測序儀進行高通量深度測序。對測序得到的原始序列進行去接頭、去低質量讀段和去重復等處理,之后使用組裝軟件Trinity[16]對這些短序列進行從頭de nove組裝,最終得到盡可能長的非冗余序列Unigenes。
利用msatcommander軟件[17]對粘蟲全轉錄組Unigenes序列進行SSR搜索,搜索標準如表1,符合上述搜索標準的在本次研究中被定義為SSR。
經(jīng)Nanodrop 2000分光光度計檢測粘蟲總RNA質量后,檢測結果為:總RNA濃度為831.5 mg·L-1,OD260/280值為2.01,表明粘蟲總RNA樣品質量很高,能夠滿足轉錄組測序的要求。
粘蟲轉錄組原始序列經(jīng)組裝拼接以后獲得了20 776條Unigenes。這些Unigenes的總長度為14 002 443bp,平均長度為674bp。Unigenes序列長度均大于等于200bp,最長的Unigenes 6 868bp。這些Unigenes序列用于后續(xù)的SSR搜索。
表1 發(fā)掘粘蟲轉錄組SSR的搜索標準Table 1 The search criteria of SSR fromMythimnaseparatatranscriptome
粘蟲轉錄組Unigenes序列經(jīng)msatcommander軟件搜索,得到400個SSR,占總Unigenes數(shù)量的1.925%,即出現(xiàn)頻率。這400條SSR位點分布于372條Unigenes中,發(fā)生頻率為1.790%,發(fā)生頻率指含有SSR的Unigenes數(shù)量與總Unigenes數(shù)量的比值。其中,含單個SSR位點的Unigenes有365條,含2個SSR位點的Unigenes有10條,含3個SSR位點的Unigenes有5條。從分布情況看,粘蟲轉錄組Unigenes中平均每35 006bp(35kb)就出現(xiàn)1個SSR,即平均距離,但不同重復類型間差異較大。
從粘蟲轉錄組中共搜索到六種核苷酸重復類型,出現(xiàn)數(shù)量最多的是三核苷酸重復類型,占總SSR數(shù)量的67.75%,其次是二核苷酸重復,占總SSR數(shù)量的17.50%,數(shù)量最少的是五核苷酸重復,只占總數(shù)的0.25%(表2)
表2 粘蟲EST-SSR位點的數(shù)量與分布Table 2 The amount and distribution of the EST-SSR inMythimnaseparata
另外,不同核苷酸重復的重復次數(shù)有所差異,單核苷酸重復基元的重復次數(shù)主要集中在12~13次,二、三核苷酸重復主要集中在5~7次,四、五、六核苷酸重復基元的重復次數(shù)主要以4次為主(表2)。
在400個粘蟲EST-SSR位點中,共有24種重復基元出現(xiàn),其中單、二、三、四、五及六核苷酸重復基元的種類分別是2、4、10、5、1和2(表3)。其中,出現(xiàn)頻率最多的重復基元是CCG/CGG,其次是AAG/CTT(圖1)。單核苷酸重復基元中,A/T是優(yōu)勢基元,占單核苷酸重復的87.75%;二核苷酸重復基元中,出現(xiàn)的次數(shù)最多的是AC/GT,占二核苷 酸 重 復 的 55.71%,其 次 是 CG/CG,占25.71%。三核苷酸重復基元中,最高為CCG/CGG,占三核苷酸重復的25.46%;四、五和六核苷酸重復基元類型數(shù)量最少,總計占總SSR數(shù)量的2.5%(表3)。
本研究通過生物信息學方法,從粘蟲全轉錄組數(shù)據(jù)庫20 776條Unigenes中共發(fā)掘出400個EST-SSR,出現(xiàn)頻率為1.93%,這比從黑翅土白蟻(Odontotermesformosanus(Shiraki))(9.98%)[18]、扶桑綿粉蚧(PhenacoccussolenopsisTinsley)(6.33%)[19]、煙 粉 虱 (Bemisiatabaci(Gennadius))(5.07%)[20]和嗜蟲書虱(2.03%)[8]轉錄組中發(fā)掘的SSR出現(xiàn)頻率要低,但比黃粉蟲(TenebriomolitorLinnaeus)(1.67%)[21]、云南切梢小蠹(TomicusyunnanensisKirkendall and Faccoli)(1.29%)[22]和 蔥 地 種 蠅 (DeliaantiguaMeigen)(1.12%)[23]的SSR 出現(xiàn)頻率要高。鱗翅目昆蟲中,細梢小卷蛾SSR的出現(xiàn)頻率是3.09%,高于粘蟲SSR的出現(xiàn)頻率[14]。分析原因,除了由于SSR搜索方法或標準有所差異外,最根本的原
因可能是物種本身的差異。
表3 粘蟲EST-SSR重復基元的分布特征Table 3 Distribution Characteristics of EST-SSR's motif types inMythimnaseparata
圖1 粘蟲轉錄組SSR中不同重復類型及不同重復基元的分布Fig.1 Distribution of SSR among different nucleotide types found in the transcriptome of Mythimnaseparata
粘蟲EST-SSR的種類較為豐富,一至六核苷酸重復類型都有出現(xiàn),其中數(shù)量最多的重復類型是三核苷酸重復序列。這與二點委夜蛾、灰飛虱(Laodelphaxstriatellus(Fallén))和大豆蚜(A-phisglycinesMatsamura)等昆蟲的EST-SSR以三核苷 酸 重 復 為 主 類 似[13,24,25],而 與 扶 桑 綿 粉蚧[19]、黃 粉 蟲[21]、黑 翅 土 白 蟻[20]、蠋 蝽 (Arma chinensisFallou)[26]的 EST-SSR 分布不同。其中扶桑綿粉蚧和黃粉蟲EST-SSR中都是單核苷酸重復序列占主導地位,黑翅土白蟻和蠋蝽ESTSSR中占主導地位的是二核苷酸重復。由此可見不同物種間EST-SSR類型的分布存在著差異。大部分昆蟲中三核苷酸重復序列數(shù)量最豐富,可能是為了防止蛋白質編碼時發(fā)生移碼突變[11]。
粘蟲EST-SSR主要重復基元以1~3核苷酸為主,占總EST-SSR的99%以上。單核苷酸重復中A/T是主要的重復基元,這與已研究的90%以上昆蟲的單核苷酸重復以A/T為主類似。在二核苷酸重復類型中,AC/GT重復基元出現(xiàn)的頻率最高,與鱗翅目昆蟲細梢小卷蛾[14]AC/GT為優(yōu)勢重復基元相似。但與褐飛虱[12]和黃粉蟲[21]以 AG/CT為主導重復基元以及與桔小實蠅[9]、扶桑綿粉蚧[19]、云南切梢小蠹[22]以 AT/AT 為主導重復基元不同。三核苷酸重復中,CCG/CGG重復基元占絕對優(yōu)勢,鱗翅目昆蟲二點委夜蛾中(CGC)n和(GCC)n的數(shù)量最多[24];而在扶桑綿粉蚧[19]、黃粉蟲[21]和 德 國 小 蠊 (Blattellagermanica(Linnaeus))[27]中 AAT/ATT 是優(yōu)勢基元;云南切梢小蠹[22]中AAT/ATT和ATC/GAT含量最多;在桔小實蠅[8]中,AGC/GCT 最常見;在灰飛虱[24]中AAC/GTT數(shù)量最豐富;在褐飛虱[11]中 AAG/CTT占主導地位,而CCG/CGG的含量卻是最低的,僅占褐飛虱三核苷酸重復基元的1.83%。
值得注意的是,粘蟲二核苷酸重復基元中GC/GC所占的比例達到25.7%,僅僅低于重復基元AC/GT。該結果與鱗翅目昆蟲二點委夜蛾[13]和細梢小卷蛾[14]中GC/GC重復基元很常見相類似。以往對昆蟲EST-SSR的研究中,GC/GC的含量都極低甚至沒有。例如在灰飛虱[24]和褐飛虱[12]EST-SSR搜索中均沒有發(fā)現(xiàn)GC重復基元;在桔小實蠅轉錄組SSR中含有3個GC/GC重復基元[8],云南切梢小蠹轉錄組中僅有2個[22]。粘蟲、二點委夜蛾和細梢小卷蛾同屬鱗翅目,GC/GC重復基元是否與鱗翅目的某些特殊功能有關系,今后需進一步研究。
本研究基于粘蟲的轉錄組數(shù)據(jù)發(fā)掘獲得大批量SSR,并對SSR數(shù)量分布相關特性及可用性進行了闡述和評估,表明通過轉錄組數(shù)據(jù)發(fā)掘SSR的方法是高效可行的。研究結果為粘蟲遺傳圖譜的構建、種群多樣性分析以及特定基因的定位奠定了基礎,這對于探究粘蟲擴散、遷飛和交配等行為的分子機制以及粘蟲的綜合防治都具有重要意義。同時,也為鱗翅目其它種類基于轉錄組數(shù)據(jù)發(fā)掘SSR提供參考。
[1]Powell W,Machray GC,Provan J.Polymorphism revealed by simple sequence repeats[J].Trends in Plant Science,1996,1(7):215-222.
[2]Varshney RK,Graner A,Sorrells ME.Genic microsatellite markers in plants:features and applications[J].Trends in Biotechnology,2005,23(1):48-55.
[3]Li YC,Korol AB,F(xiàn)ahima T,et al.Microsatellites:genomic distribution,putative functions and mutational mechanisms:a review[J].Molecular Ecology,2002,11(12):2453-2465.
[4]江幸福,張蕾,程云霞,等.我國粘蟲發(fā)生危害新特點及趨勢分析[J].應用昆蟲學報,2014,51(6):1444-1449.
[5]姜玉英,李春廣,曾娟,等.我國粘蟲發(fā)生概況:60年回顧[J].應用昆蟲學報,2014,51(4):890-898.
[6]Zalapa JE,Cuevas H,Zhu H,et al.Using next-generation sequencing approaches to isolate simple sequence repeat(SSR)loci in the plant sciences[J].American Journal of Botany,2012,99(2):193-208.
[7]Bai XD,Mamidala P,Rajarapu SP,et al.Transcriptomics of the Bed Bug(Cimexlectularius)[J].PLoS One,2011,6(1):e16336.
[8]Wei DD,Chen EH,Ding TB,et al.De Novo Assembly,Gene Annotation,and Marker Discovery in Stored-Product PestLiposcelisentomophila(Enderlein)Using Transcriptome Sequences[J].PLoS One,2013,8(11):e80046.
[9]Xu Y,Zhou W,Zhou Y,et al.Transcriptome and Comparative Gene Expression Analysis ofSogatellafurcifera(Horváth)in Response to Southern Rice Black-Streaked Dwarf Virus[J].PLoS One,2012,7(4):e36238.
[10]Duan CX,Li DD,Sun SL,et al.Rapid Development of Microsatellite Markers forCallosobruchuschinensisUsing Illumina Paired-End Sequencing[J].PLoS One,2014,9(5):e95458.
[11]Sun JT,Zhang YK,Ge C,et al.Mining and characterization of sequence tagged microsatellites from the brown planthopperNilaparvata lugens[J].Journal of Insect Science,2011,11:134.
[12]Xie W,Lei YY,F(xiàn)u W.Tissue-Specific Transcriptome Profiling ofPlutellaXylostellaThird Instar Larval Midgut[J].International Journal of Biological Science,2012,8(8):1142-1155.
[13]Li LT,Zhu YB,Ma JF,et al.An Analysis of theAthetislepigoneTranscriptome from Four Developmental Stages[J].PLoS One,2013,8(9):e73911.
[14]Zhu JY,Li YH,Yang S,et al.De novo Assembly and Characterization of the Global Transcriptome forRhyacionialeptotubulaUsing Illumina Paired-End Sequencing[J].PLoS One,2013,8(11):e81096.
[15]Pascual L,Jakubowska AK,Blanca JM,et al.The transcriptome ofSpodopteraexigualarvae exposed to different types of microbes[J].Insect Biochemistry and Molecular Biology,2012,42:557-570.
[16]Grabherr MG,Haas BJ,Yassour M,et al.Trinity:reconstructing a full-length transcriptome without a genome from RNA-Seq data[J].Nature Biotechnology,2013,29(7):644-652.
[17]Faircloth BC.Msatcommander:detection of microsatellite repeat arrays and automated,locus-specific primer design[J].Molecular Ecology Resources,2008,8(1):92-94.
[18]Huang Q,Sun P,Zhou X,et al.Characterization of Head Transcriptome and Analysis of Gene Expression Involved in Caste Differentiation and Aggression inOdontotermesformosanus(Shiraki)[J].PLoS One,2012,7(11):e50383.
[19]羅梅,張鶴,賓淑英,等.基于轉錄組數(shù)據(jù)高通量發(fā)掘扶桑綿粉蚧微衛(wèi)星引物[J].昆蟲學報,2014,57(4):395-400.
[20]Xie W,Meng QS,Wu QJ,et al.Pyrosequencing theBemisiatabaciTranscriptome Reveals a Highly Diverse Bacterial Community and a Robust System for Insecticide Resistance[J].PLoS One,2012,7(4):e35181.
[21]朱家穎,吳國星,楊斌.基于轉錄組數(shù)據(jù)高通量發(fā)掘黃粉甲微衛(wèi)星引物(英文)[J].昆蟲學報,2013,56(7):724-728.
[22]袁遠,張麗芳,吳國星,等.云南切梢小蠹微衛(wèi)星的高通量發(fā)掘[J].環(huán)境昆蟲學報,2014,36(2):166-170.
[23]Zhang YJ,Hao YJ,Si FL,et al.The de novo Transcriptome and Its Analysis in the Worldwide Vegetable Pest,Deliaantiqua(Diptera:Anthomyiidae)[J].G3-Genes Genomes Genetics,2014,4(5):851-859.
[24]Zhang F,Guo H,Zheng H,et al.Massively parallel pyrosequencing-based transcriptome analyses of small brown planthopper(Laodelphaxstriatellus),a vector insect transmitting rice stripe virus(RSV)[J].BMC Genomics,2010,11:303.
[25]Bai XD,Zhang W,Orantes L,et al.Combining Next-Generation Sequencing Strategies for Rapid Molecular Resource Development from an Invasive Aphid Species,Aphisglycines[J].PLoS One,2010,5(6):e11370.
[26]Zou D,Coudron TA,Liu C,et al.Nutrigenomics inArmachinensis:Transcriptome Analysis ofArmachinensisFed on Artificial Diet and Chinese Oak Silk MothAntheraeapernyiPupae[J].PLoS One,2013,8(4):e60881.
[27]Zhou X,Qian K,Tong Y,et al.De Novo Transcriptome of the Hemimetabolous German Cockroach (Blattellagermanica)[J].PLoS One,2014,9(9):e106932.
The Information Analysis of SSR Loci in theMythimnaseparate(Walker)Transcriptome
Hu Yanhua1,Li Min1,2,Zhang Hufang1*,Li Shengcai1,Wang Qing2,Zhao Huiling2
(1.CollegeofAgriculture,ShanxiAgriculturalUniversity,TaiguShanxi030801,China;2.DepartmentofBiology,TaiyuanNormalUniversity,TaiyuanShanxi030031,China)
Mythimnaseparata(Walker)is a kind of migratory pests and causes serious damage to the crops such as corn,wheat,rice and so on.Simple sequence repeat(SSR)is tandemly repeated motif of 1~6nucleotide.The information analysis of SSR loci in theMythimnaseparate(Walker)establishes a theoretical basis for the research of molecular mechanisms such as its diffusion,journey and mating behavior,as well as its integrated control.Based on the constructed transcriptome database inMythimnaseparata,the SSR loci were explored by the software msatcommander.In total,400SSR loci were explored from 20 776transcriptome unigenes,and they were distributed in 372unigenes.Among these SSR loci,trinucleotide were the most abundant repeats,of which were 271,followed by dinucleotide and mononucleotide repeats,of which were 70and 49,respectively.Tetra-、penta-and hexanucleotide were 10in all.There were 24 kinds of repeated motif types inMythimnaseparatatranscriptome SSR.CCG/CGG was the most advantages repeat motif types(69),then AAG/CTT (57).There were 18CG/CG repeated motif types which accounted for 25.3%of the dinucleotide repeat motif types.The SSR loci which were discovered in this study would benefit a lot for the construction of gene mapping,the research of genetic diversity and the parentage analysis.
Mythimnaseparata;Transcriptome;SSR;Repeat type;Motif type
S433.4
A
1671-8151(2015)05-0484-06
10.13842/j.cnki.issn1671-8151.2015.05.007
2015-04-12
2015-05-21
胡艷華(1990-),女(漢),山西洪洞人,碩士研究生,研究方向:農(nóng)業(yè)昆蟲與害蟲防治
*通訊作者:張虎芳,教授,碩士生導師。Tel:0354- 6288225;E-mail:zh_hufang@sohu.com
國家自然科學基金(31440078);中國博士后研究經(jīng)費(134845);山西省高等學校大學生創(chuàng)新創(chuàng)業(yè)訓練項目(2014376);太原師范學院大學生創(chuàng)新創(chuàng)業(yè)訓練項目(20140413)
(編輯:武英耀)