袁澤軼, 張琳琳,張國范
(1.中國科學(xué)院海洋研究所,山東 青島 266071;2.中國科學(xué)院研究生院,北京 100039)
基于皺紋盤鮑(Haliotis discus hannai)EST數(shù)據(jù)庫的串聯(lián)重復(fù)序列特征分析
袁澤軼1,2, 張琳琳1,2,張國范1
(1.中國科學(xué)院海洋研究所,山東 青島 266071;2.中國科學(xué)院研究生院,北京 100039)
皺紋盤鮑大規(guī)模EST的分析研究較少,為了研究其基因組轉(zhuǎn)錄本的基本特征并為皺紋盤鮑中開發(fā)EST-SSR功能性標(biāo)記奠定基礎(chǔ),我們利用生物信息學(xué)手段對NCBI公共數(shù)據(jù)庫中的5 784條皺紋盤鮑EST序列進(jìn)行EST-SSR特征分析。分析結(jié)果表明:(1) 皺紋盤鮑EST中串聯(lián)重復(fù)序列類型豐富;(2) 皺紋盤鮑EST Gene Ontology 注釋序列SSR類型單一;(3) 皺紋盤鮑EST-SSR分布廣泛富,是EST-SSR標(biāo)記開發(fā)的優(yōu)良資源。
皺紋盤鮑;EST;串聯(lián)重復(fù)序列;SSR
皺紋盤鮑(Haliotis discus hannai)主要分布于中國北方沿海、日本和朝鮮沿海,是中國黃渤海地區(qū)重要的經(jīng)濟(jì)養(yǎng)殖貝類之一。隨著分子標(biāo)記技術(shù)的不斷發(fā)展及其在海洋生物遺傳育種中的應(yīng)用,分子標(biāo)記輔助育種將對皺紋盤鮑養(yǎng)殖業(yè)健康穩(wěn)定發(fā)展提供有力保障。以各自的核心序列(重復(fù)單元)首尾相連多次重復(fù)的重復(fù)序列稱為串聯(lián)重復(fù)序列,它們在基因組中有著重要作用,與多種疾病相關(guān)[1]。 微衛(wèi)星(Simple sequence repeat, SSR),即簡單序列重復(fù),指以少數(shù)幾個核苷酸(一般為2 ~ 6個)為基本單位多次串聯(lián)重復(fù)的DNA序列,廣泛地應(yīng)用于遺傳連鎖圖譜構(gòu)建和物種基因組結(jié)構(gòu)的分析,是串聯(lián)重復(fù)序列中研究最為廣泛的一類。它具有多態(tài)性豐富、易操作和自動化測序程度高等優(yōu)點(diǎn),但是開發(fā)成本較高,限制了其大規(guī)模應(yīng)用。公共數(shù)據(jù)庫中存在的大量基因組序列,為解決SSR的挖掘提供了新的途徑。EST(Expressed sequence tags,表達(dá)序列標(biāo)簽)是基因的“窗口”,代表生物體某種組織某一時期的一個表達(dá)基因,能反映mRNA的信息。近年來,大規(guī)模cDNA測序工作在許多物種中開展,使NCBI中EST數(shù)據(jù)劇增,大量的EST數(shù)據(jù)可以部分反映相應(yīng)物種轉(zhuǎn)錄本的結(jié)構(gòu),進(jìn)而有助于探討其基因組的結(jié)構(gòu)和特征。另一方面,EST-SSR標(biāo)記來源于相對保守的轉(zhuǎn)錄區(qū)域,較全基因組SSR標(biāo)記具有更高的通用性和保守性[2]。利用NCBI上公布的皺紋盤鮑EST數(shù)據(jù)開發(fā)其功能性的EST-SSR標(biāo)記,研究轉(zhuǎn)錄本的結(jié)構(gòu)特征,能夠提高現(xiàn)有測序數(shù)據(jù)的利用效率,同時發(fā)掘出一批有實(shí)用價值的串聯(lián)重復(fù)序列標(biāo)記。
截至2009年11月1日,在NCBI數(shù)據(jù)庫中已有5 784條皺紋盤鮑ESTs,但目前還沒有利用這些EST分析串聯(lián)重復(fù)序列的報道。本研究對現(xiàn)有皺紋盤鮑EST中的串聯(lián)重復(fù)序列信息進(jìn)行了全面分析,以明確皺紋盤鮑串聯(lián)重復(fù)序列特別是SSR的發(fā)生頻率和特點(diǎn)。同時進(jìn)行了Gene Ontology的注釋研究,以探討EST序列的功能與SSR的關(guān)系。本研究有助于促進(jìn)串聯(lián)重復(fù)序列特別是SSR標(biāo)記在皺紋盤鮑遺傳育種中的應(yīng)用。
從NCBI中下載皺紋盤鮑EST 5 784條,與UniVec載體庫比對 >100 bp的EST序列,載體屏蔽程序選用cross_match,所用參數(shù)為 -minmatch 10、 -minscore 20、 -screen。用Sequence Assembly Program,CAP3對去除了PolyA的上述序列聚類分析,并去掉聚類后小于100 bp的序列。
利用Tandem Repeat Finder (TRF)[3]搜尋EST序列中的串聯(lián)重復(fù)序列,所用參數(shù)為:Match=2,Mismatch=7,Delta=7,PM=80,PI=10,Minscore=30,Maxperiod=500。提取重復(fù)序列長度≥15bp的重復(fù)序列并統(tǒng)計其分布特征
用balst2go[4]對皺紋盤鮑預(yù)處理的EST序列進(jìn)行分類。
在預(yù)處理的皺紋盤鮑EST中,共有483條串聯(lián)重復(fù)序列,其中大于7 bp的有321條,長度為13 415 bp。在大于7 bp的串聯(lián)復(fù)序列中,9 bp重復(fù)為重復(fù)單元總數(shù)目最多的重復(fù)類型。7 ~ 15 bp重復(fù)類型的重復(fù)單元總數(shù)目遠(yuǎn)遠(yuǎn)大于15 bp以上重復(fù)類型的重復(fù)單元數(shù)目,其數(shù)量關(guān)系表現(xiàn)為:9 bp >8 bp >10 bp >12 bp >11 bp>14 bp >7 bp >15 bp,上述關(guān)系與在櫛孔扇貝中的報道有差異[5],這驗(yàn)證了串聯(lián)重復(fù)序列在不同的物種中分布具有多樣性的特點(diǎn)。除18 bp和24 bp 重復(fù)類型外,15 bp以上重復(fù)類型的重復(fù)單元數(shù)目均小于20個。重復(fù)序列類型與重復(fù)序列拷貝數(shù)之間并沒有線性關(guān)系。重復(fù)序列的最大拷貝數(shù)在9 bp重復(fù)類型處(11.2),其他重復(fù)類型的最大拷貝數(shù)均低于7次。
對2 105條皺紋盤鮑處理后的序列Gene Ontology (GO)分類(圖1),從圖中可以看出皺紋盤鮑序列能夠比對上多種功能和細(xì)胞組分,但數(shù)量較少。對GO的三種分類(細(xì)胞組分,分子功能和生物學(xué)過程)分別進(jìn)行了簡單串聯(lián)重復(fù)序列(SSR)的分析(表2)。結(jié)果表明:通過GO注釋分類得到的串聯(lián)重復(fù)序列較少,G重復(fù),A重復(fù)和ACC重復(fù)均具有相似的拷貝數(shù),是因?yàn)椴煌诸愊碌腟SR多來源于相同的Contigs。另一方面,GO分類的結(jié)果的重復(fù)序列類型多為三堿基或三堿基的倍數(shù),這也說明了SSR的重復(fù)類型在EST序列中具有選擇性[6]。
圖 1 皺紋盤鮑序列GO 分類a:細(xì)胞組成成分的分類;b:分子功能的分類;c:生物學(xué)過程的分類Fig.1 Go (Gene Ontology) classification of assembled EST of Haliotis discus hannaia: Classification of the sequence in cellular component categories following Gene Ontology; b: Classification of the sequence in molecular function categories following Gene ontology; c: Classification of the sequence in biological process categories following Gene ontology
表 2 Go功能注釋分類SSR搜尋結(jié)果Tab.2 Go (Gene Ontology) classification and SSR search
表 3 皺紋盤鮑EST微衛(wèi)星重復(fù)序列的特征Tab.3 The distribution and characteristics of SSR in the P Haliotis discus hannai EST
對經(jīng)過處理得到的2 105條無冗余序列進(jìn)行搜索,共檢出SSR 342條,發(fā)生頻率為16.25% (SSR的數(shù)目與搜索原序列的比例),這與櫛孔扇貝中的報道相類似[7]。皺紋盤鮑EST中SSR種類較為豐富,包含了單堿基到六堿基的各種重復(fù)類型(表 3)。本研究用一種重復(fù)類型代表與其互補(bǔ)和有序列順序差異的各種重復(fù)類型,如AAG代表六種重復(fù)類型,分別為:AAG、AGA、GAA、CTT、TTC、TCT。單堿基共觀察到所有的兩種重復(fù)類型,二堿基共觀察到兩種重復(fù)類型,并未觀察到GC重復(fù),這與在櫛孔扇貝,長牡蠣和大多數(shù)真核生物中的報道一致[7-9]。三堿基重復(fù)中共觀察到五種重復(fù)序列類型,其重復(fù)序列的數(shù)目均較少,AGC和CTC為2個,其他為3個,這可能是皺紋盤鮑目前的序列數(shù)據(jù)較少所致。因?yàn)樗膲A基到六堿基的重復(fù)類型較多,本研究用AT的百分含量代表重復(fù)類型加以表示。AT含量約為50%的重復(fù)序列數(shù)目最高,這與家蠶的報道稍有差距,其原因可能也是NCBI上皺紋盤鮑的分析數(shù)據(jù)較少[10]。在重復(fù)序列的拷貝數(shù)方面,單堿基重復(fù)類型和二堿基重復(fù)類型的拷貝數(shù)較多,其他重復(fù)類型平均拷貝數(shù)最大為10.4。
[1]Armour J A.Tandemly repeated DNA: why should anyone care? [J].Mutation Research, 2006, 598(1-2): 6-14.
[2]Varshney R, Graner A, Sorrells M.Genic microsatellite markers in plants: features and applications [J].TRENDS in Biotechnology, 2005, 23(1): 48-55.
[3]Benson, G.Tandem repeats finder: a program to analyze DNA sequences [J].Nucleic Acids Research, 1999, 27(2): 573-80.
[4]Conesa A, G?tz S, García-Gómez J M, et al.Blast2GO: a universal tool for annotation, visualization and analysis in functional genomics research [J].Bioinformatics, 2005, 21(18): 3674-3676.
[5]Zhang L, Chen C, Cheng J, et al.Initial analysis of tandemly repetitive sequences in the genome of Zhikong scallop (Chlamys farreri Jones et Preston) [J].DNA Sequence, 2008, 19(3): 195-205.
[6]Zhang Z, Xue Q.Tri-nucleotide repeats and their association with genes in rice genome [J].Biosystems, 2005, 82(3): 248-256.
[7]Zhang L, Bao Z, Cheng J, et al.Fosmid library construction and initial analysis of end sequences in Zhikong scallop (Chlamys farreri) [J].Marine Biotechnology, 2007, 9(5): 606-612.
[8]Tóth G, Gáspári Z, Jurka J, et al.Microsatellites in different eukaryotic genomes: survey and analysis [J].Genome Research, 2000, 10(7): 967-981.
[9]Wang Y, Ren R, Yu Z, et al.Bioinformatic mining of EST-SSR loci in the Pacific oyster, Crassostrea gigas [J].Animal Genetics, 2008, 39(3): 287-289.
[10]Prasad M D, Muthulakshmi M, Madhu M, et al.Survey and analysis of microsatellites in the silkworm, Bombyx mori: frequency, distribution, mutations, marker potential and their conservation in heterologous species [J].Genetics, 2005, 169(1): 197-214.
Bioinformatic date mining of EST- tandem repeats of theHaliotis discus hannai
YUAN Ze-yi1,2, ZHANG Lin-lin1,2, ZHANG Guo-fan1
(1.Institute of Oceanology, Chinese Academy of Sciences, Qingdao 266071, China;
2.Graduate University, Chinese Academy of Sciences, Beijing 100039, China)
Large scale analysis of EST in theHaliotis discus hannaiis underdeveloped.In order to understand the preliminary characteristics of transcripts and provide resources for the SSR marker study in theHaliotis discus hannai, we have an analysis of tandem repeats based on 5 784 ESTs downloaded from NCBI.The major results are as follows: 1) Types of tandem repeats are rich in the EST of theHaliotis discus hannai; 2) Sequences annotated by Gene Ontology have few types of SSR; 3) ESTs have a wide distribution, which is helpful to SSR marker study.
Haliotis discus hannai; EST; tandem repeat; SSR
Q954
A
1001-6932(2010)01-0059-06
2009-11-03;
2009-11-27
國家重點(diǎn)基礎(chǔ)研究發(fā)展計劃資助(973計劃項(xiàng)目,2010CB126401);國家公益性行業(yè)(農(nóng)業(yè))科研專項(xiàng)資助(nyhyzx07-047)作者簡介:袁澤軼(1981-),碩士研究生,研究方向:海洋生物學(xué)。電子郵箱:yuanzy-nmdis@163.com
張國范,研究員。電子郵箱:gfzhang@ms.qdio.ac.cn