(北京林業(yè)大學(xué)草地資源與生態(tài)實(shí)驗(yàn)室,北京 100083)
①表達(dá)序列標(biāo)簽 EST(Expressed Sequence Tag)是從一個(gè)隨機(jī)選擇的cDNA克隆進(jìn)行5'端和3'端單一次測序獲得的短的cDNA部分序列,代表一個(gè)完整基因的一小部分,在數(shù)據(jù)庫中其長度一般從20~7 000 bp不等,平均長度為360±120 bp。EST作為表達(dá)基因所在區(qū)域的分子標(biāo)簽因編碼DNA序列高度保守而具有自身的特殊性質(zhì),與來自非表達(dá)序列的標(biāo)記(如 AFLP、RAPD、SSR等)相比更可能穿越家系與種的限制,因此EST標(biāo)記在親緣關(guān)系較遠(yuǎn)的物種間比較基因組連鎖圖和比較質(zhì)量性狀信息上是特別有用的。另外,由于EST來源于一定環(huán)境下一個(gè)組織總mRNA所構(gòu)建的cDNA文庫,因此EST也能說明該組織中各基因的表達(dá)水平。ESTs已經(jīng)被廣泛地應(yīng)用于基因識別,研究發(fā)現(xiàn)ESTs的數(shù)目比GenBank中其他的核苷酸序列多,研究人員更容易在EST庫中搜尋到新的基因[1]。由于EST測序只是測定部分序列,也不需要對克隆進(jìn)行排序,因而完成EST測定所需要的人力、物力消耗與基因組測序和全長cDNA測序相比要少的多,具有經(jīng)濟(jì)和高效的特點(diǎn)。由于DNA測序技術(shù)的不斷更新和大規(guī)模測序技術(shù)的出現(xiàn),在DNA測序中逐步實(shí)現(xiàn)了工廠化和流水作業(yè),因此測序費(fèi)用大幅度降低[2]。
近年來,表達(dá)序列標(biāo)簽數(shù)據(jù)增長迅速。在GenBank102版本數(shù)據(jù)中,EST序列已經(jīng)占用了2/3的記錄[3]。美國國立生物技術(shù)信息中心(National Center for Biotechnology Information,NCBI)對EST進(jìn)行了聚類分析,按基因劃分EST,組成UniGene數(shù)據(jù)庫。還有一些網(wǎng)站開發(fā)了基于Internet的EST延伸服務(wù),如Labonweb網(wǎng)站的IRACE(http://www.labonweb.com),Biosino網(wǎng)站的BioEclone(http://bioinfo.bosino.org:9090/bioeclone.html)等[4-5]。
因此對EST的技術(shù)要求及應(yīng)用進(jìn)行歸納分析,有利于對研究對象分析不同基因的表達(dá)水平,為挖掘和克隆基因提供理論支撐。
EST計(jì)劃作為植物基因組計(jì)劃的一個(gè)重要組成部分,已經(jīng)在多種植物物種中開展起來。相關(guān)標(biāo)記包括 EST-SSR、EST-PCR、EST-SNP、EST-AFLP、EST-RFLP等[6]。近年來,EST的應(yīng)用已經(jīng)深入到生物學(xué)的領(lǐng)域,其中表達(dá)序列標(biāo)簽微衛(wèi)星(EST-SSR)技術(shù)的發(fā)展和應(yīng)用較為普遍,根據(jù)SSR的來源可將其分為基因組SSR和EST-SSR[7]。EST-SSR標(biāo)記狹義上是指位于EST序列上的或者基于EST序列開發(fā)的SSR標(biāo)記,也被稱為eSSR標(biāo)記。
目前較為常用的核酸序列數(shù)據(jù)庫有:美國國家信息中心的GenBank,歐洲分子生物學(xué)實(shí)驗(yàn)室的EMBL,日本國家數(shù)據(jù)庫DDBJ,這3個(gè)數(shù)據(jù)庫是收錄范圍最廣并完全向公眾開放的數(shù)據(jù)庫,在它們中均含有EST子數(shù)據(jù)庫dbEST。在核酸序列數(shù)據(jù)庫中,EST的量要占65%以上[8]。
由于EST是功能基因的一部分,不同基因組間,基因編碼區(qū)序列的保守性遠(yuǎn)遠(yuǎn)高于非編碼區(qū),與基因組SSR相比EST-SSR表現(xiàn)出較好的物種之間的可轉(zhuǎn)移性[9-10]。作為一種新型分子標(biāo)記,EST-SSR來自表達(dá)基因,因而除具備傳統(tǒng)基因組來源的SSR標(biāo)記的所有優(yōu)勢外,可能與基因功能表達(dá)具有直接或間接關(guān)系,從而強(qiáng)化了SSR標(biāo)記在遺傳研究中的應(yīng)用[11]。
在種質(zhì)資源遺傳多樣性方面,張鵬等[12]利用SRAP和EST-SSR分子標(biāo)記對192份國內(nèi)外芝麻Sesamum indicum進(jìn)行分析。發(fā)現(xiàn)我國南部地區(qū)芝麻品種遺傳多樣性較中部和北部地區(qū)豐富。Eujayl等[13]利用EST-SSR等3種不同類型的微衛(wèi)星標(biāo)記對64個(gè)硬粒小麥Triticum aestivum品種的遺傳多樣性進(jìn)行評價(jià),表明EST-SSR可在硬粒小麥中揭示較高的多態(tài)性。
在基因連鎖方面,利用分群分析法對多花黑麥草Lolium perenne抗葉斑病進(jìn)行EST-CAPS標(biāo)記,得到位點(diǎn)p56位于第5遺傳連鎖群,所處的基因?yàn)榫幋a多花黑麥草天冬酰胺合成酶基因[14]。
在基因功能方面,郭久峰等建立沙冬青Ammopiptan thus mongolicus的cDNA文庫并通過EST分析技術(shù)研究其抗逆機(jī)理,得到的313個(gè)已知功能的基因標(biāo)簽中抗逆相關(guān)的有48條[15]。
楊成君等[16]建立了藥用植物人參Panax qinseng的EST-SSR標(biāo)記。陳士林等[17]構(gòu)建了西洋參P.quinquefolius的cDNA文庫,經(jīng)EST分析獲得與水分脅迫相關(guān)的基因7個(gè),與受傷誘導(dǎo)相關(guān)的基因2個(gè),編碼抗氧化酶相關(guān)的基因6個(gè)。并在根系的EST文庫中發(fā)現(xiàn)抗病基因12個(gè),62個(gè) EST是其他物種尚未報(bào)道的新基因。佘瑋等[18]以生長中期的苧麻Boehmeria nivea莖皮為材料構(gòu)建cDNA文庫,并進(jìn)行EST分析,隨即測序得到275個(gè)有效序列,約53.5%的 EST序列可能是未報(bào)道的新基因序列。
綜上所述,EST為種質(zhì)資源的保護(hù)利用和遺傳育種工作提供科學(xué)依據(jù),同時(shí)作為功能基因組研究的重要手段,在功能基因的開發(fā)與研究中也發(fā)揮重要作用。
近幾年,苜蓿Medicago sativa分子水平的研究有所深入,利用RAPD分子標(biāo)記研究苜蓿種質(zhì)資源遺傳多樣性[19]及其他相關(guān)基因的克隆序列分析等研究相對較多,如蒺蒺藜狀苜蓿中MtERF-6基因的克隆及序列分析[20]。但EST的研究相對較少,閆娟等[21]利用EST-SSR標(biāo)記分析了我國北部和中部地區(qū)天藍(lán)苜蓿M.lupulina的遺傳多樣性和遺傳結(jié)構(gòu),推測中等水平的遺傳多樣性和高度的居群間遺傳分化主要受它的自交特性和分布方式影響。
在Genbank數(shù)據(jù)庫中進(jìn)行搜索,得出測序最多的 20個(gè)物種中,除經(jīng)濟(jì)類作物玉米Zea mays、水稻Oryza sativa、小麥等序列較多外,大部分物種為動(dòng)物,蒺藜狀苜蓿排在最后,序列條數(shù)為409 757。在表達(dá)序列標(biāo)簽數(shù)據(jù)庫(dbEST)中進(jìn)行搜索,測序最多的前20個(gè)物種中,沒有和苜蓿相關(guān)的物種序列(總序列45 660 524條)。由以上數(shù)據(jù)可以看出,苜?;虻臏y序分析研究相對較少,只有蒺藜狀苜蓿得到的EST較多,而紫花苜蓿和黃花苜蓿M.f alcata有待深入的研究。
3.1EST的獲取過程構(gòu)建生物某一發(fā)育階段的cDNA文庫,然后大規(guī)模、隨機(jī)地挑選cDNA文庫中的克隆或通過某種方法篩選cDNA中的某些克隆,最后對cDNA克隆的5'及3'進(jìn)行測序,進(jìn)而得到一個(gè)EST[22]。
3.2EST分析過程
3.2.1利用ESTs大規(guī)模分析基因表達(dá)水平 一般認(rèn)為,組織和細(xì)胞分化依賴于基因特異性的時(shí)空表達(dá),而生物體在某一時(shí)期的基因表達(dá)數(shù)量通常只占全部基因的15%[23]。
因?yàn)镋ST序列是從某種特定組織的cDNA文庫中隨機(jī)測序而得到的,所以可以利用未經(jīng)標(biāo)準(zhǔn)化和差減雜交的cDNA文庫EST分析特定組織的基因表達(dá)譜。標(biāo)準(zhǔn)化的cDNA文庫和經(jīng)過差減雜交的cDNA文庫則不能反應(yīng)基因表達(dá)的水平。
為研究癌癥的分子機(jī)理,美國國家癌癥研究所NCI的癌癥基因組解析計(jì)劃(Cancer Genome Anatomy Project,CGAP)構(gòu)建了很多正常的或是癌癥前期的和癌癥后期的組織的cDNA文庫,并進(jìn)行了大規(guī)模的EST測序,其中大部分的文庫未經(jīng)標(biāo)準(zhǔn)化或差減雜交處理。CGAP網(wǎng)站提供了多種工具用以分析不同文庫間基因表達(dá)的差異,如:Digital Gene Expression Displayer(DGED)和cDNA xProfiler。
3.2.2基因表達(dá)系列分析(Serial Analysis of Gene Expression,SAGE) 隨著公用數(shù)據(jù)庫中EST數(shù)據(jù)的急劇增加,基因表達(dá)研究可以利用數(shù)字化分析方法來實(shí)現(xiàn)[24-25],即從能夠代表相應(yīng)組織或器官基因表達(dá)情況的cDNA文庫中獲得大量EST,經(jīng)過軟件聚類拼接后依據(jù)代表基因的EST及其出現(xiàn)頻率的信息進(jìn)行基因表達(dá)分析。同樣原理,也可以利用代表基因3'端表達(dá)信息的SAGE標(biāo)簽或近來出現(xiàn)的代表基因5'端信息的CAGE標(biāo)簽來進(jìn)行。有學(xué)者把這種基于表達(dá)標(biāo)簽的基因表達(dá)水平定量分析方法稱為數(shù)字化方法(digital method)或者數(shù)字化 Northern(digital Northern),而將傳統(tǒng)的與cDNA克隆陣列和Oligo芯片雜交分析稱為模擬方法(analog method)[26]。
Velculescu等[27]1995年提出基因表達(dá)系列分析是一種用于定量、高通量基因表達(dá)分析的實(shí)驗(yàn)方法。SAGE的原理就是分離每個(gè)轉(zhuǎn)錄本的特定位置的較短的單一的序列標(biāo)簽(約9~14個(gè)堿基對),這些短的序列被連接、克隆和測序,特定的序列標(biāo)簽的出現(xiàn)次數(shù)就反映了對應(yīng)的基因的表達(dá)豐度。技術(shù)流程如圖1。
3.2.3DNA微陣列或基因芯片的研究 隨著ESTs數(shù)據(jù)的擴(kuò)大,用ESTs文庫制備的DNA芯片將使測序過程簡化并有力促進(jìn)功能基因組學(xué)研究[28]。
高密度寡核苷酸cDNA芯片或cDNA微陣列是一種新的大規(guī)模檢測基因表達(dá)的技術(shù),具有高通量分析的優(yōu)點(diǎn)。在許多情況下,cDNA芯片的探針來源于3′EST[29],所以EST序列的分析有助于芯片探針的設(shè)計(jì)。以上幾種方法比較,ESTs更適合大規(guī)模分析基因的表達(dá)水平(表 1)。
Adams等[30]提出的表達(dá)序列標(biāo)簽的概念標(biāo)志著大規(guī)模cDNA測序時(shí)代的到來。雖然EST s序列數(shù)據(jù)相對不精確,精確度最高為97%[31],但實(shí)踐證明EST技術(shù)可大大加速新基因的發(fā)現(xiàn)與研究。
由于EST來源于 cDNA,因此每一條 EST均代表了文庫建立時(shí)所采樣品特定發(fā)育時(shí)期和生理狀態(tài)下的一個(gè)基因的部分序列。使用合適的比對參數(shù),90%以上已經(jīng)注釋的基因都能在EST庫中檢測到[32]。ESTs可以作為其他基因預(yù)測算法的補(bǔ)充,因?yàn)樗鼈儗︻A(yù)測基因的交替剪切和3'非翻譯區(qū)很有效。
4.1 測序方向的選擇根據(jù)不同的試驗(yàn)?zāi)康倪x擇不同的測序方向[33-34]:
1)5'端:5'端上游非翻譯區(qū)較短且含有較多的調(diào)控信息。一般在尋找新基因或研究基因差異表達(dá)時(shí)用5'端EST較好,大部分EST計(jì)劃都是選用5'端進(jìn)行測序的,而且從5'端測序有利于將EST拼接成較長的基因序列。
2)3'端:3'端mRNA有一 20~200 bp的plyA結(jié)構(gòu),同時(shí)靠近plyA又有特異性的非編碼區(qū),所以從3'端測得EST含有編碼的信息較少。但研究也表明[35],10%的mRNA 3'端有重復(fù)序列,這可以作為SSR標(biāo)記;非編碼區(qū)有品種的特異性,可以作為STS標(biāo)記。
圖1 SAGE技術(shù)流程
表1 幾種大規(guī)模分析基因表達(dá)水平的方法比較
3)兩端測序:獲得更全面的信息。
4.2 序列前處理由于得到的序列包含一些不利因素,再聚類前要經(jīng)過處理。主要涉及到:1)去除低質(zhì)量的序列(Phred);2)應(yīng)用BLAST、RepeatMasker或Crossmatch遮蔽數(shù)據(jù)組中不屬于表達(dá)的基因的贗象序列(artifactual sequences),包括:載體序列(ftp://ncbi.nlm.nih.gov/reposi-tory/vector)、重復(fù)序列(RepBa,http://www.girinst.org)和污染序列(如核糖體RNA、細(xì)菌或其他物種的基因組DNA等);3)去除其中的鑲嵌克隆,鑲嵌克隆的識別包括Back-to-back poly(A)+tails、Linker-to-linker in middle of the sequence和Blastn/Blastx search;4)最后去除長度小于100 bp的序列。
4.3 聚類方法及ESTs聚類的數(shù)據(jù)庫分析比較EST聚類(clustering)分析通過序列同源比較或其他注釋信息,把屬于同一基因的EST聚合成一簇,聚類的作用就是為了產(chǎn)生較長的一致性序列(consensus sequence),用于注釋。降低數(shù)據(jù)的冗余,糾正錯(cuò)誤數(shù)據(jù)可以用于檢測選擇性剪切[36]。
4.3.1聚類可分為不嚴(yán)格的和嚴(yán)格的聚類(loose and stringent clustering) loose clustering特點(diǎn):產(chǎn)生的一致性序列比較長,含有同一基因不同的轉(zhuǎn)錄形式,如各種選擇性剪接體。每一類中可能包含旁系同源基因(paralogous expressed gene)的轉(zhuǎn)錄本,序列的保真度低。如南非國家生物信息研究所(SANBI)的STACK[37]采用基于字的聚類算法(word-based clustering),省略了所有的比對過程,其核心在于識別并計(jì)算序列間有多少長度為n的字(word)能夠匹配,代表性的算法有d2_cluster算法[38],是一種凝聚性的聚類算法。
而stringent clustering則產(chǎn)生的一致性序列比較短,表達(dá)基因ESTs數(shù)據(jù)的覆蓋率低,因此所含有的同一基因的不同轉(zhuǎn)錄形式少,序列保真度高。它采用類似于BLAST和FASTA的序列比對的算法,通過尋找序列間的局部相似性來判斷兩序列是否具有重疊片段或連續(xù)的匹配,并據(jù)此聚類。如NCBI的Unigene[39](此系統(tǒng)同時(shí)還利用一些注釋信息,如EST序列的克隆號)以及美國基因組研究所(TIGR)的 Gene Indices[40](TGICL聚類,適用于大規(guī)模EST序列的快速聚類,并可進(jìn)行連鎖分析)。
4.3.2ESTs聚類的主要數(shù)據(jù)庫
1)UniGene(http://www.ncbi.nlm.nih.gov/UniGene):UniGene Clustering方法由美國國家生物技術(shù)信息中心(National Center for Biotechnology Information,NCBI)發(fā)展而來。該方法使用MEGABLAST程序[41]對序列進(jìn)行同源比較,采用的聚類閾值為序列間至少有100個(gè)堿基的重疊區(qū),并且占70%以上的重疊區(qū)域的堿基同源性大于96%,依據(jù)該閾值先對已注釋的基因聚類成簇,再根據(jù)EST與EST及EST與初始基因簇之間的序列同源性進(jìn)一步進(jìn)行聚類,由此產(chǎn)生的基因簇包括同一基因的不同剪接形式。
2)TIGR Gene Indices(http://www.tigr.org/tdb/tgi/):目前,根據(jù)不同的研究目的發(fā)展了多種EST聚類分析方法,其中被廣泛使用的有美國基因組研究所發(fā)展而來的TIGR-ASSEMBLER方法[42]。該方法借助FASTA程序[43]對序列進(jìn)行兩兩比較,再根據(jù)同源比較結(jié)果用 TIGR-ASSEMBLER工具對相關(guān)序列進(jìn)行拼接,把重疊區(qū)超過40個(gè)堿基,且該區(qū)域的堿基同源性大于95%的序列合并成一簇。TIGR利用這個(gè)方法對來源21個(gè)物種的5 358 611條EST進(jìn)行了聚類分析,分別建立了各個(gè)物種的基因索引(TIGR Gene Indices)[44]。
3)STACK:南非國家生物信息研究院(South African National Bioinformatics Institute,SANBI)的STACK-PACK方法(http://www.sanbi.ac.Za/Dbases.html),其主要特點(diǎn)是根據(jù)不同的組織來源先把EST分類,再根據(jù)重疊區(qū)超過150個(gè)堿基,且重疊區(qū)域的堿基同源性大于96%的聚類閾值,用d2-cluster程序[45]對各類EST分別聚類。用STACK-PACK分析結(jié)果建立的STACK數(shù)據(jù)庫可用來進(jìn)行SNPs檢測和基因特異性表達(dá)的研究[46]。
目前有學(xué)者已經(jīng)提出了一種基于樣本間關(guān)系的新聚類方法,即從基因表達(dá)數(shù)據(jù)中通過pearson相關(guān)系數(shù)獲得樣本間的關(guān)系,并用網(wǎng)絡(luò)的方法表示這種關(guān)系,通過該網(wǎng)絡(luò)的空間結(jié)構(gòu)特征來提取樣本間的關(guān)系特征,并在這種關(guān)系特征空間中進(jìn)行樣本的聚類[47]。
4.3.3基于BLAST和FASTA的腳本(BLASTN and FASTA-based scripts) 在 EST研究中,使用最多的方法就是序列相似性比較,以此來確定EST的功能。BLAST(Basic Local A-lignment Search Tool)是應(yīng)用較廣的工具軟件之一,為同源分析的軟件包,包括 BLASTN、BLASTP 、TBLASTN 、TBLASTX 、BLASTX 5 個(gè)軟件[48]。
4.3.43個(gè)數(shù)據(jù)庫的比較分析
1)UniGene:結(jié)合有指導(dǎo)的和無指導(dǎo)的方法,而且在聚類過程中使用了不同水平的嚴(yán)格度,聚類的算法為megablast,數(shù)據(jù)庫不產(chǎn)生一致性序列。
2)TIGRGene Index:用的是有嚴(yán)格的和有指導(dǎo)的聚類方法,聚類的算法為類似于BLAST和FASTA的FLAST,該法得到的一致性序列較短,交替剪切得到的不同的基因?qū)儆诓煌乃饕?/p>
3)STACK:用不嚴(yán)格的和無指導(dǎo)的聚類方法,聚類的算法為d2_cluster,產(chǎn)生較長的一致性序列,同一索引中含有不同的剪切方法得到的基因。
4.4EST接拼由于高中比率重復(fù)序列的存在、克隆文庫時(shí)產(chǎn)生的無可回避的間隙、基因的多態(tài)性以及測序技術(shù)或?qū)嶒?yàn)室一些人為因素引起的錯(cuò)誤等的存在,要想把序列拼接正確是非常困難的[49]。Cluster的連接:利用cDNA克隆的信息和5',3'端Reads的信息,不同的Cluster可以連接在一起。常用的拼接軟件為Phrap。Phrap常與phred、cross-match、consed組成一個(gè)軟件包,通常用的是 perl寫的腳本程序 PhredPhrap。Feng Liang 等比較了 Phrap、CAP3、T IGR Assembler,認(rèn)為CAP3是最佳的軟件[50-51]。
4.5 基因注釋及功能分類注釋的過程包括序列比對尋找同源基因和蛋白結(jié)構(gòu)功能域的搜索。
4.5.1注釋 EST數(shù)據(jù)注釋通常先做blastx比對,將所有未知的EST序列按理論上的6種閱讀框翻譯為蛋白質(zhì)序列,在非冗余的蛋白序列數(shù)據(jù)庫(Non-redundantprotein Sequence Database,NR)中搜索同源序列,它提供所有可能的翻譯結(jié)果的比對,并且對每個(gè)比對結(jié)果進(jìn)行綜合的顯著性分析。在blastx中不能匹配上的核酸序列可以繼續(xù)通過blastn搜索相應(yīng)的核苷酸序列數(shù)據(jù)庫(Nucleotide Sequence Database,NT)。如果要進(jìn)一步驗(yàn)證BLAST結(jié)果,或者更詳細(xì)了解蛋白序列信息,可以通過InterPro來補(bǔ)充和完善。同樣通過BLAST無法注釋的序列,可以進(jìn)一步通過InterPro數(shù)據(jù)庫,搜索序列中可能含有的蛋白功能結(jié)構(gòu)域(domain)、模體(motif)等信息[52]。
局部序列比對工具BLAST是最常用的相似性檢索工具[53-54]。用戶可以登錄NCBI網(wǎng)站(http://www.ncbi.nlm.nih.gov/BLAST/)進(jìn)行檢索,也可在其他網(wǎng)站上進(jìn)行檢索,還可以下載于本地運(yùn)行(ffp://ftp.ncbi.nih.gov/)。
4.5.2基因功能分類 基因功能的分類可分為手工分類和計(jì)算機(jī)批量處理。
其中手工分類的大部分以Adams等[55]提出的分類體系為標(biāo)準(zhǔn)。而計(jì)算機(jī)批量處理則是利用標(biāo)準(zhǔn)基因詞匯體系Gene Ontology進(jìn)行近似的分類。其結(jié)果將會(huì)發(fā)現(xiàn)與已知功能的蛋白具有高度同源性的已知基因(known genes),與未知功能的蛋白具有高度同源性的未知功能基因(unknown genes)和僅有很低同源性或沒有同源蛋白的序列,記為新基因(novel genes)[56]。GO注釋分為3個(gè)層次,分別說明基因產(chǎn)物執(zhí)行哪種分子功能、參與哪個(gè)生理過程以及定位于哪個(gè)細(xì)胞部位[57]。
4.6 后續(xù)分析EST方法的優(yōu)點(diǎn)在于它不需要很多關(guān)于目的基因的假設(shè),可為后續(xù)的研究提供大量基因資源信息[58]。
所謂后續(xù)分析即EST通過以上聚類接拼,將基因功能分類后,進(jìn)行比較基因組學(xué)分析、基因表達(dá)譜分析、新基因研究、基因可變剪切分析、實(shí)驗(yàn)驗(yàn)證(MicroArray、GeneChip、RTPCR、Northen bloting)[59]。
用EST取代對cDNA全長的篩選、基因組序列的鑒定等繁瑣的實(shí)驗(yàn)操作,可大大地提高分離基因的效率。將所獲EST用生物信息學(xué)方法與各公共數(shù)據(jù)庫中已知序列進(jìn)行比較,可迅速而準(zhǔn)確地確定基因功能。由于在構(gòu)建cDNA文庫時(shí)要盡可能地選用全長cDNA,所以一旦發(fā)現(xiàn)有價(jià)值的EST,就可以找到對應(yīng)的克隆,獲得的全長cDNA可以直接用于如轉(zhuǎn)基因等的研究。
用于構(gòu)建的普通cDNA文庫進(jìn)行測序時(shí),由于EST測序時(shí)克隆的挑選是隨機(jī)的,高峰度表達(dá)基因引起mRNA的表達(dá)水平高而被反復(fù)測序;相反,一些峰度較低的基因需要測定上萬個(gè)克隆才有可能被挑選測序。因此,對于為尋找新基因或研究基因差異表達(dá)而言,用這樣的cDNA文庫進(jìn)行測序,一方面稀有基因容易遺漏,及EST很短,沒有給出完整的表達(dá)序列,相對較低豐度表達(dá)基因不易獲得[60]。另外,由于只是一輪測序結(jié)果,出錯(cuò)率達(dá)2%~5%。有時(shí)有載體序列和核外mRNA來源的cDNA污染或是基因DNA的污染會(huì)對實(shí)驗(yàn)造成一定影響。鑲嵌克隆的出現(xiàn)以及序列的冗余都會(huì)導(dǎo)致所需要處理的數(shù)據(jù)量很大。
利用EST方法進(jìn)行發(fā)現(xiàn)、分離基因的研究,不僅是人類基因組研究的熱點(diǎn),而且是植物基因組研究的重要內(nèi)容[61-62]。這將為人們更好地了解功能基因在不同組織中的表達(dá)提供分子生物學(xué)依據(jù),從而為將來在分子水平調(diào)控生物的生長、發(fā)育、抗性和代謝規(guī)律打下理論基礎(chǔ),提供極有價(jià)值的資源。
[1]Boguski M S,Tolstoshev C M,Bassett D E,et al.Gene discovery in dbEST[J].Science,1994,30(9):4.
[2]Bhattramakki D,Chhabra A K,Hart G E,et al.An Integrated SSR and RELP Linkage M ap of Sorghum Bicolor Moench[J].Genome,2000,43(6):988-1002.
[3]李衍達(dá),孫之榮.基因和蛋白質(zhì)分析的實(shí)用指南[M].北京:清華大學(xué)出版社,2000.
[4]郝柏林,張淑譽(yù).生物信息學(xué)手冊[M].上海:上??茖W(xué)技術(shù)出版社,2000.
[5]李越中,閆章才,高培基.基因組研究與生物信息學(xué)[M].濟(jì)南:山東大學(xué)出版社,2001.
[6]陳全求,詹先進(jìn),藍(lán)家樣,等.EST分子標(biāo)記開發(fā)研究進(jìn)展[J].農(nóng)業(yè)生物技術(shù)科學(xué),2008,24(9):72-77.
[7]Chen C,Zhou P,Choiya,et al.Mining and characterizing microsatellites from citrus ESTs[J].TAG theoretical and applied genetics,2006,112(7):1248-1257.
[8]Leipe D D.Genome and DNA sequence database[J].Curr Opin GenDevel,1996,6(6):686-691.
[9]Hanai L R,Campos T,Camargo L E,et al.Development,characterization,and comparative analysis of polymorphism at common bean SSR loci isolated from genic and genomic sources[J].Genome,2007,50(3):266-277.
[10]Ellis J R,Pashley CH,Burke J M,et al.High genetic diversity in a rare and endangered sunflower as compared to a common congener[J].Mol Ecol.,2006,15(9):2345-2355.
[11]吳曼穎,劉昆玉,方芳,等.EST-SSR標(biāo)記的開發(fā)及在果樹上的應(yīng)用研究進(jìn)展[J].江西農(nóng)業(yè)學(xué)報(bào),2009,21(5):59-62.
[12]張鵬,張海洋,郭旺珍,等.以SRAP和 EST-SSR標(biāo)記分析芝麻種質(zhì)資源的遺傳多樣性[J].作物學(xué)報(bào),2007,33(10):1696-1702.
[13]忻雅,崔海瑞.植物表達(dá)序列標(biāo)簽(EST)標(biāo)記及其應(yīng)用研究進(jìn)展[J].生物學(xué)通報(bào),2004,39(8):4-6.
[14]丁成龍,沈益新,顧共如,等.分群分析法獲得與多花黑麥草抗葉斑病基因連鎖的 EST-CAPS標(biāo)記[J].草地學(xué)報(bào),2006,14(1):9-13.
[15]郭九峰,孫國琴,沈傳進(jìn),等.沙冬青 cDNA文庫的構(gòu)建和EST分析[J].華北農(nóng)學(xué)報(bào),2007,22(4):37-41.
[16]楊成君,王軍,穆立薔,等.人參EST-SSR標(biāo)記的建立[J].農(nóng)業(yè)生物技術(shù)學(xué)報(bào),2008,16(1):114-120.
[17]陳士林,孫永巧,宋經(jīng)元,等.西洋參 cDNA文庫構(gòu)建及表達(dá)序列標(biāo)簽(EST)分析[J].藥學(xué)學(xué)報(bào),2008,43(6):657-663.
[18]佘瑋,邢虎成,秦占軍,等.苧麻莖皮表達(dá)序列標(biāo)簽(ESTs)分析[J].熱帶作物學(xué)報(bào),2008,29(2):657-663.
[19]蒿若超,張?jiān)聦W(xué),唐鳳蘭,等.利用 RAPD分子標(biāo)記研究苜蓿種質(zhì)資源遺傳多樣性[J].草業(yè)科學(xué),2007,24(8):69-73.
[20]連瑞麗,李宇偉,趙德剛,等.蒺藜狀苜蓿中MtERF-6基因的克隆及序列分析[J].草業(yè)科學(xué),2006,23(9):82-87.
[21]閆娟,楚海家,王恒昌,等.用 EST-SSR標(biāo)記分析中國北部和中部地區(qū)天藍(lán)苜蓿的遺傳多樣性和遺傳結(jié)構(gòu)[J].生物多樣性,2008,16(3):263-270.
[22]劉偉,邵菁,龐宏,等.大規(guī)模篩選表達(dá)序列標(biāo)簽(EST)方法的改進(jìn)[J].安徽農(nóng)業(yè)科學(xué),2007,35(24):7410-7411.
[23]Happe T,Kaminski A.Diferential regulation of the Fe-hydrogenase during adaptation in the green alga Chlamydomonas reinhardtii[J].European Journal of Biochemistry,2002,269(3):1022-1032.
[24]Rob M E,Alia B K,Olivier P,et al.Large-scale statistical analyses of rice ests reveal correlated patterns of gene expression[J].Genome Research,1999,9(10):950-959.
[25]Velculescu V E,Zhang L,Vogelstein B,etal.SAGESerial analysis of gene expression[J].Science,1995,270(10):484-487.
[26]趙光耀,孔秀英,賈繼增,等.粗山羊草幼苗和根全長cDNA文庫構(gòu)建及其EST注釋與比較分析[J].中國農(nóng)業(yè)科學(xué),2007,40(7):1331-1336.
[27]Audic S,Claverie J M.The significance of digital gene expression profiles[J].Genome Research,1997,7(10):986-995.
[28]李紅,盧孟柱,蔣湘寧,等.表達(dá)序列標(biāo)簽(EST)分析及其在林木研究中的應(yīng)用[J].林業(yè)科學(xué)研究,2004,17(6):804-809.
[29]Kleinbaum L A,Duggan C,Ferreira E,et al.Human chromosomal localization,tissue/tumor expression,and regulatory function of the ets family gene EHF[J].Biochemical and Biophysical Research Communications,1999,264(1):119-126.
[30]Adams M D,Kelley J M,Gocayne J D,et al.Complementary DNA sequencing:expressed sequence tags and human genome project[J].Science,1991,21(6)252:1651-1656.
[31]Bailey L C,Jrsearls D B,Dverton G C.Analysis of EST-driven gene annotation in human genomic sequence[J].Genome Research,1998,8(4):362-376.
[32]Hillier L,Lennon G,Becker M,et al.Generation and analysis of 280,000 human expressed sequence tags[J].Genome Research,1996(6):807-828.
[33]Hatey F,Tosser-Klopp G,Clouscard-martinato C,et al.Expressed sequenced tags for genes:a review[J].Genet Sel Evol,1998,30(5):521-541.
[34]Yammanoto K,Sasaki T.Large-scale EST sequencing in rice[J].Plant Molecular Biology,1997,35(1):135-144.
[35]張建成,王傳堂,楊新道,等.SSR和STS標(biāo)記在花生栽培品種鑒定中的應(yīng)用研究[J].植物遺傳資源學(xué),2006,7(2):215-219.
[36]Hide W,Miller R,Ptitsyn A,etal.EST Clustering tutorial[C].Heidelberg:ISMB Germany,1999.
[37]Christoffels A,van Gelder A,Greyling G,etal.STACK:Sequence tag alignment and consensus knowledgebase[J].Nucleic Acids Res,2001,29(1):234-238.
[38]Bmke J,Davison D,Tlide W.d2_cluster:a validated method for clustering EST and full-length cDNAsequences[J].Genome Res,1999,9(11):1135-1142.
[39]Schuler G D.Pieces of the puzzle:expressed sequence tags and the catalog of human genes[J].J Mol Med,1997,75(10):694-698.
[40]Lee Y,Tsai J,Sunkara S,et al.The TIGR Gene Indices:clustering and assembling EST and known genes and integration with eukaryotic genomes[J].Nucleic Acids Res,2005,33(Database issue):71-74.
[41]Zhang Z,Schwartz S,Wagner L,et al.A greedy algorithm for aligning DNA sequences[J].J Comput Biol,2000,7(1-2):203-214.
[42]Sutton G,White O,Adams M D,et al.TIGR Assembler:A new tool for assembling large shotgun sequencing projects[J].Genome Sci Techno,1995(1):9-18.
[43]Pearson W R,Lipman D J.Improved tools for biological sequence comparison[J].Proc Natl Acad Sci USA,1988,85(8):2444-2448.
[44]Quackenbush J,Cho J,Lee D,et al.The TIGR Gene Indices:Analysis of gene transcript sequences in highly sampled eukaryotic species[J].Nucleic Acids Res,2001,29(1):159-164.
[45]Burke J,Davison D,Hide W.d2_cluster:a valida-ted method for clustering EST and full length cDNA sequences[J].Genome Res,1999(9):1135-1142.
[46]Miller R T,Christoffels A G,Gopalakrishnan C,et al.A comprehensive approach to clustering of expressed human gene sequence:The sequence tag alignment and consensus knowledge base[J].Genome Res,1999(9):1143-1155.
[47]王文俊,張軍英.一種新的基因表達(dá)數(shù)據(jù)聚類方法[J].西安電子科技大學(xué)學(xué)報(bào),2009,36(3):502-505,534.
[48]夏云,雷二慶,王槐春.Internet實(shí)用技術(shù)與生物醫(yī)學(xué)應(yīng)用[M].北京:軍事醫(yī)學(xué)出版社,1997:341-354.
[49]Green P.Against a whole-genome shotgun[J].Genome Res,1997,7(5):410-417.
[50]Jacek B,Marek F.Assembling the SARS-CoV genome-new method based on graph theoretical approach[J].Acta Biochimica Polonica,2004,51(4):983-993.
[51]Carvalho C M L,Melo E P,Cabral J M S,etal.A steady-state fluorescence study of cutinase microencapsulated in AOT reversed micelles at optimal stabilityconditions[J].Journal of Biotechnology,1998,21(8):673-681.
[52]劉穩(wěn)升,吳忠道.表達(dá)序列標(biāo)簽大規(guī)模序列分析策略及方法[J].國際醫(yī)學(xué)寄生蟲病雜志,2007,34(3):139-145.
[53]Altschul S F,Madden T L,Schafer A A,et al.Gapped BLASI1 and PSI-BLAST:a new generation of protein database search programs[J].Nucleic Acids Res,1997,25(17):3389-3402.
[54]Altschul S F,Gish W,Miller W,etal.Basic local alignment search too1[J].J Mol Biol.,1990,215(3):403-410.
[55]Adams M D,Kerlavage A R,Fleischmann R D,et al.Initial assessment of human gene diversity and expression patterns based upon 83 million nucleotides of cDNA sequence[J].Nature,1995,377:3-174.
[56]錢駿,董利.表達(dá)序列標(biāo)簽數(shù)據(jù)庫搜索鑒定小鼠UBAP1基因及其數(shù)字化表達(dá)分析[J].生物化學(xué)與生物物理進(jìn)展,2002,29(2):323-327.
[57]趙光耀,孔秀英,賈繼增,等.粗山羊草(Ae.tauschii)幼苗和根全長cDNA文庫構(gòu)建及其EST注釋與比較分析[J].中國農(nóng)業(yè)科學(xué),2007,40(7):1331-1336.
[58]孫亮先,袁建軍.EST技術(shù)在植物基因克隆和基因表達(dá)譜研究中的應(yīng)用[J].泉州師范學(xué)院學(xué)報(bào),2003,21(4):63-67.
[59]崔佳欣,孟軍,朱榮勝,等.大豆表達(dá)序列標(biāo)簽(ESTs)研究進(jìn)展[J].東北農(nóng)業(yè)大學(xué)學(xué)報(bào),2009,40(2):123-126.
[60]張新.表達(dá)序列標(biāo)簽(EST)的研究現(xiàn)狀[J].黑龍江醫(yī)學(xué),2008,32(9):676-678.
[61]Rounsley S,Linx K K.Large scale sequencing of plant genome[J].Curr Opin Plant Biol,1998,1(2):136-141.
[62]Sasaki T.The rice genome project in Japan[J].Proc Natl Acad Sci USA,1998,95(5):2027-2028.