【摘要】全長(zhǎng)cDNAs是基因組序列注釋和基因及其產(chǎn)物功能分析的基礎(chǔ)。目前共分離了155,144個(gè)RIKEN擬南芥全長(zhǎng)(RAF)cDNA克隆。將得到的155,144個(gè)RAFL cDNAs進(jìn)行了3’端表達(dá)序列標(biāo)簽聚類成14,668個(gè)非冗余cDNA類,其中60%預(yù)測(cè)到基因。同時(shí)已從14,034個(gè)非冗余cDNA類中獲得了5’ESTs,并構(gòu)建成啟動(dòng)子文庫。RAFL cDNAs序列數(shù)據(jù)庫的建立有助于啟動(dòng)子分析、預(yù)測(cè)出轉(zhuǎn)錄本單元的正確注釋和基因產(chǎn)物的注釋。而且,全長(zhǎng)cDNAs還為表達(dá)譜分析、功能分析和植物蛋白結(jié)構(gòu)分析提供了寶貴的資源。
【關(guān)鍵詞】擬南芥;cDNA
擬南芥因其具有個(gè)體小,世代周期短和轉(zhuǎn)化率高等特點(diǎn),因此在植物研究中被廣泛的作為一種模式生物。為了將擬南芥的小基因組測(cè)序,日本、歐洲和美國的科學(xué)家共同合作完成了擬南芥基因組測(cè)序工程。擬南芥5條染色體中的2條(2號(hào)和4號(hào)染色體,不包括核仁組織區(qū)和著絲點(diǎn)區(qū))在1991年進(jìn)行了測(cè)序,其余3條染色體在2000年進(jìn)行了測(cè)序。
2001年5月,大約127,000個(gè)擬南芥表達(dá)序列標(biāo)簽(ESTs)被提交到EST數(shù)據(jù)庫(dbEST)。其中的序列來自法國,美國和日本共同合作的大范圍EST工程。這些工程已從不同的組織、器官、種子和發(fā)育階段的擬南芥中獲得EST數(shù)據(jù)。然而,這些基于cDNA文庫的EST工程中的大部分的插入片段都不是全長(zhǎng)的。ESTs有助于為表達(dá)基因提供標(biāo)簽,大圣無法進(jìn)行基因功能的進(jìn)一步研究。因此,全基因組范圍的獲得表達(dá)基因的全長(zhǎng)cDNA,對(duì)于在功能基因組學(xué)領(lǐng)域中分析基因及其產(chǎn)物的表達(dá)標(biāo)簽和功能是十分重要的。
1.擬南芥全長(zhǎng)cDNA文庫的構(gòu)建
目前已應(yīng)用biotinylated CAP trapper法建立了擬南芥的全長(zhǎng)cDNA文庫。最近,研究人員有將trehalose-ther-moactivated反轉(zhuǎn)錄酶應(yīng)用到CAP trapper法中,構(gòu)建了不同處理的擬南芥全長(zhǎng)cDNA文庫。在文庫構(gòu)建中使用了λZAP和λFLC載體。λFLC載體適合較大長(zhǎng)度范圍的cDNAs,并且有利于較長(zhǎng)cDNA片段的高效率克隆。λFLC載體也可通過Cre-lox-based系統(tǒng)被大量檢測(cè),而不受質(zhì)粒文庫的片段大小的限制。在RIKEN擬南芥全長(zhǎng)文庫(RAFL)12、13、14、15、16、17、18、19和21的構(gòu)建中,應(yīng)用單鏈連接方法用DNA連接酶將雙鏈(ds)cDNA接頭連接到單鏈全長(zhǎng)(ss)cDNA上。
通過將5’端單向測(cè)序數(shù)據(jù)定位到基因組序列,研究人員將155,144個(gè)RAFL cDNA克隆聚合成14,668個(gè)cDNA類。去除掉GC尾巴以便隨后的測(cè)序和將全長(zhǎng)cDNA翻譯成蛋白。在構(gòu)建全長(zhǎng)cDNA文庫(RAFL11、12、13、14、17、18、19和21) 中,進(jìn)行了均一化和消減處理,以減少高表達(dá)的mRNAs的富集和去除在單向測(cè)序中已分類的cDNAs。這種方法建立在全長(zhǎng)cDNA的第一條鏈與若干RNA驅(qū)趕子雜交的基礎(chǔ)上,包括將起始mRNA作為標(biāo)準(zhǔn)化的驅(qū)趕子,將來自重排的克隆中完全轉(zhuǎn)錄的轉(zhuǎn)錄本作為消減子。這種方法會(huì)顯著促進(jìn)新的cDNAs的發(fā)現(xiàn)。cDNA 文庫制備的整個(gè)策略,包括標(biāo)準(zhǔn)化、均一化和消減文庫,在之前已發(fā)布。研究人員以處于不同發(fā)育階段的擬南芥各組織為材料,經(jīng)不同脅迫條件、激素和圖同光照條件處理,共構(gòu)建了19個(gè)全長(zhǎng)cDNA文庫。
2.全長(zhǎng)cDNA序列的結(jié)構(gòu)和功能分析
研究人員將cDNA克隆進(jìn)行了3’端單向測(cè)序、將155,144個(gè)ESTs進(jìn)行聚類,并且定位到擬南芥基因組上。最終,鑒定出14,668個(gè)非冗余RAFLcDNA克隆,并定位到擬南芥基因組上。這14,668個(gè)非冗余RAFL cDNA克隆具體信息在網(wǎng)上可見。如果擬南芥總共有25,00個(gè)基因,那么這些RAFL克隆應(yīng)該可以占擬南芥全部基因的60%。通過單向測(cè)序349個(gè)RAFLcDNA克隆進(jìn)行質(zhì)量評(píng)價(jià),表明其中98%的克隆包括起始密碼子和終止密碼子。因此,研究人員用biotinylated CAP trapper法構(gòu)建的cDNA文庫包括很高比例的全長(zhǎng)基因。
通過與擬南芥基因組序列的比較,從5’端測(cè)序的mRNA中可以獲得啟動(dòng)子序列。從14,034個(gè)RAFL cDNA 克隆中獲得了5’ESTs,并利用PLACE數(shù)據(jù)庫建立了一個(gè)啟動(dòng)子數(shù)據(jù)庫。擬南芥啟動(dòng)子數(shù)據(jù)庫表明,每個(gè)RAFLcDNA克隆5’末端上游1000bp的基因組序列是植物中的300順式作用元件。
從19個(gè)全長(zhǎng)文庫中分離出的155,144個(gè)cDNA克隆進(jìn)行了3’ 端單向測(cè)序。用這些單向測(cè)序數(shù)據(jù)進(jìn)行了兩步聚類,在附錄方法中有詳細(xì)描述。在兩次聚類之后,選擇質(zhì)量最好的序列作為該類的代表。然后將每個(gè)代表性克隆的3’EST定位到擬南芥基因組上,在附錄中有描述。共獲得14,878條非冗余的代表性3’EST被定位到擬南芥基因組上。然后,對(duì)這14,878個(gè)cDNA克隆進(jìn)行5’端單向測(cè)序。5’端測(cè)序的數(shù)據(jù)通過BlastN法定位到擬南芥基因組上。最終,定位到14,668個(gè)非冗余RAFLcDNA克隆定位在擬南芥基因組上。
得到的結(jié)論是有9286個(gè)預(yù)測(cè)的基因需要進(jìn)一步的數(shù)據(jù)來確定其是否是表達(dá)基因,因?yàn)檫@些未被鑒定出的基因還尚未被任何ESTs所證明,一些預(yù)測(cè)基因達(dá)標(biāo)假陽性或假基因。當(dāng)然,這些未被鑒定的基因也可能是因?yàn)樵谔禺惖慕M織中表達(dá)量過低,這些未被鑒定的基因也可能是因?yàn)樵谔禺惖慕M織中表達(dá)量過低而尚未被EST檢測(cè)出。
這些RSFL cDNA克隆的生物學(xué)作用和生物化學(xué)功能,已經(jīng)通過BLAST同源比對(duì)的方法獲知。結(jié)果表明,RADFL中包括了很多功能基因,如能量產(chǎn)生,蛋白質(zhì)合成和離子動(dòng)態(tài)平衡等。在能量產(chǎn)生、蛋白質(zhì)合成和離子的動(dòng)態(tài)平衡功能基因中80%以上都存在于RAFLcDNA克隆中,并且70%左右的新陳代謝,蛋白質(zhì)分選,細(xì)胞運(yùn)輸和轉(zhuǎn)運(yùn)機(jī)制及細(xì)胞組成的基因都存在于RAFL中。據(jù)推測(cè),大約1500個(gè)轉(zhuǎn)錄因子基因和1000種蛋白激酶基因都存在于擬南芥基因組中。RAFLcDNA中包含1087個(gè)轉(zhuǎn)錄因子和506個(gè)蛋白激酶基因。盡管已有很多生物信息學(xué)算法用于從基因組數(shù)據(jù)中推測(cè)轉(zhuǎn)錄本單元,但是其推測(cè)的精確性都很難保證。通過對(duì)全長(zhǎng)cDNAs進(jìn)行測(cè)序兒鑒別編碼序列是更直觀有效的方法。RFALcDNA的全測(cè)序有助于基因識(shí)別和圖位克隆。RAFLcDNA克隆已公布在RIKN生物資源中心上。 [科]
【參考文獻(xiàn)】
[1]D.W.Meinke et al.,Science 282,662(1998).
[2]The Arabidopsis Genome Initiative,Nature 408,796(2000).
[3]M.Bevan,Plant Cell 9,476(1997).