肖薪龍,張選,吳曉朦,馬金彪,姚銀安
1中國科學(xué)院新疆生態(tài)與地理研究所干旱區(qū)生物地理與生物資源重點實驗室,新疆烏魯木齊830011 2中國科學(xué)院大學(xué),北京100049
利用分析Unigene在轉(zhuǎn)錄組中表達(dá)模式的方法拼接鹽角草銨轉(zhuǎn)運(yùn)基因
肖薪龍1,2,張選1,2,吳曉朦1,2,馬金彪1,姚銀安1
1中國科學(xué)院新疆生態(tài)與地理研究所干旱區(qū)生物地理與生物資源重點實驗室,新疆烏魯木齊830011 2中國科學(xué)院大學(xué),北京100049
RNA-seq技術(shù)能夠全面快速地獲得物種在某一狀態(tài)下的轉(zhuǎn)錄本序列信息,但測序并組裝后的大量Unigene往往不包含完整ORF(Open reading frame)。轉(zhuǎn)錄組庫具有一定的冗余性,存在著屬于同一個轉(zhuǎn)錄本的Unigene,這些Unigene因為無重疊區(qū)不能拼接而存在轉(zhuǎn)錄組庫中?;谶@種情況,為了拼接銨轉(zhuǎn)運(yùn)蛋白家族Unigene,首先挑選注釋為AMT(Ammonium transporter)且ORF不完整的所有Unigene(5條),通過分析Unigene在4個轉(zhuǎn)錄組的表達(dá)模式,其中2條Unigene(Uni4和Uni5)具有相同的表達(dá)模式,推測可能來自同一轉(zhuǎn)錄本。然后通過NCBI blastx將這2條Unigene與參考物種的AMT蛋白質(zhì)比對,確定其在轉(zhuǎn)錄本的位置及序列相互間沒有交疊(如果兩條編碼序列相互交疊則不能組成同一個轉(zhuǎn)錄本)。結(jié)果發(fā)現(xiàn)Uni4和Uni5分別位于參考轉(zhuǎn)錄本5′端和3′端位置,因此假定它們屬于同一個轉(zhuǎn)錄本,中間空缺約120 bp未知序列。通過試驗驗證,分別在Uni4和Uni5上設(shè)計單正向引物和單反向引物,PCR擴(kuò)增得到約800 bp片段,將其測序并與兩條Unigene比對,證實Uni4和Uni5屬于同一轉(zhuǎn)錄本且獲得了缺失的未知序列。最終拼接得到1 667 bp序列,包含1 482 bp完整ORF,編碼494個氨基酸,通過系統(tǒng)進(jìn)化分析將其歸類為am t1亞家族,命名為Seamt1。生物信息學(xué)手段預(yù)測SeAMT1蛋白與已知的其他物種AMT性質(zhì)相似。本研究采用轉(zhuǎn)錄組Unigene表達(dá)模式聚類的方法挖掘潛在的同一轉(zhuǎn)錄本Unigene,并且通過另外兩組Unigene檢驗了該方法的可行性。這一便捷方法有助于轉(zhuǎn)錄組中Unigene的延伸和拼接,有助于完整ORF的獲得及后期基因功能研究。
轉(zhuǎn)錄組測序,基因表達(dá),序列組裝,克隆方法,RPKM,氮吸收
鹽角草Salicornia europaea是一年生雙子葉草本植物,莖肉質(zhì)化,生長于沿海灘涂或內(nèi)陸潮濕的鹽堿地,是一種最耐鹽的真鹽生植物之一[1]。鹽角草不僅具有高抗鹽能力和鹽富集能力[2],而且具有高效氮肥吸收和利用能力[3]。Webb等利用鹽角草作為污水生物濾池,能清除輸入污水中(98.2±2.2)%無機(jī)氮(NH4+和NO3–),其中NH4+的清除能達(dá)到91%以上[4]。鹽角草耐鹽基因的挖掘得到了人們的重視[5-6],但氮轉(zhuǎn)運(yùn)基因的研究卻很少。
銨態(tài)氮(NH4+)是植物氮源之一,通過植物細(xì)胞膜上的AMT(Ammonium transporter)轉(zhuǎn)運(yùn)蛋白進(jìn)入細(xì)胞,最終同化為氨基酸,進(jìn)入植物體內(nèi)氮循環(huán)[7-8]。AMT是銨轉(zhuǎn)運(yùn)蛋白的編碼基因,在模式植物擬南芥中發(fā)現(xiàn)了6個[7],在水稻中至少存在12個[9],而鹽角草Seamt基因還未見報道。我們之前的工作將鹽角草在不同鹽處理及不同組織進(jìn)行轉(zhuǎn)錄組測序[10],為SeAMT基因克隆打下了基礎(chǔ)。
轉(zhuǎn)錄組指某個物種或特定細(xì)胞在某一發(fā)育階段和功能狀態(tài)下產(chǎn)生的所有RNA的總和,包括mRNA和非編碼RNA(Non-coding RNA, ncRNA)[11]。轉(zhuǎn)錄組測序(RNA-Seq)是近年來發(fā)展起來的一種測序技術(shù),通過新一代高通量測序,能夠全面快速地獲得某一物種特定組織或器官在某一狀態(tài)下的幾乎所有轉(zhuǎn)錄本序列信息[12-13]。轉(zhuǎn)錄組測序讀段(Read)長度一般較短,Trinity方法的出現(xiàn)使得即使無基因組參考物種的轉(zhuǎn)錄組read也可以有效組裝為Uingene,甚至組裝到全長序列[14]。但是在轉(zhuǎn)錄組庫中仍然存在大量不包含完整ORF的Uingene。得到包含完整編碼區(qū)的Unigene序列,是基因功能研究的基礎(chǔ)性工作[15]。
將轉(zhuǎn)錄組的Unigene片段延伸得到完整ORF全長有以下策略:1)將轉(zhuǎn)錄組的Unigene與數(shù)據(jù)庫中該物種EST序列組裝(電子克隆)。這個方法對于核苷酸序列豐富的物種可能有效,但是對于非模式物種,特別是核酸序列信息較少的物種,電子克隆方法并不適用[16-17]。2)對于基因組已測序的物種,如擬南芥和水稻,可直接將感興趣的Unigene與參考基因組進(jìn)行比對,獲取該基因的全部信息,進(jìn)一步分析其可能的轉(zhuǎn)錄本序列。3)RACE技術(shù)(cDNA末端快速擴(kuò)增)可有效地延伸Unigene所缺的5?端或3?端序列[18],然而市場上RACE試劑盒價格昂貴,投入成本較高。
在之前AMT基因克隆試驗,我們采用傳統(tǒng)的RACE方法克隆,擴(kuò)增缺失的Unigene 5?端或3?端并測序,結(jié)果發(fā)現(xiàn)這些序列就是轉(zhuǎn)錄庫中的某些Unigene。如,Unigene11 473 RACE延伸的5?端序列與Unigene59 692和Unigene76 680序列高度一致(比對結(jié)果未顯示),它們屬于同一轉(zhuǎn)錄本(表1)。Unigene142 163,Unigene11 551和Unigene71 089經(jīng)證實也是屬于同一轉(zhuǎn)錄本(表1)。因此,轉(zhuǎn)錄組庫中的Unigene具有一定的冗余性,即屬于一個轉(zhuǎn)錄本的兩個或多個Unigene同時存在。這些Unigene因相互間沒有重疊區(qū)或其他原因無法拼接為一條轉(zhuǎn)錄本[19]。此外,我們發(fā)現(xiàn)這些屬于同一轉(zhuǎn)錄本的Unigene的RPKM(Reads per kilo bases per m illion reads)值存在一定規(guī)律——在各個轉(zhuǎn)錄組間具有相同的表達(dá)模式(圖1)。如果能利用表達(dá)模式相同這一性質(zhì),挖掘來自同一轉(zhuǎn)錄本的Unigene,將使得序列拼接及全長基因獲得更加容易。為證實該設(shè)想的可行性,我們對其他AMT Unigene進(jìn)行了驗證。本文以拼接鹽角草Seamt基因為例,介紹一種通過Unigene在各個轉(zhuǎn)錄組的表達(dá)模式分析、Unigene編碼蛋白位置分析、PCR驗證的方法,從轉(zhuǎn)錄組中拼接屬于同一轉(zhuǎn)錄本的序列。
圖1 已知分別屬于兩個轉(zhuǎn)錄本的Unigene表達(dá)模式Fig.1 Expression patterns of the Unigenes which were respectively belonged to two transcripts.
1.1 材料
鹽角草種子采集于新疆阜康縣,溫室內(nèi)人工栽培,苗齡一個月后取樣,液氮速凍后存放于–80℃冰箱。
1.2 方法
1.2.1 轉(zhuǎn)錄組測序
以200 mmol/L NaCl處理的鹽角草為實驗組,0 mmol/L NaCl處理為對照組,分別取地上和地下部分,分別標(biāo)記為轉(zhuǎn)錄組1、轉(zhuǎn)錄組2、轉(zhuǎn)錄組3、轉(zhuǎn)錄組4。Illum ina HiSeq2 000轉(zhuǎn)錄組測序、Unigene組裝及注釋、表達(dá)量計算等工作依托華大基因公司完成。
1.2.2 Unigene的表達(dá)模式及序列分析
從鹽角草RNA-Seq的組裝結(jié)果中挑選注釋為AMT的Unigene,通過對這些Unigene進(jìn)行ORF搜索,排除包含完整ORF的Unigene,余下的不完整Unigene用以后續(xù)分析。統(tǒng)計這些不完整Unigene在4個轉(zhuǎn)錄組庫中的RPKM值,繪制表達(dá)模式分析圖,根據(jù)表達(dá)量的升、降、不變這三種情況確認(rèn)表達(dá)模式一致的Unigene。提取表達(dá)模式一致的Unigene核苷酸序列,與NCBI參考物種的蛋白質(zhì)序列比對,確認(rèn)Unigene所處的轉(zhuǎn)錄本位置及Unigene間是否有交疊。相互間有交疊的Unigene可排除以減小工作量,留下沒有交疊Unigene做進(jìn)一步驗證。根據(jù)Unigene所處位置將這兩條或多條Unigene整合成一條FASTA序列,中間可能缺失區(qū)域以“N”代替。
1.2.3 PCR實驗驗證
總RNA提取參照Qiagene試劑盒說明書,cDNA第一條鏈合成參照反轉(zhuǎn)試劑盒(TaKaRa,大連寶生物)。以兩條Unigene的整合序列為模板,用Primer 5.0在連接處的上游和下游200 bp處分別設(shè)計正向和反向引物,產(chǎn)物橫跨兩條Unigene。引物合成(華大基因,北京);高保真2×prem ix PCR試劑(康為公司,北京)PCR擴(kuò)增;瓊脂凝膠電泳檢測PCR產(chǎn)物。
1.2.4 測序驗證及序列組裝
PCR產(chǎn)物由北京華大基因公司測序,測序結(jié)果與兩條Unigene用NCBI blastn比對,然后CAP3(http://doua.prabi.fr/software/cap3)在線組裝。
1.2.5 組裝序列的生物信息學(xué)分析
利用生物信息學(xué)軟件及在線工具,分析組裝序列開放閱讀框ORF(http://www.ncbi.nlm. nih.gov/gorf/gorf.htm l),用MEGA 5.0將組裝序列與擬南芥、水稻、小麥、番茄的AMT基因進(jìn)行系統(tǒng)進(jìn)化分析,將其初步命名。通過以下方法對組裝序列功能進(jìn)行預(yù)測:蛋白基本理化性質(zhì)分析ProtParam:http://www.expasy.org/tools/ protparam.htm l;親疏水性分析ProtScale:http:// cn.Expasy.org/tools/protscale.htm l;跨膜區(qū)預(yù)測TMHMM Server:http://www.cbs.dtu.dk/services/ TMHMM/;信號肽預(yù)測SignaIP 3.0 Server: http://www.Cbs.Dtu.dk/services/SignalP-3.0;亞細(xì)胞定位預(yù)測WoLFPSORT:http://psort.Hgc.jp。生物信息預(yù)測結(jié)果與其他物種已知AMT蛋白特性進(jìn)行比較,推測其可能的銨轉(zhuǎn)運(yùn)功能。
2.1 轉(zhuǎn)錄組中不完整的AMT Unigene
在鹽角草轉(zhuǎn)錄組中共發(fā)現(xiàn)14條注釋為AMT(Ammonium transporter)的Unigene,其中5條Unigene的ORF不完整且無法聚類拼接。分別將其編號為Uni1、Uni2、Uni3、Uni4、Uni5,核酸序列長度分別為1 133 bp、918 bp、267 bp、885 bp、671 bp(表2)。將這5條序列分別在NCBI進(jìn)行blastx比對,比對結(jié)果與轉(zhuǎn)錄組注釋結(jié)果一致,推測Uni1、Uni2、Uni3、Uni4、Uni5都屬于AMT家族。
圖2 五條Unigene在4個轉(zhuǎn)錄組的表達(dá)模式Fig.2 Expression patterns of five Unigene in 4 transcriptomes.
圖3 低表達(dá)基因Uni3,Uni4,Uni5的表達(dá)量模式Fig.3 Expression patterns of low expressed genes Uni3,Uni4,Uni5.
2.2 在不同轉(zhuǎn)錄組中的表達(dá)模式分析
RNA-seq對基因表達(dá)量的評估是根據(jù)該基因讀段(Reads)的數(shù)量,數(shù)量越多,表達(dá)量越高。但是讀段數(shù)會受基因長度和測序深度的影響,Mortazavi等整合這兩個因素提出了RPKM作為表示基因表達(dá)量的指標(biāo)[20]?;蛟诟鱾€轉(zhuǎn)錄組間有3種表達(dá)變化,即表達(dá)上升、表達(dá)下降、表達(dá)不變。因此基因在4個轉(zhuǎn)錄組間的表達(dá)模式總共有27種(3n–1,3表示3種表達(dá)變化;n為轉(zhuǎn)錄組個數(shù))。5個AMT Unigene在4個轉(zhuǎn)錄組的表達(dá)模式有3種(圖2和圖3):1)升—降—升:Uni1和Uni2;2)不變—升—降:Uni3;3)不變—不變—升:Uni4和Uni5。其中Uni1和Uni2表達(dá)模式相似,Uni4和Uni5的表達(dá)模式幾乎一致(圖3)。因此,我們推測Uni1和Uni2來自同一基因,Uni4和Uni5來自另一個基因,將其分別聚為一組做進(jìn)一步分析(Uni1,Uni2本文未做分析,僅以拼接Uni4,Uni5為例)。
2.3 分析Uni4和Uni5在轉(zhuǎn)錄本的位置
Uni4和Uni5序列長度分別為885 bp、671 bp,將這兩條序列通過NCBI blastx分別與參考物種的AMT蛋白進(jìn)行比對分析。結(jié)果如圖4所示,AMT參考物種蛋白約500個氨基酸,Uni4與參考蛋白比對結(jié)果(圖4A)顯示Uni4編碼5?端1?282位置氨基酸,5?端ORF完整,而3?端缺失。同理,Uni5與參考蛋白比對結(jié)果(圖4B)說明Uni5編碼3?端324?500位置氨基酸,3?端ORF完整,而5?端缺失。將兩條序列整合為一條序列(Uni4在5?端,放前面;Uni5在3?端,放后面),然后與參考蛋白blastx比對,比對結(jié)果(圖4C)顯示整合序列具有完整的5?端和3?端,中間缺失了大約40個氨基酸(120 bp)。因此,我們推測Uni4和Uni5具有組成一個轉(zhuǎn)錄本的可能性。
這一步工作是為了證實兩條Unigene間確實因為存在著空缺而不能組裝在一起。如果這兩條Unigene的編碼蛋白有交疊,而交疊區(qū)的核酸序列相似度不高,不可能組成同一個轉(zhuǎn)錄本,應(yīng)當(dāng)舍棄,降低工作量。如果兩條Unigene沒有交疊則有可能來自一條轉(zhuǎn)錄本,進(jìn)行下一步PCR實驗驗證。
圖4 Uni4和Uni5的b lastx比對分析Fig.4 A lignment of Uni4 and Uni5 w ith reference protein by blastx.The red regions indicate matching between Unigene and reference protein.
2.4 PCR擴(kuò)增驗證
分別在Uni4的521?541 bp處設(shè)計正向引物(5?CTCGCCTACTCCACACTCCTT 3?),在Uni5的341?361 bp處設(shè)計反向引物(5?GCTCCCCATTGTCACACTCAC 3?)(圖5)。以鹽角草的cDNA為模板,2×prem ix PCR試劑進(jìn)行PCR擴(kuò)增,設(shè)兩個重復(fù)。PCR產(chǎn)物用1.2%瓊脂凝膠電泳檢測,如圖6所示,電泳獲得單一條帶,大小約800 bp,與預(yù)期結(jié)果相符。
2.5 測序驗證
PCR產(chǎn)物由華大基因(北京)進(jìn)行雙向測序,測序峰圖良好。測序序列編號為overlap1,長度809 bp。以overlap1為Query序列與Uni4, Uni5在NCBI進(jìn)行blastn比對。如圖7,overlap1橫跨Uni4,Uni5兩條序列,相似度分別為99%和100%。Uni4與overlap1在784 bp處存在一個第3位堿基C-G突變,即GTC與GTG,但都編碼纈氨酸。測序結(jié)果驗證了overlap1與Uni4及Uni5同屬一個基因。
圖5 引物設(shè)計示意圖Fig.5 Diagram of primer design.FP:forward primer; RP:reverse primer.
圖6 PCR產(chǎn)物瓊脂糖凝膠電泳Fig.6 Agarose gel electrophoresis of PCR product.M: marker.
圖7 over lap1與Uni4,Uni5的blastn比對Fig.7 A lignment beteween overlap1 and Uni4,Uni5 by blastn.
2.6 序列組裝及分析
將Uni4,Uni5和overlap1在CAP3[21]網(wǎng)站上在線組裝,組裝結(jié)果編號為Secontig1。對Secontig1進(jìn)行ORF搜索,發(fā)現(xiàn)其包含1 482 bp的ORF序列,編碼494個氨基酸,與其他物種的AMT1氨基酸數(shù)目相近。Secontig1(登錄號KJ487970)序列長度1 667 bp,5?端起始密碼子附近符合kozak的A/GNNATGG規(guī)則[22],同碼框的起始密碼子上游具有終止密碼子,因此判斷該序列具有完整的編碼區(qū)。用MEGA 5.0軟件對Secontig1編碼蛋白與模式植物擬南芥和主要作物水稻、小麥、番茄的6個、10個、3個、3個AMT蛋白序列序列進(jìn)行系統(tǒng)進(jìn)化分析。23個AMT蛋白可分為兩大組:所有AMT1亞家族歸為A組;AMT2、AMT3、AMT4亞家族歸類為B組。A組可再分為三組,第一組同為禾本科的水稻和小麥AMT1近緣相似度高而歸類一起;第二組十字花科擬南芥AMT1.2,AMT1.3-1.5單獨(dú)歸類;第三組番茄LeAMT1.1-1.3,AtAMT1.2,SeAMT1歸為一組。B組水稻OsAMT2,OsAMT3及小麥TaAMT2.1可歸為一組,AtAMT2和OsAMT4各自單獨(dú)成一支(圖8)。
因此Secontig1歸類于am t1亞家族,并與番茄LeAMT1.3相似度最高,將Secontig1命名為Seam t1。
圖8 SeAM T1系統(tǒng)進(jìn)化樹Fig.8 Phylogenetic analysis of SeAMT1.At: Arabidopsis thaliana;Os:Oryza sativa;Ta:Triticum aestivum;Le:Lycopersicum esculentum;Se:Salicornia europaea.
2.7 SeAM T1蛋白理化性質(zhì)分析及功能預(yù)測
通過在線網(wǎng)站和工具ProtParam分析SeAMT1蛋白分子量53 224.9,理論等電點5.98,不穩(wěn)定系數(shù)25.88,屬于穩(wěn)定蛋白。ProtScale分析SeAMT1蛋白存在多個親水區(qū)和疏水區(qū),可能與其功能有關(guān);TMHMM Server預(yù)測有9個跨膜區(qū),WoLFPSORT預(yù)測SeAMT1主要位于質(zhì)膜,預(yù)測分值10.0,而預(yù)測位于內(nèi)質(zhì)網(wǎng)膜分值只有2.0。SignaIP神經(jīng)網(wǎng)絡(luò)模型(NN)預(yù)測SeAMT1不具有信號肽,并且馬可夫模型(HMM)預(yù)測SeAMT1不屬于分泌蛋白,支持了WoLFPSORT預(yù)測SeAMT1是膜內(nèi)在蛋白的結(jié)論。以上分析預(yù)測結(jié)果都支持了新方法克隆的Seam t1屬于AMT基因家族的成員之一;推測所編碼的SeAMT蛋白與其他物種性質(zhì)相符——亞細(xì)胞定位于質(zhì)膜及NH4+轉(zhuǎn)運(yùn)功能。
盡管是遺傳背景不清楚的生物,RNA-seq測序能提供大量的轉(zhuǎn)錄本,為基因克隆提供了極大方便[12]。然而非模式生物(如鹽角草等)缺乏基因組信息參考,讀段的組裝難度增加[23]。一般來說,RNA-seq測序讀長越長,越有利于測序片段的裝配,而目前Roche 454測序平均讀長400 bp,Illum ina平均讀長只有100 bp[24]。雖然通過對測序讀段的組裝可以獲得一些全長Unigene,但大部分Unigene不包含完整ORF。轉(zhuǎn)錄組Unigene的數(shù)量通常在十萬級以上,具有一定的冗余性,來自同一轉(zhuǎn)錄本的兩條或多條Unigene無法組裝而同時存在于轉(zhuǎn)錄組庫中[25]。這些Unigene序列往往不長,只包含轉(zhuǎn)錄本的5?端或3?端,并且相互間沒有重疊區(qū)域。從轉(zhuǎn)錄組中發(fā)現(xiàn)這些Unigene有助于不完整基因的延伸和拼接。
首先根據(jù)轉(zhuǎn)錄組注釋挑選感興趣的基因家族中所有非完整Unigene,排除大量非目的基因干擾,然后進(jìn)行表達(dá)模式分析。來自同一個轉(zhuǎn)錄本的任意區(qū)域序列應(yīng)具有相同的表達(dá)豐度,因此這些Unigene的表達(dá)量在理論上是相等的,即表達(dá)評估值RPKM是相近的。Unigene在兩個以上轉(zhuǎn)錄組的表達(dá)模式分析可以有效區(qū)分來自一個轉(zhuǎn)錄本的Unigene,轉(zhuǎn)錄組越多,表達(dá)模式越豐富,區(qū)分效果越好。因此在各個轉(zhuǎn)錄組間表達(dá)模式一致的Unigene很可能來自同一個轉(zhuǎn)錄本。如圖1,先前已證實分別屬于兩個轉(zhuǎn)錄本的兩組Unigene,它們在轉(zhuǎn)錄組間的表達(dá)模式具有一致性,支持了本文推論。
當(dāng)然,即使具有相同的表達(dá)模式的Unigene,它們也可能分別來自功能相近或表達(dá)相似的不同基因。如圖2中的Uni1和Uni2與圖1中的Unigene142 163、Unigene11 551和Unigene71 089這3條Unigene有著相同的表達(dá)模式,但它們并不是同一個轉(zhuǎn)錄本的序列。因此需要做進(jìn)一步分析來排除干擾。如果幾個Unigene的注釋信息明顯不同,則不太可能是同一個基因;如果Unigene序列間具有一定交疊區(qū)域而且無法匹配,說明它們不可能拼接上,因此不必再做PCR驗證??傊?,先根據(jù)基因注釋挑選基因,然后將表達(dá)模式一致的Unigene聚類分組,排除Unigene間有交疊區(qū)域的Unigene組,剩下各個組的兩條或多條Unigene最后通過PCR擴(kuò)增和產(chǎn)物測序驗證它們是否來自同一條轉(zhuǎn)錄本。
通過生物信息學(xué)工具分析,發(fā)現(xiàn)所得到的基因Seam t1編碼區(qū)完整,編碼蛋白的氨基酸數(shù)目與其他物種一致,是鹽角草AMT1亞家族成員之一。TMHMM跨膜區(qū)預(yù)測認(rèn)為SeAMT1蛋白有9個跨膜區(qū),而普遍認(rèn)為植物的AMT蛋白有11?12個跨膜區(qū)[26-27],這可能是因為生物信息學(xué)預(yù)測存在一定偏差或是物種存在的差異。通過SignaIP 3.0在線預(yù)測發(fā)現(xiàn)SeAMT1蛋白具有信號肽可能性較低,不會是分泌蛋白[28];而WoLFPSORT亞細(xì)胞定位預(yù)測它位于質(zhì)膜,屬于膜內(nèi)在蛋白。這兩個預(yù)測結(jié)果相互支持。目前已知的其他植物的AMT蛋白都是位于質(zhì)膜上[29],預(yù)測結(jié)果與其相符。生物信息學(xué)手段的分析預(yù)測具有一定的參考性,能夠為基因功能的實驗驗證打下基礎(chǔ)。
本文以拼接Uni4和Uni5為例,介紹了一種從轉(zhuǎn)錄組中拼接不完整基因的簡易方法,顯著減少了時間和成本的投入。該方法所需要的條件:1)注釋為目的基因的不完整序列有多條;2)兩個以上轉(zhuǎn)錄組庫,并能夠量化基因表達(dá)水平,做表達(dá)模式分析;3)序列定位于轉(zhuǎn)錄本5?或3?端且相互間沒有交疊區(qū)域,有可能組裝成一個轉(zhuǎn)錄本。
該方法源自轉(zhuǎn)錄組分析時的偶然發(fā)現(xiàn),在鹽角草轉(zhuǎn)錄組幾個AMT基因中進(jìn)行了驗證,其敏感性和特異性仍需要更多的Unigene拼接試驗去檢驗。盡管如此,該方法的提出為轉(zhuǎn)錄組數(shù)以萬計Unigene的拼接提供了新思路,特別是對于獲得基因完整編碼區(qū)大有益處。并且該方法投入成本低,十分簡便和快速,而且易操作,不需要復(fù)雜的生物信息學(xué)分析,應(yīng)當(dāng)優(yōu)先考慮使用。隨著測序成本的不斷降低,RNA-seq技術(shù)將更加普及,所獲得的序列信息也將更加豐富,借助于新技術(shù)新方法,基因克隆將變得更加簡單,基因功能的研究也將更加快速。
REFERENCES
[1]Zhang K,Zhang DY,Wang L,et al.Biological features of Salicornia europaea L.and the effect of environmental factors under natural habitats in Xinjiang.Arid Land Geogr,2007,30(6):832–838 (in Chinese).張科,張道遠(yuǎn),王雷,等.自然生境下鹽角草的生物學(xué)特征及其影響因子.干旱區(qū)地理,2007, 30(6):832–838.
[2]Tikhom irova NA,Ushakova SA,Kudenko YA,et al.Potential of salt-accumulating and salt-secreting halophytic plants for recycling sodium chloride in human urine in bioregenerative life support systems.Adv Space Res,2011,48(2):378–382.
[3]Wang JP,Tian CY.Effects of N fertilization on grow th,m ineral ash absorption and accumulation of Salicornia europaea L.Agri Res Arid Areas, 2011,29(1):102–107(in Chinese).王界平,田長彥.氮肥對鹽角草生長及礦質(zhì)灰分累積的影響.干旱地區(qū)農(nóng)業(yè)研究,2011, 29(001):102–107.
[4]Webb JM,Quinta R,Papadim itriou S,et al. Halophyte filter beds for treatment of saline wastewater from aquaculture.Water Res,2012, 46(16):5102–5114.
[5]Chen XY,Han HP,Jiang P,et al.Transformation ofβ-lycopene cyclase genes from Salicornia europaea and Arabidopsis conferred salt tolerance in Arabidopsis and tobacco.Plant Cell Physiol, 2011,52(5):909–921.
[6]Yang XL,Ji J,Wang G,et al.Over-expressing Salicornia europaea(SeNHX1)gene in tobacco improves tolerance to salt.A fr J Biotechnol,2011, 10(73):16452–16460.
[7]Tsay YF,Hsu PK.The Plant Plasma Membrane. Berlin Heidelberg:Springer-verlag,2011: 223–236.
[8]Ho CH,Tsay YF.Nitrate,ammonium,and potassium sensing and signaling.Curr Opin Plant Biol,2010,13(5):604–610.
[9]Li BZ,Merrick M,Li SM,et al.Molecular basis and regulation of ammonium transporter in rice. Rice Sci,2009,16(4):314–322.
[10]M a JB,Zhang MR,Xiao XL,et al.Global transcriptome profiling of Salicornia europaea L. shoots under NaCl treatment.PLoS ONE,2013, 8(6):e65877.
[11]Lockhart DJ,W inzeler EA.Genom ics,gene expression and DNA arrays.Nature,2000, 405(6788):827–836.
[12]Wang Z,Gerstein M,Snyder M.RNA-Seq:a revolutionary tool for transcriptom ics.Nat Rev Genet,2009,10(1):57–63.
[13]Marioni JC,Mason CE,Mane SM,et al.RNA-seq: an assessment of technical reproducibility and comparison w ith gene expression arrays.Genome Res,2008,18(9):1509–1517.
[14]Grabherr MG,Haas BJ,Yassour M,et al. Full-length transcriptome assembly from RNA-Seq data w ithout a reference genome.Nat Biotechnol,2011,29(7):644–652.
[15]M arguerat S,B?hler J.RNA-seq:from technology to biology.Cell Mol Life Sci,2010,67(4): 569–579.
[16]Wang DD,Zhu YM,Li Y,et al.Application of in silico cloning technique in plant gene engineering. J Northeast Agri Univ,2006,37(3):403–408(in Chinese).王冬冬,朱延明,李勇,等.電子克隆技術(shù)及其在植物基因工程中的應(yīng)用.東北農(nóng)業(yè)大學(xué)學(xué)報, 2006,37(3):403–408.
[17]Huang J,Wang JF,Zhang HS,et al.In silico cloning of glucose-6-phosphate dehydrogenase cDNA from rice(Oryza sativa L.).Acta Genet Sin, 2002,29(11):1012–1016.
[18]Chenchik A,Diachenko L,M oqadam F,et al. Full-length cDNA cloning and determ ination of mRNA 5'and 3'ends by amplification of adaptor-ligated cDNA.Biotechniques,1996,21(3): 526–534.
[19]Robertson G,Schein J,Chiu R,et al.De novo assembly and analysis of RNA-seq data.Nat M ethods,2010,7(11):909–912.
[20]Mortazavi A,Williams BA,M cCue K,et al. Mapping and quantifying mammalian transcriptomes by RNA-Seq.Nat Methods,2008,5(7):621–628.
[21]Huang XQ,Madan A.CAP3:A DNA sequence assembly program.Genome Res,1999,9(9): 868–877.
[22]Kozak M.An analysis of 5?-noncoding sequences from 699 vertebrate messenger RNAs.Nucl Acid Res,1987,15(20):8125–8148.
[23]Row ley JW,Oler AJ,Tolley ND,et al. Genome-w ide RNA-seq analysis of human and mouse platelet transcriptomes.Blood,2011, 118(14):e101–e111.
[24]Liu HL,Zheng LM,Liu QQ,et al.Studies on thetranscriptomes of non-model organisms.Hereditas, 2013,35(8):955–970(in Chinese).劉紅亮,鄭麗明,劉青青,等.非模式生物轉(zhuǎn)錄組研究.遺傳,2013,35(8):955–970.
[25]Schliesky S,Gow ik U,Weber AP,et al.RNA-seq assembly–are we there yet?Front Plant Sci,2012, 3:220.
[26]Zheng L,Kostrewa D,Bernèche S,et al.The mechanism of ammonia transport based on the crystal structure of Am tB of Escherichia coli.Proc Natl Acad Sci USA,2004,101(49):17090–17095.
[27]Loque D,Lalonde S,Looger L,et al.A cytosolic trans-activation domain essential for ammonium uptake.Nature,2007,446(7132):195–198.
[28]Dyrl?v Bendtsen J,Nielsen H,von Heijne G,et al. Improved prediction of signal peptides:signalP 3.0.J M ol Biol,2004,340(4):783–795.
[29]Ludew ig U,Neuh?user B,Dynowski M. Molecular mechanisms of ammonium transport and accumulation in plants.FEBS Lett,2007, 581(12):2301–2308.
(本文責(zé)編 郝麗芳)
Assembling of an ammonium transporter gene in Salicornia europaea by expression pattern analysis of Unigene in transcriptome
Xinlong Xiao1,2,Xuan Zhang1,2,Xiaomeng W u1,2,Jinbiao M a1,and Yin’an Yao1
1 Key Laboratory of Biogeography and Bioresource in Arid Land,Xinjiang Institute of Ecology and Geography,Chinese Academy of Sciences,Urumqi 830011,Xinjiang,China 2 University of Chinese Academy of Sciences,Beijing 100049,China
RNA-seq can help us quickly obtain the whole transcriptome sequences of species under different conditions. Many Unigenes that are assembled by raw reads always do not contain complete open reading frame(ORF).In addition,it also has some redundancy in transcriptome library.Some Unigenes in the library,although belong to one transcript,cannot be assembled w ithout overlapping.We found five incomplete Unigenes annotated ammonium transporter(AMT)from Salicornia europaea transcriptome,in which two Unigenes(Uni4 and Uni5)had identical expression patterns across four transcriptomes.The two Unigenes may come from one transcript.Analyzing the Unigene position of transcript by NCBI blastx,we found that Uni4 and Uni5 respectively located in 5′end and 3′end compared w ith the reference transcript,and an unknown gap of 120 bp may exist in a hypothetic transcript to which Uni4 and Uni5 both belong.To verify the hypothesis, single forward primer and single reverse primers were respectively designed on Uni4 and Uni5,and a fragment w ith about 800 bp was generated by PCR.Then it was sequenced and aligned w ith Uni4 and Uni5.Finally,we assembled a sequence w ith 1 667 bp,which contains a complete ORF(1 482 bp,coding 494 am ino acids).It belongs to am t1 subfam ily and was named Seamt1 via the phylogenetic analysis.It was pointed by bioinformatics tools that SeAMT1 protein conformed to the AMT characteristics of other species.This work clustered expression pattern to explore the Unigenes of one transcript,and the feasibility of this method was validated through the other two groups of Unigenes.The handy method w ill benefit extension and assembling of Unigene in transcriptome,it also helps achieve the complete ORF and gene function.
RNA-seq,gene expression,sequence assembly,cloning method,RPKM,nitrogen uptake
February 26,2014;Accep ted:July 8,2014
Yin’an Yao.Tel:+86-991-7823164;E-mail:yaoya@ms.xjb.ac.cn
肖薪龍,張選,吳曉朦,等.利用分析Unigene在轉(zhuǎn)錄組中表達(dá)模式的方法拼接鹽角草銨轉(zhuǎn)運(yùn)基因.生物工程學(xué)報, 2014,30(11):1763–1774.
Xiao XL,Zhang X,Wu XM,et al.Assembling of an ammonium transporter gene in Salicornia europaea by expression pattern analysis of Unigene in transcriptome.Chin J Biotech,2014,30(11):1763–1774.
Suppo rted by:National Natural Science Foundation in China(No.31270660),the Outstanding Youth Talent Foundation for Science and Technology in Xinjiang Uygur Autonomous Region of China(No.2013711018).
國家自然科學(xué)基金(No.31270660),新疆杰出青年科技人才培養(yǎng)項目(No.2013711018)資助。