王希 ,陳麗 ,趙春雷
(1.中國農(nóng)業(yè)科學(xué)院甜菜研究所/黑龍江大學(xué)農(nóng)作物研究院,哈爾濱150080;2.黑龍江省普通高等學(xué)校甜菜遺傳育種重點(diǎn)實(shí)驗(yàn)室,哈爾濱150080;3.中國農(nóng)業(yè)科學(xué)院北方糖料作物資源與利用重點(diǎn)開放實(shí)驗(yàn)室,哈爾濱150080)
基因資源是一切基因功能研究乃至一切代謝過程分子機(jī)理研究的必要前提,而我國甜菜基因克隆的研究基礎(chǔ)薄弱且起步較晚,得到克隆的基因資源種類和數(shù)量都相當(dāng)有限[1-3],且集中于報(bào)道相對(duì)較多、功能比較確定的基因。
受體蛋白激酶(Receptor protein kinase,RPK)是一大類跨膜蛋白的總稱,因其與細(xì)胞外信號(hào)結(jié)合且具有激酶活性而得名。在植物中,由于大多數(shù)該類激酶的受體活性尚未經(jīng)證實(shí),因此也被稱為類受體蛋白激酶(Receptor-like protein kinase,RLK)[4-5],首次報(bào)道見于1990年[6]。植物的類受體蛋白激酶通常屬于絲/蘇氨酸蛋白激酶,位于細(xì)胞膜上[7],也有極少數(shù)定位于細(xì)胞質(zhì)中[8]。植物RPK/RLK又可按胞外區(qū)的一級(jí)結(jié)構(gòu)分為多種類型,其中,很大一部分為富含亮氨酸的RPK/RLK(Leucine-rich repeat receptor-like kinase,LRR-RLK)[9-10],稱為富亮氨酸類受體蛋白激酶。
如今已開展了一些關(guān)于植物L(fēng)RR-RPK基因克隆以及序列、表達(dá)模式等方面的研究[11-13],也已經(jīng)開始分析其生理功能[14-16]與分子功能[17-19]。研究結(jié)果表明植物的LRR-RPK可影響生長發(fā)育、生物脅迫應(yīng)答、非生物脅迫應(yīng)答等多種過程,基因的表達(dá)也受到多種生物與非生物環(huán)境信號(hào)的調(diào)控,且與多種信號(hào)分子以及其它激酶發(fā)生互作,從而參與多種信號(hào)途徑。這些報(bào)道體現(xiàn)了植物L(fēng)RR-RPK具有重要且多樣的功能,因此,獲得編碼LRR-RPK的基因,用于分析相關(guān)基因功能及其所參與代謝過程的分子機(jī)理,具有重要的研究價(jià)值與前景。甜菜LRR-RPK克隆的研究尚無報(bào)道。
本研究以前期開發(fā)的一個(gè)分子標(biāo)記位點(diǎn)為起始材料,利用多個(gè)甜菜序列數(shù)據(jù)庫,通過檢索、比對(duì)、定位、電子延伸等操作,對(duì)標(biāo)記位點(diǎn)的側(cè)翼序列進(jìn)行產(chǎn)物功能預(yù)測與電子克隆,直至獲得側(cè)翼序列中的編碼序列,再通過巢式PCR與雙向測序?qū)﹄娮涌寺〗Y(jié)果進(jìn)行驗(yàn)證與修正,獲得可靠的基因編碼區(qū),最后利用公共數(shù)據(jù)庫對(duì)所得編碼區(qū)進(jìn)行生物信息學(xué)分析,預(yù)測基因的編碼產(chǎn)物,為該基因及其類似物的功能分析奠定基礎(chǔ)。
植物材料為甜菜品系DP02,甜菜基因組版本為1.2.2[20],DNA聚合酶EsTaq、總DNA提取試劑盒購自哈爾濱康為世紀(jì)公司,克隆載體購自北京艾德萊公司,其它酶類與主要分子生物學(xué)試劑購自哈爾濱無限峰公司,引物合成和DNA測序由上海生工生物公司完成。
序列庫批量比對(duì)使用本地blast工具(V2.2.25),下載自NCBI網(wǎng)站(https://blast.ncbi.nlm.nih.gov)。少數(shù)序列比對(duì)、序列在線比對(duì)搜索均使用在線blast工具(NCBI)。序列拼接和多重比對(duì)使用DNAMAN軟件(V6.0)。引物設(shè)計(jì)使用Primer Premier(V5.5)。序列在線分析使用NCBI、pfam、CBS、TMpred等??侱NA提取、總RNA提取均使用吸附柱法。cDNA通過RNA逆轉(zhuǎn)錄獲得。
基因克隆起始材料為一個(gè)已轉(zhuǎn)化的序列標(biāo)簽位點(diǎn)(Sequence tag site,STS),名為BvRE051,長178 bp。首先,以BvRE051序列為種子序列,利用同一品種的轉(zhuǎn)錄本序列庫,進(jìn)行第一輪電子延伸,結(jié)果見圖1。
圖1 BvRE051在轉(zhuǎn)錄本庫中的電子延伸Fig.1 In silico enlongation of BvRE051 with transcript sequence library
通過標(biāo)記位點(diǎn)在轉(zhuǎn)錄本庫中的檢索,得到了一條長度為500 bp的轉(zhuǎn)錄本,序列與標(biāo)記位點(diǎn)序列有147 bp的匹配序列,序列一致性達(dá)到100%。組裝標(biāo)記位點(diǎn)與轉(zhuǎn)錄本序列,得到一條長531 bp的第一輪電子延伸結(jié)果(圖1a)。暫將該段延伸結(jié)果稱為C531。本次得到了單向延伸,延伸方向?yàn)榉N子序列3'端。
利用公共數(shù)據(jù)庫(包括核酸數(shù)據(jù)庫與甜菜基因組數(shù)據(jù)庫)分別進(jìn)行blastN比對(duì)檢索,對(duì)C531進(jìn)行驗(yàn)證與第二輪延伸。結(jié)果表明標(biāo)記位點(diǎn)所在序列有可能代表著一段LRR-RPK基因。同時(shí),發(fā)現(xiàn)在延伸方向上的基因組序列與轉(zhuǎn)錄本序列并不完全一致。其中,一致部分長343 bp。取該段序列為第二輪延伸結(jié)果,暫稱為C343。
再次通過數(shù)據(jù)庫比對(duì)檢索,對(duì)C343進(jìn)行驗(yàn)證與第三輪延伸,得到的匹配序列與第二輪一致,均為2條預(yù)測的mRNA序列(圖2)。這2條序列均編碼LRR-RPK,與C343的匹配長度均為306 bp,匹配區(qū)域序列一致性均為100%,誤差打分也相等。根據(jù)以上結(jié)果可確定C343與C531代表同一段目標(biāo)序列。
以上3次電子延伸結(jié)果均為單向延伸,延伸方向?yàn)榉N子序列3'端。由圖2可見,種子序列已向3'端得到了比較可靠的電子延伸。但由于種子序列位于編碼區(qū)外側(cè),為獲得與標(biāo)記位點(diǎn)關(guān)系最密切的編碼區(qū),還需要將序列向反方向,即種子序列的5'端進(jìn)行延伸,以保證延伸的正確性。
基因編碼區(qū)域通常不大于5 kb,再觀察blast結(jié)果,subject序列的編碼區(qū)長約3.5 kb,遠(yuǎn)小于5 kb。因此,提取基因組序列中C343所在區(qū)域上下游各約5 kb序列。對(duì)該段序列進(jìn)行開放讀碼框(Open reading frame,ORF)分析,確定其中是否包含其它的基因編碼區(qū)。結(jié)果見圖3。
圖2 C343在公共數(shù)據(jù)庫中的blastN比對(duì)結(jié)果Fig.2 BlastN result of C343 in public database
圖3 基因組中C343所在區(qū)域的ORF分析結(jié)果Fig.3 ORF found in genome sequence around C343
向上下游各延伸約5 kb后,僅出現(xiàn)了一個(gè)較完整的ORF,即圖3中“ORF29”。再將ORF29的堿基序列進(jìn)行blastN比對(duì),也得到了與C343相同的結(jié)果。
將ORF29與圖2a中得到的2條blast匹配序列、基因組序列、C343比對(duì),發(fā)現(xiàn)匹配區(qū)域序列一致性很高。在ORF區(qū)域,兩條blast結(jié)果以及基因組序列這三者完全相同,在ORF的3'端外側(cè)約80 bp之外開始出現(xiàn)強(qiáng)烈差異。種子序列位于該ORF的5'端外側(cè),可能位于5'非翻譯區(qū)。
根據(jù)以上延伸-ORF分析-序列比對(duì)與搜索結(jié)果,最終確定種子序列所在編碼區(qū)為ORF29。該編碼區(qū)長度為3 141 bp,編碼產(chǎn)物長1 046 aa,很可能屬于LRR-RPK類蛋白。
該ORF在基因組中與在mRNA中完全一致,因此,預(yù)測該目的基因在基因組中連續(xù)存在,不包含內(nèi)含子區(qū)域。
目的序列及引物的相對(duì)位置如圖4所示:根據(jù)電子克隆結(jié)果,將待驗(yàn)證的目的序列確定為ORF29+5'端外側(cè)種子序列區(qū)域+3'端外側(cè)無差異區(qū)域,總長度為3 514 bp。暫將該段序列稱為T3514。盡量選取靠近T3514兩端的序列設(shè)計(jì)引物,以保證其中編碼區(qū)部分得到完整擴(kuò)增。設(shè)計(jì)多輪巢式引物以保證擴(kuò)增的特異性。
圖4 待驗(yàn)證序列的范圍及引物設(shè)計(jì)位置Fig.4 Positions of target sequence T3514 and verification primers S1,S2:senseprimers;A1-A3:antisense primers
分別以DNA和cDNA為模板,以巢式PCR對(duì)電子延伸結(jié)果進(jìn)行驗(yàn)證。瓊脂糖凝膠電泳結(jié)果(圖5)表明,以2種模板進(jìn)行的PCR均得到了與預(yù)期相符的目的序列。2種模板的擴(kuò)增結(jié)果長度一致。
回收、克隆產(chǎn)物條帶,取轉(zhuǎn)化子進(jìn)行sanger測序,結(jié)果顯示所得序列長3 467 bp,延伸結(jié)果兩端序列與所設(shè)計(jì)的引物序列匹配,序列與目標(biāo)序列T3514有7個(gè)堿基的差異(圖6)。結(jié)果符合預(yù)期目標(biāo),表明T3514得到了驗(yàn)證與修正。暫將該段巢式PCR產(chǎn)物稱為N3467。利用在線工具對(duì)該序列進(jìn)行ORF分析,也得到了一個(gè)完整且長度符合預(yù)期的ORF2,長3 141 bp。
將N3467中的ORF2與T3514中的ORF進(jìn)行blastN、blastX比對(duì)(圖6),結(jié)果表明ORF2的長度與預(yù)期相同,均為3 141 bp,編碼1 046 aa的產(chǎn)物;二者在核苷酸序列上一致性99%,有5個(gè)堿基的差異,在氨基酸序列上一致性99%,有2個(gè)氨基酸的差異。
圖5 電子延伸T3514的巢式PCR驗(yàn)證Fig.5 Verification of in silico elongated sequence T3514 by nested PCR
圖6 巢式PCR產(chǎn)物N3467中ORF2與T3514中目標(biāo)ORF的比對(duì)Fig.6 Alignments of ORF2 of N3467 from nested PCR and target ORF in T3514
再將種子序列BvRE051、驗(yàn)證后的延伸結(jié)果N3467分別在整個(gè)甜菜基因組序列中進(jìn)行blast比對(duì),匹配區(qū)域位于6號(hào)染色體同一區(qū)域,相對(duì)位置也與電子延伸情況一致。
以上結(jié)果表明,所得序列的ORF結(jié)構(gòu)完整,編碼產(chǎn)物及序列定位均符合預(yù)期,可以認(rèn)為已獲得了種子序列所在處的完整編碼區(qū)。
利用在線blastN、blastX工具,在所有植物的序列庫中對(duì)ORF2進(jìn)行序列比對(duì),所得序列ORF2與最高分匹配序列(兩段甜菜預(yù)測LRR-RPK的mRNA)均有5個(gè)堿基、2個(gè)氨基酸的差異。除來自甜菜的預(yù)測RPK外,高分匹配序列均屬于RPK/RLK2,來自藜麥(一致性84%)、菠菜(一致性84%)、糙葉山黃麻(一致性64%)等物種,序列一致性均不超過85%。
至此,通過電子延伸和常規(guī)基因克隆,獲得了目的基因編碼區(qū),并推斷基因產(chǎn)物屬于LRR-RPK2類蛋白。按該基因命名習(xí)慣,將所得序列命名為BvLRR-RPK2;1。
用TMpred預(yù)測基因編碼產(chǎn)物蛋白BvLRR-RPK2;1的跨膜結(jié)構(gòu)域(圖7),結(jié)果表明其中第708~730個(gè)氨基酸處有1個(gè)比較可靠的跨膜結(jié)構(gòu)域,BvLRR-RPK2;1的N端位于細(xì)胞質(zhì)膜外側(cè),C端位于質(zhì)膜內(nèi)側(cè)。
圖7 基因翻譯產(chǎn)物BvLRR-RPK2;1的跨膜結(jié)構(gòu)預(yù)測Fig.7 Trans-membrane structure presumption of BvLRR-RPK2;1(translated peptide)
利用Pfam在線工具對(duì)BvLRR-RPK2;1進(jìn)行結(jié)構(gòu)域預(yù)測(圖8),并與LRR-RPK/RLK類蛋白對(duì)比,結(jié)果表明BvLRR-RPK2;1在第22~61個(gè)氨基酸與已知的亮氨酸結(jié)構(gòu)域相似,第772~971個(gè)氨基酸與已知的蛋白激酶結(jié)構(gòu)域相似,表明基因產(chǎn)物在胞外N端具有一個(gè)亮氨酸結(jié)構(gòu)域,在胞內(nèi)C端具有一個(gè)蛋白激酶結(jié)構(gòu)域,符合RPK/RLK的結(jié)構(gòu)特征。
圖8 BvLRR-RPK 2;1的結(jié)構(gòu)域預(yù)測Fig.8 Domains presumption of BvLRR-RPK 2;1
以上結(jié)構(gòu)預(yù)測結(jié)果均與序列比對(duì)結(jié)果一致,因此可預(yù)測BvLRR-RPK2;1基因?qū)儆诟涣涟彼犷愂荏w蛋白激酶類基因。
(1)通過電子延伸與常規(guī)基因克隆,獲得了一個(gè)完整的基因編碼區(qū),長3 141 bp,編碼1 046 aa的產(chǎn)物,編碼區(qū)在基因組中連續(xù)存在,無內(nèi)含子。
(2)編碼區(qū)與甜菜中已預(yù)測的2條編碼富亮氨酸類受體蛋白激酶LRR-RPK的mRNA在ORF內(nèi)部有5個(gè)堿基、2個(gè)氨基酸的差異,基因編碼產(chǎn)物與其它物種中的LRR-RPK2類蛋白相似,且序列相似性在85%以下。將基因命名為BvLRR-RPK2;1。
(3)基因編碼產(chǎn)物BvLRR-RPK2;1具有一個(gè)跨膜結(jié)構(gòu)域,具有LRR-RPK家族特征性的亮氨酸結(jié)構(gòu)域和蛋白激酶結(jié)構(gòu)域。
本研究以一個(gè)標(biāo)記位點(diǎn)為起始材料,結(jié)合電子克隆、序列分析、常規(guī)基因克隆,并通過多角度的結(jié)構(gòu)分析與驗(yàn)證,再結(jié)合相似基因的研究背景,最終獲得了符合預(yù)期的目的基因編碼區(qū)。本研究所得基因BvLRR-RPK2;1在序列上、基因組相對(duì)位置上、產(chǎn)物結(jié)構(gòu)上均與標(biāo)記位點(diǎn)來源相符:基因及翻譯產(chǎn)物與已報(bào)道LRRRPK/RLK2類基因的mRNA序列和蛋白序列有較高相似性,標(biāo)記位點(diǎn)與編碼區(qū)位于基因組同一區(qū)域且連續(xù)存在,編碼區(qū)翻譯產(chǎn)物具有LRR-RPK特征性的跨膜結(jié)構(gòu)域、N端富含亮氨酸結(jié)構(gòu)域、C端蛋白激酶結(jié)構(gòu)域[5,21-22]。因此,可以確定該基因是一個(gè)激酶類基因,其編碼產(chǎn)物屬于富亮氨酸類受體蛋白激酶,且與所關(guān)注的標(biāo)記位點(diǎn)有密切聯(lián)系。該基因在后續(xù)研究中可應(yīng)用于兩方面,一是針對(duì)基因本身進(jìn)行功能研究與調(diào)控機(jī)制研究,二是與起始標(biāo)記結(jié)合對(duì)性狀進(jìn)行鑒定,并分析該基因?qū)π誀畹淖饔谩?/p>
我國的甜菜基因資源挖掘工作遠(yuǎn)遠(yuǎn)落后于大部分主要作物,這可能與甜菜的育種歷程、種質(zhì)資源豐富程度、性狀檢測難度等客觀背景有關(guān),也可能與甜菜自交不親和、基因位點(diǎn)雜合度高、序列的獲取易受干擾有關(guān)。為獲取目的基因,本研究采用了電子克隆與常規(guī)擴(kuò)增相結(jié)合的技術(shù)方案。電子克隆是基于后基因組時(shí)代序列信息大量豐富而產(chǎn)生的基因克隆技術(shù),在序列延伸與驗(yàn)證方面都具有明顯的優(yōu)勢。對(duì)于甜菜而言,較薄弱的研究基礎(chǔ)限制了電子克隆可利用的序列材料,尤其是mRNA序列材料。但是,利用已公布的甜菜基因組,甜菜的基因資源挖掘有了新的可能性,即本研究所采用的技術(shù)路線:借助基因組序列進(jìn)行電子克隆,隨后通過生物學(xué)實(shí)驗(yàn)進(jìn)行延伸結(jié)果驗(yàn)證與序列獲取,同時(shí),借助前期研究基礎(chǔ),對(duì)目的基因類型、功能、位置等信息進(jìn)行預(yù)判,最后再利用基因組序列確定所得序列與研究目的是否相符、排除基因組其它區(qū)域相近序列的干擾。采用該方案進(jìn)行基因克隆,可在一定程度上節(jié)約目的片段延伸的工作量,排除結(jié)果驗(yàn)證時(shí)可能的干擾,間接地降低在選擇種質(zhì)、選擇目的基因、驗(yàn)證克隆結(jié)果時(shí)受到干擾的風(fēng)險(xiǎn)。
然而,該電子克隆方案仍然不適合用于所有類型基因的克隆。一方面,甜菜電子克隆可用的參考序列數(shù)目還相當(dāng)有限。在本研究中,可應(yīng)用的mRNA序列僅限于公共數(shù)據(jù)庫中的2條預(yù)測序列與1條自主測序所得序列,電子克隆前期也出現(xiàn)了多種延伸結(jié)果,這些結(jié)果因參考序列的來源和質(zhì)量而異,并對(duì)克隆工作造成了較大的干擾,編碼區(qū)外側(cè)的非翻譯區(qū)序列也因參考序列質(zhì)量不高而暫時(shí)無法克隆。另一方面,甜菜許多關(guān)鍵代謝過程的分子機(jī)理并不夠清楚,使得目的基因的選擇與驗(yàn)證可用的參考信息不足。本研究由于起始序列來自于前期研究,與性狀有一定相關(guān)性,能夠在克隆過程中,根據(jù)基因在其它物種中的研究結(jié)果,評(píng)估基因與性狀的相關(guān)性,才對(duì)電子克隆結(jié)果成功地進(jìn)行了判斷。相應(yīng)地,若前期研究基礎(chǔ)不足且種子序列較短,則很難通過電子延伸獲得可靠的結(jié)果。
此外,即使參考序列充足,電子克隆結(jié)果也必須要通過生物學(xué)實(shí)驗(yàn)進(jìn)行驗(yàn)證,才能克隆出可靠的基因片段并確定基因序列。電子克隆參考序列的來源比較多樣,且目的序列在品種之間的保守性也無法預(yù)料,若直接以電子克隆結(jié)果作為目的基因序列進(jìn)行后續(xù)操作,序列差異很可能干擾方案的設(shè)計(jì)與實(shí)施,甚至導(dǎo)致載體構(gòu)建等后續(xù)工作無法完成。本研究在電子克隆結(jié)果驗(yàn)證中,使用了標(biāo)記位點(diǎn)來源材料,以確保植物材料中包含目的基因,并設(shè)計(jì)了巢式PCR引物,以排除非特異擴(kuò)增與低保守性引物序列的干擾,最大限度地避免了以上風(fēng)險(xiǎn),并及時(shí)修正了7 bp的序列差異。
總之,基因電子克隆的難度、工作量及結(jié)果可靠性與參考序列的質(zhì)量、數(shù)量密切相關(guān),且需要足夠的前期研究基礎(chǔ)作為輔助,并需要通過生物學(xué)實(shí)驗(yàn)進(jìn)行驗(yàn)證,才能獲得確定的、可靠的目的基因片段。
目前,甜菜已發(fā)表的EST、mRNA、蛋白質(zhì)序列均不夠豐富,基因組數(shù)據(jù)也剛剛發(fā)布并只更新了一次,還有必要獲取數(shù)量更多、種類更豐富、序列更可靠、來源更多樣的甜菜序列信息,以輔助甜菜的電子克隆以及其它的生物信息學(xué)分析。在甜菜序列信息更豐富或基因組序列更可靠之后,也有望借助這些序列,對(duì)已完成克隆的各個(gè)編碼區(qū),包括本研究所得的BvLRR-RPK2;1基因,進(jìn)行進(jìn)一步的克隆、基因結(jié)構(gòu)預(yù)測、調(diào)控元件分析等研究。