賈凌 趙愛春 馬三垣 何寧佳
(西南大學(xué)蠶學(xué)與系統(tǒng)生物學(xué)研究所,重慶 400716)
近年來,隨著測序技術(shù)的迅速發(fā)展,已有包括人[1]、牛[2]、鼠[3]等哺乳動物,家蠶[4]、蜜蜂[5]等昆蟲,擬南芥[6]、水稻[7]等植物,以及流感嗜血桿菌[8]等微生物越來越多生物物種的基因組序列被測定。這些基因組序列的測定,多是采用隨機(jī)測序(shotgun method)的方法,這種方法雖然可以快速地對基因組進(jìn)行大規(guī)模測定,但是由于其原理是將基因組隨機(jī)打斷成較短的片段,測定后再行拼接[1],因此,用這種方法測定的基因組存在一些空白(gap)?;蚪M序列中出現(xiàn)空白原因除了基因組測序覆蓋度低以外,更主要的是不同物種基因組中重復(fù)序列的存在,特別是在高等生物基因組中存在大量的重復(fù)序列而導(dǎo)致隨機(jī)測序后無法拼接。目前研究表明,不論是在低等原核生物還是高等真核生物的基因組中,都存在著一定比例(1%~77%)的重復(fù)序列[9],其結(jié)構(gòu)的特殊性使其難以用隨機(jī)測序后再進(jìn)行拼接的方法來測定。因此,測定重復(fù)序列,尤其是高度重復(fù)序列只能用定向測序的策略。目前,定向測序的策略主要有兩種:引物步移法(primer walking)和核酸外切酶Ⅲ嵌套缺失法(nested deletions with exonucleaseⅢ)。引物步移法可以有效測定非重復(fù)序列和短的重復(fù)序列(<2 kb),而利用其測定較長的高度重復(fù)序列時,無法避免引物同時和模板的多個位置退火從而無法完成準(zhǔn)確的定向測序。核酸外切酶Ⅲ嵌套缺失法是利用核酸外切酶Ⅲ定向刪除形成嵌套缺失的多個克隆后再利用載體一端引物定向測序的方法,測序準(zhǔn)確度高[10]。
越來越多物種的基因組測序的完成為進(jìn)一步揭示不同基因的功能奠定了堅(jiān)實(shí)的基礎(chǔ),而基因組序列中無所不在的空白無疑是基因組測序工作中的一大瑕疵,對其中大量存在的重復(fù)序列的測定將有助于不同物種基因組序列完善。目前不同物種特別是高等生物基因組中的空白序列主要是一些重復(fù)序列,有研究表明大量的重復(fù)序列通過調(diào)節(jié)基因表達(dá)和染色體的生理代謝等方式行使生物功能[9]。最近越來越多的研究也表明這些重復(fù)序列在生物進(jìn)化[11]、基因的轉(zhuǎn)錄和表達(dá)調(diào)控[12]等許多生命活動方面具有不可忽視的作用。此外,這些空白序列中的部分重復(fù)序列本身就是一些比較關(guān)鍵的基因,對不同生物的生命活動起著重要的作用。如為了捕食、保護(hù)后代和危機(jī)自救逃跑等目的,圓網(wǎng)蜘蛛一生中可以分泌達(dá)七種不同類型的絲蛋白;家蠶為了保護(hù)蠶蛹順利地發(fā)育而吐絲結(jié)繭,這些泌絲動物的絲蛋白基因幾乎都是由冗長的高度重復(fù)序列組成[13,14]。因此,對基因組中的空白序列進(jìn)行測定對人類進(jìn)一步了解和揭示生命的奧秘具有重要的意義。核酸外切酶Ⅲ嵌套缺失法是目前測定重復(fù)序列最有效的方法之一,本研究以黃蜂蜘蛛大壺狀腺絲蛋白MaSp2(Major Ampullate silk protein),管狀腺絲蛋白CySp1(Cylindrical silk protein 1)以及CySp2(Cylindrical silk protein 2)三個絲蛋白全長cDNA克隆為材料,測定這些基因序列的同時系統(tǒng)地探討了利用核酸外切酶Ⅲ嵌套缺失法測定重復(fù)序列的關(guān)鍵技術(shù)和常見問題的處理策略,以期為不同基因組中重復(fù)序列的測定提供有用的技術(shù)參考。
黃蜂蜘蛛大壺狀腺絲蛋白基因MaSp2,管狀腺絲蛋白基因CySp1和CySp2的全長cDNA克隆均由本實(shí)驗(yàn)室保存,其骨架載體為pGCAP1(圖1);大腸桿菌(Escherichia coli)DH5α和XL-BLUE菌株購自Takara公司。
圖1 含蜘蛛絲蛋白基因的載體pGCAP1圖譜。不同蜘蛛絲蛋白全長cDNA基因插入多克隆位點(diǎn)內(nèi)切酶EcoRI和NotI之間,M13R為定向刪除亞克隆測序引物。
LB培養(yǎng)基:蛋白胨10g,酵母提取物5g,氯化鈉10g,固體培養(yǎng)基添加15g瓊脂,去離子水至1000ml,固體和液體培養(yǎng)基在使用時按需要加入氨芐青霉素至終濃度為50ug/ml。
ExonucleaseⅢ、Mung Bean nuclease、Klenow Fragment、連接酶試劑盒[Kit Code D6022]以及XbaⅠ、SalⅠ等限制性內(nèi)切酶和瓊脂糖粉均購自Takara公司;BigdyeTM、聚丙烯酰胺凝膠(POP-6)、測序毛細(xì)管電泳緩沖液、高質(zhì)量甲酰胺、礦物油等測序藥品均購自ABI生物有限公司。
首先利用酶切實(shí)驗(yàn)分別分析載體中cDNA基因MaSp2、CySp1和CySp2的酶切位點(diǎn),然后根據(jù)兩端載體序列的酶切位點(diǎn)在每個基因的同一側(cè)分別確定一個5'黏末端酶和一個3'黏末端酶為進(jìn)一步的核酸外切酶Ⅲ嵌套缺失實(shí)驗(yàn)。
首先通過1.2.1各自選定的限制性內(nèi)切酶分別處理含20ug的MaSp2、CySp1和CySp2基因的三個載體,接著采用酚和氯仿對DNA溶液進(jìn)行純化并用無水乙醇沉淀DNA和70%乙醇洗滌沉淀,接著在37℃用核酸外切酶Ⅲ酶切上述產(chǎn)物,每隔一分鐘收集最初反應(yīng)體系的十分之一置于冰上終止反應(yīng),將10次收集的產(chǎn)物混合獲得最終收集產(chǎn)物。這些產(chǎn)物在37℃條件下用綠豆核酸酶消化1個小時,接著采用酚和氯仿對DNA溶液進(jìn)行純化后同樣用無水乙醇沉淀DNA和70%乙醇洗滌沉淀,之后通過Klenow片段補(bǔ)齊缺口后同樣使用上述純化和沉淀方法獲得具有平末端的嵌套DNA,最后使用TAKARA公司連接酶試劑盒的solutionⅠ[kit code D 6022]在16℃條件下連接13小時環(huán)化得到不同嵌套缺失亞克隆DNA文庫。
將1.2.2所得的不同嵌套缺失亞克隆文庫的DNA溶液轉(zhuǎn)化到感受態(tài)細(xì)胞DH5α或XL-BLUE中,在37℃條件下培養(yǎng)16個小時。利用菌液電泳,即將菌液與solutionⅡ(188 mM NaOH和1%SDS)溶液按照2:1的比例于離心管中裂解15分鐘,然后取10-15ul的裂解產(chǎn)物進(jìn)行瓊脂糖凝膠電泳,初步篩選所需的亞克隆,最后再采用雙酶切進(jìn)一步鑒定亞克隆中目的基因片段的大小,并根據(jù)鑒定的大小從小到大進(jìn)行排序和編號。
以1.2.3步驟獲得的亞克隆為模板,利用載體一端的通用測序引物M13R,對插入片段進(jìn)行定向測序,測序PCR熱循環(huán)條件為:96℃預(yù)變性5min,(96℃變性30s,50℃退火15s,60℃延伸4min)×24個循環(huán),60℃延伸10min。測序PCR產(chǎn)物經(jīng)純化后上樣至DNA測序儀(ABI Prism genetic analyzer 3100),獲得相應(yīng)亞克隆中目的基因片段的5'端的部分序列。根據(jù)亞克隆編號和相鄰的相同部分完全重疊原理,利用軟件Sequencher4.2對其序列依次進(jìn)行拼接而最后獲得這些基因全部序列。
對pGCAP1載體的序列分析發(fā)現(xiàn),插入片段上游序列中含有8個酶切位點(diǎn),包括6個5'黏末端酶(XbaⅠ、SalⅠ、XhoⅠ、BamHⅠ、EcoR I、Hind III)和兩個3'黏末端酶(SphⅠ和PstⅠ)。其中,對MaSp2全長cDNA克隆進(jìn)行上述部分酶(XbaⅠ、SalⅠ、XhoⅠ、SphⅠ和BamHⅠ)的酶切分析,結(jié)果如圖2所示:XbaⅠ、SalⅠ、XhoⅠ和SphⅠ將克隆能切成單一的片段,而BamHⅠ的酶切產(chǎn)物呈現(xiàn)出多個條帶,暗示MaSp2基因中無XbaⅠ、SalⅠ、XhoⅠ和SphⅠ識別位點(diǎn),而存在多個BamHⅠ位點(diǎn)。根據(jù)這一結(jié)果,我們選擇3'黏末端酶SphⅠ和5'黏末端酶XhoⅠ進(jìn)行定向刪除實(shí)驗(yàn)。圖3顯示了MaSp2全長克隆SphⅠ和XhoⅠ雙酶切的結(jié)果,同樣也表明MaSp2基因中無XhoⅠ和SphⅠ識別位點(diǎn)且該基因大小約為10kb。利用同樣的方法,我們確定了CySp1全長cDNA克隆含有EcoRI和多個PstI識別位點(diǎn)且無XhoⅠ和SphⅠ識別位點(diǎn),CySp2全長cDNA克隆有多個PstI位點(diǎn)而無EcoRⅠ和SphⅠ位點(diǎn),因此選用了XhoI-SphⅠ內(nèi)切酶組合和EcoRI-SphⅠ內(nèi)切酶分別為CySp1和CySp2的全長克隆進(jìn)行定向刪除實(shí)驗(yàn)。圖4顯示了XhoI、SphⅠ、EcoRI對CySp1和CySp2的全長克隆單酶切的電泳結(jié)果。圖5顯示了XhoI-SphⅠ、EcoRI-SphⅠ組合對CySp1和CySp2的全長克隆雙酶切的電泳結(jié)果。這些結(jié)果不但進(jìn)一步證明了上面的酶切分析結(jié)果,而且確定了CySp1和CySp2的全長基因大小也約為10kb。
圖2 MaSp2全長cDNA克隆的單酶切電泳圖
圖3 MaSp2全長cDNA克隆的雙酶切電泳圖
圖4 CySp1和CySp2全長cDNA克隆的單酶切電泳圖
圖5 CySp1和CySp2全長cDNA克隆的雙酶切電泳圖
通過使用核酸外切酶Ⅲ定向刪除MaSp2全長cDNA克隆的5'黏末端,接著用綠豆核酸酶降解核酸外切酶Ⅲ定向刪除后剩下的單鏈DNA以及Klenow片段補(bǔ)平缺口,然后用TAKARA公司連接酶試劑盒的solutionⅠ[kit code D 6022]環(huán)化載體,轉(zhuǎn)化并用如實(shí)驗(yàn)材料和方法部分所述進(jìn)行篩選和排序,最后我們得到了許多大小不同的亞克隆,并對這些亞克隆進(jìn)行雙酶切(SalⅠ、NotⅠ)分析,結(jié)果如圖3所示:篩選出的亞克隆均能被SalⅠ和NotⅠ兩個內(nèi)切酶切開并正如預(yù)料的產(chǎn)生兩條DNA帶,其中一條約3200bp,為載體骨架DNA片段,另一條為長度不同的插入片段,即長度不同的MaSp2基因片段(圖6)。這些結(jié)果表明含MaSp2全長cDNA基因的質(zhì)粒載體通過核酸外切酶Ⅲ等其他酶的一系列處理后有效地形成的大小不同嵌套缺失,同時也表明利用菌液電泳先快速初步鑒定亞克隆大小和排序具有省時和節(jié)約實(shí)驗(yàn)成本的優(yōu)點(diǎn),可使下一步雙酶切鑒定能夠容易地實(shí)現(xiàn)不同亞克隆的準(zhǔn)確排序。采用同樣的方法,我們也篩選獲得了CySp1和CySp2基因的不同嵌套缺失亞克隆(電泳圖未顯示)。
圖6 (A、B) MaSp2全長cDNA克隆核酸外切酶Ⅲ不同的定向刪除亞克隆雙酶切(SalⅠ和NotⅠ)的電泳圖
利用載體一端的測序引物M13R,先對圖6中的不同嵌套缺失亞克隆的5'-端進(jìn)行定向測序分析,然后對測定出的圖6中各亞克隆插入片段的5'-端序列進(jìn)行從小到大的依次拼接。在拼接過程中,我們先根據(jù)DNA Maker確定圖6各亞克隆插入片段大小并大概確定大小相鄰亞克隆插入片段的大小差異,然后利用相鄰克隆相同DNA片段完全重疊的原理,利用軟件Sequencher4.2對圖6各亞克隆插入片段依次拼接(圖7),這樣我們測定了黃蜂蜘蛛大壺狀腺絲蛋白基因MaSp2的全長序列,大小為10.086kb,其中高度重復(fù)序列的長度約為9.3kb。我們用同樣的方法也測定了黃蜂蜘蛛卵囊絲蛋白基因CySp1和CySp2的全長cDNA序列,大小分別為9.1kb(登錄號AB242144)和9.8kb(登錄號AB242145),其中高達(dá)90%以上序列是高度重復(fù)序列[15]。
圖7 MaSp2定向刪除亞克隆5'-端片段的序列拼接圖
本研究利用核酸外切酶Ⅲ定向刪除的方法,成功測定了高度重復(fù)序列——黃蜂蜘蛛大壺狀腺絲蛋白基因MaSp2,管狀腺絲蛋白基因CySp1和CySp2的全長cDNA序列,其大小分別為10.086kb,9.1kb和9.8kb,重復(fù)序列均在90%左右。研究結(jié)果表明核酸外切酶Ⅲ定向刪除法是一種能準(zhǔn)確測定高度重復(fù)序列的有效方法,這種方法主要包括三個步驟:(1)選擇合適的一個5'黏末端和3'黏末端內(nèi)切酶處理待測序的克隆,在待測序列的一側(cè)形成兩個黏末端缺口;(2)利用核酸外切酶Ⅲ只能夠單向刪除5'黏末端單鏈DNA序列特點(diǎn),先用核酸外切酶Ⅲ處理酶切樣品,然后用綠豆核酸酶降解定向刪除后剩下的單鏈DNA并進(jìn)一步用Klenow Fragment補(bǔ)平線性DNA的兩端,最后自連形成大小不一的亞克隆;(3)亞克隆的篩選與排序:根據(jù)亞克隆插入片段的大小順序進(jìn)行從小到大的準(zhǔn)確排序并對這些亞克隆的插入片段的5'-端進(jìn)行測序,然后是根據(jù)完全重疊原理對兩兩相鄰的序列依次進(jìn)行拼接。
在利用核酸外切酶Ⅲ定向刪除法測定重復(fù)序列的過程中,各個步驟均會影響到序列測定的效果。本研究中,我們針對一些重要的環(huán)節(jié)采取了相應(yīng)的策略:(1)黏性末端酶位置的選擇:我們通過軟件分析載體序列,在通用測序引物和待測基因之間選擇合適的黏性末端酶位點(diǎn),并利用單酶切進(jìn)行驗(yàn)證,確保待測基因中沒有該酶切位點(diǎn)。此外,為了便于形成合理的嵌套缺失,所選擇的5'黏末端酶應(yīng)比3'黏末端酶更鄰近于待測基因。(2)篩選合適亞克隆:有研究報(bào)道,采用核酸外切酶Ⅲ定向刪除法處理克隆后,大約超過三分之一的亞克隆不是由核酸外切酶Ⅲ處理后形成的合理的嵌套缺失[10]。為了快速篩選到目的亞克隆,我們采用了菌液電泳的方法對嵌套缺失的大小進(jìn)行了初步判定,再進(jìn)行雙酶切進(jìn)一步鑒定,最后根據(jù)雙酶切結(jié)果嚴(yán)格進(jìn)行排序,這將大大地有助于不同目的刪除亞克隆的有效獲得和準(zhǔn)確排序,具有省時省力的優(yōu)點(diǎn)。(3)序列拼接的準(zhǔn)確性:為了保證序列拼接正確,在拼接過程中,我們嚴(yán)格按照亞克隆大小的順序逐個進(jìn)行拼接,并將拼接后的亞克隆插入片段的大小與其在瓊脂糖凝膠電泳圖上的大小相比較以進(jìn)一步確認(rèn)序列拼接的準(zhǔn)確性。該測序方法工作量最大和最難的步驟便是亞克隆的篩選與準(zhǔn)確排序,也是準(zhǔn)確測定重復(fù)序列的關(guān)鍵,利用快速的菌液電泳和對插入片段的初步排序有助于減小篩選和準(zhǔn)確排序的工作量。
定向刪除法對序列進(jìn)行單向測序,其測定重復(fù)序列的準(zhǔn)確度高,但是該法需要形成大量的大小不一的亞克隆文庫,而對這些大小不同亞克隆的有效分辨和準(zhǔn)確排序受電泳技術(shù)的限制。如本研究中是利用普通的瓊脂糖電泳技術(shù)對大小不同亞克隆進(jìn)行分辨和排列,由于受瓊脂糖電泳分辨率的限制,其單向所能測定DNA的最大長度僅為10kb左右,主要是由于超過10kb后相差約500-800bp(約一個測序反應(yīng)長度)的相鄰DNA片段很難通過瓊脂糖電泳進(jìn)行有效的分辨,這也是目前限制了該定向刪除法的更廣泛應(yīng)用的瓶頸。如要利用該定向刪除法測定更長的重復(fù)序列,也許可以采用以下策略:(1)可以在目的片段的兩端同時進(jìn)行核酸外切酶Ⅲ定向刪除法,這樣可使能測定的序列長度達(dá)到20kb;(2)超過20kb的重復(fù)序列可根據(jù)重復(fù)序列內(nèi)酶切位點(diǎn)的差異選擇重復(fù)序列差異內(nèi)酶切進(jìn)行亞克隆,然后對幾個大的不同亞克隆進(jìn)行分別核酸外切酶Ⅲ定向刪除測序,最后完成序列連接;(3)利用新的高分子量高分辨能力的電泳技術(shù),解決電泳分辨能力的瓶頸。通過上述改進(jìn),利用核酸外切酶Ⅲ定向刪除法將可以測定長得多的重復(fù)DNA分子。
不同生物體的基因組中均存在一定比例的重復(fù)序列(比如小鼠占38%,智人占50%,玉米占77%),這些重復(fù)序列在生物體的生命活動中扮演著重要的角色,它們在基因表達(dá),轉(zhuǎn)錄調(diào)控和染色體的生理代謝等都起著一定的作用[9]。另外有研究報(bào)道表明蜘蛛大壺狀腺絲蛋白基因的重復(fù)序列長度可能與蜘蛛絲機(jī)械性能有密切關(guān)系[13]。因此,重復(fù)序列的測定有利于揭示其具體功能,有助于人們對不同生物的生命活動的進(jìn)一步理解。然而重復(fù)序列的特性決定了其序列不能用鳥槍法等常規(guī)的測序手段進(jìn)行測定,造成許多重復(fù)序列至今還沒有被測定。研究者們至今已利用此法測定了高度重復(fù)的絡(luò)新婦蜘蛛(Nephila clavipes)的鞭狀腺絲蛋白(Flag)基因[16],以及含有22個7肽串聯(lián)重復(fù)序列16個13肽基序的斑馬貝(Dreissena polymorpha)足絲蛋白(foot protein)基因[17]等,這些都說明該方法是一種有效的測定重復(fù)序列的方法。本研究基于前人的研究成果,在測定三個冗長的高度重復(fù)序列的同時系統(tǒng)地探討的核酸外切酶Ⅲ定向刪除法測定高度重復(fù)序列一些關(guān)鍵問題,將對這一方法的進(jìn)一步發(fā)展和應(yīng)用具有重要參考價(jià)值,期望為快速、準(zhǔn)確地測定重復(fù)序列等難測序列提供有效的技術(shù)參考,促進(jìn)基因組空白序列的填補(bǔ)和完善。
[1]International Human Genome Sequencing Consortium.Initial sequencing and analysis of the human genome[J].Nature,2001,409(6822):860-921.
[2]The Bovine Genome Sequencing and Analysis Consortium,Christine G et al.The Genome Sequence of Taurine Cattle:A Window to Ruminant Biology and Evolution[J].Science,2009,324(5926):522-526.
[3]Mouse Genome Sequencing Consortium.Initial sequencing and comparative analysis of the mouse genome[J].Nature,2002 420(6915):520-562.
[4]Qingyou Xia,Zeyang Zhou,Cheng Lu et al.A draft sequence for the genome of the domesticated silkworm(bombyx mori)[J].Science,2004,306(5703):1937-1940.
[5]Waring.Sequencing of the honey bee genome[J].Bee Craft.2004,86(2):6.
[6]The Arabidopsis Genome Initiative(AGI).Analysis of the genome of the flowering plant Arabidopsis thaliana[J].Nature,2000,408(6814):796-815.
[7]Yu J,Hu S,Wang J et al.A draft sequence of the rice genome(Oryza sativa L.ssp.indica)[J].Sci-ence,2002,296(5565):79-92.
[8]Fleischmann RD,Adams MD,White O et al.Whole-genome random sequencing and assembly of Haemophilus influenzae Rd[J].Science,1995,269(5223):496-512.
[9]艾對元.基因組中重復(fù)序列的意義[J].生命的化學(xué),2008,28(3):343-345.
[10]Steven Henikoff.Unidirectional digestion with exonucleaseⅢcreates targeted breakpoints for DNA sequencing[J].Gene,1984,28(3):351-359.
[11]Eichler EE,Sankoff D.Structural dynamics of eukaryotic chromosome evolution[J].Science,2003,301(5634):793-797.
[12]Volpe TA,Kidner C,Hall IM et al.Regulation of Heterochromatic Silencing and Histone H3 Lysine-9 M ethylation by RNAi[J].Science,2002,297(5588):1833-1837.
[13]Ayoub NA,Garb JE,Tinghitella RM et al.Blueprint for a High-Performance Biomaterial:Full-Length Spider Dragline Silk Genes[J].PLoS ONE,2007,2(6):e514.
[14]Cong-Zhao Zhou,Fabrice Confalonieri,Nadine Medina et al.Fine organization of bombyx mori fibroin heavy chain gene[J].Nucleic acids research,2000,28(12):2413-2419.
[15]Ai-Chun Zhao,Tian-Fu Zhao,Koichi Nakagaki et al.Novel molecular and mechanical properties of egg case silk from wasp spider,Argiope bruennichi[J].Biochemistry,2006,45(10):3348-3356.
[16]Hayashi CY,Lewis RV.Evidence from flagelliform silk cDNA for the structural basis of elasticity and modu1ar nature of spider silks[J].J.Mo1.Bio1,1998,275(5):773-784.
[17]Anderson KE,Waite JH.A major protein precursor of zebra mussel(dreissena polymorpha)byssus:deduced sequence and significance[J].Biol.bull,1998,194(2):150-160.