信 欣,陳麗杰,薛 闖
(大連理工大學(xué) 生命科學(xué)與技術(shù)學(xué)院,遼寧 大連 116023)
1987年,Ishino等[1]在研究大腸埃希菌中負責(zé)堿性磷酸酶同功酶轉(zhuǎn)化的iakkp基因及其側(cè)翼區(qū)的染色體DNA片段的核苷酸序列時,在iap的3′末端側(cè)翼區(qū)域發(fā)現(xiàn)不尋?,F(xiàn)象:5個29 bp高度同源的核苷酸序列分別被32 bp的非同源片段所間隔,由于當(dāng)時在原核生物的其他區(qū)域沒有發(fā)現(xiàn)與這些序列同源的序列,這些序列的生物學(xué)意義無從得知,但該現(xiàn)象引起了學(xué)者們的廣泛關(guān)注。1995年,Mojica等[2]經(jīng)過研究發(fā)現(xiàn),這種串聯(lián)重復(fù)序列(TREPs)在細胞周期中發(fā)揮重要的作用,與復(fù)制子的分配及其功能都有密切關(guān)系。后來,在許多細菌及古生菌中發(fā)現(xiàn)了這種現(xiàn)象。2000年,Mojica等[3]經(jīng)過基因組測序等檢測,在不同的原核生物中發(fā)現(xiàn)了與上述相似的重復(fù)元件,它們的共同特點主要在于布局:被具有恒定長度的中間序列間隔開,故將其看作一個“家族”,并將該“家族成員”稱為Short Regularly Spaced Repeats(SRSRs)。SRSRs通常長24~40 bp,含有高達11 bp的內(nèi)部和末端反向重復(fù)序列,該部分保守區(qū)域被認為可能對其功能有重要意義。直到2002年,Jansen等[4]進一步確定這種重復(fù)序列僅存在于原核生物(細菌和古細菌)中,不存在于真核生物或病毒中,其家族特征是21~37 bp的直接重復(fù),被相似大小的非重復(fù)序列間隔,為了明確表明這一特征以區(qū)分其他重復(fù)類型,將此類序列正式命名為CRISPR,即Clustered regularly interspaced short palindromic repeats(譯為成簇規(guī)律間隔短回文重復(fù)序列),并鑒定出4種CRISPR相關(guān)(cas)基因,指出cas基因與CRISPR基因座具有功能關(guān)系,但該系統(tǒng)的具體功能仍處于探索和研究階段。2005年,Bolotin等[5]發(fā)現(xiàn)CRISPR具有染色體以外來源的間隔物,因此指出CRISPR在細菌基因組中的表觀穩(wěn)定性和廣泛存在可能是由于其對外來DNA侵襲的保護作用;Mojica等[6]則表明CRISPR與免疫靶向外源DNA有關(guān);Pourcel等[7]則稱CRISPR提供了一個新的強大的識別工具。后來,經(jīng)過許多學(xué)者的大量研究,明確了CRISPR的功能:參與細菌對外來遺傳物質(zhì)及噬菌體抵御。因為在遭到入侵后,細菌會整合來自噬菌體等基因組序列作為新的間隔區(qū),使細菌本身對其具有“免疫”性,特異性間隔區(qū)的去除和添加也關(guān)系著細胞的噬菌體抗性表型[8]。CRISPR發(fā)揮作用的方式類似于真核生物中的RNA干擾(RNAi),通過與靶mRNA的堿基互補配對來促進其降解或翻譯終止[9]。2008年,Marraffini等[10]發(fā)現(xiàn)CRISPR-Cas系統(tǒng)可以在其天然細菌或古細菌環(huán)境以外發(fā)揮作用,也就是說,其功能不僅限于噬菌體防御,在保護遺傳多樣性方面具有更廣泛的作用,這一成果也進一步為后期CRISPR-Cas9系統(tǒng)發(fā)展為新的基因編輯工具奠定了基礎(chǔ)。隨著CRISPR系統(tǒng)的結(jié)構(gòu)、功能等特點日漸清楚,2013年該系統(tǒng)被華裔科學(xué)家Cong等和Mail等率先應(yīng)用于人類和哺乳動物小鼠胚胎干細胞的基因編輯中,從此CRISPR-Cas9系統(tǒng)作為一種新的基因組定點編輯技術(shù)進入人們的視線且被廣泛應(yīng)用[11-12]。
CRISPR-Cas系統(tǒng)分為三個不同的功能階段,即適應(yīng)、表達和干擾[13-15]。在適應(yīng)階段,來自可移動遺傳元件MGEs(mobile genetic elements)的短DNA序列作為間隔區(qū)被整合到CRISPR陣列中[8]。在表達階段,CRISPR陣列轉(zhuǎn)錄為一個大的轉(zhuǎn)錄物pre-crRNA,被Cas酶識別并結(jié)合,并通過特異性Cas核酸酶或通過細胞核糖核酸酶III加工產(chǎn)生較小的成熟CRISPR RNAs(crRNAs)[16-17]。在干擾過程中,crRNAs引導(dǎo)Cas核酸酶靶向并切割入侵MGEs中的原體間隔序列[18],從而實現(xiàn)其防御功能(圖1)。
圖1 CRISPR-Cas系統(tǒng)Ⅱ型免疫過程機理Fig.1 The mechanism of the immune process in typeⅡof CRISPR-Cas system
CRISPR-Cas系統(tǒng)分為三種不同類型(I、II和III)。所有類型都包含2個通用基因:cas1和cas2[19]。Cas1是一種沒有序列特異性的金屬依賴型DNAse,可以參與將外源DNA(間隔區(qū))整合到CRISPR中的過程[20-21],Cas2是金屬依賴性核糖核酸內(nèi)切酶,也參與間隔物整合階段[22]。然而,三種類型的CRISPR-Cas系統(tǒng)在基因組中的組成基本上不同,并且分別由各自的特征基因表征。三種類型的特征基因分別是cas3(編碼含有N端HD超家族核酸酶結(jié)構(gòu)域的超家族2解旋酶),cas9(編碼含有預(yù)測的類似RuvC和HNH核酸酶結(jié)構(gòu)域的大蛋白質(zhì))和cas10 (編碼含有與核酸聚合酶和核苷酸環(huán)化酶的掌域同源結(jié)構(gòu)域的蛋白質(zhì))[23]。這三種類型中,CRISPR-Cas系統(tǒng)又可以根據(jù)包括特征基因的不同以及通用基因cas1的系統(tǒng)發(fā)育等因素進一步分類為亞型[19,23]。I型和III型系統(tǒng)具有一些共同特征:有專門的Cas核酸內(nèi)切酶處理pre-crRNA,一旦成熟,每個crRNA參與組裝成能夠識別和切割與其互補的核酸的大型多Cas蛋白復(fù)合體。相比之下,II型系統(tǒng)通過不同的機制處理pre-crRNA,一個與pre-crRNA中重復(fù)序列互補的tracrRNA通過針對特定雙鏈(ds)RNA的核糖核酸酶RNaseⅢ引發(fā)這一過程[24](圖1)。由于結(jié)構(gòu)簡單,II型CRISPR-Cas系統(tǒng)在三者中最先發(fā)展為高效的基因編輯工具。Cas9具有2個酶切結(jié)構(gòu)域:HNH結(jié)構(gòu)域和RuvC結(jié)構(gòu)域,分別負責(zé)靶向DNA序列的2條鏈的切割,當(dāng)同時存在small guide CRISPR-RNA和trans-activating CRISPR-RNA(crRNA:tracrRNA)時是有切割活性的。crRNA分子的間隔區(qū)部分負責(zé)Cas9的特異性,因為其與靶向原體間隔物的一條鏈具有互補性。Cas9介導(dǎo)的切割需要原體間隔物3′端側(cè)翼的短且保守的前間區(qū)序列鄰近基序(即Protospacer adjacent motif,PAM)[25-26],該基序?qū)τ诒苊庾陨砻庖呤侵陵P(guān)重要的:在宿主染色體上CRISPR陣列的間隔區(qū)側(cè)翼PAM基序的缺失能夠防止致死的自我靶向事件的發(fā)生[18]。
目前,CRISPR-Cas9技術(shù)作為一種基因組定點編輯的新方法,已經(jīng)憑借其低成本、易操作、高效率等優(yōu)勢被廣大學(xué)者青睞,在動物(如斑馬魚、小鼠、猴子等)、植物(如擬南芥、水稻等)、真菌(如釀酒酵母等)、細菌(如枯草芽胞桿菌、梭菌等)等生物體內(nèi)均有廣泛應(yīng)用,可用于對功能基因進行篩選、調(diào)控轉(zhuǎn)錄水平和DNA成像等[27-28]。第一個用于細菌的CRISPR-Cas9基因組編輯工具可追溯到2013年,它基于來自化膿性鏈球菌(Streptococcuspyogenes)II-A型CRISPR-Cas系統(tǒng)(Spy-Cas9)的Cas9核酸內(nèi)切酶[29-32]。大約在同一時間,SpyCas9也被廣泛地用于真核生物的基因組編輯[12,29,31-32]。在細菌中,CRISPR-Cas9介導(dǎo)的基因組編輯工具基于2個組分的異源共表達:SpyCas9和crRNA:tracrRNA,目前,合理設(shè)計的嵌合single guide RNA(sgRNA)分子已經(jīng)方便有效地替代了crRNA:tracrRNA[24],SpyCas9-crRNA:tracrRNA(或SpyCas9-sgRNA)復(fù)合物將DSDBs(double stranded DNA breaks)引入目標(biāo)位點,在這些位點有突變的細胞會避免Cas9誘導(dǎo)的DSDBs并存活下來。而在真核生物中,非同源末端連接(NHEJ)修復(fù)機制可以以容易出錯的方式修復(fù)DSDBs,在目標(biāo)位點引入插入或缺失突變并避免細胞死亡。這是因為,與所有真核基因組都能編碼NHEJ系統(tǒng)相反,并不是所有細菌的基因組都能編碼負責(zé)其NHEJ機制的酶[33]。這解釋了與真核生物相比,目前基于CRISPR-Cas9的基因編輯應(yīng)用于原核生物中的實例占少數(shù)的原因。然而,原核染色體的DSDBs可以通過細胞同源重組(HR)系統(tǒng)與染色體/質(zhì)粒的模板結(jié)合,或者由一個異源重組系統(tǒng)和線性單或雙鏈DNA模板來修復(fù)[18,34],盡管如此,對細菌來說,DSDBs的修復(fù)仍然比較困難。2016年,Komor等[35]通過對Cas9蛋白RuvC和HNH兩結(jié)構(gòu)域進行單一或同時突變,得到了僅能切割一條鏈的Cas9n和僅能與靶序列結(jié)合但無切割活性dCas9。Cas9n形成的單鏈切割緩解了細菌修復(fù)DBSBs的壓力,dCas9與靶DNA序列結(jié)合從而阻止其轉(zhuǎn)錄,形成的基因抑制成為一種新的表達調(diào)控方式[18]。目前,基于CRISPR-Cas系統(tǒng)的基因編輯技術(shù)已經(jīng)在許多細菌內(nèi)實現(xiàn)了單基因的刪除與整合、多基因的刪除、單核苷酸修飾等應(yīng)用[28,36]。
CRISPR-Cas9系統(tǒng)在基因編輯中仍存在著一些問題,最突出的問題便是難以預(yù)測的脫靶效應(yīng)(off-targets)。CRISPR-Cas9系統(tǒng)能夠成為基因組編輯的多功能工具,部分原因是由于sgRNA對與之互補的DNA序列的高效靶向性,sgRNA中最關(guān)鍵的識別序列一般為20 nt,當(dāng)其與DNA序列相匹配時,即使該DNA序列含有多余堿基(匹配時形成部分DNA凸起)或缺失堿基(部分RNA凸起)也有可能被識別為靶序列,此時sgRNA會介導(dǎo)Cas9核酸酶對靶標(biāo)位點以外的區(qū)域進行編輯或調(diào)控,從而產(chǎn)生脫靶效應(yīng)[37-38]。也就是說,sgRNA在通過堿基配對來識別目標(biāo)序列時,能夠“容忍”一定程度的不完全匹配,針對sgRNA的“錯配容忍度”,一些學(xué)者進行了相應(yīng)的研究。Jinek等[24]表示,在“種子序列”(緊鄰PAM的8~10個核苷酸)內(nèi)的點突變會消除Cas9核酸酶的裂解,但是該區(qū)域的確切長度是未知的,并且不清楚種子中任何核苷酸的突變是否都可以破壞sgRNA的靶向識別。Cong等[12]稱,鄰近PAM 5′端的11 bp片段內(nèi)單堿基失配就會完全避免Cas9核酸酶對該位點的切割,而更遠處的突變對其靶向活性無影響。Jiang等[30]報道只有緊鄰PAM上游的12個核苷酸中的錯配才能消除切割,其中遠端7~12 bp可耐受大多數(shù)錯配,近端位置的1~6 bp片段中,除了3 bp處只有兩種錯配會不同程度地影響切割外,任何核苷酸的不匹配都會影響切割活性。此外,sgRNA對靶位點的識別除了要與其20 nt按要求相匹配以外,PAM序列也是必不可少的。因為在sgRNA“尋找”目標(biāo)序列時,會快速自動地略過不含PAM序列的區(qū)域,不會檢測其是否符合配對標(biāo)準(zhǔn),更不會被識別為靶位點[39]。并且,對于來自不同物種的Cas9可能會有不同的PAM序列[40]。由此可見,預(yù)防或減少脫靶效應(yīng)的有效方法是通過選擇更合適的PAM位點來確保sgRNA的特異性。
從目前現(xiàn)有的研究成果來看,為了減少脫靶效應(yīng),可以采取以下措施:①在設(shè)計sgRNA時,要盡量避免sgRNA 中20 nt與潛在的脫靶位點序列的堿基配對,尤其在靠近PAM序列的區(qū)域要有2個或2個以上堿基不配對,并且要避免二者有連續(xù)或間隔的4個堿基配對的原則來提高其特異性[41]。目前有一些網(wǎng)站和軟件可以設(shè)計潛在脫靶位點較少或者檢測已有的sgRNA是否存在較大脫靶風(fēng)險,如Cas-OFFinder[42]、CHOPCHOP[43-44]、CRISPRdirect[45]、CRISPRscan[46]和CasOT[47]等。②采用雙切口措施,即利用2個sgRNA介導(dǎo)2個Cas9n蛋白識別并分別切割2條單鏈從而形成DSDBs[48]。③利用FokⅠ核酸酶與dCas9融合形成的二聚體,同時在2條sgRNA的介導(dǎo)下與相互靠近的兩處靶位點結(jié)合,此時FokⅠ會在兩蛋白中間發(fā)揮切割作用[49-50]。④研究發(fā)現(xiàn),噬菌體在進化中會針對細菌的CRISPR防御系統(tǒng)“采取一定的措施”,其編碼的抗CRISPR蛋白(Acrs)可以通過不同策略抑制Cas9,例如AcrIIC1是一種廣譜Cas9抑制劑,通過與幾種分散的直系同源Cas9的保守HNH催化結(jié)構(gòu)域直接結(jié)合來阻止其DNA切割;AcrIIC3抑制單個Cas9的活性,并誘導(dǎo)其形成二聚體,以防止其與靶DNA的結(jié)合[51];AcrIIA4則是僅與Cas9-sgRNA復(fù)合物結(jié)合,而不與Cas9蛋白單獨結(jié)合[52]。并且,CRISPR-Cas9系統(tǒng)精準(zhǔn)識別并編輯目標(biāo)序列的過程中,大約1/2在編輯過程的短時間內(nèi)(數(shù)小時)完成,而在此后,脫靶的識別與編輯逐漸增加,因此如果得知準(zhǔn)確編輯的具體時間,并在此階段結(jié)束后立即加入Acrs,理論上也可以有效地預(yù)防脫靶效應(yīng)的產(chǎn)生。
雖然基于CRISPR-Cas系統(tǒng)的基因組定點編輯技術(shù)仍存在著脫靶效應(yīng)、工具質(zhì)粒不穩(wěn)定、Cas9蛋白毒性作用等問題,但由于其成本低、操作容易、效率高,而且對于待編輯序列要求低等優(yōu)點,該技術(shù)已經(jīng)在動物、植物和微生物基因編輯上均有應(yīng)用,尤其在哺乳動物和人類的多種疾病治療、藥物研究等方面的應(yīng)用越來越成熟[53-55]。然而,目前該技術(shù)在細菌等微生物的基因編輯應(yīng)用方面仍需要更深入的探索。
在許多食品、燃料、藥物、工業(yè)原料等重要產(chǎn)品生產(chǎn)過程中,微生物發(fā)酵法具有環(huán)保、可持續(xù)、產(chǎn)量穩(wěn)定及可控等優(yōu)點,其中應(yīng)用的工程菌株需要具有理想的生成代謝產(chǎn)物的能力,實現(xiàn)這一目標(biāo)最根本的辦法就是對菌株進行代謝通路的改造或調(diào)控。由于某些菌種具有基因組過大或過小、修復(fù)機制不健全等特點,導(dǎo)致使用傳統(tǒng)的基因編輯方法很難實現(xiàn)高效率改造,發(fā)酵產(chǎn)物的產(chǎn)量也難有突破性提高,相比之下,CRISPR-Cas9技術(shù)使其有希望解決上述難題。并且,相信隨著廣大學(xué)者對CRISPR-Cas系統(tǒng)的逐步研究和優(yōu)化,該技術(shù)有望實現(xiàn)對所有菌株基因組進行高效率定點編輯及對任何特定基因進行表達調(diào)控。