李聰 田敬孜 王永杰
(1)上海海洋大學(xué)食品學(xué)院,上海 201306;2)農(nóng)業(yè)農(nóng)村部水產(chǎn)品質(zhì)量安全貯藏保鮮風險評估實驗室(上海),上海 201306;3)青島海洋國家實驗室海洋生物學(xué)與生物技術(shù)功能實驗室,青島 266200)
海洋環(huán)境中,病毒感染和裂解造成了約40%原核細胞生物的死亡[1-2]。為應(yīng)對病毒侵染而產(chǎn)生的生存壓力,原核宿主進化出了多樣的防御系統(tǒng),例如,限制性修飾系統(tǒng)(restriction-modification)、流產(chǎn)感染(abortive infection)[3]以及規(guī)律間隔短回文重復(fù)(CRISPR)系統(tǒng)。在這些防御系統(tǒng)中,CRISPR-Cas 系統(tǒng)是最具適應(yīng)性和特異性的,在細菌和古菌中作為后天免疫系統(tǒng)對抗病毒,以及諸如質(zhì)粒等其他外源性可移動遺傳元件(mobile genetic elements)[4]。目前,CRISPR系統(tǒng)可針對特定DNA或RNA區(qū)域進行核酸酶切割的特點已成功應(yīng)用于特異性編輯動植物基因組。CRISPR 基因座有CRISPR相關(guān)(Cas)基因和一個或多個CRISPR陣列(array)組成,該序列陣列由不同的間隔序列(spacer)和高度保守的重復(fù)序列(repeat)組成。正是這些多變的間隔序列使得CRISPR系統(tǒng)具有適應(yīng)性以及特異性免疫機制。間隔序列是噬菌體或病毒DNA 同源序列的片段,在可移動遺傳元件中被稱為原間隔序列(protospacer),長度通常在26~70 bp。每個間隔序列兩側(cè)都有相同的重復(fù)序列,重復(fù)序列可形成發(fā)夾二級結(jié)構(gòu)[5]。在完整的CRISPR陣列中,間隔序列的數(shù)量2~200不等。
CRISPR 系統(tǒng)發(fā)揮免疫功能時包含了3 個不同的作用階段,適應(yīng)階段、表達階段和干擾階段[6-7]。在適應(yīng)階段,來自病毒或質(zhì)粒等外源DNA 片段作為新的間隔序列被整合到CRISPR陣列中。在表達階段,CRISPR 陣列先轉(zhuǎn)錄為長的RNA 序列(pre-crRNA),再進一步加工產(chǎn)生成熟的短的RNA序列(crRNA)。進入干擾階段后,crRNA 與Cas蛋白形成CRISPR 核糖核蛋白(crRNP)復(fù)合物,特異性靶向同源的病毒或質(zhì)粒核酸序列并對其進行切割。與其他免疫機制類似,CRISPR 系統(tǒng)具有Cas蛋白序列、基因組成和基因組位點結(jié)構(gòu)的多樣性。因此根據(jù)在效應(yīng)階段是否有多個Cas 蛋白參與,CRISPR-Cas系統(tǒng)被分為Class 1和Class 2兩個大的門類(class)、6 個類型(type)、44 個亞型(subtype)[8]。
Wu等[9]在對洋山港(Yangshan Harbor,YSH)水體進行CRISPR系統(tǒng)間隔序列靶標分析時發(fā)現(xiàn),部分間隔序列靶定在病毒序列的DNA 甲基化轉(zhuǎn)移酶上,表現(xiàn)出一定的靶向偏好。為了進一步探索CRISPR間隔序列對某一特定病毒基因的靶標偏好是特例還是代表了一種普遍現(xiàn)象,本文首先建立了公開數(shù)據(jù)庫中原核生物基因組中含有的CRISPR 間隔序列數(shù)據(jù)庫,并基于對洋山港水體宏病毒組原間隔序列的靶標分析,以探尋海洋環(huán)境中CRISPR間隔序列的靶標特異性和多樣性。
本文利用原核細胞間隔序列集對洋山港宏病毒組進行CRISPR-Cas 系統(tǒng)間隔序列靶標分析,各步驟處理分析流程見圖1。
Fig.1 Computational pipeline for Yangshan Harbor spacer targeting analysis
本課題組前期工作已構(gòu)建洋山港(海水樣品采集點見圖S1,采樣點海水理化指標見表S1)宏病毒組數(shù)據(jù)庫[9]。運用軟件Cenote-Taker2[10]對拼接后長度大于1 000 bp的序列進行病毒序列的鑒定和提取。
從NCBI數(shù)據(jù)庫(下載地址:ftp://ftp.ncbi.nlm.nih.gov/genomes/all/)中原核生物所攜帶的CRISPR-Cas 系統(tǒng)中獲得了720 391 條CRISPR 間隔序列。對這些間隔序列進行長度篩選(小于 100 bp)及去除冗余后,構(gòu)建包含396 108 條序列的間隔序列數(shù)據(jù)集。
以獲取的非冗余間隔序列集作為BLAST 查詢序列,對洋山港宏病毒組數(shù)據(jù)庫進行BLAST(identify≥90%,coverage≥90%)[11]掃描獲得匹配(hits)以確定間隔序列所靶標的病毒序列及開放讀碼框(ORF)。
運用Batch CD-Search Tool(默認參數(shù))[12]對間隔序列匹配到的病毒蛋白序列進行功能注釋,而后對所注釋的蛋白質(zhì)功能進行歸納,匯總間隔序列靶標病毒基因的主要功能類群。
基于BLAST 獲得的間隔序列與原間隔序列的匹配信息,確定細菌(或古菌)的基因組序列,并與公開數(shù)據(jù)庫進行比對得到原核宿主的生物學(xué)分類地位。同時,運用在線軟件CRISPRCasTyper(默認參數(shù))[13]對所有包含了可與病毒序列產(chǎn)生匹配的間隔序列宿主基因組內(nèi)CRISPR-Cas 系統(tǒng)進行分型分析。本文所用分析軟件及參數(shù)詳見表S2。
經(jīng)Cenote-Taker2 鑒定,有25 391 條序列被注釋為雙鏈DNA病毒。這些病毒分為11個綱、14個目、21 個科。其中,被注釋為“有尾噬菌體目(Caudovirales)”的序列有21 480條,約占所有可分類序列的84.6%;余下包括“藻類病毒目(Algavirales)”在內(nèi)的感染真核宿主病毒序列及其他暫無分類學(xué)地位病毒序列共3 911 條(圖2)。選取所有原核生物病毒序列進行后續(xù)分析。
Fig.2 The taxonomic composition of dsDNA viral contigs in YSH virome displayed by Krona[14]
經(jīng)BLAST掃描后,共有134個間隔序列與238條病毒序列產(chǎn)生了315個“間隔序列-原間隔序列”間的匹配(表S3),并顯示出“一對多”的靶標特點(圖3)。從圖3a可以看出共有60個間隔序列呈現(xiàn)“一對多”的匹配特點,編號為352826 的間隔序列與16 個來自不同病毒序列的ORF 均產(chǎn)生了匹配(圖3b)。
此外,靶標分析顯示在宿主與其噬菌體間也存在著“一對多”的特點(圖4)。源自宿主Methylomicrobium agile(ATCC35068)基因組CRISPR陣列上的第2個、第35個、第37個以及第52 個間隔序列分別與編號為k_141_215877、k_141_252123、k_141_543810和k_141_446164的4條病毒序列產(chǎn)生了匹配。這意味著該宿主近期對來自屬于長尾病毒科的某一噬菌體建立了免疫,并在其進化早期曾連續(xù)遭受來自屬短尾病毒科病毒和暫未分類地位病毒的侵染。
這些匹配上的間隔序列來自細菌宿主的有127個,古菌宿主的則為7 個。間隔序列靶標的序列中,共有238 條序列被注釋為雙鏈DNA 病毒,包括107 條長尾噬菌體科(Siphoviridae)病毒序列、63 條短尾噬菌體科(Podoviridae)病毒序列、28條肌尾噬菌體科(Myoviridae)病毒序列、3 條埃凱曼病毒科(Ackermannviridae)病毒序列、9 條未分類有尾噬菌體目(unclassifiedCaudovirales)病毒序列以及28 條未分類雙鏈DNA 病毒(unclassified dsDNA virus)序列(表S4)。
Fig.3 Spacers matched virome ORFs in one-to-many models
Fig.4 Prokaryotic genome matched viral contigs in one-to-many models
所有的被間隔序列靶標到的265 個病毒ORF中,共有128 個ORF 可被注釋,約占總數(shù)的48.3%。經(jīng)eggNOG[15-16]比對后,112 個ORF 被分到14 個功能類群中(圖5,表S4)。在該分類中,類群“X(mobilome)”數(shù)量最多,占總數(shù)的44.6%(50/112),類 群 “L(replication,recombination and repair)”和類群“S(function unknown)”數(shù)量相同,各約占總數(shù)的16.1%(18/112),類 群“M(cell wall/membrane/envelope biogenesis)”次之,約占總數(shù)的8.9%(10/112);余下功能類群總數(shù)占比均小于2%。結(jié)果表明,間隔序列特異性靶標病毒特定功能類群的基因以發(fā)揮CRISPR-Cas系統(tǒng)的免疫功能。
Fig.5 Function classes of the viral ORFs targeted by spacer sequences
在所有的“間隔序列-原間隔序列”匹配對中,共有135 個匹配可被注釋,占總數(shù)的42.9%(圖6)。同時,這些匹配中的ORF 又可被概括為兩個大的功能群。第一類為參與病毒DNA 復(fù)制(replication)、轉(zhuǎn)錄(transcription)、修飾(modification)的酶,包括DNA 解旋酶(DNA helicase)、DNA 聚合酶(DNA polymerase)、DNA甲基化轉(zhuǎn)移酶(DNA methyltransferase)等;第二類則與病毒顆粒組裝(packing)和熟化(maturation)有關(guān),例如,終止酶(phage terminase)、門蛋白(portal protein)、衣殼蛋白(phage capsid protein)、尾蛋白(phage tail protein)及少數(shù)其他功能蛋白共計73種(表S5、S6)。
在將“間隔序列-原間隔序列”匹配對與病毒功能基因的保守域(conserved domain)[12,17]比較后發(fā)現(xiàn)72 個匹配的匹配位點在其對應(yīng)病毒功能基因的保守域內(nèi),約占可注釋匹配的53.3%。這一趨勢在某些病毒功能基因中則更為明顯,例如,在14 個靶標至“衣殼蛋白”的匹配中,有12 個靶標位點位于其保守域內(nèi);在19 個靶標為“終止酶”的匹配中,有12 個靶標位點位于其保守域內(nèi)(圖6)。
針對間隔序列靶標最高的終止酶,本文對其匹配位點又進行了更為細致的分析。結(jié)果發(fā)現(xiàn),所有被靶標的終止酶分為6 個超家族(superfamily)即“Terminase_1”、“Terminase_2”、“Terminase_3”、“Terminase_6”、“Terminase_GpA” 和 “17_Superfamily”,并 以 “Terminase_3” 和“Terminase_6”為主(圖7)。
Fig.6 Specific viral genes and their conserved domains preferentially targeted by spacer sequences
Fig.7 Gene functional domain clusters of viral terminase superfamilies,targeted by spacer sequences
同時,值得注意的是,除編號為k141_180474_1 的ORF 因長度較短無法鑒別外,其余17個終止酶的匹配位點均出現(xiàn)在了終止酶大亞基(TerL)中(表1)。
315個間隔序列-原間隔序列間的匹配中,共有來自102 個原核CRISPR 陣列的134 個間隔序列,其中7個來自古菌宿主,95個來自細菌宿主。在這7 個古菌中有6 個為泉古菌門(Crenarchaeota)下的熱變形菌(Thermoprotei)以及一個廣古菌門(Euryarchaeota)下的甲烷桿菌(Methanobacteria);而在細菌中占比最多的門類為變形菌門(Proteobacteria),所占比例約為49.5%(47/95),余下主要細菌門類及其占比分別為:放線菌門(Actinobacteria)約占26.3%(25/95)、厚壁菌門(Firmicutes)約 占13.7%(13/95)、梭桿菌門(Fusobacteria)約占4.2%(4/95)以及少數(shù)其他門類細菌約占6.3%(6/95)。
基于Cas及其同源蛋白和重復(fù)序列的比對,對102個原核宿主中的CRISPR-Cas基因座進行分析。除了20個原核宿主因基因組不完整未能找到Cas基因簇外,其余82個原核宿主基因組內(nèi)CRISPR-Cas系統(tǒng)均被確認并對其進行了分型分析(表S7)。分型結(jié)果表明,CRISPR-Cas 系統(tǒng)門類、類型和亞型的分布趨勢明顯(圖8)。值得注意的是,屬于Class 1 門類下的Type_I型系統(tǒng)的數(shù)量要遠高于其他類型系統(tǒng),占總數(shù)的89.0%(73/82)。在這些Type_I型系統(tǒng)中,Type_I-E 亞型多達39 個,且分布最為廣泛。在細菌和古菌群中,Class 1 類系統(tǒng)均比Class 2類系統(tǒng)更豐富。
Fig.8 Diversity of the types and subtype of CRISPR-Cas system identified in the archaeal and bacterial phyla with protospacer matching
CRISPR-Cas 系統(tǒng)是原核宿主在抵抗外源性遺傳物質(zhì)中發(fā)揮重要作用的獲得性免疫系統(tǒng),在其系統(tǒng)基因座中所包含的病毒片段是系統(tǒng)抵抗外源性遺傳物質(zhì)反復(fù)侵入的“免疫記憶”[18]。本研究基于原核生物基因組間隔序列集反向搜索洋山港水域表層水中的病毒,這一方法對于病毒宿主進行預(yù)測可在宿主科(family)水平達到97%的準確性[11]。通過該方法為238 條病毒序列確定了其對應(yīng)的原核宿主,這些宿主絕大多數(shù)為海洋環(huán)境中常見的細菌,僅有少量的海洋古菌。推其原因,這可能與公共數(shù)據(jù)庫中關(guān)于古菌基因組特別是全基因組數(shù)量較少有關(guān)。在今后類似的研究工作中應(yīng)及時更新間隔序列數(shù)據(jù)集,特別是來自古菌宿主中的間隔序列集以擴大對病毒-宿主間互作關(guān)系的認識。同時,僅在唯一一條真核藻細胞病毒(Mimiviridae)序列上發(fā)現(xiàn)其存在與間隔序列產(chǎn)生潛在匹配的片段。這表明借助間隔序列與原間隔序列匹配可真實反映自然環(huán)境下病毒與其原核宿主的侵染關(guān)系。
原間隔序列是病毒基因上的一小段核酸片段,作為間隔序列被整合到CRISRP 陣列中。在Type_I型和Type_II型CRISPR-Cas系統(tǒng)中,被稱為原間隔序列相鄰基序(protospacer adjacent motif,PAM)的序列對間隔序列的獲取極為重要[5,19]。然而,考慮到PAM 長度及序列多樣性,在一個病毒的基因組中可能存在著成百上千個潛在的PAM 位點。因此,雖然PAM在確定CRISPR-Cas系統(tǒng)靶標基因的選擇上發(fā)揮了作用,但具體是什么確定了具體基因的選擇及在CRISPR陣列上的保留仍然是不確定的。借助所發(fā)現(xiàn)到的對于病毒宏基因組中特定功能基因的選擇,可以成為原核宿主在面對生存壓力時有效免疫最簡單的解釋。在原核宿主基因組中發(fā)現(xiàn)的CRISPR間隔序列成功降低了病毒感染和裂解對細菌和古菌種群的影響。本研究中的相關(guān)數(shù)據(jù)也提供了那些對病毒侵染和裂解原核宿主過程中至關(guān)重要基因的證據(jù)。
間隔序列與病毒ORF 能夠以一對多或多對一的方式產(chǎn)生匹配,即部分CRISPR-Cas 系統(tǒng)針對多個不同的病毒產(chǎn)生免疫或多個不同的CRISPR-Cas系統(tǒng)針對單一病毒個體的特定基因發(fā)揮免疫功能。第一種情況下間隔序列針對多個不同的基因所共有的片段進行靶標,這一方式提升了CRISPR-Cas 系統(tǒng)的免疫范圍。而在后一種情況下,某一特定功能類群的病毒基因似乎被CRISPR-Cas系統(tǒng)高度針對,這些被“過度”靶標的ORF 也表明了它們對病毒復(fù)制至關(guān)重要,因此成為了原核宿主CRISPR免疫的特異性靶點。
在CRISPR陣列上處于不同位置的間隔序列代表著宿主第一次識別并切割獲取原間隔序列的先后時間[18]。在目前已知的所有類型CRISPR中,最新獲得的間隔序列總是被插入整合至CRISPR陣列的最前端,即緊鄰Leader 序列的第一個間隔序列位點[20]。這樣的排列方式保證了針對近期侵染原核宿主噬菌體的間隔序列將被優(yōu)先轉(zhuǎn)錄成為 Pre-crRNA,在被加工后參與Cas蛋白形成CRISPR核糖核蛋白聚合物參與免疫活動。由于CRISPRCas 系統(tǒng)的可遺傳性[5,18],處在CRISPR 陣列上遠離Leader端的那些間隔序列可能“繼承”其母細胞(mother cell)。連續(xù)多次識別并獲得源自不同病毒的原間隔序列并將其整合在CRISPR陣列之中意味著原核宿主曾在較短的時間內(nèi)接連遭受侵染并成功建立獲得性免疫。
噬菌體終止酶是一類多功能的寡聚蛋白,廣泛存在于各種雙鏈DNA病毒中[21]。在噬菌體裂解周期中,DNA 的包裝是一個極為重要的過程,末端酶通過切斷DNA連接體以啟動DNA包裝過程,并為整個過程提供大量動力ATP 以驅(qū)動DNA 壓縮至狹小的頭部衣殼蛋白中[22-23]。TerL 亞基作為終止酶的關(guān)鍵亞基具有ATP 酶、核酸內(nèi)切酶和DNA 解旋酶活性,DNA 包裝驅(qū)動需要核酸酶活性將噬菌體基因組進行剪切,其切割活性的發(fā)揮高度依賴于ATP酶供能,核酸酶或ATP酶任意缺失或突變均不能表現(xiàn)功能活性。門蛋白同樣也參與到DNA 包裝過程中,不僅影響了包裝效率同時也決定了進入衣殼蛋白中病毒基因組的大小,也能保證包裝極性,防止DNA從衣殼蛋白中逸出[23]。衣殼蛋白作為外殼,對壓縮進入其中的核酸起保護作用。因此,針對參與病毒包裝過程重要階段的相關(guān)功能基因的特異性靶標,保證了對噬菌體復(fù)制的“致命”打擊。同時,TerL 廣泛分布于各類有尾噬菌體中[21],特異性的靶標這一特定亞基意味著可為宿主提供高效廣泛且長效的免疫保護。
為何CRISPR-Cas 系統(tǒng)的間隔序列傾向于靶標在此階段發(fā)揮作用的病毒功能基因?我們認為這可能與宿主在對于容忍病毒侵染和抵抗病毒入侵之間選擇有關(guān)。宿主和病毒之間的競爭在無時無刻地進行著[24],在這場“競賽”中宿主需要不斷提升自己的抵抗力,而病毒則需要不斷提升入侵的能力。除了常見的排斥型抵抗——對外源性DNA 進行靶向裂解(例如CRISPR-Cas 系統(tǒng)、R-M 系統(tǒng)),也存在著另一種抵抗機制,“接納性免疫”[25]。原噬菌體整合到宿主的基因組中,此時宿主進入溶原態(tài);溶原體抑制體內(nèi)噬菌體DNA 的轉(zhuǎn)錄,進而使得噬菌體DNA 無法表達,從而產(chǎn)生針對特定噬菌體的同源病毒重復(fù)感染的抵抗力。噬菌體在將DNA 整合到宿主基因組上時可能會造成宿主基因的突變。而這種突變方式是宿主的一種進化動力,以此豐富宿主基因的多樣性。無論是溫和噬菌體還是烈性噬菌體,它們的最終目的是要在宿主體內(nèi)完成DNA 的復(fù)制,以及衣殼蛋白的合成。而對于噬菌體而言,一旦裝配階段受阻,則無法形成具有侵染能力的噬菌體,也意味著無法行使生物功能,進而被宿主“囚禁”在其體內(nèi),最終被分解成單個的核苷酸以及氨基酸被宿主重新利用。這樣的方式對宿主而言是最“經(jīng)濟”的,被噬菌體所掠奪的參與生命活動的“原材料”最終都留在了自己體內(nèi)。因此,宿主采取這樣的方式進行免疫的同時也在利用入侵的噬菌體。同時,不釋放病毒意味著對同一種群中的其他宿主細胞提供了保護。
DNA 甲基化轉(zhuǎn)移酶作為原核生物限制性修飾系統(tǒng)的重要組成部分也出現(xiàn)在了間隔序列靶標功能基因的高頻匹配中。對于病毒DNA 甲基化轉(zhuǎn)移酶的特異性靶標可以看作一個典型的原核宿主“協(xié)同免疫”。在同時擁有限制性修飾系統(tǒng)和CRISPR-Cas系統(tǒng)的宿主中,當攜帶編碼DNA 甲基化轉(zhuǎn)移酶的病毒入侵時,病毒通過對自身基因的甲基化來躲避限制性修飾系統(tǒng)的免疫[26];但是,若在病毒在向宿主體內(nèi)注射DNA時,CRISPR-Cas系統(tǒng)將迅速對病毒基因組上的DNA 甲基化酶基因進行免疫識別并切割,使病毒無法對自身基因組甲基化修飾,宿主的限制性修飾系統(tǒng)將徹底清除殘余的病毒DNA片段,以保證免疫效果。
此外,CRISPR間隔序列所靶標的ORF中超過40%已確定其功能,這表明與非靶向基因相比,被CRISPR所靶標的基因更有可能具有確定的功能作用。余下未知功能CRISPR的靶標基因一直以來被認為是病毒遺傳的“暗物質(zhì)(dark matter)”[27],但可以肯定的是這一類被CRISPR所靶標的未知病毒暗物質(zhì)基因可能在病毒侵染和裂解過程中發(fā)揮重要作用。
同時本文發(fā)現(xiàn),在所有產(chǎn)生匹配的238條雙鏈DNA 病毒序列中有210 條序列屬于有尾噬菌體病毒,但是僅有5個間隔序列靶標在了編碼噬菌體尾纖維蛋白的基因上,這一頻率低于預(yù)期。尾纖維蛋白結(jié)構(gòu)相對簡單,在編碼水平上選擇壓力小,也意味著編碼尾纖維蛋白的基因具有較高的多樣性。事實上,噬菌體尾纖維基因不僅是多變的,同時還可以通過逆轉(zhuǎn)錄因子進行靶向突變,以擴大病毒宿主范圍[28-29]。也許正是這樣的原因使得CIRPSPR-Cas系統(tǒng)放棄了以此類基因為主要靶標對象,轉(zhuǎn)而選擇其他基因。
值得一提的是,與非保守域相比某些病毒功能基因的保守域更容易被CRISPR 間隔序列所靶標,對于這一現(xiàn)象本文認為,相較于非保守域,病毒功能基因的保守域不易發(fā)生基因突變,使間隔序列可為原核宿主提供長效的保護[19]。同時,病毒功能基因的保守域廣泛存在于不同的病毒種群中,例如終止酶大亞基中的核酸內(nèi)切酶結(jié)構(gòu)域和ATP 酶結(jié)構(gòu)域,針對病毒功能基因保守域特異性靶標可為宿主提供較大的免疫范圍。無論是擴大免疫范圍還是延長免疫的時長,CRISPR-Cas 系統(tǒng)針對病毒功能基因保守域的特異性免疫對于原核宿主而言是一種十分“實惠”的選擇,這樣的選擇將大大降低因頻頻獲取新的間隔序列來保證免疫效果所帶來的負擔,即因新的間隔序列增加而導(dǎo)致CRISPR陣列長度的增加。
在通過CRISPR 靶標而確定的102 個原核宿主中有20 個由于基因組信息不完整未能對其所攜帶的CRISPR-Cas 系統(tǒng)進行分型,余下82 個宿主的CRISPR-Cas 系統(tǒng)均得以分型確認[8]。結(jié)果表明,CRISPR-Cas 系統(tǒng)在細菌及古菌中的分布是不均勻的,特定的CRISPR-Cas 系統(tǒng)門類、類型和亞型在分布上呈現(xiàn)出了明顯的趨勢。例如,Class 2 門類下的Type_II型、Type_V 型只存在于細菌宿主中(本次研究結(jié)果中并未發(fā)現(xiàn)Type_VI型系統(tǒng))。出現(xiàn)這一現(xiàn)象的原因可歸因于RNaIII酶在古菌中的缺失,RNaIII是一種廣泛存在于細菌中的核糖核酸酶,負責Type_II型和Type_V型系統(tǒng)及其亞型的前crRNA(pre-crRNA,加工成熟后引導(dǎo)Cas 蛋白定位至免疫靶點)處理。而Type_I型系統(tǒng)在宿主中的分布最為廣泛,尤其是對Type_I-E 亞型的分析表明,相較于其他CRISPR-Cas 系統(tǒng),Type_I-E亞型的系統(tǒng)進化十分緩慢,其CRISPR陣列可在103~105年內(nèi)保持不變[30]。這一研究結(jié)果將幫助人們更好地理解為何CRISPR-Cas 系統(tǒng)的間隔序列更多的靶標在了病毒功能基因的保守域中。即緩慢的進化意味著更少的機會獲得新的間隔序列,這就要求現(xiàn)有的間隔序列應(yīng)盡可能的在較長的時間內(nèi)發(fā)揮免疫作用,因此在不易產(chǎn)生突變的病毒功能基因保守域似乎是個很好的選擇。本研究發(fā)現(xiàn),I型系統(tǒng)的數(shù)量遠高于其他型系統(tǒng),除病毒種類及其相對豐度在一定程度上可能會影響其差異外,其他特點還有以下幾點。a.I型系統(tǒng)是一種較為活躍的CRISPR-Cas系統(tǒng)。該型系統(tǒng)具有較高的獲取新的間隔序列的頻率(包括直接識別MGE 上的原間隔序列和在已失效的原間隔序列上識別新的原間隔序列),保證可對宿主提供及時有效的免疫保護[19]。b.I型系統(tǒng)對于間隔序列與原間隔序列間的錯配容忍度較高。與其他型系統(tǒng),特別是II型系統(tǒng)相比,I型系統(tǒng)對于原間隔序列及間隔序列間發(fā)生錯配后仍可免疫的容忍度較高,只需保證原間隔序列上的“種子片段”(seed sequence)未發(fā)生突變即可完成對原間隔序列的識別及引導(dǎo)Cas 蛋白對MGE 進行免疫作用[31-32]。c.I型系統(tǒng)是一種由早期自適應(yīng)免疫系統(tǒng)(ancestral adaptive immunity system)進化而來且高度分化的CRISPR-Cas系統(tǒng)。I型系統(tǒng)的進化源頭為早期自適應(yīng)免疫系統(tǒng),經(jīng)過長期演化,逐漸形成了I型以及III型系統(tǒng);同時,由于結(jié)構(gòu)簡單(相較于III型系統(tǒng)而言,I型系統(tǒng)Cas基因簇較短)個別Cas蛋白的加入就可使I型系統(tǒng)分化成為不同亞型靈活地為原核宿主提供免疫保護[33]。d.I型系統(tǒng)的類轉(zhuǎn)座子結(jié)構(gòu)幫助其水平轉(zhuǎn)移。在I型系統(tǒng)Cas1以及Cas2串聯(lián)基因的兩端有TIRs(terminal inverted repeats)結(jié)構(gòu),這種典型的轉(zhuǎn)座子結(jié)構(gòu)幫助其在原核宿主間可廣泛地進行水平轉(zhuǎn)移[25]。顯然,靈活多變的免疫機制,具有可傳播的特性和長期以來的進化選擇,使得I型系統(tǒng)在原核宿主中得以廣泛分布。這一結(jié)果與Makarova等[8]關(guān)于現(xiàn)有數(shù)據(jù)庫中 CIRSPR-Cas系統(tǒng)分布的研究結(jié)果相一致。
本研究基于公共數(shù)據(jù)庫中CRISPR 間隔序列集,對洋山港港區(qū)表層水宏病毒組進行間隔序列-原間隔序列的匹配分析,結(jié)果表明特定的病毒功能基因被CRISPR-Cas 系統(tǒng)特異性的靶標。這些被靶標的基因在宿主與病毒間的“軍備競爭”中表現(xiàn)出了病毒群體的遺傳“缺陷”。還發(fā)現(xiàn),間隔序列可以識別自然環(huán)境中病毒群體中最為重要的基因及其最為重要的片段(保守域)。這些基因或功能域可用于進一步探索CRISPR-Cas 系統(tǒng)以及病毒與宿主的共進化機制。此外,基于anti-CRISPR 蛋白的結(jié)構(gòu)及功能特點,推測anti-CRISPR 是伴隨著CIRSPR-Cas 系統(tǒng)的形成而形成。同時隨著CRISPR-Cas進化分化,anti-CRISPR也朝著亞型特異性的方向進行分化。
附件請見本文網(wǎng)絡(luò)版(http://www.pibb.ac.cn或http://www.cnki.net):
PIBB_20220025_FigS1.jpg
PIBB_20220025_TableS1.xlsx
Table 1 Targeting sites of viral terminase
PIBB_20220025_TableS2.xlsx
PIBB_20220025_TableS3.xlsx
PIBB_20220025_TableS4.xlsx
PIBB_20220025_TableS5.xlsx
PIBB_20220025_TableS6.xlsx
PIBB_20220025_TableS7.xlsx