亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Class2 CRISPR-Cas 系統(tǒng)發(fā)掘及分析方法

        2021-04-15 01:06:26朱曉菲黃嬌媚
        熱帶生物學(xué)報(bào) 2021年1期
        關(guān)鍵詞:馬爾科夫間隔標(biāo)志

        朱曉菲,黃嬌媚,原 昊,萬 逸,3

        (1.海南大學(xué) 海洋學(xué)院/南海海洋資源利用國家重點(diǎn)實(shí)驗(yàn)室,???570228; 2.海南大學(xué) 信息與通信工程學(xué)院,???570228; 3.中國科學(xué)院 海洋研究所/山東省腐蝕科學(xué)重點(diǎn)實(shí)驗(yàn)室,山東 青島 266071)

        Clustered Regularly Interspaced Short Palindromic Repeats-associated gene(CRISPR-Cas)全稱為成簇的規(guī)律間隔的短回文重復(fù)序列,最初于1987 年在大腸桿菌中發(fā)現(xiàn)。ISHINO Y 等[1]在研究大腸桿菌iap(堿性磷酸酶)基因時(shí),在其編碼區(qū)3′端側(cè)翼序列中發(fā)現(xiàn)長度為29 bp 高度保守的重復(fù)核苷酸序列,重復(fù)序列的間隔為32 bp。隨著對(duì)該序列的深入研究,發(fā)現(xiàn)該重復(fù)序列廣泛存在于古細(xì)菌和細(xì)菌的基因組中,直到2002 年JANSEN R 正式命名該重復(fù)序列為CRISPR 序列,除此之外,該研究還發(fā)現(xiàn)CRISPR基因的側(cè)翼序列中有4 種同源基因(CRISPR-associated gene):cas1、cas2、cas3、cas4,這些基因編碼一些功能蛋白,與CRISPR有功能相關(guān)性[2]。隨著深入研究,CRISPR-Cas 系統(tǒng)的功能的免疫功能逐漸被發(fā)現(xiàn),CRISPR-Cas系統(tǒng)類似于真核生物的RNA 干擾(RNAi)[3],后經(jīng)證實(shí)是細(xì)菌對(duì)噬菌體等病原生物的獲得性免疫作用[4]。CRISPR-Cas 系統(tǒng)在細(xì)菌對(duì)抗噬菌體侵入時(shí)分為3 個(gè)階段。第1 階段為適應(yīng)階段:在噬菌體侵入細(xì)菌時(shí),Cas1-Cas2 蛋白復(fù)合物根據(jù)前間隔序列臨近基序(PAM)位點(diǎn)將噬菌體靶DNA(protospacer)切割并將這段靶DNA 序列插入到CRISPR 重復(fù)序列5′端的末尾,產(chǎn)生新的間隔序列(spacer)。第2 階段是基因的表達(dá)和處理階段,間隔序列(spacers)和CRISPR 重復(fù)序列共同進(jìn)行轉(zhuǎn)錄,形成初轉(zhuǎn)錄產(chǎn)物pre-CRISPR RNA(pre-crRNA),后由Cas 蛋白復(fù)合物對(duì)轉(zhuǎn)錄初產(chǎn)物進(jìn)行切割,得到成熟的包含間隔序列(spacers)和重復(fù)序列的CRISPR RNAs(crRNAs)。不同的CRISPR-Cas 系統(tǒng)對(duì)pre-crRNA 的處理存在差異,有些由多個(gè)Cas 蛋白亞基處理,有的由單個(gè)Cas 蛋白處理,有的借助于宿主細(xì)胞的RNase。第3 階段為干擾階段,在guide RNA(crRNA 和tracrRNA 合成的引導(dǎo)RNA)的引導(dǎo)下,利用單獨(dú)Cas 蛋白或是Cas 蛋白復(fù)合物對(duì)靶DNA 或RNA 進(jìn)行切割。第一類CRISPR-Cas 系統(tǒng)在切割靶鏈時(shí)需要多個(gè)Cas 蛋白復(fù)合體的參與,而第二類CRISPR-Cas 系統(tǒng)在切割靶DNA 或RNA 時(shí)只需要單個(gè)Cas 蛋白加guide RNA(gRNA)即可完成對(duì)靶鏈的切割。因此,第二類CRISPR-Cas 系統(tǒng)成為現(xiàn)在基因編輯中重要的工具。

        1 CRISPR-Cas 的發(fā)掘方法

        Cas 蛋白作為CRISPR-Cas 系統(tǒng)中的切割靶鏈的效應(yīng)部分,是尋找新CRISPR-Cas 系統(tǒng)的重點(diǎn)。目前,基于生物信息學(xué)手段發(fā)掘Cas 系統(tǒng)主要分為2 種方法,一種是基于對(duì)已知Cas序列建立隱馬爾科夫模型(Hidden Markov Model,HMM)對(duì)細(xì)菌和古細(xì)菌基因組進(jìn)行分析(圖1a)。另一種是基于CRISPRCas 系統(tǒng)中的標(biāo)志序列對(duì)細(xì)菌和古細(xì)菌的基因組進(jìn)行Cas基因的查找(圖1b)。

        圖1 基于生物信息學(xué)手段發(fā)掘Cas 系統(tǒng)的2 種方法Fig.1 Two methods to explore CRISPR-Cas system based on bioinformatics

        對(duì)細(xì)菌和古細(xì)菌的CRISPR-Cas 系統(tǒng)發(fā)掘,所有的生物信息學(xué)分析都需要基于它們的基因組。CRISPR-Cas 系統(tǒng)廣泛存在于細(xì)菌和古細(xì)菌中,在收集數(shù)據(jù)時(shí)需要分為兩部分。一類是基因組數(shù)據(jù)庫的收集,可以通過NCBI,EBI 等數(shù)據(jù)庫進(jìn)行細(xì)菌和古菌的全基因組數(shù)據(jù)收集和批量下載[5]。第二類是宏基因組,宏基因組由于數(shù)據(jù)庫龐大,在Cas 酶發(fā)掘中收集方式多樣,多數(shù)通過各種野外研究發(fā)現(xiàn)的數(shù)據(jù)進(jìn)行基因組分析[6],宏基因組數(shù)據(jù)需要組裝后才可以進(jìn)行下一步分析。

        1.1 建立隱馬爾科夫模型進(jìn)行CRSPR-Cas 的生物信息學(xué)發(fā)掘

        1.1.1 讀取基因組開放閱讀框(Open Reading Frame, ORF)開放閱讀框是指DNA 序列中具有編碼蛋白質(zhì)潛能的序列,從起始密碼子開始,終止于終止密碼子。通過讀取開放閱讀框,可以從細(xì)菌和組裝好的古細(xì)菌基因組中識(shí)別出所有可以編碼蛋白的潛在基因序列,目前應(yīng)用于識(shí)別原核生物基因組開放閱讀框頻率較高的預(yù)測軟件有Prodigal[7]、Glimmer[8]和GeneMark[9]等,軟件優(yōu)缺點(diǎn)對(duì)比見表1。其中,Prodigal 是在發(fā)掘新Cas 酶中明確提及使用過的開放閱讀框識(shí)別軟件[10]。準(zhǔn)確的識(shí)別開放閱讀框并對(duì)開放閱讀框的位置進(jìn)行準(zhǔn)確定位有助于后續(xù)對(duì)CRISPR 序列定位后二者共同分析。

        表1 ORF 預(yù)測軟件對(duì)比Tab.1 ORF prediction software comparison

        1.1.2 對(duì)已知的Cas 酶建立隱馬爾科夫模型隱馬爾科夫模型是一種統(tǒng)計(jì)分析模型,近年來被廣泛應(yīng)用到各種生物信息學(xué)分析中,主要用于描述某一核苷酸序列從其特定的祖代遺傳而來的概率。根據(jù)現(xiàn)有的序列通過計(jì)算機(jī)對(duì)序列的分析建立隱馬爾科夫模型,進(jìn)而推測出最有可能出現(xiàn)的祖代序列[11]。

        在用HMMER 軟件建立隱馬爾科夫模型之前,需要對(duì)準(zhǔn)備建立模型的已知Cas 蛋白序列進(jìn)行多序列比對(duì)。目前應(yīng)用于多序列比對(duì)有以下幾種軟件,分別為CLUSTAL W、MUSCLE、T-COFFEE、DIALING2、MAFFT 等,軟件速度MUSCLE 最快,對(duì)比準(zhǔn)確性MUSCLE 最高[12]。通過對(duì)已知Cas 酶的多序列比對(duì),得到STOCKHOLM(sto)文件,作為接下來的模型建立輸入文件。

        HMMer 是基于隱馬爾科夫模型建立的生物信息學(xué)分析軟件[13],有網(wǎng)頁版和本地版,通過hmmbuild指令和Cas 蛋白多序列比對(duì)結(jié)果輸入文件建立已知Cas 蛋白的隱馬爾科夫模型,hmmsearch 指令和建立的Cas 蛋白模型輸入文件可以對(duì)預(yù)測出的開放閱讀框文件進(jìn)行序列分析,進(jìn)而推測出可能是Cas 蛋白的編碼序列。

        1.1.3 CRISPR 序列識(shí)別CRISPR 序列包含間隔序列和重復(fù)序列,是CRISPR-Cas 系統(tǒng)中另一個(gè)重要的組成部分。應(yīng)用于發(fā)掘CRISPR-Cas 系統(tǒng)的目前有3 種,分別為CRISPRDetect[14]、CRISPR Finder[15]和PILER-CR[16]。其中,CRISPR Finder 應(yīng)用最廣[6,10,17],可以準(zhǔn)確識(shí)別出長度短的CRISPR 序列,在升級(jí)后不止可以識(shí)別CRISPR 序列,還可以通過自帶的隱馬爾科夫模型對(duì)輸入的序列進(jìn)行Cas 蛋白的預(yù)測[18]。識(shí)別CRISPR 序列軟件優(yōu)缺點(diǎn)對(duì)比見表2。

        表2 CRISPR 序列識(shí)別軟件對(duì)比Tab.2 Comparison of CRISPR sequence recognition software

        1.1.4 篩選在對(duì)基因組進(jìn)行生物信息學(xué)分析后,得到軟件預(yù)測出的Cas 蛋白和CRISPR 序列。對(duì)得到的候選序列進(jìn)行篩選,篩選條件有以下3 條:1)同時(shí)含有Cas1 和CRISPR 序列;2)與Cas1 相鄰的10 個(gè)ORF 之一包含1 個(gè)大于800 個(gè)氨基酸的未被鑒定的蛋白序列(通過隱馬爾科夫模型預(yù)測出的);3)在同一基因組列中沒有已經(jīng)被鑒定出的包含Cas基因的干擾模塊[10]。

        1.2 以Cas1 和CRISPR 序列為標(biāo)志序列進(jìn)行CRISPR-Cas 系統(tǒng)的生物信息學(xué)發(fā)掘JANSE 等人的研究表明,有些CRISPR 序列上下游無編碼Cas 的序列,有些編碼Cas 酶的序列上下游無CRISPR 序列[2],因此,以Cas1 蛋白和CRISPR 序列為標(biāo)志序列分別進(jìn)行識(shí)別可以有效搜尋到所有候選序列。此種方法是根據(jù)已經(jīng)發(fā)現(xiàn)的Class2 CRISPR-Cas 系統(tǒng)的結(jié)構(gòu)特征進(jìn)行發(fā)掘。

        1.2.1 選取標(biāo)志序列對(duì)數(shù)據(jù)庫進(jìn)行搜索由于Cas1 序列在CRISPR-Cas 系統(tǒng)中高度保守[19],且是在CRSIPR-Cas 系統(tǒng)中普遍存在的編碼序列,因此根據(jù)Cas1 序列進(jìn)行BLAST 可以有效找出可能含有CRISPR-Cas 系統(tǒng)的基因組。另一種可選的標(biāo)志序列為CRISPR 序列,CRISPR 序列是CRISPR-Cas 系統(tǒng)中的重要組成部分,因此也可以作為準(zhǔn)確識(shí)別CRISPR-Cas 系統(tǒng)的序列,為了準(zhǔn)確識(shí)別CIRSPR 序列,可以選取上述CRISPR 識(shí)別軟件,通過CRISPR 序列找出的候選序列是通過Cas1 進(jìn)行序列篩選的2 倍[20],這說明很多CRISPR-Cas 系統(tǒng)是缺乏適應(yīng)模塊的。

        1.2.2 篩選對(duì)BLAST 識(shí)別出的Cas1 序列或CRISPR 識(shí)別軟件識(shí)別出的CRISPR 序列的上下游進(jìn)行分析,尋找是否有其他編碼Cas 蛋白。使用GeneMark 軟件中MetaGeneMark_v1.mod 模型[20]對(duì)序列進(jìn)行開放閱讀框識(shí)別[21]。

        對(duì)于以Cas1 為標(biāo)志序列識(shí)別出的序列,通過CRISPR-Cas 分類標(biāo)準(zhǔn)來檢查其上下游是否存在其他的Cas基因[22]。對(duì)于以CRISPR 為標(biāo)志識(shí)別出的序列,在識(shí)別出的CRISPR 序列的上下游20 kb[23](有些研究是10 kb[23])以內(nèi)識(shí)別可能編碼蛋白的序列。由于Cas9 蛋白和Cpf1 蛋白都由大于1 000 個(gè)氨基酸構(gòu)成[24?26],所以選擇氨基酸殘基大于500 的編碼序列(有些研究是大于700 aa[23]或750 aa[5]作為新Cas 蛋白的候選序列進(jìn)行下一步分析)。

        確定新Cas 蛋白與標(biāo)志序列和CRISPR 的位置關(guān)系,新Cas 蛋白需要在標(biāo)志序列(Cas1)的4 個(gè)基因以內(nèi)。多數(shù)的CRISPR-Cas 系統(tǒng)中Cas 蛋白與CRISPR 序列共同出現(xiàn)的頻率很高,限制新的Cas 蛋白至少有50%[23]或70%[5]位于CRISPR 序列上下游20 kb 以內(nèi)。

        2 對(duì)識(shí)別出的Cas 蛋白序列和CRISPR 序列進(jìn)行進(jìn)一步分析

        在發(fā)掘出新的CRISPR-Cas 系統(tǒng)后,需要對(duì)其進(jìn)行生物信息學(xué)分析,以便了解Cas 蛋白的理化性質(zhì)并進(jìn)行家族分析。對(duì)CRISPR 序列進(jìn)行分析可以了解該系統(tǒng)對(duì)抗的入侵質(zhì)粒噬菌體等,并有助于研究其切割位點(diǎn)。對(duì)識(shí)別出的Cas 蛋白序列和CRISPR 序列進(jìn)行分析流程見圖2。

        圖2 對(duì)識(shí)別出的Cas 蛋白序列和CRISPR 序列進(jìn)行分析流程示意圖Fig.2 Schematic diagram of the analysis process of the identified Cas protein sequence and CRISPR sequence

        2.1 對(duì)Cas 蛋白的進(jìn)一步分析

        2.1.1 Cas 蛋白聚類、同源性分析對(duì)識(shí)別出的蛋白進(jìn)行聚類分析,聚類分析的目的是根據(jù)已有的蛋白序列分析預(yù)測新蛋白質(zhì)序列[27],并對(duì)研究蛋白質(zhì)的起源和家族分析有重要意義[28],將Orthomcl[29]和MCL[30]或作為新Cas 蛋白的聚類分析軟件。

        為了去除基因組中可能造成偏差的聚類序列,對(duì)預(yù)測出的Cas 蛋白分析,通過發(fā)掘出的Cas 序列和PSI-BLAST 軟件[31]對(duì)NCBI 的非冗余(nr)蛋白和宏基因組(env_nr)蛋白數(shù)據(jù)庫進(jìn)行檢索,利用HMM 對(duì)UniProt 數(shù)據(jù)庫進(jìn)行檢索[32]可得到已知的其他同源蛋白序列[5]。使用HH-suite[33]的HHpred 對(duì)發(fā)掘出的Cas 蛋白進(jìn)行遠(yuǎn)距離的同源蛋白檢索,要求新的Cas 蛋白能夠檢索出10 個(gè)同源效應(yīng)子[23]。

        2.1.2 對(duì)發(fā)掘出的Cas 蛋白進(jìn)行進(jìn)化樹建立對(duì)發(fā)掘出的Cas 蛋白和搜索出的同源蛋白建立進(jìn)化樹,比較不同Cas 蛋白之間親緣關(guān)系,是分析新發(fā)掘出的Cas 蛋白的常用分析方法之一。通常進(jìn)化樹建立使用軟件有RaxmL[34]和PhyML[35]等,上述建立進(jìn)化樹軟件輸入文件為PHYLIP(.phy)格式。再使用FigTree和iTOL[36]軟件實(shí)現(xiàn)進(jìn)化樹的可視化。

        2.1.3 對(duì)預(yù)測出的蛋白進(jìn)行結(jié)構(gòu)域和三級(jí)結(jié)構(gòu)預(yù)測為了進(jìn)一步發(fā)掘出Cas 蛋白序列特點(diǎn),進(jìn)行結(jié)構(gòu)和結(jié)構(gòu)域的預(yù)測分析。由于Cas 蛋白進(jìn)化速度很快,要求識(shí)別Cas 蛋白結(jié)構(gòu)域的軟件必須能進(jìn)行精確識(shí)別[19,37]。對(duì)發(fā)掘出的Cas 蛋白進(jìn)行二級(jí)結(jié)構(gòu)預(yù)測可以使用JPred4[38]、CD-Search[39]或HH pred[40]。蛋白質(zhì)的三級(jí)結(jié)構(gòu)預(yù)測軟件分為同源建模法與穿線法,同源建模法預(yù)測的原理為相似的氨基酸序列對(duì)應(yīng)著相似的蛋白質(zhì)結(jié)構(gòu),如軟件Phyre2[41]。穿線法預(yù)測通過已知蛋白的結(jié)構(gòu)拓?fù)溥M(jìn)行預(yù)測,不相似的蛋白也能有相似的結(jié)構(gòu),如軟件I-TASSER[42]。

        2.2 對(duì)CRISPR 序列進(jìn)行分析

        2.2.1 間隔序列(spacers)的識(shí)別識(shí)別CRISPR 序列中的間隔序列(spacers)有助于尋找對(duì)抗入侵的質(zhì)粒和噬菌體。識(shí)別CRISPR 序列的CRISPRFinder 等軟件識(shí)別出的間隔序列根據(jù)組裝基因組數(shù)據(jù)確定。相關(guān)樣品的短DNA 或宏基因組識(shí)別間隔序列可使用CRASS 軟件[43]。

        2.2.2 前間隔序列(protospacer)分析前間隔序列作為CRISPR-Cas 系統(tǒng)進(jìn)行序列切割在噬菌體或質(zhì)粒上與間隔序列對(duì)應(yīng)的靶序列,對(duì)前間隔序列的識(shí)別要求高相似度。查找噬菌體或質(zhì)粒中的前間隔序列多使用BLAST 軟件中的blastn 程序。針對(duì)宏基因組數(shù)據(jù)使用task blastn-short 程序[5]對(duì)宏基因組組裝數(shù)據(jù)庫進(jìn)行前間隔序列識(shí)別,要求與間隔序列(spacer)的錯(cuò)配堿基小于等于1,對(duì)于搜索中可能出現(xiàn)的CRISPR 序列中的間隔序列干擾,通過其重復(fù)性去除。除此之外,還可使用megablastn[44]程序,對(duì)病毒的非冗余數(shù)據(jù)庫和原核生物基因組數(shù)據(jù)庫進(jìn)行搜索。此方法要求前間隔序列與間隔序列長度L 最大錯(cuò)配數(shù)限制在區(qū)間(0,√l?22)[20]。

        2.2.3 前間隔序列臨近基序(PAMs)分析前間隔序列臨近基序(PAMs),是一些Class2 CRISPRCas 系統(tǒng),如Cas9 蛋白識(shí)別靶序列的識(shí)別位點(diǎn),通常在靶DNA 的3′末端作用,有研究猜測PAMs 與DNA解旋作用有關(guān)[45]。PAMs 的識(shí)別通過前間隔序列側(cè)翼序列的對(duì)齊區(qū)域進(jìn)行查找,PAMs 的可視化和DNA圖形展示通過WebLogo[46]軟件進(jìn)行。在前間隔序列和間隔序列的對(duì)齊過程中,如果出現(xiàn)一個(gè)間隔序列與多個(gè)不同位置的具有不同側(cè)翼序列前間隔序列匹配,則前間隔序列和下游核苷酸的每一種不同組合都應(yīng)考慮進(jìn)PAMs 的計(jì)算中[5]。

        3 對(duì)CRISPR-Cas 系統(tǒng)的分類分析

        為了準(zhǔn)確分析發(fā)掘出的CRISPR-Cas 系統(tǒng)和新的Cas 蛋白,在對(duì)其進(jìn)行進(jìn)一步分析前,應(yīng)根據(jù)新的CRISPR-Cas 系統(tǒng)進(jìn)行分類,CRISPR-Cas 系統(tǒng)分類可根據(jù)近期發(fā)表的分類方法進(jìn)行[22],根據(jù)不同type 和subtype 的標(biāo)志基因,如Cas3、Cas9和Cas12等對(duì)識(shí)別出的>500 aa 的CRISPR-Cas 系統(tǒng)進(jìn)行分類。

        CRISPR-Cas 系統(tǒng)分類方法有根據(jù)獲得模塊(Cas1-Cas2)進(jìn)行分類、根據(jù)CRISPR 的序列相似性或結(jié)構(gòu)相似性進(jìn)行分類、根據(jù)Cas1 發(fā)生進(jìn)行分類、根據(jù)CRISPR-Cas 基因座結(jié)構(gòu)分類、根據(jù)效應(yīng)模塊進(jìn)行分類、根據(jù)亞型分類、根據(jù)物種分類。MAKAROVA 等2015 年的研究對(duì)比了不同CRISPRCas 系統(tǒng)分類方法的不同(圖3),結(jié)果表明,通過效應(yīng)模塊進(jìn)行CRISPR-Cas 系統(tǒng)分類通過蛋白質(zhì)的相似性能在聚類處理后的庫中搜尋到更多結(jié)果,通常能夠直接對(duì)應(yīng)已經(jīng)發(fā)現(xiàn)的各種亞型[22]。因此,MAKAROVA 等人基于效應(yīng)模塊建立了一種CIRSPR-Cas 系統(tǒng)的自動(dòng)注釋的方法。Cas1-Cas2組成的獲得模塊作為最普遍的序列未被選擇的原因是其雖與Cas1 系統(tǒng)發(fā)育樹密切相關(guān),但與CRISPR-Cas 基因座結(jié)構(gòu)相關(guān)性弱。他們建立的這種分類方法的精確度能達(dá)到0.998。

        CRISPR-Cas 系統(tǒng)分為兩大類(圖4):一類(Class1)是多個(gè)Cas 蛋白與crRNA 共同作用切割把鏈的CRISPR-Cas 系統(tǒng),另一類(Class2)是以Cas9 為代表的單亞基與crRNA 共同作用切割靶鏈的作用系統(tǒng)。目前的分類方法根據(jù)不同的特征基因?qū)as 蛋白分為6 種類型,其中Class1 分為3 種類型,Type Ⅰ:以Cas3 或Cas3 基因的變異體為標(biāo)志基因,在細(xì)菌和古細(xì)菌中都有廣泛分布;Type Ⅲ:以Cas10基因?yàn)闃?biāo)志基因,編碼多亞基蛋白并包含一個(gè)RNA 識(shí)別區(qū)域,Type Ⅲ在細(xì)菌和古菌中也都有分布;Type Ⅳ,缺少編碼Cas1-Cas2基因,且部分編碼蛋白遠(yuǎn)離CRISPR 序列,此種蛋白多分布于細(xì)菌中。Class2 分為3 種類型:Type Ⅱ:以Cas9基因?yàn)闃?biāo)志基因,在細(xì)菌和古菌中都有分布;Type Ⅴ:以Cas12和Cas14基因?yàn)闃?biāo)志基因,臨近Cas1-Cas2 和CRISPR 序列,并與TnpB 蛋白有高度相似性,此種類型大多數(shù)分布于細(xì)菌中;Type Ⅵ:以Cas13位標(biāo)志基因[22,47]。

        圖3 CRISPR-Cas 系統(tǒng)不同分類方法的比較[22]Fig.3 Comparison of different classification methods of CRISPR-Cassystem[22]

        圖4 CRISPR-Cas 系統(tǒng)分類圖[47]Fig.4 Diagram of classification of CRISPR-Cas systems[47]

        新的分類和命名方法根據(jù)序列相似性、同源序列分析和上下游序列比較進(jìn)行CRISPR-Cas 系統(tǒng)的分類。Class2 中,包含了種類Ⅱ、種類Ⅴ和種類Ⅵ及他們的變異體(最新分類),其中type Ⅱ的Cas9 蛋白包含HNH 和RuvC-like 兩種結(jié)構(gòu)域,分別切割靶DNA 的兩條鏈。typeV 的Cas12 蛋白只包含RuvClike 結(jié)構(gòu)域負(fù)責(zé)切割DNA 的兩條鏈。TypeⅥ的Cas13 蛋白包含2 個(gè)HEPN 結(jié)構(gòu)域,除此之外,還有非特異性的核糖核酸酶活性。

        4 總結(jié)與展望

        筆者以生物信息學(xué)手段為重點(diǎn),將基于微生物基因組CRISPR-Cas 系統(tǒng)發(fā)掘細(xì)分為:1)基于隱馬爾科夫模型的發(fā)掘方法:i)開放閱讀框預(yù)測,ii)收集已知的Cas 蛋白建立隱馬爾科夫模型,iii)CRISPR 序列識(shí)別;2)以Cas1 和CRISPR 為標(biāo)志序列進(jìn)行CRRISPR-Cas 發(fā)掘:i)通過標(biāo)志序列Cas1 或CRISPR 序列對(duì)基因組進(jìn)行檢索,ii)對(duì)標(biāo)志序列的上下游蛋白進(jìn)行分析尋找可能存在的Cas 酶。提供了在識(shí)別出新CRISPR-Cas 系統(tǒng)后,對(duì)新CRISPR-Cas 系統(tǒng)的Cas 酶進(jìn)行的聚類分析(BLAST、HHpred 等軟件)、進(jìn)化樹建立(RAxml 等軟件)、結(jié)構(gòu)域和三級(jí)結(jié)構(gòu)預(yù)測(JPred4 等軟件)分析方法;3)對(duì)新CRISPR-Cas 系統(tǒng)中,CRISPR 序列的間隔序列(CRASS 等軟件)、前間隔序列(blastn 等)前間隔序列臨近基序分析。

        然而,不同的分析方法在實(shí)踐應(yīng)用中會(huì)有相應(yīng)的限制。Cas 酶發(fā)掘方面,通過隱馬爾科夫建立模型的手段只能根據(jù)已知的Cas 酶預(yù)測出與已知相似的類型,不能預(yù)測出序列差別大的兩種不同類型Cas 蛋白。通過標(biāo)志序列Cas1 和CRISPR 序列進(jìn)行的新Cas 酶發(fā)掘?qū)RISPR-Cas 系統(tǒng)的結(jié)構(gòu)有嚴(yán)格要求,發(fā)掘出的CRISPR-Cas 系統(tǒng)必須在上下游20 kb 以內(nèi)含有標(biāo)志序列。隨著新發(fā)現(xiàn)的Class2 CRISPR-Cas14中Cas 蛋白只有400~700 個(gè)氨基酸[6],傳統(tǒng)認(rèn)為,單個(gè)蛋白可以產(chǎn)生靶向切割作用的Cas 蛋白需要大于950 個(gè)氨基酸殘基的觀點(diǎn)被顛覆,因此,對(duì)于標(biāo)志基因上下游>700 氨基酸殘基的蛋白篩選限制條件應(yīng)當(dāng)更新。此外,Cas 蛋白進(jìn)化分類方面隨著Cas12 發(fā)現(xiàn)可能與TnpB 蛋白轉(zhuǎn)座有關(guān),提供了不同Cas 蛋白起源不同的新觀點(diǎn)。CRISPR 序列識(shí)別方面,有些軟件并不能展示出DR 序列或是序列方向,因此,可能會(huì)造成PAM 分析和結(jié)構(gòu)分析的誤差。

        CRISPR 系統(tǒng)分類上看,隨著近年來CRISPR-Cas 系統(tǒng)研究的不斷發(fā)展,分類方法應(yīng)不斷更新。主要原因如下:1)隨著CRISPR-Cas 生物信息學(xué)發(fā)掘工具的不斷發(fā)展,已經(jīng)發(fā)現(xiàn)靶RNA 切割的Ⅵ型和Ⅴ型CRISPR-Cas 系統(tǒng),并有個(gè)Ⅴ型的亞型被發(fā)現(xiàn)。有研究表明,Ⅴ型CRISPR-Cas 系統(tǒng)是從轉(zhuǎn)座子TnpB 核酸酶通過基因座轉(zhuǎn)移和重復(fù)進(jìn)化產(chǎn)生,因此Ⅴ型CRISPR-Cas 系統(tǒng)出現(xiàn)了大量的突變體,并且有相當(dāng)一部分進(jìn)化成了獨(dú)立的亞型[48]。2)近年來發(fā)現(xiàn)的CRISPR-Cas 系統(tǒng)中,被認(rèn)為在細(xì)菌或古菌中執(zhí)行不同于獲得性免疫的功能[49],不含有靶鏈切割的能力,這些被認(rèn)為功能不同的CRISPR-Cas 序列通常編碼于轉(zhuǎn)座子等可以動(dòng)的編碼區(qū)中[48,50]。3)多種涉及到CRISPR-Cas 系統(tǒng)的標(biāo)志基因與信號(hào)傳遞和調(diào)控作用有關(guān)[51?52]。

        CRISPR-Cas 系統(tǒng)作為定向基因編輯的革命性技術(shù),擁有巨大的潛力和廣闊的研究前景。已經(jīng)發(fā)現(xiàn)的Class2 CRISPR-Cas 系統(tǒng)可以定向切割靶單鏈DNA/RNA 和靶雙鏈DNA,然而,至今為止尚未有科學(xué)家發(fā)現(xiàn)可切割雙鏈RNA 的CRISPR-Cas 系統(tǒng)。隨著越來越多的微生物和宏基因組數(shù)據(jù)被提供、越來越精進(jìn)的基因組測序以及不斷完善的生物信息學(xué)方分析法,會(huì)有更多的CRISPR-Cas 系統(tǒng)被發(fā)現(xiàn)并應(yīng)用于基因組的定向編輯,幫助人們了解分析動(dòng)植物基因功能。

        猜你喜歡
        馬爾科夫間隔標(biāo)志
        多功能標(biāo)志桿的使用
        基于疊加馬爾科夫鏈的邊坡位移預(yù)測研究
        間隔問題
        基于改進(jìn)的灰色-馬爾科夫模型在風(fēng)機(jī)沉降中的應(yīng)用
        認(rèn)標(biāo)志
        啟蒙(3-7歲)(2019年5期)2019-06-27 07:24:50
        間隔之謎
        首都的標(biāo)志是只熊
        馬爾科夫鏈在教學(xué)評(píng)價(jià)中的應(yīng)用
        醫(yī)改進(jìn)入新階段的重要標(biāo)志
        上樓梯的學(xué)問
        乱伦一区二| 大地资源在线观看官网第三页 | 国内精品卡一卡二卡三| 免费一区二区三区久久| 日日噜噜噜夜夜爽爽狠狠视频| 99久久婷婷亚洲综合国产| 亚洲av无码乱码在线观看牲色| 国产精品美女一区二区三区| 精品亚洲少妇一区二区三区| 网址视频在线成人亚洲| 日本一本免费一二区| 中文字幕久无码免费久久| 久久尤物av天堂日日综合| 国产在线观看黄片视频免费| 中文在线中文a| 最近中文字幕在线mv视频在线| 99久久久精品免费| 成人av资源在线播放| 99久久免费只有精品国产| 国产精品一区二区 尿失禁| 亚洲无码美韩综合| 国产tv不卡免费在线观看| 国产喷水1区2区3区咪咪爱av| 日韩中文网| 亚洲一级天堂作爱av| 欧美亚洲精品suv| 欧美亚洲日韩国产人成在线播放 | 日日噜噜夜夜狠狠视频| 亚洲啪啪综合av一区| 国产一区二区三区免费在线视频| 日本少妇熟女一区二区| 鲁丝片一区二区三区免费| 欧美日韩在线观看免费| av天堂一区二区三区精品| 亚洲欧洲日产国码av系列天堂 | 成人在线免费视频亚洲| 草青青在线视频免费观看| 免费国产成人肉肉视频大全| 国产精品美女| 最新国产一区二区三区| 欧美噜噜久久久xxx|