陳桂芳 楊佳怡 高運(yùn)華 任歌
(1.中國(guó)計(jì)量科學(xué)研究院,北京 100029;2.沈陽(yáng)化工大學(xué),沈陽(yáng) 110142)
組蛋白修飾和轉(zhuǎn)錄因子對(duì)基因表達(dá)具有重要的調(diào)控作用。在真核細(xì)胞中,DNA纏繞著由H2A、H2B、H3、H4構(gòu)成的核心組蛋白八聚體形成核小體,通過(guò)連接DNA串聯(lián)形成染色質(zhì)。組蛋白修飾的發(fā)生將影響組蛋白與DNA的親和性,改變?nèi)旧|(zhì)的可及性,進(jìn)而影響基因的表達(dá)。轉(zhuǎn)錄因子識(shí)別并結(jié)合基因上游區(qū)域特定DNA序列,調(diào)控相關(guān)基因的表達(dá)。染色質(zhì)免疫共沉淀(chromatin immunoprecipitation,ChIP)利用目的蛋白特異性抗體,與可溶性染色質(zhì)免疫共沉淀,特異性地富集目的蛋白結(jié)合的DNA。與芯片技術(shù)相結(jié)合的ChIP-chip(chromatin immunoprecipitation-chip)是利用表面覆蓋已知序列的核苷酸探針的芯片,對(duì)染色質(zhì)免疫共沉淀捕獲的DNA進(jìn)行核酸雜交,通過(guò)傳感器檢測(cè)堿基互補(bǔ)配對(duì)產(chǎn)生的熒光信號(hào),進(jìn)一步分析目的蛋白結(jié)合位點(diǎn)[1]。ChIP-chip檢測(cè)覆蓋率受限于芯片上預(yù)先設(shè)定的DNA序列,存在分辨率低、靈敏度有限,對(duì)探針設(shè)計(jì)要求高等局限性[2]。隨著高通量測(cè)序技術(shù)的發(fā)展以及測(cè)序成本不斷降低,染色質(zhì)免疫共沉淀與測(cè)序相結(jié)合的ChIP-seq被廣泛使用。研究人員利用生物信息學(xué)工具對(duì)高通量測(cè)序生成的大量數(shù)據(jù)進(jìn)行分析,通過(guò)將測(cè)序序列比對(duì)到全基因組,定位轉(zhuǎn)錄因子結(jié)合、組蛋白修飾的區(qū)域[3]。近年來(lái),ChIP-seq被越來(lái)越廣泛地用于擬南芥、水稻及其他植物的基因表達(dá)調(diào)控研究中。
ChIP-seq通常需要數(shù)百萬(wàn)個(gè)細(xì)胞,染色質(zhì)免疫共沉淀和測(cè)序文庫(kù)制備包含多個(gè)實(shí)驗(yàn)步驟,免疫共沉淀可能受到非特異性結(jié)合的影響,產(chǎn)生背景噪音,文庫(kù)中DNA中GC含量過(guò)高或過(guò)低,將導(dǎo)致PCR擴(kuò)增偏倚,進(jìn)而影響分析結(jié)果的準(zhǔn)確性。研究人員利用流式細(xì)胞術(shù)、微流控芯片等技術(shù)分離少量細(xì)胞或單細(xì)胞,優(yōu)化染色質(zhì)片段化、免疫共沉淀以及測(cè)序文庫(kù)構(gòu)建等實(shí)驗(yàn)流程;通過(guò)特異性抗體引導(dǎo)將MNase或Tn5轉(zhuǎn)座酶間接結(jié)合到目的蛋白,并在蛋白結(jié)合位點(diǎn)附近使染色質(zhì)斷裂,替代了ChIP-seq染色質(zhì)片段化和免疫共沉淀操作,簡(jiǎn)化實(shí)驗(yàn)操作流程。在上述基礎(chǔ)上,實(shí)現(xiàn)少量細(xì)胞或單細(xì)胞水平的ChIP-seq檢測(cè)。本文簡(jiǎn)述了ChIP-seq原理,詳細(xì)介紹其數(shù)據(jù)分析方法,討論近年來(lái)發(fā)展的ChIP-seq優(yōu)化方法和衍生技術(shù),分析并比較不同方法的特點(diǎn),總結(jié)了植物轉(zhuǎn)錄因子和組蛋白修飾在生物鐘調(diào)控、激素信號(hào)轉(zhuǎn)導(dǎo)、光信號(hào)途徑、脅迫響應(yīng)等方面研究與應(yīng)用。
組蛋白修飾主要發(fā)生在組蛋白的N端,核小體組蛋白被DNA環(huán)繞,兩者結(jié)合較穩(wěn)定。轉(zhuǎn)錄因子一般具有DNA結(jié)合結(jié)構(gòu)域,識(shí)別靶基因并以序列特異性方式結(jié)合DNA,轉(zhuǎn)錄因子與DNA相互作用通常是動(dòng)態(tài)的[4-5]。根據(jù)目的蛋白與DNA結(jié)合特性,ChIP中制備染色質(zhì)片段的方式不同,主要包括甲醛交聯(lián)染色質(zhì)免疫共沉淀(formaldehyde cross-linking and sonication followed by chromatin immunoprecipitation,X-ChIP)和非交聯(lián)染色質(zhì)免疫 共 沉 淀(native chromatin immunoprecipitation,N-ChIP)[6-7]。甲醛能交聯(lián)固定蛋白與DNA,X-ChIP通過(guò)甲醛交聯(lián)與超聲處理形成可溶性染色質(zhì)片段,利用特異性抗體沉淀目的蛋白與DNA復(fù)合物,通過(guò)解交聯(lián)、蛋白酶消化等分離純化DNA,常用于檢測(cè)轉(zhuǎn)錄因子與DNA的相互作用[7]。微球菌核酸酶(micrococcal nuclease,MNase)兼具核酸內(nèi)切酶和核酸外切酶活性,主要作用于核小體之間的連接DNA(linker DNA)。N-ChIP一般無(wú)需甲醛交聯(lián),MNase使染色質(zhì)在連接DNA區(qū)域斷裂,形成以核小體為單元的染色質(zhì)片段,酶切后采用組蛋白修飾特異性抗體進(jìn)行免疫共沉淀并分離純化DNA,常用于組蛋白修飾的檢測(cè)[8-9]。
通過(guò)超聲或酶切斷裂的DNA帶有凸出的粘性末端,為連接具有平末端的測(cè)序接頭,在構(gòu)建文庫(kù)過(guò)程中,需要對(duì)DNA進(jìn)行末端修復(fù)。延伸DNA 3'端直至與5'端平齊,隨后對(duì)5'和3'末端分別進(jìn)行磷酸化和加dA修飾,獲得具有5'磷酸化和3' dA的DNA片段,進(jìn)一步連接測(cè)序接頭[4,10]。圖1顯示了ChIP-seq基本流程:通過(guò)超聲或酶切進(jìn)行染色質(zhì)片段化,利用特異性抗體免疫共沉淀目的蛋白和DNA,分離純化的DNA經(jīng)末端修復(fù)、連接測(cè)序接頭,通過(guò)PCR擴(kuò)增構(gòu)建文庫(kù)、測(cè)序并分析[11]。
圖1 ChIP-seq基本流程Fig.1 Major steps of ChIP-seq
ChIP-seq數(shù)據(jù)分析是通過(guò)將測(cè)序序列比對(duì)到參考基因組,識(shí)別富集區(qū)域內(nèi)具有顯著信號(hào)的峰、定位目的蛋白結(jié)合位點(diǎn)[12-13]。ChIP-seq數(shù)據(jù)分析基本流程包括:預(yù)處理及質(zhì)量控制、序列比對(duì)、峰識(shí)別、可視化及高級(jí)分析等[14]。研究人員開(kāi)發(fā)了多種基于不同算法的軟件工具對(duì)高通量測(cè)序數(shù)據(jù)進(jìn)行處理。其中,Linux系統(tǒng)的Conda和基于R語(yǔ)言的Bioconductor是開(kāi)放式軟件平臺(tái),具有ChIP-seq數(shù)據(jù)分析的大量工具和軟件包[15]。
1.2.1 ChIP-seq數(shù)據(jù)分析軟件及算法 測(cè)序數(shù)據(jù)質(zhì)量控制包括質(zhì)量評(píng)估和預(yù)處理。測(cè)序中,每個(gè)堿基具有一個(gè)質(zhì)量值Q-score(Q-score= -log10e,e為測(cè)序錯(cuò)誤率),用于衡量測(cè)序準(zhǔn)確度,如Q30表明堿基識(shí)別發(fā)生錯(cuò)誤的概率為0.1%,Q20指堿基識(shí)別發(fā)生錯(cuò)誤的概率為1%。通過(guò)FastQC軟件對(duì)測(cè)序的原始讀長(zhǎng)(raw reads)進(jìn)行質(zhì)量評(píng)估,一般使用質(zhì)量值大于20或30的堿基占總體堿基的百分比(Q20或Q30)來(lái)評(píng)估測(cè)序數(shù)據(jù)質(zhì)量。接頭序列、擴(kuò)增不均勻等將影響測(cè)序數(shù)據(jù)質(zhì)量,這些情況可利用FastQC查看[16]。根據(jù)質(zhì)量評(píng)估結(jié)果,可選擇TrimGalore、Picard以及SAMTools等工具進(jìn)行預(yù)處理,去除低質(zhì)量堿基、接頭序列以及PCR擴(kuò)增重復(fù)(PCR duplicates)等,獲得較高質(zhì)量的數(shù)據(jù)(clean data)[17]。
序列比對(duì)通過(guò)將測(cè)序序列比對(duì)到參考基因組(或序列已知的基因組)進(jìn)行定位[18]。高通量測(cè)序?qū)a(chǎn)生大量的短序列數(shù)據(jù),包含許多重復(fù)序列。絕大多數(shù)的序列比對(duì)算法構(gòu)建索引數(shù)據(jù)庫(kù),通過(guò)索引篩選短序列在基因組中候選位置,減少搜索空間,提高比對(duì)效率[19]。根據(jù)建立索引數(shù)據(jù)結(jié)構(gòu)方法的不同,短序列比對(duì)軟件主要分為兩類(lèi):基于哈希表(Hash table)數(shù)據(jù)結(jié)構(gòu)和基于BWT壓縮算法的索引數(shù)據(jù)結(jié)構(gòu)(Burrows Wheeler transform,BWT)[20-22]。 哈 希表數(shù)據(jù)結(jié)構(gòu)序列比對(duì)過(guò)程中,測(cè)序讀段(reads)將以種子序列(seed)為單元生成序列集合,排列種子序列并建立索引數(shù)據(jù)結(jié)構(gòu)進(jìn)行比對(duì)[14,23]。該方法也可以對(duì)參考基因組生成種子序列,建立索引數(shù)據(jù)結(jié)構(gòu)。BWT算法通過(guò)掃描短序列識(shí)別堿基重復(fù)的序列,將重復(fù)序列排列在一起,進(jìn)一步壓縮索引數(shù)據(jù)結(jié)構(gòu)并重排列,以利于快速搜索和比對(duì)。目前,較為常用的短序列比對(duì)軟件有Bowtie2、BWA、SOAP2和MAQ,不同的比對(duì)軟件在比對(duì)數(shù)目、運(yùn)行時(shí)間、內(nèi)存消耗等方面各具優(yōu)勢(shì)和不足[24]。較短讀長(zhǎng)為單元時(shí),可能的匹配區(qū)域很多,種子序列位點(diǎn)定位效率將降低,在進(jìn)行序列比對(duì)過(guò)程中,基于Hash table數(shù)據(jù)結(jié)構(gòu)的MAQ難以實(shí)現(xiàn)準(zhǔn)確比對(duì);基于BWT算法的比對(duì)工具有Bowtie2、BWA、SOAP2等,該算法的重排列利于短讀長(zhǎng)在基因組中候選位點(diǎn)進(jìn)行快速搜索和比對(duì)[25]。測(cè)序堿基的深度與基因組覆蓋率成正比例相關(guān),隨測(cè)序深度增加,基因組覆蓋率增加,數(shù)據(jù)量更大。在HPV全基因組測(cè)序數(shù)據(jù)比對(duì)分析中,研究者采用上述4種工具將部分HPV測(cè)序數(shù)據(jù)與已知HPV基因組數(shù)據(jù)庫(kù)進(jìn)行比對(duì),結(jié)果表明BWT算法的比對(duì)效率和計(jì)算速度優(yōu)于Hash table算法[26]。
ChIP-seq數(shù)據(jù)分析中的重要環(huán)節(jié)是峰識(shí)別(peak calling)。峰(peak)被定義為基因組上reads富集的區(qū)域,峰識(shí)別是通過(guò)掃描比對(duì)到基因組上的短序列數(shù)據(jù),進(jìn)行樣本數(shù)據(jù)和對(duì)照組數(shù)據(jù)的比較,識(shí)別富集區(qū)域[14]。MACS算法通過(guò)滑動(dòng)窗口(sliding window)掃描,基于泊松分布模型統(tǒng)計(jì)顯著的峰[27]。MACS采用具有固定大小的滑動(dòng)窗口移動(dòng),可能產(chǎn)生窗口邊緣識(shí)別模糊的問(wèn)題。QuEST算法基于連續(xù)覆蓋掃描,通過(guò)高斯核密度函數(shù)對(duì)reads富集密度進(jìn)行評(píng)估,其中reads所在位置為窗口中心,具有最高密度值[28-29]。MACS通過(guò)計(jì)算全基因組范圍內(nèi)每個(gè)檢測(cè)峰(peak)顯著性P值,進(jìn)一步分析差異peak,鑒定具有統(tǒng)計(jì)顯著性的差異蛋白質(zhì)結(jié)合位點(diǎn),為較常用的峰識(shí)別工具[29]。
基于不同的需求,后續(xù)的數(shù)據(jù)處理和分析方法有所不同,如DNA序列特征的Motif分析、目的蛋白結(jié)合位點(diǎn)在基因組不同區(qū)域的偏好性分析、預(yù)測(cè)結(jié)合位點(diǎn)關(guān)聯(lián)基因功能的GO注釋及預(yù)測(cè)基因調(diào)控通路的Pathway分析等[30-31]。圖2顯示ChIP-seq數(shù)據(jù)分析流程及軟件。
圖2 ChIP-seq數(shù)據(jù)分析流程及軟件Fig.2 Protocol for computational analysis of ChIP-seq data and software
1.2.2 ChIP-seq常見(jiàn)數(shù)據(jù)格式及可視化 數(shù)據(jù)格式對(duì)于合理組織數(shù)據(jù)存儲(chǔ),有效降低存儲(chǔ)空間以及加快下游分析速度至關(guān)重要。圖3顯示了ChIP-seq數(shù)據(jù)常見(jiàn)格式、格式轉(zhuǎn)變軟件及可視化方法。fasta和fastq格式是存儲(chǔ)核酸序列的常用格式,為二進(jìn)制文本。其中,fastq格式包含短讀序列和質(zhì)量分?jǐn)?shù)等信息[32]。為方便后續(xù)分析,可利用sratoolkit軟件將測(cè)序原始數(shù)據(jù)格式轉(zhuǎn)換為標(biāo)準(zhǔn)的fastq格式。SAM和BAM格式專(zhuān)用于存儲(chǔ)參考序列的比對(duì)序列,是由基因組序列比對(duì)得到的輸出格式[33]。BAM數(shù)據(jù)格式具有索引功能,為SAM格式的二進(jìn)制,通過(guò)SAMTools軟件可將SAM文件轉(zhuǎn)換為BAM,有利于降低儲(chǔ)存空間。UCSC基因?yàn)g覽器可以讀取BAM格式的數(shù)據(jù),實(shí)現(xiàn)快速瀏覽[34]。儲(chǔ)存轉(zhuǎn)錄因子、組蛋白修飾等結(jié)合位點(diǎn)在全基因組上的信號(hào)分布情況的數(shù)據(jù)格式為BedGraph(Bed)格式。該格式包含有染色體名稱、染色體起始位點(diǎn)以及檢出信號(hào)值。將MACS軟件輸出Bed格式文件轉(zhuǎn)化為bigwig文件,上傳到UCSC或IGV瀏覽器以實(shí)現(xiàn)數(shù)據(jù)可視化[35-36]。其他可視化工具有基于R語(yǔ)言的ChIPseeker和基于Python的deepTools等。
圖3 ChIP-seq數(shù)據(jù)格式及可視化Fig.3 Standard data formats and visualization tools for ChIP-seq
ChIP-seq需要大量細(xì)胞,面對(duì)稀少樣本,收集足夠多的細(xì)胞存在困難。免疫共沉淀過(guò)程,可能受到甲醛交聯(lián),非特異性結(jié)合的影響[37]。DNA片段中GC含量過(guò)高或過(guò)低,將導(dǎo)致PCR擴(kuò)增偏倚,影響測(cè)序質(zhì)量[38]。近年來(lái)研究人員針對(duì)上述問(wèn)題進(jìn)行優(yōu)化并提出相應(yīng)的技術(shù)。
流式細(xì)胞分選(fluorescence activated cell sorting,F(xiàn)ACS)是利用鞘液包裹細(xì)胞形成樣品流,通過(guò)流式細(xì)胞儀檢測(cè)細(xì)胞攜帶的熒光信號(hào),由分選器將特定的細(xì)胞從樣本中分離出來(lái)。Amour等[39]通過(guò)FACS將細(xì)胞分離到含有裂解緩沖液的反應(yīng)池中,進(jìn)行細(xì)胞核分離與MNase酶切,提出基于MNase酶切的非交聯(lián)免疫共沉淀ChIP-seq技術(shù)(nultra low input micrococcal nuclease-based native ChIP,ULI-NChIP),該技術(shù)適用于微量樣品建庫(kù)測(cè)序。該方法利用連續(xù)裝置簡(jiǎn)化實(shí)驗(yàn)操作流程、減少分離純化過(guò)程的洗滌次數(shù),降低樣品損失,利于在少量細(xì)胞中進(jìn)行ChIP-seq 實(shí)驗(yàn)[40]。
微流控芯片通過(guò)產(chǎn)生非連續(xù)的液滴包裹單個(gè)細(xì)胞,實(shí)現(xiàn)單細(xì)胞分離[41]。Rotem等[42]基于液滴微流控芯片建立scChIP-seq(single-cell ChIP-seq):在具有多通道結(jié)構(gòu)的芯片上,細(xì)胞裂解緩沖液包裹著標(biāo)簽序列與單細(xì)胞懸液匯聚并通過(guò)油相,形成“油包水”液滴,液滴內(nèi)發(fā)生細(xì)胞裂解反應(yīng),隨后與含MNase的凝膠微珠融合進(jìn)行染色質(zhì)片段化,進(jìn)一步對(duì)數(shù)千個(gè)單細(xì)胞獨(dú)立建庫(kù)。scChIP-seq具有高度集成化、自動(dòng)化優(yōu)勢(shì),但微流控芯片使用成本較高,且微流控液滴操作對(duì)實(shí)驗(yàn)人員有較高技術(shù)要求。
lambda核酸外切酶、RecJf核酸外切酶具有5'-3'外切酶活性,分別作用于雙鏈DNA和單鏈DNA,水解核苷酸之間的磷酸二酯鍵。Ho和Pugh將兩種核酸外切酶引入到X-ChIP實(shí)驗(yàn),提出ChIP-exo(ChIP combined with lambda exonuclease digestion)[43-44]。在特異性抗體沉淀目的蛋白與DNA交聯(lián)復(fù)合物之后,通過(guò)lambda核酸外切酶消化,使雙鏈DNA斷裂末端最大程度的靠近蛋白,減少背景干擾,提高蛋白質(zhì)結(jié)合區(qū)域分析的準(zhǔn)確性。進(jìn)一步解交聯(lián)、分離純化DNA,利用RecJf核酸外切酶消化單鏈DNA,減少背景噪音。ChIP-exo核酸外切酶處理,有利于提高檢測(cè)轉(zhuǎn)錄因子結(jié)合位點(diǎn)的分辨率[2,44]。
染色質(zhì)免疫共沉淀實(shí)驗(yàn)過(guò)程中,通常使用磁珠富集抗體、蛋白和DNA復(fù)合物,但難以避免非特異性結(jié)合的影響[37]。Zhu等[45]基于微流控芯片優(yōu)化ChIP實(shí)驗(yàn)操作流程,提出MOW ChIP-seq(microfluidic oscillatory washing-based ChIP-seq)。將超聲處理的染色質(zhì)載入芯片,采用偶聯(lián)有目的蛋白特異性抗體的磁珠富集可溶性片段。通過(guò)控制芯片上微量流道內(nèi)樣品與磁珠的流動(dòng)速度,促進(jìn)兩者混合均勻,提高免疫磁珠的捕獲效率。另外利用微流控振蕩輔助,降低非特異性結(jié)合,提高結(jié)果準(zhǔn)確度。MOW ChIP-seq通過(guò)結(jié)合免疫磁珠、微流控芯片對(duì)樣品進(jìn)行分離與富集,具有試劑和樣品消耗量少、自動(dòng)化等優(yōu)勢(shì)[37]。
ChIP-exo增加的酶切步驟以及多次洗滌,使用于建庫(kù)的起始DNA量減少,需要增加PCR循環(huán)擴(kuò)增數(shù),可能導(dǎo)致過(guò)多的重復(fù)序列[46]。在ChIP-exo基礎(chǔ)上,He等[47]設(shè)計(jì)含特異性序列的測(cè)序接頭,通過(guò)DNA自環(huán)化(self-circularization)方法優(yōu)化建庫(kù),提 出 ChIP-nexus(ChIP experiments with nucleotide resolution through exonuclease,unique barcode and single ligation)。建庫(kù)過(guò)程中,將帶有限制性內(nèi)切酶BamH I酶切位點(diǎn)序列的測(cè)序接頭連接到DNA,利用環(huán)化連接酶將DNA自身環(huán)化。環(huán)化DNA通過(guò)BamH I酶切處理,其斷裂產(chǎn)物兩端將帶有測(cè)序接頭,利于直接擴(kuò)增建庫(kù)。ChIP-nexus通過(guò)分子內(nèi)自身環(huán)化進(jìn)行接頭連接構(gòu)建文庫(kù),其連接效率比ChIP-seq中DNA連接酶的連接效率更高,有利于降低建庫(kù)DNA需求量。
擴(kuò)增構(gòu)建測(cè)序文庫(kù)過(guò)程中,高GC含量DNA片段易產(chǎn)生擴(kuò)增偏倚,擴(kuò)增體系中的引物二聚體將造成背景信號(hào)[48]。Adli等[49]對(duì)文庫(kù)構(gòu)建方案優(yōu)化,并提出Nano-ChIP-seq。在PCR擴(kuò)增建庫(kù)過(guò)程中,使用發(fā)夾結(jié)構(gòu)引物,減少引物二聚體。針對(duì)高GC含量序列,使用Phusion高保真DNA聚合酶,并優(yōu)化緩沖液和擴(kuò)增循環(huán)次數(shù)。此外,在引物序列中引入限制性內(nèi)切酶BciV I的酶切位點(diǎn)序列,擴(kuò)增產(chǎn)物在內(nèi)切酶作用下產(chǎn)生3'A突出末端,利于直接連接測(cè)序接頭。研究表明,利用Nano-ChIP-seq建庫(kù)方案可從少量細(xì)胞中進(jìn)行ChIP-seq檢測(cè)[49-50]。表1比較了上述ChIP-seq優(yōu)化技術(shù)。
表1 ChIP-seq優(yōu)化技術(shù)比較Table 1 Comparison of optimization techniques of ChIP-seq
ChIP包含細(xì)胞裂解、細(xì)胞核提取、染色質(zhì)制備以及免疫共沉淀等多個(gè)連續(xù)步驟,需要的細(xì)胞量較大,常規(guī)ChIP-seq很難進(jìn)行少量細(xì)胞或單細(xì)胞水平的檢測(cè)[51]。最近,研究人員利用目的蛋白特異性抗體使MNase或Tn5轉(zhuǎn)座酶“靶向”作用于目的蛋白結(jié)合位點(diǎn)附近的染色質(zhì),提出CUT&RUN、CUT&Tag等方法。與ChIP-seq相比較,這些方法無(wú)需獲取可溶性染色質(zhì)進(jìn)行免疫共沉淀,具有實(shí)驗(yàn)流程簡(jiǎn)單、耗時(shí)短等優(yōu)勢(shì),可以在少量細(xì)胞或單細(xì)胞水平進(jìn)行檢測(cè)。
Schmid等[52]建立了以酶“靶向”切割染色質(zhì)的 方 法:ChIC(chromatin immunocleavage)。 為 使MNase選擇性地作用于目的蛋白結(jié)合區(qū)域,研究者利用對(duì)抗體具有親和力的Protein A融合MNase(pAMN),通過(guò)抗體結(jié)合pA-MN融合蛋白將MNase間接結(jié)合到目的蛋白。在ChIC實(shí)驗(yàn)中,首先利用螯合劑EDTA、EGTA等抑制MNase酶活性,將細(xì)胞與含有目的蛋白特異性抗體、pA-MN的緩沖液反應(yīng)后,用Ca2+激活MNase,使其在特定位點(diǎn)斷裂DNA。2016年,Skene等[51]將ChIC與高通量測(cè)序技術(shù)結(jié)合,提出CUT&RUN。
CUT&RUN中,特異性抗體先與目的蛋白結(jié)合,進(jìn)一步與pA-MN反應(yīng),募集pA-MN到結(jié)合位點(diǎn)。在0℃下保持較低的酶活性,抗體固定酶后,采用Ca2+激活MNase使其在目的蛋白結(jié)合位點(diǎn)附近作用于染色質(zhì)開(kāi)放區(qū)域,酶切后染色質(zhì)片段釋放,進(jìn)一步建庫(kù)測(cè)序[51,53]。研究者利用伴刀豆球蛋白A(concanavalin A,Con A)能與細(xì)胞的多糖、糖蛋白特異結(jié)合特性,將Con A包被在磁珠表面,固定細(xì)胞或細(xì)胞核,以利于洗滌。2018年,Skene等[54]對(duì)CUT&RUN實(shí)驗(yàn)優(yōu)化,通過(guò)洋地黃皂苷(digitonin)增加細(xì)胞膜通透性,釋放酶切染色質(zhì)片段到細(xì)胞外,由于未被切割的染色質(zhì)仍留在細(xì)胞內(nèi),有利于降低背景噪音。2019年,Hainer等[55]利用流式細(xì)胞分選將單個(gè)細(xì)胞分離到多孔板中進(jìn)行CUT&RUN實(shí)驗(yàn),提出可對(duì)極少量細(xì)胞進(jìn)行檢測(cè)的ULI-CUT&RUN(ultra-low input CUT&RUN)。
Tn5轉(zhuǎn)座子由核心序列和兩末端序列組成。Tn5轉(zhuǎn)座酶可以與Tn5轉(zhuǎn)座子的末端序列結(jié)合形成復(fù)合物,該復(fù)合物具有“剪切-粘貼”(cut and paste)催化活性,兩者協(xié)同完成Tn5轉(zhuǎn)座子末端序列的切割和轉(zhuǎn)移。在Tn5轉(zhuǎn)座復(fù)合體作用下,轉(zhuǎn)座子末端DNA的磷酸二酯鍵被水解并產(chǎn)生3'- OH羥基末端,隨后Tn5轉(zhuǎn)座酶進(jìn)攻目標(biāo)DNA形成9 bp的切口,同時(shí)轉(zhuǎn)座子羥基末端與目標(biāo)DNA的磷酸基團(tuán)之間形成共價(jià)鍵,從而將轉(zhuǎn)座子序列插入到目標(biāo)DNA[56]。由于這一特性,Tn5轉(zhuǎn)座酶可將測(cè)序接頭序列隨機(jī)插入染色質(zhì)開(kāi)放區(qū)域,進(jìn)行DNA片段化和測(cè)序接頭連接[57]。Schmidl等[58]首先將 Tn5轉(zhuǎn)座酶工具與ChIP相結(jié)合,代替ChIP-seq構(gòu)建測(cè)序文庫(kù)中的末端補(bǔ)平、3'末端加A等處理,提出ChIPmentation。其中,測(cè)序接頭和Tn5轉(zhuǎn)座酶組裝形成轉(zhuǎn)座復(fù)合物,與X-ChIP獲得的目的蛋白結(jié)合DNA反應(yīng),進(jìn)行接頭連接。
2019年,Kaya-Okur等[59]參考 CUT&RUN的實(shí)驗(yàn)流程,將帶有測(cè)序接頭的Tn5轉(zhuǎn)座酶與Protein A融合(pA-Tn5),利用pA-Tn5替換pA-MN,提出CUT&Tag。特異性抗體結(jié)合目的蛋白后,進(jìn)一步與pA-Tn5反應(yīng),利用Mg2+激活Tn5轉(zhuǎn)座酶活性進(jìn)行染色質(zhì)切割與接頭連接。Tn5轉(zhuǎn)座酶建庫(kù)有利于減少損失,與CUT&RUN比較,CUT&Tag的樣本需求量更小。2020年,Bartosovic等[60]將液滴微流控技術(shù)與CUT&Tag相結(jié)合,進(jìn)行單細(xì)胞建庫(kù)測(cè)序,提出 scCUT&Tag(single-cell Cut&Tag)。 表2比 較 了CUT&RUN、CUT&Tag與 ChIP-seq。
表2 CUT&RUN、CUT&Tag與ChIP-seq比較Table 2 Comparison of CUT&RUN,CUT&Tag and ChIP-seq
標(biāo)簽組合(combinatorial indexing)建庫(kù)是利用不同的barcode序列為不同樣品的DNA進(jìn)行組合標(biāo)簽標(biāo)記,通過(guò)一次建庫(kù)可區(qū)別成千上萬(wàn)單細(xì)胞,利于提高單細(xì)胞測(cè)序的通量,獲得更多單細(xì)胞信息[61]。2019年,Wang等[62]基于標(biāo)簽組合和pA-Tn5提出 CoBATCH(combinatorial barcoding and targeted chromatin release)。通過(guò)流式細(xì)胞儀和微孔板進(jìn)行單個(gè)細(xì)胞的分選和分離,采用帶有T5/T7組合標(biāo)簽的pA-Tn5對(duì)染色質(zhì)進(jìn)行轉(zhuǎn)座酶切割和標(biāo)簽標(biāo)記,進(jìn)一步對(duì)帶有不同標(biāo)簽的DNA建庫(kù)與測(cè)序。CoBATCH利用組合標(biāo)簽區(qū)分不同樣本來(lái)源的細(xì)胞,同時(shí)組合標(biāo)簽增加了測(cè)序文庫(kù)的復(fù)雜度,利于進(jìn)行高通量的單細(xì)胞檢測(cè)。
研究人員使用ChIP-seq檢測(cè)植物轉(zhuǎn)錄因子結(jié)合位點(diǎn)、組蛋白修飾分布,已廣泛應(yīng)用于生物鐘調(diào)控、激素信號(hào)轉(zhuǎn)導(dǎo)、光信號(hào)途徑、脅迫響應(yīng)等研究[63-65]。CUT&RUN和CUT&Tag方法具有流程簡(jiǎn)單、良好的可重復(fù)性、需要的細(xì)胞數(shù)量少等優(yōu)勢(shì),近年來(lái),被初步應(yīng)用于植物轉(zhuǎn)錄因子、組蛋白修飾H3K27me3和 H3K4me3 等研究[66-68]。
植物的生長(zhǎng)發(fā)育除了受自身遺傳因素的調(diào)控外,還受到環(huán)境脅迫、內(nèi)源激素變化等影響。轉(zhuǎn)錄因子在植物的生物鐘調(diào)控、激素信號(hào)轉(zhuǎn)導(dǎo)、生長(zhǎng)和代謝等過(guò)程中發(fā)揮重要作用[69-70]。GRF7(growthregulating factor 7)是水稻(Oryza sativa)生長(zhǎng)調(diào)節(jié)因子類(lèi)轉(zhuǎn)錄因子,Chen等[71]選用不同發(fā)育時(shí)期的水稻幼穗進(jìn)行ChIP-seq檢測(cè),發(fā)現(xiàn)OsGRF7與細(xì)胞色素P450基因OsCYP714B1和生長(zhǎng)素響應(yīng)基因OsARF12啟動(dòng)子中的ACRGDA motif結(jié)合,激活基因轉(zhuǎn)錄,參與赤霉素的合成和生長(zhǎng)素的信號(hào)傳導(dǎo)途徑,調(diào)控幼穗發(fā)育。生物鐘是影響生物晝夜節(jié)律的重要因素,CAA1(circadian clock-associated 1)是擬南芥(Arabidopsis thaliana)生物鐘重要轉(zhuǎn)錄因子,PRRs家族基因參與生物鐘調(diào)控,Kamioka等[69]通過(guò)ChIP-seq發(fā)現(xiàn)CCA1直接結(jié)合在基因PRR5的啟動(dòng)子區(qū)域,抑制PRR5表達(dá),并發(fā)現(xiàn)CCA1與PRR9、PRR7、PRR5等基因啟動(dòng)子上多個(gè)motif結(jié)合,包括G-box、EEs、CT重復(fù)、TCP等,調(diào)控生物鐘周期。光是調(diào)控植物生長(zhǎng)和發(fā)育的重要環(huán)境因素,F(xiàn)HY3(far-red elongated hypocotyl 3)是擬南芥光信號(hào)轉(zhuǎn)錄因子,Ouyang等[72]利用ChIP-seq在遠(yuǎn)紅光條件下鑒定到FHY3結(jié)合在基因FHY1和ELF4啟動(dòng)子的FBS motif(CACGCGC),激活基因表達(dá),促進(jìn)光敏色素A在細(xì)胞核的積累,進(jìn)而調(diào)控光信號(hào)途徑;并發(fā)現(xiàn)FHY3與葉綠體分裂相關(guān)基因ARC5啟動(dòng)子區(qū)域的FBS motif結(jié)合,激活其轉(zhuǎn)錄,進(jìn)而影響葉綠體發(fā)育。葉夾角是影響株型與作物產(chǎn)量的重要農(nóng)藝性狀,油菜素內(nèi)酯(brassinosteroid,BR)是植物重要的促生長(zhǎng)類(lèi)激素。BR促進(jìn)細(xì)胞伸長(zhǎng)與分裂,對(duì)水稻葉夾角發(fā)育有影響,Guo等[68]通過(guò)CUT&RUN分析發(fā)現(xiàn),水稻bHLH(basic-helix-loop-helix)轉(zhuǎn)錄因子家族的OsbHLH98,結(jié)合水稻BR信號(hào)轉(zhuǎn)導(dǎo)途徑相關(guān)基因BUL1的啟動(dòng)子上的G-box、E-box等motif,抑制基因表達(dá),調(diào)控水稻葉夾角發(fā)育。
在植物發(fā)育過(guò)程中,除了轉(zhuǎn)錄因子激活或抑制基因表達(dá)的作用外,染色質(zhì)組蛋白翻譯后修飾通過(guò)影響染色質(zhì)結(jié)構(gòu)來(lái)調(diào)控基因的表達(dá)。組蛋白修飾H3K27me3抑制基因轉(zhuǎn)錄,Wu等[73]通過(guò)ChIP-seq發(fā)現(xiàn)在高氮素條件下水稻分蘗抑制基因D14和OsSPL14啟動(dòng)子區(qū)域的H3K27me3富集水平顯著升高。進(jìn)一步研究表明,水稻分蘗期氮素應(yīng)答關(guān)鍵蛋白NGR5通過(guò)與PRC2相互作用,將PRC2招募到D14和OsSPL14的啟動(dòng)子上催化H3K27me3修飾并抑制基因表達(dá),進(jìn)而調(diào)控氮濃度對(duì)水稻氮素吸收和分蘗發(fā)生的影響。Nishio等[74]以鼠耳芥(Arabidopsis halleri)為材料,通過(guò)ChIP-seq分析組蛋白修飾H3K27me3對(duì)其季節(jié)性和晝夜節(jié)律基因表達(dá)的影響,并與組蛋白修飾H3K4me3進(jìn)行比較。發(fā)現(xiàn)H3K27me3具有季節(jié)性的可塑性與晝夜節(jié)律穩(wěn)定性,H3K27me3的信號(hào)變化晚于H3K4me3出現(xiàn),在環(huán)境變化中進(jìn)行長(zhǎng)期的基因表達(dá)調(diào)控。
研究者將CUT&RUN、CUT&Tag用于植物組蛋白修飾分析,并與ChIP-seq進(jìn)行比較。Zheng等[66]利用流式細(xì)胞儀分選擬南芥胚乳細(xì)胞核,通過(guò)CUT&RUN分析發(fā)現(xiàn)胚乳細(xì)胞周期中有絲分裂間期的相關(guān)基因被H3K27me3修飾,H3K27me3影響親本等位基因的差異表達(dá)與胚乳發(fā)育。與ChIP-seq相比較,CUT&RUN檢測(cè)所需細(xì)胞數(shù)量更少。Tao等[67]將CUT&Tag用于對(duì)棉纖維細(xì)胞基因組及外顯子、內(nèi)含子、啟動(dòng)子等區(qū)域組蛋白修飾H3K4me3的分布特征分析,發(fā)現(xiàn)H3K4me3顯著富集在基因啟動(dòng)子上(轉(zhuǎn)錄起始位點(diǎn)上游1-2 kb)。使用相同數(shù)量細(xì)胞進(jìn)行CUT&Tag和ChIP-seq檢測(cè),發(fā)現(xiàn)CUT&Tag分析結(jié)果具有較好重復(fù)性,顯示出更高分辨率和更低的背景信號(hào),所需實(shí)驗(yàn)時(shí)間更短。
ChIP-seq已被廣泛用于轉(zhuǎn)錄因子和組蛋白修飾研究。近年來(lái),研究人員將流式細(xì)胞分選、微流控芯片與ChIP-seq相結(jié)合,優(yōu)化細(xì)胞分離、染色質(zhì)片段化、免疫共沉淀以及測(cè)序文庫(kù)構(gòu)建等關(guān)鍵步驟并提出優(yōu)化方法。CUT&RUN、CUT&Tag利用“靶向”酶切和Tn5轉(zhuǎn)座酶建庫(kù),簡(jiǎn)化實(shí)驗(yàn)流程。在上述基礎(chǔ)上,使得ChIP-seq在少量細(xì)胞或在單細(xì)胞水平的檢測(cè)成為可能。其他測(cè)序技術(shù)在轉(zhuǎn)錄因子和組蛋白修飾研究中具有重要作用:微球菌核酸酶測(cè)序MNase-seq(micrococcal nuclease sequencing) 利 用MNase切割染色質(zhì),獲取核小體DNA建庫(kù)測(cè)序,繪制核小體定位圖譜[75]。MNase-seq與ChIP-seq聯(lián)合將利于分析目的蛋白結(jié)合位點(diǎn)附近的核小體定位狀態(tài)。染色質(zhì)轉(zhuǎn)座酶可及性測(cè)序ATAC-seq(assay for transposase-accessible chromatin with high throughput sequencing)利用Tn5轉(zhuǎn)座酶進(jìn)行染色質(zhì)切割與接頭連接,檢測(cè)染色質(zhì)開(kāi)放區(qū)域[76]。ATAC-seq結(jié)合ChIP-seq可進(jìn)一步分析轉(zhuǎn)錄因子、組蛋白修飾對(duì)染色質(zhì)開(kāi)放性的影響。ChIP-seq與轉(zhuǎn)錄組測(cè)序技術(shù)(RNA-seq)的聯(lián)合分析,有利于進(jìn)一步確認(rèn)轉(zhuǎn)錄因子以及組蛋白的修飾對(duì)于基因表達(dá)的調(diào)控作用。
隨著技術(shù)的不斷發(fā)展,ATAC-seq、RNA-seq,CUT&RUN、CUT&Tag等均可以實(shí)現(xiàn)單細(xì)胞水平的檢測(cè)。進(jìn)行單細(xì)胞的組學(xué)分析,克服細(xì)胞異質(zhì)性對(duì)有效信號(hào)的“干擾”問(wèn)題,有利于珍稀樣品的準(zhǔn)確分析。將ChIP-seq納入多組學(xué)聯(lián)合分析,幫助更全面的理解細(xì)胞內(nèi)蛋白與DNA相互作用,具有重要的研究意義。