亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于生物信息學的Hi-C研究現(xiàn)狀與發(fā)展趨勢

        2020-03-04 04:08:48呂紅強郝樂樂劉二虎吳志芳韓九強劉源
        遺傳 2020年1期
        關鍵詞:染色質(zhì)染色體可視化

        呂紅強,郝樂樂,劉二虎,吳志芳,韓九強,劉源

        綜述

        基于生物信息學的Hi-C研究現(xiàn)狀與發(fā)展趨勢

        呂紅強,郝樂樂,劉二虎,吳志芳,韓九強,劉源

        西安交通大學電子與信息工程學院,西安 710049

        染色體的空間交互作用被視為影響基因表達調(diào)控的重要因素,高通量染色體構象捕獲(high-throughput chromosome conformation capture, Hi-C)技術已成為3D基因組學中探索染色體空間交互作用的主要實驗手段之一。隨著Hi-C樣本數(shù)據(jù)的持續(xù)累積以及分析處理流程復雜度的不斷提升,基于生物信息學的Hi-C數(shù)據(jù)分析對探究基因表達的時空調(diào)控機制而言,是機遇也是挑戰(zhàn)。本文從生物信息學角度,綜合闡述了Hi-C的國內(nèi)外研究現(xiàn)狀及發(fā)展動態(tài),包括數(shù)據(jù)標準化、多級結構分析、數(shù)據(jù)可視化以及三維建模,重點剖析了多級結構中的A/B區(qū)室(A/B compartments)、拓撲相關域(topological associated domains, TADs)和染色質(zhì)環(huán)(chromain looping),在此基礎上分析了該方向未來可能的研究熱點及發(fā)展趨勢,以期為將基因表達調(diào)控的探索從傳統(tǒng)線性空間進一步拓展到三維結構空間提供支持。

        3D基因組學;Hi-C;生物信息學

        基因表達的調(diào)控機制是現(xiàn)代分子生物學研究中的重要內(nèi)容。其所研究的表達調(diào)控作用并不局限于傳統(tǒng)的以染色體坐標為度量的一維線性結構,染色體的多級空間結構可使在線性坐標空間中的遠程調(diào)控元件在三維結構空間中近距離調(diào)控目標基因的表達水平,因此染色體上各位點在細胞核中的空間交互作用被視為影響基因表達調(diào)控的重要因素。隨著生物信息學領域相關研究的不斷深入,高通量染色體構象捕獲(high-throughput chromosome conforma-tion capture, Hi-C)[1]技術逐漸成為探索染色體空間交互作用的主要技術手段[2],以此為核心的3D基因組學被稱為基因組學研究的第三次浪潮[3]。當前,以Hi-C為代表的染色體構象捕獲(chromosome con-formation capture, 3C)[4]技術通過消化和重連空間上接近的染色體片段來確定不同位點之間的空間交互,為分析染色體在細胞核中的空間組織結構提供了有效途徑。區(qū)別于早期3C技術的單點對單點檢測,4C (chromosome conformation capture-on-chip)[5]技術的單點對多點檢測,以及5C (chromosome confor-mation capture carbon copy)[6]技術的多點對多點檢測,Hi-C將高通量測序技術與3C技術相結合,通過全點對全點檢測,構建出全基因組范圍內(nèi)無偏的空間交互圖譜[7]。正是由于Hi-C技術的這一優(yōu)越性,才使得研究全基因組范圍內(nèi)的染色體三維結構成為可能[8]。

        Hi-C技術通過消化和重連空間上接近的染色體片段,對其進行高通量測序,可確定染色體不同位點之間的空間交互作用。其生物實驗的主要步驟包括:(1)交聯(lián),用甲醛對細胞進行瞬間固定,使DNA與蛋白,蛋白與蛋白之間相互交聯(lián);(2)酶切,利用限制性內(nèi)切酶(如d Ⅲ)對DNA進行切割,使交聯(lián)兩側產(chǎn)生粘性末端;(3)標記,修復切割末端,并用生物素標記末端;(4)連接,使用DNA連接酶通過平端連接切割末端生成嵌合分子;(5)解交聯(lián),對純化后的DNA嵌合分子進行超聲破碎或者利用限制性酶(Ⅰ)進行打斷處理,篩選出被生物素標記的DNA片段,獲得DNA文庫;(6)測序,對DNA文庫進行高通量雙端測序。近年來,隨著Hi-C技術的不斷成熟,逐漸發(fā)展出系列Hi-C衍生技術,如promoter CHi-C[9]、single-cell Hi-C[10]、BL-Hi-C[11]和DLO Hi-C[12]等。相比于傳統(tǒng)的Hi-C技術,pro-moter CHi-C利用RNA做誘餌篩選出包含啟動子的DNA片段,可用于三維結構空間中啟動子調(diào)控作用的分析;single-cell Hi-C技術用以單細胞染色體構象捕獲,使得單細胞水平進行染色體空間交互作用的分析成為可能;BL-Hi-C通過對酶切和連接兩個步驟的改進,具備高效和靈敏的結構性和調(diào)控性染色體構象捕獲能力;DLO Hi-C則通過雙交聯(lián)和免生物素標記的方式,在簡化流程的同時,有效降低了實驗數(shù)據(jù)的背景噪音。

        Hi-C生物實驗產(chǎn)生數(shù)以億計的配對末端序列片段(paired-end sequencing reads),這些兩兩配對的基因組序列片段,是染色體復雜空間結構在基因組片段水平上兩兩交互的分解,一般通過二維接觸矩陣(contact matrix)的數(shù)據(jù)組織形式進行可視化和生物信息學分析處理。其中,根據(jù)實驗數(shù)據(jù)所生成的二維接觸矩陣即Hi-C接觸矩陣也稱其為交互矩陣,矩陣的行或列代表染色體坐標上固定長度的間隔區(qū)間,區(qū)間長度被稱為分辨率,其值越小,分辨率越高,矩陣元素為落入相應行和列交互區(qū)間的配對末端序列片段的數(shù)量,稱為交互頻率(interaction fre-quency, IF),其值隨著行和列之間距離的增加呈指數(shù)衰減。不同分辨率下的接觸矩陣如圖1所示。得益于Hi-C生物實驗數(shù)據(jù)的快速增長,在Gene Expre-ssion Omnibus (GEO)[13]和Encyclopedia of DNA Elements (ENCODE)[14]等綜合生物數(shù)據(jù)庫以及Juicer[15]等Hi-C專業(yè)數(shù)據(jù)庫中,已累積了大量的覆蓋多個物種不同細胞系的Hi-C重復性樣本數(shù)據(jù)。

        隨著Hi-C技術的不斷成熟以及染色體各級空間結構的陸續(xù)發(fā)現(xiàn),Hi-C數(shù)據(jù)的分析與處理已成為3D基因組學的研究熱點之一。近年來,國內(nèi)外已有多位專家學者對Hi-C方向的研究進展先后進行了綜合性闡述,包括從3C到Hi-C的技術與方法的演進[3,16~18]、基于Hi-C技術的染色體多級結構[19]以及用于Hi-C數(shù)據(jù)分析的方法與工具進展[20]等。本文從生物信息學角度介紹了Hi-C的最新研究現(xiàn)狀及發(fā)展動態(tài),包括數(shù)據(jù)標準化、多級結構分析、數(shù)據(jù)可視化以及三維建模。在此基礎上,分析了該方向未來可能的研究熱點及發(fā)展趨勢,以期成為現(xiàn)有Hi-C綜述性成果在生物信息學方向的更新與補充,進而為將基因表達調(diào)控的探索從傳統(tǒng)線性空間進一步拓展到三維結構空間提供支持。

        圖1 Hi-C接觸矩陣

        數(shù)據(jù)來源于Juicer數(shù)據(jù)集。

        1 Hi-C國內(nèi)外研究現(xiàn)狀

        1.1 數(shù)據(jù)標準化

        Hi-C數(shù)據(jù)標準化用以移除生物實驗過程中由各種不可避免的非隨機因素所引入的樣本間的系統(tǒng)偏差,是后續(xù)分析處理的數(shù)據(jù)質(zhì)量前提。近年來,諸多Hi-C數(shù)據(jù)標準化方法陸續(xù)被提出。2011年,Yaffe等[21]提出一種基于集成概率模型的標準化方法,其通過序列片段長度、GC含量和序列映射得到先驗概率,采用最大似然估計法確定模型參數(shù)。2012年,Cournac等[22]提出序列性組件標準化(sequential com-ponent normalization, SCN)方法,通過對單染色體接觸矩陣的行列歸一化產(chǎn)生標準化的雙隨機矩陣。2012年,Hu等[23]提出基于泊松回歸模型的HiCNorm方法,在考慮序列片段長度、GC含量和序列映射3種因素的情況下,將回歸后的殘差作為標準化后的接觸矩陣。2012年,Imakaev等[24]提出了面向全基因組的迭代修正和特征向量分解(iterative correction and eigenvector decomposition, ICE)方法,基于交互頻率庫規(guī)模等量和偏差分解思想進行接觸矩陣的快速標準化。2013年,Knight等[25]提出一種矩陣平衡的數(shù)學方法(knight-ruiz,KR),后被廣泛應用于Hi-C接觸矩陣的標準化當中。2016年,Wu等[26]提出一種通過移除拷貝數(shù)偏差(copy number bias)對原ICE標準化進行改進的caICB方法。2018年,Stansfield等[27,28]提出基于局部加權線性回歸的雙樣本標準化方法HiCcompare,并在2019年將其升級為有能力處理多組重復性樣本的MultiHiCcompare方法。2019年,Spill等[29]提出基于負二項回歸模型的Binless方法,其不依賴于接觸矩陣分辨率,可在配對末端序列片段水平上進行Hi-C數(shù)據(jù)標準化。各主要Hi-C數(shù)據(jù)標準化方法如表1所示。目前,除Binless之外,Hi-C數(shù)據(jù)的標準化均是在接觸矩陣水平上展開。接觸矩陣上的標準化方法按照是否考慮系統(tǒng)偏差的具體來源類型可分為顯式和隱式標準化,前者如HiCNorm和caICB,后者如SCN、ICE、KR、HiC-compare和MultiHiCcompare,其按照各樣本間是否存在數(shù)據(jù)交互又可分為單樣本和跨樣本標準化,前者如SCN、HiCNorm、ICE、KR和caICB,后者如HiCcompare和MultiHiCcompare。

        表1 Hi-C數(shù)據(jù)標準化方法

        1.2 多級結構分析

        染色體的構象具有多個層級結構[30],其結構單元由大到小依次為染色體疆域(chromosome terri-tories)、A/B區(qū)室(A/B compartments)、拓撲相關域(topological associated domains, TADs)和染色質(zhì)環(huán)(chromain looping)等(圖2)。這些分級結構及其在基因表達調(diào)控中的作用,是目前Hi-C生物信息學分析的核心內(nèi)容。通過對層級結構的鑒別可將模式復雜的交互作用矩陣轉(zhuǎn)化為易于解讀的特征信號,既便于樣本間的比較,也便于與其他生物特征關聯(lián)分析[19]。在此關注除染色體疆域(圖2A)之外的分級結構。

        1.2.1 A/B區(qū)室

        A/B區(qū)室代表開放和關閉兩種不同狀態(tài)的染色體區(qū)域,A區(qū)室富含轉(zhuǎn)錄因子結合位點和活性組蛋白標記,屬于轉(zhuǎn)錄活躍區(qū)域,而B區(qū)室含有抑制性組蛋白標記,屬于轉(zhuǎn)錄抑制區(qū)域。2009年,Lieberman- Aiden等[1]在首次建立Hi-C技術的同時,利用特定距離上全基因組范圍內(nèi)的平均交互概率因子,對接觸矩陣進行標準化,計算出行或列之間的皮爾遜相關系數(shù)矩陣,此矩陣的熱圖呈現(xiàn)出深淺交替的格子狀模式(圖2B),顯示出兩種不同結構特性的染色質(zhì)狀態(tài),即A/B區(qū)室,通過對矩陣的主成分分析,發(fā)現(xiàn)第一主成分中的正負值區(qū)間信息分別對應A/B區(qū)室,其數(shù)值與基因密度、轉(zhuǎn)錄因子結合位點以及組蛋白標記等密切相關。2015年,F(xiàn)ortin等[31]提出通過不同類別的表觀遺傳數(shù)據(jù),包括DNA甲基化微陣列、DNase超敏區(qū)序列、單細胞ATAC序列和單細胞全基因組亞硫酸氫鹽序列等,預測多個細胞系下染色體A/B區(qū)室的方法,驗證了A/B區(qū)室的結構和功能特性。2017年,山東農(nóng)業(yè)大學農(nóng)學院作物生物學國家重點實驗室李平華實驗室[32]發(fā)現(xiàn)大型植物的染色體可進一步劃分為局部的A/B區(qū)室,這些區(qū)室反映了它們的常染色質(zhì)、異染色質(zhì)和多梳結構。在A/B區(qū)室識別方法研究及其結構特性分析的基礎上,A/B區(qū)室與基因表達之間的關系也受到研究者的關注。2018年,Miura等[33]通過對Hi-C接觸矩陣的主成分分析生成常染色體和X染色體上的A/B區(qū)室圖譜數(shù)據(jù),在此基礎上,進一步分析了A/B區(qū)室的空間結構特征,并指出A/B區(qū)室的結構特異性及其與不同類型細胞中基因表達模式之間的聯(lián)系。

        1.2.2 拓撲相關域

        拓撲相關域TADs是染色體區(qū)域內(nèi)部交互作用水平遠高于相鄰區(qū)域的染色體結構單元,呈嵌套式(domain-in-domain)層級結構(圖2C),已被證實廣泛存在于真核生物的染色體當中[34,35]。TADs邊界富集染色質(zhì)調(diào)控蛋白CTCF、多種組蛋白修飾和持家基因等,其結構內(nèi)部的基因持有共同的調(diào)控元件,如啟動子和增強子等,這些基因在多種細胞系中存在協(xié)同表達特征,由此形成一個相對獨立的調(diào)控單元,被認為是復制時間調(diào)控(replication-timing regulation)的穩(wěn)定結構[34,36,37]。因此,TADs是染色體三維結構中的重要高階結構單元和基因調(diào)控單元,對TADs的識別分析有助于理解染色體的復雜結構及其與生物學功能之間的關系。2012年,Dixon等[34]在最先發(fā)現(xiàn)接觸矩陣中TADs結構的同時,提出一種互作方向指數(shù)(directionality index, DI)識別TAD邊界點,并首次分析了TADs邊界點附近CTCF和組蛋白修飾的高富集度以及基因的高表達水平特征。2014年,Levy-Leduc等[38]提出采用標準動態(tài)規(guī)劃法,迭代求解TADs邊界分割模型以得到TADs邊界點的HiCseg方法。2015年,上海交通大學Shi聯(lián)合美國南加州大學Shin等[39],提出TADs邊界點識別方法TopDom,其采用鉆石形滑動窗口法,提取接觸矩陣對角線附近窗口內(nèi)交互頻率的統(tǒng)計特征,將特征曲線的局部極大值作為TADs邊界點。2016年,Weinreb等[40]提出基于TADs內(nèi)部交互頻率的經(jīng)驗分布,進行層級式TADs識別的TADtree方法。2017年,Serra等[41]提出采用基于BIC懲罰的最大似然估計求解接觸矩陣交互頻率的概率模型,識別TADs邊界點的TADbit方法。2017年,華中農(nóng)業(yè)大學彭城等[42]提出層級式TADs識別方法HiTAD,其采用基于適應性交互方向指數(shù)的隱馬爾科夫模型預測TADs邊界點,在此基礎上,采用迭代最優(yōu)化策略搜尋接觸矩陣中的層級式TADs。2017年,Haddad等[43]提出采用接觸矩陣行或列的層次聚類,識別層級式TADs的IC-Finder方法。2017年,Yu等[44]提出采用高斯混合模型,進行層級式TADs識別的GMAP方法。2018年,Norton等[45]提出基于圖理論進行層級式TADs識別的3DNetMod方法。2018年,中國科學院北京基因組研究所張治華團隊聯(lián)合北京航空航天大學計算機科學學院軟件開發(fā)環(huán)境國家重點實驗室李昂升團隊,提出一種基于圖結構熵理論的快速層級式TAD識別方法deDoc[46]。2018年,清華大學生物信息學教育部重點實驗室陳陽等、南方科技大學前沿與交叉科學研究院李貴鵬等以及美國德克薩斯大學Zhang等[47],提出結合局部相對隔絕指數(shù)和多尺度聚類法進行TADs邊界點識別的HiCDB方法。各主要TADs識別方法如表2所示。目前,除HiCDB之外,其他方法均不具備不同條件下TADs邊界點差異性分析的能力。各方法按照是否考慮TADs的層級式結構又可分為邊界點式和層級式兩大類,前者如DI、HiCseg、TopDom和TADbit,后者如TADtree、HiTAD、IC-Finder、GMAP和3DNetMod。

        圖2 染色體多級結構

        A:染色質(zhì)疆域;B:A/B區(qū)室;C:拓撲相關域;D:染色質(zhì)環(huán)。數(shù)據(jù)來源于Juicer數(shù)據(jù)集。

        表2 TADs識別方法

        1.2.3 染色質(zhì)環(huán)

        染色質(zhì)環(huán)(chromatin loops)也可稱為交互峰(in-teraction peaks),由染色體上相距較遠的兩個片段構成,其在線性空間中雖相距較遠,但在三維空間結構中卻具有顯著的近距交互作用(圖2D)。染色質(zhì)環(huán)對理解染色體結構以及基因表達調(diào)控具有重要意義。2009年,Sexton等[48]基于3C技術研究了染色體的空間結構及其在基因表達調(diào)控中的作用,在分析染色體顯著性交互作用的基礎上,提出染色質(zhì)環(huán)概念。2013年,復旦大學遺傳工程國家重點實驗室田衛(wèi)東團隊將Hi-C染色體空間交互數(shù)據(jù)引入到人類基因組作用元件與目標基因之間關系的預測當中,結果分析表明,基于Hi-C的染色質(zhì)環(huán)信息能有效提升預測結果的生物功能特性及疾病相關性[49]。隨后,染色質(zhì)環(huán)的識別方法不斷涌現(xiàn)。2014年,Ay等[50]對Hi-C數(shù)據(jù)中的隨機聚合環(huán)和技術型系統(tǒng)偏差進行聯(lián)合建模分析,提出了染色質(zhì)環(huán)的識別方法Fit-Hi-C。2014年,Rao等[51]基于泊松分布模型提出了HiCCUPS方法,在去除TAD結構影響的前提下預測了染色質(zhì)交互作用。2014年,Hwang等[52]基于負二項分布概率模型提出一種染色質(zhì)環(huán)識別方法HIPPIE。2015年,Lun等[53]提出包括Hi-C配對末端序列片段預處理,數(shù)據(jù)標準化以及染色質(zhì)環(huán)識別與差異分析的方法包dffHiC。2017年,中國科學院北京基因組研究所張治華[54]團隊針對當時因Kbp分辨率Hi-C數(shù)據(jù)制備成本高昂而造成染色質(zhì)環(huán)精確識別困難的問題,提出一種結合Kbp分辨率MNase- seq數(shù)據(jù)和低分辨Hi-C數(shù)據(jù)的染色質(zhì)環(huán)精確識別方法CISD_loop。2018年,Djekidel等[55]基于空間泊松分布模型提出了檢測染色質(zhì)差異交互作用的方法FIND。隨著對染色質(zhì)環(huán)結構的深入了解,國內(nèi)外相關學者也針對染色質(zhì)環(huán)與病理之間的關系展開研究。2018年,Manduchi等[56]借助功能基因組學數(shù)據(jù),分析了二型糖尿病患者基因組中增強子與啟動子之間的空間交互及其與基因表達調(diào)控之間的關系,證實了增強子–啟動子環(huán)在該類疾病發(fā)生發(fā)展中的作用。主要的染色質(zhì)環(huán)識別方法如表3所示。按照針對顯著交互作用還是差異交互作用進行鑒別可以劃分為兩種類型。其中,針對顯著交互的有Fit-HiC、HiCCUPS、HIPPIE和CISD_loop,針對差異交互的有DiffiHiC和FIND。

        1.3 數(shù)據(jù)可視化

        數(shù)據(jù)可視化即為Hi-C數(shù)據(jù)的圖形化顯示及分析,最初的形式僅為接觸矩陣的熱圖,隨著Hi-C數(shù)據(jù)的不斷累積及其分析處理復雜度的不斷提升,一些Hi-C可視化平臺相繼出現(xiàn)。2013年,Zhou等[57]對原有Web Server服務器WashU Epigenome Browser進行升級,在已有不同物種不同組織與細胞系的表觀基因組數(shù)據(jù)和轉(zhuǎn)錄組數(shù)據(jù)基礎上,增添了遠距基因組交互數(shù)據(jù),其可借助三角形熱圖和兩點間弧線對Hi-C和ChIA-PET數(shù)據(jù)中的空間結構關系進行圖形化注解分析。2015年,Akdemir等[58]開發(fā)出一款Hi-C專用對比分析工具HiCPlotter,其將不同條件下的Hi-C矩陣熱圖與多能性因子、長非編碼RNA以及結構蛋白等進行圖形化并置,極大方便了基于Hi-C技術的染色體結構與功能對比分析。2016年,北京大學生命科學學院李程等[59]開發(fā)了一種Web Server服務器3Disease Browser,其實現(xiàn)了Hi-C數(shù)據(jù)、Chip-seq數(shù)據(jù)以及疾病相關染色體重排(chromo-somal rearrangement, CR)數(shù)據(jù)的整合與可視化,具備對染色體特定重排區(qū)域進行三維立體可視化的能力。同年,Durand等[60]開發(fā)了基于云平臺的Hi-C可視化軟件Juicebox,該軟件提供對外數(shù)據(jù)接口,支持染色體、分辨率和標準化方法選擇、熱圖縮放以及與CTCF和RNA-seq等數(shù)據(jù)的關聯(lián)分析等。2017年,Djekidel等[61]開發(fā)出的Web Server服務器HiC-3Dviewer,能夠在三維空間中對Hi-C接觸矩陣映射到染色體的相應區(qū)域進行交互式立體可視化,且具備ChIP-Seq和SNP數(shù)據(jù)標注功能。2017年,中國科學院北京基因組研究所張治華團隊[62]開發(fā)出的Web Server服務器Delta,實現(xiàn)了Hi-C數(shù)據(jù)和ChIA-PET數(shù)據(jù)的可視化及結構分析,包括數(shù)據(jù)的交互式可視化、TADs和染色質(zhì)環(huán)的結構預測以及基因組的三維建模。2018年,Calandrelli等[63]給出了開源的Hi-C可視化軟件工具GITAR,該軟件支持Hi-C數(shù)據(jù)預處理、標準化、TADs分析以及不同樣本對比的可視化操作及結果顯示。2018年,Wang等[64]開發(fā)的三維基因組Web Server服務器3D Genome bro-wser,囊括了人類與小鼠的300多項不同類型數(shù)據(jù),包括Hi-C、ChIA-PET、Capture Hi-C、PLAC-Seq、HiChIP、GAM和SPRITE,集成了包括ICE標準化、A/B區(qū)室識別和TADs識別工具的分析結果。同年,Wolff等[65]開發(fā)的集Hi-C數(shù)據(jù)預處理、接觸矩陣標準化、A/B區(qū)室和TADs識別以及基因表達譜數(shù)據(jù)和Chip-seq數(shù)據(jù)等輔助分析于一體的可視化Web Server服務器Galaxy HiCExplorer,實現(xiàn)了Hi-C數(shù)據(jù)分析處理過程中絕大多數(shù)流程的數(shù)據(jù)可視化,人機交互更為友善。各主要Hi-C可視化工具軟件如表4所示。

        表3 染色質(zhì)環(huán)識別方法

        1.4 三維建模

        三維建模是Hi-C的一項重要應用,其通過Hi-C數(shù)據(jù)的建模分析得到染色體的結構信息,從而在三維立體空間中重現(xiàn)染色體的物理結構,以輔助科學研究。2002年,Dekker等[4]在提出3C技術以及交互頻率矩陣概念的基礎上,借助聚合體柔度及多種結構參數(shù)估算出酵母菌3號染色體上78對位點之間的空間距離,進而首次建立起基于3C數(shù)據(jù)的染色體空間構象三維模型。2011年,Rousseau等[66]提出一種適用于5C和Hi-C數(shù)據(jù)的染色體空間結構三維建模方法MCMC5C,該方法給出從染色體交互頻率到位點空間距離的概率模型,采用馬爾可夫鏈蒙特卡羅抽樣算法進行求解,并將其用在1Mb分辨率的Hi-C數(shù)據(jù)集上,建立起人類14號染色體的三維模型。2013年,Zhang等[67]提出基于Hi-C數(shù)據(jù)的染色體三維結構建模方法ChromSDE,其借助黃金分割搜索算法對交互頻率與空間距離之間的轉(zhuǎn)換進行參數(shù)優(yōu)化,利用半正定規(guī)劃技術建立起染色體三維結構模型。2013年,華中農(nóng)業(yè)大學彭城等[68]提出一種基于Hi-C數(shù)據(jù)的染色體三維結構建模方法Auto-Chrom3D,其借助測序序列偏置松弛結構參數(shù)和分段線性函數(shù)實現(xiàn)各位點空間距離的轉(zhuǎn)換,建立起染色體的三維結構模型,不同于以往其它建模方法,該方法考慮了不同實驗中測序深度所引發(fā)的區(qū)域交互作用的偏差。2015年,Trieu等[69]在已有單染色體三維結構建模方法的基礎上,提出了基因組三維結構建模軟件MOGEN,該軟件能夠有效處理噪聲以及不同染色體間Hi-C數(shù)據(jù)的差異。2017年,Paulsen等[70]提出了基于Hi-C數(shù)據(jù)和核纖層蛋白Chip-seq數(shù)據(jù)的全基因組三維結構建模軟件Chrom3D,相比于之前的同類方法,Chrom3D集成了TADs徑向位置約束條件,具備在單細胞水平進行全基因組三維空間結構建模的能力。2018年,Segal等[71]針對現(xiàn)有染色體三維結構重建算法準確性難以評估的現(xiàn)狀,提出了基于染色體結構圖譜的新的精度評估方法。同年,清華大學曾堅陽團隊[72]提出一種基于構象能和流行學習的染色體三維結構建??蚣蹽EM,與其它同類建模方法相比,GEM綜合考慮了Hi-C交互數(shù)據(jù)以及染色體的生物物理可行性和結構穩(wěn)定性,在方法有效性和模型物理生物特性驗證中具備優(yōu)勢??梢钥闯?,上述染色體三維空間結構建模方法,大多基于兩步走的思路,即首先由交互頻率數(shù)據(jù)推算出染色體各位點之間的空間距離,然后借助空間距離數(shù)據(jù)構建出染色體的空間結構模型,如MCMC5C、ChromSDE、AutoChrom3D和Chrom3D。與其形成對比的是不需要先行估算出各位點之間的空間距離,而是一種基于交互頻率數(shù)據(jù)的結構模型優(yōu)化過程,如MOGEN和GEM。

        表4 Hi-C數(shù)據(jù)可視化軟件

        2 Hi-C研究發(fā)展動態(tài)

        從2009年Hi-C技術的首次提出,到實驗數(shù)據(jù)的分析處理,基于Hi-C技術的染色體空間結構研究歷經(jīng)了大約10年時間。10年來,Hi-C數(shù)據(jù)的生物信息學分析進展迅速。

        在數(shù)據(jù)標準化方面,2012年到2013年期間,快速涌現(xiàn)出SCN[22]、ICE[24]和KR[25]等多種基于矩陣平衡策略的隱式標準化方法,以及以HiCNorm[23]為代表的基于模型構建策略的顯式標準化方法。在隨后的幾年內(nèi),雖然也出現(xiàn)了多種接觸矩陣標準化方法,如通過移除拷貝數(shù)偏差對ICE進行改進的caICB[26]方法,但這些方法均局限于對單樣本Hi-C接觸矩陣的處理。直到2018年,HiCcompare[27]方法首次將Hi-C接觸矩陣標準化推向了雙樣本層面。2019年,其又被提出者升級為能夠滿足重復性樣本標準化的MultiHiCcompare[28]方法。同年,出現(xiàn)了在配對末端序列水平上的標準化方法Binless[29]??梢钥闯?,盡管各Hi-C數(shù)據(jù)標準化方法在顯式和隱式,矩陣平衡和模型構建,以及接觸矩陣水平和配對末端序列片段水平上有所差異,但基本呈現(xiàn)出由單樣本標準化向跨樣本標準化推進的發(fā)展動態(tài)。

        在多級結構方面,2009年,Hi-C接觸矩陣中的A/B區(qū)室被發(fā)現(xiàn),首個A/B區(qū)室計算方法被提出[1]。同年,基于3C技術的染色質(zhì)環(huán)結構被發(fā)現(xiàn),其在基因表達調(diào)控中的作用被分析。2012年,接觸矩陣中的TADs結構被發(fā)現(xiàn),首個TADs邊界點識別算法DI被提出[34]。2013年,TADs的層級結構被發(fā)現(xiàn)[35]。此后,涌現(xiàn)出多種Hi-C接觸矩陣中各級結構的識別分析方法。如2014年的染色質(zhì)環(huán)識別方法Fit-Hi-C[50]、HiCCUPS[51]和HIPPIE[52],2015年的多個細胞系下染色體A/B區(qū)室預測方法,同年的首個不同條件下染色質(zhì)環(huán)差異分析方法dffHiC[53],2016年的首個層級式TADs識別方法TADtree[40],2017年的層級式TADs識別方法TADbit[41]、HiTAD[42]、IC-Finder[43]和GMAP[44],以及2018年首個支持TADs邊界點差異性分析的方法HiCDB[47]??梢钥闯?,接觸矩陣中多級結構的探索大體經(jīng)歷了從結構發(fā)現(xiàn)到識別分析的過程。雖然A/B區(qū)室結構最早被發(fā)現(xiàn),但對多級結構的分析更多集中在TADs和染色質(zhì)環(huán)上,其中,對TADs的研究已從接觸矩陣對角線上TADs邊界點的識別,逐步深入到TADs層級式結構及其功能分析,而對染色質(zhì)環(huán)的研究則呈現(xiàn)出由結構識別預測向不同條件下結構差異分析逐步推進的發(fā)展態(tài)勢。

        在數(shù)據(jù)可視化方面,自Hi-C技術提出之時就已使用log比例上的熱圖來顯示接觸矩陣數(shù)據(jù)。此后,在2013年,原Web Server服務器WashU Epigenome Browser[57]通過升級,具備了Hi-C數(shù)據(jù)熱圖顯示及其功能可視化關聯(lián)分析的功能。隨著Hi-C數(shù)據(jù)的持續(xù)累積及其分析處理復雜度的不斷提升,2016年,出現(xiàn)了Hi-C數(shù)據(jù)云平臺及可視化分析軟件Juicebox[60],以及集成Hi-C數(shù)據(jù)、Chip-seq數(shù)據(jù)和CR數(shù)據(jù),且支持重排區(qū)域三維可視化的Web Server服務器3Disease Browser[59],為Hi-C相關數(shù)據(jù)的獲取、結果關聯(lián)分析以及三維可視化提供了軟件工具支撐。2017年,出現(xiàn)了交互式三維立體可視化Web Server服務器HiC-3Dviewer[61],以及集成多種Hi-C數(shù)據(jù)分析工具的Web Server服務器Delta[62]。2018年,進一步涌現(xiàn)出集成多種Hi-C相關數(shù)據(jù)及其分析工具的可視化軟件,如GITAR[63]、3D Genome browser[64]和Galaxy HiCExplorer[65]??梢钥闯?,Hi-C數(shù)據(jù)可視化軟件呈現(xiàn)出數(shù)據(jù)類型復雜化多樣化、視覺交互三維立體化以及分析工具集成化的發(fā)展態(tài)勢。

        在三維建模方面,2011年,適用于5C和Hi-C數(shù)據(jù)的染色體空間結構三維建模方法MCMC5C[66]被提出。此后,專注于Hi-C數(shù)據(jù)的染色體三維建模方法陸續(xù)出現(xiàn),如2013年的ChromSDE[67]和AutoChrom3D[68]。此幾種方法雖然在考量因素和具體算法上有所不同,但均遵循了從交互頻率到染色體各位點空間距離推算,再到染色體空間結構建模的同一思路。隨后,出現(xiàn)了一類無需先行估算各位點空間距離,而是直接基于Hi-C交互頻率數(shù)據(jù)進行染色體空間結構建模的方法,如2015年的全基因組三維結構建模方法MOGEN[69],以及2018年基于構象能和流行學習的建模方法GEM[71]。此外,2017年,出現(xiàn)了支持在單細胞水平上進行全基因組Hi-C三維建模的方法Chrom3D[70]??梢钥闯?,基于Hi-C數(shù)據(jù)的染色體三維建模方法,經(jīng)歷了由分步計算到直接建模,由單個染色體向全基因組,再向單細胞水平逐步拓展的發(fā)展過程(圖3)。

        3 Hi-C研究發(fā)展趨勢

        從上述研究現(xiàn)狀和發(fā)展動態(tài)可以看出,Hi-C技術及實驗數(shù)據(jù)分析已經(jīng)成為三維基因組學中備受關注的問題。以下僅從4個方面對Hi-C生物信息學方向的研究趨勢進行淺析,包括跨樣本標準化、多級結構差異及其調(diào)控機制分析、單細胞Hi-C數(shù)據(jù)分析和Hi-C數(shù)據(jù)可視化平臺。

        3.1 跨樣本標準化

        Hi-C數(shù)據(jù)的標準化絕大多數(shù)是在接觸矩陣水平上展開。接觸矩陣上的標準化方法按照是否考慮系統(tǒng)偏差的具體來源類型可分為顯式和隱式標準化,按照各樣本間是否存在數(shù)據(jù)交互又可分為單樣本和跨樣本標準化。標準化是后續(xù)分析的數(shù)據(jù)質(zhì)量保障,而單樣本標準化方法無法保障兩組重復性樣本之間的統(tǒng)計可比性,僅有的跨樣本標準化方法HiCcom-pare和MultiHiCcompare,在接觸矩陣分辨率不斷提高、重復性樣本數(shù)量持續(xù)增加和后續(xù)分析處理日趨復雜化的情況下,面臨質(zhì)量、效率和方法選擇上的多重壓力。因此,適用于高分辨率的跨樣本高效標準化方法的研究,是Hi-C數(shù)據(jù)后續(xù)分析的結果質(zhì)量保證和必經(jīng)之路。

        3.2 多級結構差異及其調(diào)控機制分析

        差異分析是研究基因表達調(diào)控的重要手段之一,其通過分析不同條件下兩組樣本之間的顯著性差異,探索基因和表型之間的聯(lián)系。在基于Hi-C的三維基因組學中,染色體的多級結構與基因表達調(diào)控息息相關,使得不同條件下多級結構的差異分析成為此新領域的核心問題之一。如上述Hi-C研究現(xiàn)狀和發(fā)展動態(tài)所述,目前,雖然已涌現(xiàn)出多種用于A/B區(qū)室、TADs和染色質(zhì)環(huán)分析的方法軟件,但具有差異分析能力的方法卻十分缺乏,如可用于Hi-C接觸矩陣中染色質(zhì)環(huán)差異分析的方法diffHic。大多差異分析仍停留在單樣本實驗驗證探索或者簡單統(tǒng)計分析階段。例如,F(xiàn)raser等[73]在2015年給出小鼠胚胎干細胞分化過程中不同時間點上層級式TADs的樹形結構,并采用協(xié)表相關系數(shù),分析了不同細胞系下TADs樹形結構的構造差異。隨著接觸矩陣分辨率的不斷提高,各級結構的可預測數(shù)目迅猛增長,再加上為降低隨機誤差而引入的重復性樣本,單靠熱圖對比和統(tǒng)計檢驗已遠遠不能滿足后續(xù)差異分析的需要,因此,在三維基因組學,研究不同條件下,包括兩種正常細胞系之間、正常細胞系與癌變細胞系之間以及同一細胞系不同時間點之間,Hi-C數(shù)據(jù)中多級結構,包括A/B區(qū)室、TADs和染色質(zhì)環(huán),的差異分析方法,進而探索各級差異性結構在基因表達調(diào)控中作用機制,是探索生物體細胞分化、形態(tài)產(chǎn)生和疾病發(fā)生發(fā)展等不可或缺的手段,其必將成為未來Hi-C領域生物信息學的研究熱點之一。

        圖3 Hi-C研究發(fā)展動態(tài)

        3.3 單細胞Hi-C數(shù)據(jù)分析

        單細胞Hi-C技術用于稀少細胞或者處于特殊形態(tài)細胞的染色體構象捕獲。常規(guī)Hi-C技術只能借助群體細胞構象數(shù)據(jù)的平均值來估計染色體交互作用,個別細胞的重要信號往往會被當作異常值受到弱化,而單細胞Hi-C技術可以很好解決細胞群體的異質(zhì)性問題,其通過對生命活動最小單位的空間構象進行捕獲,得到更有針對性的染色體交互信息。自Takashi等[10]于2013年提出單細胞Hi-C技術以來,單細胞Hi-C數(shù)據(jù)分析也應運而生。例如,Liu等[74]于2018年提出用于消除單細胞Hi-C數(shù)據(jù)中系統(tǒng)性偏差的軟件包scHiCNorm;Liu等[75]于2019年利用單細胞測序揭示了與骨髓基質(zhì)細胞亞群和培養(yǎng)時間相關的基因表達特征。單細胞Hi-C技術使得在單細胞水平進行染色體空間交互作用的研究成為可能,極大推進了三維基因組學的發(fā)展,基于該項技術的單細胞Hi-C數(shù)據(jù)分析,使得不同條件下各類細胞之間的空間構象得以精細區(qū)分,對探究基因表達調(diào)控的時空機制意義重大,勢必受到專家學者的廣泛關注與重視。

        3.4 Hi-C數(shù)據(jù)可視化平臺

        隨著Hi-C數(shù)據(jù)中各級結構及其生物學功能分析的不斷深入,可視化平臺也面臨諸多挑戰(zhàn),逐步朝著數(shù)據(jù)復雜化多樣化、視覺交互三維立體化以及分析工具集成化方向發(fā)展。Hi-C數(shù)據(jù)的復雜化多樣化,即各物種不同組織和不同細胞系下Hi-C數(shù)據(jù)和各類組學數(shù)據(jù)的整合、關聯(lián)與顯示,包括不同分辨率Hi-C數(shù)據(jù)和ChIP-seq、RNA-seq、SNP以及疾病相關CR等數(shù)據(jù);視覺交互三維立體化,即交互作用數(shù)據(jù)的可視化已不再局限于傳統(tǒng)熱圖形式,呈現(xiàn)出與三維建模相結合的交互式三維立體顯示趨勢;分析工具集成化,即各類用于Hi-C數(shù)據(jù)分析的基礎性方法工具逐漸被集成到系統(tǒng)平臺當中,如標準化方法以及A/B區(qū)室、TADs和染色質(zhì)環(huán)預測方法等。此外,Hi-C數(shù)據(jù)的集約型分析顯示方法也日趨重要。得益于Hi-C技術的進步,接觸矩陣的分辨率得到了顯著提高,從原來的Mb級別發(fā)展到現(xiàn)今的1 Kb甚至200 bp[76],這使得高分辨率條件下Hi-C數(shù)據(jù)的處理顯示面臨計算資源不足的壓力,因此,高效快速的Hi-C數(shù)據(jù)組織、分析及可視化方法工具在平臺集成中將更具優(yōu)勢。

        [1] Lieberman-Aiden E, van Berkum NL, Williams L, Imakaev M, Ragoczy T, Telling A, Amit I, Lajoie BR, Sabo PJ, Dorschner MO, Sandstrom R, Bernstein B, Bender MA, Groudine M, Gnirke A, Stamatoyannopoulos J, Mirny LA, Lander ES, Dekker J. Comprehensive mapping of long- range interactions reveals folding principles of the human genome., 2009, 326(5950): 289–293.

        [2] Schmitt AD, Hu M, Ren B. Genome-wide mapping and analysis of chromosome architecture., 2016, 17(12): 743–755.

        [3] Li GL, Ruan YJ, Gu RS, Du SM. Emergence of 3D genomics., 2014, 59(13):1165–1172.李國亮, 阮一駿, 谷瑞升, 杜生明. 起航三維基因組學研究. 科學通報, 2014, 59(13): 1165–1172.

        [4] Dekker J, Rippe K, Dekker M, Kleckner N. Capturing chromosome conformation., 2002, 295(5558): 1306–1311.

        [5] Zhao ZH, Tavoosidana G, Sj?linder M, G?nd?r A, Mariano P, Wang S, Kanduri C, Lezcano M, Sandhu KS, Singh U, Pant V, Tiwari V, Kurukuti S, Ohlsson R. Circular chro-mosome conformation capture (4C) uncovers extensive networks of epigenetically regulated intra- and interchro-mosomal interactions., 2006, 38(11): 1341–1347.

        [6] Dostie J, Richmond TA, Arnaout RA, Selzer RR, Lee WL, Honan TA, Rubio ED, Krumm A, Lamb J, Nusbaum C, Green RD, Dekker J. Chromosome conformation capture carbon copy (5C): a massively parallel solution for map-ping interactions between genomic elements., 2006, 16(10): 1299–1309.

        [7] Zhang XY, He C, Ye BY, Xie DJ, Shi ML, Zhang Y, Shen WL, Li P, Zhao ZH. Optimization and quality control of genome-wide Hi-C library preparation., 2017, 39(9): 847–855.張香媛, 何超, 葉丙雨, 謝德健, 師明磊, 張彥, 沈文龍, 李平, 趙志虎. 全基因組染色質(zhì)相互作用Hi-C文庫制備的優(yōu)化及其質(zhì)量控制. 遺傳, 2017, 39(9): 847–855.

        [8] de Wit E, de Laat W. A decade of 3C technologies: insights into nuclear organization., 2012, 26(1): 11–24.

        [9] Schoenfelder S, Furlan-Magaril M, Mifsud B, Tavares- Cadete F, Sugar R, Javierre BM, Nagano T, Katsman Y, Sakthidevi M, Wingett SW, Dimitrova E, Dimond A, Edelman LB, Elderkin S, Tabbada K, Darbo E, Andrews S, Herman B, Higgs A, LeProust E, Osborne CS, Mitchell JA, Luscombe NM, Fraser P. The pluripotent regulatory circuitry connecting promoters to their long-range inter-acting elements., 2015, 25(4): 582–597.

        [10] Takashi Nagano, Yaniv Lubling, Tim J. Stevens, Stefan Schoenfelder, Eitan Yaffe, Wendy Dean, Ernest D. Laue, Amos Tanay, Peter Fraser. Single-cell Hi-C reveals cell-to- cell variability in chromosome structure., 2013, 502(7469): 59–64.

        [11] Liang ZY, Li GP, Wang ZJ, Djekidel MN, Li YJ, Qian MP, Zhang MQ, Chen Y. BL-Hi-C is an efficient and sensitive approach for capturing structural and regulatory chromatin interactions., 2017, 8(1): 1622.

        [12] Lin D, Hong P, Zhang SH, Xu WZ, Jamal M, Yan KJ, Lei YY, Li L, Ruan YJ, Fu Z, Li GL, Cao G. Digestion- ligation-only Hi-C is an efficient and cost-effective method for chromosome conformation capture., 2018, 50(5): 754–763.

        [13] Barrett T, Edgar R. Gene expression omnibus: microarray data storage, submission, retrieval, and analysis., 2006, 411: 352–369.

        [14] Qu HZ, Fang XD. A brief review on the human encyc-lopedia of DNA elements (encode) project., 2013, 11(3): 135–141.

        [15] Moore D, Dines J, Doss MM, Vepa J, Cheng O, Hain T. Juicer: A weighted finite-state transducer speech decoder., 2006, 4299: 285–296.

        [16] de Wit E, de Laat W. A decade of 3C technologies: insights into nuclear organization., 2012, 26(1): 11–24.

        [17] Shavit Y, Merelli I, Milanesi L, Lio’ P. How computer science can help in understanding the 3D genome architecture., 2016, 17(5): 733–744.

        [18] Schmitt AD, Hu M, Ren B. Genome-wide mapping and analysis of chromosome architecture., 2016, 17(12): 743–755.

        [19] Eagen KP. Principles of chromosome architecture revealed by Hi-C., 2018, 43(6): 469–478.

        [20] Zhang XL, Fang H, Wang XW. The progress of methods for analysing 3D genome data., 2018, 45(11): 1093–1105.張祥林, 方歡, 汪小我. 三維基因組數(shù)據(jù)分析方法進展. 生物化學與生物物理進展, 2018, 45(11): 1093–1105.

        [21] Yaffe E, Tanay A. Probabilistic modeling of Hi-C contact maps eliminates systematic biases to characterize global chromosomal architecture., 2011, 43(11): 1059–1065.

        [22] Cournac A, Marie-Nelly H, Marbouty M, Koszul R, Mozziconacci J. Normalization of a chromosomal contact map., 2012, 13(1): 436.

        [23] Hu M, Deng K, Selvaraj S, Qin ZH, Ren B, Liu JS. HiCNorm: removing biases in Hi-C data via poisson regression., 2012, 28(23): 3131–3133.

        [24] Imakaev M, Fudenberg F, McCord RP, Naumova N, Goloborodko A, Lajoie BR, Dekker J, Mirny LA. Iterative correction of Hi-C data reveals hallmarks of chromosome organization., 2012, 9(10): 999–1003.

        [25] Knight PA, Ruiz D. A fast algorithm for matrix balancing., 2013, 33(3): 1029–1047.

        [26] Wu HJ, Michor F. A computational strategy to adjust for copy number in tumor Hi-C data., 2016, 32(24): 3695–3701.

        [27] Stansfield JC, Cresswell KG, Vladimirov VI, Dozmorov MG. HiCcompare: an R-package for joint normalization and comparison of Hi-C datasets., 2018, 19(1): 279.

        [28] Stansfield JC, Cresswell KG, Dozmorov MG. multiHiC-compare: joint normalization and comparative analysis of complex Hi-C experiments., 2019, 35(17): 2916–2923.

        [29] Spill YG, Castillo D, Vidal E, Marti-Renom MA. Binless normalization of Hi-C data provides significant interaction and difference detection independent of resolution., 2019, 10(1): 1938.

        [30] Ning CY, He MN, Tang QZ, Zhu Q, Li MZ, Li DY. Advances in mammalian three-dimensional genome by using Hi-C technology approach., 2019, 41(3): 215–233.寧椿游, 何夢楠, 唐茜子, 朱慶, 李明洲, 李地艷. 基于Hi-C技術哺乳動物三維基因組研究進展. 遺傳, 2019, 41(3): 215–233.

        [31] Fortin JP, Hansen KD. Reconstructing A/B compartments as revealed by Hi-C using long-range correlations in epigenetic data., 2015, 16(1): 180.

        [32] Dong PF, Tu XY, Chu PY, Lu P, Zhu N, Grierson D, Du BJ, Li PH, Zhong SL. 3D chromatin architecture of large plant genomes determined by local A/B compartments., 2017, 10(12): 1497–1509.

        [33] Miura H, Poonperm R, Takahashi S, Hiratani I. Practical analysis of Hi-C data: generating A/B compartment profiles., 2018: 221–245.

        [34] Dixon JR, Selvaraj S, Yue F, Kim A, Li Y, Shen Y, Hu M, Liu JS, Ren B. Topological domains in mammalian genomes identified by analysis of chromatin interactions., 2012, 485(7398): 376–380.

        [35] Phillips-Cremins JE, Sauria MEG, Sanyal A, Gerasimova TI, Lajoie BR, Bell JSK, Ong CT, Hookway TA, Guo CY, Sun YH, Bland NJ, Wagstaff W, Dalton S, McDevitt TC, Sen R, Dekker J, Taylor J, Corces VG. Architectural protein subclasses shape 3D organization of genomes during lineage commitment., 2013, 153(6): 1281–1295.

        [36] Pope BD, Ryba T, Dileep V, Yue F, Wu WS, Denas O, Vera DL, Wang YL, Hansen RS, Canfield TK, Thurman RE, Cheng Y, Gülsoy G, Dennis JH, Snyder MP, Stamato-yannopoulos JA, Taylor J, Hardison RC, Kahveci T, Ren B, Gilbert DM. Topologically associating domains are stable units of replication-timing regulation., 2014, 515(7527): 402–405.

        [37] Narendra V, Bulaji? M, Dekker J, Mazzoni EO, Reinberg D. Corrigendum: CTCF-mediated topological boundaries during development foster appropriate gene regulation., 2016, 30(24): 2657–2662.

        [38] Lévy-Leduc C, Delattre M, Mary-Huard T, Robin S. Two- dimensional segmentation for analyzing Hi-C data., 2014, 30(17): i386–i392.

        [39] Shin HJ, Shi Y, Dai C, Tjong H, Gong K, Alber F, Zhou XJ. TopDom: an efficient and deterministic method for iden-tifying topological domains in genomes., 2015, 44(7): e70.

        [40] Weinreb C, Raphael BJ. Identification of hierarchical chromatin domains., 2016, 32(11): 1601– 1609.

        [41] Serra F, Baù D, Goodstadt M, Castillo D, Filion GJ, Marti-Renom MA. Automatic analysis and 3D-modelling of Hi-C data using TADbit reveals structural features of the fly chromatin colors., 2017, 13(7): e1005665.

        [42] Wang XT, Cui W, Peng C. HiTAD: detecting the structural and functional hierarchies of topologically associating domains from chromatin interactions., 2017, 45(19): e163.

        [43] Haddad N, Vaillant C, Jost D. IC-Finder: inferring robustly the hierarchical organization of chromatin folding., 2017, 45(10): e81.

        [44] Yu WB, He B, Tan K. Identifying topologically associating domains and subdomains by gaussian mixture model and proportion test., 2017, 8(1): 535.

        [45] Norton HK, Emerson DJ, Huang H, Kim J, Titus KR, Gu S, Bassett DS, Phillips-Cremins JE. Detecting hierarchical genome folding with network modularity., 2018, 15(2): 119–122.

        [46] Li AS, Yin XC, Xu BX, Wang DY, Han JM, Wei Y, Deng Y, Xiong Y, Zhang ZH. Decoding topologically associating domains with ultra-low resolution Hi-C data by graph structural entropy., 2018, 9(1): 3265.

        [47] Chen FL, Li GP, Zhang MQ, Chen Y. HiCDB: a sensitive and robust method for detecting contact domain boun-daries., 2018, 46(21): 11239–11250.

        [48] Sexton T, Bantignies F, Cavalli G. Genomic interactions: chromatin loops and gene meeting points in transcriptional regulation., 2009, 20(7): 849–855.

        [49] Lu YL, Zhou YP, Tian WD. Combining Hi-C data with phylogenetic correlation to predict the target genes of distal regulatory elements in human genome., 2013, 41(22): 10391–10402.

        [50] Ay F, Bailey TL, Noble WS. Statistical confidence estimation for Hi-C data reveals regulatory chromatin contacts., 2014, 24(6): 999–1011.

        [51] Rao SSP, Huntley MH, Durand NC, Stamenova EK, Bochkov ID, Robinson JT, Sanborn AL, Machol I, Omer AD, Lander ES, Aiden EL. A 3D map of the human genome at kilobase resolution reveals principles of chromatin looping., 2014, 159(7): 1665–1680.

        [52] Hwang YC, Lin CF, Valladares O, Malamon J, Kuksa PP, Zheng Q, Gregory BD, Wang LS. HIPPIE: a high-throug-hput identification pipeline for promoter interacting enh-ancer elements., 2014, 31(8): 1290–1292.

        [53] Lun ATL, Smyth GK. diffHic: a bioconductor package to detect differential genomic interactions in Hi-C data., 2015, 16(1): 258.

        [54] Zhang H, Li FF, Jia Y, Xu BX, Zhang YQ, Li XL, Zhang ZH. Characteristic arrangement of nucleosomes is predic-tive of chromatin interactions at kilobase resolution., 2017, 45(22): 12739–12751.

        [55] Djekidel MN, Chen Y, Zhang MQ. FIND: difFerential chromatin interactions detection using a spatial poisson process., 2018, 28(3): 412–422.

        [56] Manduchi E, Chesi A, Hall MA, Grant SFA, Moore JH. Leveraging putative enhancer-promoter interactions to investigate two-way epistasis in type 2 diabetes GWAS., 2018, 23: 548–558.

        [57] Zhou X, Lowdon RF, Li DF, Lawson HA, Madden PAF, Costello JF, Wang T. Exploring long-range genome interactions using the WashU epigenome browser., 2013, 10(5): 375–376.

        [58] Akdemir KC, Chin L. HiCPlotter integrates genomic data with interaction matrices., 2015, 16(1): 198.

        [59] Li RF, Liu YY, Li TT, Li C. 3Disease Browser: a web server for integrating 3D genome and disease-associated chromosome rearrangement data., 2016, 6: 34651.

        [60] Durand NC, Robinson JT, Shamim MS, Machol I, Mesirov JP, Lander ES, Aiden EL. Juicebox provides a visua-lization system for Hi-C contact maps with unlimited zoom., 2016, 3(1): 99–101.

        [61] Djekidel MN, Wang MJ, Zhang MQ, Gao JT. HiC- 3DViewer: a new tool to visualize Hi-C data in 3D space., 2017, 5(2): 183–190.

        [62] Tang BX, Li FF, Li J, Zhao WM, Zhang ZH. Delta: a new web-based 3D genome visualization and analysis platform., 2017, 34(8): 1409–1410.

        [63] Calandrelli R, Wu QY, Guan JH, Zhong S. GITAR: an open source tool for analysis and visualization of Hi-C data., 2018, 16(5): 365–372.

        [64] Wang YL, Song F, Zhang B, Zhang LJ, Xu J, Kuang D, Li DF, Choudhary MNK, Li Y, Hu M, Hardison R, Wang T, Yue F. The 3D Genome Browser: a web-based browser for visualizing 3D genome organization and long-range chromatin interactions., 2018, 19(1): 151.

        [65] Wolff J, Bhardwaj V, Nothjunge S, Richard G, Renschler G, Gilsbach R, Manke T, Backofen R, Ramírez F, Grüning BA. Galaxy HiCExplorer: a web server for reproducible Hi-C data analysis, quality control and visualization., 2018, 46(W1): W11–W16.

        [66] Rousseau M, Fraser J, Ferraiuolo MA, Dostie J, Blanchette M. Three-dimensional modeling of chromatin structure from interaction frequency data using markov chain monte carlo sampling., 2011, 12(1): 414.

        [67] Zhang ZZ, Li GL, Toh KC, Sung WK. Inference of spatial organizations of chromosomes using semi-definite embed-ding approach and Hi-C data., 2013: 317–332.

        [68] Peng C, Fu LY, Dong PF, Deng ZL, Li JX, Wang XT, Zhang HY. The sequencing bias relaxed characteristics of Hi-C derived data and implications for chromatin 3D modeling., 2013, 41(19): e183.

        [69] Trieu T, Cheng JL. MOGEN: a tool for reconstructing 3D models of genomes from chromosomal conformation capturing data., 2015, 32(9): 1286–1292.

        [70] Paulsen J, Sekelja M, Oldenburg AR, Barateau A, Briand N, Delbarre E, Shah A, S?rensen AL, Vigouroux C, Buendia B, Collas P. Chrom3D: three-dimensional genome modeling from Hi-C and nuclear lamin-genome contacts., 2017, 18(1): 21.

        [71] Segal MR, Bengtsson HL. Improved accuracy assessment for 3D genome reconstructions., 2018, 19(1): 196.

        [72] Zhu GX, Deng WX, Hu HL, Ma R, Zhang S, Yang JL, Peng J, Kaplan T, Zeng JY. Reconstructing spatial organizations of chromosomes through manifold learning., 2018, 46(8): e50.

        [73] Fraser J, Ferrai C, Chiariello AM, Schueler M, Rito T, Laudanno G, Barbieri M, Moore BL, Kraemer DCA, Aitken S, Xie SQ, Morris KJ, Itoh M, Kawaji H, Jaeger I, Hayashizaki Y, Carninci P, Forrest ARR, Semple CA, Dostie J, Pombo A, Nicodemi N. Hierarchical folding and reorganization of chromosomes are linked to transcriptional changes in cellular differentiation., 2015, 11(12): 852.

        [74] Liu T, Wang Z. scHiCNorm: a software package to eliminate systematic biases in single-cell Hi-C data., 2017, 34(6): 1046–1047.

        [75] Liu ST, Stroncek DF, Zhao YD, Chen V, Shi RY, Chen JG, Ren JQ, Liu H, Bae HJ, Highfill SL, Jin P. Single cell sequencing reveals gene expression signatures associated with bone marrow stromal cell subpopulations and time in culture., 2019, 17(1): 23.

        [76] Wang Q, Sun Q, Czajkowsky DM, Shao ZF. Sub-kb Hi-C inreveals conserved characteristics of TADs between insect and mammalian cells., 2018, 9(1): 188.

        Current status and future perspectives in bioinformatical analysis of Hi-C data

        Hongqiang Lyu, Lele Hao, Erhu Liu, Zhifang Wu, Jiuqiang Han, Yuan Liu

        The spatial interaction of chromosomes is regarded as an important issue affecting the regulation of gene expression, and the high-throughput chromosome conformation capture (Hi-C) technology has become the primary tool to explore the temporal and spatial interactions of chromosomes in three-dimensional genomics. With the continuous accumulation of Hi-C samples and the increasing complexity of pipelines, the bioinformatic analysis of Hi-C data has been considered an opportunity and a challenge for understanding the spatial regulation mechanism of gene expression. In this paper, the current status and development outline of bioinformatic methods for Hi-C data are introduced, including data normalization, multi-level structure analysis, data visualization and 3D modeling, especially of multi-level structure at A/B compartments, topological associated domains (TADs) and chromain looping levels. Based on this, we provide the outlook of future hotspots and trends in this area. Hopefully our insight will be beneficial for the exploration of gene expression regulation from the traditional linear model to the 3D mode.

        3D genomics; Hi-C; bioinformatics

        2019-07-23;

        2019-11-26

        國家自然科學基金青年科學基金項目(編號:61602367)資助[Supported by the National Natural Science Foundation of China (No. 61602367)]

        呂紅強,博士,副教授,研究方向:生物大數(shù)據(jù)分析與處理。E-mail: hongqianglv@mail.xjtu.edu.cn

        10.16288/j.yczz.19-163

        2019/11/28 9:13:59

        URI: http://kns.cnki.net/kcms/detail/11.1913.R.20191127.1304.006.html

        (責任編委: 方向東)

        猜你喜歡
        染色質(zhì)染色體可視化
        基于CiteSpace的足三里穴研究可視化分析
        染色質(zhì)開放性與動物胚胎發(fā)育關系的研究進展
        哺乳動物合子基因組激活過程中的染色質(zhì)重塑
        基于Power BI的油田注水運行動態(tài)分析與可視化展示
        云南化工(2021年8期)2021-12-21 06:37:54
        基于CGAL和OpenGL的海底地形三維可視化
        染色質(zhì)可接近性在前列腺癌研究中的作用
        “融評”:黨媒評論的可視化創(chuàng)新
        傳媒評論(2019年4期)2019-07-13 05:49:14
        “哺乳動物卵母細胞生發(fā)泡染色質(zhì)構型的研究進展”一文附圖
        生物學通報(2019年2期)2019-06-15 01:33:42
        多一條X染色體,壽命會更長
        科學之謎(2019年3期)2019-03-28 10:29:44
        為什么男性要有一條X染色體?
        科學之謎(2018年8期)2018-09-29 11:06:46
        精品中文字幕在线不卡| 亚洲国产精品久久久久秋霞1 | 2021最新久久久视精品爱| 久久精品av在线视频| 秋霞在线视频| 国产高清乱理伦片| 青青草视频网站免费观看| 中文字幕熟女激情50路| 久久亚洲av无码精品色午夜| 人妻精品动漫h无码网站| 亚洲 成人 无码 在线观看| 青青青视频手机在线观看| 中国国产不卡视频在线观看 | 欧美又大又硬又粗bbbbb| 久久久精品456亚洲影院| 一本大道久久东京热无码av| 亚洲情精品中文字幕99在线| 亚洲精品无码不卡| 国产99久久精品一区二区| 亚洲深夜福利| 中年人妻丰满AV无码久久不卡| 看全色黄大黄大色免费久久| 激情五月我也去也色婷婷| 免费大片黄国产在线观看| 被群cao的合不拢腿h纯肉视频| 免费一级国产大片| 大陆成人精品自拍视频在线观看| 亚洲精品~无码抽插| 色偷偷88888欧美精品久久久 | 国产成人av一区二区三区在线| 成年视频网站在线观看777| 国产亚洲精品一区在线| 热久久国产欧美一区二区精品| 久久精品中文字幕第23页| 一级黄色一区二区三区视频| 日本精品视频一区二区三区四区 | 亚洲白白色无码在线观看| 日韩人妻有码中文字幕| 一本久久a久久免费综合| 亚洲欧美日韩中文在线制服| 人片在线观看无码|