姚明澤,任廷林,潘元晴,薛曉慶,李蓉,雷雨,行曉玉
(山西大學(xué) 生物醫(yī)學(xué)研究院,山西 太原 030006)
了解生物體生命過程中細(xì)胞的發(fā)育軌跡是生物學(xué)的基本問題之一,也是發(fā)育生物學(xué)的核心。譜系示蹤是一種可以追蹤單個祖細(xì)胞的所有后代,并揭示其命運軌跡的技術(shù)。起始的單個細(xì)胞被標(biāo)記,并傳遞給所有子細(xì)胞,形成一系列克隆。譜系示蹤能夠提供祖細(xì)胞后代的生物特征如細(xì)胞表達(dá)譜特征、分化狀態(tài)等,為細(xì)胞命運圖譜的繪制提供了強有力的手段。細(xì)胞命運圖譜的繪制起源于早期視覺上對胚胎發(fā)育過程細(xì)胞的追蹤,并將細(xì)胞映射到胚胎發(fā)育的不同階段[1],但直接觀察局限于通體透明的動物,如線蟲等。為此科學(xué)家開發(fā)了使用染料注射、移植、病毒轉(zhuǎn)導(dǎo)或熒光蛋白標(biāo)記的遺傳重組等方法來標(biāo)記并追蹤感興趣的細(xì)胞[2]。但這些方法產(chǎn)生的細(xì)胞標(biāo)記或難以穩(wěn)定維持,或分辨率較低,很難追蹤到細(xì)胞水平。隨著基因組學(xué)的進(jìn)步以及單細(xì)胞測序技術(shù)的發(fā)展,開發(fā)了可以在分子水平對細(xì)胞身份加以區(qū)分的技術(shù),這極大促進(jìn)了譜系追蹤技術(shù)的發(fā)展[3]。在單細(xì)胞中引入獨特的條形碼,通過測序識別譜系,極大豐富了譜系信息的多樣性。
此綜述介紹了傳統(tǒng)的譜系追蹤方案分析了幾種前沿的譜系追蹤方法及其演變發(fā)展過程,并對“回溯性”的譜系追蹤以及生物信息學(xué)在譜系追蹤中的發(fā)展應(yīng)用加以概括,最后討論了譜系追蹤技術(shù)未來的發(fā)展。
命運映射以及譜系繪制依賴于非破壞性的追蹤每個細(xì)胞在發(fā)育過程中的軌跡,前瞻性的譜系追蹤實驗可以追溯到19世紀(jì),隨著光學(xué)顯微鏡和染料注射技術(shù)的進(jìn)步,通過直接觀察追蹤細(xì)胞的發(fā)育軌跡得以實現(xiàn)[2,4]。由于技術(shù)限制,最初的譜系追蹤集中在透明無脊椎動物[1,5]。隨著延時攝影技術(shù)的進(jìn)一步發(fā)展,允許在發(fā)育過程中追蹤胚胎內(nèi)細(xì)胞及其后代的命運軌跡[6]。這一方法最著名的應(yīng)用是John Sulston借助顯微鏡將線蟲從單個細(xì)胞到成體發(fā)育的整個過程記錄下來,繪制了線蟲的譜系發(fā)生樹[7]。
脊椎動物等胚胎發(fā)育過程含有更多細(xì)胞的生物,胚胎不透明,發(fā)育過程很難直接觀察。因此,其發(fā)育過程中細(xì)胞的圖譜繪制需要借助細(xì)胞標(biāo)記方法,例如染色或放射性標(biāo)記[2,4](圖1(a))。20世紀(jì)20年代 Vogt開發(fā)和應(yīng)用了染料注射標(biāo)記細(xì)胞來觀察胚胎發(fā)育過程的技術(shù),并借此繪制蛙胚胎發(fā)育早期的命運圖譜[8],為從環(huán)節(jié)動物到小鼠等許多生物體發(fā)育過程中的命運圖譜的構(gòu)建提供了寶貴經(jīng)驗[9]。但這些方法存在在體外觀察所需時間較長、染料可擴展性有限、光學(xué)顯微鏡分辨率低等。
重組酶的發(fā)現(xiàn)和應(yīng)用促進(jìn)了譜系追蹤技術(shù)的迅速發(fā)展,不同的重組酶系統(tǒng)能夠在特定位點之間介導(dǎo)基因組DNA發(fā)生可預(yù)測的倒位或缺失[10]。Cre重組酶(Cyclization Recombination Enzyme)介導(dǎo) loxP(locus of X(cross)-over in P1)位點重組,基于此單重組酶譜系追蹤技術(shù)在兩個loxP中間融合了熒光蛋白基因,并將Cre基因與細(xì)胞特異標(biāo)記基因串聯(lián),從而可以在特異的細(xì)胞類型中觸發(fā)熒光蛋白的表達(dá)來追蹤細(xì)胞命運軌跡[11-13](圖 1(b))。重組熒光蛋白是可遺傳持續(xù)表達(dá),因此可通過顯微鏡讀出。在果蠅中FLP重組酶(flippase recombination enzyme)介導(dǎo)的FLP-FRT系統(tǒng)的重組被證明比Cre-loxP系統(tǒng)高效且毒性更?。?4],用于標(biāo)記果蠅胚胎和卵巢中的克隆[15],但 FLP最適酶活溫度為30℃并不適用于哺乳動物的標(biāo)記追蹤。
為了增加被追蹤的細(xì)胞群體的數(shù)量,研究人員引入多色報告系統(tǒng)的多個側(cè)翼為loxP位點的熒光蛋白編碼序列[16-17](圖 1(c)),在 Cre誘導(dǎo)下,loxP位點隨機重組,導(dǎo)致目標(biāo)細(xì)胞群中不同熒光蛋白的多色鑲嵌表達(dá)。然而光學(xué)技術(shù)有限的顏色組合,限制了這類譜系追蹤的發(fā)展。為了解決熒光基團受限的問題,科研人員開發(fā)了稱為Polylox的遺傳DNA“條形碼”(圖1(d)),使用隨機 Cre-LoxP介導(dǎo)的重組,可以產(chǎn)生達(dá)190萬個獨特的遺傳條形碼來標(biāo)記細(xì)胞,大大增加了可追蹤克隆的數(shù)量[18]。利用該技術(shù)在體內(nèi)鑒定了造血干細(xì)胞克隆,表明紅系-髓系分化獨立于普通髓系祖細(xì)胞,并證實了先前的造血干細(xì)胞譜系結(jié)構(gòu)[18]。利用分子條形碼,結(jié)合分子探針對細(xì)胞的發(fā)育譜系進(jìn)行了可視化的追蹤,通過對胚胎發(fā)育早期神經(jīng)母細(xì)胞進(jìn)行編輯,然后分析其后代,揭示了果蠅大腦發(fā)育過程中神經(jīng)母細(xì)胞的重要性[19]。
許多細(xì)胞類型不能通過單一的細(xì)胞標(biāo)記物與其他細(xì)胞系進(jìn)行區(qū)分,并且Cre會在非靶向細(xì)胞中表達(dá),這都限制了單重組酶介導(dǎo)的譜系追蹤系統(tǒng)的精確性。研究人員開發(fā)了基于重組酶的雙重組酶激活的譜系追蹤(Dual recombinase-activated lineage tracing,DeaLT)技術(shù)(圖1(e)),提高了譜系追蹤的精確性,很好地解決了這個技術(shù)難題。通過使用DeaLT允許在個體器官組織精確追蹤細(xì)胞命運轉(zhuǎn)變,揭示了小鼠成年個體中肝和胰臟細(xì)胞的增殖及命轉(zhuǎn)變運[20-22]。
圖1 譜系追蹤的常用方法(a~h)(a)染料注射直接追蹤細(xì)胞命運;(b)Cre重組酶報告系統(tǒng)標(biāo)記特定細(xì)胞;(c)多色報告系統(tǒng)追蹤不同細(xì)胞命運軌跡;(d)Polylox系統(tǒng)記錄譜系信息;(e)雙重組酶介導(dǎo)的譜系追蹤策略;(f)CellTagging方法記錄譜系信息;(g)基于CRISPR/Cas9的動態(tài)譜系追蹤策略;(h)基于體細(xì)胞突變的回溯性譜系追蹤方案Fig 1 Common methods of lineae tracing(a-h).(a)Direct tracking of cell fate via dye injection;(b)The Cre recombinase reporter system labels specific cells;(c)Multicolor reporter system tracks the fate of different cells;(d)Polylox system records lineage information;(e)Dual recombinase-mediated genetic lineage tracing strategies;(f)The Cell Tagging method records lineage information;(g)Dynamic lineage tracing based on CRISPR/Cas9;(h)Retrospective lineage tracing strategy based on somatic mutation
測序技術(shù)和遺傳學(xué)的進(jìn)步,促進(jìn)了利用DNA條形碼進(jìn)行單細(xì)胞譜系追蹤(single-cell lineage tracing,scLT)的發(fā)展。這一技術(shù)是預(yù)先將可遺傳的基因序列引入細(xì)胞,然后根據(jù)測序數(shù)據(jù)進(jìn)行追溯,確定克隆遺傳關(guān)系并構(gòu)建細(xì)胞譜系[23]。ScLT技術(shù)起源于利用逆轉(zhuǎn)錄病毒進(jìn)行的原始克隆分析[24-25]或是利用轉(zhuǎn)座子[26]將DNA序列整合到細(xì)胞中,并通過測序進(jìn)行區(qū)分。這些有區(qū)別的DNA序列通常被稱為“條形碼”,以表示每個祖先及其后代的獨特標(biāo)記。DNA條形碼通常由一段隨機的核苷酸序列組成,因此提供了可用于區(qū)分單細(xì)胞復(fù)雜性的標(biāo)記[27]。早期每個細(xì)胞都被一個獨特的DNA條形碼標(biāo)記,這意味著具有不同條形碼的細(xì)胞來自不同的祖細(xì)胞,即使它們可能具有相似性。在過去的幾年里,人工合成DNA條形碼方法被廣泛用于在各種組織中進(jìn)行譜系追蹤。在造血系統(tǒng)中,借助病毒條形碼描繪了造血干細(xì)胞和造血祖細(xì)胞是如何分化成組成血液的各種成熟細(xì)胞,揭示了長期造血干細(xì)胞是巨核細(xì)胞系的主要來源,而體內(nèi)的造血干細(xì)胞和淋巴在其祖細(xì)胞的分化是多樣的[24,26-28]。
為使用scRNA-seq技術(shù)捕捉細(xì)胞條形碼,研究人員將標(biāo)記細(xì)胞的DNA條形碼轉(zhuǎn)錄為RNA進(jìn)行測序[29-31]。這些方法通常在表達(dá)基因的3’UTR中引入條形碼,使條形碼可以與轉(zhuǎn)錄組同時捕獲。研究人員開發(fā)了“CellTagging”的條形碼標(biāo)記技術(shù)(圖1(f)),用于在連續(xù)輪次中標(biāo)記細(xì)胞,從而產(chǎn)生相對時間尺度,實現(xiàn)譜系樹構(gòu)建,并揭示了成纖維細(xì)胞誘導(dǎo)到內(nèi)胚層祖細(xì)胞過程的兩條細(xì)胞命運重編程軌跡[29,32]。這些條形碼通過慢病毒引入細(xì)胞,適用于可獲取的體外細(xì)胞培養(yǎng)或再生系統(tǒng),在這些系統(tǒng)中可以對部分克隆提前收集,剩下的克隆繼續(xù)培養(yǎng)進(jìn)行細(xì)胞命運區(qū)分,以此形成一個線索,將細(xì)胞早期命運和晚期命運聯(lián)系起來[33-34]。
利用轉(zhuǎn)基因可編輯條形碼進(jìn)行譜系追蹤的方法,研究人員使用CRISPR/Cas9使轉(zhuǎn)基因的多拷貝報告基因發(fā)生可遺傳的緩慢隨機突變生成條形碼[34](圖 1(g)),從而能夠在整個生物體中進(jìn)行譜系追蹤,識別相關(guān)細(xì)胞的譜系關(guān)系并構(gòu)建系統(tǒng)發(fā)育樹。這些方法引入了sgRNA靶向已知的轉(zhuǎn)基因條形碼,隨著時間的推移產(chǎn)生遺傳條形碼的積累,從而允許進(jìn)行譜系重建。GESTALT(genome editing of synthetic target arrays for lineage tracing)和 Scartrace首次使用Cas9產(chǎn)生的條形碼用于斑馬魚發(fā)育過程的譜系追蹤,繪制了受精卵發(fā)育早期的細(xì)胞命運譜系樹[35-36]。這些技術(shù)產(chǎn)生的條形碼多樣性有限,并且注射的Cas9蛋白和sgRNA在細(xì)胞內(nèi)會被迅速降解,因此條形碼的多樣性以及可標(biāo)記的時間跨度有限。為了克服這些限制,Scar-Trace、scGESTALT(single cell genome editing of synthetic target arrays for lineage tracing)和LINNAEUS(lineage tracing by nuclease-activated editing of ubiquitous sequences) 被 開 發(fā) 出來[37-39]。scGESTALT通過熱休克誘導(dǎo)Cas9蛋白表達(dá),實現(xiàn)較長時間的編輯。ScarTrace通過注射Cas9基因?qū)l形碼將編輯時間從3 h延長至10 h,解決了標(biāo)記時間跨度的問題。而LINNAEUS通過將編輯位點分散在全基因組范圍,極大增加了條形碼的多樣性,提高了譜系追蹤的效率。
相對于斑馬魚小鼠胚胎發(fā)育緩慢,采用注射的方法只能實現(xiàn)前幾次卵裂的標(biāo)記,為了實現(xiàn)長時間的條形碼編輯,研究人員開發(fā)了基于“歸巢”基因的條形碼生成方法,通過利用歸巢向?qū)NA(homing CRISPR guide RNA,hgRNA)將CRISPR/Cas9引導(dǎo)至其自身的DNA位點,使其序列產(chǎn)生多樣變化以充當(dāng)遺傳條形碼[40-42],并產(chǎn)生了可表達(dá)hgRNA的MARC1(mouse for actively recording cells 1)小鼠品系,它與任何誘導(dǎo)型或細(xì)胞特異性Cas9表達(dá)品系鼠雜交,即可激活基因編輯進(jìn)行譜系追蹤。但在MARC1后代中產(chǎn)生的條形碼不能通過RNA-seq檢測,這限制了其應(yīng)用。另一種方法是基于CRISPR/Cas9借助PiggyBac轉(zhuǎn)座酶開發(fā)的分子記錄器,該方法實現(xiàn)了哺乳動物原腸胚形成過程細(xì)胞命運譜系示蹤[43],其結(jié)果證實了先前的研究結(jié)果,即原腸胚形成過程中一小部分后腸來自胚外祖細(xì)胞[44]。以上小鼠譜系追蹤研究需要每次實驗進(jìn)行新的胚胎操作,并且大量隨機轉(zhuǎn)基因片段插入限制了對成體組織的分析。研究人員開發(fā)了CARLIN小鼠品系,將可誘導(dǎo)的Cas9與一個單一、穩(wěn)定整合的可變位點進(jìn)行結(jié)合,以記錄譜系數(shù)據(jù),從而解決了這些問題,揭示了造血再生的克隆動力學(xué)[45]。
基于分子遺傳學(xué)的譜系追蹤技術(shù)需要對所追蹤的細(xì)胞基因組進(jìn)行編輯或改造,這種預(yù)見性的譜系追蹤顯然不可能在人類發(fā)育和疾病的背景下應(yīng)用[46]。因此出現(xiàn)了另外一類借助人類基因組中包含的自然發(fā)生的體細(xì)胞突變,用作譜系條形碼來跟蹤細(xì)胞的起源的技術(shù),既回溯性譜系追蹤(圖1(h))。天然體細(xì)胞中許多突變類型是永久性可遺傳的[47],因此可以作為譜系追蹤的條形碼。在核DNA中這些天然條形碼主要分為4類:CNV、SNV、長散在核元件(long interspersed nuclear element 1,LINE-1)和微衛(wèi)星重復(fù)序列。CNV是基因拷貝數(shù)變異,在多項研究中已被用于重建乳腺腫瘤發(fā)生、侵襲和轉(zhuǎn)移的克隆動力學(xué)[48-49]。SNV是單核苷酸常見變異,可以通過基因組或者外顯子測序檢測,已應(yīng)用于人腦、腎腫瘤等組織的細(xì)胞譜系[50-51]。LINE-1在基因組中含量豐富,并具有在細(xì)胞分裂時通過自發(fā)地“復(fù)制-粘貼”轉(zhuǎn)位到基因組中不同染色體位點的能力[52],因此LINE-1元件的在染色體中的位置可以用作譜系條形碼[53]。微衛(wèi)星重復(fù)序列的基因組位置是已知的,可以進(jìn)行特定序列的測定,通過此特點可用來構(gòu)建細(xì)胞小鼠譜系樹,研究雌性生殖系的動態(tài)變化[54]。此外,線粒體基因(mtDNA)也存在天然突變[55],其發(fā)生頻率是核基因的10~100倍,并且線粒體基因組的尺寸小,可用來重建克隆關(guān)系[56]。
隨著分子遺傳學(xué)的發(fā)展,已有許多遺傳標(biāo)記手段用于譜系追蹤,但所有的譜系追蹤技術(shù)都需要依賴于嚴(yán)格的數(shù)據(jù)處理,借助生物信息學(xué)分析對數(shù)據(jù)進(jìn)行可視化的展示。通過數(shù)據(jù)降維可以可視化譜系追蹤分化軌跡,是早期算法之一[57]。另一類微分軌跡重構(gòu)算法是基于k-近鄰圖(k-Nearest Neighborhood Graph,k-NNG),每個細(xì)胞連接到其k個最近的細(xì)胞,從而將相似的細(xì)胞彼此關(guān)聯(lián)起來,通過這種方法構(gòu)建了人造血干細(xì)胞到原始B細(xì)胞的軌跡[58],并構(gòu)建了小鼠胸腺中T細(xì)胞發(fā)育的已知階段[59],而 StemID[60]和 Mpath[61]通過使用 k-medoid或分層聚類創(chuàng)建細(xì)胞簇達(dá)到譜系追蹤的目的。Cassiopeia是為當(dāng)前的CRISPR/Cas9 scLT方法量身定制的計算方式,可以用于構(gòu)建系統(tǒng)發(fā)育樹,而且可以結(jié)合真實數(shù)據(jù)以及仿真框架進(jìn)行算法評估[62]。目前新的算法正在不斷被開發(fā),用以更好地滿足譜系追蹤技術(shù)的需要[63]。然而生物信息學(xué)算法的開發(fā)應(yīng)用大都是基于特定的假設(shè),這可能會限制分析結(jié)果的準(zhǔn)確性,因此研究人員不斷對算法進(jìn)行優(yōu)化,以提高分析結(jié)果的可靠性[64]。
自19世紀(jì)起,譜系追蹤的工具從借助光學(xué)顯微儀器進(jìn)行簡單的觀察,發(fā)展到單細(xì)胞水平細(xì)胞譜系追蹤?;谥亟M酶的譜系追蹤技術(shù),對初始的一群細(xì)胞進(jìn)行永久性可遺傳熒光標(biāo)記,通過觀察轉(zhuǎn)基因熒光蛋白的表達(dá)對細(xì)胞群體進(jìn)行區(qū)分,這種標(biāo)記更穩(wěn)定,可以在組織水平進(jìn)行特異性區(qū)分,但是其分辨率較低,難以區(qū)分單細(xì)胞身份,并且通量較小。分子生物學(xué)特別是轉(zhuǎn)基因技術(shù)以及測序技術(shù)的發(fā)展,使引入DNA條形碼進(jìn)行細(xì)胞命運軌跡的追蹤成為可能,但還存在一些問題,如產(chǎn)生的可用于追蹤的條形碼由于轉(zhuǎn)基因丟失或沉默限制了其發(fā)展,因此開發(fā)一種減少條形碼沉默并且可誘導(dǎo)的系統(tǒng)可能會某種程度上提高譜系追蹤效率。此外,外源條形碼測序過程的丟失造成了后期分析過程中細(xì)胞譜系信息的不對稱,因此我們期待一種可以通過scRNA-seq直接捕捉內(nèi)源條形碼生成系統(tǒng),不用在建庫測序時單獨捕捉條形碼信息,從而降低生物信息學(xué)分析的錯誤率,進(jìn)而提高譜系追蹤的準(zhǔn)確性。而通過條形碼進(jìn)行譜系追蹤的方案都需要進(jìn)行基因操作,使用僅限于體外研究或生物模型,以基因組自身突變?yōu)榛A(chǔ)的回溯性譜系追蹤,允許對人類發(fā)育過程以及腫瘤組織進(jìn)行細(xì)胞命運圖譜繪制,這極大擴展了譜系追蹤技術(shù)的應(yīng)用。哺乳動物胚胎或人體腫瘤組織是由數(shù)百萬高度異質(zhì)性的細(xì)胞組成,目前為止,還沒有對所有細(xì)胞的身份及譜系信息注釋。從第一個scRNA-seq應(yīng)用以來,現(xiàn)今已可以對多達(dá)兩百萬個細(xì)胞進(jìn)行測序,繪制小鼠胚胎發(fā)育圖譜[65],以及繪制具有時間分辨的高分辨率動態(tài)連續(xù)命運圖譜[66]。因此,我們期待未來幾年技術(shù)的進(jìn)步,單細(xì)胞測序和相關(guān)的分子生物學(xué)和遺傳生物學(xué)及其他交叉學(xué)科的發(fā)展,使得更精確的重建整個個體譜系成為可能。
遺傳譜系追蹤的主要限制是缺乏空間分辨率,無論何種方式進(jìn)行條形碼標(biāo)記,分析過程都不可避免的丟失空間信息。隨著MEMOIR(memory by engineered mutagenesis with optical in situ readout)的發(fā)展,在原位重建細(xì)胞譜系關(guān)系成為可能,但其局限性在于不能讀出細(xì)胞初始位置與測序時細(xì)胞位置的關(guān)系[67],這限制了我們對于細(xì)胞遷移和分化的理解。最近開發(fā)的新的空間轉(zhuǎn)錄組學(xué)方法,有可能分析完整的斑馬魚或小鼠胚胎[68]??臻g譜系的建立需要更高的技術(shù)手段,如組織的固定通透技術(shù)、高親和力特異性的抗體制備技術(shù)和影像成像技術(shù)和針對圖像處理和生物學(xué)信號整合分析的軟件開發(fā)[69-70]。
綜上所述,未來細(xì)胞譜系追蹤技術(shù)將圍繞空間譜系的建立所需技術(shù)的開發(fā),以此對細(xì)胞譜系關(guān)系進(jìn)行更加精確的空間解析,從而深入理解細(xì)胞命運的轉(zhuǎn)變。