吳任燕,郭曉琳,洪登禮,陳 磊
1.上海交通大學(xué)基礎(chǔ)醫(yī)學(xué)院病理生理學(xué)系,細(xì)胞分化與凋亡教育部重點(diǎn)實(shí)驗(yàn)室,上海200025;2.上海交通大學(xué)醫(yī)學(xué)院上海市免疫學(xué)研究所,上海200025
急性不明確譜系白血?。╝cute leukemia of ambiguous lineage,ALAL)是一種罕見(jiàn)的白血病類型,不能清楚地分為淋巴系和髓系,其發(fā)病率不到5%。根據(jù)2016 年世界衛(wèi)生組織(World Health Organization,WHO)分類標(biāo)準(zhǔn)[1],ALAL 可分為多個(gè)亞型,包括急性未分化白血病(acute undifferentiated leukemia,AUL)、混合表型急性白血?。╩ixed phenotype acute leukemia,MPAL)等。盡管大多數(shù)白血病已經(jīng)得到了很好的研究和治療,但由于ALAL 的罕見(jiàn)性,目前普遍采用的是與急性髓系白血?。╝cute myeloid leukemia,AML)和急性淋巴細(xì)胞白血?。╝cute lymphoblastic leukemia,ALL)相同的治療手段,無(wú)法對(duì)ALAL 進(jìn)行針對(duì)性治療,使得ALAL 相 較 于AML/ALL 治 療 效 果 較 差[2-3]。因 此 探 究ALAL 發(fā)生和生存相關(guān)的基因和信號(hào)通路,有助于對(duì)ALAL發(fā)病機(jī)制的針對(duì)性研究,可為ALAL的臨床治療提供參考。
目前已有的研究主要針對(duì)ALAL的存活率、免疫分型以及相關(guān)microRNA 而開(kāi)展。白血病生存分析[4-5]顯示,大多數(shù)ALAL患者首選ALL的治療方案;免疫表型分析[6]顯示,早期T細(xì)胞前體淋巴細(xì)胞白血病和T/M-MPAL在免疫表型上相似,NOTCH1可作為T(mén) 細(xì)胞混合表型白血病的潛在治療靶點(diǎn);通過(guò)高通量測(cè)序,ALAL可以根據(jù)具有譜系特性的microRNA 表達(dá)特性被歸類為AML 或ALL[7]。這些研究大多探討了ALAL與其他白血病的譜系關(guān)系,但有關(guān)ALAL獨(dú)特的基因表達(dá)譜、生存基因以及相關(guān)通路尚不清楚。高通量測(cè)序技術(shù)自問(wèn)世以來(lái),極大地推動(dòng)了對(duì)于疾病標(biāo)志物的研究進(jìn)展。通過(guò)對(duì)公共數(shù)據(jù)庫(kù)數(shù)據(jù)的生物信息學(xué)分析,我們可以對(duì)疾病的發(fā)病機(jī)制及治療靶標(biāo)進(jìn)行預(yù)測(cè),為疾病的機(jī)制研究和藥物研發(fā)提供思路。
本研究利用小兒ALAL患者和健康對(duì)照組的表達(dá)譜數(shù)據(jù)(RNA-seq),對(duì)ALAL 中的差異表達(dá)基因(differential expressed genes,DEGs)進(jìn)行篩選,利用基因本體數(shù)據(jù)庫(kù)(Gene Ontology,GO) 和京都基因與基因組百科全書(shū)(Kyoto Encyclopedia of Genes and Genomes,KEGG)富集分析,探討ALAL發(fā)病的生物學(xué)過(guò)程和相關(guān)信號(hào)通路;結(jié)合生存分析與蛋白互作網(wǎng)絡(luò),我們發(fā)現(xiàn)了在ALAL中獨(dú)特的生存基因表達(dá)譜,鑒定了與ALAL生存相關(guān)的樞紐基因。本研究可為ALAL的臨床診斷和治療提供新的思路。
基因表達(dá)數(shù)據(jù)來(lái)自于兒童ALAL 患者和兒童健康對(duì)照者的血液或骨髓的RNA-seq 數(shù)據(jù)?;颊叩幕虮磉_(dá)數(shù)據(jù)是從UCSC xena 數(shù)據(jù)門(mén)戶GDC 下載TARGET-ALL-P3數(shù)據(jù)集,該數(shù)據(jù)集由有效治療應(yīng)用研究(Therapeutically Applicable Research to Generate Effective Treatments,TARGET,https://ocg.cancer.gov/programs/TARGET) 計(jì)劃生成。健康對(duì)照者的基因表達(dá)數(shù)據(jù)(GSE111459)從基因表達(dá)匯編數(shù)據(jù)庫(kù)(Gene Expression Omnibus,GEO)下載。對(duì)異常樣本進(jìn)行過(guò)濾后,得到21 個(gè)健康兒童樣本和69 個(gè)初診兒童ALAL 樣本分別作為健康對(duì)照組和ALAL組。納入診斷樣本和復(fù)發(fā)樣本的數(shù)據(jù)用于不同類型白血病基因表達(dá)量比較,以TARGET-ALL-P2 的532 個(gè)ALL 樣本為ALL 組,以TARGET-AML 的187 個(gè)AML 樣本為AML 組,以TARGET-ALL-P3中的136個(gè)ALAL 患者樣本為ALAL 完全組。所有患者的數(shù)據(jù)均可從癌癥基因組圖譜(The Cancer Genome Atlas,TCGA)獲得。
所有樣本的表達(dá)量數(shù)據(jù)均被標(biāo)準(zhǔn)化為每百萬(wàn)片段計(jì)數(shù)(count per million,CPM)值以進(jìn)行相關(guān)性分析和去除低測(cè)序質(zhì)量樣本。低表達(dá)基因(在所有樣本中均CPM<1.5)和離群基因(<Q1-1.5×IQR或>Q3+1.5×IQR)被移除。利用Pearson相關(guān)分析方法對(duì)樣本表達(dá)譜相關(guān)性進(jìn)行分析。R語(yǔ)言limma軟件包[8]用于鑒別ALAL標(biāo)本與健康對(duì)照組之間的差異表達(dá)基因。采用Benjamini和Hochberg 修正法對(duì)多次試驗(yàn)進(jìn)行修正,得到修正后的P 值(adjusted Pvalue)。為消除假陽(yáng)性結(jié)果,DEGs的篩選標(biāo)準(zhǔn)為|log2Fold Change|(|log2FC|)>2且修正后的P<0.001。
為驗(yàn)證數(shù)據(jù)結(jié)果的可靠性,利用R 語(yǔ)言DOSE 軟件包[9]進(jìn) 行DEGs 的 疾 病 本 體 論(Disease Ontology,DO)[10]分 析。為 研 究ALAL 中 的 相 關(guān) 通 路,使 用clusterProfiler[11]的默認(rèn)參數(shù)對(duì)上調(diào)和下調(diào)的DEGs 分別進(jìn)行GO和KEGG富集分析。顯著性篩選標(biāo)準(zhǔn)為P<0.05。
69 例ALAL 患者中有48 個(gè)病例有總生存時(shí)間記錄,并選擇用于生存相關(guān)基因的鑒定。根據(jù)每個(gè)基因在所有樣本中的平均表達(dá)量,48個(gè)樣本被分為基因的高表達(dá)組和低表達(dá)組。生存分析采用R 語(yǔ)言的survival和survminer軟件包進(jìn)行,Cox 回歸模型用于鑒定生存相關(guān)基因;以P<0.05,在表達(dá)下調(diào)的基因中相關(guān)系數(shù)>0或在表達(dá)上調(diào)的差異基因中相關(guān)系數(shù)<0,被認(rèn)為是合理的ALAL生存相關(guān)基因。生存分析是針對(duì)與正常樣本的差異基因進(jìn)行,所得到的生存相關(guān)基因可能與小兒ALAL的致病相關(guān),但這些生存相關(guān)基因的具體作用仍有待進(jìn)一步的機(jī)制研究。
將生存相關(guān)基因?qū)隚eneMANIA[12]構(gòu)建蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò)(protein-protein interaction network,PPI),該網(wǎng)絡(luò)中總共包含22 個(gè)ALAL 生存相關(guān)基因以及100 個(gè)與這些基因具有功能或表達(dá)相關(guān)性的間接相關(guān)基因。利 用Cytoscape[13]繪 制PPI 網(wǎng) 絡(luò) 圖 譜,并 利 用Cytohubba[14]計(jì)算網(wǎng)絡(luò)圖中每一個(gè)基因的最大群體中心度(maximal clique centrality,MCC),得分值最高的前10個(gè)基因,被認(rèn)為是PPI網(wǎng)絡(luò)中的樞紐基因。
由于測(cè)序技術(shù)的特性,我們需要對(duì)不同來(lái)源的測(cè)序數(shù)據(jù)進(jìn)行質(zhì)控,以提高最后分析結(jié)果的準(zhǔn)確性。在去除低質(zhì)量樣本和離群基因后,在原始數(shù)據(jù)中篩選出總共90個(gè)樣本的19 213 個(gè)基因的表達(dá)值進(jìn)行后續(xù)分析,其中包括21 個(gè)健康對(duì)照組和69 個(gè)兒童ALAL 組的樣本。標(biāo)準(zhǔn)化前后的表達(dá)值如圖1A 所示。在ALAL 組和對(duì)照組中的基因表達(dá)量顯示出較高的內(nèi)部樣本相關(guān)性(圖1B),證明篩選得到的數(shù)據(jù)內(nèi)部表達(dá)譜具有均質(zhì)性,可以用于后續(xù)分析。樣本編號(hào)與原始數(shù)據(jù)編號(hào)的對(duì)應(yīng)關(guān)系見(jiàn)附表1。
圖1 樣本數(shù)據(jù)質(zhì)控Fig 1 Quality control of sample data
表1 生存相關(guān)基因在不同類白血病患者及健康對(duì)照者中的表達(dá)值(log2CPM)Tab 1 The log2CPM value of survival-related genes in the control and different leukemia types
為進(jìn)一步探究?jī)和疉LAL 的異?;虮磉_(dá)譜,利用limma 軟件包對(duì)ALAL 組和健康對(duì)照組的基因表達(dá)譜進(jìn)行差異分析;選擇|log2FC|>2、校正后的P<0.001 為條件進(jìn)行基因篩選,去除假陽(yáng)性基因,共鑒定得到4 053 個(gè)基因,其中上調(diào)基因1 844 個(gè),下調(diào)基因2 209 個(gè)?;谒蠨EGs 的DO 分析表明造血系統(tǒng)疾病是最顯著富集的疾?。▓D2A),與我們的數(shù)據(jù)特征相符,進(jìn)一步證明我們篩選使用的樣本數(shù)據(jù)和差異分析的合理性。對(duì)上調(diào)和下調(diào)的差異基因分別進(jìn)行GO 和KEGG 富集分析,找尋與ALAL 發(fā)病相關(guān)的信號(hào)通路,各組顯著富集的前10 個(gè)生物學(xué)過(guò)程和信號(hào)通路如圖2B 及圖2C 所示。ALAL 組中與免疫相關(guān)的生物學(xué)進(jìn)程、造血細(xì)胞譜系和細(xì)胞黏附分子相關(guān)的信號(hào)通路明顯下調(diào),而細(xì)胞周期、有絲分裂以及剪接相關(guān)的生物學(xué)進(jìn)程在ALAL 組中明顯富集。
圖2 差異基因的功能分析Fig 2 Functional analysis of DEGs
利用ALAL 患者的總體生存期資料,我們從4 053 個(gè)差異表達(dá)基因中鑒定出31 個(gè)ALAL 生存相關(guān)基因。其中13 個(gè)基因在ALAL 組中表達(dá)量增加,與生存呈負(fù)相關(guān),被認(rèn)為是負(fù)生存相關(guān)基因;18 個(gè)基因在ALAL 組中表達(dá)降低,與生存呈正相關(guān),被認(rèn)為是正生存相關(guān)基因。
此外,為了研究這些基因是特異在ALAL 中表達(dá)變化還是白血病的普遍差異基因,我們?cè)贏LL 組以及AML組的表達(dá)譜中對(duì)這些基因進(jìn)行了比較分析。結(jié)果表明,與ALAL 生存相關(guān)的基因,在ALL 組以及AML 組中呈現(xiàn)出同樣的差異表達(dá)趨勢(shì),相對(duì)于健康組,在ALAL 完全組中表達(dá)上調(diào)的基因同樣在ALL 組和AML 組中表達(dá)上調(diào),但這些基因的表達(dá)量在各類型白血病之間仍然存在顯著差異(表1)。這些基因中也有一些“偏向性”表達(dá)特例,SMARCA5-AS1 在AML 組中的表達(dá)與對(duì)照組相比差異不具有統(tǒng)計(jì)學(xué)意義(P=0.151),但在ALAL完全組和ALL 組中表達(dá)較對(duì)照組有明顯增加(均P=0.000)。ZNF135在ALAL完全組和AML組中的表達(dá)值均低于對(duì)照組,且差異具有統(tǒng)計(jì)學(xué)意義(均P=0.000),但在ALL 患者中表達(dá)量無(wú)明顯變化(P=0.073)。這些數(shù)據(jù)為研究ALAL的獨(dú)特生存特征及治療方案的選擇提供了線索。
樞紐基因是在PPI網(wǎng)絡(luò)中具有緊密的相互聯(lián)系,發(fā)揮核心作用的一群基因。為了進(jìn)一步篩選出在ALAL 患者生存中發(fā)揮關(guān)鍵作用的樞紐基因,我們將所有生存相關(guān)基因?qū)氲紾eneMANIA 中,構(gòu)建了PPI 網(wǎng)絡(luò)(圖3A)。GeneMANIA 中的GO 富集分析顯示細(xì)胞趨化性和白細(xì)胞遷移相關(guān)的生物學(xué)過(guò)程在這個(gè)相互作用網(wǎng)絡(luò)中顯著富集,提示ALAL 患者的生存與細(xì)胞趨化性及白細(xì)胞遷移相關(guān)。在這個(gè)PPI 網(wǎng)絡(luò)中MCC 得分最高的前10 個(gè)基因被認(rèn)為是這個(gè)PPI 網(wǎng)絡(luò)中的樞紐基因(圖3B)。在這10 個(gè)基因中,只有CXCL8 和LMNA 與ALAL 的生存相關(guān)且在ALAL 組中表達(dá)量發(fā)生變化,被鑒定為ALAL 的生存相關(guān)樞紐基因。在ALAL 組和健康對(duì)照組中CXCL8 和LMNA 的生存曲線和表達(dá)譜如圖3C 和圖3D 所示,CXCL8 和LMNA 均為負(fù)生存相關(guān)基因,在ALAL組中表達(dá)上調(diào),伴隨ALAL患者總生存期下降。
圖3 ALAL生存相關(guān)樞紐基因鑒定Fig 3 Survival-related hub genes identification and its character.
本研究通過(guò)生物信息學(xué)分析的方法,將基因表達(dá)數(shù)據(jù)與臨床生存數(shù)據(jù)結(jié)合,對(duì)ALAL 的生存相關(guān)樞紐基因進(jìn)行篩選。為使得研究結(jié)果更加準(zhǔn)確,我們首先對(duì)公共數(shù)據(jù)庫(kù)的數(shù)據(jù)進(jìn)行了篩選,得到21 個(gè)健康樣本(GSE111459) 和69 個(gè)ALAL 樣 本(TARGET-ALL-P3)的共19 213 個(gè)基因表達(dá)數(shù)據(jù)?;虮磉_(dá)譜的差異分析顯示在ALAL組中有1 844個(gè)基因表達(dá)上調(diào),2 209個(gè)基因表達(dá)下調(diào),揭示了ALAL 的異?;虮磉_(dá)譜。疾病本體分析的結(jié)果顯示造血系統(tǒng)疾病在差異基因中高度富集,進(jìn)一步驗(yàn)證了我們的數(shù)據(jù)以及差異分析的可靠性。GO 以及KEGG富集分析表明在ALAL組中上調(diào)表達(dá)的基因主要富集細(xì)胞周期以及有絲分裂的相關(guān)進(jìn)程,而下調(diào)的差異基因在造血細(xì)胞譜系相關(guān)通路和免疫相關(guān)進(jìn)程中富集。白血病的主要特征為造血干細(xì)胞的惡性增殖和分化障礙,因此細(xì)胞周期及有絲分裂進(jìn)程的上調(diào),造血細(xì)胞譜系相關(guān)進(jìn)程的下調(diào),符合白血病的基本特性。但目前尚未有研究指出ALAL 中免疫相關(guān)進(jìn)程的下調(diào),因此本研究中找到的通路可能為ALAL的免疫學(xué)治療提供理論依據(jù)。
結(jié)合臨床生存記錄,我們從ALAL 的差異基因中篩選出了31 個(gè)與生存相關(guān)的基因。由于目前ALAL 缺乏明確的靶向治療方案,ALAL 的治療普遍是采用ALL 或者AML 的治療方案進(jìn)行,但這些治療往往帶來(lái)較差的預(yù)后效果[2-3],因此我們將ALAL 的生存相關(guān)基因表達(dá)譜與ALL/AML 進(jìn)行比較,探究特異在ALAL 中異常表達(dá)的生存基因。結(jié)果顯示大多數(shù)基因在ALAL、AML 和ALL 中具有共同的上下調(diào)趨勢(shì),這些ALAL 的生存相關(guān)基因,在AML/ALL 中同樣差異表達(dá),具有白血病致病的普遍性。但這些基因在各個(gè)白血病類型之間的表達(dá)譜存在明顯差異,ALAL 的生存相關(guān)基因表達(dá)量大多數(shù)介于ALL和AML 之間,表現(xiàn)出與ALAL 生存相關(guān)的特殊基因表達(dá)譜。此外我們發(fā)現(xiàn),在這些基因中存在一些明顯的“偏向”調(diào)節(jié)的情況,如SMARCA5-AS1 在ALAL 和ALL 中表達(dá)增加,但在AML 中沒(méi)有改變;ZNF135 在ALAL 和AML 中表達(dá)下調(diào),但在ALL 中沒(méi)有改變。這些數(shù)據(jù)可能為ALAL治療方案的選擇提供借鑒作用。
此外,通過(guò)PPI網(wǎng)絡(luò)圖譜的構(gòu)建,我們進(jìn)一步篩選出CXCL8 和LMNA 作為ALAL 生存相關(guān)的樞紐基因。CXCL8 又稱IL-8,是CXC 趨化因子家族的成員。CXCL8可從白細(xì)胞和非白細(xì)胞的體細(xì)胞中釋放,在炎癥中經(jīng)常上調(diào)表達(dá),并在白細(xì)胞誘導(dǎo)遷移和釋放反應(yīng)中發(fā)揮作用[15]。近期的研究表明,白血病細(xì)胞廣泛釋放CXCL 和CCL 趨化因子,尤其是高水平地釋放CXCL8[16];CXCL8與AML 的復(fù)發(fā)有關(guān),CXCL8 的敲除導(dǎo)致G0/G1 細(xì)胞周期阻滯、凋亡和細(xì)胞外調(diào)節(jié)蛋白激酶1/2 信號(hào)通路失活[17];CXCL8 可與CXCR1/2 相互作用,調(diào)節(jié)細(xì)胞增殖和分化,介導(dǎo)腫瘤的發(fā)生和發(fā)展[18-19]。然而,CXCL8 在ALAL 中是否發(fā)揮作用尚不清楚。在本研究中,CXCL8 在ALAL中表達(dá)上調(diào);并在ALAL 患者的生存中充當(dāng)樞紐基因,ALAL 患者中富集與細(xì)胞周期相關(guān)的信號(hào)通路,CXCR1/2在ALAL 中表達(dá)下調(diào),結(jié)合已有報(bào)道,我們推測(cè)CXCL8可能通過(guò)參與細(xì)胞周期的進(jìn)程介導(dǎo)了ALAL 的發(fā)生和發(fā)展,而并非通過(guò)與CXCR1/2 相互作用參與ALAL 的發(fā)生。LMNA 編碼核包膜蛋白lamin A 和lamin C,主要參與染色質(zhì)組織、核組裝和端粒動(dòng)力學(xué),與涉及凋亡和存活的Caspase 級(jí)聯(lián)途徑有關(guān)。LMNA 突變引起多種疾病[20-21],但在白血病中對(duì)LMNA 的研究非常少。此前,有報(bào)道稱LMNA 在活性T 細(xì)胞中被誘導(dǎo)表達(dá)[22],但LMNA 在造血細(xì)胞中的表達(dá)情況尚不明確。通過(guò)高通量測(cè)序數(shù)據(jù),我們?cè)趯?duì)照組和ALAL 組中均檢測(cè)到LMNA,并且LMNA 在ALAL患者中的表達(dá)明顯高于對(duì)照組。我們的結(jié)果首次提出LMNA在ALAL的發(fā)生和生存中發(fā)揮作用。
綜上所述,我們對(duì)兒童ALAL 病例的獨(dú)特基因表達(dá)譜進(jìn)行了研究,確定了參與ALAL 發(fā)生的信號(hào)通路及生物學(xué)進(jìn)程,并將ALAL 生存相關(guān)基因的表達(dá)譜與ALL 和AML 的表達(dá)譜進(jìn)行了比較,為研究ALAL 的獨(dú)特生存特征和現(xiàn)有治療方案的選擇提供了線索。基于生存期分析找到了ALAL生存相關(guān)樞紐基因,可能作為潛在的ALAL治療靶點(diǎn),但這些樞紐基因的功能仍有待進(jìn)一步驗(yàn)證。