劉利,李珊珊,余楚壬,袁玉,代懷杰,曹培杰
東莞市厚街醫(yī)院腫瘤血液科,廣東 東莞 523945
彌漫性大B 細(xì)胞淋巴瘤(diffuse large B-cell lymphoma,DLBCL)是侵襲性非霍奇金淋巴瘤的最常見類型,可以是原發(fā)或由惰性淋巴瘤的轉(zhuǎn)化引起[1-2]。使用標(biāo)準(zhǔn)的化學(xué)免疫療法可以使很多患者在臨床上得到緩解甚至治愈。然而,由于耐藥或復(fù)發(fā),約有1/3的患者預(yù)后較差,這與DLBCL 的異質(zhì)性有關(guān)[3-5]。這種異質(zhì)性不僅表現(xiàn)在臨床上,而且還表現(xiàn)在形態(tài),遺傳學(xué)和免疫表型上。但是,當(dāng)前的預(yù)后評分系統(tǒng)根據(jù)臨床水平的國際預(yù)后指數(shù)(international prognostic index,IPI)對DLBCL患者進(jìn)行分層,包括年齡、分期、行為狀態(tài)(PS)、血清乳酸脫氫酶(lactate dehydrogenase,LDH)水平和結(jié)外受累程度[6-7]。實際上,近年來已經(jīng)發(fā)現(xiàn)了許多免疫相關(guān)的基因在DLBCL 患者中異常表達(dá),并且其異常表達(dá)在DLBCL 的進(jìn)展、維持和對治療的反應(yīng)中起著重要的作用[8-10]。然而,目前尚無應(yīng)用免疫相關(guān)基因聯(lián)合對DLBCL患者的預(yù)后進(jìn)行個體化地預(yù)測及對其進(jìn)行危險分層[6-7]。因此,迫切需要構(gòu)建基于免疫基因表達(dá)水平的DLBCL 患者的預(yù)后分層,以指導(dǎo)臨床治療。
本研究中,基因表達(dá)綜合(Gene Expression Omnibus,GEO)和癌癥基因組圖集(The Cancer Genome Atlas,TCGA)數(shù)據(jù)庫中的核糖核酸(ribonucleic acid,RNA)測序數(shù)據(jù)被用以全面評估免疫相關(guān)基因的表達(dá)水平對DLBCL患者總體生存(overall survival,OS)的影響及構(gòu)建危險分層。這些探索對于評估DLBCL患者的預(yù)后以及發(fā)現(xiàn)靶向免疫方法具有重要的臨床意義。
1.1 數(shù)據(jù)集的獲取及DLBCL患者的基本信息 來自GEO 數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/geo/)中的GSE87371數(shù)據(jù)集被下載[11-12],除去無完整的生存時間及生存狀態(tài)的標(biāo)本外,總共有221 例DLBCL 患者的RNA 測序的數(shù)據(jù)被用于本研究的預(yù)后分析。同時,其他的臨床信息也被下載,包括性別、年齡、Ann Arbor 分期(stage)和IPI。此外,從UCSC-xena(https://xenabrowser.net/datapages/)[13]上下載了TCGA 數(shù)據(jù)庫(http://www.tcga.org/)中48例DLBCL患者的RNA測序數(shù)據(jù),其基因表達(dá)水平以log2(norm_count+1)的形式表示。同時,獲取相應(yīng)的臨床信息列于表1,包括總體生存時間、生存狀態(tài)、性別、年齡、LDH水平、結(jié)外浸潤的數(shù)目、Ann Arbor 分期和IPI。OS是指從確診DLBCL開始到患者任意原因死亡或最后一次隨訪日期所持續(xù)的時間。GSE87371 和TCGA 數(shù)據(jù)集分別被分配為訓(xùn)練(training cohort)和驗證(validation cohort)組。
表1 GSE87371和TCGA 數(shù)據(jù)集中的DLBCL 患者的臨床信息[例(%)]
1.2 獲取免疫相關(guān)基因 免疫學(xué)數(shù)據(jù)庫和分析門戶(ImmPort,immunology database and analysis portal) 數(shù)據(jù)庫(https://www.immport.org/)提供并更新了2 498 個免疫相關(guān)的基因用于科學(xué)研究,并且這些基因已經(jīng)被確定參與了關(guān)于免疫的生物學(xué)過程。因此,ImmPort 數(shù)據(jù)庫中這部分的基因用于DLBCL 患者的預(yù)后分析。
1.3 統(tǒng)計學(xué)方法 所有的統(tǒng)計分析均在R 語言(version 4.0.2,https://www.r-project.org/)中進(jìn)行?!皊urvival”包用于單因素和多因素COX比例風(fēng)險回歸模型的構(gòu)建,而且只有當(dāng)單因素COX 回歸分析中P<0.05的變量才被納入多因素COX回歸分析?!皊urvminer”包中的“surv_cutpoint”函數(shù)用于確定基因表達(dá)或者風(fēng)險分?jǐn)?shù)的最佳預(yù)后截斷值。“survivalROC”包用于繪制時間依賴性接收器工作特性曲線(receiver operating characteristic curve,ROC)曲線并獲取曲線下面積(area under curve,AUC)。Log-rank 檢驗用于Kaplan-Meier 曲線間的差異比較。用χ2檢驗來比較定性變量間的差異。雙尾的P<0.05被認(rèn)為是差異有統(tǒng)計學(xué)意義。
2.1 確定與預(yù)后相關(guān)的免疫基因 在GSE87371和TCGA 數(shù)據(jù)集中,分別有1 242個和1 345個免疫相關(guān)的基因被用于預(yù)后分析(圖1)。接下來單因素COX回歸模型被進(jìn)一步用于分析,按照P<0.05 的標(biāo)準(zhǔn),在GSE87371數(shù)據(jù)集中總共有200個與預(yù)后相關(guān)的基因,而TCGA 數(shù)據(jù)集中則有51 個與預(yù)后相關(guān)的基因。為了確定基因在兩個數(shù)據(jù)集中均與預(yù)后有關(guān)而且預(yù)后模式一致,單因素COX 模型中的系數(shù)大于0 和小于0的基因分別被用于繪制韋恩圖。結(jié)果顯示,有4 個免疫相關(guān)基因包括成纖維細(xì)胞生長因子2 (fibroblast growth factor 2,F(xiàn)GF2),半胱氨酰白三烯受體1 (cysteinyl leukotriene receptor 1,CYSLTR1),包含2個的S-腺苷甲硫氨酸基團(tuán)(radical S-adenosyl methionine domain containing 2,RSAD2)和Ⅱ類主要組織相容性復(fù)合體DRα(major histocompatibility complex、class Ⅱ、DR alpha、HLA-DRA)的單因素COX 系數(shù)同時在GSE87371和TCGA數(shù)據(jù)集中大于0,而并沒有出現(xiàn)免疫相關(guān)基因的單因素COX 系數(shù)同時在兩個數(shù)據(jù)集中均小于0 的情 況(圖2A)。因 此,F(xiàn)GF2、CYSLTR1、RSAD2 和HLA-DRA將被用來進(jìn)行接下來的預(yù)后及聯(lián)合分析。
圖1 免疫相關(guān)基因的表達(dá)譜
森林圖被進(jìn)一步用于可視化FGF2、CYSLTR1、RSAD2 和HLA-DRA 的表達(dá)水平對DLBCL 患者OS的影響,結(jié)果顯示,在GSE87371 數(shù)據(jù)集中,其高表達(dá)與DLBCL患者的不良OS顯著相關(guān),而且這個結(jié)果在TCGA數(shù)據(jù)集中得到驗證[風(fēng)險比(hazard ratio,HR)>1,P<0.05](圖2B)。為了將這4 個與預(yù)后相關(guān)的免疫基因進(jìn)行聯(lián)合,在GSE87371 數(shù)據(jù)集中進(jìn)行了多因素COX 回歸模型分析,根據(jù)其系數(shù)β來計算風(fēng)險分?jǐn)?shù)(risk score),結(jié)果顯示:Risk score=0.27x (FGF2 的表達(dá)水平)+0.07x(CYSLTR1的表達(dá)水平)+0.04 x(RSAD2的表達(dá)水平)+0.23x(HLA-DRA的表達(dá)水平)。同時,雷達(dá)圖顯示,相比于CYSLTR1,RSAD2和HLA-DRA,F(xiàn)GF2的表達(dá)水平對DLBCL的OS的貢獻(xiàn)度最大(圖2C)。
圖2 免疫相關(guān)基因的預(yù)后分析
2.2 FGF2、CYSLTR1、RSAD2 和HLA-DRA 的Kaplan-Meier 曲線分析 為了進(jìn)一步確定高和低表達(dá)FGF2、CYSLTR1、RSAD2 和HLA-DRA 是否對DLBCL患者的OS有影響,Kaplan-Meier曲線被用來對其進(jìn)行評估。首先,R語言包“survminer”被用于定義基因表達(dá)的最佳預(yù)后截斷值(圖3)。然后,根據(jù)最佳預(yù)后截斷值,將基因的表達(dá)水平分為高和低表達(dá)兩組來繪制Kaplan-Meier 曲線。結(jié)果顯示,在GSE87371 數(shù)據(jù)集中,高表達(dá)FGF2 的DLBCL 患者具有較差的OS[HR=1.63(95%置信區(qū)間CI:1.19~2.23),P=0.002]。這個結(jié)果在TCGA數(shù)據(jù)集中得到驗證[HR=4.74(95%CI:1.06~21.25),P=0.025]。同樣地,在GSE87371 數(shù)據(jù)集中CYSLTR1 的高表達(dá)與患者較差的OS 密切相關(guān)[HR=1.72(95%CI:1.20~2.46),P=0.003]。這個結(jié)果在TCGA 數(shù)據(jù)集中得到驗證[HR=7.24 (95%CI:1.61~32.62),P=0.003]。另外,在GSE87371 數(shù)據(jù)集中,RSAD2 的高表達(dá)同樣與患者的不良OS 顯著相關(guān)[HR=1.45(95%CI:1.05~1.99),P=0.023]。這個結(jié)果在同樣也在TCGA數(shù)據(jù)集中得到驗證[HR=4.22(95%CI:0.99~17.88),P=0.034]。相似地,在GSE87371 數(shù)據(jù)集中,高表達(dá)HLA-DRA能夠預(yù)測DLBCL患者較差的OS[HR=1.49(95% CI:1.08~2.04),P=0.014]。這個結(jié)果在在TCGA 數(shù)據(jù)集中再次得到驗證[HR=15.93 (95%CI:3.11~81.48),P<0.001](圖4)。這個結(jié)果提示,F(xiàn)GF2、CYSLTR1、RSAD2 和HLA-DRA 的高表達(dá)與DLBCL患者的不良OS顯著相關(guān),其值得進(jìn)一步探討。
圖4 免疫相關(guān)基因的生存曲線分析
2.3 危險分層 為了探討由FGF2、CYSLTR1、RSAD2 和HLA-DRA 的聯(lián)合能否對DLBCL 患者進(jìn)行危險分層,由這四個基因計算的風(fēng)險分?jǐn)?shù)的預(yù)后價值應(yīng)首先被探討。如見表2 和表3 所示,單因素和多因素COX 回歸模型分析表明,在GSE87371 數(shù)據(jù)集中,風(fēng)險分?jǐn)?shù)是DLBCL 患者的獨立預(yù)后影響因子[HR=1.79(95%CI:1.27~2.52),P<0.001]。這個發(fā)現(xiàn)同樣在TCGA 數(shù)據(jù)集中得到進(jìn)一步地確認(rèn)[HR=8.80(95%CI:1.97~39.42),P=0.004]。接下來,在GSE87371數(shù)據(jù)集中,R 語言包“survminer”被用于確定風(fēng)險分?jǐn)?shù)的最佳預(yù)后截斷值4.12,根據(jù)最佳截斷值,DLBCL 患者被劃分為兩組:高風(fēng)險(high risk)和低風(fēng)險(low risk)組。繪制的Kaplan-Meier曲線提示,高風(fēng)險組DLBCL患者的OS 顯著低于低風(fēng)險組[HR=2.04 (95%CI:1.46~2.86),P<0.001]。進(jìn)一步繪制時間依賴性ROC曲線的AUC為0.82,其明顯大于0.5(圖5A)。相似地,這個發(fā)現(xiàn)在TCGA 數(shù)據(jù)集中也得到驗證,即高風(fēng)險與DLBCL 患者的不良OS 明顯相關(guān)[HR=8.80 (95%CI:1.97~39.42),P<0.001]。時間依賴性ROC曲線的AUC為0.89,其同樣明顯大于0.5(圖5B)。這個結(jié)果提示,由FGF2、CYSLTR1、RSAD2和HLA-DRA的聯(lián)合能夠很好地將DLBCL患者進(jìn)行危險分層。
圖5 根據(jù)風(fēng)險分?jǐn)?shù)對DLBCL患者進(jìn)行危險分層
表2 單因素COX回歸分析
表3 多因素COX回歸分析
危險分層的建立可為臨床醫(yī)生更合理地管理癌癥患者和個性化治療方案的選擇提供參考[14]。近年來,免疫相關(guān)基因可以提供個性化的免疫特征來評估癌癥患者的預(yù)后及進(jìn)行危險分層[15-17]。在這項研究中,從GEO 和TCGA 數(shù)據(jù)庫中的兩個大型DLBCL 隊列中獲取了不同的免疫相關(guān)基因用于分析和驗證。結(jié)果發(fā)現(xiàn),免疫相關(guān)基因FGF2、CYSLTR1、RSAD2 和HLA-DRA的聯(lián)合可以預(yù)測DLBCL患者的預(yù)后,同時對其進(jìn)行基于基因水平的危險分層。值得注意的是,這4個免疫基因的聯(lián)合是DLBCL患者的獨立預(yù)后影響因子,而且時間依賴性的ROC曲線也確認(rèn)了由他們構(gòu)建的危險分層具有良好的預(yù)測預(yù)后的性能。
研究表明,F(xiàn)GF2 在人白血病和淋巴瘤中的表達(dá)顯著增高[18],同時其高表達(dá)與癌癥患者不良的預(yù)后密切相關(guān)[19-20]。這個發(fā)現(xiàn)與本研究的結(jié)果一致,即高表達(dá)FGF2 的DLBCL 患者的OS 較差。另外,CYSLTR1 的高表達(dá)能夠預(yù)測黑色素瘤、大腸腺癌和乳腺癌患者的不良預(yù)后[21-23]。然而,在DLBCL 患者中尚無相關(guān)的研究報道。本研究表明,高表達(dá)CYSLTR1 與DLBCL 患者的較差OS顯著相關(guān),與已有的報道一致。同樣地,雖然有研究報道RSAD2能夠預(yù)測多種癌癥患者的不良結(jié)局[24-25],但是在DLBCL中鮮有研究。在這項研究中,相對于低表達(dá)RSAD2組,高表達(dá)RSAD2的DLBCL患者的OS 較差。有趣的是,另外一個免疫相關(guān)的基因HLA-DRA在癌癥中也進(jìn)行大量的研究,其在癌癥中高表達(dá),而且其高表達(dá)與患者的不良預(yù)后密切相關(guān)[26-27],而在DLBCL中也同樣無相關(guān)的研究。本研究的結(jié)果顯示,高表達(dá)HLA-DRA的DLBCL患者OS較差。這些發(fā)現(xiàn)提示,F(xiàn)GF2、CYSLTR1、RSAD2和HLA-DRA具有作為構(gòu)建DLBCL患者危險分層的巨大潛力。
該研究的局限性在于沒有DLBCL臨床樣本和相應(yīng)的臨床信息用于驗證由FGF2、CYSLTR1、RSAD2和HLA-DRA構(gòu)建的危險分層。此外,本研究還缺乏體外和體內(nèi)實驗的驗證,因此,結(jié)果的可靠性仍然受到挑戰(zhàn)。
總的來說,高表達(dá)免疫相關(guān)基因FGF2、CYSLTR1、RSAD2和HLA-DRA的DLBCL的OS較差,并且聯(lián)合這4個基因可以對DLBCL患者進(jìn)行危險分層。同時,這些發(fā)現(xiàn)為DLBCL患者的個性化預(yù)后預(yù)測提供了參考,并且可能是設(shè)計新療法的潛在免疫標(biāo)記物。