管波 單衛(wèi)民
腎細(xì)胞癌是起源于腎實(shí)質(zhì)泌尿小管上皮系統(tǒng)的惡性腫瘤,又稱腎腺癌,簡稱為腎癌。在過去的20年里,腎癌的發(fā)病率增加了約2%[1],占腎臟惡性腫瘤的80%~90%[2]。男性為女性的1.5倍,發(fā)病高峰在60~70歲[3]。2016年WHO根據(jù)腎癌起源以及基因改變等特點(diǎn)將其分為腎透明細(xì)胞癌(clear cell renal cell carcinoma, ccRCC)(60%~85%)、乳頭狀腎細(xì)胞癌(7%~14%)、嫌色細(xì)胞癌(4%~10%)、集合管癌(1%~2%)和其他罕見類型等[4]。ccRCC是腎癌最常見的病理類型,界限清楚,通常無包膜,切面呈黃色,常伴有出血和壞死。染色體3p缺失和von Hippel-Lindau(VHL)基因在3p25號染色體上的突變是最常見基因改變,其他的腫瘤抑制基因包括SETD2、BAP1和PBRM1等[5]。與乳頭狀腎細(xì)胞癌和腎嫌色細(xì)胞癌相比,ccRCC的預(yù)后更差[6]。癌癥基因組圖譜(The Cancer Genome Atlas, TCGA)是美國政府發(fā)起的癌癥和腫瘤基因圖譜計(jì)劃,采用大規(guī)模的基因組測序,旨在找到所有致癌和抑癌基因的微小變異,了解癌細(xì)胞發(fā)生、發(fā)展的機(jī)制。分子標(biāo)簽是指將一定數(shù)量的分子標(biāo)志物進(jìn)行組合,形成一個新的變量,并用此變量來判斷或定義某些生物學(xué)特性。與單個標(biāo)志物的分子模式不同,分子標(biāo)簽不單純以單基因功能為研究基礎(chǔ),而是更加注重基因之間的共同協(xié)調(diào)作用,從整體和系統(tǒng)水平上對某種特定的生物學(xué)特性進(jìn)行描述。
本研究利用TCGA高通量數(shù)據(jù)庫數(shù)據(jù),通過對數(shù)據(jù)再分析構(gòu)建新的ccRCC預(yù)后分子標(biāo)簽,希望能用于臨床判斷ccRCC預(yù)后,并為ccRCC的病因及發(fā)病機(jī)制研究提供新的思路。
從TCGA(https://www.cancer.gov)下載ccRCC 611例RNA-Seq測序數(shù)據(jù)(其中正常樣本數(shù)據(jù)72例,腫瘤樣本539例)和530例患者的臨床數(shù)據(jù),如患者性別、年齡、種族、病理分期、吸煙狀況、放療及化療情況、存活狀況等。
1.ccRCC組織與正常腎組織差異分析:利用R語言(版本4.0.0)分析ccRCC組織與正常腎組織差異分析RNA,本研究確定差異表達(dá)的標(biāo)準(zhǔn)為校正后偽發(fā)現(xiàn)率(false discovery rate, FDR)<0.05且倍數(shù)變化絕對值≥2。對篩選出的差異表達(dá)的RNA進(jìn)行聚類分析,并繪制熱圖和火山圖。
2.ccRCC預(yù)后標(biāo)志物的篩選:采用Lasso回歸篩選變量,并利用Cox回歸構(gòu)建預(yù)后分子標(biāo)簽。評分風(fēng)險(Risk score)=βgene1×EXPgene1+βgene2×EXPgene2+……+βgene11×EXPgene11(EXP:基因的表達(dá)水平;β:回歸相關(guān)系數(shù))。代入相關(guān)數(shù)據(jù)后,計(jì)算分子標(biāo)簽得分。通過RNA分子標(biāo)簽得分的中位數(shù)將ccRCC患者劃分為高表達(dá)組和低表達(dá)組。
3.聯(lián)合ccRCC患者臨床數(shù)據(jù)構(gòu)建列線圖模型:將分子標(biāo)簽聯(lián)合TCGA數(shù)據(jù)庫中ccRCC患者的臨床數(shù)據(jù)(包括性別、年齡、種族、病理分期、吸煙狀況、放療及化療情況)進(jìn)行單因素和多因素Cox回歸分析,根據(jù)Cox回歸模型中各個參數(shù)對總生存期的貢獻(xiàn)程度(回歸系數(shù)的大小),給每個參數(shù)的每個取值水平進(jìn)行賦分,將每個變量和各自的協(xié)變量的分值以一簇平行線段的形式繪制在平面坐標(biāo)系中,構(gòu)建ccRCC預(yù)后列線圖模型。
病例總數(shù)為530例,其中男344例(64.91%),女186例(35.09%);死亡177例(33.40%),存活353例(66.60%)?;颊呋咎卣饕姳?。
表1 TCGA數(shù)據(jù)庫中ccRCC患者基本特征[例(%)]
從TCGA下載ccRCC 611例RNA-Seq測序數(shù)據(jù),其中正常樣本數(shù)據(jù)72例,腫瘤樣本539例(部分患者有多個腫瘤樣本數(shù)據(jù),同一患者的數(shù)據(jù)取平均值處理),差異分析得到ccRCC和正常腎組織中差異表達(dá)的RNA 5 759種,其中在腫瘤組織中上調(diào)表達(dá)的基因有4 492種,下調(diào)表達(dá)的基因有1 267種。對篩選出的差異表達(dá)的RNA進(jìn)行聚類分析,并繪制熱圖和火山圖(圖1)。
圖1 ccRCC組織和正常腎組織中5 759種差異表達(dá)基因的熱圖(A)及火山圖(B)
將篩選出的5 759種在ccRCC和正常腎組織中差異表達(dá)的RNA結(jié)合生存數(shù)據(jù)進(jìn)行單因素Cox分析,得到1 610種與ccRCC預(yù)后相關(guān)的基因(P<0.001)。
將530例腫瘤組織樣本ccRCC轉(zhuǎn)錄組數(shù)據(jù)按30%和70%隨機(jī)分為兩組,70%組為訓(xùn)練組,用于篩選預(yù)后分子標(biāo)簽;30%組為測試組,用于測試篩選出的分子標(biāo)簽預(yù)測預(yù)后效果。
將單因素回歸分析篩選出的1 610種與ccRCC預(yù)后相關(guān)的基因進(jìn)一步做Lasso回歸分析(圖2),篩選出20種RNA,包括AC011700.1、AC064847.1、AC091153.2、AC091812.1、AC104958.1、AC245100.6、ADAMTS14、AL133255.1、AL355796.1、AL592494.1、DYNLL1P4、FIRRE、KCNMB2-AS1、LINC00896、LINC01956、PLG、RDH16、SNORA70B、Z99289.2、ZIC2。再進(jìn)行多因素Cox分析,最終從中篩選出9種與ccRCC預(yù)后相關(guān)的基因(圖3,表2),分別為 DYNLL1P4、LINC01956、PLG、SNORA70B、ZIC2、AC011700.1、AC091812.1、AC104958.1、AL133255.1。利用9種基因聯(lián)合回歸系數(shù)構(gòu)建分子標(biāo)簽,Risk score=βgene1×EXPgene1+βgene2×EXPgene2+……+βgene11×EXPgene11(EXP:基因的表達(dá)水平;β:回歸相關(guān)系數(shù))。代入相關(guān)數(shù)據(jù)后,計(jì)算分子標(biāo)簽值。
A:不同RNA系數(shù)變化情況;B:二項(xiàng)式偏差的曲線圖圖2 Lasso回歸篩選ccRCC預(yù)后相關(guān)分子
A:DYNLL1P4生存曲線;B:LINC01956生存曲線;C:PLG生存曲線;D:SNORA70B生存曲線;E:ZIC2生存曲線;F:AC011700.1生存曲線;G:AC091812.1生存曲線;H:AC104958.1生存曲線;I:AL133255.1生存曲線圖3 分子標(biāo)簽中9種RNA生存曲線
表2 篩選出的9種ccRCC預(yù)后基因單變量及多變量Cox分析結(jié)果
分子標(biāo)簽表達(dá)式為:Risk score=0.255 5×EXPDYNLL1P4+0.144 2×EXPLINC01956-0.069 5×EXPPLG+0.253 4×EXPSNORA70B+0.084 2×EXPZIC2+0.234 2×EXPAC011700.1+0.103 6×EXPAC091812.1+0.257 5×EXPAC104958.1+0.132 6×EXPAL133255.1。
代入相關(guān)數(shù)據(jù)后,計(jì)算分子標(biāo)簽分值。通過分子標(biāo)簽得分的中位數(shù)將患者劃分為高分組和低分組,結(jié)合TCGA中患者生存時間及生存狀態(tài)在訓(xùn)練組和測試組分別繪制生存曲線,并比較高分組和低分組生存曲線差異有無統(tǒng)計(jì)學(xué)意義(圖4),如圖所示分子標(biāo)簽值在訓(xùn)練組、測試組、全部數(shù)據(jù)組與ccRCC患者生存期顯著相關(guān),分子標(biāo)簽值越高患者預(yù)后越差;并以1年、3年、5年生存期繪制受試者工作特征(receiver operating characteristic, ROC)曲線(圖4),其中全部數(shù)據(jù)組1年、3年、5年ROC曲線下面積分別為0.802、0.758、0.805。
A:訓(xùn)練組生存曲線;B:測試組生存曲線;C:全部數(shù)據(jù)生存曲線;D:訓(xùn)練組1年、3年、5年ROC曲線;E:測試組1年、3年、5年ROC曲線;F:全部數(shù)據(jù)1年、3年、5年ROC曲線圖4 分子標(biāo)簽的生存曲線及ROC曲線
納入?yún)?shù)包括分子標(biāo)簽、性別、年齡、種族、病理分期、腫瘤分級、吸煙狀況和放療、化療情況,單因素Cox回歸分析發(fā)現(xiàn)分子標(biāo)簽、年齡、化療情況、病理分期、腫瘤分級、吸煙為ccRCC的有統(tǒng)計(jì)學(xué)意義的預(yù)后因素,將單因素分析P<0.05的臨床參數(shù)進(jìn)行多因素Cox分析,最終模型保留的參數(shù)有分子標(biāo)簽、年齡、病理分期、腫瘤分級、是否化療為預(yù)后因素,整體模型的P<2.2e-16,各參數(shù)P值見表3,根據(jù)多因素Cox回歸模型中分子標(biāo)簽、年齡、病理分期、腫瘤分級、是否化療對總生存期的貢獻(xiàn)程度(回歸系數(shù)的大小),給每個參數(shù)的每個取值水平進(jìn)行賦分,將每個變量和各自的協(xié)變量的分值以一簇平行線段的形式繪制在平面坐標(biāo)系中,構(gòu)建ccRCC預(yù)后列線圖模型,并繪制校準(zhǔn)圖評價模型(圖5)。
表3 分子標(biāo)簽及臨床參數(shù)單變量及多變量Cox分析結(jié)果
A:ccRCC預(yù)后列線圖;B、C、D分別為1年、3年、5年生存的校準(zhǔn)圖;E、F分別為列線圖生存曲線和ROC曲線圖5 ccRCC預(yù)后列線圖
腎癌為泌尿系統(tǒng)三大惡性腫瘤之一,ccRCC是腎癌最常見的亞型,在發(fā)生轉(zhuǎn)移的腎癌中占80%~85%,其對傳統(tǒng)的放療和化療均不敏感[7]。晚期ccRCC的治療主要依賴生物治療,但效果有限。臨床上需要ccRCC預(yù)后標(biāo)志物,用以判斷其預(yù)后,給予患者更早期的有效干預(yù)。
二代測序技術(shù)作為21世紀(jì)的重大科學(xué)技術(shù)進(jìn)步之一,為腫瘤基因組學(xué)研究提供了極大的幫助,隨著腫瘤基因組數(shù)據(jù)庫和患者樣本信息的不斷豐富,科研人員對腫瘤基因的分析日趨深入,新的快速檢測方法也不斷更新,使二代測序等技術(shù)應(yīng)用于臨床成為可能[8]。
本研究通過提取TCGA數(shù)據(jù)庫中ccRCC患者臨床數(shù)據(jù)以及ccRCC轉(zhuǎn)錄組數(shù)據(jù),采用Lasso-Cox回歸分析結(jié)合生存數(shù)據(jù)篩選其預(yù)后相關(guān)的轉(zhuǎn)錄組數(shù)據(jù),并構(gòu)建ccRCC預(yù)后分子標(biāo)簽。首先篩選出530例ccRCC和正常腎組織中差異表達(dá)的RNA 5 759種,差異基因結(jié)合ccRCC生存數(shù)據(jù)經(jīng)過單因素Cox分析得到1 610個與ccRCC預(yù)后相關(guān)RNA(P<0.001);再將530例腫瘤組織樣本數(shù)據(jù)按30%和70%隨機(jī)分為兩組,70%組為訓(xùn)練組,用于篩選預(yù)后分子標(biāo)簽;30%組為測試組,用于測試篩選出的分子標(biāo)簽預(yù)測預(yù)后效果。采用Lasso-Cox回歸分析從中篩選出9種與ccRCC預(yù)后相關(guān)的RNA,分別為DYNLL1P4、LINC01956、PLG、SNORA70B、ZIC2、AC011700.1、AC091812.1、AC104958.1、AL133255.1,并聯(lián)合這9種RNA構(gòu)建了ccRCC預(yù)后分子標(biāo)簽,通過該分子標(biāo)簽判斷ccRCC預(yù)后效果顯著。
本研究尚存在一定局限性。第一,未對篩選出的RNA進(jìn)行相關(guān)機(jī)制的研究,這些RNA是如何影響ccRCC的生長和凋亡,進(jìn)而影響其預(yù)后的機(jī)制仍有待研究;第二,未驗(yàn)證構(gòu)建的RNA標(biāo)簽?zāi)芊耦A(yù)測中國ccRCC患者的預(yù)后,這些問題均需要后續(xù)研究進(jìn)一步探討。
綜上所述,本研究利用TCGA數(shù)據(jù)庫的挖掘,篩選并構(gòu)建了新的ccRCC預(yù)后分子標(biāo)簽,整合成組合標(biāo)志物后有望用于臨床ccRCC預(yù)后預(yù)測,為其病因、發(fā)病機(jī)制、治療、預(yù)后判斷提供新的研究思路和方向。