包德榮 朱鑫杰 毛夢(mèng)暉 陳文波 趙思哲 王琳 徐笑飛 宋斌斌*
胃腺癌(STAD)是全球第五大常見(jiàn)癌癥和第四大常見(jiàn)癌癥死亡原因[1]。在過(guò)去10 年中,雖然個(gè)體化靶向治療已在胃腺癌中取得進(jìn)展[2],但已經(jīng)落后于某些其他腫瘤類型(如非小細(xì)胞肺癌)[3],一些患者從靶向治療中獲益顯著,仍有較大一部分患者在接受靶向治療后效果不顯著、副作用大甚至出現(xiàn)不良反應(yīng),這突顯對(duì)胃腺癌預(yù)后和新治療靶點(diǎn)的準(zhǔn)確預(yù)測(cè)模型的迫切需求。因此,確定潛在的胃腺癌治療靶點(diǎn)和建立準(zhǔn)確的預(yù)后模型對(duì)胃腺癌個(gè)性化治療具有重要意義。RNA 編輯是指一種在RNA由聚合酶生成之后其轉(zhuǎn)錄自DNA的核酸序列又發(fā)生改變的分子生物學(xué)過(guò)程[4],其可以改變RNA序列,RNA 編輯比基因表達(dá)更具腫瘤特異性[5],且不受分離的RNA 數(shù)量和參考基因選擇的個(gè)體間差異的影響。因此,作為一種生物標(biāo)志物,RNA 編輯在穩(wěn)定性和可靠性方面優(yōu)于基因表達(dá)。本研究應(yīng)用癌癥基因組圖譜(TCGA)建立預(yù)測(cè)模型預(yù)測(cè)STAD 患者總生存期(OS),并根據(jù)ATIRE 風(fēng)險(xiǎn)評(píng)分和臨床病理特征構(gòu)建預(yù)測(cè)STAD OS 的列線圖。
1.1 數(shù)據(jù)收集 從TCGA 數(shù)據(jù)庫(kù)(https://portal.gdc.cancer.gov/)下載STAD 患者腫瘤組織和正常組織的轉(zhuǎn)錄組數(shù)據(jù)和臨床信息。TCGA 胃腺癌數(shù)據(jù)庫(kù)有32 個(gè)為正常樣本,375 個(gè)為腫瘤樣本。用PERL 軟件提取臨床信息,包括:樣品名稱、生存時(shí)間、生存狀態(tài)、年齡、性別、分級(jí)、分期以及TNM 分期。從Synapse 網(wǎng)站(https://www.synapse.org/#!Synapse:syn2374375/files/)下載TCGA-STAD 樣品的RNA 編輯數(shù)據(jù),采用PERL軟件刪除缺失值>30%的數(shù)據(jù)。然后將RNA 編輯數(shù)據(jù)和生存數(shù)據(jù)合并。
1.2 預(yù)后模型構(gòu)建 僅有282 個(gè)樣本擁有現(xiàn)有的ATIRE 數(shù)據(jù)被納入本研究,并以6 ∶4 隨機(jī)分為訓(xùn)練集(n=170)和驗(yàn)證集(n=112)。通過(guò)單因素COX 回歸分析初篩STAD 患者預(yù)后相關(guān)RNA 編輯,再通過(guò)套索算法(least absolute shrinkage and selection operator,LASSO)回歸對(duì)訓(xùn)練集的胃腺癌患者預(yù)后相關(guān)RNA 編輯進(jìn)行降維,并應(yīng)用多元Cox 回歸模型篩選出最優(yōu)的RNA 編輯構(gòu)建胃腺癌的預(yù)后模型,得到模型的公式,并獲得每個(gè)樣本的風(fēng)險(xiǎn)評(píng)分(Riskscore)。基于獲得Riskscore 的中位數(shù),將訓(xùn)練集患者分為高風(fēng)險(xiǎn)組及低風(fēng)險(xiǎn)組。同時(shí)將驗(yàn)證集的樣品根據(jù)Riskscore 的中位數(shù),將驗(yàn)證集的數(shù)據(jù)也劃分為高低風(fēng)險(xiǎn)兩組。應(yīng)用驗(yàn)證集數(shù)據(jù)對(duì)預(yù)測(cè)模型進(jìn)行檢驗(yàn),并采用ROC 曲線及校正曲線顯示預(yù)測(cè)模型在訓(xùn)練集和驗(yàn)證集中預(yù)測(cè)模型的效能。采用Kaplan-Meier 法對(duì)訓(xùn)練集、驗(yàn)證集進(jìn)行生存分析。
1.3 列線圖(Nomogram)構(gòu)建 采用單因素及多因素Cox 風(fēng)險(xiǎn)回歸,將上述獲得的Riskscore 與患者的臨床特征(年齡、性別、腫瘤分級(jí)、分期)進(jìn)行獨(dú)立預(yù)后分析,獲得胃腺癌患者獨(dú)立預(yù)后因子并構(gòu)建列線圖。采用校正曲線、ROC 曲線、決策曲線分析該聯(lián)合模型的效能及臨床實(shí)用性。
1.4 差異基因與富集分析 采用高、低風(fēng)險(xiǎn)組間的差異表達(dá)基因(DEGs)進(jìn)行富集分析,包括基因本體論(GO)分析和京都基因與基因組百科全書(shū)(KEGG)分析。分析RNA 編輯與基因表達(dá)的相關(guān)性,Riskscore 與ADAR 基因表達(dá)的相關(guān)性,腫瘤組織和正常組織中選定ATIRE 位點(diǎn)編輯水平的差異。
1.5 統(tǒng)計(jì)學(xué)方法 采用R(4.2.1)語(yǔ)言統(tǒng)計(jì)軟件。差異分析使用Wilcoxon 秩和檢驗(yàn),相關(guān)性分析采用Pearson相關(guān)。P<0.05 為差異有統(tǒng)計(jì)學(xué)意義。
2.1 基線臨床病理特征 TCGA-STAD 病例的臨床病理特征見(jiàn)表1。訓(xùn)練集與驗(yàn)證集在年齡、性別、分級(jí)、TNM 分期等方面差異無(wú)統(tǒng)計(jì)學(xué)意義(P>0.05)。
表1 TCGA數(shù)據(jù)集中STAD患者臨床資料[n(%)]
2.2 預(yù)后模型的構(gòu)建 通過(guò)訓(xùn)練集的單變量CoxpH 分析,共發(fā)現(xiàn)5 個(gè)ATIRE 位點(diǎn)與STAD OS 相關(guān)(P<0.001)。ZNF91|chr19:23542060、RNF149|chr2:101891615、KRIT1|chr7 :91829808、ARSD|chrX :2824214、OSGEPL1|chr2:190612029 這5 個(gè)位點(diǎn)作為最優(yōu)預(yù)后位點(diǎn),并用Lasso 分析法進(jìn)行ATIRE 風(fēng)險(xiǎn)評(píng)分,見(jiàn)圖1。利用LASSO 分析得到ATIRE 各位點(diǎn)的系數(shù),得到ATIRE 風(fēng)險(xiǎn)評(píng)分:(11.98×ZNF91|chr19:23542060)+(9.77×ARSD|chrX:2824214)+(-14.13×RNF149|chr2:101891615)+(12.54×OSGEPL1|chr2:190612029)+(11.31×KRIT1|chr7:91829808)。5 個(gè)ATIRE 站點(diǎn)的風(fēng)險(xiǎn)評(píng)分、生存狀態(tài)和編輯水平分布,ZNF91|chr19:23542060、ARSD|chrX:2824214、OSGEPL1|chr2:190612029、KRIT1|chr7:91829808 在高風(fēng)險(xiǎn)組中高表達(dá),RNF149|chr2:101891615 在高風(fēng)險(xiǎn)組中低表達(dá)。高風(fēng)險(xiǎn)組OS 在訓(xùn)練集(P<0.001)、驗(yàn)證集(P=0.0014)和所有患者組(P<0.001)中均明顯降低。高低風(fēng)險(xiǎn)組在年齡、性別、分級(jí)、分期、TNM 分期差異無(wú)統(tǒng)計(jì)學(xué)意義(P>0.05)。見(jiàn)圖2-3。
圖1 STAD患者生存相關(guān)ATIRE位點(diǎn)的鑒定 A. 曼哈頓圖描繪了所有ATIRE位點(diǎn)與STAD生存間的聯(lián)系,以單變量Cox-PH模型中-Log 10尺度的P值為x軸,以ATIRE位點(diǎn)的染色體位置為y軸。點(diǎn)橙色線表示P=0.001的顯著性截?cái)?。B. LASSO回歸的結(jié)果;C. 選擇最佳ATIRE位點(diǎn)(λ)和虛線垂直線的交叉驗(yàn)證
圖2 ATIRE風(fēng)險(xiǎn)評(píng)分與STAD患者預(yù)后的關(guān)系。訓(xùn)練集(A)和驗(yàn)證集(B)7個(gè)ATIRE位點(diǎn)的ATIRE風(fēng)險(xiǎn)評(píng)分、生存狀態(tài)和編輯水平的分布,以及在訓(xùn)練集(C)和驗(yàn)證集(D)中按風(fēng)險(xiǎn)評(píng)分分組的生存概率的可視化Kaplan-Meier圖
圖3 不同臨床特征患者ATIRE風(fēng)險(xiǎn)評(píng)分的差異,A-G:年齡、性別、分級(jí)、分期、T分期、N分期、M分期
2.3 基于ATIRE 列線圖的建立及預(yù)測(cè)性能評(píng)價(jià) Cox單變量分析臨床特征和風(fēng)險(xiǎn)評(píng)分對(duì)患者生存率的影響。除性別、年齡、分級(jí)外,分期和Riskscore 可影響預(yù)后;多變量分析結(jié)果表明Riskscore 和分期是獨(dú)立預(yù)后因素,見(jiàn)圖4。根據(jù)ATIRE 風(fēng)險(xiǎn)評(píng)分和臨床病理特征,包括年齡、性別、分級(jí)、分期、T 分期、N 分期和M 分期建立列線圖。校準(zhǔn)圖顯示出在1 年、2 年和3 年觀察到OS 率與列線圖預(yù)測(cè)OS 率之間有更好的一致性。ROC曲線和決策曲線顯示Risk(AUC=0.802)和Nomogram(AUC=0.800)遠(yuǎn)大于單一臨床病理特征。表明建立的模型比單一臨床病理特征具有更高的凈效益,能夠更準(zhǔn)確預(yù)測(cè)患者OS 率。見(jiàn)圖5。
圖5 基于ATIRE風(fēng)險(xiǎn)評(píng)分和臨床病理特征的預(yù)后列線圖的性能。A:預(yù)測(cè)STAD患者1、3、5年OS概率的列線圖;B:校正曲線顯示,在1年、2年和3年觀察到的OS率與列線圖預(yù)測(cè)的OS率一致;決策曲線(C)和ROC曲線(D)描述了簡(jiǎn)單ATIRE風(fēng)險(xiǎn)評(píng)分、臨床病理特征以及ATIRE風(fēng)險(xiǎn)評(píng)分和臨床病理特征相結(jié)合的不同列線圖在預(yù)測(cè)1年OS率的凈效益方面的比較
2.4 富集分析 比較高低風(fēng)險(xiǎn)組中基因的表達(dá)水平,并篩選出差異表達(dá)基因(DEGs)。2 個(gè)組共鑒定出210個(gè)DEGs,高風(fēng)險(xiǎn)組中189 個(gè)基因上調(diào),21 個(gè)基因下調(diào)。GO 功能富集分析表明,差異表達(dá)基因影響腫瘤發(fā)生發(fā)展的機(jī)制主要涉及細(xì)胞黏附及突觸相關(guān)的通路,如:突觸組織、通過(guò)質(zhì)膜黏附分子的細(xì)胞-細(xì)胞黏附、細(xì)胞連接組裝、通過(guò)質(zhì)膜黏附分子的嗜同質(zhì)細(xì)胞黏附、突觸前、谷氨酸能突觸、不對(duì)稱突觸、神經(jīng)元間突觸。KEGG 功能富集分析表明,差異表達(dá)基因富含鈣信號(hào)通路、肌動(dòng)蛋白細(xì)胞骨架的調(diào)節(jié)、類固醇激素生物合成通路。見(jiàn)圖6。
圖6 與ATIRE風(fēng)險(xiǎn)評(píng)分相關(guān)的差異表達(dá)基因和相關(guān)生物學(xué)途徑。A. 用火山圖顯示高危患者與低?;颊叩牟町惐磉_(dá)基因。B. 基于TCGA數(shù)據(jù)的ATIRE相關(guān)基因GO途徑富集分析;C. 基于TCGA數(shù)據(jù)的ATIRE相關(guān)基因KEGG途徑富集分析
2.5 RNA 編輯和基因表達(dá)相關(guān)性分析 RNA 編輯與KRIT1 存在相關(guān)性(P<0.05)。ATIRE 風(fēng)險(xiǎn)評(píng)分和ADAR1 在TCGA-STAD 腫瘤組織中的表達(dá)存在相關(guān)性(P<0.05)。RNF149|chr2:101891615 和ZNF91|chr19:23542060 在腫瘤組織和正常組織間差異有統(tǒng)計(jì)學(xué)意義(P<0.05)。見(jiàn)圖7。
圖7 ATIRE位點(diǎn)選擇對(duì)基因表達(dá)的影響。A-E. STAD腫瘤組織中ATIRE位點(diǎn)編輯水平與宿主基因表達(dá)的相關(guān)性;F. 風(fēng)險(xiǎn)評(píng)分與ADAR基因表達(dá)的相關(guān)性;G-K. STAD腫瘤組織和正常組織中選定ATIRE位點(diǎn)編輯水平的差異
建立胃腺癌預(yù)后預(yù)測(cè)模型不僅可以預(yù)測(cè)癌癥預(yù)后結(jié)果,還可以對(duì)治療方案進(jìn)行優(yōu)化。近年來(lái),胃腺癌預(yù)后預(yù)測(cè)模型雖然有較大進(jìn)展。因此,探索新的模型,特別是基于新型分子標(biāo)記的模型,對(duì)于提高預(yù)測(cè)模型的可用性和準(zhǔn)確性仍然具有研究?jī)r(jià)值和現(xiàn)實(shí)意義。這個(gè)研究成功確定了5 個(gè)ATIRE 位點(diǎn),生成了一個(gè)ATIRE 風(fēng)險(xiǎn)評(píng)分,用于STAD 預(yù)后風(fēng)險(xiǎn)分層,與STAD OS 相關(guān)。結(jié)合風(fēng)險(xiǎn)評(píng)分和臨床病理特征的列線圖對(duì)STAD OS 具有較好的預(yù)測(cè)性能。
最近,ATIRE 越來(lái)越多被用來(lái)表征癌癥。本文通過(guò)Cox-pH 回歸和Lasso 算法,確定5 個(gè)與OS 相關(guān)的ATIRE 位點(diǎn)是LUSC 的最佳預(yù)后因素。除OSGEPL1 外,這些位點(diǎn)大多數(shù)位于已被認(rèn)為與胃腺癌發(fā)展有關(guān)的基因中。ZNF91 基因被鑒定為胃腺癌新的重要突變驅(qū)動(dòng)基因[6]。癌癥分泌的外體miR-21-5p 通過(guò)靶向KRIT1誘導(dǎo)血管生成和血管通透性[7]。此外,ARSD 表達(dá)與乳腺癌細(xì)胞中的ERα 狀態(tài)呈正相關(guān),這與良好的預(yù)后相關(guān),ARSD 可能作為預(yù)測(cè)預(yù)后的潛在標(biāo)志物和作為治療靶點(diǎn)[8]。RNF149 作為E3 連接酶參與蛋白質(zhì)泛素化[9],引起蛋白酶體介導(dǎo)的底物蛋白降解[10-11],與鼻咽癌細(xì)胞惡性進(jìn)展有關(guān)[12]。這些證據(jù)是支持這些ATIRE 位點(diǎn)與STAD 預(yù)后間的功能基礎(chǔ)。
關(guān)于這些位點(diǎn)如何與STAD 生存相關(guān)的潛在機(jī)制仍然完全未知。據(jù)報(bào)道,ATIRE 可能導(dǎo)致非同義氨基酸突變、選擇性剪接的錯(cuò)誤調(diào)節(jié)、密碼子偏好紊亂以及microRNA-mRNA 重定向或RNA 結(jié)合蛋白-mRNA 重定向,從而影響基因的表達(dá)或功能[13]。此外,在STAD腫瘤組織和正常組織間觀察到RNF149|chr2:101891615和ZNF91|chr19:23542060 的編輯水平差異有統(tǒng)計(jì)學(xué)意義,表明這些位點(diǎn)可能涉及STAD 發(fā)生。
GO 分析表明,可能參與GC 的DEGs 主要富含突觸、細(xì)胞黏附和囊泡的調(diào)節(jié),這些均是腫瘤增殖,侵襲和轉(zhuǎn)移的重要參與者[14-15]。外泌體作為小細(xì)胞外囊泡(sEVs),可將生物活性分子傳遞給受體細(xì)胞,是重組腫瘤行為、重塑腫瘤微環(huán)境和賦予治療耐藥性的重要介質(zhì),為胃腺癌的診斷和治療提供新的靶點(diǎn)[16-17]。KEGG分析表明,可能參與GC 的DEGs 主要富含鈣信號(hào)通路和肌動(dòng)蛋白細(xì)胞骨架的調(diào)節(jié),鈣信號(hào)通路是促進(jìn)癌細(xì)胞生長(zhǎng),侵襲和代謝的細(xì)胞內(nèi)和細(xì)胞間信號(hào)傳導(dǎo)途徑中的關(guān)鍵第二信使[18]。
根據(jù)上述ATIRE 風(fēng)險(xiǎn)評(píng)分和臨床病理特征,包括年齡、性別、分級(jí)、分期、T 分期、N 分期和M 分期建立列線圖。列線圖和Risk 在預(yù)測(cè)STAD 的OS 方面具有中等精度,在預(yù)測(cè)OS 率方面顯示出比Stage 和Grade更好的總體凈效益。在有效性方面,之前發(fā)布的基于基因表達(dá)的列線圖的Harrell C 指數(shù)范圍為0.55~0.888[19],與之相比,基于ATIRE 列線圖展現(xiàn)出相對(duì)優(yōu)越的性能。
總之,本研究首次生成了與STAD 患者的OS 相關(guān)的ATIRE 風(fēng)險(xiǎn)評(píng)分。結(jié)合ATIRE 風(fēng)險(xiǎn)評(píng)分和臨床病理特征的列線圖對(duì)STAD OS 具有良好的預(yù)測(cè)性能。這需要大量前瞻性集合來(lái)驗(yàn)證該模型的穩(wěn)健性,以評(píng)估其在臨床中的應(yīng)用價(jià)值。