熊雅俊,許愛國
(鄭州大學(xué)第一附屬醫(yī)院 呼吸與重癥三科,河南 鄭州 450052)
原發(fā)性肺癌是我國最常見的惡性腫瘤[1]。非小細(xì)胞肺癌(non-small cell lung cancer,NSCLC)占新發(fā)肺癌的80%~85%[1],肺腺癌(lung adenocarcinoma,LUAD)是NSCLC中最常見的病理類型,在年輕女性和從不吸煙者中的發(fā)病率不斷升高。盡管以分子遺傳學(xué)為基礎(chǔ)的聯(lián)合療法改善了LUAD患者的預(yù)后,但由于缺乏早期識別標(biāo)志物,61%的肺癌患者確診時已進(jìn)展為Ⅲ期或Ⅳ期[2]。據(jù)統(tǒng)計,NSCLC的5 a生存率只有23%,伴晚期轉(zhuǎn)移性病變的LUAD患者的5 a生存率低于4%[2]。隨著二代測序技術(shù)的跨越式發(fā)展,生物信息學(xué)的發(fā)展促進(jìn)了基因表達(dá)譜技術(shù)在鑒定新型生物標(biāo)志物方面的廣泛應(yīng)用[3]。內(nèi)質(zhì)網(wǎng)在蛋白質(zhì)折疊、翻譯后修飾、鈣穩(wěn)態(tài)和脂質(zhì)合成中發(fā)揮重要作用[4]。多種外源性和內(nèi)源性因素干擾內(nèi)質(zhì)網(wǎng)穩(wěn)態(tài),當(dāng)錯誤折疊蛋白超過一定水平時,會觸發(fā)內(nèi)質(zhì)網(wǎng)應(yīng)激反應(yīng)[5]。現(xiàn)有研究證明,內(nèi)質(zhì)網(wǎng)應(yīng)激是許多癌癥的標(biāo)志。內(nèi)質(zhì)網(wǎng)應(yīng)激的關(guān)鍵調(diào)節(jié)基因XBP1和GRP78在肺癌組織的mRNA和蛋白質(zhì)中高表達(dá),可促進(jìn)腫瘤的侵襲和轉(zhuǎn)移[6-7]。因此,內(nèi)質(zhì)網(wǎng)應(yīng)激相關(guān)基因的異常表達(dá)可能對LUAD有預(yù)后價值,可作為潛在的治療靶點。然而,影響LUAD進(jìn)展和預(yù)后的內(nèi)質(zhì)網(wǎng)應(yīng)激相關(guān)基因尚未完全鑒定。本研究基于癌癥基因組圖譜(The Cancer Genome Atlas,TCGA)數(shù)據(jù)庫確定了190個內(nèi)質(zhì)網(wǎng)應(yīng)激相關(guān)差異表達(dá)基因(differentially expressed gene,DEGs),通過生物信息學(xué)分析篩選核心基因,建立內(nèi)質(zhì)網(wǎng)應(yīng)激風(fēng)險模型,以預(yù)測LUAD的預(yù)后。
1.1 數(shù)據(jù)下載及處理從TCGA網(wǎng)站(https://portal.gdc.cancer.gov/projects/tcga)下載了526例LUAD及59例正常肺組織的mRNA測序信息和臨床數(shù)據(jù),具有完整信息的有428例。GeneCards是1個整合了幾乎所有已知人類基因信息的綜合數(shù)據(jù)庫,登錄GeneCards網(wǎng)站(https://www.genecards.org/),在搜索框輸入“endoplasmic reticulum stress”,選擇檢索結(jié)果與檢索關(guān)鍵詞相關(guān)性≥7的833個基因。
1.2 篩選DEGs為了確定與LUAD預(yù)后有關(guān)的基因,使用R軟件DESeq2包篩選患者和正常人組織間的DEGs。將標(biāo)準(zhǔn)設(shè)置為校正后的P<0.05,且差異倍數(shù)的絕對值≥1,利用R軟件tinyarray包畫熱圖和火山圖,將結(jié)果可視化。最后,將DEGs與內(nèi)質(zhì)網(wǎng)應(yīng)激相關(guān)基因取交集,即為LUAD差異表達(dá)的內(nèi)質(zhì)網(wǎng)應(yīng)激相關(guān)基因。
1.3 富集分析為了闡明和DEGs相關(guān)的潛在的基因功能注釋和富集通路,利用R軟件clusterprofiler包進(jìn)行基因本體(Gene Ontology,GO)和京都基因與基因組百科全書(Kyoto Encyclopedia of Genes and Genomes,KEGG)富集分析[8],其中GO分析包括分子生物學(xué)功能(molecular function,MF)、生物學(xué)過程 (biological process,BP) 和細(xì)胞學(xué)組分三大類[9]。
1.4 Lasso和Cox構(gòu)建模型利用R軟件survival包對DEGs進(jìn)行單因素Cox回歸分析以確定和LUAD預(yù)后有關(guān)的內(nèi)質(zhì)網(wǎng)應(yīng)激相關(guān)基因,再依次進(jìn)行Lasso回歸分析和多因素Cox回歸分析進(jìn)一步縮小目標(biāo)基因范圍?;诙嘁蛩谻ox回歸分析得到的回歸系數(shù)和所選內(nèi)質(zhì)網(wǎng)應(yīng)激相關(guān)基因的表達(dá)水平構(gòu)建模型。
1.5 模型可視化繪制風(fēng)險森林圖可視化多因素Cox回歸模型,為了評價模型的預(yù)測能力,繪制受試者工作特征(receiver operating characteristic,ROC)曲線預(yù)測模型的準(zhǔn)確性。基于多因素回歸分析的結(jié)果,將內(nèi)質(zhì)網(wǎng)應(yīng)激風(fēng)險特征聯(lián)合臨床指標(biāo)繪制諾莫圖,預(yù)測LUAD結(jié)局事件的發(fā)生。利用校正曲線評估諾莫圖預(yù)測LUAD患者3、5 a生存率的準(zhǔn)確性。校正曲線中的預(yù)測曲線和實際曲線的吻合程度越高,諾莫圖的預(yù)測能力越強。
1.6 統(tǒng)計學(xué)方法采用R 4.2.0軟件處理數(shù)據(jù)。采用Wilcoxon檢驗進(jìn)行組間差異分析。采用單因素Cox回歸模型計算風(fēng)險比(hazard ratio,HR)和95%置信區(qū)間。多元Cox回歸模型可提示內(nèi)質(zhì)網(wǎng)應(yīng)激風(fēng)險特征作為患者獨立預(yù)后標(biāo)志物的價值。所有P值均為雙側(cè),P<0.05為差異有統(tǒng)計學(xué)意義。
2.1 鑒定DEGs結(jié)果顯示腫瘤組織中13 949個基因的表達(dá)與正常組織相比有顯著差異,其中有3 262個下調(diào)基因,10 687個上調(diào)基因?;鹕綀D顯示了DEGs在LUAD樣本和正常樣本之間的分布(圖1A)。熱圖橫坐標(biāo)表示基因信息,縱坐標(biāo)表示分組信息,圖1B顯示了正常組織和LUAD組織之間的基因組表達(dá)差異。使用主成分分析方法對樣本進(jìn)行降維處理,以探討DEGs是否能區(qū)分LUAD樣本和正常樣本,結(jié)果顯示正常樣本和LUAD組織中DEGs的表達(dá)存在差異(圖1C)。
A為DEGs的火山圖;B為正常樣本和腫瘤樣本DEGs的等級聚類;C為DEGs的主成分分析。圖1 正常組織與LUAD組織基因組圖譜的差異
2.2 DEGs的富集分析為了確定DEGs的生物學(xué)功能,進(jìn)行GO和KEGG通路富集分析。與生物學(xué)過程有關(guān)的DEGs顯著富集于體液免疫反應(yīng)、細(xì)胞識別及補體激活等,與細(xì)胞學(xué)組分有關(guān)的DEGs顯著富集于質(zhì)膜外側(cè)面、含膠原的細(xì)胞外基質(zhì)、免疫球蛋白復(fù)合物等,與分子功能相關(guān)的DEGs主要富集于信號受體激活劑活性、受體配體活性和門控通道活性等(圖2A)。KEGG分析發(fā)現(xiàn)DEGs主要富集于脂質(zhì)與動脈粥樣硬化、內(nèi)質(zhì)網(wǎng)蛋白質(zhì)加工和cAMP信號通路等(圖2B)。
A為GO富集分析;B為KEGG通路富集分析。圖2 DEGs的功能富集分析
2.3 內(nèi)質(zhì)網(wǎng)應(yīng)激風(fēng)險模型的構(gòu)建和評估將上述DEGs和833個內(nèi)質(zhì)網(wǎng)應(yīng)激相關(guān)基因取交集,得到190個DEGs。為了探索內(nèi)質(zhì)網(wǎng)應(yīng)激在LUAD中的預(yù)后價值,構(gòu)建風(fēng)險評分模型以評估LUAD的內(nèi)質(zhì)網(wǎng)應(yīng)激狀態(tài)。首先,對190個基因進(jìn)行批量單因素Cox回歸分析,篩選出88個與LUAD預(yù)后顯著相關(guān)的基因(P<0.01)。隨后,利用Lasso回歸算法篩選出回歸系數(shù)非零的最有價值的預(yù)測基因(圖3A和B)。繪制箱線圖(圖3C)和ROC曲線(圖3D)評估兩個λ值構(gòu)建的模型的預(yù)測作用,結(jié)果提示模型可用,選擇按照1 min建模篩選出的24個基因。為了進(jìn)一步縮小目標(biāo)基因的范圍,利用多因素Cox回歸分析方法構(gòu)建最優(yōu)模型,最終篩選出8個基因(圖3E)。其中,MBTPS2、SEC61G、FURIN和PKP2是LUAD的危險因素(HR>1),EIF2AK3、CAV3、SELENOK和NLRP1是保護(hù)因素(HR<1)。繪制ROC曲線評估內(nèi)質(zhì)網(wǎng)應(yīng)激風(fēng)險模型預(yù)測預(yù)后的有效性,如圖3F所示,模型預(yù)測1、2、3 a總生存期(overall survival,OS)的曲線下面積(area under curve,AUC)分別為0.74(0.66~0.82)、0.75(0.69~0.81)和0.76(0.70~0.82)。
A為88個基因的最小絕對收縮和Lasso系數(shù)分布;B為在Lasso模型中通過10次交叉驗證調(diào)整參數(shù)選擇;C為預(yù)測結(jié)果的可視化;D為模型的預(yù)后預(yù)測能力評估;E為8個基因的風(fēng)險森林圖;F為模型預(yù)測LUAD患者1、2和3 a生存率的準(zhǔn)確性。圖3 預(yù)后模型的構(gòu)建
2.4 內(nèi)質(zhì)網(wǎng)應(yīng)激風(fēng)險特征的功能注釋根據(jù)MaxStat包確定的臨界值0.92(圖4A),刪除臨床信息缺失者,將428例患者分為高危組和低危組。低危組患者表現(xiàn)出顯著的生存獲益(HR=0.28,95% CI:0.19~0.40),見圖4B。高危組中位生存時間為32.5個月,低危組中位生存時間為89.4個月。PKP2、MBTPS2、SEC61G和FURIN在高危組患者中的表達(dá)高于低危組,SELENOK、CAV3、NLRP1和EIF2AK3正相反(圖4C)。為了探索內(nèi)質(zhì)網(wǎng)應(yīng)激與LUAD相關(guān)的潛在機制,使用Hallmark通路基因特征分析方法鑒定兩組富集到的生物學(xué)通路。結(jié)果顯示高危組患者顯著富集于mTORC1信號通路、G2M檢查點和P13K/AKT/mTOR信號通路等和腫瘤發(fā)生發(fā)展相關(guān)的通路(圖4D)。
A為將患者分為高危組和低危組;B為兩組的Kaplan-Meier生存曲線;C為8個基因在兩組的表達(dá)差異;D為兩組的基因集變異分析。圖4 構(gòu)建riskscore特征
2.5 諾莫圖的構(gòu)建與驗證多因素Cox回歸分析顯示,內(nèi)質(zhì)網(wǎng)應(yīng)激風(fēng)險特征和TNM分期與OS顯著相關(guān)(圖5A)。ROC曲線提示模型預(yù)測預(yù)后的有效性,如圖5B所示,預(yù)測1、2、3 a OS的AUC分別為0.75(0.67~0.83)、0.75(0.70~0.81)和0.77(0.72~0.84)。利用TCGA數(shù)據(jù)集構(gòu)建的內(nèi)質(zhì)網(wǎng)應(yīng)激風(fēng)險特征是LUAD的獨立預(yù)后因素。為了在臨床上更準(zhǔn)確預(yù)測患者的病死率,整合內(nèi)質(zhì)網(wǎng)應(yīng)激風(fēng)險特征、年齡、性別和TNM分期,構(gòu)建預(yù)測LUAD患者1 a和2 a OS的諾莫圖(圖5C)。校準(zhǔn)曲線表明,患者3 a和5 a的預(yù)測生存率和實際生存率之間具有顯著的一致性(圖5D)。
A為多因素Cox回歸模型;B為模型預(yù)測1、2、3 a生存率的能力;C為諾莫圖的構(gòu)建;D為諾模圖的校準(zhǔn)曲線。圖5 構(gòu)建諾莫圖
肺癌是全球發(fā)病率和病死率最高的侵襲性腫瘤之一,NSCLC是最常見的肺癌類型,根據(jù)基因和分子特征又分為肺鱗癌和LUAD。近年來,診斷和治療的進(jìn)步極大地改善了LUAD的預(yù)后,但是由于腫瘤轉(zhuǎn)移和復(fù)發(fā),患者預(yù)后仍較差[10]。識別新的預(yù)后生物標(biāo)志物以及建立預(yù)后模型具有重要意義。下一代測序技術(shù)的發(fā)展為解讀LUAD的關(guān)鍵基因和表觀遺傳學(xué)的改變提供了機遇。
內(nèi)質(zhì)網(wǎng)在大多數(shù)蛋白質(zhì)的合成和正確折疊中起關(guān)鍵作用[11]。失去調(diào)控的蛋白沉積導(dǎo)致錯誤折疊或未折疊蛋白的積累,引起內(nèi)質(zhì)網(wǎng)應(yīng)激[12]。內(nèi)質(zhì)網(wǎng)應(yīng)激是細(xì)胞在不利環(huán)境中生存的一種適應(yīng)性機制[13]。癌細(xì)胞由于營養(yǎng)缺乏、缺氧和氧化應(yīng)激等因素,容易誘發(fā)內(nèi)質(zhì)網(wǎng)應(yīng)激[14]。內(nèi)質(zhì)網(wǎng)應(yīng)激的持續(xù)激活使腫瘤細(xì)胞具有更強的致瘤、轉(zhuǎn)移和耐藥能力[14]。內(nèi)質(zhì)網(wǎng)應(yīng)激參與腫瘤的發(fā)生和進(jìn)展,了解內(nèi)質(zhì)網(wǎng)應(yīng)激相關(guān)基因在LUAD中的作用,可能對基于內(nèi)質(zhì)網(wǎng)應(yīng)激相關(guān)基因的臨床結(jié)局預(yù)測和治療靶點的開發(fā)至關(guān)重要。
既往文獻(xiàn)曾發(fā)現(xiàn)多個內(nèi)質(zhì)網(wǎng)應(yīng)激相關(guān)基因與肺癌發(fā)生和預(yù)后的關(guān)系。未折疊蛋白反應(yīng)是內(nèi)質(zhì)網(wǎng)應(yīng)激后的一系列適應(yīng)性機制[15]。GRP78基因編碼的蛋白是主要的未折疊蛋白反應(yīng)調(diào)節(jié)因子,研究發(fā)現(xiàn)其在侵襲性、轉(zhuǎn)移性和化療耐藥的肺癌中過表達(dá)[16]。GRP78單倍劑量不足能抑制腫瘤進(jìn)展,延長患者生存期[17]。GADD34基因編碼一種磷酸酶,負(fù)責(zé)內(nèi)質(zhì)網(wǎng)應(yīng)激后恢復(fù)正常的蛋白質(zhì)合成功能[18]。Lei等[19]通過在A549細(xì)胞系敲除GADD34,發(fā)現(xiàn)腫瘤細(xì)胞活性和增殖能力降低,腫瘤生長受到抑制。XBP1和AFT6基因編碼的蛋白是內(nèi)質(zhì)網(wǎng)應(yīng)激的關(guān)鍵調(diào)節(jié)分子,XBP1的mRNA和蛋白水平在腫瘤組織中過表達(dá),與腫瘤侵襲性增加及上皮間質(zhì)轉(zhuǎn)化有關(guān)[6]。AFT6誘導(dǎo)表皮生長因子上調(diào),刺激腫瘤血管生成,導(dǎo)致化療后腫瘤復(fù)發(fā)[20]。本文旨在挖掘更多影響LUAD預(yù)后的內(nèi)質(zhì)網(wǎng)應(yīng)激相關(guān)基因,有助于未來LUAD治療靶點的開發(fā),改善患者預(yù)后。
本研究從GeneCards網(wǎng)站檢索并下載833個內(nèi)質(zhì)網(wǎng)應(yīng)激相關(guān)基因。通過生物信息學(xué)分析,最終篩選出8個與LUAD預(yù)后相關(guān)的基因并構(gòu)建預(yù)測模型。
PKP2基因編碼一種結(jié)構(gòu)蛋白,在調(diào)節(jié)蛋白結(jié)合、細(xì)胞連接和信號轉(zhuǎn)導(dǎo)等方面發(fā)揮重要作用[21]。PKP2的高表達(dá)與卵巢癌[22]和LUAD[23]的增殖和侵襲有關(guān),提示PKP2促進(jìn)腫瘤進(jìn)展,和本文得到的結(jié)果一致。表皮生長因子受體與腫瘤的發(fā)生發(fā)展有關(guān),PKP2通過與表皮生長因子受體相互作用,促進(jìn)其介導(dǎo)的信號通路活化,即細(xì)胞增殖、血管生成和侵襲能力的增加[24]。另有研究發(fā)現(xiàn)PKP2參與β-catenin介導(dǎo)的信號通路,是上皮間質(zhì)轉(zhuǎn)化的標(biāo)志,PKP2可減少細(xì)胞間黏附,增強腫瘤細(xì)胞運動能力,這可能與其促進(jìn)腫瘤遷移有關(guān)[25]。
NLRP1基因編碼的蛋白通過形成炎癥小體復(fù)合體,對誘導(dǎo)宿主防御過程中的炎癥反應(yīng)具有重要意義[26],而炎癥反應(yīng)與癌癥密切相關(guān)。Williams等[27]發(fā)現(xiàn)NLRP1在結(jié)腸癌患者中表達(dá)下調(diào),在小鼠結(jié)腸腫瘤模型中,NLRP1可降低炎癥驅(qū)動的結(jié)腸腫瘤的發(fā)病率和病死率。NLRP1表達(dá)下降與LUAD免疫細(xì)胞浸潤程度降低及患者預(yù)后不良相關(guān)[28],和本研究結(jié)果一致。NLRP1是一種抑癌基因,但其功能增益突變導(dǎo)致的異常NLRP1炎癥小體激活與癌癥的發(fā)生有關(guān)[29]。Zhai等[30]發(fā)現(xiàn)NLRP1通過促進(jìn)炎癥小體活化和抑制轉(zhuǎn)移性黑色素瘤細(xì)胞凋亡促進(jìn)腫瘤生長。Wei等[31]在乳腺癌MCF-7細(xì)胞中過表達(dá)NLRP1并建立了裸鼠移植瘤模型,發(fā)現(xiàn)NLPR1促進(jìn)了乳腺癌的遷移、侵襲和生長。Zhong等[32]研究發(fā)現(xiàn),NLRP1的胚系突變導(dǎo)致多發(fā)性自愈性掌跖癌和家族性慢性苔蘚樣角化癥。
EIF2AK3基因編碼一種內(nèi)質(zhì)網(wǎng)Ⅰ型跨膜蛋白,在恢復(fù)內(nèi)質(zhì)網(wǎng)穩(wěn)態(tài)中發(fā)揮重要作用,本研究結(jié)果可知EIF2AK3的表達(dá)與LUAD預(yù)后良好呈正相關(guān)。Fei等[33]在LUAD細(xì)胞系中同樣發(fā)現(xiàn)EIF2AK3基因水平降低。研究還發(fā)現(xiàn)在胰腺癌細(xì)胞中激活EIF2AK3/eIF2/ATF4信號通路能阻止腫瘤進(jìn)展[34]。MBTPS2可作為肺癌患者的獨立預(yù)后指標(biāo)。Zhang等[35]發(fā)現(xiàn)MBTPS2在LUAD中高表達(dá),與本研究結(jié)果一致。SEC61G基因編碼的蛋白是SEC61易位復(fù)合體的1個亞基,在蛋白質(zhì)折疊、修飾、易位和激活未折疊蛋白反應(yīng)中起重要作用[36]。研究發(fā)現(xiàn)在A549細(xì)胞系中敲減SEC61G可抑制細(xì)胞增殖、遷移和侵襲能力,促進(jìn)細(xì)胞凋亡[37]。SEC61G基因在肺癌中表達(dá)上調(diào),與LUAD的不良預(yù)后顯著相關(guān)[38],與本研究結(jié)果一致。
本研究結(jié)果顯示FURIN基因表達(dá)水平與LUAD預(yù)后良好呈負(fù)相關(guān),CAV3和SELENOK基因正相反。FURIN基因編碼的蛋白是鈣依賴性前蛋白轉(zhuǎn)化酶[39]。FURIN抑制劑通過下調(diào)遷移和凋亡相關(guān)蛋白的表達(dá),抑制A549細(xì)胞的增殖和運動[40]。He等[41]研究發(fā)現(xiàn)FURIN在三陰性乳腺癌中高表達(dá)。CAV3基因在NSCLC中高表達(dá),與患者預(yù)后不良相關(guān)[42]。敲減CAV3能抑制前列腺癌細(xì)胞的增殖、遷移和侵襲[43]。SELENOK編碼一種內(nèi)質(zhì)網(wǎng)常駐蛋白,參與免疫細(xì)胞的抗氧化、鈣通道調(diào)節(jié)和內(nèi)質(zhì)網(wǎng)相關(guān)降解等途徑[44]。SELENOK基因表達(dá)降低與LUAD預(yù)后不良相關(guān)[45]。SELENOK的低表達(dá)與胃癌的增殖和侵襲能力增加有關(guān),提示SELENOK基因抑制腫瘤進(jìn)展[46]。
綜上,LUAD高危組患者顯著富集的通路與腫瘤的發(fā)生發(fā)展有關(guān)?;诙嘁蛩谻ox回歸分析的結(jié)果構(gòu)建諾莫圖,校正圖提示諾莫圖良好的預(yù)測潛能。因此,基于8個基因的內(nèi)質(zhì)網(wǎng)應(yīng)激風(fēng)險特征可以預(yù)測LUAD患者的OS,并有助于后續(xù)研究中選擇最佳的治療方案。然而,本研究也有一定局限性。首先,這8個基因在蛋白水平的表達(dá)和預(yù)后預(yù)測效果需要評估。其次,還需要進(jìn)一步研究證實內(nèi)質(zhì)網(wǎng)應(yīng)激風(fēng)險特征在LUAD中的具體功能機制。此外,本研究結(jié)果需要結(jié)合濕實驗進(jìn)行驗證。