李昂,謝俞寧,仵紅嬌,李佳瑩,張雪梅
華北理工大學(xué),河北唐山063210
肺癌是全球最常見(jiàn)的惡性腫瘤之一,可分為小細(xì)胞肺癌和非小細(xì)胞肺癌(NSCLC),其中NSCLC約占肺癌的85%[1,2]。目前針對(duì)肺癌的治療方法主要有手術(shù)切除、化療和靶向治療,但是NSCLC患者的5年生存率僅為17%[3]。肺腺癌是NSCLC中最常見(jiàn)的亞型,其發(fā)病率逐年上升且患者預(yù)后較差。因此,臨床亟需深入研究肺腺癌的發(fā)生發(fā)展機(jī)制,并尋找潛在的關(guān)鍵預(yù)后標(biāo)志物。近年來(lái),利用高通量測(cè)序技術(shù)檢測(cè)大量基因表達(dá)變化,并結(jié)合生物信息學(xué)方法系統(tǒng)分析腫瘤相關(guān)基因及其調(diào)控機(jī)制,已成為功能基因組學(xué)的一種重要研究手段,廣泛應(yīng)用在篩選腫瘤潛在生物標(biāo)志物的研究中。2020年3~4月,本研究整合了癌癥基因組圖譜(TCGA)和GEO數(shù)據(jù)庫(kù)中的肺腺癌預(yù)后相關(guān)mRNA數(shù)據(jù),篩選出肺腺癌預(yù)后關(guān)鍵基因并進(jìn)行驗(yàn)證,以期為肺腺癌的分子機(jī)制研究及預(yù)后判斷提供依據(jù)?,F(xiàn)報(bào)告如下。
1.1 數(shù)據(jù)獲取 通過(guò)TCGA數(shù)據(jù)庫(kù)下載556例份肺腺癌組織和59例份正常肺組織樣本的轉(zhuǎn)錄組數(shù)據(jù)及500例肺腺癌患者的臨床資料。使用GEO數(shù)據(jù)庫(kù)(http://www.ncbi.nlm.nih.gov/geo/)檢索肺腺癌組織芯片數(shù)據(jù),最終選用GSE10072、GSE43458、GSE32863三個(gè)與肺腺癌相關(guān)的mRNA芯片進(jìn)行后續(xù)分析,見(jiàn)表1。
表1 肺腺癌相關(guān)GEO數(shù)據(jù)集的基本信息
1.2 共同差異表達(dá)基因篩選 使用R語(yǔ)言“edgeR”程序包對(duì)TCGA數(shù)據(jù)庫(kù)中肺腺癌表達(dá)譜數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化及差異分析,同時(shí)運(yùn)用“l(fā)imma”包分別對(duì)GEO數(shù)據(jù)庫(kù)中三個(gè)與肺腺癌相關(guān)的mRNA芯片進(jìn)行差異表達(dá)基因篩選(|log2FC|>1,P<0.05),并繪制差異表達(dá)基因火山圖。使用FunRich工具構(gòu)建TCGA與GEO數(shù)據(jù)庫(kù)中差異表達(dá)基因的Venn圖,選擇共同差異表達(dá)基因進(jìn)行后續(xù)分析。
1.3 肺腺癌預(yù)后關(guān)鍵基因篩選 對(duì)TCGA和GEO數(shù)據(jù)庫(kù)篩選出的共同差異基因進(jìn)行單因素COX回歸分析,篩選與肺腺癌患者預(yù)后相關(guān)的基因。采用LASSO回歸分析,進(jìn)一步縮小預(yù)后相關(guān)基因的范圍,以保證結(jié)果穩(wěn)定性。最后對(duì)LASSO回歸分析篩選出的肺腺癌預(yù)后相關(guān)基因進(jìn)行多因素COX回歸分析,得到肺腺癌預(yù)后相關(guān)的獨(dú)立預(yù)測(cè)因子,即預(yù)后關(guān)鍵基因。
1.4 肺腺癌預(yù)后關(guān)鍵基因的驗(yàn)證
1.4.1 風(fēng)險(xiǎn)評(píng)分驗(yàn)證 以1.1中TCGA數(shù)據(jù)庫(kù)中的500例肺腺癌患者為研究對(duì)象,采用風(fēng)險(xiǎn)評(píng)分公式計(jì)算每個(gè)樣本的風(fēng)險(xiǎn)評(píng)分,風(fēng)險(xiǎn)評(píng)分=(0.858 91×DCN)+(1.380 54×ECT2)+(1.429 83×RRAS)+(0.946 68×PCP4)。以風(fēng)險(xiǎn)評(píng)分的中位數(shù)作為臨界值,將患者分為高風(fēng)險(xiǎn)組和低風(fēng)險(xiǎn)組。繪制生存曲線,比較兩組5年生存率;繪制該風(fēng)險(xiǎn)評(píng)分預(yù)測(cè)肺腺癌患者5年生存率的ROC曲線,以驗(yàn)證其準(zhǔn)確性。
1.4.2 癌組織預(yù)后關(guān)鍵基因表達(dá)與肺腺癌患者預(yù)后的關(guān)系 ①預(yù)后關(guān)鍵基因表達(dá)分析:采用GEPIA在線數(shù)據(jù)庫(kù)(http://gepia.cancer-pku.cn/)分析預(yù)后關(guān)鍵基因表達(dá),該數(shù)據(jù)庫(kù)包括來(lái)自TCGA和GTEx數(shù)據(jù)庫(kù)的肺腺癌組織9 736例份與正常肺組織8 587例份。②肺腺癌組織中預(yù)后關(guān)鍵基因表達(dá)水平與患者預(yù)后的關(guān)系分析:使用Kaplan Meier-plotter數(shù)據(jù)庫(kù)(http://www.kmplot.com/)計(jì)算出各基因相對(duì)表達(dá)量的最佳截?cái)嘀担鶕?jù)此最佳截?cái)嘀祵⒒颊叻譃楦?、低表達(dá)者,繪制生存曲線,比較其5年生存率。
1.5 預(yù)后關(guān)鍵基因的調(diào)控通路分析 在分子特征數(shù)據(jù)庫(kù)(MSigDB,http://software.broadinstitute.org/gsea/msigdb/index.jsp),下載“c2.cp.kegg.v7.0.symbols.gmt”基因集作為參考基因集。根據(jù)預(yù)后關(guān)鍵基因的表達(dá)中值,將肺腺癌組織分為高表達(dá)組和低表達(dá)組。利用R包“GSVA”對(duì)TCGA數(shù)據(jù)庫(kù)中肺腺癌差異基因的RNA測(cè)序數(shù)據(jù)進(jìn)行基因集變異分析(GSVA),以P<0.01為標(biāo)準(zhǔn),分析與預(yù)后關(guān)鍵基因表達(dá)相關(guān)的通路。
2.1 肺腺癌組織差異表達(dá)基因篩選結(jié)果 在TCGA數(shù)據(jù)庫(kù)中肺腺癌表達(dá)譜分析結(jié)果顯示,共得到差異表達(dá)基因4 815個(gè),其中上調(diào)基因2 879個(gè)、下調(diào)基因1 936個(gè)。在GEO數(shù)據(jù)庫(kù)中對(duì)GSE10072、GSE43458、GSE32863三個(gè)有關(guān)肺腺癌的mRNA芯片表達(dá)數(shù)據(jù)分析結(jié)果顯示,共得到差異表達(dá)基因178個(gè),其中上調(diào)基因34個(gè)、下調(diào)基因144個(gè)。兩個(gè)數(shù)據(jù)庫(kù)的共同差異表達(dá)基因共166個(gè)。
2.2 肺腺癌預(yù)后關(guān)鍵基因篩選結(jié)果 單因素COX回歸分析結(jié)果顯示,共獲得與肺腺癌患者預(yù)后相關(guān)基因75個(gè)(P均<0.05),按照P值由小到大排序,前10個(gè)與肺腺癌患者預(yù)后相關(guān)的基因見(jiàn)表2。LASSO回歸分析結(jié)果顯示,共篩選出19個(gè)與肺腺癌預(yù)后相關(guān)的關(guān)鍵基因,分別為SFTPC、TNNC1、FAM189A2、KLF4、CYP4B1、DPYSL2、IL33、DCN、CRTAC1、ECT2、SCGB1A1、IGF2BP3、SLC7A5、RRAS、WASF3、ARHGEF6、FBLN5、TIMP1、PCP4。多因素COX回歸分析結(jié)果顯示,DCN、RRAS、ECT2、PCP4是肺腺癌預(yù)后相關(guān)的獨(dú)立預(yù)測(cè)因子(P均<0.05)。見(jiàn)表3。
表2 前10個(gè)與肺腺癌預(yù)后相關(guān)基因的單因素COX回歸分析結(jié)果
2.3 風(fēng)險(xiǎn)評(píng)分驗(yàn)證結(jié)果 以風(fēng)險(xiǎn)評(píng)分的中位數(shù)0.948 374 4作為截?cái)嘀担瑢⒒颊叻譃楦唢L(fēng)險(xiǎn)組和低風(fēng)險(xiǎn)組,每組250例。高、低風(fēng)險(xiǎn)組5年生存率分別為29.3%、48.4%,兩組比較P<0.01。見(jiàn)圖1。該風(fēng)險(xiǎn)評(píng)分預(yù)測(cè)肺腺癌患者5年生存率的ROC曲線下面積(AUC)為0.628,見(jiàn)圖2。
表3 肺腺癌預(yù)后相關(guān)基因的多因素COX回歸分析結(jié)果
圖1 高風(fēng)險(xiǎn)組和低風(fēng)險(xiǎn)組的生存曲線
圖2 該風(fēng)險(xiǎn)評(píng)分預(yù)測(cè)肺腺癌患者5年生存率的ROC曲線
2.4 肺腺癌組織中預(yù)后關(guān)鍵基因表達(dá)與患者預(yù)后的關(guān)系 GEPIA數(shù)據(jù)庫(kù)分析結(jié)果顯示,肺腺癌組織中DCN、RRAS mRNA表達(dá)均低于正常肺組織,ECT2、PCP4 mRNA表達(dá)均高于正常肺組織(P均<0.05)。見(jiàn)圖3。DCN、RRAS、ECT2、PCP4高表達(dá)者的5年生存率分別為67.0%、51.0%、54.4%、57.7%,低表達(dá)者分別為52.5%、65.9%、65.1%、70.1%;RRAS(HR=1.65)、PCP4(HR=1.7)、ECT2(HR=1.38)高表達(dá)者5年生存率明顯低于低表達(dá)者,DCN(HR=0.46)高表達(dá)者5年生存率明顯高于低表達(dá)者(P均<0.01)。見(jiàn)圖4。
2.5 肺腺癌預(yù)后關(guān)鍵基因的調(diào)控通路分析結(jié)果 GSVA結(jié)果顯示,DCN高表達(dá)組相關(guān)調(diào)控通路富集在細(xì)胞黏附、JAK-STAT信號(hào)、補(bǔ)體和凝結(jié)級(jí)聯(lián)、NK細(xì)胞介導(dǎo)的細(xì)胞毒性、Toll樣受體等途徑;RRAS高表達(dá)組相關(guān)調(diào)控通路富集在溶酶體、硫代謝、糖胺聚糖降解等非腫瘤相關(guān)途徑;ECT2高表達(dá)組相關(guān)調(diào)控通路富集在同源重組、核苷酸切除修復(fù)、錯(cuò)配修復(fù)、DNA復(fù)制和細(xì)胞周期等途徑;PCP4高表達(dá)組相關(guān)調(diào)控通路富集在趨化因子信號(hào)、細(xì)胞黏附等途徑。
注:A為DCN,B為ECT2,C為RRAS,D為PCP4。
注:A為DCN,B為ECT2,C為RRAS,D為PCP4;-----為高表達(dá)者,——為低表達(dá)者。
本研究基于GEO和TCGA公共數(shù)據(jù)庫(kù),在全基因組水平上分析了肺腺癌組織的遺傳學(xué)特征,以期發(fā)現(xiàn)在癌癥預(yù)后中顯著改變的基因及潛在標(biāo)志物。本研究將LASSO引入到COX回歸模型中[4],共篩選得到DCN、RRAS、PCP4、ECT2這4個(gè)與肺腺癌患者預(yù)后顯著相關(guān)的關(guān)鍵基因,并通過(guò)Kaplan Meier和ROC曲線進(jìn)行了驗(yàn)證。目前,DCN、RRAS、PCP4、ECT2在肺腺癌及其他惡性腫瘤中的報(bào)道比較少。DCN是一種富含亮氨酸的蛋白聚糖,其過(guò)表達(dá)可顯著抑制肺腺癌進(jìn)展[5]。DCN 5′-UTR的甲基化與其表達(dá)降低相關(guān),可增強(qiáng)具有高轉(zhuǎn)移潛能的NSCLC細(xì)胞中TGF-β/Smad信號(hào)傳導(dǎo)[6]。一項(xiàng)乳腺癌相關(guān)的Meta分析結(jié)果表明,DCN高表達(dá)與乳腺癌患者預(yù)后良好相關(guān)[7]。RRAS是RAS超家族成員之一,在多種組織中均有表達(dá),可調(diào)節(jié)細(xì)胞黏附、遷移和分化。研究發(fā)現(xiàn),RRAS在乳腺癌組織中低表達(dá),并且RRAS可抑制乳腺癌細(xì)胞增殖、遷移和細(xì)胞周期過(guò)程[8]。此外,RRAS還可通過(guò)激活PI3K/AKT/mTOR信號(hào)傳導(dǎo)途徑,促進(jìn)宮頸上皮細(xì)胞增殖[9,10]。目前尚未有RRAS與癌癥預(yù)后關(guān)系的相關(guān)報(bào)道。本研究生物信息結(jié)果分析發(fā)現(xiàn)RRAS在肺腺癌組織中低表達(dá),且低表達(dá)患者預(yù)后良好。分析原因,可能是RRAS低表達(dá)僅參與了肺腺癌的發(fā)生,但不會(huì)促進(jìn)肺腺癌進(jìn)展,但仍需要進(jìn)一步實(shí)驗(yàn)進(jìn)行驗(yàn)證。既往相關(guān)研究表明,PCP4不僅可作為食管癌的預(yù)后標(biāo)記基因[11],還可抑制上皮間充質(zhì)轉(zhuǎn)化和促進(jìn)細(xì)胞凋亡,是乳腺癌治療的潛在靶點(diǎn)[12]。ECT2是Rho家族中GTP酶的鳥(niǎo)嘌呤核苷酸交換因子[13],高表達(dá)的ECT2與許多腫瘤的發(fā)生、發(fā)展有關(guān),是肺腺癌患者總體生存率低的獨(dú)立危險(xiǎn)因素[14],這與我們的研究結(jié)果相一致。Luo等[15]研究發(fā)現(xiàn),結(jié)直腸癌組織中ECT2表達(dá)升高與TNM分期及患者總體存活率降低顯著相關(guān)。Wang等[16]研究表明,ECT2在乳腺癌的發(fā)生、發(fā)展中具有重要作用,并具有獨(dú)立的預(yù)后預(yù)測(cè)價(jià)值,或可成為乳腺癌治療的新靶點(diǎn)。
為了進(jìn)一步探討DCN、RRAS、ECT2和PCP4在肺腺癌中的潛在機(jī)制,本研究基于TCGA表達(dá)譜數(shù)據(jù)進(jìn)行了GSVA。結(jié)果顯示,RRAS高表達(dá)組相關(guān)調(diào)控通路富集在溶酶體、硫代謝、糖胺聚糖降解等非腫瘤相關(guān)途徑,或許這也是RRAS在肺腺癌中研究較少的原因;DCN高表達(dá)組相關(guān)調(diào)控通路富集在細(xì)胞黏附、JAK-STAT信號(hào)、補(bǔ)體和凝結(jié)級(jí)聯(lián)、NK細(xì)胞介導(dǎo)的細(xì)胞毒性、Toll樣受體等途徑,進(jìn)一步表明DCN可通過(guò)免疫途徑抑制肺腺癌的發(fā)生發(fā)展,從而影響患者預(yù)后;ECT2高表達(dá)組相關(guān)調(diào)控通路富集在同源重組、核苷酸切除修復(fù)、錯(cuò)配修復(fù)、DNA復(fù)制和細(xì)胞周期等途徑,上述途徑與肺腺癌細(xì)胞增殖過(guò)程的激活有關(guān);PCP4高表達(dá)組相關(guān)調(diào)控通路富集在趨化因子信號(hào)、細(xì)胞黏附等途徑。以上發(fā)現(xiàn)為DCN、RRAS、ECT2和PCP4影響肺腺癌患者預(yù)后的相關(guān)機(jī)制提供了新的見(jiàn)解。