盧俅 陳兵海(江蘇大學(xué)附屬醫(yī)院,鎮(zhèn)江212000)
膀胱癌是泌尿系統(tǒng)最常見的惡性腫瘤之一,2018年全世界約有55萬(wàn)新發(fā)病例,占所有惡性腫瘤的3.0%,發(fā)病率居惡性腫瘤第十位,全世界每年約有20萬(wàn)人死于膀胱癌[1]。在我國(guó),膀胱癌發(fā)病率位于全身惡性腫瘤的第十二位,每年約有8萬(wàn)新診斷膀胱癌患者,約占全部惡性腫瘤的1.87%,死亡率位于惡性腫瘤的第十二位,約占所有惡性腫瘤死亡率的1.1%[2]。膀胱癌主要起源于上皮組織,約75%的膀胱癌屬于非肌層浸潤(rùn)性膀胱癌,同時(shí)具有較高的復(fù)發(fā)率,患者預(yù)后較差[3-4]。目前膀胱癌的診斷主要依靠膀胱鏡檢查,膀胱鏡檢查雖然存在診斷陽(yáng)性率較高的優(yōu)勢(shì),但仍然有著巨大局限,如屬于有創(chuàng)檢查,存在一定的手術(shù)禁忌證等[5]。因此,目前迫切需要找到膀胱癌的新型分子標(biāo)志物,用于膀胱癌的診斷及預(yù)后判斷?;虮磉_(dá)綜合數(shù)據(jù)庫(kù)(Gene Expression Omnibus,GEO)和癌癥基因組圖譜(The Cancer Genome Atlas,TCGA)是目前世界上最大的兩個(gè)癌癥基因信息數(shù)據(jù)庫(kù),近年來(lái),已有眾多學(xué)者通過(guò)生物信息學(xué)的方法對(duì)這兩個(gè)數(shù)據(jù)庫(kù)展開研究[6-7]。本研究立足于GEO和TCGA兩大數(shù)據(jù)庫(kù),篩選差異交集基因集,利用多重生物信息學(xué)分析工具,發(fā)現(xiàn)CDC20、TPM1、ACTA2、MYH11、MYLK以及CALD1可能是膀胱癌關(guān)鍵的核心基因及治療靶點(diǎn)。
1.1 膀胱癌差異基因篩選從GEO數(shù)據(jù)庫(kù)(www.ncbi.nlm.nih.gov/geo)下載2個(gè)基因芯片數(shù)據(jù),分別為GSE13507和GSE7476。其中GSE13507的基因平臺(tái)是GPL6102 Illumina human-6 v2.0 expression beadchip,它包括188個(gè)膀胱癌組織和68個(gè)正常膀胱組織,GSE7476的基因平臺(tái)是GPL570 Affymetrix Human Genome U133 Plus 2.0 Array,它包括9個(gè)癌組織和3個(gè)正常組織。為了進(jìn)一步利用不同數(shù)據(jù)庫(kù)進(jìn)行驗(yàn)證,又從TCGA數(shù)據(jù)庫(kù)(https://tcga.xena?hubs.net/)下載膀胱癌的RNA-seq數(shù)據(jù)及相應(yīng)臨床隨訪數(shù)據(jù)。其中包括407個(gè)膀胱癌樣本,19個(gè)正常膀胱組織樣本。剔除臨床隨訪數(shù)據(jù)缺失的樣本,共獲得405個(gè)有完整臨床數(shù)據(jù)的膀胱癌樣本。利用SangerBox數(shù)據(jù)分析軟件中DECeter內(nèi)置limma包進(jìn)行差異基因的篩選,設(shè)置篩選條件:P<0.05,log2(FC)>1,得到3個(gè)差異基因集組成的數(shù)據(jù)集。利用SangerBox數(shù)據(jù)分析軟件中火山圖繪制工具繪制每個(gè)數(shù)據(jù)集的火山圖,采用維恩圖(http://bioinformatics.psb.ugent.be/webtools/Venn/)獲得交集基因。
1.2 GO和KEGG通路富集分析使用Metascape在線分析網(wǎng)站(https://metascape.org/)對(duì)301個(gè)差異基因進(jìn)行基因的本體論(Gene Ontology,GO)功能分析和京都基因與基因組百科全書(Kyoto Encyclo?pedia of Genes and Genomes,KEGG)通路分析,設(shè)置P<0.05為差異具有統(tǒng)計(jì)學(xué)意義。
1.3 蛋白質(zhì)互相作用網(wǎng)絡(luò)(protein-protein interac?tions network,PPI)分析為了了解膀胱癌的新陳代謝和分子機(jī)制的重要途徑,將得到的301個(gè)差異基因集導(dǎo)入String在線分析網(wǎng)站(https://string-db.org/)進(jìn)行PPI分析,為了獲得更直觀的可視化,將分析結(jié)果中TSV格式的文件導(dǎo)入Cytoscape軟件,篩選出關(guān)鍵蛋白表達(dá)模塊與關(guān)鍵核心基因。
1.4 生存分析采用從TCGA下載的臨床數(shù)據(jù)及基因表達(dá)矩陣,對(duì)篩選獲得的核心基因,利用Graph?Pad Prism 8.0.1軟件進(jìn)行生存分析,繪制K-M生存曲線(P<0.05表示差異具有統(tǒng)計(jì)學(xué)意義)。
2.1 膀胱癌差異基因篩選利用SangerBox數(shù)據(jù)分析軟件中DECeter內(nèi)置limma包,設(shè)置篩選條件:P<0.05,log2(FC)>1。在GSE13507基因芯片獲得在膀胱癌組織中75個(gè)表達(dá)上調(diào)基因,424個(gè)表達(dá)下調(diào)基因,GSE7476中膀胱癌組織中得到584個(gè)上調(diào)基因,1 520個(gè)下調(diào)基因,TCGA數(shù)據(jù)庫(kù)中獲得1 634個(gè)上調(diào)基因,2 671個(gè)下調(diào)基因。利用每個(gè)數(shù)據(jù)集的表達(dá)差異基因繪制火山圖及維恩圖(圖1)。
圖1 差異基因的火山圖和維恩圖Fig.1 Volcano Maps and Venn Diagram of differentially expressed genes
2.2 GO和KEGG通路富集分析使用Metascape在線分析網(wǎng)站進(jìn)行GO和KEGG通路富集分析,結(jié)果顯示301個(gè)差異基因主要與含膠原的細(xì)胞外基質(zhì)、超分子纖維組織、肌肉結(jié)構(gòu)發(fā)展、血管的發(fā)育、細(xì)胞基質(zhì)黏附、生長(zhǎng)發(fā)育等功能相關(guān),主要富集表達(dá)于黏著斑和Wnt信號(hào)等通路,富集結(jié)果以P值從小到大排列(表1、2)。
表1 前10的GO富集分析結(jié)果Tab.1 Top 10 GO enrichment analysis results
2.3 PPI和核心基因篩選將301個(gè)差異基因集導(dǎo)入String在線分析網(wǎng)站,為了獲得更直觀的可視化,再將結(jié)果導(dǎo)入Cytoscape軟件中(圖2)。結(jié)果發(fā)現(xiàn)在PPI關(guān)系中,上調(diào)基因(紅色標(biāo)記)和下調(diào)基因(藍(lán)色標(biāo)記)相互作用關(guān)系很少,為了更好獲得蛋白質(zhì)相互作用的核心基因,先是利用Cytoscape軟件的Mcode插件根據(jù)Degree得分篩選得到排名前六的蛋白質(zhì)表達(dá)模塊(圖3)。再分別對(duì)排名前二重點(diǎn)模塊進(jìn)行核心基因的篩選,得到2組核心基因(表3、4)。
表2 KEGG通路富集分析結(jié)果Tab.2 KEGG pathways enrichment analysis results
表3 前10蛋白表達(dá)模塊1的核心基因Tab.3 Top 10 hub genes of protein expression module 1
圖2 蛋白質(zhì)互相作用網(wǎng)絡(luò)Fig.2 Protein-protein interaction network
圖3 重點(diǎn)蛋白表達(dá)模塊Fig.3 Key protein expression modules
2.4 生存分析為了探究2.3獲得2組核心基因與膀胱癌預(yù)后的關(guān)系,采用TCGA隨訪臨床數(shù)據(jù)及相應(yīng)基因表達(dá)量進(jìn)行生存分析,使用GraphPad Prism 8.0.1繪制K-M曲線,研究結(jié)果發(fā)現(xiàn)CDC20、TPM1、ACTA2、MYH11、MYLK以及CALD1與膀胱癌患者預(yù)后明顯相關(guān)(圖4),差異有統(tǒng)計(jì)學(xué)意義,其他核心基因差異無(wú)統(tǒng)計(jì)學(xué)意義。膀胱癌組織中CDC20、TPM1、ACTA2、MYH11、MYLK及CALD1表達(dá)量越高,患者總生存期越短。
圖4 生存曲線Fig.4 Survival curves
2.5 核心基因?qū)Π螂装┲匾脑\斷價(jià)值為了探究與生存明顯相關(guān)的6個(gè)核心基因?qū)Π螂装┑脑\斷價(jià)值,利用TCGA數(shù)據(jù)庫(kù)基因的表達(dá)量對(duì)407例膀胱癌組織及19例正常膀胱組織進(jìn)行分析,受試者操作特征(receiver operating characteristic,ROC)曲線使用SPSS Statistics 22.0軟件繪制,結(jié)果提示:CDC20、TPM1、ACTA2、MYH11、MYLK以及CALD1對(duì)膀胱癌診斷的特異度和靈敏度均較高(圖5)。
圖5 ROC曲線分析顯示CDC20、TPM1、ACTA2、MYH11、MYLK和CALD1可能作為膀胱癌診斷的分子標(biāo)志物Fig.5 ROC curve analysis demonstrated that CDC20,TPM1,ACTA2,MYH11,MYLK,and CALD1 may be diagnostic biomarkers in patients with BC
表4 前8蛋白表達(dá)模塊2的核心基因Tab.4 Top 8 hub genes of protein expression module 2
本研究立足于GEO和TCGA兩大數(shù)據(jù)庫(kù),共獲得301個(gè)差異的交集基因。這些基因在膀胱癌組織中表達(dá)上調(diào)的共有41個(gè),下調(diào)的共有260個(gè),隨后將301個(gè)差異基因進(jìn)行GO功能和KEGG通路富集分析。GO功能富集分析發(fā)現(xiàn)差異基因與整合素、細(xì)胞基質(zhì)的黏附相關(guān)。猜測(cè)在膀胱癌中整合素通過(guò)對(duì)細(xì)胞和細(xì)胞外基質(zhì)的黏附發(fā)揮調(diào)節(jié)作用,進(jìn)而影響腫瘤的進(jìn)展。在膀胱癌細(xì)胞中,MARTINO等[8]研究發(fā)現(xiàn)膀胱癌細(xì)胞基質(zhì)黏附的改變可以促進(jìn)膀胱癌細(xì)胞的侵襲、轉(zhuǎn)移。通過(guò)KEGG通路富集分析,發(fā)現(xiàn)黏著斑信號(hào)通路可能與膀胱癌相關(guān),已有研究證明FAK信號(hào)通路與多種腫瘤發(fā)生發(fā)展相關(guān),在結(jié)直腸癌中FAK信號(hào)通路的激活會(huì)加強(qiáng)癌細(xì)胞的增殖、侵襲能力[9]。國(guó)外眾多學(xué)者研究發(fā)現(xiàn)FAK途徑的激活可以促進(jìn)膀胱癌侵襲、增殖、轉(zhuǎn)移[10]。通過(guò)對(duì)膀胱癌差異基因的GO和KEGG分析,猜測(cè)細(xì)胞基質(zhì)黏附的改變及FAK信號(hào)通路激活可能是膀胱癌進(jìn)展的潛在機(jī)制,可能為膀胱癌研究新型的治療方案提供參考。隨后將獲得的301個(gè)差異基因進(jìn)行PPI及生存分析,共得到6個(gè)與生存預(yù)后密切相關(guān)的核心基因。
在這些核心基因中,ACTA2的表達(dá)上調(diào)可以激活FAK信號(hào)通路,進(jìn)而促進(jìn)腫瘤的進(jìn)展[11],CDC20、TPM1、MYH11、MYLK、CALD1與FAK信號(hào)通路在腫瘤中關(guān)系未見相關(guān)報(bào)道。進(jìn)一步研究發(fā)現(xiàn)AC?TA2在膀胱癌組織中明顯下降(P=1.68E-13),且通過(guò)生存分析發(fā)現(xiàn)膀胱癌組織中ACTA2表達(dá)量與患者的預(yù)后密切相關(guān)(P=0.035)。本研究得出ACTA2在膀胱癌中具有一定特異性,推測(cè)ACTA2在膀胱癌中通過(guò)FAK信號(hào)通路發(fā)揮一定調(diào)節(jié)作用,導(dǎo)致膀胱癌進(jìn)展加快。GOULET等[12]研究發(fā)現(xiàn)ACTA2作為癌相關(guān)纖維母細(xì)胞的生物標(biāo)志物之一,其在膀胱癌中表達(dá)量增高,患者預(yù)后明顯變差,這與本研究結(jié)果相符。
CDC20是本課題組獲得的另外一個(gè)核心基因,全稱為細(xì)胞分裂周期20,是細(xì)胞分裂周期檢查點(diǎn)的重要調(diào)控分子,在細(xì)胞有絲分裂的后期發(fā)揮重要的調(diào)控作用,其表達(dá)水平在惡性腦膠質(zhì)瘤、肺癌是明顯增多的[13-14]。CHOI等[15]研究發(fā)現(xiàn),CDC20在膀胱癌組織中明顯高表達(dá),CDC20表達(dá)水平與患者高齡、更高級(jí)別的病理分期、更高的臨床分期、近處轉(zhuǎn)移等呈正相關(guān)。同時(shí)他們發(fā)現(xiàn)CDC20高表達(dá)的膀胱癌患者也預(yù)示著存在更短的無(wú)復(fù)發(fā)生存期(recur?rence-free survival,RFS)和總生存期(overall survival,OS)。本次研究發(fā)現(xiàn),CDC20在膀胱癌組織中明顯高表達(dá)[log2(FC)=3.84,P=2.36E-29],ROC曲線分析得出CDC20對(duì)膀胱癌診斷特異度和靈敏度特別高(特異度:0.947;靈敏度:0.779),生存分析發(fā)現(xiàn)膀胱患者CDC20表達(dá)量越高,患者總生存期越短,這與以往的研究結(jié)論相符。因此,認(rèn)為CDC20可能是膀胱癌的一個(gè)良好診斷和預(yù)后判定的分子。
本研究發(fā)現(xiàn)TPM1、ACTA2、MYH11、MYLK以及CALD1在膀胱癌組織中均明顯下降,為了進(jìn)一步研究這些基因在膀胱癌中發(fā)揮的作用,將以上基因?qū)隨tring在線分析網(wǎng)站。結(jié)果發(fā)現(xiàn)這些基因均富集在平滑肌收縮信號(hào)通路上(P=5.50E-14),我們猜測(cè)TPM1、ACTA2、MYH11、MYLK以及CALD1可能與血管平滑肌細(xì)胞的功能有關(guān),通過(guò)影響細(xì)胞的黏附、遷移能力進(jìn)而促進(jìn)膀胱癌的進(jìn)展。以TPM1為例,TPM1全稱是原肌球蛋白1,是原肌球蛋白家族的一員,該家族高度保守,主要參與橫紋肌、平滑肌的收縮系統(tǒng)及非肌肉細(xì)胞的骨架組成。近年來(lái)研究發(fā)現(xiàn)TPM1在腫瘤發(fā)生、發(fā)展中發(fā)揮重要的調(diào)節(jié)作用[16-17]。WANG等[16]發(fā)現(xiàn)TPM1的表達(dá)與腎透明細(xì)胞癌患者的腫瘤大小、吸煙狀態(tài)、Fuhrman分級(jí)及預(yù) 后 相 關(guān)。LIN等[18]研 究 發(fā) 現(xiàn)TPM1通 過(guò) 調(diào) 節(jié)miR1835p.1促進(jìn)胃癌細(xì)胞的增殖、轉(zhuǎn)移和侵襲。LIU等[19]發(fā)現(xiàn)TPM1在膀胱癌組織中是低表達(dá)的,且可以抑制膀胱癌細(xì)胞的增殖,促進(jìn)癌細(xì)胞的凋亡,但TPM1影響膀胱癌機(jī)制還不清楚。本研究發(fā)現(xiàn),TPM1在膀胱癌組織中表達(dá)量明顯減少(P=3.07E-15),對(duì)膀胱癌診斷的靈敏度較高(靈敏度:0.914,AUC=0.857),生存分析發(fā)現(xiàn)膀胱癌患者高表達(dá)的TPM1與較低總生存期呈正相關(guān),GO富集分析發(fā)現(xiàn)TPM1與細(xì)胞基質(zhì)黏附相關(guān),因此推測(cè)TPM1通過(guò)降低膀胱平滑肌細(xì)胞或癌細(xì)胞間黏附力,加速了膀胱癌細(xì)胞的惡化和遷移,進(jìn)而促進(jìn)膀胱癌的進(jìn)展。此外,已有相關(guān)研究提示MYH11和MYLK可能是膀胱癌的生物標(biāo)志物[20-21],但其調(diào)控膀胱癌機(jī)制目前尚不清楚。通過(guò)本次研究,猜測(cè)MYH11和MYLK可能是通過(guò)影響細(xì)胞的黏附、遷移能力進(jìn)而促進(jìn)膀胱癌的進(jìn)展。CALD1全稱為鈣調(diào)素結(jié)合蛋白,是茶堿家族的靶點(diǎn),參與細(xì)胞增殖和遷移的調(diào)控,CALD1與CDC20的GO富集分析結(jié)果均與姐妹染色單體分離有關(guān)[22]。因此,研究結(jié)果顯示CALD1與CDC20可能通過(guò)調(diào)控細(xì)胞周期進(jìn)而發(fā)揮對(duì)膀胱癌的調(diào)控作用。
總之,立足于GEO和TCGA兩大數(shù)據(jù)庫(kù),本次研究運(yùn)用多重生物信息學(xué)分析工具對(duì)膀胱癌進(jìn)行分析,從多個(gè)角度全面探討了膀胱癌中的關(guān)鍵基因及其相關(guān)調(diào)控網(wǎng)絡(luò),結(jié)果發(fā)現(xiàn)CDC20、TPM1、ACTA2、MYH11、MYLK和CALD1這6個(gè)核心基因?qū)Π螂装┰\斷的特異度和靈敏度均較高,可能是膀胱癌潛在的生物標(biāo)志物,當(dāng)然這些還需要進(jìn)一步的體內(nèi)外實(shí)驗(yàn)證實(shí);膀胱癌中FAK信號(hào)通路激活、細(xì)胞的黏附、細(xì)胞周期的改變等可能是這些核心基因調(diào)控膀胱癌的分子機(jī)制,這為膀胱癌未來(lái)治療提供了新的思路。