馬惠涵 秘嘉慶 秦 倩 馬梅杰 馮勤梅
1.山西醫(yī)科大學(xué)第五臨床醫(yī)學(xué)院,山西太原 030001;2.山西醫(yī)科大學(xué)附屬人民醫(yī)院婦科,山西太原 030012
卵巢癌是婦科癌癥中導(dǎo)致女性死亡的主要原因。晚期卵巢癌患者5 年生存率不到20%,且多數(shù)患者會在18 個月的中位無進展生存期復(fù)發(fā)[1-2]。
轉(zhuǎn)錄異常的基因可作為癌癥的預(yù)后標(biāo)志物,在臨床試驗中進行新藥研發(fā)和指導(dǎo)治療[3]。Leoutsakou等[4]使用半定量RT-PCR 方法發(fā)現(xiàn)SRA1 基因在卵巢腫瘤組織中高表達,Dong 等[5]將胰島素樣生長因子2確定為卵巢癌與卵巢組織的差異表達基因,F(xiàn)u 等[6]通過蛋白質(zhì)組學(xué)和轉(zhuǎn)錄組分析發(fā)現(xiàn)UTP23 的低表達促進了卵巢癌細胞對紫杉醇的耐藥性,但因不穩(wěn)定性和非適用性,目前尚鮮見報道可指導(dǎo)臨床的生物標(biāo)志物。
本研究從NCBI 基因表達綜合數(shù)據(jù)庫下載數(shù)據(jù)集,利用R 軟件識別卵巢癌與正常對照間的差異表達基因(differentially expressed genes,DEG),并進行功能富集分析。此外,建立DEG 和關(guān)鍵模塊的蛋白質(zhì)-蛋白質(zhì)相互作用(protein-protein interaction,PPI)網(wǎng)絡(luò)并進行模塊分析、生存分析及相關(guān)性分析,最終發(fā)現(xiàn)3 個與卵巢癌預(yù)后相關(guān)的重要基因。
基因表達匯編(gene expression omnibus,GEO)由美國國立生物技術(shù)信息中心創(chuàng)建,保存高通量功能基因組學(xué)數(shù)據(jù)。4 個數(shù)據(jù)集均出于此且已發(fā)表相關(guān)文獻。
基于編程語言R,使用hgu133plus2.db 注釋包和hgu133a.db 注釋包轉(zhuǎn)換基因名,使用limma 軟件包[7]識別出4 個數(shù)據(jù)集中卵巢癌組織與對照健康卵巢組織相比的DEG,用VennDiagram 軟件包[8]對DEG 進行整合。|logFC|>1.5 和P <0.05 被認為對DEG 有統(tǒng)計學(xué)意義。logFC>1.5 認為是上調(diào)DEG,logFC<1.5 為下調(diào)DEG。
使用Clusterprofiler 包對DEGS 進行功能和途徑富集分析,顯著閾值設(shè)定為P<0.05。基因本體論(gene ontology,GO)功能富集主要從細胞成分、生物過程和分子功能三方面描述基因和其產(chǎn)物的功能。京都基因和基因組百科全書(Kyoto encyclopedia of genes and genomes,KEGG)途徑富集分析從基因的生化途徑和調(diào)控途徑等方面進行說明。
使用數(shù)據(jù)庫STRING 映射DEG 以綜合得分≥0.4為截止值。Cytoscape 軟件[9]構(gòu)建PPI 網(wǎng)絡(luò),可視化分析卵巢癌中DEG 編碼蛋白間的相互作用并使用Cytohubba 鑒定出20 個hub 基因。同時用分子復(fù)合物檢測(molecular complex detection,MCODE)PPI 網(wǎng)絡(luò)的密集區(qū)域,選擇MCODE分數(shù)>3 和節(jié)點數(shù)>4 的模塊并對基因分別進行KEGG 富集分析。
Kaplan-Meier Plotter 中有大量卵巢癌患者的臨床數(shù)據(jù),可用于分析20 個hub 基因?qū)Υ婊畹挠绊?,選擇logrank P <0.05 的基因。
使用基因表達譜交互式分析(gene expression profiling interactive analysis,GEPIA)對影響預(yù)后的hub基因進行表達水平分析,設(shè)定P <0.01 為差異有統(tǒng)計學(xué)意義。
納入4 個數(shù)據(jù)集,共297 例卵巢癌樣本和32 例健康對照樣本(表1)。經(jīng)limma 軟件包篩選出812、2820、1495 和536 個DEG(|logFC|>1.5,P <0.05),通過VennDiagram 包進行基因整合。通過VennDiagram包對4 個數(shù)據(jù)集中的105 個DEGs 取交集。與正常卵巢組織比較,卵巢癌組織樣本中共有135 個DEG。見圖1。
表1 數(shù)據(jù)集的相關(guān)信息
在編程語言R 中使用Clusterprofiler 包對DEG進行生物學(xué)注釋并得到P 值<0.05 的GO 功能富集。其顯著性結(jié)果表明:細胞組成中,上調(diào)DEG 主要富集在雙株緊密連接、后期促進復(fù)合物、頂端連接復(fù)合物及緊密連接中,下調(diào)DEG 主要富集在細胞外基質(zhì)、含膠原的細胞外基質(zhì)及血液微粒中;生物過程中,上調(diào)DEG 明顯富集在有絲分裂紡錘體組裝檢查點、染色體分離調(diào)控、細胞周期中后期轉(zhuǎn)變的調(diào)控和染色體分離等,下調(diào)DEG 明顯富集在蛋白絲氨酸/蘇氨酸激酶活性的調(diào)控、黏多糖代謝過程和Wnt 信號通路;分子功能中,下調(diào)DEG 主要在肝素結(jié)合及卷曲結(jié)合中富集,而上調(diào)DEG 未見符合標(biāo)準(zhǔn)的明顯富集。
經(jīng)STRING 數(shù)據(jù)庫建立PPI 網(wǎng)絡(luò)并導(dǎo)入Cytoscape軟件。MCODE 檢測到4 個模塊,選擇分數(shù)較高模塊進行下一步分析(圖2)。使用Cytohubba 篩選hub 基因,前20 分別為KDR、SOX9、EPCAM、WNT5A、FGF13、PDGFRA、CP、ALDH1A1、KLF4、CDC20、UBE2C、FGF9、SOX17、TTK、TRIP13、CKS2、RACGAP1、CD24、CHGB、LAMB1。
經(jīng)KEGG 富集分析后發(fā)現(xiàn):模塊1 中均為上調(diào)DEG,主要在細胞周期、泛素介導(dǎo)蛋白水解作用途徑富集;模塊2 中除ALDH1A1 為下調(diào)DEG,余為上調(diào)DEG,未見明顯通路富集;模塊3 中除CP 為上調(diào)DEG,余為下調(diào)DEG,富集后CP 在鐵死亡、卟啉和葉綠素代謝途徑中存在,LAMB1 在ECM 受體相互作用、小細胞肺癌等途徑中存在。
在Kaplan Meier Plotter 中對20 個hub 基因進行生存分析,發(fā)現(xiàn)13 個基因關(guān)聯(lián)卵巢癌患者的預(yù)后較差(P <0.05)。使用GEPIA 進一步分析發(fā)現(xiàn),卵巢癌樣本中有SOX9、EPCAM、CP、UBE2C、TTK、RACGAP1、CD24 7 個基因反映出高表達(P <0.01)。見圖3。
為確定卵巢癌預(yù)后不良的重要基因,本研究采用生物信息學(xué)方法對GEO 數(shù)據(jù)庫的數(shù)據(jù)集進行整合分析。最終取交集得到UBE2C、TTK、CP 3 個基因在卵巢癌中高表達且影響預(yù)后,又顯著富集于KEGG 通路,將其認為是改善卵巢癌患者預(yù)后的有效靶點。
UBE2C 在細胞周期進程中促進目標(biāo)蛋白降解,異常的UBE2C 過表達與異常的細胞增殖可能相關(guān)[14]。Wang 等[15]研究顯示UBE2C 在胃癌中高表達,敲低UBE2C 會通過Wnt/β-catenin 和PI3K/Akt 信號通路抑制胃癌腫瘤形成,將其定義為診斷胃癌潛在生物標(biāo)志物。Yuan 等[16]構(gòu)建基因共表達網(wǎng)絡(luò)鑒定出6 種與透明細胞腎細胞癌的進展和預(yù)后相關(guān)的hub 基因,其中包括UBE2C。Martínez-Canales 等[17]通過數(shù)據(jù)集轉(zhuǎn)錄組功能注釋和PPI 網(wǎng)絡(luò)分析確定UBE2C 基因的過表達與較差預(yù)后相關(guān),和本研究一致。
TTK 的轉(zhuǎn)錄水平在細胞進入正常細胞周期中通過有絲分裂時被上調(diào),后期被泛素E3 連接酶降解失活而下調(diào),也就是TTK 的及時失活才能維持正常細胞周期進程[18]。Tang 等[19]使用加權(quán)共表達網(wǎng)絡(luò)分析確定TTK 可作為乳腺癌臨床研究的預(yù)后生物標(biāo)志物,Zhang 等[20]從公開轉(zhuǎn)錄組數(shù)據(jù)發(fā)現(xiàn)高水平TTK 與大腸癌患者預(yù)后不良有關(guān),F(xiàn)eng 等[21]使用與本研究不完全相同的GEO 數(shù)據(jù)集發(fā)現(xiàn)卵巢癌中4 個影響預(yù)后的顯著上調(diào)基因,其中包括TTK,間接驗證本研究的可靠性。
CP 基因編碼銅藍蛋白,血清中銅藍蛋白水平在炎癥和組織損傷中上調(diào)[22]。Arner 等[23]發(fā)現(xiàn)CP 在肥胖受試者的脂肪組織和與肥胖相關(guān)的癌細胞中過表達(如子宮內(nèi)膜癌),將其確定為新型脂肪因子。通過定量實時RT-PCR 和Western blot 檢測肺腺癌臨床樣本,Matsuoka 等[24]發(fā)現(xiàn)CP 表達與較差預(yù)后顯著相關(guān),將其作為肺腺癌的獨立預(yù)后因素。在卵巢癌中,患者血漿銅藍蛋白水平較對照組明顯增加,且其啟動子活性表現(xiàn)更明顯[25]。
總之,本研究通過對4 個不同數(shù)據(jù)集進行客觀的生物信息學(xué)分析,明確得到卵巢癌組織和健康對照樣本間的3 個DEG,其高表達與卵巢癌患者的預(yù)后不良呈正相關(guān)??偨Y(jié)和比較與之相關(guān)的大量文獻,本研究認為這3 個基因在卵巢癌的進程中可能起到關(guān)鍵作用,可作為新的預(yù)后生物標(biāo)志物。這些數(shù)據(jù)都為卵巢癌的治療和改善患者預(yù)后提供有用的方向。但目前尚未進行實驗驗證,這也是未來進行深入研究的重點。