史軼良,王燁金鵬,王行環(huán)
(武漢大學(xué)中南醫(yī)院泌尿外科,湖北武漢 430071)
膀胱癌(bladder cancer,BC)是世界上第9大常見腫瘤,是男性第4大常見腫瘤,男性患者的中位診斷年齡大約在69歲,其死亡率位居所有腫瘤的第13位,是威脅人類健康的重要疾病[1]。大約90%的膀胱癌為尿路上皮癌。近30年來膀胱癌患者的存活率沒有顯著變化[2-5]。在發(fā)達(dá)國家,由于缺乏治療膀胱癌的有效手段,其威脅程度甚至可以高于其他一些腫瘤。膀胱癌的發(fā)病機(jī)制涉及多個基因表達(dá)通路,而近年基因芯片的大量應(yīng)用為研究膀胱癌的發(fā)生發(fā)展機(jī)制提供了許多新的方法與思路[6]。本研究通過生物信息學(xué)方法對基因芯片GSE13507進(jìn)行研究,對其包含的膀胱癌與正常外觀膀胱癌周圍組織樣本數(shù)據(jù)進(jìn)行分析,為研究膀胱癌的發(fā)生發(fā)展機(jī)制提供可能的方向。
1.1 實(shí)驗(yàn)材料從GEO數(shù)據(jù)庫中下載編號為GSE13507的基因芯片,該芯片包含256個樣本。其中正常膀胱黏膜10例、正常外觀膀胱癌周圍組織的膀胱黏膜58例、原發(fā)膀胱癌165例、復(fù)發(fā)性非肌層浸潤膀胱腫瘤23例。本研究選取原發(fā)性膀胱癌與正常外觀膀胱癌周圍組織的膀胱黏膜作為對照組進(jìn)行基因微陣列研究[6]。該芯片的平臺信息為:GPL6102(Illumina human-6 v2.0 expression beadchip)。芯片的探針注釋信息來自Affymetrix公司。原始數(shù)據(jù)的CEL文件來自pubmed GEO數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/gds/)。
1.2 處理方式
1.2.1數(shù)據(jù)預(yù)處理和聚類分析 利用GEOquery包獲取原始基因芯片數(shù)據(jù)并導(dǎo)入R軟件,分析確認(rèn)數(shù)據(jù)來源的正確性,利用軟件獲取基因的表達(dá)矩陣。對原始基因表達(dá)矩陣進(jìn)行排序,將多次出現(xiàn)的序列取平均值后合并為一項,避免重復(fù)計算。通過Affymetrix注釋文件獲取樣本基因的注釋信息,并通過基因探針名將其與基因數(shù)據(jù)對應(yīng)。用Affy包對其進(jìn)行RMA背景校正計算,利用樣本間的Person相關(guān)系數(shù)計算,對獲取的樣本信息進(jìn)行聚類分析,分析明顯錯誤的芯片數(shù)據(jù),對離群樣本進(jìn)行剔除。
1.2.2篩選差異基因 使用Limma數(shù)據(jù)包進(jìn)行差異表達(dá)分析,設(shè)定差異基因的篩選標(biāo)準(zhǔn)為:P<0.05,基因差異倍數(shù)(fold change,F(xiàn)C)變化≥1.5或≤-1.5。
1.2.3GO功能富集分析與KEGG通路富集 利用R軟件對獲取的差異基因表達(dá)矩陣進(jìn)行GO富集分析。使用標(biāo)準(zhǔn)化P值進(jìn)行統(tǒng)計學(xué)意義判斷,P<0.05則認(rèn)為差異有統(tǒng)計學(xué)意義。同時進(jìn)行通路富集分析,檢測差異基因表達(dá)所在的通路。
1.2.4使用數(shù)據(jù)庫與cytoscape分析蛋白相互作用網(wǎng)絡(luò) 蛋白互作數(shù)據(jù)庫可以了解各個基因所表達(dá)的蛋白之間的相互作用關(guān)系。將篩選所得的差異基因利用數(shù)據(jù)庫進(jìn)行綜合分析,獲得蛋白互作網(wǎng)絡(luò),設(shè)置閾值評分為>0.4分,將結(jié)果導(dǎo)出。
1.2.5篩選核心蛋白 將前述結(jié)果導(dǎo)入cytoscape,并利用其網(wǎng)絡(luò)分析功能計算差異基因所表達(dá)蛋白相互作用的密度與廣度。根據(jù)蛋白作用的密集程度可以篩選出網(wǎng)絡(luò)中心節(jié)點(diǎn),其對應(yīng)的蛋白即為核心作用蛋白。
1.2.6核心蛋白驗(yàn)證 GEPIA數(shù)據(jù)庫包含多種腫瘤數(shù)據(jù),利用其膀胱癌數(shù)據(jù)對所獲得的核心蛋白進(jìn)行綜合分析,并驗(yàn)證其功能。
2.1 聚類分析結(jié)果對樣本數(shù)據(jù)進(jìn)行聚類分析顯示,原發(fā)膀胱癌165例(實(shí)驗(yàn)組)與正常外觀膀胱癌周圍組織的膀胱黏膜58例(對照組)聚類良好,對數(shù)據(jù)進(jìn)行歸一化處理,用熱圖的方式進(jìn)行可視化,紅色代表上調(diào)的基因,藍(lán)色代表下調(diào)的基因,顏色越深代表差異程度越明顯(圖1)。
圖1 差異基因歸一化處理后的熱圖
2.2 差異基因表達(dá)對獲取的差異基因進(jìn)行篩選,以基因表達(dá)值FC>1.5或<-1.5,標(biāo)準(zhǔn)化P<0.05作為篩選條件,得出篩選后的膀胱癌周圍組織與原發(fā)膀胱癌差異表達(dá)基因共127個,其中在膀胱癌組織中上調(diào)的有4個,下調(diào)的有123個,對數(shù)據(jù)進(jìn)行可視化處理,以火山圖的方式呈現(xiàn)(圖2)。
2.3 差異表達(dá)基因功能注釋經(jīng)GO富集分析和KEGG通路分析,我們發(fā)現(xiàn)膀胱癌腫瘤組織和癌旁組織樣本的差異基因富集到的生物過程涉及細(xì)胞周期的調(diào)控、減數(shù)分裂的調(diào)控、腫瘤細(xì)胞的黏附機(jī)制和黏附分子合成、趨化作用、蛋白泛素化,其富集到的通路主要有Wnt/β信號通路、PI3K-AKt通路、MAPK通路、JAK-STAT通路等(圖3)。
2.4 構(gòu)建蛋白相互作用網(wǎng)絡(luò)通過string蛋白互作數(shù)據(jù)庫和cytoscape進(jìn)行分析,篩選出相關(guān)核心基因,并從中挑選出最相關(guān)的6個基因進(jìn)行分析。其中從癌旁組織相對上調(diào)的基因中篩選出MYL9、COL1A2、ACTG2,癌組織相對上調(diào)的基因中篩選出CDC20、ESM1、WDR72(圖4)。
2.5 核心基因的驗(yàn)證通過GEPIA數(shù)據(jù)庫進(jìn)行生存分析,并且驗(yàn)證在不同分期膀胱癌組織中核心基因的表達(dá)情況。生存分析顯示,MYL9、COL1A2、ACTG2的表達(dá)量與生存時間相關(guān),差異具有統(tǒng)計學(xué)意義;在下調(diào)的基因中,CDC20、ESM1、WDR72其表達(dá)量與預(yù)后的關(guān)系不明確,差異無統(tǒng)計學(xué)意義(圖5)。在膀胱癌和正常組織(圖6)以及不同分期的膀胱癌組織中(圖7),MYL9、COL1A2、ACTG2與腫瘤分期呈正相關(guān),差異有統(tǒng)計學(xué)意義;ESM1表達(dá)量與腫瘤分期呈負(fù)相關(guān),差異有統(tǒng)計學(xué)意義;CDC20與WDR72在不同分期的腫瘤組織中表達(dá)量的差異無統(tǒng)計學(xué)意義。
圖3 核心基因富集通路的KEGG分析圖
圖4 蛋白互作網(wǎng)絡(luò)圖(圓形表示相關(guān)蛋白,直線表示相互作用關(guān)系)
A:COLA2;B:ACTA2;C:MYL9。
A:ACTG2;B:CDC20;C:COL1A2;D:ESM1;E:MYL9;F:WDR72。
A:ACTG2;B:CDC20;C:COL1A2;D:ESM1;E:MYL9;F:WDR72。
在本研究中,我們對編號為GSE13507的基因芯片進(jìn)行了差異分析,選用了FC>1.5或<-1.5作為納入標(biāo)準(zhǔn),并且選用P<0.05作為篩選標(biāo)準(zhǔn),既避免了選用FC>2 或<-2,造成的潛在核心基因刪失,又避免了制定過于寬松的納入標(biāo)準(zhǔn)導(dǎo)致基因樣本量過大。獲得了膀胱癌組織與癌旁組織差異表達(dá)基因共127個,其中上調(diào)123個,下調(diào)4個。該芯片包含了較多的組織樣本,從統(tǒng)計學(xué)的意義上較好的可信度。通過GO富集分析、KEGG通路分析與蛋白互作網(wǎng)絡(luò)的構(gòu)建,我們進(jìn)一步縮小范圍,得到了6個核心基因MYL9、COL1A2、ACTG2、CDC20、ESM1、WDR72,并且在GEPIA數(shù)據(jù)庫中對他們進(jìn)行了驗(yàn)證。再次挑選其中具有較好統(tǒng)計學(xué)意義的基因進(jìn)行進(jìn)一步分析討論。
低表達(dá)基因MYL9編碼肌球蛋白的輕鏈,同時還調(diào)控NMII的活性[1,7]。在細(xì)胞中它與肌動蛋白絲結(jié)合,能夠控制細(xì)胞骨架構(gòu)建,參與細(xì)胞形態(tài)的形成。同時它還通過調(diào)控粘附、遷移和信號轉(zhuǎn)導(dǎo)因子,對腫瘤的侵襲和遷移產(chǎn)生重要影響[2]。有學(xué)者報道了通過組蛋白甲基化導(dǎo)致MYL9上調(diào),從而在乳腺癌中介導(dǎo)了癌細(xì)胞的侵襲與轉(zhuǎn)移,這對于研究MYL9在膀胱癌發(fā)生發(fā)展中的作用途徑以及作用方式具有參考價值[8-9]。ACTG2編碼的是肌動蛋白γ2,是一種高度保守的蛋白質(zhì),它與肌球蛋白一起參與各種類型的細(xì)胞運(yùn)動并維持細(xì)胞骨架。目前已經(jīng)在脊椎動物中發(fā)現(xiàn)了3種類型的肌動蛋白α、β和γ[5-9]。該基因在腸道疾病中的研究較為豐富。BUSS等[10]報道了ACTG2突變可導(dǎo)致先天性膀胱膨脹、微結(jié)腸和腸蠕動不全。該研究通過動物實(shí)驗(yàn)顯示ACTG2存在于膀胱和腸道組織中轉(zhuǎn)錄本會干擾ACTG2的聚合,導(dǎo)致平滑肌收縮性受損。COL1A2基因編碼Ⅰ型膠原蛋白的pro-alpha2鏈[11]。它由三重螺旋構(gòu)成(2條α1鏈和1條α2鏈)。Ⅰ型膠原是存在于結(jié)締組織中的纖維形成膠原,在骨、角膜、真皮和肌腱中含量豐富,與MYL9類似,對于腫瘤的黏附和侵襲有重要影響。
對于上調(diào)的基因ESM1,它可編碼內(nèi)皮細(xì)胞特異性分子內(nèi)皮素,是一種表達(dá)于肺、腎內(nèi)皮細(xì)胞等組織中的分泌蛋白[12-13]。該基因的表達(dá)受細(xì)胞因子調(diào)控,可能在內(nèi)皮依賴性病變中起作用。腫瘤血管內(nèi)的內(nèi)皮素表達(dá)與腫瘤的分期和侵襲性密切相關(guān),GEPIA數(shù)據(jù)庫對不同的膀胱癌分期的ESM1表達(dá)分析的結(jié)果也與之相符。ROUDNICKY等[3]通過對ESM1轉(zhuǎn)基因小鼠的機(jī)制研究發(fā)現(xiàn),通過磷酸化VEGFR-2可以活化VEGF-A從而激活內(nèi)皮素的表達(dá),這一途徑可以促進(jìn)腫瘤血管生成,并導(dǎo)致預(yù)后不良。ESM1的數(shù)據(jù)庫生存分析曲線也顯示了這一點(diǎn)。目前ESM1在膀胱癌中的具體功能研究尚不明確,其更多機(jī)制有待進(jìn)一步發(fā)現(xiàn)。
總之,我們利用生物信息學(xué)工具與基因芯片技術(shù)相結(jié)合,獲取并篩選出差異基因,對其中的MYL9、COL1A2、ACTG2、CDC20、ESM1、WDR72進(jìn)行了較為詳細(xì)的生物學(xué)功能和分子機(jī)制分析。從基因?qū)用嫜芯苛税螂装┌l(fā)生發(fā)展可能存在的機(jī)制,并且為進(jìn)一步研究提供了可以供選擇的治療靶點(diǎn)和診斷靶點(diǎn)。