(復(fù)旦大學(xué)附屬閔行醫(yī)院病理科,上海市 201199)
甲狀腺癌(thyroid carcinoma,TC)是內(nèi)分泌系統(tǒng)最常見的惡性腫瘤,也是近20年來發(fā)病率增長(zhǎng)最快的實(shí)體惡性腫瘤[1]。然而,Davies等[2]提出TC發(fā)病率的上升可能有兩個(gè)原因:一個(gè)是過度診斷,另一個(gè)是甲狀腺乳頭狀微小癌發(fā)病率增加。目前,超聲引導(dǎo)下細(xì)針穿刺活檢是評(píng)價(jià)甲狀腺結(jié)節(jié)的金標(biāo)準(zhǔn),另外還嘗試了ECT、CT等新技術(shù)[3]。
近年來,隨著基因芯片和高通量測(cè)序技術(shù)的發(fā)展,已經(jīng)篩選出一些在癌癥發(fā)生和發(fā)展過程中具有重要意義的基因。許多研究分析了GEO(https://www.ncbi.nlm.nih.gov/geo)或/和TCGA(https://cancergenome.nih.gov/)的數(shù)據(jù),以尋找對(duì)甲狀腺癌的診斷和預(yù)后有前景的生物標(biāo)志物。例如,Min等[4]分析了TCGA的數(shù)據(jù),確定了一些預(yù)后標(biāo)志物,如SOX4、RARA,這些標(biāo)志物可作為甲狀腺乳頭狀癌(thyroid papillary carcinoma,PTC)的治療靶點(diǎn)。Wu等[5]基于TCGA數(shù)據(jù)庫進(jìn)行富集分析發(fā)現(xiàn),AP-2α mRNA的表達(dá)可能是PTC患者生存的一個(gè)獨(dú)立預(yù)后指標(biāo)。由于獨(dú)立研究樣本的異質(zhì)性,目前的研究結(jié)果往往不一致。本文采用生物信息學(xué)工具對(duì)GEO數(shù)據(jù)庫中甲狀腺癌表達(dá)譜芯片進(jìn)行數(shù)據(jù)分析,為今后提高甲狀腺病變的診斷水平和基因靶向治療提供新的視角。
基因表達(dá)譜芯片數(shù)據(jù)來源于GEO數(shù)據(jù)庫中甲狀腺癌數(shù)據(jù)集,編號(hào)分別為GSE33630、GSE65144和GSE29265,包括101例甲狀腺癌組織和78例正常組織。數(shù)據(jù)集均基于GLP570芯片平臺(tái)(HG-U133_Plus_2;Affymetrix Human Genome U133 Plus 2.0 Array)。
3組原始數(shù)據(jù)集下載后利用R軟件進(jìn)行合并、標(biāo)準(zhǔn)化及表達(dá)值計(jì)算等處理,數(shù)據(jù)采用Fold-change和T-test進(jìn)行差異性基因篩選,篩選條件定義為|logFc|≥1、P<0.05,篩選3組數(shù)據(jù)集中共有的差異基因作為最終差異表達(dá)基因進(jìn)行后續(xù)分析。
基因本體論(GO)是一種生物學(xué)模型框架,由三大板塊構(gòu)成:分子功能(molecular function,MF)、細(xì)胞成分(cellular component,CC)和生物學(xué)過程(biological process,BP)。京東基因組百科全書(KEGG)是從分子水平系統(tǒng)理解生物系統(tǒng)和基因組功能的信息資源。使用R包c(diǎn)lusterProfiler進(jìn)行差異表達(dá)基因(differentially expressed genes,DEGs)的GO分析,KOBAS3.0進(jìn)行KEGG通路分析。
STRING數(shù)據(jù)庫(https://string-db.org/)是一個(gè)用于預(yù)測(cè)EMBL中基因互作網(wǎng)絡(luò)的分析數(shù)據(jù)庫,該數(shù)據(jù)庫聚集來自蛋白的相互作用網(wǎng)絡(luò)(protein protein interaction network,PPI)數(shù)據(jù)庫的提取結(jié)果。采用Cytoscape(www.cytoscape.Org)中MCODE插件對(duì)網(wǎng)絡(luò)模型進(jìn)行評(píng)價(jià),選擇排名前3的模塊中的基因進(jìn)行通路富集分析。
將PPI得到的結(jié)果導(dǎo)入Cytoscape 3.8.2軟件中的cytahubba程序包進(jìn)行分析,將cytohubba中12種算法各自獲得的前30個(gè)關(guān)鍵基因求交集,選定在12種算法中出現(xiàn)8次及以上的基因?yàn)殛P(guān)鍵基因。
利用TCGA_TC數(shù)據(jù)集的505個(gè)TC樣本和59個(gè)正常樣本驗(yàn)證關(guān)鍵基因的表達(dá),然后采用Kaplan-Meier(Km)曲線評(píng)估關(guān)鍵基因表達(dá)水平與TC患者生存時(shí)間的關(guān)系。
經(jīng)R軟件分析,分別從GSE33630、GSE65144、GSE29265中得到1 145、2 552、792個(gè)DEGs,取3個(gè)數(shù)據(jù)集DEGs進(jìn)行分析,得到相同DEGs共有410個(gè)(圖1),其中TC樣本中表達(dá)量上調(diào)的基因有159個(gè),下調(diào)的基因有251個(gè)(圖2)。
圖1 3組基因芯片數(shù)據(jù)的DEGs關(guān)系圖
圖2 DEGs火山圖
上調(diào)基因主要富集在內(nèi)胚層細(xì)胞分化、膠原原纖維組織、透明質(zhì)酸結(jié)合等生物學(xué)過程(圖3A),下調(diào)基因主要富集在甲狀腺激素生成、甲狀腺激素代謝過程、過氧化物酶激活等生物學(xué)過程(圖3B)。
圖3 DEGs的GO富集分析A為上調(diào)基因GO富集分析結(jié)果;B為下調(diào)基因GO富集分析結(jié)果。
使用插件MCODE對(duì)字符串網(wǎng)絡(luò)進(jìn)行分析,篩選出最重要的3個(gè)模塊(圖4)。模塊A由22個(gè)節(jié)點(diǎn)和291條邊組成;模塊B由17個(gè)節(jié)點(diǎn)和67條邊組成;模塊C由8個(gè)節(jié)點(diǎn)和26條邊組成。
圖4 PPI分析圖A為細(xì)胞周期、p53信號(hào)通路;B為病毒蛋白與細(xì)胞因子-細(xì)胞因子受體相互作用;C為蛋白質(zhì)的消化和吸收關(guān)系
共獲得14個(gè)關(guān)鍵基因,分布在30條KEGG信號(hào)通路中,與所有DEGs富集的KEGG信號(hào)通路排名前20位共同的信號(hào)通路有6條(表1,下劃線基因?yàn)殛P(guān)鍵基因),其中上調(diào)的基因有12個(gè),分別是CCNB2、FN1、MMP9、TIMP1、CXCL8、VCAN、EVA1A、LGALS1、KIF15、KIF20A、KIF4A、TOP2A,下調(diào)的基因有2個(gè),分別是JUN、SDC2。其中TOP2A、KIF15、CCNB2、KIF4A位于模塊A,F(xiàn)N1、LGALS1、TIMP1、VCAN、SDC2位于模塊B。
表1 關(guān)鍵基因富集的KEGG信號(hào)通路
分析來自TCGA_TC數(shù)據(jù)集的505個(gè)TC樣本和59個(gè)正常樣本14個(gè)關(guān)鍵基因的表達(dá)水平,其表達(dá)均與DEGs分析結(jié)果一致,其中MMP9、SDC2、KIF15和VCAN4個(gè)基因影響患者生存率(MMP9P=0.11、VCANP=0.11、KIF15P=0.042、SDC2P=0.061)(圖5)。從生存曲線結(jié)果可以看出,隨著基因的表達(dá)增高患者的生存率明顯下降,即這些基因的高表達(dá)促進(jìn)了甲狀腺癌的發(fā)展,而且從生存曲線可以看出,4個(gè)基因低表達(dá)時(shí)的生存曲線與高表達(dá)時(shí)相貼近,生存率均較高,但長(zhǎng)期隨訪,則在低表達(dá)時(shí)患者生存率較高,即這些基因?qū)谞钕侔┑陌l(fā)展影響較大,對(duì)患者生存時(shí)間影響較大,提示可以作為TC的潛在預(yù)后標(biāo)志物。
圖5 TCGA數(shù)據(jù)庫中MMP9、VCAN、KIF15、SDC2對(duì)甲狀腺癌患者生存的影響
目前,有關(guān)TC組織與正常組織基因表達(dá)差異的研究不多。尋找腫瘤與正常組織之間的DEGs有助于進(jìn)一步了解TC的發(fā)病機(jī)制,為TC的術(shù)前診斷提供生物標(biāo)志物和治療靶點(diǎn)。本研究使用GEO數(shù)據(jù)庫中同一平臺(tái)的數(shù)據(jù),以人TC組織和正常組織為研究對(duì)象,用生物信息學(xué)方法進(jìn)行了深入分析。
從TC的3個(gè)基因芯片數(shù)據(jù)集中鑒定出410個(gè)DEGs,其中包括159個(gè)上調(diào)基因和251個(gè)下調(diào)基因。GO分析表明DEGs可能對(duì)內(nèi)胚層細(xì)胞分化、膠原纖維組織、甲狀腺激素生成、甲狀腺激素代謝過程等生物學(xué)過程都有一定影響。KEGG通路分析中,DEGs主要富集于癌癥中的蛋白聚糖、P53信號(hào)通路、ECM-受體相互作用、細(xì)胞周期等信號(hào)通路。腫瘤細(xì)胞的生長(zhǎng)由各種生長(zhǎng)因子、激素及細(xì)胞外基質(zhì)等物質(zhì)構(gòu)成的微環(huán)境維持,這些因素的改變會(huì)使腫瘤的發(fā)生、發(fā)展過程及對(duì)藥物敏感性發(fā)生變化。因此,監(jiān)測(cè)以上信號(hào)通路可能有助于預(yù)測(cè)甲狀腺癌的進(jìn)展及其對(duì)藥物的敏感性。
本文篩選出14個(gè)關(guān)鍵基因CCNB2、FN1、MMP9、TIMP1、CXCL8、VCAN、EVA1A、LGALS1、KIF15、KIF20A、KIF4A、TOP2A、JUN、SDC2,發(fā)現(xiàn)TOP2A、KIF15、CCNB2、KIF4A、FN1、LGALS1、TIMP1、VCAN、SDC2位于PPI分析得出的3個(gè)顯著模塊中,采用TCGA_TC數(shù)據(jù)集的505個(gè)TC樣本和59個(gè)正常樣本進(jìn)行驗(yàn)證,這14個(gè)關(guān)鍵基因的表達(dá)水平均與DEGs分析結(jié)果一致:JUN和SDC2在TC中下調(diào),其余12個(gè)關(guān)鍵基因上調(diào)。其中MMP9、SDC2、KIF15和VCAN影響患者生存率,可以作為TC的潛在預(yù)后標(biāo)志物。這些基因可能參與TC的各個(gè)階段,并在3個(gè)數(shù)據(jù)集中共表達(dá)。
已有研究表明,關(guān)鍵基因在多種癌癥相關(guān)的生物學(xué)過程中發(fā)揮著重要作用。MMP9可降解細(xì)胞外基質(zhì)中的明膠、多種膠原及彈性纖維,尤其是Ⅳ型膠原蛋白,在癌細(xì)胞的浸潤(rùn)和轉(zhuǎn)移中發(fā)揮著重要作用。Kalhori等[6]研究表明MMP9參與了S1P誘導(dǎo)的濾泡型甲狀腺癌細(xì)胞的侵襲。VCAN位于染色體5q12-14,它的異常表達(dá)與多種腫瘤不良預(yù)后密切相關(guān),體內(nèi)外研究表明,VCAN調(diào)節(jié)多種細(xì)胞過程,包括腫瘤表型和性質(zhì)、耐藥性的發(fā)展和腫瘤基質(zhì)血管生成等[7]。Zhao等[8]發(fā)現(xiàn)PTC中VCAN出現(xiàn)反復(fù)發(fā)生的突變。還有研究發(fā)現(xiàn)MIR-135a-5p通過靶向VCAN抑制甲狀腺癌細(xì)胞的增殖、侵襲和遷移[9]。另外,CCNB2屬于B類細(xì)胞周期蛋白家族,Wang等[10]提出miR-205通過靶向CCNB2抑制甲狀腺癌細(xì)胞的增殖和遷移。FN1是細(xì)胞外基質(zhì)的基本成分,研究發(fā)現(xiàn)FN1在甲狀腺癌中過表達(dá)[11],也有建議將FN1作為識(shí)別不明FNAB患者惡性病變的分子標(biāo)志物[12]。Sponziello等[13]研究表明,F(xiàn)N1的過度表達(dá)使PTC更具侵襲性,并可能促進(jìn)甲狀腺腫瘤的進(jìn)展。TIMP1作為金屬蛋白酶(MMPs)的抑制劑被熟知,TIMP1與MMPs之間的動(dòng)態(tài)平衡,維持著細(xì)胞外基質(zhì)的穩(wěn)定,與腫瘤轉(zhuǎn)移密切相關(guān)。Maeta等[14]研究發(fā)現(xiàn),TIMP1在PTC中表達(dá)上調(diào),且與腫瘤大小、淋巴結(jié)轉(zhuǎn)移和臨床分期顯著相關(guān)。Hawthorn等[15]提示TIMP1的高表達(dá)可作為PTC診斷的候選分子標(biāo)志物。CXCL8是一種由正常細(xì)胞和甲狀腺癌細(xì)胞分泌的趨化因子,有研究證明了較高的腫瘤內(nèi)CXCL8水平與甲狀腺癌更具侵襲性的病程之間存在正相關(guān)關(guān)系[16]。EVA1A是一種參與細(xì)胞程序性死亡的新基因,EVA1A的表達(dá)是PTC腫瘤、淋巴結(jié)轉(zhuǎn)移的獨(dú)立危險(xiǎn)因素,EVA1A的下調(diào)可以抑制PTC細(xì)胞的集落形成、增殖、遷移和侵襲[17]。LGALS1是半乳糖結(jié)合蛋白家族的15個(gè)成員之一,編碼為Galectin-1。Galectin-1與甲狀腺癌的發(fā)展密切相關(guān),已被認(rèn)為是鑒別良惡性結(jié)節(jié)的可靠生物標(biāo)志物[18]。
同時(shí)KIF15、KIF20A、KIF4A、TOP2A、JUN和SDC2在TC中的作用尚不清楚。一些文獻(xiàn)已經(jīng)證明了這些基因在其他癌癥中的功能,TOP2A編碼DNA拓?fù)洚悩?gòu)酶,對(duì)DNA轉(zhuǎn)錄和復(fù)制至關(guān)重要[19]。SDC2能夠由腫瘤細(xì)胞合成,并通過相關(guān)信號(hào)轉(zhuǎn)導(dǎo)通路和腫瘤源性成纖維細(xì)胞的活化,在腫瘤源性血管生成和腫瘤細(xì)胞侵襲轉(zhuǎn)移中起到了重要的調(diào)控作用[20]。細(xì)胞性Jun(c-Jun)和病毒性Jun(v-Jun)均可誘導(dǎo)腫瘤轉(zhuǎn)化[21]。KIF15、KIF20A、KIF4A為驅(qū)動(dòng)蛋白超家族,是一類參與細(xì)胞內(nèi)組分運(yùn)輸?shù)膭?dòng)力蛋白,負(fù)責(zé)將細(xì)胞內(nèi)組分沿微管組成的細(xì)胞骨架運(yùn)輸至特定的位置[22]。推測(cè)這些基因通過細(xì)胞周期調(diào)控、調(diào)節(jié)細(xì)胞黏附和其他機(jī)制來調(diào)控腫瘤的發(fā)生和發(fā)展。它們可能是甲狀腺癌潛在的新的治療靶點(diǎn)及生物標(biāo)志物。
綜上所述,本文通過生物信息學(xué)方法分析甲狀腺癌基因表達(dá)譜芯片數(shù)據(jù),篩選了14個(gè)關(guān)鍵基因和通路,其中4個(gè)基因可作為潛在預(yù)后標(biāo)志物,可能有助于甲狀腺癌的早期分子診斷與基因靶向治療。然而,所有的預(yù)測(cè)結(jié)果還需要其他體外和體內(nèi)實(shí)驗(yàn)數(shù)據(jù)的證實(shí)。