袁小艷,梁 韡,張 舒,周 萍
(成都大學四川抗菌素工業(yè)研究所抗生素研究與再評價四川省重點實驗室,成都 610052)
甲狀腺癌是甲狀腺上皮細胞的惡性腫瘤。隨著人們飲食結(jié)構(gòu)、營養(yǎng)狀況及生態(tài)環(huán)境等因素的變化,近年來,甲狀腺癌發(fā)病率呈逐年上升趨勢[1]。據(jù)統(tǒng)計,甲狀腺癌已成為我國城市人群癌癥患病率第4位、女性易發(fā)腫瘤第5位的惡性實體腫瘤[2]。目前,甲狀腺癌的明確病因未見報道,探索甲狀腺癌的發(fā)病機制及篩查生物標志物對其早期顯示具有重要意義。
生物信息學是結(jié)合分子生物學與信息技術(shù)的新興交叉學科[3],對揭示腫瘤發(fā)病的分子機制具有重要意義?;蛐酒鳛橐环N高效、大規(guī)模獲取生物信息的新興技術(shù),能夠廣泛采集疾病基因芯片表達譜數(shù)據(jù)。本文采用生物信息學工具對公共基因芯片數(shù)據(jù)庫(gene expression omnibus,GEO) 中甲狀腺癌表達譜芯片進行數(shù)據(jù)分析,為相關(guān)基因的生物學功能及其參與甲狀腺癌發(fā)生、發(fā)展的分子機制提供理論依據(jù)。
1.1 材料 表達譜芯片數(shù)據(jù)來源于美國國立生物技術(shù)信息中心(NCBI)GEO數(shù)據(jù)庫中甲狀腺癌數(shù)據(jù)集,編號分別為GSE33630、GSE65144和GSE85457,包括76例甲狀腺癌組織和61例正常組織。數(shù)據(jù)集由GPL570 芯片平臺采集甲狀腺癌及癌旁組織的基因芯片表達譜數(shù)據(jù)。
1.2 方法
1.2.1 數(shù)據(jù)處理及差異基因分析 3組原始數(shù)據(jù)集采用R軟件及Affy、Limma、Pheatmap、Ggplot2等軟件包進行數(shù)據(jù)處理,RMA算法進行背景校正、標準化及表達值計算。處理后數(shù)據(jù)采用Fold-change(FC)和T-test進行差異基因篩選,定義| log(FC)|≥1,P<0.05為有效基因。篩選3組數(shù)據(jù)集中共有有效基因作為最終差異表達基因進行后續(xù)分析。
1.2.2 差異表達基因的功能富集分析 生物學信息注釋數(shù)據(jù)庫(database for annotation,visualization and integrated discovery,DAVID)是在線生物信息學分析工具(https://david.ncifcrf.gov/),可對基因或蛋白進行系統(tǒng)綜合的生物功能分析和注釋。差異表達基因利用David6.8進行基因本體論(gene ontology,GO)和KEGG(Kyoto Encyclopedia of Genes and Genomes) 通路的富集分析。
1.2.3 差異表達基因的PPI分析 String10.0數(shù)據(jù)庫(http://string-db.org/)由已知或預測蛋白質(zhì)相互作用的數(shù)據(jù)組成,包括直接和間接的蛋白質(zhì)間相互作用。差異表達基因采用String10.0進行蛋白-蛋白相互作用(PPI)網(wǎng)絡分析,設(shè)置有效結(jié)合分數(shù)為大于0.4。分析結(jié)果通過Cytoscape 3.5.1建立網(wǎng)絡模型,以drgree得分篩選中心基因,并采用Cytoscape中MCODE插件對網(wǎng)絡模型進行評價,選擇scores>3且node>4模塊中的基因進行通路富集分析。
2.1 差異表達基因篩選 經(jīng)R軟件分析,分別從數(shù)據(jù)集GSE33630、GSE65144和GSE85457中提取到差異表達基因3 844、2 822、1 724個。取3個數(shù)據(jù)集差異表達基因進行綜合分析,得到相同差異表達基因383個(圖1);其中上調(diào)基因217個,下調(diào)基因166個。
圖1 3組基因芯片數(shù)據(jù)共表達的差異基因關(guān)系圖
2.2 差異表達基因GO富集分析 GO分析結(jié)果顯示,差異表達基因的GO注釋主要分為生物過程(BP)、細胞組成(CC)和分子功能(MF)3個部分。其中上調(diào)基因主要富集在細外基質(zhì)組織、膠原纖維組織、調(diào)節(jié)細胞增殖等生物學過程,下調(diào)基因主要富集在調(diào)節(jié)脂肪細胞分化、腎發(fā)育、內(nèi)分泌系統(tǒng)發(fā)育等生物學過程,部分結(jié)果見表1。
表1 GO富集分析部分結(jié)果
2.3 差異表達基因KEGG信號通路分析 KEGG分析結(jié)果顯示,上調(diào)基因富集的信號通路(23條)多于下調(diào)基因富集的信號通路(6條)。上調(diào)基因主要集中在ECM受體相互作用、小細胞肺癌、PI3K-Akt信號通路、血小板活化、細胞周期等信號通路(圖2);下調(diào)基因主要富集在癌癥轉(zhuǎn)錄失調(diào)、甲狀腺激素合成、TGF-β信號通路等信號通路,見圖3。
圖2 上調(diào)基因KEGG通路分析結(jié)果
2.4 差異表達基因PPI分析 基于String數(shù)據(jù)庫,篩選出CDC6、AURKA、FEN1、MCM4、MYC 5個degree得分較高的hub基因(表2)。Cytoscape軟件 MCODE插件共篩選出顯著模塊3個(表3、圖4)。模塊1中涉及基因主要富集在DNA復制、細胞周期等信號通路,模塊2中涉及基因主要富集在ECM受體相互作用、PI3K-AKT等信號通路,模塊3中涉及基因主要富集在甲狀腺激素合成、自身免疫性甲狀腺疾病等信號通路。
圖3 下調(diào)基因KEGG通路分析結(jié)果
基因名稱關(guān)系強度分數(shù)拓撲系數(shù)MYC63 054300.072 463 77CDC617 620240.166 666 67AURKA13 140220.190 637 72FEN15 976210.251 984 13MCM43 426190.288 888 89
表3 3個模塊中涉及基因通路分析結(jié)果
圖4 模塊1、2、3的蛋白互作關(guān)系
甲狀腺癌是內(nèi)分泌系統(tǒng)和頭頸部腫瘤中最常見的惡性腫瘤[4]。通過對腫瘤組織與正常組織基因表達譜的生物信息學分析發(fā)現(xiàn),差異表達基因?qū)ρ馨l(fā)育、細胞增殖、轉(zhuǎn)化生長因子β(TGF-β)反應及細胞生物合成調(diào)控等生物學過程都有一定影響。ECM受體相互作用、PI3K-Akt信號通路、各種癌癥的疾病通路、細胞周期等信號通路是上調(diào)基因的主要富集通路,下調(diào)基因主要參與癌癥轉(zhuǎn)錄失調(diào)、甲狀腺激素合成、TGF-β等信號通路的調(diào)控。PI3K-Akt通路作為細胞內(nèi)信號轉(zhuǎn)導的重要通路之一,在多種腫瘤中異?;罨痆5];研究表明,PI3K-Akt通路的異?;罨梢种颇[瘤細胞凋亡,使腫其增殖、轉(zhuǎn)移和侵襲能力顯著增強[6]。腫瘤細胞的生長由各種生長因子、激素及細胞外基質(zhì)等物質(zhì)構(gòu)成的微環(huán)境維持,這些因素的改變會使腫瘤的發(fā)生、發(fā)展過程及對藥物敏感性發(fā)生變化。CAMs是包含整合素、選擇素和免疫球蛋白等在內(nèi)的一類黏附因子[7],可通過介導細胞黏附作用及與相應配體結(jié)合,減少腫瘤細胞“失巢凋亡”和誘導腫瘤血管生成,促進癌細胞的生長和遷移[8]。TGF-β作為一種細胞生長因子,能夠誘導腫瘤上皮細胞發(fā)生上皮間質(zhì)轉(zhuǎn)化及關(guān)鍵血管生成因子的表達[9],促進腫瘤細胞的侵襲。甲狀腺激素合成與甲狀腺功能狀態(tài)息息相關(guān),其水平變化可作為惡性腫瘤患者其病情,以及預后判斷的輔助指標[10]。因此,監(jiān)測以上信號通路可能有助于預測甲狀腺癌的進展及其對藥物的敏感性。
同時,本文通過差異表達基因的PPI分析,篩選出MYC、CDC6、AURKA、FEN1和MCM4這5個關(guān)鍵基因。MYC基因家族及其產(chǎn)物可促進細胞增殖、永生化、去分化和轉(zhuǎn)化等過程,在多種腫瘤形成過程中處于重要地位[11];目前發(fā)現(xiàn)的MYC基因家族成員包括c-myc、n-myc及l(fā)-myc,其中c-myc是一種涉及細胞分化、生長、增殖以及凋亡的轉(zhuǎn)錄因子,與腫瘤的形成、發(fā)展和轉(zhuǎn)移密切相關(guān)[12],下調(diào)MYC表達的治療可能會抑制甲狀腺腫瘤細胞的增殖。CDC6是啟動DNA復制的重要因子之一,在多種癌癥組織和細胞中表達異常上調(diào)[13],其主要通過調(diào)控起始DNA復制、激活S-M監(jiān)測點及促進有絲分裂滑脫,影響腫瘤細胞的增殖及轉(zhuǎn)移[14];然而,目前尚無關(guān)于CDC6異常表達與甲狀腺癌關(guān)系的研究報道,因此其可能成為未來甲狀腺癌診斷的分子標志物和治療的新靶點。AURKA基因編碼的絲氨酸蘇氨酸激酶,通過參與中心體的分離和成熟以及紡錘體兩極的建立,確保細胞有絲分裂中染色體的正確分離和胞質(zhì)分裂的順利完成[15];AURKA的高表達能夠直接或間接地激活多種致癌蛋白或使多種抑癌蛋白失活,CHEN等[16]的研究表明AURKA在衰減P35和P73的腫瘤抑制功能上起著重要作用。FEN1是一種多功能蛋白,參與了細胞DNA 復制、修復和凋亡等過程[17];研究發(fā)現(xiàn),F(xiàn)EN1在多種腫瘤癌癥中高表達,抑制其表達可降低腫瘤的增殖和侵襲能力,逆轉(zhuǎn)腫瘤耐藥性[18]。MCM4是啟動真核基因組DNA復制所必需的微小染色體維持蛋白,據(jù)文獻報道,MCM4 是與P53、KI-67、PCNA 等相比具有同等地位或更具臨床指導意義的標記物[19-20],可為研究甲狀腺癌發(fā)生、發(fā)展,指導臨床治療及判斷預后等方面提供更廣闊的思路。此外,PPI網(wǎng)絡模塊分析顯示,甲狀腺癌的發(fā)展主要與DNA復制、細胞周期、PI3K-Akt信號通路、ECM受體相互作用、焦點黏附及甲狀腺激素合成等信號通路有關(guān),這些通路與腫瘤細胞的增殖、侵襲和轉(zhuǎn)移密切相關(guān),在甲狀腺癌的發(fā)生、發(fā)展、浸潤和轉(zhuǎn)移等方面起著重要作用,為研究甲狀腺癌的發(fā)病機制及腫瘤標志物的篩選提供了理論依據(jù)。
綜上所述,本文通過生物信息學方法分析甲狀腺腺癌及癌旁組織的基因表達譜芯片數(shù)據(jù),發(fā)現(xiàn)影響甲狀腺癌發(fā)生、發(fā)展的重要通路及關(guān)鍵基因,為闡述甲狀腺癌的發(fā)病機制及診斷提供了全新視角,并為甲狀腺癌靶向抑制劑的開發(fā)提供新的方向。然而,本文根據(jù)大數(shù)據(jù)預測的甲狀腺癌相關(guān)信號通路及關(guān)鍵基因及它們是否也在其他癌癥中發(fā)揮作用,還需通過分子生物學研究進行進一步驗證。