戴顯通 李 浩 孫麗萍
中國醫(yī)科大學附屬第一醫(yī)院腫瘤病因與篩查研究室 遼寧省高校腫瘤病因與預防重點實驗室(110001)
背景:胃腸道癌癥的發(fā)生、發(fā)展是多基因參與、多因素作用的結(jié)果。DNA甲基化是重要的表觀遺傳調(diào)控方式之一,對胃腸道癌癥的診斷和治療具有重要作用。目的:利用生物信息學分析方法,篩選并驗證胃腸道癌癥共同的差異甲基化-差異表達基因,為解析DNA甲基化在胃腸道癌癥發(fā)生、發(fā)展中的分子機制提供理論依據(jù)。方法:選取GEO數(shù)據(jù)庫中表達譜芯片和甲基化芯片數(shù)據(jù),應(yīng)用GEO2R篩選胃腸道癌癥共同的差異甲基化-差異表達基因,STRING數(shù)據(jù)庫構(gòu)建蛋白質(zhì)-蛋白質(zhì)相互作用(PPI)網(wǎng)絡(luò),篩選出核心基因,行GO分析和KEGG分析,并應(yīng)用TCGA數(shù)據(jù)庫進行驗證。結(jié)果:共篩選出胃腸道癌癥60個高甲基化-低表達基因(Hyper-LGs)和407個低甲基化-高表達基因(Hypo-HGs)。GO分析示Hyper-LGs涉及46個功能,Hypo-HGs涉及164個功能。KEGG分析示Hyper-LGs主要富集于Rap1信號通路、嗎啡成癮通路等,而Hypo-HGs主要富集于ECM-受體相互作用信號通路、細胞周期通路、PI3K-Akt信號通路等。TCGA數(shù)據(jù)庫驗證結(jié)果顯示,CDH2為胃腸道癌癥共同的Hyper-LGs,EXO1為共同的Hypo-HGs。結(jié)論:基于生物信息學的差異甲基化-差異表達基因聯(lián)合篩選分析可為闡明DNA甲基化在胃腸道癌癥發(fā)生、發(fā)展中的表觀遺傳學作用提供新的線索,有助于全面解析胃腸道癌癥DNA甲基化調(diào)控的作用及其機制,為胃腸道癌癥診斷標志物的篩選和藥物治療精準靶點的選擇提供理論基礎(chǔ)。
胃癌和結(jié)直腸癌是我國常見的惡性腫瘤,其發(fā)病率分列惡性腫瘤發(fā)病率的第二、三位,死亡率位居第三位和第五位[1]。胃腸道腫瘤的發(fā)生、發(fā)展是多基因參與、多因素作用的結(jié)果,涉及遺傳學變異和表觀遺傳學改變等多個分子事件[2]。表觀遺傳調(diào)控是正常生理調(diào)節(jié)的組成部分,包括DNA甲基化、非編碼RNA、組蛋白修飾、染色質(zhì)重構(gòu)等[3]。其中,DNA甲基化是最常見的表觀遺傳修飾之一,主要發(fā)生于基因核心啟動子區(qū)CpG島胞嘧啶殘基第5位碳原子處。DNA甲基化主要通過招募抑制基因表達的蛋白質(zhì)或阻止轉(zhuǎn)錄因子與DNA結(jié)合來調(diào)控基因的表達[4],廣泛參與胃腸道腫瘤的發(fā)生、發(fā)展。胃癌組織中TCF21[5]、NDRG2[6]表達降低與啟動子區(qū)異常高甲基化顯著相關(guān);MDGA2在胃癌組織中呈高甲基化狀態(tài),且與患者預后不良有關(guān)[7];胃癌組織中BCL6B高甲基化者的5年生存率顯著降低[8];p16、RUNX3、MLH1、CDH1等基因異常甲基化與胃癌發(fā)生、發(fā)展和預后有關(guān)[9]。NDRG2低表達的結(jié)直腸癌細胞株啟動子區(qū)呈高甲基化狀態(tài)[10];結(jié)直腸息肉RUNX3啟動子高甲基化致基因失活是結(jié)直腸癌進展的早期事件[11];CACNA1G、IGF2、NEUROG1、RUNX3、SOCS1等基因甲基化狀態(tài)與結(jié)直腸癌臨床病理參數(shù)顯著相關(guān)[12]。因此,聯(lián)合分析胃癌與結(jié)直腸癌的差異基因并經(jīng)一致性分析、驗證,有望解析胃腸道癌癥發(fā)生、發(fā)展中真正受甲基化調(diào)控的基因,并以此為基礎(chǔ)開展胃腸道癌癥的表觀遺傳調(diào)控研究。本研究通過利用公共數(shù)據(jù)庫資源、生物信息學分析方法,在篩選甲基化相關(guān)差異表達基因后,進行基因功能和信號通路富集分析,旨在鑒定參與胃腸道癌癥發(fā)生、發(fā)展調(diào)控的重要功能模塊和關(guān)鍵基因,從而為解析胃腸道癌癥的發(fā)病機制提供有價值的理論參考。
本研究所有微陣列數(shù)據(jù)DNA的甲基化芯片和mRNA表達譜芯片均來自于美國國立生物技術(shù)信息中心(National Center for Biotechnology Information, NCBI)的基因表達數(shù)據(jù)庫(Gene Expression Omnibus, GEO)(https://www.ncbi.nlm.nih.gov/geo/)。GSE85464、GSE103186和GSE101764、GSE77718分別為胃癌、結(jié)直腸癌的DNA甲基化芯片;GSE66229、GSE13911和GSE37182、GSE44076分別為胃癌、結(jié)直腸癌的mRNA表達譜芯片。其中,GSE85464包括19對胃癌組織及其癌旁對照組織,GSE103186包括130例胃癌組織和61例對照組織,GSE101764包括112例結(jié)直腸癌組織和149例對照組織,GSE77718包括96對結(jié)直腸癌組織及其癌旁對照組織;GSE66229包括300例胃癌組織和100例對照組織,GSE13911包括37例胃癌組織和32例對照組織,GSE37182包括84例結(jié)直腸癌組織和88例對照組織,GSE44076包括98對結(jié)直腸癌組織及其癌旁對照組織。
1. 表達芯片的數(shù)據(jù)處理:①根據(jù)胃癌和結(jié)直腸癌表達譜芯片注釋信息,對各芯片中的樣本進行分組(包括癌癥組和對照組);②利用GEO2R (http://www.ncbi.nlm.nih.gov/geo/geo2r/)工具對芯片中缺失值進行補充和標準化處理,計算癌癥組與對照組的P值,以P<0.05作為閾值確定差異基因,其中LogFC>0為高表達基因,LogFC<0為低表達基因。
2. 甲基化芯片的數(shù)據(jù)處理:①使用R語言進行甲基化數(shù)據(jù)處理,在GEO數(shù)據(jù)庫中下載所選甲基化芯片的矩陣文件與注釋文件;②利用impute包補全矩陣文件的缺失值,wateRmelon包進行數(shù)據(jù)標準化處理;③利用minfi包中dmpFinder函數(shù)進行甲基化位點的差異統(tǒng)計,以P<0.05為閾值確定差異甲基化位點,其中LogFC>0為高甲基化位點,LogFC<0為低甲基化位點;④利用Illumina Human Methylation 450k manifest包對差異甲基化位點進行注釋并去重以確定基因信息。
整合篩選出胃癌和結(jié)直腸癌差異甲基化、差異表達基因集,分別對4個表達譜芯片中的差異甲基化、差異表達基因集再取交集,得到胃癌與結(jié)直腸癌共同高表達基因集、低表達基因集、高甲基化基因集和低甲基化基因集。對上述四個共同基因集取交集,得到胃腸道癌癥共同的高甲基化-低表達基因集(Hyper-LGs)和低甲基化-高表達基因集(Hypo-HGs)。
采用STRING數(shù)據(jù)庫工具進行分析,交互作用綜合評分為0.7分定義為顯著,相互作用連接數(shù)大于5個認為是核心基因。利用Cytoscape 3.6.1建立PPI網(wǎng)絡(luò)和模塊分析,利用軟件內(nèi)置MCODE聚類工具篩選模塊(標準:MCODE評分≥4分,同時基因節(jié)點數(shù)量≥4個)。P<0.05為差異有統(tǒng)計學意義。
利用STRING數(shù)據(jù)庫對所選MCODE模塊中的基因進行GO(Gene Ontology)分析和KEGG(Kyoto Encyclopedia of Genes and Genomes)通路富集分析。GO分析是對基因產(chǎn)物進行簡單注釋的主要生物信息學工具,包含細胞成分(cellular component)、分子功能(molecular function)以及生物過程(biological process)[13]。KEGG分析是一套包含基因組、信號途徑、疾病和藥物信息的數(shù)據(jù)庫。然后利用DAVID(http://david.abcc.ncifcrf.gov/)在線工具對Hyper-LGs和Hypo-HGs行GO和KEGG分析,以P<0.05作為閾值,得到差異基因顯著富集的信號通路。利用ggplot2程序包對差異顯著的結(jié)果進行可視化。
利用Oncomine數(shù)據(jù)庫,選擇表達數(shù)據(jù)庫中的TCGA數(shù)據(jù)集,驗證篩選出的核心基因在胃腸道癌癥中的表達差異。利用MethHC數(shù)據(jù)庫中的TCGA甲基化數(shù)據(jù),驗證篩選出的核心基因在胃腸道癌癥中的甲基化差異。
表達譜芯片結(jié)果顯示,分別篩選出9 589個HGs和8 032個LGs(GSE66229)、3 842個HGs和8 714個LGs(GSE13911)、17 463個HGs和1 200個LGs(GSE37182)、7 942個HGs和7 836個LGs(GSE44076)。甲基化芯片結(jié)果顯示,分別篩選出4 420個高甲基化基因和8 510個低甲基化基因(GSE85464)、2 712個高甲基化基因和8 713個低甲基化基因(GSE103186)、3 208個高甲基化基因和7 426個低甲基化基因(GSE101764)、4 817個高甲基化基因和8 112個低甲基化基因(GSE77718)。胃癌與結(jié)直腸癌篩選出共同高表達基因2 643個、共同低表達基因610個、1 082個共同高甲基化基因和4 182個共同低甲基化基因,其中Hyper-LGs 60個、Hypo-HGs 407個(圖1)。
PPI網(wǎng)絡(luò)分析顯示Hyper-LGs有60個蛋白節(jié)點和38條連接線,Hypo-HGs有406個蛋白節(jié)點和1 283條連接線。Hyper-LGs前四位的核心基因分別為ITPKB、FGF2、CDH2和VIM,Hypo-HGs前五位的核心基因分別為PLK1、BRCA1、MAD2L1、EXO1和RRM2。
圖1 差異甲基化-差異表達譜聯(lián)合分析結(jié)果
Hypo-HGs包含13個模塊聚集,其中模塊1主要富集于細胞周期(cell cycle)和有絲分裂細胞周期過程(mitotic cell cycle process),模塊2主要富集于細胞外基質(zhì)成分(extracellular matrix organization)、含膠原蛋白的細胞外基質(zhì)(collagen-containing extracellular matrix)以及蛋白質(zhì)消化和吸收(protein digestion and absorption),模塊3主要富集于含蛋白質(zhì)的復合物(protein-containing complex)、蛋白酶復合物(proteasome complex)以及核糖體(ribosome)(圖2),而Hyper-LGs無模塊聚集。
GO分析結(jié)果顯示,Hyper-LGs主要富集于黏著斑(focal adhesion)、鈣通道調(diào)節(jié)劑活性(calcium channel regulator activity)和激活MAPK活性(activation of MAPK activity)等46個功能;Hypo-HGs主要富集于核質(zhì)(nucleoplasm)、蛋白質(zhì)結(jié)合(protein binding)和胞膜(membrane)等160個功能。KEGG富集分析結(jié)果顯示,Hyper-LGs主要富集于Rap1信號通路(Rap1 signaling pathway)、嗎啡成癮通路(morphine addiction pathway);Hypo-HGs主要富集于ECM-受體相互作用通路(ECM-receptor interaction pathway)、細胞周期通路(cell cycle)和PI3K-Akt 信號通路(PI3K-Akt signaling pathway)(圖3、圖4)。
4個Hyper-LGs核心基因、5個Hypo-HGs核心基因經(jīng)胃癌、結(jié)直腸癌TCGA數(shù)據(jù)庫驗證分析結(jié)果顯示,CDH2為胃腸道癌癥的共同Hyper-LGs,EXO1為共同的Hypo-HGs(表1)。
圖2 Hypo-HGs模塊PPI及其GO、KEGG分析
圖3 Hyper-LGs的GO和KEGG通路富集分析
圖4 Hypo-HGs的GO和KEGG通路富集分析
表1 核心基因的TCGA數(shù)據(jù)庫驗證
胃腸道腫瘤是高發(fā)病率、高死亡率的疾病[14],其發(fā)生、發(fā)展是多基因參與、多因素作用的過程,但目前對其分子機制的理解依然有限。基因調(diào)控異常是癌癥發(fā)生的重要原因之一[15],DNA甲基化是目前腫瘤分子機制研究的熱點之一。低甲基化通常在早期出現(xiàn)且與染色體不穩(wěn)定性和印跡的喪失有關(guān),而高甲基化與啟動子活性相關(guān)且可繼發(fā)于基因沉默[16]。癌基因高表達、抑癌基因低表達是造成癌癥發(fā)生和發(fā)展的重要因素。啟動子區(qū)轉(zhuǎn)錄因子結(jié)合位點甲基化狀態(tài)所致的基因表達差異,是胃腸道癌癥發(fā)生、發(fā)展的重要分子機制[17]。
本研究利用GEO數(shù)據(jù)庫的甲基化和表達譜芯片數(shù)據(jù),篩選出胃腸道癌癥的共同差異表達基因,探討其參與胃腸道癌癥發(fā)生、發(fā)展的重要生物學功能基因及其信號轉(zhuǎn)導通路,并對核心基因進行驗證,為胃腸道癌癥標志物的探索以及治療靶點的研究提供了新的線索。
本研究中,GO分析結(jié)果提示,Hyper-LGs與鈣通道調(diào)節(jié)分子活性和GPI連接的腎素受體活性相關(guān),而細胞黏附力和鈣信號是影響腫瘤細胞轉(zhuǎn)移和侵襲的重要通路。GO分析結(jié)果提示,Hyper-LGs富集于MAPK活性激活通路。有研究[18]發(fā)現(xiàn),甲基化誘導的SPG20沉默會通過激活EGFR/MAPK信號轉(zhuǎn)導途徑來促進胃癌細胞增殖。KEGG分析顯示Hyper-LGs與Rap1信號通路相關(guān),但目前關(guān)于胃腸道腫瘤異常甲基化對Rap1信號通路相關(guān)基因調(diào)控的研究較少見,其分子機制仍不完全明確。此外,Hypo-HGs中COL4A2、COL4A1、COL3A1、COL6A3、ITGA11、LAMC2、COL1A1、THBS2、COL5A1基因富集于細胞粘附的生物學過程和ECM-受體相互作用。ECM由結(jié)構(gòu)和功能性大分子的復雜混合物組成,在細胞、組織的結(jié)構(gòu)和功能維持中起有重要作用。細胞與ECM之間的特異性相互作用可直接或間接控制細胞活動,如粘附、遷移、分化、增殖和凋亡[19]。因此,這些基因可能通過甲基化狀態(tài)的改變影響細胞的粘附作用,進而影響細胞與ECM之間的相互作用并參與胃腸道腫瘤細胞的遷移、分化等過程。Hypo-HGs富集基因數(shù)量最多的通路為PI3K-Akt信號通路,該通路可通過促進腫瘤細胞增殖、抑制腫瘤細胞凋亡、促進血管生成等分子機制參與胃腸道癌癥的侵襲和轉(zhuǎn)移[20-24]。
對異常甲基化-異常表達基因進行PPI網(wǎng)絡(luò)的構(gòu)建,有助于更好地理解差異基因之間的相互作用關(guān)系。本研究發(fā)現(xiàn)了3個Hypo-HGs最有意義的功能模塊。模塊1的生物學過程主要富集于細胞有絲分裂周期過程和細胞周期。細胞周期異常調(diào)節(jié)會導致細胞過度增殖和惡性腫瘤的發(fā)生、發(fā)展[16],說明這一模塊內(nèi)的基因可能通過對細胞周期(如有絲分裂過程)的影響調(diào)控胃腸腫瘤細胞的生長。Wang等[7]的研究發(fā)現(xiàn),MDGA2通過阻滯G1-S細胞周期來誘導細胞凋亡、抑制細胞增殖,從而抑制腫瘤生長;MDGA2高甲基化狀態(tài)可促進胃癌發(fā)生、發(fā)展,縮短患者生存期。Yu等[25]發(fā)現(xiàn),胃癌細胞CDCA3啟動子區(qū)低甲基化通過抑制SP1與近端啟動子區(qū)的相互作用,促進CDCA3在胃癌細胞中的表達,進而抑制細胞增殖和侵襲。模塊2主要富集于ECM、含膠原蛋白的細胞外基質(zhì)以及蛋白質(zhì)的消化和吸收。ECM與腫瘤細胞、周圍腫瘤相關(guān)基質(zhì)細胞共同構(gòu)成了腫瘤微環(huán)境[26]。ECM本身不具有惡性腫瘤生物學功能,但其似乎通過提供有利于腫瘤的微環(huán)境來促進癌癥發(fā)展。模塊3主要富集于含蛋白質(zhì)的復合物、蛋白酶復合物和核糖體,提示這一模塊可能通過參與蛋白質(zhì)翻譯過程來調(diào)控基因表達。對于這三個模塊中發(fā)揮重要作用的關(guān)鍵基因及其參與的調(diào)控通路等尚需行深入研究。
TCGA數(shù)據(jù)庫驗證結(jié)果提示,CDH2為胃腸道癌癥的共同Hyper-LGs,EXO1為共同的Hypo-HGs。CDH2負責編碼黏鈣素超家族的黏鈣素2,但其甲基化和功能在胃癌和結(jié)直腸癌中的作用尚未見相關(guān)報道。EXO1有助于調(diào)控細胞周期、復制叉的維持以及復制后的DNA修復,其高表達在細胞周期和細胞復制中發(fā)揮重要作用,可能對癌癥的發(fā)生、發(fā)展起重要作用[27],但其在胃腸道癌癥中尚未見甲基化和功能相關(guān)報道。
綜上所述,本研究利用公共數(shù)據(jù)庫資源和生物信息學分析方法,對胃腸道癌癥中差異甲基化-差異表達基因進行聯(lián)合分析以及生物學功能、通路富集分析,解析了胃腸道腫瘤中甲基化調(diào)控的重要作用及其機制,從而為闡明甲基化在胃腸道腫瘤發(fā)生、發(fā)展中的表觀遺傳學作用提供了新的線索,為其診斷和治療靶點的篩選提供了理論基礎(chǔ)以及有價值的參考。