張 鵬, 羅 琴, 汪婷婷, 袁向亮, 沈立松
(上海交通大學(xué)醫(yī)學(xué)院附屬新華醫(yī)院檢驗科,上海 200092)
胃癌是消化道常見的腫瘤之一[1],2015年世界衛(wèi)生組織發(fā)布的《Global Cancer Statistics, 2012》報告指出,胃癌的發(fā)病例數(shù)高居惡性腫瘤的第4位。根據(jù)2015年CHEN等[2]的研究數(shù)據(jù)顯示,2015年我國胃癌新發(fā)病例679 100例,死亡病例498 000例。胃癌嚴(yán)重威脅我國人民的健康[3]。
胃癌病因十分復(fù)雜,但最終都在不同階段作用于不同基因,引起相關(guān)基因結(jié)構(gòu)及表達(dá)水平的改變,這些基因共同作用最終導(dǎo)致胃癌的發(fā)生、發(fā)展。高通量測序技術(shù)及基因芯片技術(shù)的快速發(fā)展,使基因數(shù)據(jù)大量累積。美國國立生物技術(shù)信息中心(the National Center for Biotechnology Information,NCBI)的基因表達(dá)綜合數(shù)據(jù)庫(Gene Expression Omnibus,GEO)、美國癌癥和腫瘤基因圖譜計劃(the Cancer Genome Atlas,TCGA)是世界上最大的公共資源基因表達(dá)數(shù)據(jù)庫,包含了數(shù)以億計的資源,這種豐富的基因組數(shù)據(jù)具有很大的潛力,影響未來對疾病的研究模式,癌癥基因組學(xué)領(lǐng)域的進(jìn)步正在徹底改變各種癌癥的分子表征。2014年《Nature》發(fā)文總結(jié)了胃腺癌基于基因的亞類分型標(biāo)準(zhǔn)并把其作為TCGA項目的一部分,這些亞型的鑒定為患者分層和靶向治療提供了指導(dǎo)[4]。這些研究也導(dǎo)致了基于基因的新型胃癌分子分類系統(tǒng)的發(fā)展,表明了胃癌發(fā)病機(jī)制中驅(qū)動突變的重要性,并且發(fā)現(xiàn)了大量新的驅(qū)動基因突變[5]。如何有效地將這一基因組數(shù)據(jù)為臨床和科研提供更好的支持成了一個新的挑戰(zhàn),本研究嘗試?yán)肎EO中有關(guān)胃癌的數(shù)據(jù)庫,通過生物信息學(xué)的方法研究胃癌相關(guān)的基因,篩選并預(yù)測與胃癌發(fā)生、進(jìn)展、預(yù)后相關(guān)的基因特征和意義,為腫瘤研究提供新的思路。
本研究所有原始數(shù)據(jù)均從GEO(https://www.ncbi.nlm.nih.gov/)中下載。GEO的納入標(biāo)準(zhǔn):具備胃癌組織和正常癌旁對照組織的全基因組測序數(shù)據(jù),且數(shù)據(jù)集覆蓋胃癌不同的分期和不同的組織類型。排除對胃癌患者進(jìn)行藥物干預(yù)或其他干預(yù)的對比測試結(jié)果,以及測序數(shù)據(jù)集包含的樣本量過少和沒有正常對照的數(shù)據(jù)集。共采集腫瘤樣本1 076份,正常癌旁組織對照樣本196份。篩選數(shù)據(jù)庫樣本組成為GSE79973、GSE54129、GSE13911,驗證數(shù)據(jù)庫樣本組成為GSE14210、GSE15459、GSE22377、GSE29272、GSE51105、GSE62254。
1.2.1 篩選差異基因 從NCBI的GEO下載胃癌相關(guān)的芯片數(shù)據(jù):GSE79973、GSE54129、GSE13911。使用GEO2R分析平臺(https://www.ncbi.nlm.nih.gov/geo/geo2r/),利用R語言程序包limma對表達(dá)譜數(shù)據(jù)進(jìn)行差異基因提取,導(dǎo)出3個數(shù)據(jù)集中有差異的基因文件進(jìn)一步篩選“LogFC>2.0和LogFC<-2.0,且P<0.05的基因”,篩選出的數(shù)據(jù)集分別命名為GSE79973D1、GSE13911D1、GSE54129D1,以備后續(xù)分析所用。
1.2.2 利用韋恩圖(VENNY)篩選目標(biāo)基因 把上述GEO2R分析輸出的數(shù)據(jù)集GSE79973D1、GSE13911D1、GSE54129D1,利用VENNY進(jìn)一步篩選。本研究選取3個數(shù)據(jù)兩兩相交及3個共同表達(dá)的基因為研究對象,定義為“至少在2個樣本庫中表達(dá)有差異的基因”,命名為VIG(very important gene),共有基因339個。
1.2.3 基因本體(gene ontology,GO)富集分析 GO是基因功能國際標(biāo)準(zhǔn)分類體系。通過將差異基因做GO富集分析,可以把基因按不同的功能進(jìn)行歸類,達(dá)到對基因進(jìn)行注釋和分類的目的。采取的方法是fisher精確檢驗,數(shù)據(jù)包采用 clusterProfiler,來自 R/bioconductor。選擇標(biāo)準(zhǔn)是落在某個term/GO上差異的基因數(shù)目≥4,P<0.05, 按照富集程度的值從大至小降序排列,取前 30 個結(jié)果作圖。Enrich_factor定義=(某個term中的差異基因數(shù)目/總的差異基因數(shù)目)/(數(shù)據(jù)庫term中總的基因數(shù)目/數(shù)據(jù)庫中總的基因數(shù)目)。
1.2.4 京都基因與基因組百科全書(the Kyoto Encyclopedia of Genes and Genomes,KEGG)富集分析 KEGG通路分析的信號通路是多個蛋白質(zhì)之間相互作用,共同調(diào)節(jié)細(xì)胞功能和代謝活動的過程。本研究分析差異基因主要利用公共數(shù)據(jù)庫KEGG來進(jìn)行分類,對Pathway中的基因進(jìn)行基于離散分布的顯著性分析,得到與實驗?zāi)康娘@著相關(guān)的Pathway分類。采取的方法是fisher精確檢驗,數(shù)據(jù)包采用clusterProfiler,來自 R/bioconductor。選擇的標(biāo)準(zhǔn)是落在某個 term/pathway 上差異的基因數(shù)目≥4,P<0.05,按照富集程度的值以大小降序排列,取前 30 個結(jié)果作圖。
1.2.5 生存期分析 利用KM-Plotter數(shù)據(jù)庫(http://kmplot.com/analysis/)驗證差異基因的表達(dá)和分析關(guān)鍵基因?qū)ξ赴┗颊呱鏁r間的影響。使用數(shù)據(jù)庫中876例胃癌患者信息,根據(jù)中位數(shù)將目的基因分為低表達(dá)組和高表達(dá)組,利用缺省設(shè)置,在線分析目標(biāo)基因?qū)ξ赴┗颊呖偵娴念A(yù)后價值。
本研究首先利用GEO2R分析平臺對選取的3個樣本集GSE54129、GSE79973、GSE13911的原始數(shù)據(jù)進(jìn)行預(yù)處理和過濾,篩選出差異基因后進(jìn)一步篩選出差異的顯著性<0.05、差異倍數(shù)>2倍的基因。本研究把篩選出的基因合并后得到差異基因1 480個,其中上調(diào)基因879個,下調(diào)基因601個。取2個以上數(shù)據(jù)集中有交集的基因共339個(圖1),進(jìn)一步進(jìn)行生物信息學(xué)分析。
圖1 對差異基因進(jìn)行篩選的VENNY模式圖
通過GO富集分析顯示這些胃癌表達(dá)差異基因主要分布在胃、十二指腸、結(jié)腸、肌腱、肺、腎等組織。差異基因參與了消化、藥物代謝、類黃酮代謝、視黃酸代謝、膠原蛋白分解代謝、酮化合物代謝等1 126個生物過程。其中與消化相關(guān)的基因有GKN1、SST、SSTR1等,參與膠原蛋白分解的基因有MMP3、ADAMTS2、COL10A1等,參與多柔比星藥物代謝的基因有AKR1B10、AKR1C1、AKR1C2、AKR1C3。富集程度位于前幾位的基因主要參與的生物過程是消化、藥物代謝、酮類代謝、膠原蛋白代謝。見圖2。
圖2 GO生物過程基因富集結(jié)果
使用基于KEGG的通路分析發(fā)現(xiàn)這些差異基因共涉及信號通路111條,主要的信號通路有:細(xì)胞色素P450代謝途徑、藥物代謝、視黃醇代謝、甾類激素生物合成、酪氨酸代謝、胃酸分泌、血管內(nèi)皮生長因子受體3信號傳導(dǎo)、谷胱甘肽酶、戊糖和葡萄糖醛酸互變等。信號通路的分析與GO功能的分析相吻合,主要集中在消化、藥物代謝和類固醇、視黃醇代謝等途徑。另外,在通路分析中差異基因在血管內(nèi)皮生長因子信號通路和細(xì)胞外基質(zhì)受體相互作用中富集也很顯著,其中差異基因中富集程度較高的基因主要集中在細(xì)胞色素P450家族、葡萄糖醛酸轉(zhuǎn)移酶家族等。見表1。
表1 胃癌表達(dá)差異基因的信號通路分析
為了驗證我們的發(fā)現(xiàn),本研究使用KMPlotter數(shù)據(jù)庫對上述基因在胃癌中的表達(dá)水平進(jìn)行了驗證。KM-Plotter數(shù)據(jù)庫包括6個數(shù)據(jù)集,即GSE29272、GSE51105、GSE14210、GSE15459、GSE22377、GSE62254,共1 051個胃癌樣本全基因組測序數(shù)據(jù)和對應(yīng)的876例生存時間數(shù)據(jù)。上述差異基因在KM-Plotter數(shù)據(jù)庫中的表達(dá)情況與本研究之前選擇的數(shù)據(jù)集表達(dá)一致。本研究對關(guān)鍵基因根據(jù)目標(biāo)基因表達(dá)的中位數(shù)分為高表達(dá)組和低表達(dá)組進(jìn)行生存曲線分析。結(jié)果顯示細(xì)胞色素P450家族2亞科C成員18(cytochrome P450 family 2 subfamily C member 18,CYP2C18)高表達(dá)組總生存時間顯著高于低表達(dá)組(P=0.001 2)。同樣,谷胱甘肽S-轉(zhuǎn)移酶家族成員GSTA3、膠原蛋白家族成員COL1A1、醛脫氫酶3家族成員ALDH3A1,高表達(dá)組總生存時間均顯著降低(圖3)。神經(jīng)元分化因子1(neuronal differentiation 1,NEUROD1)基因在胃癌患者中mRNA的表達(dá)水平顯著下調(diào),但高表達(dá)的胃癌患者生存時間卻相對較低(P=0.000 26);前列腺素-內(nèi)過氧化物合酶2(prostaglandin-endoperoxide synthase 2,PTGS2)基因在胃癌患者中mRNA的表達(dá)水平顯著上調(diào),但高表達(dá)的胃癌患者的生存時間卻顯著延長(P=0.001 3)。提示這些差異基因在胃癌發(fā)生、發(fā)展過程中發(fā)揮著不同的作用。因此,對篩選出的關(guān)鍵基因進(jìn)行進(jìn)一步的功能驗證,將會對研究其確切的功能具有重要的意義。
圖3 胃癌關(guān)鍵基因?qū)ξ赴┗颊呱鏁r間的影響
本研究利用公共數(shù)據(jù)資源GEO,使用在線分析平臺GEO2R篩選出在胃癌和癌旁組織表達(dá)有差異的基因,并對這些差異基因進(jìn)行了生物過程分析和信號通路分析,發(fā)現(xiàn)主要集中于細(xì)胞色素P450家族、葡萄糖醛酸轉(zhuǎn)移酶家族等基因簇。對這些關(guān)鍵基因的進(jìn)一步分析,新發(fā)現(xiàn)ALDH3A1、NEUROD1等基因與胃癌的發(fā)生、發(fā)展密切相關(guān),而且這些關(guān)鍵基因與胃癌生存時間顯著相關(guān)。
在本研究中,我們鑒定發(fā)現(xiàn)的胃癌差異基因包括了細(xì)胞色素P450家族和葡萄糖醛酸轉(zhuǎn)移酶家族等基因簇。已有的研究也證實這些基因與胃癌的發(fā)生、發(fā)展相關(guān)。P450家族基因可參與抗腫瘤藥物的代謝。環(huán)磷酰胺及其異構(gòu)體異環(huán)磷酰胺通過肝臟P450酶催化而活化,提高了此類藥物的敏感性[6]。細(xì)胞色素P450家族2亞科E成員1 (cytochrome P450 family 2 subfamily E member 1,CYP2E1)基因多態(tài)性與胃癌的發(fā)生相關(guān)[7],其參與胃癌發(fā)病的機(jī)制可能與其參與亞硝胺及前致癌物N-亞硝基二甲胺和N-亞硝基四吡咯烷的代謝,以及參與黃曲霉屬和四氯化碳的活性代謝相關(guān)[8]。已有研究表明,COL1A1在胃癌癌變前和惡性組織中的水平顯著高于正常組織,并且與腫瘤的進(jìn)展、大小、淋巴結(jié)轉(zhuǎn)移相關(guān)[9],而癌變組織中COL1A2的表達(dá)水平高于癌前病變和正常組織,因此COL1A1 和COL1A2可以作為胃癌的監(jiān)測和預(yù)后因子。已有研究顯示GSTM1和GSTT1基因多態(tài)性是胃癌的危險因素[10],GSTM1基因和GSTT1 null基因型的患者癌前病變風(fēng)險增加,而GSTP1Val等位基因的存在則會減少癌變前損傷的風(fēng)險[11]。JO等[12]研究認(rèn)為UGT1A1基因的表達(dá)與晚期胃癌患者的治療相關(guān)。WANG等[13]的研究提示UGT1A1多態(tài)性可以用來篩選胃癌的風(fēng)險人群,TYMS、TUBB3和STMN1或可作為預(yù)后的潛在生物標(biāo)志物用于晚期胃癌的化療指導(dǎo)。這些已有的差異基因研究報道進(jìn)一步證實本研究的分析篩選模型是有效的,在尋找胃癌相關(guān)的基因和蛋白上具有良好的效果。
通過深入檢索本研究篩選的這些差異基因,我們發(fā)現(xiàn)了一些處于網(wǎng)絡(luò)核心節(jié)點的關(guān)鍵差異基因如ALDH3A1、NEUROD1等,但尚未見其對胃癌的意義的相關(guān)報道。ALDH3A1是乙醛脫氫酶3家族成員,PATEL等[14]曾經(jīng)報道ALDH3A1在肺癌中升高,國內(nèi)袁青等[15]報道了乙醛脫氫酶2(aldehyde dehydrogenase 2 family,ALDH2)基因多態(tài)性及生活習(xí)慣與胃癌易感性的相關(guān)性分析,認(rèn)為ALDH2基因多態(tài)性與胃癌易感性有關(guān)。ALDH3A1在胃癌中意義尚未見報道,本研究分析發(fā)現(xiàn)高表達(dá)此基因的胃癌患者生存期顯著縮短(P=0.032),推測與胃癌進(jìn)展相關(guān)。NEUROD1是轉(zhuǎn)錄因子NeuroD家族的成員,已有報道其多與乳腺癌、神經(jīng)內(nèi)分泌癌、前列腺癌、糖尿病有關(guān)[16-17],尚未發(fā)現(xiàn)在胃癌中的研究報道。本研究通過生存時間分析發(fā)現(xiàn),NEUROD1高表達(dá)胃癌患者的生存時間顯著縮短,說明該基因的異常表達(dá)對胃癌患者是有意義的。進(jìn)一步蛋白交互作用分析證實該基因可能經(jīng)由胰島素與AKT1基因有交互作用,推測NEUROD1可能經(jīng)由胰島素參與了絲氨酸/蘇氨酸激酶介導(dǎo)的血管內(nèi)皮生長因子信號途徑或是通過GPCR信號傳導(dǎo)和MAP3K5的磷酸化參與了細(xì)胞的凋亡等過程。絲氨酸/蘇氨酸激酶1是PI3K/AKT信號通路的重要組成部分。該通路可調(diào)節(jié)腫瘤細(xì)胞的增殖和惡性轉(zhuǎn)化,而且與腫瘤細(xì)胞的遷移、黏附、腫瘤血管的生成以及細(xì)胞外基質(zhì)的降解相關(guān)[16]。在本研究鑒定發(fā)現(xiàn)的差異基因中還有一些基因如PTGS2等在胃癌的發(fā)生、發(fā)展中可能發(fā)揮不同的作用。與PTGS2相關(guān)的疾病包括結(jié)腸直腸腺瘤和消化性潰瘍。在癌細(xì)胞中,PTGS2是前列腺素E2生產(chǎn)中的關(guān)鍵步驟的產(chǎn)物。有研究顯示,PTGS2等位基因攜帶者罹患胃癌的風(fēng)險增加[17]。本研究結(jié)果也顯示,胃癌患者PTGS2 mRNA表達(dá)水平顯著上調(diào),這提示該基因與胃癌的發(fā)生相關(guān)。但生存時間分析發(fā)現(xiàn)PTGS2高水平表達(dá)的胃癌患者,其生存時間顯著延長,這提示該基因在胃癌的進(jìn)展中可能發(fā)揮保護(hù)性因子的作用。因此,對PTGS2等基因在胃癌中的表達(dá)特征和意義需進(jìn)一步研究,以明確其在胃癌發(fā)生、發(fā)展中的功能特征和作用。
本研究建立的篩選分析模型為研究腫瘤提供了一個新的思路:通過公共數(shù)據(jù)庫GEO和TCGA相關(guān)腫瘤的全基因組測序數(shù)據(jù),對在癌組織和對照組織中表達(dá)有差異的基因進(jìn)行全面分析,找出與腫瘤相關(guān)的核心基因,對這些關(guān)鍵基因參與的生物過程和信號通路進(jìn)行分析,對在主要生物過程和通路中參與的基因進(jìn)行蛋白交互作用分析,然后對處于網(wǎng)絡(luò)中心節(jié)點的基因進(jìn)行文獻(xiàn)挖掘,尋找研究的突破點,繼而用基因突變分析工具和生存時間分析工具來驗證該基因?qū)δ[瘤患者總生存時間的影響,綜合分析某基因在腫瘤中的表達(dá)特征和意義,可為進(jìn)一步開展相關(guān)的功能研究提供理論支持和指導(dǎo)。
[1] SIEGEL R L, MILLER K D, JEMAL A. Cancer statistics, 2016[J]. CA Cancer J Clin, 2016, 66(1):7-30.
[2] CHEN W, ZHENG R, BAADE P D, et al.Cancer statistics in China, 2015[J]. CA Cancer J Clin, 2016, 66(2):115-132.
[3] PATRU C L, SURLIN V, GEORGESCU I, et al.Current issues in gastric cancer epidemiology[J]. Rev Med Chir Soc Med Nat Iasi, 2013,117(1):199-204.
[4] Cancer Genome Atlas Research Network.Comprehensive molecular characterization of gastric adenocarcinoma[J]. Nature, 2014, 513(7517):202-209.
[5] KATONA B W, RUSTGI A K. Gastric cancer genomics: advances and future directions[J]. Cell Mol Gastroenterol Hepatol, 2017, 3(2):211-217.
[6] WEBER G F, WAXMAN D J. Activation of the anti-cancer drug ifosphamide by rat liver microsomal P450 enzymes[J]. Biochem Pharmacol, 1993, 45(8):1685-1694.
[7] GHOSHAL U, TRIPATHI S, KUMAR S, et al.Genetic polymorphism of cytochrome P450 (CYP)1A1, CYP1A2, and CYP2E1 genes modulate susceptibility to gastric cancer in patients with Helicobacter pylori infection[J]. Gastric Cancer,2014, 17(2):226-234.
[8] ZHANG M X, LIU K, WANG F G, et al.Association between CYP2E1 polymorphisms and risk of gastric cancer: an updated meta-analysis of 32 case-control studies[J]. Mol Clin Oncol, 2016,4(6):1031-1038.
[9] LI J, DING Y, LI A. Identification of COL1A1 and COL1A2 as candidate prognostic factors in gastric cancer[J]. World J Surg Oncol, 2016, 14(1):297.
[10] HIDAKA A, SASAZUKI S, MATSUO K,et al. CYP1A1, GSTM1 and GSTT1 genetic polymorphisms and gastric cancer risk among Japanese: a nested case-control study within a largescale population-based prospective study[J]. Int J Cancer, 2016, 139(4):759-768.
[11] NEGOVAN A, IANCU M, MOLDOVAN V,et al. The interaction between GSTT1, GSTM1,and GSTP1 Ile105Val gene polymorphisms and environmental risk factors in premalignant gastric lesions risk[J]. Biomed Res Int, 2017, 2017:7365080.
[12] JO J C, LEE J L, RYU M H, et al. Phase Ⅱ and UGT1A1 genotype study of irinotecan dose escalation as salvage therapy for advanced gastric cancer[J]. Br J Cancer, 2012, 106(10):1591-1597.
[13] WANG W, HUANG J, TAO Y, et al. PhaseⅡand UGT1A1 polymorphism study of two different irinotecan dosages combined with cisplatin as first-line therapy for advanced gastric cancer[J].Chemotherapy, 2016, 61(4):197-203.
[14] PATEL M, LU L, ZANDER D S, et al.ALDH1A1 and ALDH3A1 expression in lung cancers: correlation with histologic type and potential precursors[J]. Lung Cancer, 2008, 59(3):340-349.
[15] 袁青, 薛亞東, 鄭雅萍,等. 乙醛脫氫酶2基因多態(tài)性及生活習(xí)慣與胃癌易感性的相關(guān)性分析[J]. 檢驗醫(yī)學(xué), 2016, 31(7):584-587.
[16] SHIMIZU T, TOLCHER A W, PAPADOPOULOS K P,et al. The clinical effect of the dual-targeting strategy involving PI3K/AKT/mTOR and RAS/MEK/ERK pathways in patients with advanced cancer[J].Clin Cancer Res, 2012, 18(8):2316-2325.
[17] LI Y, HE W, LIU T, et al. A new cyclooxygenase-2 gene variant in the Han Chinese population is associated with an increased risk of gastric carcinoma[J]. Mol Diagn Ther, 2010, 14(6):351-355.