李文菠,孫成杰,周國俊,應(yīng)偉,馮彥超,黃婷,侍琳,黃理政,李健水,冷政偉
(川北醫(yī)學(xué)院附屬醫(yī)院 1.肝膽外科二 2.腫瘤干細(xì)胞研究中心,四川 南充 637000)
肝細(xì)胞癌(hepatocellular carcinoma,HCC)是消化系統(tǒng)最常見的惡性腫瘤之一,據(jù)美國癌癥協(xié)會(huì)統(tǒng)計(jì),HCC在男性癌癥中的發(fā)病率排第六位,但在女性中仍以每年超過2%的速度增長,其病死率在男性排第五位,在女性中排第六位[1-2],與其他癌癥相似,HCC與潛在的危險(xiǎn)因素相關(guān),如超重、吸煙、酗酒、乙型肝炎病毒(HBV)、丙型肝炎病毒(HCV)、非酒精性脂肪性肝病和某些基因突變等[3-4]。目前HCC的常用治療方法包括手術(shù)切除、射頻消融、肝臟移植、放射栓塞、免疫治療等[5-7],不同分期的腫瘤患者選擇不同的治療方法,但5年復(fù)發(fā)率仍然很高[8-9]。近年來越來越多的研究表明,基因失活和基因突變是導(dǎo)致HCC發(fā)生發(fā)展的重要因素,故準(zhǔn)確找到導(dǎo)致HCC的相關(guān)基因,從基因水平上研究HCC已成為研究熱點(diǎn)之一。
近年來利用生物信息學(xué)和基因芯片技術(shù)研究因基因失活或基因突變所致腫瘤的發(fā)生、發(fā)展已成為發(fā)展趨勢(shì)[10]?;蛐酒哂袛?shù)據(jù)全面,樣本量大等優(yōu)點(diǎn),在生物學(xué)及醫(yī)學(xué)領(lǐng)域占據(jù)重要位置。但這些數(shù)據(jù)信息混雜、缺乏足夠?qū)嶒?yàn)基礎(chǔ),其準(zhǔn)確性需要進(jìn)一步驗(yàn)證。因此如何挖掘出準(zhǔn)確可靠的基因信息逐漸成為生物信息學(xué)研究熱點(diǎn)。本研究通過生物信息學(xué)的方法對(duì)HCC和癌旁組織的基因芯片中的差異基因進(jìn)行分析并進(jìn)行臨床樣本表達(dá)驗(yàn)證,篩選出與HCC發(fā)生發(fā)展的關(guān)鍵基因并進(jìn)行臨床樣本驗(yàn)證,以期為其早期診斷、靶向治療等提供參考依據(jù)。
HCC芯片從NCBI-GEO(https://www.ncbi.nlm.nih.gov/geo)數(shù)據(jù)庫下載,GSE14520,GSE41804,GSE45267分別包含HCC組織225、20、48例,癌旁組織220、20、39例。
通過GEO2R在線工具,定義HCC和癌旁組織,比較出DEGs,再篩選出滿足絕對(duì)值LogFC>2且校正P<0.05的DEGs,將篩選出LogFC>2的基因,定義為上調(diào)DEGs,LogFC<-2的基因,定義為下調(diào)DEGs,通過Venn(http://bioinformatics.psb.ugent.be/webtools/Venn)在線制圖工具篩取出3個(gè)芯片的上調(diào)基因的交集與下調(diào)調(diào)基因的交集。
利用生物學(xué)信息注釋數(shù)據(jù)庫(Database for Annotation,Visualization and Integrated Discovery,DAVID)為DEGs進(jìn)行系統(tǒng)綜合的生物學(xué)功能注釋分析。通過上傳DEGs到DAVID網(wǎng)站(https://david.ncifcrf.gov),進(jìn)行GO(gene ontology,GO)功能分析和KEGG(Kyoto Encyclopedia of Genes and Genomes)通路富集分析,以P<0.05且FDR<0.05為差異有統(tǒng)計(jì)學(xué)意義,選擇分析項(xiàng)目為生物過程(biological process,BP)、分子功能(molecular function,MF)、細(xì)胞成分(cellular component,CC)和信號(hào)通路。
將所獲得的共同表達(dá)DEGs用STRING網(wǎng)站(https://string-db.org)進(jìn)行PPI網(wǎng)絡(luò)圖的構(gòu)建,構(gòu)建后的網(wǎng)絡(luò)圖利用Cytoscape3.7.2軟件及MCODE插件分析,篩選出核心DEGs。
在Kaplan-Meier Plotter網(wǎng)站(http://www.kmplot.com)中,將核心DEGs逐個(gè)進(jìn)行生存分析,選擇總生存率(OS)為指標(biāo),作出每個(gè)基因的生存曲線圖,篩選出生存分析中P<0.05的基因,其可能為與預(yù)后相關(guān)基因。
把Kaplan-Meier Plotter網(wǎng)站中篩選出的與預(yù)后相關(guān)的基因用GEPIA(http://gepia.cancer-pku.cn)在線分析,選擇表達(dá)圖形選擇Box Plots,數(shù)據(jù)來源選擇LIHC,得到其在HCC組織和癌旁組織中的表達(dá)情況,以P<0.05為具有統(tǒng)計(jì)學(xué)意義。
將獲得的與預(yù)后相關(guān)且在HCC中高表達(dá)基因上傳至Metascape網(wǎng)站(http://metascape.org/gp/index.html#/main/step1),種屬選擇homosapiens,得到功能和通路的富集分析結(jié)果,以P<0.05為具有統(tǒng)計(jì)學(xué)意義。
在本研究中心選取HCC組織和癌旁組織各70例用于將石蠟包埋的組織切成5μm的切片。使用標(biāo)準(zhǔn)的免疫過氧化物酶染色程序進(jìn)行免疫組化分析。分析染色強(qiáng)度(陰性:0分,弱陽性:1分,中等陽性:2分,強(qiáng)陽性:3分)和陽性細(xì)胞百分比(<5%:0分,5%~25%:1分,26%~50%:2分,51%~75%:3分,76%~100%:4分),最終計(jì)算公式:強(qiáng)度×百分比,其最終范圍為0~12分。用這種方法對(duì)每一張玻片進(jìn)行打分,以6分為界限,分為低表達(dá)樣本和高表達(dá)樣本。然后使用SPSS分別對(duì)HCC組織和癌旁組織進(jìn)行數(shù)據(jù)統(tǒng)計(jì),再把統(tǒng)計(jì)數(shù)據(jù)導(dǎo)入GraphPad prism 8中繪制統(tǒng)計(jì)圖。
芯片GSE14520,GSE41804,GSE45267分別篩選出差DEGs 252、257、497個(gè),其中上調(diào)的DEGs分別為54、63、116個(gè),下調(diào)的DEGs分別為198、194、381個(gè),3個(gè)芯片的共差異的上調(diào)基因?yàn)?6個(gè)(圖1A),共差異的下調(diào)基因?yàn)?2個(gè)(圖1B),其共同的DEGs具體詳見(表1)。
圖1 三個(gè)芯片DEGs 的Venn 圖(上調(diào)基因LogFc>2,下調(diào)基因LogFc<-2) A:16個(gè)上調(diào)DEGs;B:62個(gè)下調(diào)DEGsFigure1 Venn diagram of DEGs in the three gene microarrays (up-regulated LogFc>2,down-regulated LogFc<-2) A:16 upregulated genes;B:62 down-regulated genes
表1 78個(gè)共同DEGsTable1 The 78 common DEGs
經(jīng)過DAVID網(wǎng)站將差異表達(dá)的78個(gè)基因,進(jìn)行GO功能分析和KEGG通路富集分析。
GO功能分析中(表2),BP共涉及48個(gè)方面,主要集中在:細(xì)胞負(fù)增長的調(diào)控、細(xì)胞對(duì)鋅離子的反應(yīng)、外源性藥物代謝過程、異型生物質(zhì)的代謝過程、氧化還原過程、細(xì)胞對(duì)鎘離子反應(yīng)、P450表氧化酶通路、類固醇代謝過程;MF共有21個(gè)相關(guān)方面,其中主要集中于氧化還原酶活性、鐵離子結(jié)合、氧結(jié)合、血紅素結(jié)合、單加氧酶活性、花生四烯酸環(huán)氧合酶活性、氧化還原酶活性、類固醇羥化酶活性、咖啡因氧化酶活性、芳香酶活性;CC共涉及13個(gè)方面,其中有統(tǒng)計(jì)學(xué)意義的有以下方面:細(xì)胞器膜、細(xì)胞外泌體、細(xì)胞外區(qū)、內(nèi)質(zhì)網(wǎng)膜、細(xì)胞外間隙、胞質(zhì)核周區(qū)、中間體、血液微粒、次膜攻擊復(fù)合物。KEGG通路富集分析(表3)中,共涉及15個(gè)通路,其主要涉及于視黃醇的新陳代謝、礦物質(zhì)吸收、藥物代謝-細(xì)胞色素P450、化學(xué)致癌性、細(xì)胞色素P450對(duì)外源生物的代謝作用、咖啡因代謝、甾體類激素生物合成、亞油酸代謝、代謝途徑、P53信號(hào)通路、藥物代謝-其他酶。
表2 78個(gè)DEGs GO 功能分析Table2 GO function analysis of the 78 DEGs
表3 78個(gè)DEGs 的KEGG 通路富集分Table3 KEGG pathway enrichment analysis of the 78 DEGs
將78個(gè)DEGs基因上傳至STRING網(wǎng)站分析后,有15個(gè)基因未出現(xiàn)在PPI網(wǎng)絡(luò)分析中,剩余共有63個(gè)基因,其中包括上調(diào)基因17個(gè),下調(diào)基因46個(gè),共有蛋白之間相互作用關(guān)系線條156條(圖2A)。通過Cytoscape 3.7.2軟件及MCODE插件分析后,得到兩簇相交點(diǎn)最多的基因簇,分別有9、8個(gè)基因,分別有36、21條線,其分值分別為9、6,將其定義為核心EGs。共獲得22個(gè)核心DEGs(圖2B)。
圖2 共同DEGs 的PPI分析(黃色表示上調(diào)基因,藍(lán)色表示下調(diào)基因) A:63個(gè)DEGs 的PPI 圖;B:22個(gè)核心共同DEGsFigure2 PPI analysis of the common DEGs (yellow color representing up-regulated genes,blue color representing down-regulated genes) A:PPI network of the 63 DEGs;B:The 22 common core DEGs
17個(gè)核心DEGs經(jīng)過Kaplan-Meier Plotter網(wǎng)站生存分析后,共有9個(gè)基因(CDK1、ASPM、CENPF、RRM2、CCNB1、TOP2A、PTTG1、ECT2、CDKN3)的生存分析差異有統(tǒng)計(jì)學(xué)意義(均P<0.05),另8個(gè)基因的生存分析差異無統(tǒng)計(jì)學(xué)意義(均P>0.05)(圖3)。
將上述9個(gè)與預(yù)后相關(guān)的DEGs在GEPIA網(wǎng)站進(jìn)行表達(dá)量分析后,9個(gè)基因均在HCC組織中較癌旁組織高表達(dá)(均P<0.05)(圖4)。
將上述9個(gè)在HCC組織中高表達(dá)的基因上傳至Metascape網(wǎng)站分析,得到功能和通路的富集分析主要集中表現(xiàn)在細(xì)胞有絲分裂的負(fù)調(diào)控、細(xì)胞周期、核染色體隔離和雌配子的產(chǎn)生等方面(圖5)(表4)。
在篩選出來的9個(gè)基因中選取CDK1在HCC組織和癌旁組織中的染色,結(jié)果顯示,CDK1在HCC組織中的評(píng)分為(7.871 8±1.524 9)分,在癌旁組織中的評(píng)分為(3.410 3±1.163 4)分,差異有統(tǒng)計(jì)學(xué)意義(t=14.429,P<0.0001)(圖6)。
圖3 核心DEGs 生存分析圖Figure3 Survival curves of the core DEGs
圖4 9個(gè)DEGs 在組織中表達(dá)盒形圖Figure4 Box plots of expressions of the 9 DEGs
圖5 9個(gè)核心DEGs 功能和通路富集圖Figure5 Function and pathway enrichment plots of the 9 core DEGs
表4 9個(gè)核心DEGs 功能和通路富集分析數(shù)據(jù)Table4 Function and pathway enrichment data of the 9 core DEGs
圖6 免疫組化檢測(cè)CDK1 在HCC 與癌旁組織的表達(dá)Figure6 Immunohistochemical staining for CDK1 expressions in HCC and adjacent tissue
HCC的發(fā)生發(fā)展通常是涉及基因、環(huán)境、飲食等多種因素的共同作用過程,利用生物信息學(xué)技術(shù)準(zhǔn)確篩選出導(dǎo)致HCC發(fā)生發(fā)展的關(guān)鍵基因,這對(duì)于HCC的早期診斷、精準(zhǔn)靶向治療提供了重要依據(jù)。近年來伴隨著生物信息學(xué)的蓬勃發(fā)展,大量基因芯片應(yīng)用于研究疾病的發(fā)生發(fā)展和靶向基因的篩選等方面。例如Cao等[11]利用3個(gè)GEO數(shù)據(jù)庫進(jìn)行生物信息學(xué)分析,確定參與IL-10信號(hào)轉(zhuǎn)導(dǎo)的CXCL8、CXCL1和IL-1β是潰瘍性結(jié)腸炎的前3個(gè)核心基因;Mo等[12]利用生物信息學(xué)分析確定DNAJB4作為潛在的乳腺癌標(biāo)記物;Xue等[13]綜合生物信息學(xué)分析確定了4個(gè)(CDC45、GINS2、MCM2和PCNA)可能與宮頸癌患者預(yù)后相關(guān)的關(guān)鍵基因,可作為宮頸癌潛在的預(yù)后生物標(biāo)志物。本研究基于生物信息學(xué)的分析方法在GEO數(shù)據(jù)庫中篩選出近幾年的、樣本量較大的3份HCC及癌旁組織基因芯片,并在多個(gè)生物信息分析網(wǎng)站中進(jìn)行了系統(tǒng)全面的分析,最終得出CDK1(細(xì)胞周期蛋白依賴性激酶1)、ASPM(紡錘體微管組裝因子)、RRM2(核糖核苷酸還原酶調(diào)節(jié)亞基M2)、TOP2A(DNA拓?fù)洚悩?gòu)酶2A)、CENPF(著絲粒蛋白F)、CCNB1(細(xì)胞周期蛋白B1)、PTTG1(垂體腫瘤轉(zhuǎn)化基因1)、ECT2(上皮細(xì)胞轉(zhuǎn)化序列2)、CDKN3(細(xì)胞周期蛋白依賴性激酶抑制因子3)與HCC發(fā)生、發(fā)展有重要關(guān)系,并最后在本研究中心選取臨床樣本進(jìn)行表達(dá)驗(yàn)證。篩選出的9個(gè)基因主要作用于細(xì)胞有絲分裂的負(fù)調(diào)控、細(xì)胞周期、核染色體隔離和雌配子的產(chǎn)生等方面,從而引起細(xì)胞周期的紊亂、基因的突變,最終導(dǎo)致癌癥的發(fā)生、發(fā)展。
CDK1屬于絲氨酸/蘇氨酸蛋白激酶家族,是調(diào)節(jié)細(xì)胞周期進(jìn)程、DNA復(fù)制和分離、細(xì)胞成熟和增殖所必需的,CDK1的異常激活通過促進(jìn)細(xì)胞增殖在腫瘤發(fā)生中起重要作用。CDK1在多種癌癥中均有表達(dá),在結(jié)直腸癌中,CDK1作為miR-769的直接靶點(diǎn),在癌組織中高表達(dá),miR-769通過直接作用CDK1來抑制腫瘤進(jìn)展[14];CDK1的表達(dá)可被嗜酸乳桿菌CICC 6074 S層蛋白下調(diào),阻止G1細(xì)胞周期,從而發(fā)揮其對(duì)結(jié)腸癌細(xì)胞的細(xì)胞毒活性[15];CDK1可作為PKN蛋白磷酸化的對(duì)應(yīng)激酶,促進(jìn)腫瘤細(xì)胞貼壁依耐性生長和遷移,充當(dāng)原癌基因的作用[16];在骨肉瘤中,Huang等[17]研究證實(shí),CDK1在骨肉瘤組織的細(xì)胞質(zhì)中陽性表達(dá),被確定是miR-199a-3p的潛在靶基因。在甲狀腺癌中,研究者使用組織芯片證實(shí)CDK1蛋白在甲狀腺癌(THCA)組織中的表達(dá)明顯高于在非腫瘤組織中的表達(dá),CDK1基因在THCA組織中共表達(dá)的KEGG分析表明:細(xì)胞周期、甲狀腺激素合成、引起自身免疫性甲狀腺疾病等是CDK1在甲狀腺癌中表達(dá)最豐富的途徑[18]。在乳腺癌中,由于選擇性阻斷CDK1單獨(dú)或與其他治療藥物聯(lián)合使用與有效的抗癌效果有關(guān),因此CDK1可能被認(rèn)為是乳腺癌治療的靶點(diǎn)之一[19]。在腺樣囊性癌和非小細(xì)胞肺癌中的研究表明,CDK1的高表達(dá)與癌癥患者的總體生存率較低相關(guān),因此CDK1可作為診斷和預(yù)后的腫瘤標(biāo)志物或藥物治療靶點(diǎn)之一[20-21];在宮頸癌中,Luo等[22]的研究揭示了CDK1在宮頸癌發(fā)展過程中對(duì)基因相互作用網(wǎng)絡(luò)的綜合作用,從而表明CDK1作為治療靶點(diǎn)的潛在作用。此外,有研究[23]表明,CDK1活躍于多種腫瘤調(diào)節(jié)細(xì)胞粘附的細(xì)胞周期,可作為多種癌癥的臨床預(yù)后生物標(biāo)志物。
在HCC中,CDK1的異常表達(dá)可以調(diào)節(jié)凋亡素誘導(dǎo)的凋亡,在腫瘤進(jìn)展中起著關(guān)鍵作用[24]。CDK1的過度表達(dá)也被發(fā)現(xiàn)與HCC的門脈侵犯、甲胎蛋白水平高和預(yù)后不良直接相關(guān)[25]。最近的一項(xiàng)研究發(fā)現(xiàn)二甲雙胍可以通過誘導(dǎo)G2/M期阻滯來顯著抑制HCC細(xì)胞的增殖,并能有效地降低CDK1的表達(dá)[26],提示CDK1可能參與了HCC細(xì)胞周期中的細(xì)胞增殖過程。另一項(xiàng)研究表明miR-582-5p通過直接抑制CDK1和Akt3的表達(dá),間接抑制cyclin D1的表達(dá)來調(diào)控HCC的進(jìn)展[27],Wang等[28]綜合生物信息學(xué)分析發(fā)現(xiàn),CDK1、CCNB1、CCNB2、MAD2L1和TOP2A等5個(gè)HUB基因可作為預(yù)測(cè)肝癌預(yù)后的生物標(biāo)志物;Sun等[29]應(yīng)用生物信息學(xué)分析篩選發(fā)現(xiàn)CCNB1、CDK1、RRM2和BUB1B在肝癌組織中的過度表達(dá)與肝癌患者的不良生存相關(guān),這些基因可能成為肝癌治療的潛在靶點(diǎn);He等[30]通過生物信息學(xué)發(fā)現(xiàn)CDK1可能通過細(xì)胞周期和p53信號(hào)通路在肝硬化轉(zhuǎn)化為HCC過程中發(fā)揮重要作用。Zou等[31]發(fā)現(xiàn)CDK1、CCNB1和CCNB2是HCC潛在的預(yù)后生物標(biāo)志物,并與HCC免疫細(xì)胞浸潤有關(guān)。
在HCC中,通過3組芯片共369例HCC組 織和160例癌旁組織的基因表達(dá)量分析發(fā)現(xiàn),CDK1在HCC組織中的表達(dá)明顯高于癌旁組織,后期的生存分析曲線顯示CDK1高表達(dá)患者的生存時(shí)間較CDK1低表達(dá)患者明顯減少,但上述實(shí)驗(yàn)數(shù)據(jù)均來源于生物信息學(xué),由于其固有缺陷如平臺(tái)與樣本選擇的不同可產(chǎn)生一定的差異,且數(shù)據(jù)信息混雜、缺乏足夠?qū)嶒?yàn)基礎(chǔ),所以最后在本研究中心選取70例HCC組織和癌旁組織進(jìn)行表達(dá)驗(yàn)證,結(jié)果為CDK1在HCC組織中的評(píng)分為(7.871 8±1.524 87)分,在癌旁組織中的評(píng)分為(3.410 3±1.163 43)分,兩組進(jìn)行比較,差異具有統(tǒng)計(jì)學(xué)意義(t=14.429,P<0.0001),與預(yù)期結(jié)果相符。
綜上所述,本研究基于生物信息學(xué)分析發(fā)現(xiàn)CDK1、ASPM、RRM2、TOP2A、CENPF、CCNB1、PTTG1、ECT2、CDKN3基因可能是HCC發(fā)生、發(fā)展的重要基因,且涉及細(xì)胞有絲分裂的負(fù)調(diào)控、細(xì)胞周期、核染色體隔離和雌配子的產(chǎn)生等方面,最后,選用CDK1在HCC組織和癌旁組織中進(jìn)行驗(yàn)證,發(fā)現(xiàn)在HCC組織中CDK1的表達(dá)高于癌旁組織,與本研究預(yù)期結(jié)果相符。生物信息學(xué)在發(fā)現(xiàn)新靶點(diǎn)方面具有強(qiáng)大功能,但是需要分子生物學(xué)、細(xì)胞生物學(xué)、臨床實(shí)驗(yàn)及療效方面的研究來驗(yàn)證。這9個(gè)HCC相關(guān)基因均在HCC的發(fā)生、發(fā)展過程中具有巨大的作用,有望成為HCC篩查及治療的新靶點(diǎn),同時(shí)也將為研究HCC的發(fā)生、發(fā)展提供一定的理論基礎(chǔ)。