王麗萍,田振波,唐旭清
(江南大學(xué)理學(xué)院,無錫 214122)
肝癌是臨床上一種常見的消化道惡性腫瘤,具有較高的發(fā)病率和死亡率,在惡性腫瘤中分別處于第6 位和第3 位[1?2]。肝癌的發(fā)生和發(fā)展是多個(gè)分子(基因或蛋白質(zhì))協(xié)同作用的結(jié)果[3],是一個(gè)復(fù)雜的生物過程,一般可以分為4 個(gè)階段:早期亞臨床期、亞臨床期、中期和晚期。早期患者沒有明顯的癥狀,隨著病情的逐漸加重,會(huì)出現(xiàn)肝區(qū)疼痛、消瘦、乏力等癥狀,中晚期可能會(huì)出現(xiàn)惡液質(zhì),全身多臟器發(fā)生轉(zhuǎn)移。肝癌總的病程大約為兩年半,其中有兩年時(shí)間可能都是出于沒有癥狀的早期階段,所以大部分肝癌患者確診時(shí)已是晚期,從而導(dǎo)致治療效果欠佳[4]。近年來索拉菲尼開辟了一種新的靶向藥物治療方法,但是長(zhǎng)期使用藥物治療容易產(chǎn)生耐藥性[5],所以需要發(fā)現(xiàn)新的靶點(diǎn)、開發(fā)新藥物。高通量基因芯片技術(shù)的快速發(fā)展可以從基因組或轉(zhuǎn)錄組水平探索疾病的發(fā)生、發(fā)展過程,使用GEO(Gene expression omnibus)數(shù)據(jù)庫(kù)提供的大量和疾病相關(guān)的基因表達(dá)譜信息[6],可以尋找疾病關(guān)鍵基因[7]以及研究特異的分子標(biāo)志物。
本文首先對(duì)肝癌組織和癌旁組織的基因表達(dá)譜數(shù)據(jù)做差異表達(dá)分析,篩選差異表達(dá)基因;其次對(duì)差異表達(dá)基因做GO(Gene ontology)功能分析和KEGG(The Kyoto encyclopedia of genes and genomes)通路分析,取同時(shí)顯著富集的基因作為目標(biāo)基因;然后通過網(wǎng)絡(luò)分析尋找目標(biāo)基因的相互作用關(guān)系,尋找高相互作用的關(guān)鍵基因;最后對(duì)關(guān)鍵基因進(jìn)行生存分析驗(yàn)證和文獻(xiàn)驗(yàn)證。
分析數(shù)據(jù)來自國(guó)家生物技術(shù)信息中心(National center for biotechnology information,NCBI)的公共數(shù)據(jù)平臺(tái)GEO 數(shù)據(jù)庫(kù)(https://www.ncbi.nlm.nih.gov/geo/)。根據(jù)以下標(biāo)準(zhǔn)進(jìn)行數(shù)據(jù)篩選:(1)來源于人體組織而非動(dòng)物;(2)具備肝癌組織和正常癌旁組織的基因表達(dá)譜數(shù)據(jù),從而得到GSE60502 和GSE41804 兩組數(shù)據(jù)集。其中GSE41804 數(shù)據(jù)集包含20 個(gè)肝癌患者樣本和20 個(gè)正常樣本,GSE60502數(shù)據(jù)集包含18 個(gè)肝癌患者樣本和18 個(gè)正常樣本。
(1)篩選差異表達(dá)基因
通過R 語言軟件包分別對(duì)兩個(gè)數(shù)據(jù)集的表達(dá)譜數(shù)據(jù)進(jìn)行背景矯正、標(biāo)準(zhǔn)化及表達(dá)值計(jì)算;利用lim?ma 程序包[8]篩選出兩個(gè)數(shù)據(jù)集中的差異表達(dá)基因(Differential expressed genes,DEGs);采用union 包合并兩組數(shù)據(jù)中篩選出的DEGs 作為此次研究分析的對(duì)象。
(2)差異表達(dá)基因的生物功能分析
本文使用在線分析網(wǎng)站David(Functional annotation bioinformatics microarray analysis,https://da?vid.ncifcrf.gov/)對(duì)DEGs 進(jìn)行GO 分析和KEGG 分析,并選取兩者篩選出來的共同基因作為后續(xù)分析的目標(biāo)基因。GO 分析是指使用標(biāo)準(zhǔn)表達(dá)的術(shù)語對(duì)基因和蛋白的功能進(jìn)行生物學(xué)功能描述,包括3 個(gè)部分:生物學(xué)過程(Biology process,BP)、細(xì)胞結(jié)構(gòu)(Cellular components,CC)和分子功能(Molecular function,MF)。KEGG 分析根據(jù)挑選出的差異基因,計(jì)算它們與每個(gè)Pathway 之間的關(guān)系,然后對(duì)每個(gè)DEG 存在的通路返回一個(gè)p?value 和錯(cuò)誤發(fā)現(xiàn)率(False discovery rate,F(xiàn)DR)值,進(jìn)而可以定位每個(gè)DEG 最可能相關(guān)的通路。GO 分析從單個(gè)基因角度分析其可能的功能,KEGG 分析從集團(tuán)的角度分析多個(gè)基因相互作用的功能,將兩者結(jié)合更能展現(xiàn)所選基因的重要性。
(3)基因調(diào)控網(wǎng)絡(luò)及核心基因篩選
肝癌的發(fā)生和發(fā)展涉及多基因、多因子的協(xié)同作用,通過蛋白質(zhì)互作(Protein?protein interaction,PPI)網(wǎng)絡(luò)可以了解疾病分子間的相互作用和調(diào)控關(guān)系來挖掘致病基因[9]。String 數(shù)據(jù)庫(kù)(Search tool for the retrieval of interacting genes)是一個(gè)研究蛋白質(zhì)相互作用模式的在線分析工具,可以構(gòu)建PPI 網(wǎng)絡(luò)并提供相關(guān)通路及功能信息[10]。本文使用String 數(shù)據(jù)庫(kù)對(duì)目標(biāo)基因進(jìn)行網(wǎng)絡(luò)分析,找出基因調(diào)控關(guān)系,通過信息分析學(xué)軟件Cytoscape[11]得到基因調(diào)控網(wǎng)絡(luò)(Gene regulatory network),并使用CytoHubba插件[12]中的最大團(tuán)中心性(Maximal clique centrality,MCC)算法篩選出最大團(tuán)中心度排名前10 的關(guān)鍵基因。
(4)生存分析
生存分析可以檢驗(yàn)所選基因是否具有預(yù)后價(jià)值。本文使用KM?Plotter 數(shù)據(jù)庫(kù)及Oncolnc(http://www.oncolnc.org/)生存分析[13]網(wǎng)站分別對(duì)10 個(gè)關(guān)鍵基因進(jìn)行生存分析,研究它們對(duì)肝癌患者總生存期的預(yù)后價(jià)值。其中KM?Plotter 數(shù)據(jù)庫(kù)中包含364個(gè)肝癌患者信息,Oncolnc 生存分析網(wǎng)站中包含360個(gè)不同的肝癌患者臨床數(shù)據(jù)。
以上4 部分從生物功能和相互作用關(guān)系兩個(gè)角度綜合考慮了分子間的作用機(jī)理,通過生存分析檢驗(yàn)其預(yù)后價(jià)值,為篩選肝癌相關(guān)分子標(biāo)志物及藥物靶點(diǎn)提供了理論基礎(chǔ),具體的方法流程見圖1。
圖1 實(shí)驗(yàn)方法流程圖Fig.1 Flow chart of the experimental method
設(shè)置參數(shù)| log2FC| > 1 且FDR < 0.05 為篩選條件,從GSE41804 和GSE60502 兩個(gè)數(shù)據(jù)集分別得到571 和445 個(gè)差異表達(dá)基因,其中上調(diào)基因分別為373 和280 個(gè),下調(diào)基因分別為198 和165 個(gè)(見圖2,紅色表示上調(diào)基因,綠色表示下調(diào)基因)。取并集得到807 個(gè)DEGs,其中上調(diào)基因496 個(gè),下調(diào)基因311 個(gè)。
圖2 差異基因的火山圖Fig.2 Volcano map of differential genes
對(duì)DEGs 進(jìn)行GO 功能分析,以基因數(shù)量≥15 和FDR<0.01 為篩選條件,得到21 條相關(guān)富集功能,具體結(jié)果如表1 所示,通過R 軟件包對(duì)篩選結(jié)果可視化如圖3 所示。由GO 分析可知:在生物學(xué)過程中,差異表達(dá)基因主要在氧化還原過程、異型生物質(zhì)的代謝過程、類固醇代謝過程、細(xì)胞分裂、內(nèi)肽酶活性的負(fù)調(diào)控、血小板脫粒、有絲分裂核分裂方面顯著富集;在細(xì)胞結(jié)構(gòu)中,差異表達(dá)基因主要在細(xì)胞外的外來體、細(xì)胞外區(qū)域、細(xì)胞外空間、血液微粒、細(xì)胞器膜、中體方面顯著富集;在分子功能中,差異基因主要在氧化還原酶活性、單氧酶活動(dòng)、鐵離子結(jié)合、氧氣結(jié)合、血紅素結(jié)合、氧化還原酶活性、絲氨酸型內(nèi)肽酶抑制劑活性、電子載體活動(dòng)方面顯著富集。整理顯著富集功能上的差異基因共有429 個(gè)。
圖3 肝癌相關(guān)差異基因的GO 功能分析結(jié)果可視化Fig.3 Visualization of GO function analysis results of different genes related to liver cancer
表1 肝癌相關(guān)差異基因的GO 功能分析結(jié)果Table 1 GO function analysis results of different genes related to liver cancer
對(duì)DEGs 進(jìn)行KEGG 通路分析,以基因數(shù)量≥15 和FDR<0.01 為篩選條件,得到11 條相關(guān)通路,結(jié)果如表2 所示,用R 軟件包對(duì)篩選結(jié)果可視化如圖4 所示。由結(jié)果可知,差異表達(dá)基因主要在代謝途徑、補(bǔ)體和凝血級(jí)聯(lián)、視黃醇新陳代謝、化學(xué)致癌作用、色氨酸代謝、PPAR 信號(hào)通路、藥物代謝-細(xì)胞色素P450、脂肪酸降解、抗生素的生物合成、細(xì)胞色素P450 代謝異種生物制劑、類固醇激素生物合成通路上顯著富集。整理顯著富集通路上的差異基因共有169 個(gè)。
表2 肝癌相關(guān)差異基因的KEGG 通路分析結(jié)果Table 2 KEGG pathway analysis results of different genes related to liver cancer
圖4 肝癌相關(guān)差異基因的KEGG 通路分析結(jié)果可視化Fig.4 Visualization of KEGG pathway analysis results of different genes related to liver cancer
為了尋找與肝癌的發(fā)生和發(fā)展相關(guān)的關(guān)鍵基因,對(duì)同時(shí)在GO 功能和KEGG 通路上顯著富集的128 個(gè)目標(biāo)基因進(jìn)行分析。目標(biāo)基因的調(diào)控網(wǎng)絡(luò)見圖5,其中紅色節(jié)點(diǎn)表示上調(diào)的差異基因,綠色節(jié)點(diǎn)表示下調(diào)的差異表達(dá)基因,共有126 個(gè)節(jié)點(diǎn)和678 條相互作用關(guān)系。使用CytoHubba 插件中的MCC 算法計(jì)算網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)的最大團(tuán)中心性,篩選出最大團(tuán)中心度排名前10 的關(guān)鍵基因:CYP3A4、CYP2C9、CYP2B6、CYP1A2、CYP3A5、CYP1A1、CYP2E1、HSD17B6、AOX1、CYP2C8。這10 個(gè)關(guān)鍵基因之間的相互作用網(wǎng)絡(luò)如圖6 所示,其中顏色表示節(jié)點(diǎn)度的變化。
圖5 肝癌相關(guān)差異基因的基因調(diào)控網(wǎng)絡(luò)Fig.5 Gene regulatory network of different genes related to liver cancer
圖6 基因調(diào)控網(wǎng)絡(luò)Fig.6 Gene regulatory network
使用KM?Plotter 數(shù)據(jù)庫(kù)及Oncolnc 生存分析網(wǎng)站分別對(duì)10 個(gè)關(guān)鍵基因進(jìn)行生存分析驗(yàn)證,研究這些關(guān)鍵基因與肝癌患者總生存期的預(yù)后價(jià)值,分析結(jié)果見表3。圖7 和圖8 分別展示了由On?colnc 生存分析網(wǎng)站和KM?Plotter 數(shù)據(jù)庫(kù)進(jìn)行生存分析得到的p值小于0.01 的基因生存曲線分析結(jié)果,可以看到兩者都包含基因:CYP3A4、CYP3A5、CYP2C8 和CYP2C9。 根據(jù)兩組不同肝癌臨床數(shù)據(jù)進(jìn)行生存分析的結(jié)果,有理由認(rèn)為這4 個(gè)基因的高表達(dá)與肝癌的發(fā)生、發(fā)展和預(yù)后有著密切的關(guān)系。
圖7 CYP3A4,CYP3A5,CYP2C8,CYP2C9 基因的Oncolnc 在線生存分析結(jié)果Fig.7 Oncolnc online survival analysis results of CYP3A4, CYP3A5, CYP2C8, CYP2C9 genes
圖8 CYP3A4,CYP3A5,CYP2C8,CYP2C9,CYP2E1,HSD17B6 基因的KM-Plotter 數(shù)據(jù)庫(kù)生存分析結(jié)果Fig.8 KM-Plotter database survival analysis results of CYP3A4, CYP3A5, CYP2C8, CYP2C9, CYP2E1, HSD17B6 genes
表3 10 個(gè)關(guān)鍵基因的兩種生存分析結(jié)果Table 3 Two survival analysis results of ten key genes
肝癌的靶向治療研究進(jìn)展緩慢,尋找新靶點(diǎn)、探索新藥迫在眉睫。為深入了解肝癌發(fā)生、發(fā)展的分子機(jī)制,本文對(duì)GEO 數(shù)據(jù)庫(kù)下載的肝癌組織和癌旁組織的基因表達(dá)譜數(shù)據(jù)進(jìn)行系統(tǒng)分析,包括基因功能分析、通路分析、基因調(diào)控網(wǎng)絡(luò)分析和生存分析,篩選可作為肝癌診斷的關(guān)鍵基因和藥物治療靶點(diǎn)。
使用R 語言軟件對(duì)兩組基因表達(dá)譜數(shù)據(jù)進(jìn)行數(shù)據(jù)處理,取并集獲得差異表達(dá)基因共807 個(gè),其中上調(diào)基因496 個(gè),下調(diào)基因311 個(gè)。通過GO 功能分析發(fā)現(xiàn)差異表達(dá)基因在氧化還原過程、細(xì)胞分裂、細(xì)胞外的外來體、細(xì)胞外區(qū)域、細(xì)胞外空間和氧化還原酶活性等方面顯著富集并得到顯著富集的基因433個(gè);通過KEGG 通路分析發(fā)現(xiàn)差異表達(dá)基因在代謝途徑、補(bǔ)體和凝血級(jí)聯(lián)、視黃醇新陳代謝、化學(xué)致癌作用和抗生素的生物合成等方面顯著富集并得到顯著富集的基因169 個(gè)。對(duì)同時(shí)在GO 功能和KEGG通路上顯著富集的基因取交集得到128 個(gè)差異表達(dá)基因作為目標(biāo)基因(其中上調(diào)基因112 個(gè),下調(diào)基因16 個(gè)),通過基因調(diào)控網(wǎng)絡(luò)分析并結(jié)合MCC 算法計(jì)算網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)的最大團(tuán)中心性篩選出排名前10的關(guān)鍵基因:CYP3A4、CYP2C9、CYP2B6、CYP1A2、CYP3A5、CYP1A1、CYP2E1、HSD17B6、AOX1、CYP2C8。使用KM?Plotter 數(shù)據(jù)庫(kù)及Oncolnc 生存分析網(wǎng)站分別對(duì)10 個(gè)關(guān)鍵基因進(jìn)行生存曲線分析,發(fā)現(xiàn)CYP3A4、CYP3A5、CYP2C9 和CYP2C8 基因的高表達(dá)與肝癌的發(fā)生發(fā)展以及預(yù)后有著密切的關(guān)系,對(duì)于肝癌的研究具有重要意義。
CYP3A4 和CYP3A5 屬于細(xì)胞色素P450 家族的成員。其中CYP3A4 主要分布于肝臟和小腸,是肝臟中最多的肝藥酶(約占肝臟CYP450 酶總量的25%),臨床中約有50% 的藥物經(jīng)由CYP3A4 酶代謝,還參與內(nèi)源性化合物以及環(huán)境污染物的代謝[14]。CYP3A4 基因中已經(jīng)發(fā)現(xiàn)了許多多態(tài)性,這些多態(tài)性影響CYP3A4 的表達(dá)和活性,且與致癌過程有關(guān)[15?16]。同時(shí),CYP3A4 又是一種激活劑,可代謝環(huán)境里的黃曲霉素B1(注:一種有效的肝癌原),以引起p53 基因的突變頻率增加,并誘發(fā)肝癌發(fā)生[17?18]。此外,慢性HBV 感染可降低肝臟CYP3A4 酶蛋白的表達(dá),并導(dǎo)致酶活性下降,但是不影響酶的結(jié)構(gòu)[19]。研究表明,CYP3A4 的過表達(dá)可誘導(dǎo)人肝癌細(xì)胞系Hep3B 的生長(zhǎng),在腫瘤進(jìn)展中起到重要作用,且獨(dú)立于致癌物的激活和抗癌藥物的代謝[20]。Noreauh 等研究顯示,亞砷酸鹽通過降低孕烷X 受體的活性及核受體RXR 的表達(dá),進(jìn)而抑制人肝細(xì)胞CYP3A4 的轉(zhuǎn)錄,最終導(dǎo)致肝臟腫瘤和其他肝病的形成[17,21]。CYP3A5 是人體中最豐富、最重要藥物代謝酶之一,參與到藥物吸收、代謝和消除的整個(gè)過程。它可代謝黃曲毒素B1 成為致突變物——黃曲毒素B1 外8,9 環(huán)氧化物[22],后者是肝癌的主要危險(xiǎn)因子,從而可影響個(gè)體患肝癌的風(fēng)險(xiǎn)[23]。同時(shí),CYP3A5 作為一個(gè)保護(hù)性因子可抑制肝癌細(xì)胞的侵襲和轉(zhuǎn)移[24?25]。通過CYP3A5 基因型來檢測(cè)口服雙環(huán)醇的肝炎患者的治療效果研究中,可以發(fā)現(xiàn)對(duì)CYP3A5*1 和CYP3A5*3 基因型患者均有顯著療效[26?28]。
CYP2C9 和CYP2C8 都是CYP2C 亞家族中的成員。其中CYP2C9 是一種同功酶,主要分布在肝臟組織,且參與人體內(nèi)多種藥物的代謝[29],現(xiàn)有臨床使用的藥物大約16% 通過CYP2C9 代謝[30?31]。具有功能意義的基因突變會(huì)導(dǎo)致CYP2C9 酶活性降低,可使CYP2C9 酶底物藥物療效下降或產(chǎn)生更多不良反應(yīng)[29]。CYP2C8 是CYP2C 家族中最晚發(fā)現(xiàn)的一個(gè)成員,主要分布在肝臟,約占肝CYP 代謝酶總量的7%[32?33]。CYP2C8 參與約5% 的臨床藥物的催化,并且存在著明顯的基因多態(tài)性,對(duì)藥物的代謝和清除有著顯著影響[32,34],且伴隨著肝癌疾病進(jìn)程CYP2C8 活性也會(huì)顯著降低[35]。 目前已經(jīng)知道CYP2C8 的不同基因型對(duì)抗糖尿病藥物[36]、抗腫瘤藥物[37]和非甾體抗炎藥[38]等藥物的代謝有著重要影響。
本文對(duì)肝癌基因表達(dá)譜數(shù)據(jù)進(jìn)行挖掘,從分子功能、生物學(xué)過程、網(wǎng)絡(luò)相互作用的角度分析肝癌發(fā)生、發(fā)展過程中的關(guān)鍵基因,最后通過生存分析和文獻(xiàn)挖掘驗(yàn)證,得出CYP3A4、CYP3A5、CYP2C9 和CYP2C8 基因適合作為肝癌標(biāo)志物或有望成為靶向治療靶點(diǎn),為肝癌發(fā)生的機(jī)制研究、腫瘤標(biāo)志物的篩選及藥物靶點(diǎn)選擇提供參考,為進(jìn)一步開展相關(guān)功能研究提供了理論依據(jù)。