梅玉潔,賽麥提喀日·阿布都巴日,安恒慶,陶寧,3
1 新疆醫(yī)科大學(xué)公共衛(wèi)生學(xué)院,烏魯木齊 830017;2 新疆醫(yī)科大學(xué)第一附屬醫(yī)院泌尿三科;3 新疆泌尿男生殖系統(tǒng)臨床醫(yī)學(xué)研究中心
前列腺癌(PCa)是男性常見的癌癥之一,在全球男性惡性腫瘤中,發(fā)病率排第二[1]。前列腺特異性抗原(PSA)是PCa 早期診斷標(biāo)志物[2],但是依靠PSA 檢測并不能準(zhǔn)確診斷PCa,并且PSA 也與前列腺其他良性疾病有關(guān),常會造成誤診[3]。為了提高PCa 患者的早期診斷率并改善其預(yù)后,確定新的有效生物標(biāo)志物至關(guān)重要。加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析(WGCNA)在2005 年由ZHANG 等提出,能夠從大數(shù)據(jù)中快速地提取與樣本特征相關(guān)的基因模塊,以供后續(xù)分析,為尋找疾病相關(guān)生物標(biāo)志物提供了很大便利。因此,本研究采用WGCNA 方法篩選與PCa相關(guān)性最高的基因模塊(關(guān)鍵基因模塊)及關(guān)鍵基因,通過對配對的PCa 組織和正常癌旁組織樣本基因表達(dá)分析,進(jìn)一步篩選其中的PCa 關(guān)鍵差異表達(dá)基因及預(yù)后相關(guān)基因,為PCa 患者提供新的研究靶點(diǎn)。
1.1 數(shù)據(jù)及其來源 從GEO數(shù)據(jù)庫(https://www.ncbi. nlm. nih. gov/geo/)中,通過以下條件“Prostate cancer”、“Series”、“Homo sapiens”及“Sample count大于15”搜索PCa相關(guān)數(shù)據(jù)集,從中篩選含配對正常癌旁組織的數(shù)據(jù)集。最后選擇下載了GSE104131 數(shù)據(jù)集的轉(zhuǎn)錄組測序標(biāo)準(zhǔn)化后的FPKM 數(shù)據(jù)及相關(guān)資料。GSE104131 數(shù)據(jù)集是通過平臺GPL16791 Illumina HiSeq 2500(Homo sapiens)測序生成的,包括16 個(gè)患者的PCa 組織樣本及其正常癌旁組織樣本,共32個(gè)樣本,病種來源于美國。
下載GSE69223 數(shù)據(jù)集的原始數(shù)據(jù)和平臺數(shù)據(jù)。GSE69223 數(shù)據(jù)集是通過平臺GPL570[HGU133_Plus_2]Affymetrix Human Genome U133 Plus 2.0 Array 生成,包括15 個(gè)患者的PCa 組織樣本及其正常癌旁組織樣本,共30個(gè)樣本,病種來源于德國。
采用 Rstudio 4. 0 軟件 affy 包處理 GSE69223 數(shù)據(jù)集的原始數(shù)據(jù),獲取探針和樣本的表達(dá)矩陣,并利用平臺數(shù)據(jù)將探針名稱轉(zhuǎn)換為基因名稱,GSE104131 數(shù)據(jù)集的FPKM 數(shù)據(jù)只需提取基因和樣本的表達(dá)矩陣,最后對兩個(gè)表達(dá)矩陣進(jìn)行l(wèi)og2轉(zhuǎn)換,后續(xù)分析將處理過的兩個(gè)表達(dá)矩陣稱為GSE69223數(shù)據(jù)集和GSE104131數(shù)據(jù)集。
1.2 PCa 組織關(guān)鍵基因模塊的篩選及通路富集分析 在Rstudio 4. 0 軟件中,加載WGCNA 包對GSE104131 數(shù)據(jù)集進(jìn)行WGCNA 分析。首先,選擇數(shù)據(jù)集中基因表達(dá)量排名前5 000的基因;然后對數(shù)據(jù)進(jìn)行樣本聚類,并去除差異較大的樣本;其次,通過分析每對基因之間的Pearson相關(guān)性,生成關(guān)系矩陣;最后根據(jù)無標(biāo)度拓?fù)鋽M合指數(shù)(R2)值和平均連接度,確定最佳軟閾值(β),由此構(gòu)建WGCNA[4]。
根據(jù)基因間的高拓?fù)渲丿B度將相似基因合并構(gòu)建為多個(gè)基因模塊,并根據(jù)模塊間的協(xié)同表達(dá)情況對基因模塊進(jìn)行聚類,合并相似度較高的模塊,計(jì)算每個(gè)模塊與PCa 之間的相關(guān)性,最后選擇和PCa 關(guān)聯(lián)度最高的基因模塊作為關(guān)鍵基因模塊。
在 Rstudio 4. 0 軟件中,加載 clusterprofiler 包對關(guān)鍵基因模塊中的基因進(jìn)行KEGG 分析,觀察關(guān)鍵基因模塊的生物信號通路富集情況。
1.3 PCa 組織關(guān)鍵基因的篩選 計(jì)算關(guān)鍵基因模塊中所有基因的基因顯著性(GS)值和模塊身份(MM)值,根據(jù)|MM|>0. 8、|GS|>0. 8,篩選出與關(guān)鍵基因模塊、PCa 均高度相關(guān)的基因作為關(guān)鍵基因[4]。GS 代表基因與疾病的相關(guān)性,MM 代表基因與模塊的相關(guān)性。
1.4 PCa 組織關(guān)鍵差異表達(dá)基因的篩選 在GSE104131、GSE69223 兩個(gè)數(shù)據(jù)集中通過 t 檢驗(yàn)或非參數(shù)檢驗(yàn)比較關(guān)鍵基因在PCa組織與正常癌旁組織中的表達(dá)情況,將差異有統(tǒng)計(jì)學(xué)意義的關(guān)鍵基因作為關(guān)鍵差異表達(dá)基因。
1.5 PCa 組織預(yù)后相關(guān)基因的篩選 GEPIA2 數(shù)據(jù)庫(http://gepia2. cancer-pku. cn/)包括來自TCGA和GTEx 項(xiàng)目的9 736 個(gè)腫瘤和8 587 個(gè)正常樣本RNA測序表達(dá)數(shù)據(jù)[5],本研究在GEPIA2數(shù)據(jù)庫中進(jìn)行Kaplan-Meier 生存分析,根據(jù)關(guān)鍵差異表達(dá)基因表達(dá)量的中位數(shù)將數(shù)據(jù)分為高表達(dá)組和低表達(dá)組,生存指標(biāo)分別選擇總體生存期(OS)和無病生存期(DFS),數(shù)據(jù)選擇“PRAD”癌癥選項(xiàng)(PRAD是數(shù)據(jù)庫中 PCa 的簡稱),共有492 個(gè)PCa 樣本,進(jìn)行生存曲線繪制。選擇兩組生存曲線比較差異有統(tǒng)計(jì)學(xué)意義的關(guān)鍵基因作為PCa組織預(yù)后相關(guān)基因。
1.6 統(tǒng)計(jì)學(xué)方法 采用Rstudio 4.0 和SPSS26.0軟件進(jìn)行統(tǒng)計(jì)分析。計(jì)量資料中,符合正態(tài)分布采用表示,兩組間比較采用 t 檢驗(yàn),否則采用中位數(shù)(M)及四分位數(shù)(P25,P75)表示,兩組間比較采用非參數(shù)檢驗(yàn)。以P<0.05 為差異有統(tǒng)計(jì)學(xué)意義。
2.1 PCa 組織關(guān)鍵基因模塊及調(diào)控的信號通路最終確定了10個(gè)基因模塊并進(jìn)行了顏色編碼,其中灰色模塊是未聚類的基因集(以下分析不關(guān)注該模塊)。根據(jù)基因模塊與PCa 相關(guān)性,棕色、黃色、青色、粉色、綠色、灰色、黑色、紅色、藍(lán)色、紫色模塊與PCa 的r 分別為 0.86、0.52、0.43、0.30、0.25、0.21、-0.041、-0.24、-0.49、-0.66,P 分 別 為 <0.01、0.006、0.02、0.1、0.2、0.3、0.8、0.2、0.01、<0.01。棕色模塊與PCa 組織的相關(guān)性最高(r=0.86,P<0.01),最終確定棕色模塊為本研究的關(guān)鍵基因模塊,其中包含789個(gè)基因。
關(guān)鍵基因模塊內(nèi)的基因主要富集于內(nèi)質(zhì)網(wǎng)中的蛋白質(zhì)加工通路。
2.2 PCa 組織關(guān)鍵基因 關(guān)鍵基因模塊中,|MM|>0.8、|GS|>0. 8 的基因有 14 個(gè),分別是 P4HB、ERGIC1、FOXA1、RP11-498C9.2、HNRNPF、CANT1、SYNGR2、HID1、EIF2AK1、MARCKSL1、NME1、ST14、HPN、RAB3D,將這14 個(gè)基因作為PCa 組織的關(guān)鍵基因。
2.3 PCa 組織關(guān)鍵差異表達(dá)基因 GSE104131 數(shù)據(jù)集中,PCa 組織中關(guān)鍵基因 P4HB、ERGIC1、FOXA1、RP11-498C9.2、HNRNPF、CANT1、SYNGR2、HID1、EIF2AK1、MARCKSL1、NME1、ST14、HPN、RAB3D 相 對 表 達(dá) 量 分 別 為 7.01 ± 0.30、5.97 ± 0.36、5.83 ± 0.34、5.68 ± 0.31、4.64 ±0.33、4.60 ± 0.34、4.43 ± 0.25、4.22 ± 0.42、3.79 ± 0.30、4.10 ± 0.52、3.90 ± 0.31、3.88 ±0.43、4.21± 0.71、3.20± 0.31,正常癌旁組織中分別為 5.73 ± 0.37、4.80 ± 0.33、4.67 ± 0.42、4.52 ±0.39、3.88 ± 0.24、3.38 ± 0.38、3.32 ± 0.35、2.99 ± 0.48、2.98 ± 0.24、2.64 ± 0.56、2.77 ±0.37、2.52 ± 0.39、1.54 ± 0.72、2.26 ± 0.41,與正常癌旁組織比較,關(guān)鍵基因在PCa 組織中表達(dá)水平均 升 高(t 分 別 為 9.811、8.788、7.809、8.557、6.839、8.802、9.417、7.021、7.752、7.027、8.554、8.631、9.703、6.681,P均<0.001)。
GSE69223 數(shù)據(jù)集中,PCa 組織中關(guān)鍵基因P4HB、ERGIC1、FOXA1、HNRNPF、CANT1、SYNGR2、HID1、EIF2AK1、MARCKSL1、NME1、ST14、HPN、RAB3D 相 對 表 達(dá) 量 分 別 為 11.12[10.91,11.43]、8.87 ± 0.33、9.68 ± 0.29、8.00[7.80,8.20]、10.08 ± 0.27、7.52 ± 0.29、7.07 ± 0.34、7.95[7.69,8.50]、11.42 ± 0.52、9.88 ± 0.37、7.16±0.24、9.11±0.79、7.69±0.34,正常癌旁組織中分別為 10.11[9.82,10.76]、7.97 ± 0.54、7.89 ± 0.88、7.83[7.54,7.70]、8.87 ± 0.68、6.63 ± 0.39、6.13 ± 0.52、7.77[7.44,7.92]、10.02 ± 0.55、8.90 ± 0.38、6.21 ± 0.42、6.25 ±1.07、6.78±0.45,與正常癌旁組織比較,關(guān)鍵基因在PCa 組織中表達(dá)水平均升高(t/z 分別為3.712、5.532、7.484、2.053、6.378、7.030、5.846、2.717、7.222、7.108、7.654、8.336、6.283,HNRNPF:P=0.04,EIF2AK1:P=0.006,其 余 P 值 均 <0.001)。RP11-498C9.2 在該數(shù)據(jù)集中未出現(xiàn),故未做比較分析。
最終確定14 個(gè)關(guān)鍵基因均為PCa 組織的關(guān)鍵差異表達(dá)基因。
2.4 PCa組織預(yù)后相關(guān)基因 P4HB、ERGIC1 以及RP11-498C9.2 高表達(dá)較低表達(dá)的患者DFS 更長(Log rank P 分別為0.018,0.029,0.024),HNRNPF低表達(dá)患者較高表達(dá)的患者OS 更長(Logrank P=0.03),其余基因兩組患者DFS 或OS 預(yù)后差異無統(tǒng)計(jì)學(xué)意義(P>0.05)。最終確定P4HB、ERGIC1、RP11-498C9.2、HNRNPF 為 PCa 組織預(yù)后相關(guān)基因。
RNA 測序目前是分子生物學(xué)領(lǐng)域最常用的工具,為研究者們提供了極大的便利,這推動(dòng)了對PCa 早期診斷和治療靶點(diǎn)的研究。但是目前,PCa進(jìn)展中的病因和早期事件仍不清楚,并且多種因素可能促成其發(fā)展。本研究對PCa 組織樣本基因進(jìn)行了WGCNA 分析,獲得了與PCa 關(guān)聯(lián)最強(qiáng)的基因模塊,并且通過富集分析顯示內(nèi)質(zhì)網(wǎng)中的蛋白質(zhì)加工通路在該模塊中被顯著富集,與文獻(xiàn)報(bào)道[6]一致。
隨后,我們進(jìn)一步分析發(fā)現(xiàn)了與PCa 患者相關(guān)的14個(gè)關(guān)鍵基因,且與正常癌旁組織相比,均在PCa組織中高表達(dá)。其中,P4HB 是一種自噬相關(guān)基因,自噬對腫瘤既有抑制作用也有促進(jìn)作用,正常情況下,可在腫瘤早期抑制細(xì)胞癌變,但形成腫瘤后,自噬會維持促進(jìn)腫瘤的發(fā)展[7]。有研究[8]報(bào)道,P4HB的敲低顯著抑制了膀胱癌細(xì)胞的侵襲和增殖,P4HB的沉默抑制了體內(nèi)肝細(xì)胞癌發(fā)生[9],我們在PCa 組織中也發(fā)現(xiàn)P4HB 高表達(dá),下調(diào)P4HB 是否會影響PCa 的發(fā)展還有待研究。ERGIC1 是一種循環(huán)膜蛋白,與內(nèi)質(zhì)網(wǎng)密切相關(guān),其表達(dá)異常會導(dǎo)致內(nèi)質(zhì)網(wǎng)功能障礙,進(jìn)而可能對癌細(xì)胞造成影響[10],例如,可能會發(fā)生內(nèi)質(zhì)網(wǎng)應(yīng)激(ERS)障礙,而腫瘤會根據(jù)ERS不同的調(diào)節(jié)作用而發(fā)生抑制或增殖等變化[11]。ERGIC1 對不同腫瘤影響也不同,低表達(dá)可能對胃癌的發(fā)生和進(jìn)展起到促進(jìn)作用[12],但在PCa 中沉默ERGIC1 對腫瘤有抑制作用[13]。RP11-498C9.2 是RP11家族的一位成員,其家族不同成員對惡性腫瘤有不同影響,上調(diào)RP11-468E2.5可抑制結(jié)直腸癌細(xì)胞增殖[14],下調(diào) RP11-295G20.2 可抑制體內(nèi)肝細(xì)胞癌生長[15],敲低 RP11-567G11.1 可減弱腎細(xì)胞癌細(xì)胞的增殖和侵襲能力[16],本研究中RP11-498C9.2在PCa 組織中高表達(dá),具體機(jī)制需做進(jìn)一步分析。HNRNPF 屬于異質(zhì)核核糖核蛋白(hnRNPs)亞家族,在基因表達(dá)和信號轉(zhuǎn)導(dǎo)中起著重要作用,hnRNPs與癌癥相關(guān)[17],HNRNPF也可能與致癌過程有關(guān)[18],有研究[19-20]發(fā)現(xiàn),HNRNPF 在膠質(zhì)瘤、膀胱癌中過表達(dá),敲低HNRNPF 可抑制膠質(zhì)瘤和膀胱癌細(xì)胞的增殖,HNRNPF 與 PCa 也有一定聯(lián)系,在 PCa 中高表達(dá)[21],本研究結(jié)果與其相同。Rab3D,是 Rab3 亞型中的一個(gè),該亞型在乳腺、結(jié)腸、食道、皮膚和腦腫瘤中起致癌作用,上調(diào)Rab3D 會促進(jìn)腫瘤細(xì)胞的增殖[22]。HID1可編碼一種與運(yùn)輸相關(guān)的蛋白質(zhì),有研究發(fā)現(xiàn)HID1 與無功能垂體腺瘤有關(guān)[23],而在乳腺癌,宮頸癌,肺癌,甲狀腺癌和胃腸道癌細(xì)胞系中表達(dá) 喪 失[24]。 EIF2AK1 是 一 種 EIF2S1 激 酶 ,介 導(dǎo)EIF2S1 磷酸化,與子宮內(nèi)膜癌發(fā)生相關(guān)[25]。SYNGR2 是突觸腦蛋白家族成員,可參與區(qū)分良性和惡性甲狀腺腫瘤[26]。已有研究[27-31]發(fā)現(xiàn),F(xiàn)OXA1、CANT1、MARCKSL1、NME1、HPN 以及 ST14 與 PCa的發(fā)病和進(jìn)展有關(guān),參與了不同機(jī)制影響PCa 的發(fā)生發(fā)展,而其余關(guān)鍵差異表達(dá)基因與其他癌癥有一定關(guān)系,但與PCa 的關(guān)系尚不清楚,可進(jìn)行深入探索。
最后,我們篩選出了4 個(gè)與PCa 預(yù)后相關(guān)的基因。其中,P4HB與PCa的DFS相關(guān),其高表達(dá)的患者預(yù)后較好,有研究[32]也發(fā)現(xiàn)P4HB與PCa的DFS顯著相關(guān),高表達(dá)的患者預(yù)后更佳,但在其他癌癥研究中,其高表達(dá)的患者預(yù)后更差[33-34],這可能與自噬的雙向作用相關(guān)。本研究發(fā)現(xiàn),ERGIC1 高表達(dá)的PCa患者預(yù)后更佳,與文獻(xiàn)[11]報(bào)道一致。在本研究中,RP11-498C9.2 低表達(dá) PCa 患者的DFS 預(yù)后較差,RP11-468e2.5、RP11-783K16.13、RP11-631N16.4、RP11-1109F11.5、RP11-228B15.4、RP11-496I9.1 及RP11-95O2.5 高表達(dá)的組織 DFS 延長[35],目前還沒有RP11-498C9.2 與PCa 間關(guān)系的研究報(bào)道。HNRNPF及其家族hnRNPs在不同癌癥中預(yù)后不同,大多數(shù)hnRNPs 與腎上腺皮質(zhì)癌、肝細(xì)胞癌和肺腺癌的較差生存率相關(guān),與腎透明細(xì)胞癌和胸腺瘤的預(yù)后更好也有關(guān)[19],而在本研究中,HNRNPF高表達(dá)PCa患者OS更短。
總之,本研究通過公共數(shù)據(jù)庫發(fā)現(xiàn)了14 個(gè)PCa的關(guān)鍵差異表達(dá)基因,其中P4HB、ERGIC1、RP11-498C9.2 及 HNRNPF 與 PCa 預(yù)后相關(guān),為 PCa 的研究提供了新的方向,也有助于確定潛在的新藥靶點(diǎn)。