張漢榮,林聯(lián)拯,趙 力,于忠英,李金雨
(中國人民解放軍聯(lián)勤保障部隊第909醫(yī)院(廈門大學(xué)附屬東南醫(yī)院)泌尿外科,福建 漳州363000)
前列腺癌是一種常見而復(fù)雜的惡性腫瘤,根據(jù)最新的全球癌癥統(tǒng)計數(shù)據(jù),全球每年約有130萬例前列腺癌新發(fā)病例,死亡病例達36萬例,占所有腫瘤新發(fā)病例的15%,是男性第二常見的腫瘤類型和第五大癌癥死亡原因[1-2].目前,前列腺癌的治療方法主要有手術(shù)治療、放療、化療和激素治療[3-4].選擇何種治療手段與腫瘤的分期、分級及危險度等因素密切相關(guān)[5].前列腺癌的預(yù)后模型的構(gòu)建、或利用構(gòu)建的預(yù)測模型指導(dǎo)前列腺癌患者分層治療是前列腺癌的研究熱點之一.目前的預(yù)測模型大多數(shù)是以患者的年齡、腫瘤大小、TNM分期等臨床資料為影響因素,預(yù)測模型的效率和精度上仍存在不足[6-8].隨著高通量基因測序技術(shù)的發(fā)展和成熟,利用癌癥基因組或轉(zhuǎn)錄組數(shù)據(jù)構(gòu)建的癌癥預(yù)后模型顯示出良好的預(yù)測性能[9-10].本研究的目的是,利用公共數(shù)據(jù)庫TCGA中提供的前列腺癌RNA-Seq數(shù)據(jù),篩選潛在的前列腺癌相關(guān)基因,并利用這些候選基因構(gòu)建預(yù)測模型,為臨床前列腺癌的風(fēng)險評估、分層治療提供參考依據(jù).
從the cancer genome atlas(TCGA)數(shù)據(jù)庫(http://www.tcga.org/)下載前列腺癌及對應(yīng)癌旁組織的mRNA表達數(shù)據(jù)與臨床資料.TCGA數(shù)據(jù)庫共收錄前列腺癌癌組織492例,癌旁組織52例.
根據(jù)TCGA下載的數(shù)據(jù),利用R軟件的“edge”包篩選出癌組織與癌旁組織間差異表達的mRNA.篩選標準為:|Log2FC|≥1,Padj≤0.05.利用Volcano Plot包對差異基因數(shù)據(jù)繪制火山圖.利用clusterProfiler包對前列腺癌組織的上調(diào)基因分別進行GO富集和KEGG富集分析,以了解前列腺癌與癌旁組織差異基因的基因功能和信號通路的富集情況.
以上調(diào)最明顯的10個基因為候選基因,分別以上述基因mRNA表達量中值為分界線,將492例前列腺癌患者分為高表達組和低表達組,并做生存分析.比較差異基因?qū)η傲邢侔╊A(yù)后的影響.生存分析采用Log-rank檢驗方法,P<0.05為差異有統(tǒng)計學(xué)意義.
將上述生存分析有統(tǒng)計學(xué)意義的基因納入COX回歸分析,以各基因的表達量為自變量,患者的生存時間為因變量.COX回歸模型計算各患者的風(fēng)險得分(Risk score),最后根據(jù)患者的風(fēng)險得分將492例患者分為高危組和低危組,進一步進行生存分析,比較高危組和低危組的生存差異.ROC曲線用于驗證該風(fēng)險模型的預(yù)測精度.
基因表達差異分析結(jié)果如圖1A所示,共篩選表達上調(diào)基因1978個,下調(diào)基因1644個.其中,上調(diào)最明顯的基因為:PCA3、AMACR、MTND4P12、RNY3P8、DLX1、OR51E2、PCAT14、GOLM1、HPN、GLYATL1.下調(diào)最明顯的基因為:ADAM33、MEG3、GSTM2、GABRE、CYP3A5、CORO6、GOLGA8A、DIO3OS、SLC26A10、HIF3A.
對上調(diào)基因做GO功能富集分析,結(jié)果如圖1B所示,上調(diào)的基因主要與carboxylic acid biosynthetic process,organic acid biosynthetic process及sulfur compound metabolic process等代謝過程有關(guān).KEGG富集分析(圖1C)顯示,上調(diào)基因主要集中在Phagosome、Cell adhesion molecules和Hematopopoietic aureus infection等信號通路.
圖1 差異基因火山圖及GO功能、KEGG通路富集分析結(jié)果
上調(diào)最明顯的10個基因?qū)︻A(yù)后的影響分別如圖2所示,生存分析有顯著差異的基因有6個,分別為PCA3、MTND4P12、RNY3P8、OR51E2、PCAT14、GOLM1.且上述基因的生存分析中,均表現(xiàn)為低表達組的總生存率較高表達組高.因此,考慮上述6個基因可能是前列腺癌發(fā)生、發(fā)展的關(guān)鍵基因.
圖2 10個差異基因?qū)?92例前列腺癌患者預(yù)后的影響
以各基因的表達量為自變量,生存時間為因變量,得到風(fēng)險得分公式為:Risk score=0.5503×(PCA3)+0.6777×(MTND4P12)+0.5605×(RNY3P8)-0.365×(OR51E2)+0.5358×(PCAT14)-0.1972×(GOLM1).計算492例前列腺癌患者的風(fēng)險得分,并以風(fēng)險得分的中值將患者分為高風(fēng)險組與低分險組(圖3A),該模型的ROC曲線(圖3B)曲線下面積為0.801,故認為該模型的預(yù)測精度較好.高、低風(fēng)險組的生存分析結(jié)果如圖3C所示,結(jié)果提示,高風(fēng)險組的總生存時間明顯較低風(fēng)險組低,P<0.0001.從高、低風(fēng)險組的生存曲線可看出,多個基因表達水平構(gòu)建的預(yù)測模型,較單一基因表達水平的生存分析差異更大,提示多基因表達構(gòu)建的預(yù)測模型比單一基因構(gòu)建的模型預(yù)測精度更高.
圖3 COX風(fēng)險回歸模型的構(gòu)建
與其他腫瘤相比,前列腺癌具有更明顯的腫瘤異質(zhì)性,不同個體間的差異大[11].良好的預(yù)后模型可以促進臨床咨詢和指導(dǎo)醫(yī)生制定治療和隨訪計劃.目前臨床上用于評估前列腺癌患者預(yù)后的模型主要有前列腺特異抗原(PAS)水平,Gleason評分腫瘤臨床分期等[12-14].然而,上述用于評估前列腺癌患者危險度的模型的精確度仍不能滿足準確的患者分類和分層的需求.因此,臨床上亟需一種可精確預(yù)測患者危險度的預(yù)測模型,以指導(dǎo)前列腺癌患者的指導(dǎo)治療,實現(xiàn)個體化治療.目前已有大量基因單個基因表達量構(gòu)建的前列腺癌預(yù)后模型,如Mee YK等[15]的研究提示,高表達FOXM1基因與前列腺癌預(yù)后差相關(guān).除FOXM1基因外,近年來,ARHGAP10[16],SNW1[17],NCAPH[18]等基因也有類似報道.但是基于單基因構(gòu)建的預(yù)測模型預(yù)測效能及模型的穩(wěn)定性相對較差.L Schmidt等[19]通過對接受根治性前列腺切除術(shù)的123名男性的前列腺癌組織樣本進行全基因組miRNA表達譜分析,篩選出6個與前列腺癌預(yù)后最相關(guān)的miRNA,并利用其中的4個miRNA的表達量比值構(gòu)建預(yù)測模型.結(jié)果顯示該預(yù)測模型對前列腺癌具有良好的預(yù)測作用.
本研究通過對TCGA數(shù)據(jù)庫收錄的492例前列腺癌組織和52例癌旁組織的全基因組測序結(jié)果分析,篩選出在癌組織中高表達的基因.以上調(diào)最明顯的10個基因為候選基因,分別以各基因的表達水平中值為界,比較高表達組與低表達組間患者預(yù)后的差異.結(jié)果提示,10個候選基因,有6個(PCA3、MTND4P12、RNY3P8、OR51E2、PCAT14、GOLM1)基因的表達量與預(yù)后相關(guān),均表現(xiàn)為高表達提示預(yù)后不良.進一步對聯(lián)合上述6個基因做COX風(fēng)險回歸模型.以上述6個基因的表達量為自變量,患者生存資料為因變量.結(jié)果提示,聯(lián)合6個基因構(gòu)建的風(fēng)險預(yù)測模型具有良好的預(yù)測精度(AUC=0.801).根據(jù)模型可利用各患者上述6個基因的表達量計算該患者的風(fēng)險得分.本研究進一步將492例患者風(fēng)險得分的中值為分界線,比較高、低分險組生存差異.結(jié)果提示,高風(fēng)險組的生存時間明顯較低風(fēng)險組短(P<0.00001).聯(lián)合6個基因構(gòu)建的風(fēng)險模型做的生存分析的P值明顯小于單一基因生存分析的P值,提示,該風(fēng)險模型具有更好的預(yù)測精度.
綜上所述,本研究利用生物信息學(xué)方法,成功構(gòu)建了一個以6基因(PCA3、MTND4P12、RNY3P8、OR51E2、PCAT14、GOLM1)mRNA表達水平為自變量的風(fēng)險模型.該模型顯示出良好的預(yù)測精度.