趙 明,陳思禹,王鈺琦
食管癌(esophageal carcinoma, EC)包括腺癌和鱗狀細胞癌,是世界第八大常見癌癥,也是導致癌癥相關死亡的第六大原因[1,2]。大多數(shù)食管鱗狀細胞癌(esophageal squamous cell carcinoma,ESCC)患者是在病情發(fā)展到晚期才被診斷出來的,患者的生存率很低。雖然有改進的治療方案,但大多數(shù)ESCC患者的預后仍然很差,5年的長期生存率為5%~20%[3]。目前尚缺乏預測ESCC預后的有效生物標志物,但對ESCC發(fā)生發(fā)展的表觀遺傳學和遺傳學機制的進一步了解表明,一種敏感、特異的甲基化生物標志物有助于食管癌患者盡早開展臨床治療,從而改善預后[4]。DNA甲基化是基因沉默的一種機制,在胚胎發(fā)育、轉錄、基因組印記和X染色體失活等許多細胞和發(fā)育過程中發(fā)揮著重要作用[5-7]。據(jù)報道,一些腫瘤抑制基因,如CDKN2A、MGMT、RASSF1A和APC,在癌癥發(fā)展過程中由于啟動子的高甲基化而被沉默,在肺癌(lung cancer, LC)、乳腺癌(breast cancer, BC)和結直腸癌(colorectal cancer, CRC)中都有重要的作用[8-10]。在ESCC中,19%~88%的病例CDKN2A被甲基化[11,12]。DKK-3、RUNX-3和SFRP-1的高甲基化也會增加ESCC復發(fā)的風險[13]。因此,本研究旨在通過TCGA數(shù)據(jù)庫ESCC甲基化數(shù)據(jù)分析出與生存相關的甲基化基因作為ESCC患者預后的生物標志物,尋找潛在的治療靶點,為ESCC的治療提供科學依據(jù)。
1.1 一般資料 在TCGA數(shù)據(jù)庫下載ESCC全基因組甲基化level3數(shù)據(jù)及相應的臨床信息。最終,96例ESCC樣本和3例正常樣本甲基化數(shù)據(jù)被納入研究,ESCC樣本臨床信息主要包括生存信息、年齡、性別和TNM分期等。將所有ESCC樣本隨機分為訓練組和驗證組。
1.2 構建甲基化基因生物標志物 在ESCC樣本和正常樣本中進行差異甲基化基因篩選,認定甲基化值(beta value)>0.1、差異倍數(shù)在2倍以上(|Fold Change|≥2)并且校正后的P值(FDR)≤0.05為差異甲基化基因。通過單因素Cox比例風險回歸分析來篩選出訓練組中與生存相關的差異甲基化基因。一般認為,模型的甲基化基因數(shù)量越少,模型越實用,因此筆者采用隨機生存森林(random survival forest-variable hunting, RSFVH)算法和多因素Cox回歸分析篩選出甲基化基因標志物。進而采用多因素Cox回歸分析建立模型,該模型能夠根據(jù)如下表達評估預后風險:
其中,N為判斷預后的DNA甲基化基因數(shù)量,Meth代表基因DNA甲基化值,Coef為單因素Cox回歸系數(shù)。
1.3 統(tǒng)計學處理 訓練組中,風險分數(shù)平均值作為臨界值將ESCC患者分為高風險組與低風險組,采用Kaplan-Meier法繪制生存曲線來預測總生存率,并使用時序檢驗(log- rank test)來檢驗高、低風險組生存曲線是否存在差異,P值(FDR)≤0.05為存在差異,P值越小差異越顯著。然后使用時間依賴性ROC曲線來評估該預后模型的預測能力。本研究將鑒定的生物標志物與其他臨床參數(shù)共同納入多因素Cox回歸分析來評估其獨立預后價值。在驗證組中使用時間依賴性ROC曲線和Kaplan-Meier生存分析驗證甲基化基因標志物的預測能力。
1.4 DNA甲基化生物標志物基因功能注釋 通過基因功能(gene ontology,GO)注釋來研究所有選擇標志物基因的功能,以進一步了解所選標志物基因的預測能力,設定閾值P<0.05。
2.1 樣本情況 數(shù)據(jù)處理后,將96例ESCC樣本隨機分為驗證組32例,訓練組64例。患者的一般資料見表1。
表1 96例食管鱗狀細胞癌患者一般資料 (n;%)
2.2 鑒定ESCC預后相關甲基化基因 通過差異甲基化基因篩選,共篩選到差異甲基化基因283個。單因素Cox比例風險回歸分析基因甲基化水平與生存時間的關系,鑒定出51個甲基化基因與患者的總生存時間均有顯著的相關性(P< 0.05)。通過隨機生存森林和多因素Cox回歸分析,我們鑒定出4個預后相關甲基化基因并建立了ESCC預后標志物模型,這4個基因分別是RRAGB、SYP、ERCC6L和RNASEH2CP1。
2.3 甲基化基因生物標志物預測能力驗證 每個ESCC患者的風險評分如下:RS=(-0.31×methRRAGB)+(-0.31×methSYP)+(0.30×methERCC6L)+(0.28×methRNASEH2CP1)
每個患者從所選擇的甲基化基因標志物中得到一個風險評分,以中位風險評分作為臨界值,將訓練組患者分為低風險組(n=32)和高風險組(n=32)。Kaplan-Meier生存分析顯示,低風險組患者總生存期明顯長于高風險組(OS: 1.47年vs0.92年, log-rank testP<0.001,圖1A)。在驗證組中得到相似的結果,高風險組患者的總生存期明顯短于低風險組(OS:1.25年vs1.39年,log-rankP=0.03,圖1B)。通常認為,ROC曲線下面積(AUC值)越大,預測模型越好。在訓練組中,4個甲基化基因生物標志物的AUC值為0.984(圖1C),預測能力較高。
并在驗證組中得到驗證(AUC標志物=0.83,圖1D)。
將鑒定的甲基化基因生物標志物和其他臨床特征(性別、年齡、TNM分期等)結合進行多因素Cox回歸分析,結果表明,筆者鑒定的甲基化基因生物標志物是獨立的預后因子(高風險組與低風險組,危險比HR=4.83, 95%CI: 1.74~13.40,P=0,n=64,表2),其他臨床特征無關。同樣的結果也在驗證組中出現(xiàn)(高風險組vs低風險組,HR=1.80,95%CI:0.87~3.70,P=0.03,n=32,表2)。
2.4 甲基化基因生物標志物基因功能注釋 GO功能注釋顯示,預后相關的甲基化生物標志物基因顯著富集在轉錄和轉錄調控、DNA結合、鏈特異性DNA結合等方面。表明這些預后相關基因可能通過調控轉錄和DNA結合等方面來調控ESCC的預后。
圖1 甲基化基因生物標志物預測肺腺癌患者預后
A.訓練組高風險組與低風險組Kaplan-Meier生存曲線;B.驗證組高風險組與低風險組Kaplan-Meier生存曲線;C.訓練組ROC曲線;D.驗證組ROC曲線
表2 訓練組和驗證組4個甲基化基因與ESCC患者生存的單變量和多變量Cox回歸分析
食管癌是消化系統(tǒng)最常見的惡性腫瘤之一,死亡率高,預后差。盡管有放化療或手術治療,食管癌的預后仍然很差,總生存率很低[14]。在ESCC的發(fā)生和發(fā)展過程中,已經發(fā)現(xiàn)了表觀遺傳和遺傳畸變在其中的重要作用。隨著基因分析技術的迅速發(fā)展,我們可以進一步研究ESCC的分子特征,為其預后和治療分子靶點提供有價值的證據(jù)。
近年來,表觀遺傳學與腫瘤發(fā)生的關系研究一直是分子生物學研究的熱點之一。表觀遺傳學是核苷酸序列沒有改變,而是通過DNA甲基化、染色體重構和組蛋白去乙?;l(fā)揮作用。并且,越來越多的證據(jù)表明,異常的DNA甲基化與腫瘤的發(fā)生和發(fā)展有關。例如,Gao等[15]建立了評估肺腺癌患者的預后風險模型,研究了預后較差的關鍵基因異常甲基化位點與預后的關系。此外,F(xiàn)an等[16]利用GEO數(shù)據(jù)庫研究異常甲基化基因作為肝癌的生物標志物[17]。許多研究表明,DNA甲基化與ESCC相關。因此,研究ESCC進展的表觀遺傳學變化及其分子機制對ESCC的預后預測和治療具有重要意義。異常基因甲基化分析的穩(wěn)定性和獨立性使其成為預測預后生物標志物的一種可行方法[18]。文獻[19-21]研究表明,DNA異常甲基化會影響基因參與DNA損傷、細胞周期、Wnt、NF-κB信號通路,這些基因包括P16、DACH1和ZNF382。此外,其他研究表明,甲基化FHIT與早期ESCC預后不良有關[22]。因此,對異常甲基化DNA分子功能富集和預后價值的生物信息學分析可以為臨床醫(yī)師提供參考有前景的工具來預測預后和治療患者。
本研究系統(tǒng)分析了ESCC甲基化數(shù)據(jù),通過差異甲基化基因鑒定,共鑒定了283個差異甲基化基因,然后通過單因素Cox回歸分析,找到了51個與ESCC生存相關的差異甲基化基因。筆者采用隨機生存森林算法來提取預后相關的甲基化基因并縮小基因數(shù)。隨機生存森林算法是基于決策樹集合的多數(shù)投票預測,利用最大子樹進行有效的變量選擇。利用基因重要性準則對原始基因集進行迭代過濾,在標志物選擇方面取得了較好的效果,實現(xiàn)了更大的穩(wěn)定性和更準確的預測。最后,確定了一個由4個甲基化基因組成的新型甲基化基因生物標志物。筆者選擇的生物標志物可以在訓練組和驗證組中將ESCC患者分為生存時間顯著不同的高風險組和低風險組,表明其具有強大的預測能力。通過多因素Cox回歸分析,以年齡、TNM分期和性別為協(xié)變量,證實甲基化基因標志物的風險得分與總生存期保持獨立相關,不受其他臨床因素的影響。ROC曲線訓練組中的AUC值是0.984,而驗證組中AUC值是0.83,進一步證明了筆者鑒定的甲基化基因標志物是一個高精度的預后標志物,具有重要的臨床價值。
此外,筆者分析了作為生物標志物的甲基化基因的功能。GO功能注釋主要集中在轉錄、轉錄調控、DNA結合和鏈特異性DNA結合等功能。RRAGB可作為各種信號轉導通路的分子開關,尤其是調控mTOR信號通路起著關鍵作用,而mTOR的激活促進腫瘤生長和轉移[23]。SYP可作為神經內分泌前列腺癌的生物標志物[24]。下調MDA-MB-231細胞中ERCC6L的表達水平,可顯著抑制乳腺癌細胞增殖,擾亂細胞周期分布,誘導細胞凋亡。這些發(fā)現(xiàn)提示ERCC6L作為癌基因在乳腺癌中表達較高,參與乳腺癌的發(fā)生發(fā)展,可能成為治療乳腺癌的一個新的分子靶點[25]。RNASEH2CP1的報道較少,可能是食管癌中一個新的甲基化標志物,需要我們繼續(xù)進行研究。
綜上所述,筆者已經識別并成功驗證了ESCC患者的甲基化基因生物標志物,并且這個甲基化標志物具有很高的預后預測準確率,表明該標志物可能具有較好的臨床意義。