薛春萌,高潔,李嘉樂,李榮佳,劉暢,梁建偉
1.山東第一醫(yī)科大學(xué)第一附屬醫(yī)院(山東省千佛山醫(yī)院)健康管理學(xué),山東省健康體檢工程實驗室,山東濟(jì)南 250000;2.山東第一醫(yī)科大學(xué)基礎(chǔ)醫(yī)學(xué)院,山東濟(jì)南 250000;3.山東省泰安市中心醫(yī)院普外科,山東泰安 271000
結(jié)直腸癌(colorectal cancer,CRC)作為消化系統(tǒng)好發(fā)癌癥之一,近年來在全世界范圍內(nèi)發(fā)病率呈顯著上升的趨勢[1]。在我國,CRC的疾病負(fù)擔(dān)也較重,其呈現(xiàn)男性高發(fā)、高齡高發(fā)的總體趨勢[2]。臨床早期CRC患者常無明顯癥狀,易被忽視,發(fā)現(xiàn)時往往已進(jìn)展至中晚期。結(jié)腸鏡下取組織活檢是CRC診斷的金標(biāo)準(zhǔn)。但該操作對患者造成損傷較大,患者配合度低,加之對醫(yī)療人員技術(shù)水平要求較高[3]。而目前已應(yīng)用的CRC診斷的標(biāo)志物在實踐過程中有一定局限性。糖類蛋白腫瘤標(biāo)志物CA19-9缺乏器官特異性,對早期患者的敏感度僅為30%[4-5]。癌胚抗原(carcino-embryonic antigen,CEA)在CRC早期時陽性率較低,不易被檢測出[6-7]。因此,開發(fā)出特異性強靈敏度高、且創(chuàng)傷性小的診斷方式系當(dāng)務(wù)之急。CRC的遺傳分析顯示CRC的發(fā)生源于基因突變和表觀遺傳變化的積累[8],特定基因甲基化水平的變化與CRC的發(fā)病階段以及患者預(yù)后相關(guān)[9]。甲基化標(biāo)志物可在患者的血液、糞便和手術(shù)標(biāo)本中檢測到[10],并且穩(wěn)定性強、檢測簡便,在CRC診斷方面具有較大潛力。
由于近年來科研人員已經(jīng)依據(jù)癌癥基因組圖譜數(shù)據(jù)庫(The Cancer Genome Atlas,TCGA)在多種腫瘤中發(fā)現(xiàn)了潛在的臨床標(biāo)志物和治療靶點[11-13],2020年12月-2021年9月本研究應(yīng)用機(jī)器學(xué)習(xí)(Machine Learning)的方法,利用TCGA數(shù)據(jù)庫中的結(jié)直腸癌27 K甲基化數(shù)據(jù)和臨床信息,運用SPSS分析與CRC不良預(yù)后有關(guān)的因素。應(yīng)用Weka3-9-4建立起基于數(shù)個DNA甲基化位點的診斷模型,并在GEO數(shù)據(jù)庫(Gene Expression Omnibus)中獲取獨立數(shù)據(jù)集(GSE131013)來驗證模型,以期對臨床上CRC的早期診斷和預(yù)測提供幫助。現(xiàn)報道如下。
在TCGA網(wǎng)站下載207例結(jié)直腸癌27 K甲基化測序數(shù)據(jù)和相關(guān)臨床資料。27 K甲基化數(shù)據(jù)包括169例結(jié)直腸癌組織(其中有5例資料缺失)和38例癌旁正常組織的CpG島基因位點的甲基化程度值。臨床隨訪數(shù)據(jù)包括169例CRC患者的社會人口學(xué)特征、臨床病理信息和隨訪時間。其中社會人口學(xué)特征包括年齡、性別、種族等信息,臨床病理信息包括腫瘤切除或活檢部位、腫瘤分期。本研究以年齡中位值72歲為閾值,將CRC患者分為高齡組和低齡組,各82例;以甲基化位點(cg24446548)Beta值的中位值0.783為閾值,將CRC患者分為高甲基化組(n=81)和低甲基化組(n=83)。stageⅠ,stageⅡ,stageⅡa,stageⅡb為CRC早中期,stageⅢ,stageⅢa,stageⅢb,stageⅢc,stageⅣ,stageⅣa為CRC晚期。見表1。
使 用R3.1.0(http://www.cran.r-project.org/)中edger軟件包篩選差異甲基化位點。差異甲基化位點篩選的設(shè)定條件為:差異倍數(shù)(fold change,F(xiàn)C)>4或<0.4,P<0.05。FC即為兩組樣品間位點甲基化程度的比值,是表示差異倍數(shù)的變量。對篩選出的位點進(jìn)行受試者操作特征(receiver operating characteristic,ROC)分析,使用SPSS軟件繪制受試者操作特征曲線(receiver operator characteristic curve,ROC曲線),計算曲線下面積(area under the curve,AUC),保留曲線下面積較大的12個位點,從而篩選出檢驗效能較大的位點;在篩選出的12個位點中選取檢驗效能最大的位點(cg24446548)和檢驗效能最小的位點(cg05345286)作ROC曲線圖。使用SPSS逐步回歸分析進(jìn)一步篩選,篩選標(biāo)準(zhǔn)是P≤0.05進(jìn)入模型,P≥0.1自動排除。
結(jié)直腸癌診斷模型的構(gòu)建方法。使用人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)、邏輯回歸(Logistic回歸)、支持向量機(jī)(support vector machine,SVM)3種方法建立模型。將逐步回歸篩選出來的位點導(dǎo)入Weka系統(tǒng)。為了提高計算效率,增強模型的穩(wěn)定性和準(zhǔn)確度,選用Discretize過濾器離散化的甲基化值,此時甲基化數(shù)據(jù)已被分為較均等的多個子空間[14],異常數(shù)據(jù)對模型的影響降低。接著使用ANN、Logistic回歸及SVM3種方法分別建立模型,并進(jìn)行10折交叉驗證。10折交叉驗證即將數(shù)據(jù)集隨機(jī)分成10份,依次將其中9份作為訓(xùn)練數(shù)據(jù),1份作為測試數(shù)據(jù)進(jìn)行試驗;取10次實驗結(jié)果的平均值作為模型的精確度估計,來進(jìn)一步優(yōu)化模型。
為進(jìn)一步驗證模型的預(yù)測能力,于GEO數(shù)據(jù)庫中下載GSE131013數(shù)據(jù)集。用數(shù)據(jù)集中的96例腫瘤組織樣本和144例正常組織樣本作為驗證集對ANN模型、Logistic模型、SVM模型分別進(jìn)行測試。利用已建立的混淆矩陣和相關(guān)指標(biāo),選出診斷性能較優(yōu)的模型。模型的分類預(yù)測效果用平均準(zhǔn)確率、漏診率來評價。平均準(zhǔn)確率較高且漏診率較低的模型診斷性能較好。同時使用特異度、靈敏度、AUC、Kappa值等指標(biāo)來輔助評價模型。較大的AUC代表了較好的預(yù)測性能;Kappa>0.75,說明兩種診斷方法結(jié)果一致性較好。
采用SPSS統(tǒng)計學(xué)軟件對CRC患者臨床隨訪數(shù)據(jù)進(jìn)行統(tǒng)計分析。首先進(jìn)行Kaplan-Meier(KM)生存分析,采用對數(shù)秩檢驗(Log-Rank法)比較不同組別患者生存率。然后采用多因素Cox回歸模型分析性別、年齡、腫瘤分期和位點甲基化程度對CRC患者預(yù)后的影響。同時,用相關(guān)性分析探究甲基化位點與年齡、腫瘤分期和基因表達(dá)量之間的相關(guān)性。相關(guān)系數(shù)反映其相關(guān)性,>0表示正相關(guān),<0表示負(fù)相關(guān)。相關(guān)系數(shù)的絕對值,0~0.1為沒有相關(guān)性,0.1~0.3為弱相關(guān),0.3~0.5為中等相關(guān),0.5~1.0為強相關(guān)。P<0.05為差異有統(tǒng)計學(xué)意義。
采用甲基化分析資源工具(shiny methylation analysis resource tool,SMART)分析位點的甲基化程度在結(jié)腸癌組織與癌旁組織之間有無明顯差異以及甲基化程度與基因表達(dá)量之間有無相關(guān)性。
采用R語言“edger”軟件包篩選出63個位點,其中l(wèi)ogFC最大的18個位點和logFC最小的18個位點。見圖1。ROC分析篩選出了12個檢驗效能較大 的 位 點(cg00240432、cg05345286、cg06151165、
圖1 差異分析中l(wèi)ogFC最大的18個位點和logFC最小的18個位點
cg08090772、cg13577076、cg14197923、cg15087147、cg17872757、cg18349835、cg22879515、cg24446548
和cg06744574)。見圖2。將篩選出的12個位點納入逐步回歸分析,篩選出6個位點(cg00240432、
圖2 甲基化位點cg24446548和cg05345286的ROC曲 線
cg06744574、cg08090772、cg13577076、cg17872757、cg24446548),這6個位點的甲基化程度在結(jié)腸癌組織與癌旁組織之間差異有統(tǒng)計學(xué)意義(P<0.05)。見圖3。
圖3 結(jié)腸癌的癌旁組織與癌癥組織的6個差異甲基化位點的Beta值分布
基于6個差異甲基化位點建立模型,結(jié)果見表1。SVM模型、ANN模型和Logistic回歸模型的平均準(zhǔn)確率分別為99.5%、99.0%和98.0%。ANN模型(圖4)、Logistic回歸模型和SVM模型的漏診率分別為1.0%、2.0%和0.5%。ANN模型、Logistic回歸模型和SVM模型AUC值分別為0.999、0.994和0.997。獨立數(shù)據(jù)集驗證結(jié)果見表2。ANN模型、Logistic回歸模型、SVM模型的準(zhǔn)確率分別為92.9%、85.8%和91.2%,漏診率分別為7.1%、14.2%和8.8%。
表2 獨立數(shù)據(jù)集評估3種模型性能
圖4 基于6個甲基化位點的神經(jīng)網(wǎng)絡(luò)模型
表1 10折交叉驗證評估3種模型的性能
Log-Rank檢驗結(jié)果顯示男女兩性別之間的生存分析差異無統(tǒng)計學(xué)意義(P>0.05);以72歲(中位數(shù))為界限數(shù)值分類時,高齡組(≥72歲)和低齡組(<72歲)生存分析差異無統(tǒng)計學(xué)意義(P>0.05)。高甲基化組與低甲基化組生存分析比較,CRC早中期與晚期的生存分析比較,差異有統(tǒng)計學(xué)意義(P<0.05)。將P<0.20的性別、年齡、腫瘤分期、和甲基化位點(cg24446548)納入Cox多因素分析,性別、年齡和甲基化位點對生存時間的影響無統(tǒng)計學(xué)意義(P>0.05);腫瘤分期對生存時間的影響有統(tǒng)計學(xué)意義(HR=4.423,P<0.05)。見圖5、表3。
表3 KM生存分析中的參數(shù)估計及Log-Rank檢驗結(jié)果
圖5 169例CRC患者臨床隨訪數(shù)據(jù)生存分析
相關(guān)性分析結(jié)果顯示,cg17872757與年齡呈現(xiàn)正相關(guān)(r=0.227,P<0.05)。甲基化水平與腫瘤分期無相關(guān)性(P>0.05)。為了探究位點甲基化程度與所在基因表達(dá)量的相關(guān)性,采用SMART對篩選出的6個差異甲基化位點進(jìn)行相關(guān)性分析。甲基化程度與基因表達(dá)量具有一定相關(guān)性,其中,cg08090772甲基化程度與ADHFE1基因表達(dá)呈現(xiàn)負(fù)相關(guān)(r=-0.700,P<0.05);cg17872757甲基化程度與FLI1基 因 表 達(dá) 呈負(fù) 相 關(guān)(r=-0.410,P<0.05);cg06744574甲基化程度與BEND5表達(dá)呈負(fù)相關(guān)(r=-0.350,P<0.05)。
DNA甲基化是表觀遺傳學(xué)的重要表現(xiàn)之一,是指在DNA甲基化轉(zhuǎn)移酶作用下,基因組CpG二核苷酸胞嘧啶的5’碳位與甲基基團(tuán)共價結(jié)合[15]。CpG二核苷酸序列通常成串出現(xiàn)在DNA上,稱為CpG島,常出現(xiàn)在真核生物編碼基因的調(diào)控區(qū)。正常狀態(tài)下,啟動子中CpG島處于未甲基化狀態(tài),CpG序列中出現(xiàn)C甲基化則可能會導(dǎo)致正?;蜣D(zhuǎn)錄被抑制。Hu YH等[15]的研究顯示,ADHFE1在CRC組織中下調(diào)和高甲基化,ADHFE1的下調(diào)與CRC患者的分化差和晚期TNM分期相關(guān)。相關(guān)性分析結(jié)果表明:cg08090772高甲基化與其所在的ADHFE1基因低表達(dá)高度相關(guān)(r=-0.700,P<0.05)。ADHFE1基因的高甲基化可能會抑制基因的表達(dá)。
DNA甲基化異常已被發(fā)現(xiàn)是腫瘤發(fā)生過程中出現(xiàn)的最早分子事件之一,且在正常細(xì)胞向腫瘤細(xì)胞轉(zhuǎn)化的過程中就能被檢測到[16]。因此,基因異常甲基化的檢測在惡性腫瘤的早期篩查中具有潛在的應(yīng)用價值。本研究利用TCGA數(shù)據(jù)庫中結(jié)直腸癌27 K甲基化數(shù)據(jù),采用生物信息學(xué)數(shù)據(jù)的處理方法,篩選出了6個具有診斷CRC潛力的位點,其中cg24446548的高甲基化與CRC患者不良生存顯著相關(guān)(P<0.05)。然后通過機(jī)器學(xué)習(xí)的方法初步建立了基于6個甲基化位點的ANN、Logistic和SVM診斷模型。ANN模型、Logistic回歸模型和SVM模型的漏診率分別為1.0%、2.0%和0.5%,AUC值分別為0.999、0.994和0.997,模型分類能力較好。3種模型均能夠根據(jù)現(xiàn)有數(shù)據(jù)建立起預(yù)測性能良好的模型。其中,ANN和SVM的分類和預(yù)測性能較佳。SVM模型的Kappa系數(shù)為0.984,MAE值為0.005,因而SVM模型診斷CRC的診斷一致性很高。而后通過GEO數(shù)據(jù)庫的獨立數(shù)據(jù)集進(jìn)行驗證,進(jìn)一步比較3種模型的診斷效果,結(jié)果同樣顯示ANN模型與SVM模型的分類和預(yù)測性能較優(yōu)。Log-Rank檢驗結(jié)果表明:高vs低甲基化組和CRC早中期vs晚期的生存分析顯示差異有統(tǒng)計學(xué)意義(P<0.05)。因此,cg24446548位點的高甲基以及CRC晚期(Ⅲ、Ⅳ期)預(yù)示著患者的不良生存預(yù)后。Cox多因素分析結(jié)果表明,CRC晚期(Ⅲ、Ⅳ期)預(yù)示著CRC患者不良預(yù)后(HR=4.423,P<0.05),且晚期(Ⅲ、Ⅳ期)癌癥患者的死亡風(fēng)險為早期(Ⅰ、Ⅱ期)患者死亡風(fēng)險的4.423倍。
本研究的創(chuàng)新之處在于建立了準(zhǔn)確率較高的CRC診斷模型。Hou PZ等[17]分別采用12個指標(biāo)、4個指標(biāo)和7個指標(biāo)建立了3個SVM模型,分類準(zhǔn)確率分別為76.7%、83.3%和90.0%,對CRC的診斷具有較高價值。Zhang B等[18]基于5個血清標(biāo)志物CEA、CA199、CA242、CA125、CA153建立SVM和BP神經(jīng)網(wǎng)絡(luò)模型,準(zhǔn)確率分別為82.5%和75.0%。本研究基于6個甲基化位點建立的SVM模型分類準(zhǔn)確率為91.2%,取得了較好的分類效果,同時具有較低的漏診率。
局限性:本研究篩選的甲基化位點建立的模型可以有效地診斷結(jié)直腸癌。位點所在的基因甲基化程度有待大樣本的實驗驗證或測序檢驗。由于目前測序成本較高,所以對該方法的推廣有一定限制。
綜上所述,流程篩選的6個甲基化位點,具有診斷結(jié)直腸癌的潛能;建立的ANN和SVM模型可以有效區(qū)分腫瘤組和癌旁正常組。cg24446548位點的高甲基化以及腫瘤晚期預(yù)示著不良生存預(yù)后。