亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于甲基化位點的篩選建模診斷結(jié)直腸癌

2022-10-13 04:17:04薛春萌高潔李嘉樂李榮佳劉暢梁建偉

系統(tǒng)醫(yī)學(xué) 2022年15期

薛春萌，高潔，李嘉樂，李榮佳，劉暢，梁建偉

1.山東第一醫(yī)科大學(xué)第一附屬醫(yī)院（山東省千佛山醫(yī)院）健康管理學(xué)，山東省健康體檢工程實驗室，山東濟(jì)南 250000；2.山東第一醫(yī)科大學(xué)基礎(chǔ)醫(yī)學(xué)院，山東濟(jì)南 250000；3.山東省泰安市中心醫(yī)院普外科，山東泰安 271000

結(jié)直腸癌（colorectal cancer，CRC）作為消化系統(tǒng)好發(fā)癌癥之一，近年來在全世界范圍內(nèi)發(fā)病率呈顯著上升的趨勢[1]。在我國，CRC的疾病負(fù)擔(dān)也較重，其呈現(xiàn)男性高發(fā)、高齡高發(fā)的總體趨勢[2]。臨床早期CRC患者常無明顯癥狀，易被忽視，發(fā)現(xiàn)時往往已進(jìn)展至中晚期。結(jié)腸鏡下取組織活檢是CRC診斷的金標(biāo)準(zhǔn)。但該操作對患者造成損傷較大，患者配合度低，加之對醫(yī)療人員技術(shù)水平要求較高[3]。而目前已應(yīng)用的CRC診斷的標(biāo)志物在實踐過程中有一定局限性。糖類蛋白腫瘤標(biāo)志物CA19-9缺乏器官特異性，對早期患者的敏感度僅為30%[4-5]。癌胚抗原(carcino-embryonic antigen,CEA)在CRC早期時陽性率較低，不易被檢測出[6-7]。因此，開發(fā)出特異性強靈敏度高、且創(chuàng)傷性小的診斷方式系當(dāng)務(wù)之急。CRC的遺傳分析顯示CRC的發(fā)生源于基因突變和表觀遺傳變化的積累[8]，特定基因甲基化水平的變化與CRC的發(fā)病階段以及患者預(yù)后相關(guān)[9]。甲基化標(biāo)志物可在患者的血液、糞便和手術(shù)標(biāo)本中檢測到[10]，并且穩(wěn)定性強、檢測簡便，在CRC診斷方面具有較大潛力。

由于近年來科研人員已經(jīng)依據(jù)癌癥基因組圖譜數(shù)據(jù)庫(The Cancer Genome Atlas，TCGA)在多種腫瘤中發(fā)現(xiàn)了潛在的臨床標(biāo)志物和治療靶點[11-13]，2020年12月-2021年9月本研究應(yīng)用機(jī)器學(xué)習(xí)（Machine Learning）的方法，利用TCGA數(shù)據(jù)庫中的結(jié)直腸癌27 K甲基化數(shù)據(jù)和臨床信息，運用SPSS分析與CRC不良預(yù)后有關(guān)的因素。應(yīng)用Weka3-9-4建立起基于數(shù)個DNA甲基化位點的診斷模型，并在GEO數(shù)據(jù)庫（Gene Expression Omnibus）中獲取獨立數(shù)據(jù)集（GSE131013）來驗證模型，以期對臨床上CRC的早期診斷和預(yù)測提供幫助。現(xiàn)報道如下。

1 資料與方法

1.1 一般資料

在TCGA網(wǎng)站下載207例結(jié)直腸癌27 K甲基化測序數(shù)據(jù)和相關(guān)臨床資料。27 K甲基化數(shù)據(jù)包括169例結(jié)直腸癌組織（其中有5例資料缺失）和38例癌旁正常組織的CpG島基因位點的甲基化程度值。臨床隨訪數(shù)據(jù)包括169例CRC患者的社會人口學(xué)特征、臨床病理信息和隨訪時間。其中社會人口學(xué)特征包括年齡、性別、種族等信息，臨床病理信息包括腫瘤切除或活檢部位、腫瘤分期。本研究以年齡中位值72歲為閾值，將CRC患者分為高齡組和低齡組，各82例；以甲基化位點（cg24446548）Beta值的中位值0.783為閾值，將CRC患者分為高甲基化組（n=81）和低甲基化組（n=83）。stageⅠ,stageⅡ,stageⅡa,stageⅡb為CRC早中期，stageⅢ,stageⅢa,stageⅢb,stageⅢc,stageⅣ,stageⅣa為CRC晚期。見表1。

1.2 差異甲基化位點的篩選

使用R3.1.0(http：//www.cran.r-project.org/)中edger軟件包篩選差異甲基化位點。差異甲基化位點篩選的設(shè)定條件為：差異倍數(shù)（fold change，F(xiàn)C）＞4或＜0.4，P＜0.05。FC即為兩組樣品間位點甲基化程度的比值，是表示差異倍數(shù)的變量。對篩選出的位點進(jìn)行受試者操作特征（receiver operating characteristic，ROC）分析，使用SPSS軟件繪制受試者操作特征曲線（receiver operator characteristic curve，ROC曲線），計算曲線下面積（area under the curve，AUC），保留曲線下面積較大的12個位點，從而篩選出檢驗效能較大的位點；在篩選出的12個位點中選取檢驗效能最大的位點（cg24446548）和檢驗效能最小的位點（cg05345286）作ROC曲線圖。使用SPSS逐步回歸分析進(jìn)一步篩選，篩選標(biāo)準(zhǔn)是P≤0.05進(jìn)入模型，P≥0.1自動排除。

1.3 方法

結(jié)直腸癌診斷模型的構(gòu)建方法。使用人工神經(jīng)網(wǎng)絡(luò)（artificial neural network，ANN）、邏輯回歸（Logistic回歸）、支持向量機(jī)（support vector machine，SVM）3種方法建立模型。將逐步回歸篩選出來的位點導(dǎo)入Weka系統(tǒng)。為了提高計算效率，增強模型的穩(wěn)定性和準(zhǔn)確度，選用Discretize過濾器離散化的甲基化值，此時甲基化數(shù)據(jù)已被分為較均等的多個子空間[14]，異常數(shù)據(jù)對模型的影響降低。接著使用ANN、Logistic回歸及SVM3種方法分別建立模型，并進(jìn)行10折交叉驗證。10折交叉驗證即將數(shù)據(jù)集隨機(jī)分成10份，依次將其中9份作為訓(xùn)練數(shù)據(jù)，1份作為測試數(shù)據(jù)進(jìn)行試驗；取10次實驗結(jié)果的平均值作為模型的精確度估計，來進(jìn)一步優(yōu)化模型。

1.4 使用獨立數(shù)據(jù)集評估結(jié)直腸癌診斷模型的性能

為進(jìn)一步驗證模型的預(yù)測能力，于GEO數(shù)據(jù)庫中下載GSE131013數(shù)據(jù)集。用數(shù)據(jù)集中的96例腫瘤組織樣本和144例正常組織樣本作為驗證集對ANN模型、Logistic模型、SVM模型分別進(jìn)行測試。利用已建立的混淆矩陣和相關(guān)指標(biāo)，選出診斷性能較優(yōu)的模型。模型的分類預(yù)測效果用平均準(zhǔn)確率、漏診率來評價。平均準(zhǔn)確率較高且漏診率較低的模型診斷性能較好。同時使用特異度、靈敏度、AUC、Kappa值等指標(biāo)來輔助評價模型。較大的AUC代表了較好的預(yù)測性能；Kappa＞0.75，說明兩種診斷方法結(jié)果一致性較好。

1.5 統(tǒng)計方法

采用SPSS統(tǒng)計學(xué)軟件對CRC患者臨床隨訪數(shù)據(jù)進(jìn)行統(tǒng)計分析。首先進(jìn)行Kaplan-Meier（KM）生存分析，采用對數(shù)秩檢驗（Log-Rank法）比較不同組別患者生存率。然后采用多因素Cox回歸模型分析性別、年齡、腫瘤分期和位點甲基化程度對CRC患者預(yù)后的影響。同時，用相關(guān)性分析探究甲基化位點與年齡、腫瘤分期和基因表達(dá)量之間的相關(guān)性。相關(guān)系數(shù)反映其相關(guān)性，＞0表示正相關(guān)，＜0表示負(fù)相關(guān)。相關(guān)系數(shù)的絕對值，0～0.1為沒有相關(guān)性，0.1～0.3為弱相關(guān)，0.3～0.5為中等相關(guān)，0.5～1.0為強相關(guān)。P＜0.05為差異有統(tǒng)計學(xué)意義。

1.6 分析結(jié)果的核實與補充

采用甲基化分析資源工具(shiny methylation analysis resource tool，SMART)分析位點的甲基化程度在結(jié)腸癌組織與癌旁組織之間有無明顯差異以及甲基化程度與基因表達(dá)量之間有無相關(guān)性。

2 結(jié)果

2.1 差異甲基化位點的篩選

采用R語言“edger”軟件包篩選出63個位點，其中l(wèi)ogFC最大的18個位點和logFC最小的18個位點。見圖1。ROC分析篩選出了12個檢驗效能較大的位點（cg00240432、cg05345286、cg06151165、

圖1 差異分析中l(wèi)ogFC最大的18個位點和logFC最小的18個位點

cg08090772、cg13577076、cg14197923、cg15087147、cg17872757、cg18349835、cg22879515、cg24446548

和cg06744574）。見圖2。將篩選出的12個位點納入逐步回歸分析，篩選出6個位點（cg00240432、

圖2 甲基化位點cg24446548和cg05345286的ROC曲線

cg06744574、cg08090772、cg13577076、cg17872757、cg24446548），這6個位點的甲基化程度在結(jié)腸癌組織與癌旁組織之間差異有統(tǒng)計學(xué)意義（P＜0.05）。見圖3。

圖3 結(jié)腸癌的癌旁組織與癌癥組織的6個差異甲基化位點的Beta值分布

2.2 診斷模型的構(gòu)建與評價

基于6個差異甲基化位點建立模型，結(jié)果見表1。SVM模型、ANN模型和Logistic回歸模型的平均準(zhǔn)確率分別為99.5%、99.0%和98.0%。ANN模型(圖4)、Logistic回歸模型和SVM模型的漏診率分別為1.0%、2.0%和0.5%。ANN模型、Logistic回歸模型和SVM模型AUC值分別為0.999、0.994和0.997。獨立數(shù)據(jù)集驗證結(jié)果見表2。ANN模型、Logistic回歸模型、SVM模型的準(zhǔn)確率分別為92.9%、85.8%和91.2%，漏診率分別為7.1%、14.2%和8.8%。

表2 獨立數(shù)據(jù)集評估3種模型性能

圖4 基于6個甲基化位點的神經(jīng)網(wǎng)絡(luò)模型

表1 10折交叉驗證評估3種模型的性能

2.3 影響CRC患者預(yù)后因素的生存分析

Log-Rank檢驗結(jié)果顯示男女兩性別之間的生存分析差異無統(tǒng)計學(xué)意義（P＞0.05）；以72歲（中位數(shù)）為界限數(shù)值分類時，高齡組（≥72歲）和低齡組（＜72歲）生存分析差異無統(tǒng)計學(xué)意義（P＞0.05）。高甲基化組與低甲基化組生存分析比較，CRC早中期與晚期的生存分析比較，差異有統(tǒng)計學(xué)意義（P＜0.05）。將P＜0.20的性別、年齡、腫瘤分期、和甲基化位點(cg24446548)納入Cox多因素分析，性別、年齡和甲基化位點對生存時間的影響無統(tǒng)計學(xué)意義（P＞0.05）；腫瘤分期對生存時間的影響有統(tǒng)計學(xué)意義(HR=4.423，P＜0.05)。見圖5、表3。

表3 KM生存分析中的參數(shù)估計及Log-Rank檢驗結(jié)果

圖5 169例CRC患者臨床隨訪數(shù)據(jù)生存分析

2.4 相關(guān)性分析

相關(guān)性分析結(jié)果顯示，cg17872757與年齡呈現(xiàn)正相關(guān)（r=0.227，P＜0.05）。甲基化水平與腫瘤分期無相關(guān)性（P＞0.05）。為了探究位點甲基化程度與所在基因表達(dá)量的相關(guān)性，采用SMART對篩選出的6個差異甲基化位點進(jìn)行相關(guān)性分析。甲基化程度與基因表達(dá)量具有一定相關(guān)性，其中，cg08090772甲基化程度與ADHFE1基因表達(dá)呈現(xiàn)負(fù)相關(guān)（r=-0.700，P＜0.05）；cg17872757甲基化程度與FLI1基因表達(dá) 呈負(fù) 相關(guān)（r=-0.410，P＜0.05）；cg06744574甲基化程度與BEND5表達(dá)呈負(fù)相關(guān)（r=-0.350，P＜0.05）。

3 討論

DNA甲基化是表觀遺傳學(xué)的重要表現(xiàn)之一，是指在DNA甲基化轉(zhuǎn)移酶作用下，基因組CpG二核苷酸胞嘧啶的5’碳位與甲基基團(tuán)共價結(jié)合[15]。CpG二核苷酸序列通常成串出現(xiàn)在DNA上，稱為CpG島，常出現(xiàn)在真核生物編碼基因的調(diào)控區(qū)。正常狀態(tài)下，啟動子中CpG島處于未甲基化狀態(tài)，CpG序列中出現(xiàn)C甲基化則可能會導(dǎo)致正?；蜣D(zhuǎn)錄被抑制。Hu YH等[15]的研究顯示，ADHFE1在CRC組織中下調(diào)和高甲基化，ADHFE1的下調(diào)與CRC患者的分化差和晚期TNM分期相關(guān)。相關(guān)性分析結(jié)果表明：cg08090772高甲基化與其所在的ADHFE1基因低表達(dá)高度相關(guān)（r=-0.700，P＜0.05）。ADHFE1基因的高甲基化可能會抑制基因的表達(dá)。

DNA甲基化異常已被發(fā)現(xiàn)是腫瘤發(fā)生過程中出現(xiàn)的最早分子事件之一，且在正常細(xì)胞向腫瘤細(xì)胞轉(zhuǎn)化的過程中就能被檢測到[16]。因此，基因異常甲基化的檢測在惡性腫瘤的早期篩查中具有潛在的應(yīng)用價值。本研究利用TCGA數(shù)據(jù)庫中結(jié)直腸癌27 K甲基化數(shù)據(jù)，采用生物信息學(xué)數(shù)據(jù)的處理方法，篩選出了6個具有診斷CRC潛力的位點，其中cg24446548的高甲基化與CRC患者不良生存顯著相關(guān)（P＜0.05）。然后通過機(jī)器學(xué)習(xí)的方法初步建立了基于6個甲基化位點的ANN、Logistic和SVM診斷模型。ANN模型、Logistic回歸模型和SVM模型的漏診率分別為1.0%、2.0%和0.5%，AUC值分別為0.999、0.994和0.997，模型分類能力較好。3種模型均能夠根據(jù)現(xiàn)有數(shù)據(jù)建立起預(yù)測性能良好的模型。其中，ANN和SVM的分類和預(yù)測性能較佳。SVM模型的Kappa系數(shù)為0.984，MAE值為0.005，因而SVM模型診斷CRC的診斷一致性很高。而后通過GEO數(shù)據(jù)庫的獨立數(shù)據(jù)集進(jìn)行驗證，進(jìn)一步比較3種模型的診斷效果，結(jié)果同樣顯示ANN模型與SVM模型的分類和預(yù)測性能較優(yōu)。Log-Rank檢驗結(jié)果表明：高vs低甲基化組和CRC早中期vs晚期的生存分析顯示差異有統(tǒng)計學(xué)意義（P＜0.05）。因此，cg24446548位點的高甲基以及CRC晚期（Ⅲ、Ⅳ期）預(yù)示著患者的不良生存預(yù)后。Cox多因素分析結(jié)果表明，CRC晚期（Ⅲ、Ⅳ期）預(yù)示著CRC患者不良預(yù)后(HR=4.423，P＜0.05)，且晚期（Ⅲ、Ⅳ期）癌癥患者的死亡風(fēng)險為早期（Ⅰ、Ⅱ期）患者死亡風(fēng)險的4.423倍。

本研究的創(chuàng)新之處在于建立了準(zhǔn)確率較高的CRC診斷模型。Hou PZ等[17]分別采用12個指標(biāo)、4個指標(biāo)和7個指標(biāo)建立了3個SVM模型，分類準(zhǔn)確率分別為76.7%、83.3%和90.0%，對CRC的診斷具有較高價值。Zhang B等[18]基于5個血清標(biāo)志物CEA、CA199、CA242、CA125、CA153建立SVM和BP神經(jīng)網(wǎng)絡(luò)模型，準(zhǔn)確率分別為82.5%和75.0%。本研究基于6個甲基化位點建立的SVM模型分類準(zhǔn)確率為91.2%，取得了較好的分類效果，同時具有較低的漏診率。

局限性：本研究篩選的甲基化位點建立的模型可以有效地診斷結(jié)直腸癌。位點所在的基因甲基化程度有待大樣本的實驗驗證或測序檢驗。由于目前測序成本較高，所以對該方法的推廣有一定限制。

綜上所述，流程篩選的6個甲基化位點，具有診斷結(jié)直腸癌的潛能；建立的ANN和SVM模型可以有效區(qū)分腫瘤組和癌旁正常組。cg24446548位點的高甲基化以及腫瘤晚期預(yù)示著不良生存預(yù)后。