曾慧娟 ,田 波 ,袁紅伶 ,何 杰 ,李冠羲 ,茹國(guó)佳 ,許 敏 ,詹 東
(1)昆明醫(yī)科大學(xué)第一附屬醫(yī)院腎臟內(nèi)二科,云南 昆明 650032;2)云南省第一人民醫(yī)院科研科,云南 昆明 650034;3)昆明醫(yī)科大學(xué)基礎(chǔ)醫(yī)學(xué)院,云南 昆明 650500)
慢性腎臟?。╟hronic kidney disease,CKD)早期發(fā)現(xiàn)和診斷較為困難,隨疾病不斷進(jìn)展,最后成為終末期腎臟病而使腎功能衰竭[1]。若能早期識(shí)別、發(fā)現(xiàn)CKD 并準(zhǔn)確診斷,便可及早干預(yù)和治療[2]。全球約5%~7%的人口患有中等程度CKD,其主要病因?yàn)樘悄虿『透哐獕?,尤其發(fā)展中國(guó)家、貧困地區(qū)、少數(shù)民族人群中慢性腎病發(fā)病率更高[3-4]。此外,CKD 患者治療費(fèi)用昂貴,給家庭帶來(lái)沉重經(jīng)濟(jì)壓力、給醫(yī)療保障帶來(lái)沉重社會(huì)負(fù)擔(dān),已成為一個(gè)世界性公共健康問(wèn)題[5]。然而,CKD 的診斷基于回顧性數(shù)據(jù),起病隱匿、癥狀不明顯,難以早期發(fā)現(xiàn),延遲治療和干預(yù)會(huì)增加腎衰竭可能[6]。本研究結(jié)合社區(qū)問(wèn)卷調(diào)查、基本資料、實(shí)驗(yàn)室檢查、PVT1 基因多態(tài)性等多領(lǐng)域交叉,采用4 種機(jī)器學(xué)習(xí)算法構(gòu)建CKD 預(yù)測(cè)模型,輔助醫(yī)生、患者及家人早識(shí)別,為評(píng)估提供參照、為診斷提供參考。
隨機(jī)抽樣4 個(gè)昆明市區(qū)域中的1 個(gè)社區(qū)衛(wèi)生服務(wù)中心建檔居民。于2019 年11 月至2023 年11 間招募CKD 患者256 例和健康志愿者1 577 例。CKD 納入標(biāo)準(zhǔn):(1)CKD 診斷符合《慢性腎臟病早期篩查、診斷及防治指南》[7];(2)患有血尿、蛋白尿、水腫、高血壓或腎功能異常等臨床表現(xiàn)伴有腎小球?yàn)V過(guò)率或腎組織學(xué)異常、腎臟影像學(xué)異常,病程持續(xù)3 個(gè)月以上;(3)年滿18周歲及以上居民;(4)診斷明確的2 型糖尿病患者,且至少6 個(gè)月以上或已建立慢性病健康管理檔案;(5)診斷明確的高血壓病患者,且至少6 個(gè)月以上或已建立慢性病健康管理檔案。排除標(biāo)準(zhǔn):(1)患有其他系統(tǒng)疾病或臟器功能異常者;(2)患有惡性腫瘤者;(3)精神疾病患者;(4)妊娠及哺乳期女性患者。本研究獲得昆明醫(yī)科大學(xué)第一附屬醫(yī)院醫(yī)學(xué)倫理委員會(huì)批準(zhǔn)[(2022)倫審L 第264 號(hào)],研究人員嚴(yán)格遵照《赫爾辛基宣言》實(shí)施。
(1)問(wèn)卷調(diào)查:內(nèi)容包括一般人口學(xué)資料,13 條目患者積極度量表測(cè)量(PAM13)[8],居民個(gè)人生活習(xí)慣調(diào)查(飲食、睡眠、煙酒攝入等)。調(diào)查員培訓(xùn)后上崗,調(diào)查員與患者一對(duì)一完成問(wèn)卷。(2)體格檢查:調(diào)查員行身高、體重、腰圍、臀圍等測(cè)量。(3)實(shí)驗(yàn)室檢查:收集志愿者尿液行尿常規(guī)、腎功能、隨機(jī)尿微量白蛋白測(cè)定等檢查;抽取外周血提取DNA 進(jìn)行人漿細(xì)胞瘤變異易位基因(PVT1)基因進(jìn)行單核苷酸多態(tài)位點(diǎn)(rs1499368、rs1121947/rs2608030、rs11993333、rs2720659 和rs2720660)檢測(cè)。(4)構(gòu)建預(yù)測(cè)模型:采用Logistic 回歸對(duì)變量進(jìn)行篩選。變量被隨機(jī)分為訓(xùn)練集和測(cè)試集,分別占全體數(shù)據(jù)2/3 和1/3,用于建立預(yù)測(cè)模型和評(píng)價(jià)預(yù)測(cè)模型。歸一化處理,二分類變量取值0 或1,計(jì)量資料變量值取值范圍為0~1 之間。分類變量因素不存在賦值0,存在賦值1。使用R 軟件工具包(e1071,caret,nnet 和Neural NetTools)構(gòu)建基于支持向量機(jī)(SVM)、隨機(jī)森林(RF)、樸素貝葉斯(N B)和人工神經(jīng)網(wǎng)絡(luò)(ANN)算法的CKD 預(yù)測(cè)模型。依據(jù)構(gòu)建的CKD預(yù)測(cè)模型計(jì)算結(jié)果對(duì)檢測(cè)集數(shù)據(jù)進(jìn)行對(duì)比分析,評(píng)價(jià)指標(biāo)包括靈敏度、特異度、準(zhǔn)確率、原錯(cuò)率、Kappa 系數(shù)、陽(yáng)性預(yù)測(cè)值、陰性預(yù)測(cè)值等。Kappa 系數(shù)用于評(píng)價(jià)模型預(yù)測(cè)值和真實(shí)值間的一致性。若Kappa 系數(shù)≤0.2 則認(rèn)為一致性極低;若0.2
采用R 軟件(版本4.1.3)處理數(shù)據(jù)。符合正態(tài)分布且方差齊的計(jì)量資料,行Student’s T 檢驗(yàn);不符合正態(tài)分布或方差不齊的計(jì)量資料則采用Wilcox 檢驗(yàn)。計(jì)數(shù)資料比較用卡方檢驗(yàn)。檢驗(yàn)水準(zhǔn)設(shè)置為α=0.05,且雙尾設(shè)置。P<0.05 認(rèn)為差異具有統(tǒng)計(jì)學(xué)意義。
對(duì)照組共有1267 人納入研究,平均年齡(65.90±9.01)歲;疾病組患單純高血壓344 例,患單純糖尿病96 例,同時(shí)患高血壓和糖尿病者126 例,平均年齡(65.67±9.77)歲,2 組間差異無(wú)統(tǒng)計(jì)學(xué)意義(P=0.314)。對(duì)照組和疾病組男女比例分別為45.30%、54.70%和41.67%、58.33%,差異無(wú)統(tǒng)計(jì)學(xué)意義(P=0.699)。疾病組患CKD 率為30.41%顯著高于對(duì)照組7.58%,差異具有統(tǒng)計(jì)學(xué)意義(P<0.000 1),見(jiàn)表1。對(duì)比訓(xùn)練集(n=1 222)和測(cè)試集(n=611),各項(xiàng)指標(biāo)差異均無(wú)統(tǒng)計(jì)學(xué)意義,P>0.05。
表1 研究對(duì)象分組數(shù)據(jù)分析[n(%)]Tab.1 Base line data analysis between control group and disease group[n(%)]
采用Logisitc 回歸分析發(fā)現(xiàn)13 項(xiàng)指標(biāo)對(duì)判定非CKD 和CKD 具有統(tǒng)計(jì)學(xué)意義,分別是年齡(P=0.699)、疾病類型(高血壓、糖尿病、高血壓合并糖尿?。≒<0.000 1)、民族(P=0.040)、血尿素氮(P=0.032)、血肌酐(P=0.015)、MDRD 公式計(jì)算eGFR≤60 mL/(min·1.73 m2)(P=0.007)、ACR≥30 mg/g(P<0.000 1)、EPI2009 肌酐方程公式計(jì)算eGFR≤60 mL/(min·1.73 m2)(P=0.017)、PAM13 量表分?jǐn)?shù)(P=0.001)、睡眠質(zhì)量調(diào)查表(P=0.016)、熬夜情況(P=0.012)、PVT1 基因SNP 位點(diǎn)rs11993333(P=0.026)和rs2720659(P=0.012),見(jiàn)圖2。
圖2 Logisitc 回歸分析熱圖Fig.2 Heatmap of Logistic regression
13 項(xiàng)指標(biāo)納入機(jī)械學(xué)習(xí)算法,用于構(gòu)建模型。PVT1 基因SNP 位點(diǎn)rs11993333 非優(yōu)勢(shì)基因型TC 和TT,位點(diǎn)rs2720659 非優(yōu)勢(shì)基因型AG 和GG。
SVM 算法建立模型的準(zhǔn)確率為86.25%(95%CI:83.26%~88.88%)小于原錯(cuò)率87.23%,差異無(wú)統(tǒng)計(jì)學(xué)意義(P=0.786 3)。該模型的Kappa值為0.081,該模型預(yù)測(cè)值與真實(shí)值間一致性極低,模型預(yù)測(cè)精度極差。同時(shí),SVM 模型靈敏度為97.75%,而特異度僅為7.69%。陽(yáng)性和陰性預(yù)測(cè)值分別為95.29%和33.33%。SVM 模型中ROC 和PRC 的AUC 分別為0.895 7 和0.713 9 均大于0.70,SVM 模型的真實(shí)度和精確度較高,見(jiàn)圖3A 和圖3B。
圖3 支持向量機(jī)模型ROC 和PRC 的AUCFig.3 AUC of ROC and PRC in Support Vector Machine(SVM)
RF 算法建立模型準(zhǔn)確率為88.54%(95%CI:85.75%~90.96%)小于原錯(cuò)率87.23%,差異無(wú)統(tǒng)計(jì)學(xué)意義(P=0.182 3)。該模型的Kappa 值為0.166 2 <0.2,預(yù)測(cè)值與真實(shí)值間一致性極低,模型預(yù)測(cè)精度極差。同時(shí),RF 模型靈敏度為100%,而特異度僅為10.26%。陽(yáng)性和陰性預(yù)測(cè)值分別為88.29%和100%。RF 模型中,ROC 的AUC 為0.921 0 大于0.90,說(shuō)明模型準(zhǔn)確度較高,見(jiàn)圖4A,但PRC 的AUC 為0.650 2 小于0.7,說(shuō)明模型精確性較差,見(jiàn)圖4B。
圖4 自由森林模型ROC 和PRC 的AUCFig.4 AUC of ROC and PRC in Random Forest(RF)
NB 算法建立模型的準(zhǔn)確率為92.14%(95%CI:89.72%~94.15%)大于原錯(cuò)率87.23%,差異具有統(tǒng)計(jì)學(xué)意義(P<0.000 1)。該模型的Kappa 值為0.603 9,大于0.41 而小于0.60,預(yù)測(cè)值與真實(shí)值間一致性中等,模型預(yù)測(cè)精度尚可。同時(shí),NB模型靈敏度為97.37%,而特異度僅為56.41%。陽(yáng)性和陰性預(yù)測(cè)值分別為93.85%和79.86%。
NB 模型中,ROC 的AUC 為0.936 9 大于0.90,見(jiàn)圖5A,說(shuō)明模型準(zhǔn)確度較高,而且PRC 的AUC 為0.779 3 大于0.7,說(shuō)明模型精確性較也好,見(jiàn)圖5B。
圖5 樸素貝葉斯模型ROC 和PRC 的AUCFig.5 AUC of ROC and PRC in Na?ve Bayes(NB)
ANN 模型輸入層包含15 個(gè)神經(jīng)節(jié)點(diǎn),隱藏層包含11 個(gè)神經(jīng)節(jié)點(diǎn),輸出層為目標(biāo)疾病,包含1 個(gè)神經(jīng)節(jié)點(diǎn),見(jiàn)圖6A。各變量對(duì)建立ANN模型的相對(duì)重要性不同,采用Garson 算法評(píng)價(jià)各變量對(duì)ANN 模型的相對(duì)重要性見(jiàn)圖6B。相對(duì)重要性貢獻(xiàn)最大的是ACR,其次為肌酐creatinine,第三為EPI2009。相對(duì)重要性貢獻(xiàn)最小的為疾病類型。ANN 算法建立模型的準(zhǔn)確率為94.60%(95%CI:92.50%~96.25%)大于原錯(cuò)率87.23%,差異具有統(tǒng)計(jì)學(xué)意義(P<0.000 1)。該模型的Kappa 值為0.729 4,大于0.60,預(yù)測(cè)值與真實(shí)值間一致性較高,模型預(yù)測(cè)精度較高。同時(shí),ANN模型靈敏度為98.69%,而特異度僅為66.67%。陽(yáng)性和陰性預(yù)測(cè)值分別為95.29%和88.14%。ANN模型中,ROC 的AUC 為0.941 8 大于0.90,說(shuō)明模型準(zhǔn)確度較高,見(jiàn)圖6C,而且PRC 的AUC 為0.926 1 大于0.9,說(shuō)明模型精確性較也高,見(jiàn)圖6D。ANN 模型的準(zhǔn)確率、特異性、Kappa 系數(shù)和AUC 均高于SVM 模型、RF 模型和NB 模型,然而ANN 模型靈敏度(98.69%)卻低于RF 靈敏度(100%)。
圖6 人工神經(jīng)網(wǎng)絡(luò)評(píng)價(jià)Fig.6 Evaluation for artificial neuron net(ANN)
SVM、RF、NB 和ANN 是目前較常見(jiàn)的機(jī)器學(xué)習(xí)算法用于CKD 診斷。我國(guó)學(xué)者也采用機(jī)器學(xué)習(xí)建立IgA 腎病的診斷模型,其準(zhǔn)確率及可信度高[9]。國(guó)外學(xué)者采用CKD 患者臨床資料和癥狀建立SVM 模型能夠區(qū)分CKD 患者和非CKD 患者,準(zhǔn)確率達(dá)到99%,明顯好于本研究的SVM 模型準(zhǔn)確率(86.25%)[10]。另1 項(xiàng)研究通過(guò)對(duì)指標(biāo)進(jìn)行等級(jí)排序算法從25 項(xiàng)指標(biāo)中選取了15 項(xiàng)建立SVM模型,可提高模型的準(zhǔn)確率和Kappa 值[11]。通過(guò)篩選算法選取CKD 特征性指標(biāo)建立SVM 模型,使其準(zhǔn)確率提高到98.5%。由此CKD 患者指標(biāo)的選擇、參數(shù)的設(shè)置可影響SVM 模型準(zhǔn)確率[12]。
本研究中選取了這4 種算法對(duì)CKD 患者臨床資料、流行病學(xué)特征和分子基因SNP 等建立模型。結(jié)果發(fā)現(xiàn)建立的ANN 模型準(zhǔn)確率高于其他3 種模型,達(dá)到94.60%;同時(shí)ANN 的Kappa 值大于其他3 種模型,ANN 預(yù)測(cè)值和真實(shí)值間一致性較高,精確度較好。基于前期調(diào)查和實(shí)驗(yàn)數(shù)據(jù),通過(guò)Logistic 回歸分析,發(fā)現(xiàn)13 個(gè)指標(biāo)對(duì)模型建立起主要作用,分別為年齡、疾病類型(高血壓、糖尿病、同時(shí)患高血壓糖尿?。?、民族、血尿素氮urine、血肌酐creatinine、MDRD 公式計(jì)算eGFR≤60 mL/(min·1.73 m2)、ACR≥30 mg/g、EPI2009肌酐方程公式計(jì)算eGFR≤60 mL/(min·1.73 m2)、PAM 量表分?jǐn)?shù)、睡眠質(zhì)量調(diào)查、熬夜情況、PVT1 基 因rs11993333 及rs2720659(P<0.05)。納入指標(biāo)建立SVM、RF、NB 和ANN 模型預(yù)測(cè)社區(qū)衛(wèi)生服務(wù)中心中CKD 患者。結(jié)果顯示,在社區(qū)糖尿病高血壓人群中,需要通過(guò)一些重要的因素早期篩查CKD,這些指標(biāo)主要為:患者血尿素氮及血肌酐檢測(cè),患者eGFR 測(cè)定(主要通過(guò)MDRD 公式計(jì)算及EPI2009 肌酐方程公式),篩查ACR,PAM 量表分?jǐn)?shù)、睡眠質(zhì)量、熬夜情況;如能開(kāi)展基因檢測(cè),可以檢測(cè)PVT1 基因rs119-93333 及rs2720659[13-14]。另一方面,ANN 模 型各項(xiàng)性能優(yōu)于其他3 種模型,ANN 模型的準(zhǔn)確率和精確率較高、分類效果較好;但特異性欠佳,有待完善特征選擇算法,剔除無(wú)關(guān)和冗余特征。建立社區(qū)CKD 診斷ANN 模型,目的是在社區(qū)衛(wèi)生服務(wù)中心為社區(qū)醫(yī)護(hù)提供方便實(shí)用的診斷預(yù)測(cè)模型,讓社區(qū)醫(yī)護(hù)、社區(qū)慢性病患者提高對(duì)CKD的認(rèn)識(shí)及早期預(yù)警,逐步實(shí)現(xiàn)篩查、疾病追蹤、診斷疾病及預(yù)測(cè)疾病預(yù)后的社區(qū)CKD 管理模型[15]。下一步研究團(tuán)隊(duì)期望繼續(xù)開(kāi)發(fā)基于社區(qū)衛(wèi)生服務(wù)中心CKD 早期診斷小程序、APP 等,更方便模型的使用,逐步實(shí)現(xiàn)CKD 診斷模型、風(fēng)險(xiǎn)預(yù)測(cè)模型、預(yù)測(cè)預(yù)后模型及評(píng)估CKD 進(jìn)展的一系列模型,最終實(shí)現(xiàn)早期發(fā)現(xiàn)CKD、延緩CKD 進(jìn)展,讓更多的人群不走進(jìn)尿毒癥、減輕醫(yī)療負(fù)擔(dān)。
昆明醫(yī)科大學(xué)學(xué)報(bào)2024年3期