蚌埠醫(yī)學院預防醫(yī)學系(233030)
宋 健 吳學森△ 張 杰 張玉媛 陳 雪
三種統(tǒng)計學模型在糖尿病個體患病風險預測中的應用*
蚌埠醫(yī)學院預防醫(yī)學系(233030)
宋 健 吳學森△張 杰 張玉媛 陳 雪
目的 探討logistic回歸、BP神經網(wǎng)絡和決策樹分析模型在預測個體2型糖尿病患病風險中的應用。方法 分別應用logistic回歸、BP神經網(wǎng)絡與決策樹建立2型糖尿病預測模型,通過受試者工作特征曲線評價模型的預測效能。結果 共550名糖尿病患者和1100名非糖尿病患者納入本次研究。logistic回歸、BP神經網(wǎng)絡和決策樹分析模型的預測一致率分別為80.8%、84.1%和81.1%。3種模型ROC曲線下面積(AUC)分別為0.739、0.777和0.737。BP神經網(wǎng)絡的AUC與logistic模型和決策樹分析模型的均有統(tǒng)計學差異(P<0.05)。結論 BP神經網(wǎng)絡在預測個體患2型糖尿病方面具有更好的預測效能。
2型糖尿病 logistic回歸 BP神經網(wǎng)絡 決策樹分析
2型糖尿病是嚴重危害人類健康的重大公共衛(wèi)生問題,全世界約有超過3.5億人患有2型糖尿病[1]。中國是世界上糖尿病患病人數(shù)最多的國家,患病率高達11.6%[2]。有效地對個體進行糖尿病風險評估,可以篩選出高危人群,并通過一系列的行為和生活方式干預,減少糖尿病及相關并發(fā)癥的發(fā)生。數(shù)據(jù)挖掘技術是近些年來廣泛應用于醫(yī)學領域的一種新的分析方法,在疾病診斷、預后、風險評估等方面具有良好的應用價值[3-5]。數(shù)據(jù)挖掘技術可以充分利用已有數(shù)據(jù)的信息,從具有重復性、多樣性及不規(guī)范性等特點的復雜的醫(yī)學數(shù)據(jù)中提取出有價值的信息,并為臨床決策提供幫助[6-7]。其中,應用最廣泛的有采用誤差反向傳遞(back propagation,BP)學習方法的BP神經網(wǎng)絡和決策樹分析模型。本文采用慢性病社區(qū)調查數(shù)據(jù),探討B(tài)P神經網(wǎng)絡與決策樹分析模型在糖尿病個體風險預測中的應用價值,并與傳統(tǒng)的logistics回歸進行比較,以求尋找到2型糖尿病風險預測的最佳數(shù)學模型。
1.資料來源
本課題組于2015年7月至8月,采用橫斷面調查方法,選擇蚌埠市龍子湖區(qū)共7個社區(qū),以家庭為抽樣單位,共收回有效問卷3077份。調查內容包括兩個方面:問卷調查及體格和實驗室檢查。采用自行設計問卷,由經過培訓的課題組成員對社區(qū)居民進行問卷調查。調查問卷信息主要包括:受訪者的一般個人及家庭信息及生活行為方式;體格檢查指標有身高、體重、腰圍等;實驗室檢查指標主要包括:空腹血糖、血脂和糖化血紅蛋白等。數(shù)據(jù)首先錄入到Epidata軟件中,采用雙錄入方式,并逐一核對。
2.相關變量及定義
(1)體質指數(shù)(body mass index,BMI)=體重(kg)/身高(m)2,正常值:18.5≤BMI<24,<18.5或者>24均視為不正常;(2)高血壓:收縮壓/舒張壓≥140/90mmHg和/或已確診為高血壓者;(3)甘油三酯:正常值0.40~1.81mmol/L,超過此范圍均視為不正常;(4)糖化血紅蛋白:正常值小于等于6.5%,大于6.5%視為不正常;(5)腰臀比:正常值男性小于0.9,女性小于0.8;(6)吸煙:包括既往吸煙和正在吸煙的被調查者;(7)糖尿病:自報患者和新診斷患者,即無自報糖尿病史,但本次測定空腹血糖≥7.0 mmol/L者。
3.統(tǒng)計學分析
使用SPSS隨機數(shù)功能將數(shù)據(jù)集按3:1分為訓練數(shù)據(jù)和預測數(shù)據(jù)。訓練數(shù)據(jù)用于計算參數(shù)和建立模型,預測數(shù)據(jù)用于評估預測效果。
(1)logistic回歸:模型采用最大似然估計前進法,入選變量和剔除變量的標準分別是是P<0.05和P>0.10。
(2)BP神經網(wǎng)絡:采用SPSS 17.0統(tǒng)計軟件中的神經網(wǎng)絡模塊的多層感知器。輸入層變量為研究所納入的10個自變量,輸出層為是否發(fā)生糖尿病,定義隱藏層數(shù)為1。
(3)決策樹分析:選擇卡方自動交互檢測,使用分割樣本進行驗證,無交叉驗證,樹深度最大值為3。
(4)受試者工作特征曲線(receiver operator characteristic curve,ROC 曲線): 比較ROC曲線下面積(area under curve,AUC),最大者表示預測價值最佳。AUC值為0.5時,表明無診斷價值,首先要對AUC與0.5的差異進行統(tǒng)計學檢驗。AUC越接近1,價值越大。不同模型AUC的比較用統(tǒng)計量為Z的非參數(shù)檢驗。所有統(tǒng)計分析均由SPSS 17.0和Medcalc完成,P<0.05被認為差異具有統(tǒng)計學意義。
1.一般情況
共調查社區(qū)居民3077人。糖尿病患者550人,占調查對象的17.8%。按1∶2的原則在與病例生活在相同社區(qū)及工作性質相近的正常人群中選擇對照,即1100名非糖尿病患者納入此次分析中。本研究所選擇對象中,女性居民占57.7%(952人)略多于男性42.3%(698人)。50歲以上人群占多數(shù),為69.0%。文化程度普遍偏低,大專及以上人群僅有158人,占研究對象的9.6%。被調查居民中吸煙人群占29.2%。BMI和腰臀比不正常者占很大比例,分別為58.7%和77.7%。有14%的研究對象有糖尿病家族史。具體信息見表1。
表1 調查對象的一般信息
2.logistic多因素分析
將所研究變量納入分析模型中,共有以下變量具有統(tǒng)計學意義,分別為年齡、BMI、糖化血紅蛋白、性別、家族史、甘油三酯。結果見表2。因此建立預測方程:P=1/(1+e(2.799-0.845×年齡-0.373×BMI-0.885×家族史-2.810×糖化血紅蛋白-0.588×性別-0.679×甘油三酯))。根據(jù)所建方程對預測集數(shù)據(jù)進行預測,其一致率為80.8%,ROC曲線下面積及95%CI為0.739(0.694~0.781)。
表2 糖尿病風險預測logistic多因素分析結果
3.BP神經網(wǎng)絡分析結果
所選自變量敏感度分析結果表明對糖尿病發(fā)生影響較大的前5位因素依此是糖化血紅蛋白(0.448)、年齡(0.102)、甘油三酯(0.094)、高血壓(0.069)和糖尿病家族史(0.059)。預測數(shù)據(jù)集結果顯示,其預測一致率為84.1%,ROC曲線下面積及95%CI為0.777(0.734~0.817)。
4.決策樹分析
樹的第一層為糖化血紅蛋白,說明糖化血紅蛋白與糖尿病關聯(lián)性最強。其余進入變量依次為年齡、甘油三酯、糖尿病家族史和性別。其預測的一致率為81.1%,ROC曲線下面積及95%CI為0.737(0.692~0.779)。
5.ROC曲線面積比較
三種模型的ROC曲線下面積與0.5均有統(tǒng)計學差異(P<0.05)。三種模型的ROC曲線下面積兩兩比較結果見表3,結果顯示BP神經網(wǎng)絡模型預測的ROC曲線下面積與logistic模型(Z=2.847,P=0.0044)和決策樹模型的ROC曲線下面積(Z=3.050,P=0.0023)的差異有統(tǒng)計學意義。而logistic模型和決策樹模型的AUC(Z=0.306,P=0.7594)的差異沒有統(tǒng)計學意義。三種模型的ROC曲線見圖1。
表3 三種模型曲線下面積兩兩比較結果
圖1 三種模型的ROC曲線
1.糖尿病及其風險預測
糖尿病不僅是威脅人類健康的重要疾病,同時也是很多嚴重疾病的致病因素,如冠心病、腫瘤等[8]。通過特定的數(shù)學模型進行個體糖尿病風險預測,為采取預防干預措施提供建議,有助于提高人群的健康水平和生活質量。本研究通過調查問卷所得變量,建立不同模型進行了比較,顯示神經網(wǎng)絡模型在預測上具有良好性能。糖尿病是基因與環(huán)境共同作用的結果,除了本文所列一些變量外,某些生化標志物如炎性因子、脂聯(lián)素、microRNA等也與糖尿病風險有關[9],但檢測這些成分耗時耗費,并不利于風險評估的快速開展。另外,芬蘭等國的糖尿病評分工具,通過一些類似本文的簡易的變量都實現(xiàn)出了較好的評價效果[9-10]。
2.BP神經網(wǎng)絡模型
BP神經網(wǎng)絡在醫(yī)學中有著廣泛的應用。徐學琴通過使用BP神經網(wǎng)絡對全國麻疹的發(fā)病率進行了有價值的預測[11]。國外研究分別通過logistic回歸和神經網(wǎng)絡模型預測腦外傷手術術后院內死亡率,神經網(wǎng)絡模型表現(xiàn)出明顯的優(yōu)勢[12]。BP神經網(wǎng)絡具有很多優(yōu)點,比如具有較強的非線性映射能力,可以合理提取輸入變量和輸出變量之間的規(guī)則,并進行修改、容錯等[4]。但同時BP神經網(wǎng)絡也存在一定缺陷,比如對于樣本量的問題,至今沒有明確的公式。關于隱藏層數(shù)的設定,多數(shù)研究表明,當BP神經網(wǎng)絡隱藏層數(shù)為1時,可以達到較好地反映數(shù)據(jù)規(guī)律、特征及獲得較好預測效能的作用。本文作者在探討B(tài)P神經網(wǎng)絡在肺癌并發(fā)癥預測價值時,比較了不同隱藏層數(shù)的預測效果,結果表明隱藏層數(shù)為1時獲得的ROC曲線下面積最大[13],故本研究中BP神經網(wǎng)絡隱藏層數(shù)設定為1。另外,BP神經網(wǎng)絡無法解釋某個變量的作用方向,而logistic回歸卻能對模型和變量具有很好的解釋性。
3.決策樹模型及其應用
決策樹模型運算時間短,結果以樹狀顯示簡單直觀,結果的分類把握度較準確。但分類屬性增多情況下,會影響預測的效果[14]。決策樹模型同BP神經網(wǎng)絡模型類似,也無法判斷某因素的作用方向。以往多數(shù)研究顯示決策樹模型在預測效能上好于logistic回歸,如決策樹在預測高血壓患者健康素養(yǎng)中優(yōu)于logistic回歸[15]。而本文在糖尿病預測中,兩種模型間效果沒有統(tǒng)計學差異,可能與樹的深度設置、剪接方法有關,需要在以后的研究中進一步探討。
簡潔并快速有效的預測糖尿病風險可以更好地提高全民健康水平。本文研究提示BMI超標、年齡偏大、男性、糖尿病家族史、糖化血紅蛋白均是糖尿病的危險因素。通過數(shù)學模型,利用可快速獲取的信息進行預測,是未來發(fā)展的方向。神經網(wǎng)絡模型在預測糖尿病個體風險上有較好的效果。但在實際應用中,logistic回歸對變量有直觀的解釋,結果容易解釋。而神經網(wǎng)絡模型和決策樹模型對變量卻沒有很好的解釋能力。所以,實際應用中也應結合各自模型的優(yōu)點,以期在公共衛(wèi)生實踐中取得最好的利用價值。
[1]Nathan DM.Diabetes Advances in Diagnosis and Treatment.JAMA,2015,314(10):1052-1062.
[2]Lu C,Sun W.Prevalence of diabetes in Chinese adults.JAMA.2014,311(2):199-200.
[3]吳偉,郭軍巧,安淑一,等.使用思維進化算法優(yōu)化的神經網(wǎng)絡建立腎綜合征出血熱預測模型.中國衛(wèi)生統(tǒng)計,2016,33(1):27-31.
[4]葉華容,楊怡,林萱,等.BP神經網(wǎng)絡在高頻彩超特征診斷乳腺癌中的應用.中國衛(wèi)生統(tǒng)計,2016,33(1):71-72.
[5]Tseng WT,Chiang WF,Liu SY,et al.The application of data mining techniques to oral cancer prognosis.J Med Syst,2015,39(5):59
[6]高明,唐順,徐福文.醫(yī)院數(shù)據(jù)挖掘平臺中X-11-ARIMA預測模型的應用研究.中國衛(wèi)生統(tǒng)計,2016,33(1):139-141.
[7]Gonzalez GH,Tahsin T,Goodale BC,et al.Recent Advances and Emerging Applications in Text and Data Mining for Biomedical Discovery.Brief Bioinform,2016,17(1):33-42.
[8]Leon BM,Maddox TM.Diabetes and cardiovascular disease:Epidemiology,biological mechanisms,treatment recommendations and future research.World J Diabetes,2015,6(13):1246-1258.
[9]張晶,金雪娥.2型糖尿病患病風險預測的研究進展.中華實用診斷與治療雜志,2013,27(9):839-841.
[10]Wannamethee SG,Papacosta O,Whincup PH,et al.The potential for a two-stage diabetes risk algorithm combining non-laboratory-based scores with subsequent routine non-fasting blood tests:results from prospective studies in older men and women.Diabet Med,2011,28(1):23-30.
[11]徐學琴,杜進林,孫寧,等.改進的BP 神經網(wǎng)絡模型在麻疹預測中的應用研究.中國現(xiàn)代醫(yī)學雜,2014,24(31)52-55.
[12]Shi HY,Hwang SL,Lee KT,et al.In-hospital mortality after traumatic brain injury surgery:a nationwide population-based comparison of mortality predictors used in artificial neural network and logistic regression models.J Neurosurg,2013,118(4):746-752.
[13]宋健;logistic回歸模型、神經網(wǎng)絡模型和決策樹模型在肺癌術后心肺并發(fā)癥預測中的比較.安徽醫(yī)科大學,2014.
[14]薛允蓮.logistic回歸結合決策樹技術在冠心病患者住院費用組合分析中的應用.中國衛(wèi)生統(tǒng)計,2015,32(6):988-992.
[15]李現(xiàn)文,李春玉,Kim M,等.決策樹與logistic回歸在高血壓患者健康素養(yǎng)預測中的應用.護士進修雜志,2012,27(13):1157-1159.
(責任編輯:劉 壯)
國家自然科學基金(81373100)
△ 通信作者:吳學森,E-mail:xuesenwu@163.com