亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

三種統(tǒng)計學模型在糖尿病個體患病風險預測中的應用*

2017-06-05 14:20:14蚌埠醫(yī)學院預防醫(yī)學系233030

中國衛(wèi)生統(tǒng)計 2017年2期

關鍵詞：決策樹糖化神經網(wǎng)絡

蚌埠醫(yī)學院預防醫(yī)學系(233030)

宋健吳學森△ 張杰張玉媛陳雪

三種統(tǒng)計學模型在糖尿病個體患病風險預測中的應用*

蚌埠醫(yī)學院預防醫(yī)學系(233030)

宋健吳學森△張杰張玉媛陳雪

目的探討logistic回歸、BP神經網(wǎng)絡和決策樹分析模型在預測個體2型糖尿病患病風險中的應用。方法分別應用logistic回歸、BP神經網(wǎng)絡與決策樹建立2型糖尿病預測模型，通過受試者工作特征曲線評價模型的預測效能。結果共550名糖尿病患者和1100名非糖尿病患者納入本次研究。logistic回歸、BP神經網(wǎng)絡和決策樹分析模型的預測一致率分別為80.8%、84.1%和81.1%。3種模型ROC曲線下面積(AUC)分別為0.739、0.777和0.737。BP神經網(wǎng)絡的AUC與logistic模型和決策樹分析模型的均有統(tǒng)計學差異(P<0.05)。結論 BP神經網(wǎng)絡在預測個體患2型糖尿病方面具有更好的預測效能。

2型糖尿病 logistic回歸 BP神經網(wǎng)絡決策樹分析

2型糖尿病是嚴重危害人類健康的重大公共衛(wèi)生問題，全世界約有超過3.5億人患有2型糖尿病[1]。中國是世界上糖尿病患病人數(shù)最多的國家，患病率高達11.6%[2]。有效地對個體進行糖尿病風險評估，可以篩選出高危人群，并通過一系列的行為和生活方式干預，減少糖尿病及相關并發(fā)癥的發(fā)生。數(shù)據(jù)挖掘技術是近些年來廣泛應用于醫(yī)學領域的一種新的分析方法，在疾病診斷、預后、風險評估等方面具有良好的應用價值[3-5]。數(shù)據(jù)挖掘技術可以充分利用已有數(shù)據(jù)的信息,從具有重復性、多樣性及不規(guī)范性等特點的復雜的醫(yī)學數(shù)據(jù)中提取出有價值的信息，并為臨床決策提供幫助[6-7]。其中，應用最廣泛的有采用誤差反向傳遞(back propagation,BP)學習方法的BP神經網(wǎng)絡和決策樹分析模型。本文采用慢性病社區(qū)調查數(shù)據(jù)，探討B(tài)P神經網(wǎng)絡與決策樹分析模型在糖尿病個體風險預測中的應用價值，并與傳統(tǒng)的logistics回歸進行比較，以求尋找到2型糖尿病風險預測的最佳數(shù)學模型。

資料與方法

1.資料來源

本課題組于2015年7月至8月，采用橫斷面調查方法，選擇蚌埠市龍子湖區(qū)共7個社區(qū)，以家庭為抽樣單位，共收回有效問卷3077份。調查內容包括兩個方面:問卷調查及體格和實驗室檢查。采用自行設計問卷，由經過培訓的課題組成員對社區(qū)居民進行問卷調查。調查問卷信息主要包括:受訪者的一般個人及家庭信息及生活行為方式；體格檢查指標有身高、體重、腰圍等；實驗室檢查指標主要包括：空腹血糖、血脂和糖化血紅蛋白等。數(shù)據(jù)首先錄入到Epidata軟件中，采用雙錄入方式，并逐一核對。

2.相關變量及定義

(1)體質指數(shù)(body mass index,BMI)=體重(kg)/身高(m)2，正常值：18.5≤BMI<24，<18.5或者>24均視為不正常；(2)高血壓：收縮壓/舒張壓≥140/90mmHg和/或已確診為高血壓者；(3)甘油三酯:正常值0.40～1.81mmol/L，超過此范圍均視為不正常;(4)糖化血紅蛋白:正常值小于等于6.5%，大于6.5%視為不正常;(5)腰臀比:正常值男性小于0.9，女性小于0.8;(6)吸煙:包括既往吸煙和正在吸煙的被調查者;(7)糖尿病:自報患者和新診斷患者，即無自報糖尿病史，但本次測定空腹血糖≥7.0 mmol/L者。

3.統(tǒng)計學分析

使用SPSS隨機數(shù)功能將數(shù)據(jù)集按3:1分為訓練數(shù)據(jù)和預測數(shù)據(jù)。訓練數(shù)據(jù)用于計算參數(shù)和建立模型，預測數(shù)據(jù)用于評估預測效果。

(1)logistic回歸：模型采用最大似然估計前進法,入選變量和剔除變量的標準分別是是P<0.05和P>0.10。

(2)BP神經網(wǎng)絡：采用SPSS 17.0統(tǒng)計軟件中的神經網(wǎng)絡模塊的多層感知器。輸入層變量為研究所納入的10個自變量，輸出層為是否發(fā)生糖尿病，定義隱藏層數(shù)為1。

(3)決策樹分析：選擇卡方自動交互檢測,使用分割樣本進行驗證，無交叉驗證，樹深度最大值為3。

(4)受試者工作特征曲線(receiver operator characteristic curve,ROC 曲線)：比較ROC曲線下面積(area under curve,AUC)，最大者表示預測價值最佳。AUC值為0.5時，表明無診斷價值，首先要對AUC與0.5的差異進行統(tǒng)計學檢驗。AUC越接近1，價值越大。不同模型AUC的比較用統(tǒng)計量為Z的非參數(shù)檢驗。所有統(tǒng)計分析均由SPSS 17.0和Medcalc完成，P<0.05被認為差異具有統(tǒng)計學意義。

結果

1.一般情況

共調查社區(qū)居民3077人。糖尿病患者550人，占調查對象的17.8%。按1∶2的原則在與病例生活在相同社區(qū)及工作性質相近的正常人群中選擇對照，即1100名非糖尿病患者納入此次分析中。本研究所選擇對象中，女性居民占57.7%(952人)略多于男性42.3%(698人)。50歲以上人群占多數(shù)，為69.0%。文化程度普遍偏低，大專及以上人群僅有158人，占研究對象的9.6%。被調查居民中吸煙人群占29.2%。BMI和腰臀比不正常者占很大比例，分別為58.7%和77.7%。有14%的研究對象有糖尿病家族史。具體信息見表1。

表1 調查對象的一般信息

2.logistic多因素分析

將所研究變量納入分析模型中，共有以下變量具有統(tǒng)計學意義，分別為年齡、BMI、糖化血紅蛋白、性別、家族史、甘油三酯。結果見表2。因此建立預測方程:P=1/(1+e(2.799-0.845×年齡-0.373×BMI-0.885×家族史-2.810×糖化血紅蛋白-0.588×性別-0.679×甘油三酯))。根據(jù)所建方程對預測集數(shù)據(jù)進行預測，其一致率為80.8%，ROC曲線下面積及95%CI為0.739(0.694～0.781)。

表2 糖尿病風險預測logistic多因素分析結果

3.BP神經網(wǎng)絡分析結果

所選自變量敏感度分析結果表明對糖尿病發(fā)生影響較大的前5位因素依此是糖化血紅蛋白(0.448)、年齡(0.102)、甘油三酯(0.094)、高血壓(0.069)和糖尿病家族史(0.059)。預測數(shù)據(jù)集結果顯示，其預測一致率為84.1%，ROC曲線下面積及95%CI為0.777(0.734～0.817)。

4.決策樹分析

樹的第一層為糖化血紅蛋白，說明糖化血紅蛋白與糖尿病關聯(lián)性最強。其余進入變量依次為年齡、甘油三酯、糖尿病家族史和性別。其預測的一致率為81.1%，ROC曲線下面積及95%CI為0.737(0.692～0.779)。

5.ROC曲線面積比較

三種模型的ROC曲線下面積與0.5均有統(tǒng)計學差異(P<0.05)。三種模型的ROC曲線下面積兩兩比較結果見表3，結果顯示BP神經網(wǎng)絡模型預測的ROC曲線下面積與logistic模型(Z=2.847，P=0.0044)和決策樹模型的ROC曲線下面積(Z=3.050，P=0.0023)的差異有統(tǒng)計學意義。而logistic模型和決策樹模型的AUC(Z=0.306，P=0.7594)的差異沒有統(tǒng)計學意義。三種模型的ROC曲線見圖1。

表3 三種模型曲線下面積兩兩比較結果

圖1 三種模型的ROC曲線

討論

1.糖尿病及其風險預測

糖尿病不僅是威脅人類健康的重要疾病，同時也是很多嚴重疾病的致病因素，如冠心病、腫瘤等[8]。通過特定的數(shù)學模型進行個體糖尿病風險預測，為采取預防干預措施提供建議，有助于提高人群的健康水平和生活質量。本研究通過調查問卷所得變量，建立不同模型進行了比較，顯示神經網(wǎng)絡模型在預測上具有良好性能。糖尿病是基因與環(huán)境共同作用的結果，除了本文所列一些變量外，某些生化標志物如炎性因子、脂聯(lián)素、microRNA等也與糖尿病風險有關[9]，但檢測這些成分耗時耗費，并不利于風險評估的快速開展。另外，芬蘭等國的糖尿病評分工具，通過一些類似本文的簡易的變量都實現(xiàn)出了較好的評價效果[9-10]。

2.BP神經網(wǎng)絡模型

BP神經網(wǎng)絡在醫(yī)學中有著廣泛的應用。徐學琴通過使用BP神經網(wǎng)絡對全國麻疹的發(fā)病率進行了有價值的預測[11]。國外研究分別通過logistic回歸和神經網(wǎng)絡模型預測腦外傷手術術后院內死亡率，神經網(wǎng)絡模型表現(xiàn)出明顯的優(yōu)勢[12]。BP神經網(wǎng)絡具有很多優(yōu)點，比如具有較強的非線性映射能力，可以合理提取輸入變量和輸出變量之間的規(guī)則，并進行修改、容錯等[4]。但同時BP神經網(wǎng)絡也存在一定缺陷，比如對于樣本量的問題，至今沒有明確的公式。關于隱藏層數(shù)的設定，多數(shù)研究表明，當BP神經網(wǎng)絡隱藏層數(shù)為1時，可以達到較好地反映數(shù)據(jù)規(guī)律、特征及獲得較好預測效能的作用。本文作者在探討B(tài)P神經網(wǎng)絡在肺癌并發(fā)癥預測價值時，比較了不同隱藏層數(shù)的預測效果，結果表明隱藏層數(shù)為1時獲得的ROC曲線下面積最大[13],故本研究中BP神經網(wǎng)絡隱藏層數(shù)設定為1。另外，BP神經網(wǎng)絡無法解釋某個變量的作用方向，而logistic回歸卻能對模型和變量具有很好的解釋性。

3.決策樹模型及其應用

決策樹模型運算時間短，結果以樹狀顯示簡單直觀，結果的分類把握度較準確。但分類屬性增多情況下，會影響預測的效果[14]。決策樹模型同BP神經網(wǎng)絡模型類似，也無法判斷某因素的作用方向。以往多數(shù)研究顯示決策樹模型在預測效能上好于logistic回歸，如決策樹在預測高血壓患者健康素養(yǎng)中優(yōu)于logistic回歸[15]。而本文在糖尿病預測中，兩種模型間效果沒有統(tǒng)計學差異，可能與樹的深度設置、剪接方法有關，需要在以后的研究中進一步探討。

簡潔并快速有效的預測糖尿病風險可以更好地提高全民健康水平。本文研究提示BMI超標、年齡偏大、男性、糖尿病家族史、糖化血紅蛋白均是糖尿病的危險因素。通過數(shù)學模型，利用可快速獲取的信息進行預測，是未來發(fā)展的方向。神經網(wǎng)絡模型在預測糖尿病個體風險上有較好的效果。但在實際應用中，logistic回歸對變量有直觀的解釋，結果容易解釋。而神經網(wǎng)絡模型和決策樹模型對變量卻沒有很好的解釋能力。所以，實際應用中也應結合各自模型的優(yōu)點，以期在公共衛(wèi)生實踐中取得最好的利用價值。

[1]Nathan DM.Diabetes Advances in Diagnosis and Treatment.JAMA,2015,314(10):1052-1062.

[2]Lu C,Sun W．Prevalence of diabetes in Chinese adults.JAMA.2014,311(2):199-200.

[3]吳偉,郭軍巧,安淑一,等.使用思維進化算法優(yōu)化的神經網(wǎng)絡建立腎綜合征出血熱預測模型.中國衛(wèi)生統(tǒng)計,2016,33(1):27-31.

[4]葉華容,楊怡,林萱,等.BP神經網(wǎng)絡在高頻彩超特征診斷乳腺癌中的應用.中國衛(wèi)生統(tǒng)計,2016,33(1):71-72.

[5]Tseng WT,Chiang WF,Liu SY,et al.The application of data mining techniques to oral cancer prognosis.J Med Syst,2015,39(5):59

[6]高明,唐順,徐福文.醫(yī)院數(shù)據(jù)挖掘平臺中X-11-ARIMA預測模型的應用研究.中國衛(wèi)生統(tǒng)計,2016,33(1):139-141.

[7]Gonzalez GH,Tahsin T,Goodale BC,et al.Recent Advances and Emerging Applications in Text and Data Mining for Biomedical Discovery.Brief Bioinform,2016,17(1):33-42.

[8]Leon BM,Maddox TM.Diabetes and cardiovascular disease:Epidemiology,biological mechanisms,treatment recommendations and future research.World J Diabetes,2015,6(13):1246-1258.

[9]張晶,金雪娥.2型糖尿病患病風險預測的研究進展.中華實用診斷與治療雜志,2013,27(9):839-841.

[10]Wannamethee SG,Papacosta O,Whincup PH,et al.The potential for a two-stage diabetes risk algorithm combining non-laboratory-based scores with subsequent routine non-fasting blood tests:results from prospective studies in older men and women.Diabet Med,2011,28(1):23-30.

[11]徐學琴,杜進林,孫寧,等.改進的BP 神經網(wǎng)絡模型在麻疹預測中的應用研究.中國現(xiàn)代醫(yī)學雜,2014,24(31)52-55.

[12]Shi HY,Hwang SL,Lee KT,et al.In-hospital mortality after traumatic brain injury surgery:a nationwide population-based comparison of mortality predictors used in artificial neural network and logistic regression models.J Neurosurg,2013,118(4):746-752.

[13]宋健;logistic回歸模型、神經網(wǎng)絡模型和決策樹模型在肺癌術后心肺并發(fā)癥預測中的比較.安徽醫(yī)科大學,2014.

[14]薛允蓮.logistic回歸結合決策樹技術在冠心病患者住院費用組合分析中的應用.中國衛(wèi)生統(tǒng)計,2015,32(6):988-992.

[15]李現(xiàn)文,李春玉,Kim M,等.決策樹與logistic回歸在高血壓患者健康素養(yǎng)預測中的應用.護士進修雜志,2012,27(13):1157-1159.

(責任編輯：劉壯)

國家自然科學基金(81373100)

△ 通信作者:吳學森,E-mail:xuesenwu@163.com

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

三種統(tǒng)計學模型在糖尿病個體患病風險預測中的應用*

資料與方法

結 果

討 論

結果

討論