亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        決策樹(shù)模型在2型糖尿病患病風(fēng)險(xiǎn)預(yù)測(cè)中的應(yīng)用*

        2017-01-10 03:46:30侯玉梅朱亞楠朱立春吳頌高秋燁
        關(guān)鍵詞:分類(lèi)糖尿病模型

        侯玉梅朱亞楠朱立春吳 頌高秋燁

        決策樹(shù)模型在2型糖尿病患病風(fēng)險(xiǎn)預(yù)測(cè)中的應(yīng)用*

        侯玉梅1△朱亞楠1朱立春2吳 頌2高秋燁3

        目的探究決策樹(shù)模型在2型糖尿病患病風(fēng)險(xiǎn)預(yù)測(cè)中的應(yīng)用,為預(yù)防和控制2型糖尿病的發(fā)生和發(fā)展提供臨床指導(dǎo)。方法收集數(shù)據(jù)并進(jìn)行預(yù)處理,采用C5.0算法構(gòu)建分類(lèi)模型,之后對(duì)其預(yù)測(cè)結(jié)果進(jìn)行評(píng)估。結(jié)果采用決策樹(shù)構(gòu)建的三個(gè)模型的訓(xùn)練集準(zhǔn)確率分別為79.98%、98.26%、99.55%,測(cè)試集的準(zhǔn)確率分別為81.27%、98.16%、98.16%,預(yù)測(cè)準(zhǔn)確率都較高。結(jié)論采用C5.0算法構(gòu)建決策樹(shù)模型,對(duì)預(yù)測(cè)糖尿病的患病風(fēng)險(xiǎn)具有一定的應(yīng)用價(jià)值。

        2型糖尿病 決策樹(shù) 風(fēng)險(xiǎn)預(yù)測(cè)

        隨著我國(guó)人民生活水平的普遍提高以及生活節(jié)奏的加快,我國(guó)糖尿病患者數(shù)量正在以驚人的速度增長(zhǎng),且向低齡化發(fā)展[1]。最新調(diào)查顯示,我國(guó)成年人中的糖尿病患者高達(dá)1.14億,并呈現(xiàn)發(fā)病率高,知曉率、治療率和達(dá)標(biāo)率低的現(xiàn)象,同時(shí)也給家人和社會(huì)帶來(lái)了沉重的經(jīng)濟(jì)負(fù)擔(dān)。因此,預(yù)防2型糖尿病的發(fā)生,對(duì)于控制糖尿病發(fā)病人數(shù)具有重要意義。本文利用數(shù)據(jù)挖掘C 5.0算法構(gòu)建簡(jiǎn)單個(gè)人水平預(yù)測(cè)、簡(jiǎn)單臨床預(yù)測(cè)以及復(fù)雜臨床預(yù)測(cè)模型,以此發(fā)掘糖尿病患病的得病風(fēng)險(xiǎn)規(guī)律,為健康人群的預(yù)防和醫(yī)生臨床診斷提供指導(dǎo)。

        資料與方法

        1.資料來(lái)源

        本文中資料數(shù)據(jù)來(lái)源于河北省秦皇島市某醫(yī)院糖尿病患者病例以及健康人群的體檢數(shù)據(jù)共1922例,內(nèi)容包括與2型糖尿病患病相關(guān)的各項(xiàng)指標(biāo),分別為性別、年齡、吸煙情況、家族史情況(包括糖尿病家族史和高血壓家族史[2-3])、既往病史情況(包括心腦血管病史和冠心病史[4-5])、入院體檢與實(shí)驗(yàn)室檢查情況(身高、體重、空腹血糖、舒張壓、收縮壓、甘油三酯、總膽固醇、低密度脂蛋白)等。

        2.分析方法

        (1)數(shù)據(jù)預(yù)處理

        數(shù)據(jù)清洗 對(duì)原始數(shù)據(jù)進(jìn)行分析整理,對(duì)超出取值范圍的不合理數(shù)據(jù)或個(gè)別有缺失值的變量用指定值替代[6]。Flag(標(biāo)志)型變量用False對(duì)應(yīng)的值替代,Set(集)型變量用第一個(gè)變量值替代,數(shù)值型變量,大于上限的用上限值替代,小于下限的用下限值替代,其余值用(最大值+最小值)/2替代。

        數(shù)據(jù)變換 數(shù)據(jù)變換將數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一的格式,以適合數(shù)據(jù)的再處理[7]。在原始數(shù)據(jù)中,需要轉(zhuǎn)換的屬性有身高。一般身高是以厘米度量的,但是我們需要利用BMI指數(shù)變量,需要對(duì)身高變量進(jìn)行轉(zhuǎn)換,轉(zhuǎn)換函數(shù)為:f(V)=V/100。

        數(shù)據(jù)規(guī)約 規(guī)約后的數(shù)據(jù)不但保證了原始數(shù)據(jù)的完整性,而且減少了數(shù)據(jù)量,使得數(shù)據(jù)挖掘的效率和性能大大提高[8]。例如:將身高和體重變量進(jìn)行規(guī)約,計(jì)算BMI指數(shù)(kg/m2)=體重/(身高×身高),然后根據(jù)中國(guó)體重指標(biāo)標(biāo)準(zhǔn)將BMI指數(shù)進(jìn)行離散化生成新屬性BMI_set。類(lèi)似地,本文生成年齡_set、舒張壓_set、收縮壓_set等其他新屬性。之后直接刪除原始數(shù)據(jù)中的冗余屬性。預(yù)處理后的數(shù)據(jù)不僅可以保持原始數(shù)據(jù)的完整性,而且提高了數(shù)據(jù)挖掘的運(yùn)算效率。

        (2)算法選擇

        本文使用決策樹(shù)來(lái)建立分類(lèi)模型,該方法可以很直觀地看出分類(lèi)規(guī)則,且擅于處理非數(shù)值型數(shù)據(jù);具有效率高、分類(lèi)精度高等優(yōu)點(diǎn)。目前,常用的決策樹(shù)算法有ID3、C5.0、CHAID、QUEST、CART等,它們的主要區(qū)別是“不同的決策樹(shù)算法的分枝策略不同”[9],其中C5.0是以信息論為指導(dǎo),以信息增益率為標(biāo)準(zhǔn)確定最佳分組變量和分割點(diǎn),采用后修剪方法從葉節(jié)點(diǎn)向上逐層剪枝;C5.0算法可以生成推理規(guī)則集,更重要的是它采用Boosting方式,提高了預(yù)測(cè)準(zhǔn)確率和分類(lèi)精度,所以本文采用C5.0算法。

        (3)算法實(shí)現(xiàn)

        本研究中C5.0算法由軟件Clementine 12.0實(shí)現(xiàn),通過(guò)分區(qū)將現(xiàn)有樣本集隨機(jī)分割成兩部分:訓(xùn)練集70%和測(cè)試集30%,有效地實(shí)現(xiàn)了決策樹(shù)模型的構(gòu)建。模型運(yùn)行前,設(shè)置使用分區(qū)數(shù)據(jù),輸出類(lèi)型選擇決策樹(shù),并利用ChiMerge分箱法檢查當(dāng)前分組變量,使得到的分類(lèi)樹(shù)較精簡(jiǎn),采用Boosting技術(shù)試驗(yàn)10次和交叉驗(yàn)證折疊10次建立模型,提高模型預(yù)測(cè)的穩(wěn)健性,Mode選用Expert,修剪純度設(shè)為75,采用全局修剪。

        結(jié) 果

        1.模型建立

        (1)簡(jiǎn)單個(gè)人水平模型

        當(dāng)只考慮性別、年齡、身高、體重、生活習(xí)慣(煙齡)、家族史、既往病史等基本個(gè)人水平因素時(shí),生成10個(gè)相關(guān)聯(lián)的模型,各模型的預(yù)測(cè)精度不同,最高為82.33%,最低為65.29%,應(yīng)用Boosting技術(shù)后,預(yù)測(cè)精度為84.1%,分類(lèi)精度提高。其相關(guān)聯(lián)的變量重要性排序如圖1所示,表明糖尿病患病風(fēng)險(xiǎn)與家族史和既往病史有著密切的關(guān)系。其中部分模型圖如圖2所示,這對(duì)于個(gè)人在簡(jiǎn)單分析自己的身體水平及生活習(xí)慣方面,起著重要的作用。

        圖1 簡(jiǎn)單個(gè)人水平模型變量重要性排序

        (2)簡(jiǎn)單臨床模型

        在簡(jiǎn)單個(gè)人水平模型下,加入簡(jiǎn)單臨床數(shù)據(jù)(包括空腹血糖、舒張壓、收縮壓等),也生成10個(gè)相關(guān)聯(lián)的模型,模型最高預(yù)測(cè)精度達(dá)到98.11%,最低為79.76%,相比簡(jiǎn)單個(gè)人水平模型預(yù)測(cè)精度大大提高,應(yīng)用Boosting技術(shù)后,預(yù)測(cè)精度達(dá)到了99.2%。其中變量重要性排序如圖3,表明空腹血糖與糖尿病患病的關(guān)系尤為密切,并指出空腹血糖的臨界值為6.09mmol/L或6.08mmol/L,與醫(yī)學(xué)知識(shí)大體一致,這對(duì)分析簡(jiǎn)單臨床數(shù)據(jù)具有指導(dǎo)意義。其中部分模型圖如圖4所示。

        圖2 部分簡(jiǎn)單個(gè)人水平模型圖

        圖3 簡(jiǎn)單臨床模型變量重要性排序

        圖4 部分簡(jiǎn)單臨床模型圖

        (3)復(fù)雜臨床模型

        在簡(jiǎn)單臨床模型下,加入檢驗(yàn)數(shù)據(jù)(包括甘油三酯、低密度脂蛋白、總膽固醇),形成復(fù)雜臨床模型,模型最高預(yù)測(cè)精度達(dá)到98.79%,最低為91.36%,相比簡(jiǎn)單臨床模型預(yù)測(cè)精度有所提高,說(shuō)明數(shù)據(jù)越多,變量越多,預(yù)測(cè)越準(zhǔn)確。其中變量重要性排序如圖5所示,綜合三個(gè)模型發(fā)現(xiàn),空腹血糖、糖尿病家族史、心腦血管病史、年齡這四個(gè)變量對(duì)是否患有糖尿病有重要作用。其中部分模型圖如圖6所示。

        圖5 復(fù)雜臨床模型變量重要性排序

        2.模型評(píng)估

        (1)采用Analysis節(jié)點(diǎn)進(jìn)行模型準(zhǔn)確性評(píng)價(jià),決策樹(shù)對(duì)各個(gè)模型的訓(xùn)練集和測(cè)試集的預(yù)測(cè)結(jié)果準(zhǔn)確率如表1所示。

        由表1可知,三個(gè)模型的預(yù)測(cè)準(zhǔn)確率都較高,而且訓(xùn)練集和測(cè)試集的結(jié)果相近,說(shuō)明不存在訓(xùn)練集過(guò)度擬合的現(xiàn)象。通過(guò)比較發(fā)現(xiàn),考慮的輸入變量越多,模型預(yù)測(cè)精度越高,但是從測(cè)試集的準(zhǔn)確率來(lái)看,簡(jiǎn)單臨床模型和復(fù)雜臨床模型基本一致,說(shuō)明通過(guò)簡(jiǎn)單臨床模型也可以發(fā)揮預(yù)測(cè)作用,方便居民隨時(shí)監(jiān)測(cè)身體狀況,從而及時(shí)預(yù)防2型糖尿病的發(fā)生。

        圖6 部分復(fù)雜臨床模型圖

        表1 三種模型的預(yù)測(cè)結(jié)果

        (2)采用Kappa檢驗(yàn)對(duì)三個(gè)決策樹(shù)模型進(jìn)行一致性分析,其預(yù)測(cè)分類(lèi)與實(shí)際分類(lèi)的吻合情況如表2所示。

        表2 三種模型的決策樹(shù)分類(lèi)結(jié)果

        通過(guò)比較三種模型的預(yù)測(cè)分類(lèi)和實(shí)際分類(lèi),簡(jiǎn)單個(gè)人水平模型的Kappa值為0.621,小于0.75,說(shuō)明該模型的一致性一般。簡(jiǎn)單臨床模型的Kappa值為0.964,復(fù)雜臨床模型的Kappa值為0.982,均高于0.75,說(shuō)明兩種模型的一致性較高,預(yù)測(cè)結(jié)果與實(shí)際分類(lèi)基本吻合,模型預(yù)測(cè)分類(lèi)效果較佳。

        (3)在預(yù)測(cè)模型的評(píng)價(jià)過(guò)程中,靈敏度、特異度和約登指數(shù)是其中重要的指標(biāo),指標(biāo)越高預(yù)示著該模型具有較強(qiáng)的預(yù)測(cè)判別性能[10]。本研究通過(guò)比較三種模型總的預(yù)測(cè)分類(lèi)和實(shí)際分類(lèi),計(jì)算三種模型的靈敏度、特異度、錯(cuò)判率和約登指數(shù)(見(jiàn)表3),比較發(fā)現(xiàn)簡(jiǎn)單個(gè)人水平模型特異度遠(yuǎn)遠(yuǎn)高于靈敏度,說(shuō)明簡(jiǎn)單個(gè)人水平模型預(yù)測(cè)非患者的能力遠(yuǎn)遠(yuǎn)高于預(yù)測(cè)患者的能力。綜合比較發(fā)現(xiàn),復(fù)雜臨床模型的靈敏度和約登指數(shù)均較高,錯(cuò)判率最低,說(shuō)明復(fù)雜臨床模型的預(yù)測(cè)性能最好。但在簡(jiǎn)單臨床條件下,三種指標(biāo)已經(jīng)達(dá)到了很高的水平,說(shuō)明在此條件下進(jìn)行預(yù)測(cè)和篩查就能達(dá)到很好的效果。

        表3 三種模型的靈敏度、特異度、錯(cuò)判率、約登指數(shù)的比較

        討 論

        糖尿病發(fā)病原因一直是世界糖尿病研究的重要課題。目前,國(guó)內(nèi)在糖尿病患病風(fēng)險(xiǎn)預(yù)測(cè)中使用較多的方法有神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)法、Markov預(yù)測(cè)法、C 4.5決策樹(shù)算法等[10-12]。與國(guó)內(nèi)預(yù)測(cè)方法不同的是,本文將決策樹(shù)C 5.0算法應(yīng)用到2型糖尿病的發(fā)病規(guī)律研究中,根據(jù)不同的預(yù)測(cè)條件,得出多個(gè)決策樹(shù)模型。其中與神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)法[10]相比,本文利用決策樹(shù)算法建立的模型簡(jiǎn)單明了,可以更好地提取發(fā)病規(guī)則;與Markov預(yù)測(cè)法[11]相比,Markov預(yù)測(cè)能夠有效地預(yù)測(cè)2型糖尿病未來(lái)幾年內(nèi)的發(fā)病概率,而本文是根據(jù)目前的身體條件,及時(shí)準(zhǔn)確地預(yù)測(cè)本人的發(fā)病情況,更具有實(shí)效性;與C 4.5決策樹(shù)算法[12]相比,本研究加入Boosting技術(shù),提高了模型準(zhǔn)確率和分類(lèi)精度,并指導(dǎo)居民在不同生理水平條件下,做出相應(yīng)的風(fēng)險(xiǎn)評(píng)估,從而為個(gè)人自我保健提供準(zhǔn)確的指導(dǎo),同時(shí)也為醫(yī)生的臨床診斷提供一定的幫助。從模型中可以明顯看出空腹血糖值、糖尿病家族史、心腦血管既往病史、年齡等因素在2型糖尿病發(fā)病規(guī)律中的重要性。此外,對(duì)模型的評(píng)估表明,預(yù)測(cè)的準(zhǔn)確性、可靠性以及一致性都比較高,說(shuō)明該方法的應(yīng)用為探討不同條件下2型糖尿病的發(fā)病規(guī)律提供了一種新的手段。

        由于在Clementine 12.0中沒(méi)有編程界面,因此,要獲得理想的預(yù)測(cè)模型,需要對(duì)相關(guān)窗口中的參數(shù)反復(fù)進(jìn)行調(diào)整[13]。此外訓(xùn)練集和測(cè)試集的大小,缺失值和不合理數(shù)據(jù)的預(yù)處理方法,數(shù)據(jù)庫(kù)的質(zhì)量以及模型參數(shù)的調(diào)整,對(duì)決策樹(shù)模型的穩(wěn)定性和預(yù)測(cè)效果都有一定的影響。但是由于時(shí)間和人力資源有限,所采集的數(shù)據(jù)無(wú)法涵蓋研究所需要的所有信息,使得收集和處理過(guò)程經(jīng)常脫節(jié)[14],所采集的醫(yī)學(xué)數(shù)據(jù)也不是很完整,因此所建立的預(yù)測(cè)模型還有待進(jìn)一步完善。本文貢獻(xiàn)在于為不同情況下2型糖尿病患者患病風(fēng)險(xiǎn)提供一種風(fēng)險(xiǎn)預(yù)測(cè)工具,同時(shí)提取出不同情況下影響2型糖尿病發(fā)病的重要因素。相信隨著數(shù)據(jù)挖掘技術(shù)的不斷改進(jìn),數(shù)據(jù)庫(kù)數(shù)據(jù)的不斷擴(kuò)大,應(yīng)用C 5.0算法對(duì)糖尿病患病風(fēng)險(xiǎn)預(yù)測(cè)的準(zhǔn)確性將不斷增加,從而對(duì)糖尿病高危人群的預(yù)防和醫(yī)生臨床診斷起到一定的指導(dǎo)和參考作用。

        [1]王海鵬.我國(guó)診斷糖尿病疾病經(jīng)濟(jì)負(fù)擔(dān)趨勢(shì)預(yù)測(cè)研究.山東大學(xué),2013.

        [2]吳雪霽,潘冰瑩,陳雄飛,等.廣州市家系高血壓與2型糖尿病和血脂異常關(guān)系的研究.中國(guó)熱帶醫(yī)學(xué),2014,14(11):1343-1346.

        [3]胡靜,楊亞明,陳凱,等.宜興市居民2型糖尿病危險(xiǎn)因素分析.江蘇預(yù)防醫(yī)學(xué),2012,23(5):11-12.

        [4]劉茂玲,劉禮錦,鄒宇華.2型糖尿病危險(xiǎn)因素病例對(duì)照研究.華南預(yù)防醫(yī)學(xué),2008,34(4):49-52.

        [5]鄒宇華,張弛,張冬梅,等.2型糖尿病危險(xiǎn)因素的非條件Logistic回歸分析.中國(guó)慢性病預(yù)防與控制,2004,12(1):12-14.

        [6]薛薇,陳歡歌.Clementine數(shù)據(jù)挖掘方法及應(yīng)用.電子工業(yè)出版社,2010.

        [7]羅森林,成華,張鐵梅,等.多維2型糖尿病實(shí)測(cè)數(shù)據(jù)的預(yù)處理技術(shù).計(jì)算機(jī)工程,2004,30(17):178-181.

        [8]元昌安.?dāng)?shù)據(jù)挖掘原理與SPSS Clementine應(yīng)用寶典.電子工業(yè)出版社,2009.

        [9]馬瑾,孫穎,劉尚輝.決策樹(shù)模型在住院2型糖尿病患者死因預(yù)測(cè)中的應(yīng)用.中國(guó)衛(wèi)生統(tǒng)計(jì),2013,30(3):422-423.

        [10]郭奕瑞,李玉倩,王高帥,等.人工神經(jīng)網(wǎng)絡(luò)模型在2型糖尿病患病風(fēng)險(xiǎn)預(yù)測(cè)中的應(yīng)用.鄭州大學(xué)學(xué)報(bào):醫(yī)學(xué)版,2014(2):180-183.

        [11]羅森林,郭偉東,張?bào)?,等.基于Markov的Ⅱ型糖尿病預(yù)測(cè)技術(shù)研究.北京理工大學(xué)學(xué)報(bào),2011,31(12):1414-1418.

        [12]羅森林,成華,顧毓清,等.C4.5算法在2型糖尿病分類(lèi)規(guī)則建立中的應(yīng)用.計(jì)算機(jī)應(yīng)用研究,2004,21(7):174-176.

        [13]于長(zhǎng)春.決策樹(shù)模型在2型糖尿病患者腦梗死風(fēng)險(xiǎn)預(yù)測(cè)中的應(yīng)用.中國(guó)衛(wèi)生統(tǒng)計(jì),2011,28(6):683-684.

        [14]張銘.?dāng)?shù)據(jù)挖掘技術(shù)及在中醫(yī)藥領(lǐng)域中的應(yīng)用.全國(guó)商情·經(jīng)濟(jì)理論研究,2009(18):136-138.

        (責(zé)任編輯:劉 壯)

        2015年河北省研究生創(chuàng)新資助項(xiàng)目(00302-6370027);秦皇島市科技支撐計(jì)劃項(xiàng)目(201601B044)

        1.河北省秦皇島市燕山大學(xué)經(jīng)濟(jì)管理學(xué)院(066004)

        2.河北省秦皇島市中醫(yī)醫(yī)院

        3.東華軟件股份有限公司

        △通信作者:侯玉梅,E-mail:hym_1220@163.com

        猜你喜歡
        分類(lèi)糖尿病模型
        一半模型
        糖尿病知識(shí)問(wèn)答
        中老年保健(2022年5期)2022-08-24 02:35:42
        糖尿病知識(shí)問(wèn)答
        中老年保健(2022年1期)2022-08-17 06:14:56
        糖尿病知識(shí)問(wèn)答
        中老年保健(2021年5期)2021-08-24 07:07:20
        糖尿病知識(shí)問(wèn)答
        分類(lèi)算一算
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        分類(lèi)討論求坐標(biāo)
        數(shù)據(jù)分析中的分類(lèi)討論
        大尺度极品粉嫩嫩模免费| 亚洲一区二区综合色精品| 国产成社区在线视频观看| 扒开女性毛茸茸的视频| 日本韩国男男作爱gaywww| 亚洲精品午睡沙发系列| 国产美女69视频免费观看| 国产成人自拍视频视频| 国产激情久久久久影院小草| 国产精品一区二区久久不卡| 欧美人成在线播放网站免费| 国产精品自产拍av在线| 国产精品久久久久久久久久红粉 | 中文字幕av一区二区三区诱惑| 日本h片中文字幕在线| 精品水蜜桃久久久久久久| 午夜无码一区二区三区在线| 国产一区二区三区不卡在线播放| 国产麻花豆剧传媒精品mv在线| 在线亚洲午夜理论av大片| 亚洲嫩模高清在线视频| 成年人视频在线观看麻豆| 成人短篇在线视频夫妻刺激自拍| 精品女同一区二区三区| 久久精品噜噜噜成人| 亚洲春色AV无码专区在线播放| 国产精品国产三级国产不卡| 九九在线中文字幕无码| 国产露脸精品产三级国产av| 女同另类激情在线三区| 亚洲国产一区二区三区| a级毛片高清免费视频就| 亚洲精品成人av观看| 综合激情五月三开心五月| 国产一区二区三区乱码| 爱我久久国产精品| 亚洲一区有码在线观看| 中文人妻av久久人妻水蜜桃| 无遮高潮国产免费观看| 一区二区三区免费观看在线视频| 国产白浆在线免费观看|