亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        決策樹算法在老年性癡呆病因病機(jī)分析中的應(yīng)用

        2013-04-23 05:16:54山西中醫(yī)學(xué)院醫(yī)藥管理學(xué)院
        電子世界 2013年2期
        關(guān)鍵詞:字段決策樹增益

        山西中醫(yī)學(xué)院醫(yī)藥管理學(xué)院 楊 婕

        老年性癡呆,又叫阿爾茨海默病(Alzheimer’s Disease,AD)是一種多發(fā)于老年人的神經(jīng)退行性疾病,臨床特征主要有知功能障礙和記憶損害。據(jù)報道,老年期癡呆中AD是全世界最致殘和最累贅的疾病之一[1],除了脊髓損傷和晚期癌癥以外,AD致殘加權(quán)顯著高于任何其他健康情況[2],但目前為止AD的早期防治卻難以落實。這主要是因為其發(fā)病的特殊性,且存在地域性差異,而以往研究又缺乏對AD證候類型、證候診斷的統(tǒng)一標(biāo)準(zhǔn),所以想要研究AD的病因和發(fā)病機(jī)制就頗有難度。

        如何對AD的中醫(yī)病因進(jìn)行科學(xué)分類和識別,進(jìn)而總結(jié)提煉歸類出可疑癡呆及確診癡呆各自不同期的中醫(yī)病機(jī)演化規(guī)律、致病危險因素以及證候類型的分布規(guī)律,已成為AD的有效防治迫切需要解決的問題。

        本文的主要工作就是深入研究決策樹C5.0算法,并利用太原市迎澤區(qū)、萬柏林區(qū)、杏花嶺區(qū)三個市區(qū)共計1500條數(shù)據(jù)進(jìn)行多次實驗,根據(jù)結(jié)果的準(zhǔn)確性不斷修正算法,最后得到老年性癡呆病因病機(jī)的分析模型,用來對太原市人口數(shù)據(jù)進(jìn)行患病預(yù)測。

        1.決策樹C5.0算法

        決策樹(Decision Tree)算法是使用最為廣泛的分類預(yù)測方法之一,可實現(xiàn)數(shù)據(jù)內(nèi)在規(guī)律的探究和新數(shù)據(jù)對象的分類預(yù)測。它既可以處理例如“年齡”、“家庭收入”等數(shù)值型數(shù)據(jù),又很擅長處理如“受教育程度”、“家族遺傳史”等非數(shù)值型數(shù)據(jù),避免了許多數(shù)據(jù)預(yù)處理工作,因此非常適合于研究中醫(yī)病因分析。

        決策樹的概念最早出現(xiàn)在CLS(Concept learning system)中,它是由Hunt等人在1996年提出的[3]?,F(xiàn)在很多算法都是CLS算法的改進(jìn),最經(jīng)典的算法之一便是C5.0算法。該算法通過計算輸入變量的信息增益率確定最佳分組變量和分割點。

        將輸出變量作為信息源發(fā)出的信息U,輸入變量看成信宿接收到的一系列信息V。其信息增益為:

        Gains( U ,V)=Ent(U)-Ent(U|V)

        Ent( U )是平均不確定性:

        Ent( U |V)是條件熵:

        C5.0根據(jù)能夠帶來最大信息增益的字段拆分樣本。第一次拆分確定的樣本子集隨后再根據(jù)另一個字段進(jìn)行拆分,直到樣本子集不能再拆分為止。最后檢驗最低層次的拆分,采用后修剪法從葉節(jié)點向上逐層判斷錯誤率,剔除或者修建對沒有顯著貢獻(xiàn)的樣本子集。

        2.基于決策樹C5.0算法的老年性癡呆病因病機(jī)預(yù)測模型

        2.1 數(shù)據(jù)收集

        本文采用流行學(xué)的方法在太原市迎澤區(qū)、萬柏林區(qū)、杏花嶺區(qū)三個市區(qū)的醫(yī)院和社保中心進(jìn)行調(diào)查,收集共計1500條有效信息作為數(shù)據(jù)集合。其中每條記錄由23個字段組成。其中前22個字段是對調(diào)研者信息的描述,包括:id、性別、年齡、民族、職業(yè)、文化程度、婚姻狀況、居住方式、飲食偏嗜、是否飲酒、是否吸煙、是否癡呆、有無腦血管意外、有無帕金森病、有無精神疾患、有無心血管疾病、有無神經(jīng)系統(tǒng)疾病、有無呼吸系統(tǒng)疾病、有無消化系統(tǒng)疾病、有無內(nèi)分泌系統(tǒng)疾病、有無血液系統(tǒng)疾病、有無其他系統(tǒng)疾病。最后一個字段是對調(diào)研者是否患病的判斷,分為:“老年性癡呆(AD)”、“血管性癡呆(VD)”、“混合型癡呆(MD)”和“未患病”四個類別。我們對前22字段進(jìn)行了分類,如表1所示。

        這22個字段是除了id字段,其他都是現(xiàn)代醫(yī)學(xué)的高危因素。在模型建立初期,我們先將其都納入分析體系中,作為輸入變量。

        表1 樣本字段分類

        表2 各樣本中患病情況比率

        表3 第一層節(jié)點各字段信息增益

        表4 初次建模分類結(jié)果的正確率

        表5 初次建模分類結(jié)果與字段病型重合矩陣(行表示實際值)

        我們對1500條樣本記錄進(jìn)行分區(qū)處理,隨機(jī)抽取約80%(1191條)作為訓(xùn)練樣本,約20%(309條)作為測試樣本。分區(qū)后,總樣本、訓(xùn)練樣本和測試樣本中患病情況的分布如表2。

        2.2 數(shù)據(jù)處理

        對已采集到的樣本數(shù)據(jù)進(jìn)行預(yù)處理,除噪、除冗余以及連續(xù)型屬性概化為區(qū)間,我們將其儲存到計算機(jī)之中,得到最終用于建模的樣本數(shù)據(jù)集合。

        2.3 初步構(gòu)建決策樹

        數(shù)據(jù)數(shù)理完畢后開始構(gòu)建決策樹。首先將輸出變量(病型)看成是發(fā)出信息的U,共計1191條數(shù)據(jù),AD有117條,VD有109條,MD有18條,未患病947條,所以其平均不確定性為

        之后分別計算除id之外其他字段的條件熵。以T2(性別)為例,分類有2個,其中男性580條,AD有46條,VD有53條,MD有8條,未患病472條;女性611條,AD有71條,VD有55條,MD有10條,未患病475條,所以條件熵為:

        于是T2的信息增益為:

        Gains(U,T2)=Ent(U)-Ent(U|T2)=0.999-0.996=0.003

        以此類推,分別計算其他20個字段的信息增益,具體信息增益見表3。

        發(fā)現(xiàn)最大的為飲食偏嗜,說明該字段消除信源的平均不確定性最強(qiáng),因此選用它作為最佳分組變量。由于該變量為分類型變量,所以按照其取值,分為6組,形成決策樹除根節(jié)點外的第一層,是一個六叉樹。之后重復(fù)上面的過程,形成一棵決策樹。

        決策樹構(gòu)建之后,為了避免該決策樹與訓(xùn)練樣本的過度擬合,開始對其修剪。修剪方法是從葉節(jié)點向上逐層計算節(jié)點的真實誤差的估計上限ei。

        如果葉節(jié)點的誤差估計大于父節(jié)點的誤差估計,則剪掉該葉節(jié)點。由于數(shù)據(jù)龐大,在這里我們借助Clementine12.0完成決策樹的構(gòu)建。對初次形成的決策樹進(jìn)行評估分析,具體數(shù)據(jù)見表4,表5。

        從上表的數(shù)據(jù)可以看出,對已患病的數(shù)據(jù)錯判率較高,為了便于實際中為預(yù)防AD的發(fā)生,我們通過調(diào)整參數(shù)對決策樹進(jìn)行修正。

        2.4 決策樹的修正

        為了保證該模型能有效監(jiān)控AD的發(fā)生,我們在誤判成本中,考慮盡量避免將AD判為其他取值。

        同時為了更好的反應(yīng)數(shù)據(jù)規(guī)律,減少預(yù)測結(jié)論的偏差,我們采用Boosting技術(shù)對現(xiàn)有訓(xùn)練樣本反復(fù)抽樣以增加樣本集。在這里我們迭代了5次,也就是建立了5個模型。之后對這5個模型進(jìn)行投票,計算其權(quán)數(shù)的總和。總和最高的就是決策樹的最終分類結(jié)果。

        2.5 最終結(jié)果及分析

        經(jīng)過參數(shù)修正,我們從5個模型中選取權(quán)數(shù)和最大(91.27%)的一個模型最為最終結(jié)果。對其進(jìn)行評估分析,得到表6,表7。

        從表6和表7中的數(shù)據(jù)可以看出,最終的模型總正確率和錯誤率與初次建模的結(jié)果基本一致,但是對于患病的判斷率明顯提高,這符合我們建立模型的初衷。

        3.結(jié)論

        本文介紹了C5.0算法構(gòu)建決策樹的方法,并利用該算法對老年性癡呆建立判斷模型,之后用太原市迎澤區(qū)、萬柏林區(qū)、杏花嶺區(qū)三個市區(qū)的醫(yī)院和社保中心共計1500條數(shù)據(jù)進(jìn)行驗證。通過剪枝、損失成本矩陣和Boosting技術(shù)對得到的模型進(jìn)行修正,最終得到可信度較高,并具有風(fēng)險成本低的模型。這說明決策樹C5.0算法建立的老年性癡呆判斷模型對實際分析具有一定的指導(dǎo)意義,能夠為預(yù)防老年性癡呆的發(fā)生提供決策支持。

        表6 最終模型分類結(jié)果的正確率

        表7最終模型分類結(jié)果與字段病型重合矩陣(行表示實際值)

        [1]田金洲,時晶,苗迎春等.阿爾茨海默病的流行病學(xué)特點及其對公共衛(wèi)生觀念的影響[J].湖北中醫(yī)學(xué)院學(xué)報,2009,11(1):3-7.

        [2]WorldHealth Organization.WorldHealth Report2003-Shaping the future[J].Geneva:WHO,2003.

        [3]季桂樹,陳沛玲,宋航.決策樹分類算法研究綜述[J].科技廣場,2007(1):9-12.

        [4]郭蕾,王永炎,張俊龍,等.關(guān)于證候因素的討論[J].中國中西醫(yī)結(jié)合雜志,2004,24(7):643-644.

        [5]Quinlan J R."C5"[J]-http://rulequest.com 2007.

        [6]Rastogi R;Shim K Public:A decision tree classi fi er that integrates building and pruning[J].1998.

        [7]張偉,張素貞.粗糙決策樹生成方法及應(yīng)用[C].1999.

        [8]石金彥,李旻辰,海燕.基于決策樹的數(shù)據(jù)挖掘方法在故障診斷中的應(yīng)用[J].水利電力機(jī)械,2006,28(4).

        猜你喜歡
        字段決策樹增益
        圖書館中文圖書編目外包數(shù)據(jù)質(zhì)量控制分析
        基于增益調(diào)度與光滑切換的傾轉(zhuǎn)旋翼機(jī)最優(yōu)控制
        基于單片機(jī)的程控增益放大器設(shè)計
        電子制作(2019年19期)2019-11-23 08:41:36
        一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
        基于Multisim10和AD603的程控增益放大器仿真研究
        電子制作(2018年19期)2018-11-14 02:37:02
        決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        基于決策樹的出租車乘客出行目的識別
        基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
        CNMARC304字段和314字段責(zé)任附注方式解析
        無正題名文獻(xiàn)著錄方法評述
        久久av一区二区三区黑人| 性一乱一搞一交一伦一性| 国语对白做受xxxxx在线中国| 亚洲熟妇少妇任你躁在线观看无码| 国产精品v片在线观看不卡| 国产精品免费大片| 中文人妻AV高清一区二区| 亚洲精品一区二区视频| 久久精品一区二区熟女| 久久精品国产亚洲av无码偷窥| 久久www色情成人免费观看| 国产在线不卡AV观看| 青青青伊人色综合久久亚洲综合| 亚洲国产精品无码久久九九大片健 | 精品久久亚洲中文字幕| 伊人色综合久久天天五月婷| 国产男女无遮挡猛进猛出| 人妻无码αv中文字幕久久琪琪布| 综合五月网| 亚洲美女性生活一级片| 国内激情一区二区视频| 91精品久久久老熟女91精品| 末成年人av一区二区| 日韩精品一区二区三区中文 | 一 级做人爱全视频在线看| 久久精品国产精品国产精品污| 亚洲国产麻豆综合一区| 二区三区视频在线观看| 男女主共患难日久生情的古言| 欧美成人猛交69| 国产精品户露av在线户外直播| 国产精品一区区三区六区t区| 精品少妇人妻av一区二区蜜桃| 国产a级三级三级三级| 亚洲精品一区国产欧美| 精品无码中文视频在线观看| 亚洲精品乱码久久久久99| 亚洲午夜精品第一区二区| 精品国产天堂综合一区在线| 中文亚洲成a人片在线观看| 久久婷婷国产精品香蕉|