亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于樹模型的糖尿病分類預(yù)測研究

        2023-09-13 12:14:48汪藝璇
        黑龍江科學(xué) 2023年16期
        關(guān)鍵詞:分類特征糖尿病

        汪藝璇

        (河北地質(zhì)大學(xué)經(jīng)濟(jì)學(xué)院,石家莊 050030)

        0 引言

        糖尿病是一種慢性疾病,目前還無法徹底治愈,其以高血糖為主要發(fā)病特征,會引發(fā)一系列的并發(fā)癥。由于知曉率較低,往往患者發(fā)現(xiàn)患病時已經(jīng)產(chǎn)生了一系列的并發(fā)癥。若能找出糖尿病患者的相關(guān)特征,對其進(jìn)行早期預(yù)測,防患于未然,可令患者更早的接受治療,有助于更好地預(yù)防。目前,關(guān)于糖尿病分類預(yù)測的研究取得了一定的進(jìn)展,汪迎歸[1]提出優(yōu)化及改進(jìn)的Stacking分類預(yù)測模型,取得了較好的預(yù)測結(jié)果。楊雨含等[2]基于隨機(jī)森林及序聯(lián)合搜索的Wrapper式特征選擇算法精度達(dá)到81.13%。劉文博等[3]基于迭代隨機(jī)森林對糖尿病數(shù)據(jù)集進(jìn)行分類,得到的分類結(jié)果較好。苗豐順[4]使用了一種新型的Boosting算法進(jìn)行糖尿病分類,預(yù)測效果較好。但目前基于樹模型預(yù)測方法的糖尿病分類研究文獻(xiàn)較少,樹模型是以決策為基礎(chǔ)的分類方法,包含單一的決策樹及決策樹組合模型。本研究以糖尿病分類為研究對象,分析對比了一系列樹模型,如C4.5決策樹生成算法、CART決策樹生成算法、Bagging算法、隨機(jī)森林、Adaboost算法等在糖尿病分類預(yù)測中的性能。

        1 算法概述

        樹模型是一種以決策樹模型為基礎(chǔ)的模型,包括單一的決策樹模型及組合的決策樹模型。其中單一的決策樹模型又發(fā)展出了不同的決策樹生成算法,如C4.5與CART算法可用來生產(chǎn)決策樹,這兩種算法的區(qū)別在于特征選擇方式不同,C4.5算法使用了信息增益比,CART算法則采用了基尼指數(shù)對特征進(jìn)行分類。組合決策樹模型是以單一的決策樹模型組合生成一系列的樹集體進(jìn)行決策,如Bagging算法。主要思想是隨機(jī)采樣,即在訓(xùn)練集上隨機(jī)采樣,建立不同的決策樹,合成一個強(qiáng)分類器,合成的方法為簡單投票法,得到票數(shù)最多的標(biāo)簽類別作為投票結(jié)果。隨機(jī)森林算法也稱為Bagging的加強(qiáng)版,對決策樹的建立做了一些改進(jìn),在建立過程中引入隨機(jī)特征選擇。Adaboost算法是用加權(quán)多數(shù)表決的一種決策樹集成方法,在訓(xùn)練過程中如果某個樣本在前一輪決策樹的建立中被錯分,那么在建立下一棵決策樹時就會給它較大的權(quán)重,令其受到更多的關(guān)注。

        1.1 決策樹

        決策樹模型整體結(jié)構(gòu)像一棵樹,從最開始的一個節(jié)點出發(fā),通過數(shù)據(jù)訓(xùn)練選擇最優(yōu)特征并不斷分叉下去,是很好的一種分類方法,當(dāng)決策數(shù)據(jù)結(jié)果訓(xùn)練好以后,輸入樣本便能預(yù)測出該樣本屬于哪種類別,適用于糖尿病分類問題。本研究主要探究決策樹生成算法中的C4.5與CART算法。

        在C4.5生成算法[5]中,以信息增益比進(jìn)行特征選取,若設(shè)訓(xùn)練集為D,特征為A,信息增益為g(D,A),訓(xùn)練集D關(guān)于特征A的值的熵為HA(D),具體表達(dá)式如下:

        (1)

        其中,n為特征A取值的個數(shù),特征A對訓(xùn)練集D的信息增益比為其信息增益與HA(D)的比,具體表達(dá)式為:

        (2)

        在CART生成算法[6]中,以基尼指數(shù)進(jìn)行特征選擇,假設(shè)有K個類,樣本點屬于第k類的概率為pk,那么概率分布的基尼指數(shù)定義表達(dá)式為:

        (3)

        由于糖尿病分類是一個二分類問題,若設(shè)樣本屬于糖尿病的概率為p,則概率分布的基尼指數(shù)表達(dá)式具體為:

        Gini(p)=2p(1-p)

        (4)

        對于一個給定的樣本集合D,基尼指數(shù)按照如下公式定義:

        (5)

        其中,K是類總共的數(shù)目,Ck是D中屬于第k類的樣本的一個子集。

        1.2 決策樹組合模型

        決策樹組合模型則是把許多的樹組合在一塊進(jìn)行分類預(yù)測,單棵樹的學(xué)習(xí)能力一般不如許多個樹一塊學(xué)習(xí),這樣集成起來的分類預(yù)測能力強(qiáng)。若把單棵樹看做弱分類器,那么決策樹組合模型就是合成多個樹,每個樹的結(jié)果綜合在一塊,然后一起給出最終結(jié)果,根據(jù)特征選擇方式及弱分類器集成方式的不同形成了多種決策樹組合模型,包括Bagging算法、隨機(jī)森林算法、Adaboost算法。

        Bagging算法是一種相對于隨機(jī)森林與AdaBoost算法簡單得多的算法。這種算法的思想很簡單,是把每個決策樹看做是一個人,很多人組成一個群體,那么要決策一件事情時,每個人都形成一種自己的判斷,然后所有人一塊進(jìn)行投票,得到最多的類別作為最終的決策。以糖尿病分類預(yù)測為例,在Bagging算法中,設(shè)樣本集為D={(x1,y1),(x2,y2),…,(xm,ym)},其中m代表樣本量,為768,xi(i=1,2,…,m)∈R8,yi(i=1,2,…,m)∈R,t=1,2,…,T,每次采樣m′(

        (6)

        隨機(jī)森林算法[7]是一種使用廣泛的集成樹分類算法,因其良好的分類性能得到了人們的認(rèn)可,是Bagging算法的升級版,對t=1,2,…,T每次在集合D中隨機(jī)采樣形成集合Dm′,但是整個過程與Bagging算法不同,在訓(xùn)練決策樹模型節(jié)點時,只選取一部分樣本特征,在其中選擇一個最優(yōu)特征來做決策樹的下一步分叉決策,形成弱分類器Mt(Dm′),最終綜合成強(qiáng)分類器,其表達(dá)式為:

        (7)

        Adaboost算法[8]的總體思想是形成一系列弱分類器,再組合成強(qiáng)分類器,但與前兩種組合算法存在極大的不同。如弱分類器組成強(qiáng)分類器的方法不同,不再采用簡單隨機(jī)投票得票多勝出的方法,而是進(jìn)行一定的綜合,這種綜合體現(xiàn)為偏重多數(shù)的決策辦法,即在決策時向分類誤差率小的樹進(jìn)行偏斜。在構(gòu)建下一輪弱分類器時,更加重視被前一輪樹分錯的樣本,算法步驟是對數(shù)據(jù)的權(quán)值分布進(jìn)行初始化,即:

        (8)

        對t=1,2,…,T用具有Wt的訓(xùn)練集進(jìn)行學(xué)習(xí)得到分類樹Ηt,計算它的分類誤差率:

        (9)

        計算它的系數(shù)為:

        (10)

        更新訓(xùn)練集的權(quán)值分布為:

        (11)

        構(gòu)建多個樹的線性組合,得到最終的模型為:

        (12)

        2 模型構(gòu)建與結(jié)果

        2.1 數(shù)據(jù)來源與預(yù)處理

        數(shù)據(jù)來源為UCI上的糖尿病數(shù)據(jù)集,該數(shù)據(jù)集共有樣本768條,數(shù)據(jù)中給出了每個樣本的分類標(biāo)簽,其中為糖尿患者的樣本為268,非糖尿病患者的數(shù)據(jù)500條,可見樣本標(biāo)簽分類較為均衡,比值約為3∶5。數(shù)據(jù)集的特征變量共有8個,變量名稱分別為Pregnancies、Glucose、BloodPressure、SkinThickness、Insulin、BMI、DiabetesPedigreeFunction、Age,取值均為連續(xù)型數(shù)據(jù)。利用這8個特征數(shù)據(jù)訓(xùn)練分類器之前,檢查原始數(shù)據(jù)集,觀察其中是否有缺失,發(fā)現(xiàn)數(shù)據(jù)集較完整,無缺失,較為理想,將數(shù)據(jù)格式調(diào)整為數(shù)值型數(shù)據(jù)即可投入分類器訓(xùn)練中。

        2.2 數(shù)據(jù)的描述性統(tǒng)計

        對數(shù)據(jù)的描述性統(tǒng)計分析可以從總體上掌握統(tǒng)計特征,故對糖尿病患者的8個特征變量數(shù)據(jù)進(jìn)行描述性統(tǒng)計,包括數(shù)據(jù)最大值、最小值等,結(jié)果如表1所示。

        表1 特征變量的描述性統(tǒng)計分析

        通過對8個特征變量的描述性統(tǒng)計分析可知,Pregnancies的最小值為0,最大值為17,平均值為3.8451,標(biāo)準(zhǔn)差為3.36958,偏度為0.902,峰度為0.159,Age的最小值為21歲,最大值為81歲,平均為33歲,以此類推,可以得到其他各特征變量的描述性統(tǒng)計結(jié)果。2.3 兩種決策樹模型的建立與結(jié)果分析

        C4.5算法下的模型,利用R軟件進(jìn)行決策樹的建立及結(jié)果分析,利用數(shù)據(jù)訓(xùn)練出決策樹,繪制出原始的決策樹,發(fā)現(xiàn)其枝葉較為繁茂,故需要對決策樹進(jìn)行修剪,主要通過參數(shù)U進(jìn)行設(shè)置,參數(shù)U代表不對決策樹進(jìn)行剪枝,默認(rèn)值為True,將模型的參數(shù)U設(shè)置為False,并將剪枝過程的置信閾值設(shè)為0.05,每個葉結(jié)點最小觀察樣本量設(shè)置為6。參數(shù)B代表每個節(jié)點僅分為兩個分支,默認(rèn)值為True,設(shè)置為False。繪制簡化版的決策樹如圖1所示。

        圖1 決策樹C4.5

        建立CART算法生成的決策樹模型,利用數(shù)據(jù)訓(xùn)練出原始的決策樹,發(fā)現(xiàn)訓(xùn)練出的模型較為復(fù)雜,故綜合模型復(fù)雜度及預(yù)測精度進(jìn)行了決策樹剪枝,計算復(fù)雜度列表并進(jìn)行可視化,繪制了模型復(fù)雜度與模型錯誤率的關(guān)系圖,如圖2所示。

        圖2 復(fù)雜度與模型錯誤率關(guān)系圖

        經(jīng)過綜合考量,選取復(fù)雜度為0.01,建立決策樹如圖3所示。

        圖3 決策樹CART

        給出以上兩種算法下決策樹的分類混淆矩陣及模型預(yù)測精度。經(jīng)過分析,訓(xùn)練并建立最終的決策樹模型,為了比較分析兩種模型的預(yù)測性能,給出分類預(yù)測混淆矩陣如表2、表3所示。

        表2 決策樹C4.5分類預(yù)測混淆矩陣

        表3 決策樹CART分類預(yù)測混淆矩陣

        由表2、表3可見,決策樹C4.5將30名未患糖尿病的人錯分成了糖尿病患者,還有131名糖尿病患者沒有識別出來,而決策樹CART將44名未患糖尿病的人分成了糖尿病患者,還有88名糖尿病患者沒有識別出來。根據(jù)這兩個混淆矩陣,計算了C4.5算法與CART算法生成的決策樹預(yù)測錯誤率分別為20.96%、17.19%,可見CART算法生成的決策樹對糖尿病的分類預(yù)測效果更好一些。

        2.3 三種決策樹組合模型的建立與結(jié)果分析

        Bagging算法較為簡單,主要通過建立多個決策樹進(jìn)行投票,觀察哪個得票最多,從而做出決策。在隨機(jī)森林算法中,可根據(jù)OBB錯判率來決定樹的棵數(shù),故繪制隨機(jī)森林的OBB錯判率及決策樹棵樹之間的關(guān)系圖進(jìn)行判斷。利用R軟件繪制的OBB錯判率及決策樹棵樹之間的關(guān)系如圖4所示:

        圖4 OBB錯判率與決策樹棵樹之間的關(guān)系

        通過圖4可以看出,當(dāng)建立的決策樹棵樹為100棵時,隨機(jī)森林的模型錯判率趨于穩(wěn)定,故采用100棵樹建立隨機(jī)森林模型。Adaboost算法是通過多棵樹建立決策樹組合預(yù)測,不再采取簡單投票而是進(jìn)行線性綜合,利用R軟件依據(jù)糖尿病數(shù)據(jù)進(jìn)行模型擬合。

        對建立的3種決策樹組合模型在糖尿病數(shù)據(jù)集上的分類性能進(jìn)行分析比較,給出3種決策樹組合模型分類預(yù)測的混淆矩陣,如表4、表5、表6所示。

        表4 Bgging算法分類預(yù)測混淆矩陣

        表5 隨機(jī)森林算法分類預(yù)測混淆矩陣

        表6 Adaboost算法分類預(yù)測混淆矩陣

        由表4、表5、表6可見,Bagging算法只將1名未患糖尿病的人錯分成了糖尿病患者,只有8名糖尿病患者沒有識別出來。隨機(jī)森林算法與Adaboost算法則全部分類正確,所有糖尿病患者都識別出來了,且沒有把未患糖尿病的人錯分為糖尿病患者。根據(jù)這3個混淆矩陣計算Bagging算法、隨機(jī)森林算法及Adaboost算法在糖尿病分類預(yù)測中的錯誤率分別為1.17%、0%、0%,可見隨機(jī)森林算法與Adaboost算法生成的決策樹對糖尿病的分類預(yù)測效果更好一些。

        2.4 糖尿病分類預(yù)測變量的重要性分析

        通過以上2種決策樹生成算法及3種決策樹組合預(yù)測模型的分類結(jié)果可知,這5種樹模型的分類預(yù)測性能從總體上看,3種決策樹組合分類模型皆優(yōu)于單一的決策樹分類預(yù)測模型,證實了決策樹組合模型在糖尿病分類預(yù)測中的優(yōu)越性。選擇Adaboost模型作為糖尿病預(yù)測模型,進(jìn)行輸入變量的重要性分析,以確定影響糖尿病發(fā)生的重要特征,為糖尿病的預(yù)防提供參考。利用R軟件計算出8個糖尿病特征變量的重要性,如表7所示。

        表7 特征變量重要性

        為了更直觀地看出8個變量的重要性大小關(guān)系,進(jìn)一步對8個變量的數(shù)據(jù)重要性進(jìn)行可視化,繪制成柱形圖如圖5所示。

        圖5 輸入變量的重要性

        由圖5可知,對糖尿病患者進(jìn)行分類預(yù)測的過程中,變量重要性從大到小依次為Glucose、BMI、DiabetesPedigreeFunction、BloodPressure、Age、Pregnancies、SkinThickness、Insulin。其中,Glucose、BMI、DiabetesPedigreeFunction三個變量的重要性較大,分值均在18分以上,故在糖尿病的預(yù)防及診斷過程中要特別關(guān)注這3個特征變量的情況。

        3 結(jié)論和建議

        分析了決策樹C4.5、決策樹CART、Bagging、隨機(jī)森林及Adaboost等5種算法在糖尿病預(yù)測中的表現(xiàn),發(fā)現(xiàn)決策樹C4.5將30名未患糖尿病的人錯分成了糖尿病患者,還有131名糖尿病患者沒有識別出來;決策樹CART將44名未患糖尿病的人分成了糖尿病患者,還有88名糖尿病患者沒有識別出來;Bagging算法只將1名未患糖尿病的人錯分成了糖尿病患者,只有8名糖尿病患者沒有識別出來;隨機(jī)森林算法及Adaboost算法則全部分類正確。這5種樹模型的分類預(yù)測錯誤率分別為20.96%、17.19%、1.17%、0%、0%,從總體上看,3種決策樹組合分類模型皆優(yōu)于單一的決策樹分類預(yù)測模型,證實了決策樹組合模型在糖尿病分類預(yù)測中的優(yōu)越性。選擇Adaboost模型找到糖尿病的影響因素相對重要性,發(fā)現(xiàn)Glucose、BMI、DiabetesPedigreeFunction 3個變量的重要性較大,故在糖尿病預(yù)防及診斷過程中要特別關(guān)注這3個特征變量的情況。

        猜你喜歡
        分類特征糖尿病
        糖尿病知識問答
        中老年保健(2022年5期)2022-08-24 02:35:42
        糖尿病知識問答
        中老年保健(2022年1期)2022-08-17 06:14:56
        糖尿病知識問答
        中老年保健(2021年5期)2021-08-24 07:07:20
        糖尿病知識問答
        分類算一算
        如何表達(dá)“特征”
        不忠誠的四個特征
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        精品亚洲一区二区三区四区五区| 中文无字幕一本码专区| 91精品国产色综合久久不卡蜜| 欧美 亚洲 国产 日韩 综AⅤ| 中文字幕成人精品久久不卡| 三级黄色片一区二区三区| 国产大屁股白浆一区二区三区| 中文字幕中文字幕777| av在线免费高清观看| 亚洲码欧美码一区二区三区| 欧美猛少妇色xxxxx猛交| 无码吃奶揉捏奶头高潮视频| 亚洲av伊人久久综合密臀性色 | 久久国产成人精品国产成人亚洲| 国产一区二区精品在线观看| 亚洲先锋影院一区二区| 亚洲区1区3区4区中文字幕码| 人妻有码中文字幕在线| 亚洲国产丝袜久久久精品一区二区 | 亚洲精品国产成人AV| 国产老妇伦国产熟女老妇高清| 久久久久AV成人无码网站| 国产极品嫩模大尺度在线播放| 99久久婷婷国产精品综合网站| 邻居人妻的肉欲满足中文字幕| 日本成本人片视频免费| 丁字裤少妇露黑毛| 欧美成人一区二区三区| 日韩专区欧美专区| 99久久国语露脸国产精品| 久久一二三四区中文字幕| 乳乱中文字幕熟女熟妇| 激情综合五月| 色播久久人人爽人人爽人人片av| 激情五月婷婷综合| 高潮社区51视频在线观看| 一区二区视频在线国产| 亚洲国产精品成人天堂| 国产亚洲日韩在线三区| 国产亚洲女在线线精品| 精品国产三区在线观看|