亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于XGBoost的糖尿病風(fēng)險(xiǎn)預(yù)測(cè)

        2019-03-25 08:13:18蘇天培
        科技視界 2019年2期

        蘇天培

        【摘 要】糖尿病作為一種常見(jiàn)慢性疾病,目前無(wú)法根治,但卻能通過(guò)科學(xué)有效的干預(yù)、預(yù)防和治療,來(lái)降低發(fā)病率和提高患者的生活質(zhì)量。本文以真實(shí)脫敏的用戶(hù)體檢信息數(shù)據(jù)為基礎(chǔ),使用eXtreme Gradient Boosting (XGBoost)算法以及隨機(jī)森林模型構(gòu)建預(yù)測(cè)模型,以用戶(hù)血糖含量為目標(biāo)變量進(jìn)行預(yù)測(cè)。結(jié)果表明:在現(xiàn)有數(shù)據(jù)的基礎(chǔ)上,該模型可以有效預(yù)測(cè)糖尿病,為學(xué)術(shù)界和精準(zhǔn)醫(yī)療提供有力的技術(shù)支撐,相比于傳統(tǒng)的方法,精度更高。

        【關(guān)鍵詞】高潛用戶(hù);XGBoost;模型融合

        中圖分類(lèi)號(hào): R587.1 文獻(xiàn)標(biāo)識(shí)碼: A文章編號(hào): 2095-2457(2019)02-0155-002

        0 引言

        截至2010年,全球糖尿病患者已達(dá)2.85億,我國(guó)20歲以上成年人糖尿病患病率為9.7%,總數(shù)達(dá)9240萬(wàn)。糖尿病起病隱匿,早期癥狀不明顯,其慢性并發(fā)癥嚴(yán)重危害人類(lèi)健康。近年有關(guān)預(yù)測(cè)糖尿病患病風(fēng)險(xiǎn)的研究較多。傳統(tǒng)糖尿病的判定標(biāo)準(zhǔn)為:空腹血糖大于或等于7.0毫摩爾/升,或餐后兩小時(shí)血糖大于或等于11.1毫摩爾/升,即可確診[1]。傳統(tǒng)的方法是從大量的糖尿病患者中找出可能導(dǎo)致糖尿病的高危因素,這些因素主要與生活習(xí)慣有關(guān),然后通過(guò)宣傳來(lái)預(yù)防糖尿病,然而這些高危因素很可能提取的并不全面,而且無(wú)法預(yù)測(cè)糖尿病的患病概率。

        為了更好的、更科學(xué)的預(yù)測(cè)糖尿病,本文提出了一種使用XGBoost算法的糖尿病風(fēng)險(xiǎn)預(yù)測(cè)模型。模型針對(duì)用戶(hù)的體檢數(shù)據(jù)構(gòu)建預(yù)測(cè)模型,以血糖含量作為評(píng)判標(biāo)準(zhǔn),最后對(duì)模型的結(jié)果進(jìn)行模型融合,計(jì)算均方誤差(MSE)作為評(píng)分標(biāo)準(zhǔn),據(jù)此預(yù)測(cè)出用戶(hù)患有糖尿病的概率,以此作為參考。

        1 數(shù)據(jù)描述

        本文的全部數(shù)據(jù)來(lái)源于阿里提供的數(shù)據(jù),包括性別,年齡,體檢日期,天門(mén)冬氨酸氨基轉(zhuǎn)換酶,丙氨酸氨基轉(zhuǎn)換酶,堿性磷酸酶等共計(jì)40項(xiàng)基本數(shù)據(jù)以及血糖含量。用戶(hù)體檢數(shù)據(jù)可以大概分為用戶(hù)信息和用戶(hù)當(dāng)時(shí)數(shù)據(jù),(1)用戶(hù)信息:性別,年齡,體檢時(shí)期等,此項(xiàng)所有用戶(hù)都有,無(wú)缺失值;(2)用戶(hù)當(dāng)時(shí)數(shù)據(jù),如天門(mén)冬氨酸氨基轉(zhuǎn)換酶等,數(shù)據(jù)為數(shù)值型數(shù)據(jù),該數(shù)據(jù)可能存在缺失值,也可能存在極端值。

        對(duì)數(shù)據(jù)的預(yù)處理是非常必要的環(huán)節(jié)。由于原始數(shù)據(jù)存在缺失值,我們先要做的就是填補(bǔ)空值,由于平均值會(huì)受到極端值的影響,因此可以通過(guò)中位數(shù)進(jìn)行填充。由于XGBoost僅適用于處理數(shù)值型向量,因此處理訓(xùn)練集和測(cè)試集時(shí)需要將所有類(lèi)別型數(shù)據(jù)轉(zhuǎn)換為數(shù)值型數(shù)據(jù),獨(dú)熱編碼(one-hot)是常用的轉(zhuǎn)換方式[2]。本文數(shù)據(jù)集中的性別數(shù)據(jù)需要經(jīng)one-hot編碼后才能進(jìn)行訓(xùn)練。

        2 XGBoost算法介紹

        XGBoost屬于一種迭代決策樹(shù)算法,并且是在GBDT算法的基礎(chǔ)上進(jìn)行改進(jìn),但二者皆屬于boosting提升方法。XGBoost不同于GBDT,XGBoost可以支持多線(xiàn)程計(jì)算,這是因?yàn)樘卣髁信判蚝笠詨K的形式存儲(chǔ)在內(nèi)存中,在迭代中可以重復(fù)使用;雖然boosting算法迭代必須串行,但是在每輪迭代時(shí)同時(shí)對(duì)所有特征進(jìn)行計(jì)算,就可以做到并行,因此,實(shí)現(xiàn)并行化后在同等條件下比同類(lèi)算法速度提升1個(gè)數(shù)量級(jí)以上[3]。XGBoost允許特征值為缺失值,此時(shí)XGBoost將缺失值分別劃入左子樹(shù)或右子樹(shù),計(jì)算兩者間哪兒個(gè)更準(zhǔn)確就把缺失值放入哪兒個(gè)子樹(shù),這能大大減少特征的處理時(shí)間。XGBoost內(nèi)部包含大量的CART回歸樹(shù),使用殘差來(lái)提升模型,內(nèi)部的正則化則可以預(yù)防過(guò)擬合,從而保證模型的魯棒性。XGBoost算法支持自定義損失函數(shù),因此非常靈活。下面是該算法的一些重要推導(dǎo)公式:

        3 實(shí)驗(yàn)過(guò)程與結(jié)果

        我們的數(shù)據(jù)是由阿里提供的數(shù)據(jù)作為樣本。根據(jù)所提供的數(shù)據(jù),預(yù)測(cè)用戶(hù)的血糖含量,以此作為目標(biāo)變量來(lái)判斷用戶(hù)患有糖尿病的可能性。我們嘗試不同的參數(shù)來(lái)確定最有參數(shù),并且還將數(shù)據(jù)帶入隨機(jī)森林算法中,將其結(jié)果與XGBoost算法的結(jié)果、隨機(jī)森林與XGBoost的結(jié)果的均值做對(duì)比,從而選出最合適的預(yù)測(cè)模型,以均方誤差(MSE)作為評(píng)分標(biāo)準(zhǔn)。

        初始參數(shù)值設(shè)為弱分類(lèi)器個(gè)數(shù)為300,特征取樣比例0.7,步長(zhǎng)0.01,lambda為1,此時(shí)隨機(jī)森林,XGBoost,兩者均值的結(jié)果分別為1.5223,1.4840,1.4759。然后再取弱分類(lèi)器個(gè)數(shù)為400時(shí),三者結(jié)果為1.5324,1.4404,1.4665,弱分類(lèi)器個(gè)數(shù)為500時(shí),三者結(jié)果為1.5237,1.4294,1.4660。經(jīng)比較取弱分類(lèi)器個(gè)數(shù)為400,此時(shí)特征取樣比例選取0.6,三者結(jié)果為1.5182,1.4424,1.4649,特征取樣比例選取0.8,三者結(jié)果為1.5259,1.4466,1.4709.經(jīng)比較選取特征取樣比例為0.7。最后選擇lambda為2時(shí),三者結(jié)果為1.5339,1.4355,1.4610。

        由實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),無(wú)論何種參數(shù),XGBoost算法總體上都比隨機(jī)森林的擬合程度要更高。同時(shí)考慮到當(dāng)弱分類(lèi)器個(gè)數(shù)為300時(shí),XGBoost算法明顯欠擬合,弱分類(lèi)器個(gè)數(shù)為500時(shí),XGBoost算法開(kāi)始過(guò)擬合。橫向?qū)Ρ忍卣魅颖壤?,?dāng)比例為0.7時(shí),均方誤差(MSE)最小。最后當(dāng)lambda正則化參數(shù)設(shè)為2時(shí),進(jìn)一步處理了模型過(guò)擬合,從而減小了均方誤差。由于隨機(jī)森林算法引是基于bagging的,因此泛化性較好[4]。而XGBoost算法是基于boosting的,準(zhǔn)確度較高。

        模型融合的思想是訓(xùn)練多個(gè)模型,然后按照一定的方法集成一個(gè)模型[5]。每個(gè)單模型都擁有自己的優(yōu)勢(shì),而多模型融合相比于單模型,就可以獲得多種單模型的優(yōu)點(diǎn),因此會(huì)比單模型更準(zhǔn)確[6]。而上面的表格已經(jīng)計(jì)算出了不同參數(shù)下的隨機(jī)森林和XGBoost算法的結(jié)果。因此我們把隨機(jī)森林和XGBoost的結(jié)果相融合起來(lái),則結(jié)果既可以獲得較高的精度,也可以有一定的泛化性能,公式如下:

        其中n表示模型的個(gè)數(shù),Weight表示該模型權(quán)重,P表示模型i的預(yù)測(cè)概率值。由于血糖值為數(shù)值型,因此可以采用簡(jiǎn)單的平均值作為最后的結(jié)果。當(dāng)然也可以單獨(dú)設(shè)定單個(gè)模型的權(quán)重P,此處不再贅述。其中使用的XGBoost參數(shù)為:弱分類(lèi)器個(gè)數(shù)=400,特征取樣比例0.7,步長(zhǎng)0.01,lambda:2。其中使用的隨機(jī)森林參數(shù)為:弱分類(lèi)器個(gè)數(shù)=500,特征取樣比例0.7,步長(zhǎng)0.01,lambda:1。最終結(jié)果均方誤差(MSE)為:1.4609。以上分析結(jié)果說(shuō)明,采用XGBoost算法和隨機(jī)森林作模型融合可以實(shí)現(xiàn)預(yù)測(cè)糖尿病的概率,對(duì)于指導(dǎo)行業(yè)正常發(fā)展有一定的意義。

        4 結(jié)論

        本文基于一種XGBoost算法,使用阿里的數(shù)據(jù)記錄,根據(jù)用戶(hù)的信息和體檢數(shù)據(jù)預(yù)測(cè)血糖值,把結(jié)果與隨機(jī)森林算法的結(jié)果取平均作模型融合,并用MSE值進(jìn)行評(píng)估。結(jié)果顯示此方法得出的結(jié)果正確率相對(duì)較高,泛化性能很好,對(duì)相關(guān)行業(yè)具有實(shí)際的指導(dǎo)意義。

        【參考文獻(xiàn)】

        [1]王美子,石巖.基于數(shù)據(jù)挖掘當(dāng)代醫(yī)家治療糖尿病周?chē)窠?jīng)病變的組方規(guī)律分析[J/OL].中醫(yī)藥臨床雜志,2018(12).

        [2]黃騫,鄭穎爾,鄧鈺橋.基于XGBoost節(jié)假日路網(wǎng)流量預(yù)測(cè)研究[J].公路,2018,63(12).

        [3]賈銳軍,冉祥來(lái),吳俊霖,戴晨斌,祁志民,陳潔.基于XGBoost算法的機(jī)場(chǎng)旅客流量預(yù)測(cè)[J].民航學(xué)報(bào),2018,2(06).

        [4]杭琦,楊敬輝.機(jī)器學(xué)習(xí)隨機(jī)森林算法的應(yīng)用現(xiàn)狀[J/OL].電子技術(shù)與軟件工程,2018(24).

        [5]白智遠(yuǎn),溫從威,楊錦浩,陳智,呂品.一種融合歷史均值與提升樹(shù)的客流量預(yù)測(cè)模型[J/OL].計(jì)算機(jī)技術(shù)與發(fā)展,2019(04).

        [6]王夢(mèng)芹.基于隨機(jī)森林的個(gè)人信用評(píng)價(jià)指標(biāo)分析[D].安徽大學(xué),2018.

        少妇一级aa一区二区三区片| 国产精一品亚洲二区在线播放| 特级毛片a级毛片免费播放| 精品人妻无码中文字幕在线| 按摩女内射少妇一二三区| 亚洲av色图一区二区三区| 精品亚洲成a人无码成a在线观看| 国产麻无矿码直接观看| 亚洲日韩欧洲无码av夜夜摸| 亚洲另类欧美综合久久图片区 | 亚洲s色大片在线观看| av中文字幕潮喷人妻系列| 国产精品天天狠天天看| 无码视频一区二区三区在线播放| 国产一级黄色片一区二区| 射精区-区区三区| 免费无码午夜福利片69| 亚洲精品成人av一区二区| 亚洲av一二三四五区在线| 欧美国产亚洲日韩在线二区| 久久精品视频在线看99| 欧美手机在线视频| 人妻少妇被粗大爽视频| 成人欧美日韩一区二区三区| 午夜家庭影院| 国产精品视频免费的| 性色国产成人久久久精品二区三区| 亚洲精品久久区二区三区蜜桃臀| 久久久久成人精品无码| av中文字幕综合在线| 区二区三区亚洲精品无| 人人妻人人澡人人爽国产| 乱人伦视频中文字幕| www.av在线.com| 国产一区二区黄色网页| 亚洲综合色无码| 色妞色综合久久夜夜| 国产一区二区三区杨幂| 国产av一级黄一区二区三区| 久久精品国产只有精品96| 婷婷综合久久中文字幕蜜桃三电影|