亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于大規(guī)模不平衡數(shù)據(jù)集的糖尿病診斷研究①

2018-02-07 02:41:59魏勛,蔣凡

計(jì)算機(jī)系統(tǒng)應(yīng)用 2018年1期

魏勛,蔣凡

(中國(guó)科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)學(xué)院,合肥 230022)

糖尿病是一種慢性非傳染性疾病,主要包括1型糖尿病,2型糖尿病和妊娠型糖尿病.其中超過(guò)90%的患者為2型糖尿病.如果缺乏良好的干預(yù)和治療,糖尿病患者有一定風(fēng)險(xiǎn)患上一系列并發(fā)癥,進(jìn)而影響健康甚至危及生命.并發(fā)癥主要有致盲,腎衰竭,心腦血管疾病,中風(fēng)以及截肢等.正是由于這些嚴(yán)重的并發(fā)癥,糖尿病已經(jīng)成為全球第四大致死疾病.

在過(guò)去幾十年中,糖尿病發(fā)病率逐漸上升[1].根據(jù)WHO估計(jì),2014年全球約有4.22億糖尿病患者,而在1980年這個(gè)數(shù)字僅為1.08億.在過(guò)去十年中,相比高收入國(guó)家,糖尿病在低收入和中等收入國(guó)家的發(fā)病率上升更加迅速.例如,在2015年中國(guó)擁有全世界最龐大的糖尿病患者群體,高達(dá)1.1億人之多.絕大多數(shù)患者是2型糖尿病,主要是由肥胖(特別是腹部肥胖),缺乏鍛煉以及不健康飲食導(dǎo)致[2].在某些國(guó)家,大約50%到80%的糖尿病患者從不關(guān)心他們的身體狀況,除非出現(xiàn)嚴(yán)重的并發(fā)癥.考慮到這種情況,早期的診斷顯得十分必要且有意義[3].

最近研究指出,通過(guò)及時(shí)的篩查診斷,大約80%的2型糖尿病并發(fā)癥能夠避免或者延緩[2,3].然而單一的臨床指標(biāo),如空腹血糖檢查,不具備較高的敏感度,接近30%的糖尿病患者不會(huì)被查出[4].因此,智能的數(shù)據(jù)分析方法,比如數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)技術(shù),對(duì)于精準(zhǔn)地診斷糖尿病患者無(wú)疑具有很高的價(jià)值.近些年,已有研究人員應(yīng)用了一些數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的方法用于糖尿病診斷并取得較好的效果[5-13].

在過(guò)去,收集真實(shí)的醫(yī)療數(shù)據(jù)是比較困難的而且相當(dāng)耗時(shí).因此,之前的很多研究中用的數(shù)據(jù)集主要是來(lái)源于規(guī)模較小的公開(kāi)數(shù)據(jù)集和調(diào)查問(wèn)卷.隨著信息技術(shù)的發(fā)展和大數(shù)據(jù)時(shí)代的來(lái)臨,目前醫(yī)療數(shù)據(jù)的規(guī)模變得十分龐大,能夠更好地反映真實(shí)情況.然而,真實(shí)的醫(yī)療數(shù)據(jù)往往存在類別不平衡的問(wèn)題.在糖尿病診斷過(guò)程中,由于較低的發(fā)病率,數(shù)據(jù)集通常是不平衡的,即健康人群占據(jù)大多數(shù),而糖尿病患者通常只占據(jù)很小的比例.在這種不平衡數(shù)據(jù)集中,傳統(tǒng)的分類算法往往傾向于忽略少數(shù)類樣本,難以有效地診斷出糖尿病患者.

本文提出一種集成模型:xEnsemble,能夠解決類別不平衡問(wèn)題并精準(zhǔn)地診斷糖尿病患者.該方法基于EasyEnsemble[14]和 XGBoost[15],相比其他類似技術(shù),能夠取得更高的敏感度(Sensitivity),F值和G-mean值.本文后續(xù)內(nèi)容如下:首先,簡(jiǎn)單介紹類別不平衡問(wèn)題和常用的解決方法;然后,介紹xEnsemble方法的基本原理;接著詳細(xì)闡述實(shí)驗(yàn)過(guò)程,包括數(shù)據(jù)集介紹、數(shù)據(jù)預(yù)處理過(guò)程、性能評(píng)估標(biāo)準(zhǔn)、實(shí)驗(yàn)設(shè)置、實(shí)驗(yàn)結(jié)果與討論;最后,總結(jié)本文并指出進(jìn)一步的研究方向.

1 類別不平衡問(wèn)題

類別不平衡,也就是某些類的樣本數(shù)量大于其他類別.在實(shí)際生活中,尤其是在醫(yī)療領(lǐng)域,類別不平衡問(wèn)題十分常見(jiàn).這種情形通常是由較低的發(fā)病率導(dǎo)致的.在某些情況下,不平衡比例(多數(shù)類樣本數(shù)量與少數(shù)類樣本數(shù)量之比)甚至高達(dá)106.在診斷過(guò)程中,如果不平衡數(shù)據(jù)沒(méi)有經(jīng)過(guò)適當(dāng)?shù)奶幚?分類器的性能將會(huì)受到嚴(yán)重的影響.例如:在一個(gè)不平衡比例為99的數(shù)據(jù)集中,即使分類器將所有樣本都分類成多數(shù)類,分類器的準(zhǔn)確率也能高達(dá)99%,然而所有少數(shù)類樣本都被錯(cuò)分.特別地,在糖尿病診斷過(guò)程中,類別不平衡會(huì)使傳統(tǒng)分類算法將大多數(shù)的糖尿病患者錯(cuò)誤分類成健康人群,很可能會(huì)貽誤良好的治療機(jī)會(huì).

目前存在許多方法解決類別不平衡問(wèn)題.本文主要集中于兩類方法:代價(jià)敏感學(xué)習(xí)方法與采樣方法.代價(jià)敏感學(xué)習(xí)的一種常用實(shí)現(xiàn)方法是權(quán)重縮放法(rescaling),即通過(guò)提高少數(shù)類樣本的權(quán)重來(lái)增加少數(shù)類被錯(cuò)分的代價(jià).采樣方法是一系列重構(gòu)樣本空間的方法.采樣法有兩種基本的實(shí)現(xiàn)方法:欠采樣(undersampling)和過(guò)采樣(over-sampling).欠采樣通過(guò)減少多數(shù)類樣本來(lái)創(chuàng)造一個(gè)規(guī)模更小的訓(xùn)練集;過(guò)采樣則是增加少數(shù)類樣本,形成一個(gè)規(guī)模更大的訓(xùn)練集.很明顯,這兩種方法都能降低不平衡比例,構(gòu)建一個(gè)更加平衡的訓(xùn)練集.這兩種方式都被證明能夠有效地解決類別不平衡問(wèn)題[16,17].欠采樣能夠縮短訓(xùn)練時(shí)間,然而會(huì)忽略潛在有用的信息;過(guò)采樣通常需要更長(zhǎng)的訓(xùn)練時(shí)間,并且有過(guò)擬合的風(fēng)險(xiǎn)[18,19].基于欠采樣和過(guò)采樣,研究者還提出了混合采樣[20]和集成采樣[14]的方法.混合采樣即同時(shí)應(yīng)用欠采樣和過(guò)采樣的方法;集成采樣則是通過(guò)重復(fù)的欠采樣,構(gòu)建若干個(gè)平衡訓(xùn)練子集.

本文使用的數(shù)據(jù)集包含了數(shù)百萬(wàn)條記錄,相對(duì)于常用的Pima公開(kāi)數(shù)據(jù)集(768條記錄),規(guī)模可以算是十分龐大.考慮到龐大的規(guī)模和有限的計(jì)算資源,本文主要關(guān)注基于代價(jià)敏感學(xué)習(xí)和欠采樣的方法.

2 xEnsemble方法

為了構(gòu)建一個(gè)高效的糖尿病診斷系統(tǒng),首先需要采取適當(dāng)?shù)拇胧﹣?lái)解決類別不平衡問(wèn)題.欠采樣是一種有效的方法,然而這種方法會(huì)丟失大量潛在的有用數(shù)據(jù).而且一次隨機(jī)選取小規(guī)模的多數(shù)類樣本將會(huì)增加樣本方差.眾所周知,一個(gè)優(yōu)秀的分類模型需要同時(shí)具備較低的方差和較低的偏差.所以采樣之后,我們需要一個(gè)強(qiáng)力的分類器去盡量擬合新樣本來(lái)減少偏差.為了同時(shí)滿足這兩個(gè)要求,我們提出了一種集成模型:xEnsemble.此方法基于EasyEnsemble[14]和XGBoost[15],偽代碼如算法1所示.為方便表示,本文將少數(shù)類樣本視為正例,多數(shù)類樣本視為負(fù)例.

算法1.xEnsemble 1.輸入:2.P:正例樣本集3.N:負(fù)例樣本集4.n:采樣子集數(shù)量5.si:每次訓(xùn)練XGBoost模型Hi的迭代次數(shù)6.步驟:7.for i=1 to n do 8. 隨機(jī)從N中采樣一個(gè)子集Ni,且|Ni|=|P|9. 使用Ni和P訓(xùn)練Hi,迭代si次10.end for 11.輸出:∑12.

xEnsemble的主要思想為:通過(guò)重復(fù)有放回地對(duì)負(fù)例樣本集采樣,然后與正例樣本集合并,生成n個(gè)平衡的訓(xùn)練子集;在每個(gè)訓(xùn)練子集上使用XGBoost算法擬合得到一個(gè)基分類器Hi,這樣能夠盡量學(xué)習(xí)負(fù)例樣本集N的各個(gè)方面;最后將所有的基分類器集成起來(lái),使用投票平均法構(gòu)成最終的集成分類器H(x).明顯可以看出,xEnsemble在上層使用了Bagging策略,此策略被證明能夠有效地降低模型方差[21];在下層,xEnsemble使用了基于Boosting的方法來(lái)盡量擬合訓(xùn)練集,能夠有效地減少偏差.與EasyEnsemble不同的是,xEnsemble使用投票法來(lái)決定類別,算法1中的表示集成模型的閾值,即需要多少票數(shù)可以判定某樣本為正例.一般地,本文將設(shè)置為n/2.還有一點(diǎn)明顯不同,xEnsemble采用XGBoost代替EasyEnsemble中的AdaBoost作為集成模型的基分類器.XGBoost可以并行操作,而AdaBoost只能串行處理,時(shí)間開(kāi)銷相對(duì)較大,不適合用來(lái)訓(xùn)練本文規(guī)模較龐大的數(shù)據(jù)集.

XGBoost是最近非常流行的一種基于樹提升(tree boosting)的高效機(jī)器學(xué)習(xí)模型.它的算法實(shí)現(xiàn)是基于梯度提升框架(Gradient Boosting Framework).它提供了一種在特征粒度上的并行方法,能夠迅速準(zhǔn)確地解決許多數(shù)據(jù)科學(xué)問(wèn)題[1].正是由于XGBoost的種種優(yōu)點(diǎn),我們將它作為xEnsemble的基分類器.xEnsemble的流程圖如圖1所示.

3 實(shí)驗(yàn)

3.1 數(shù)據(jù)集

本文使用的數(shù)據(jù)集來(lái)源于中國(guó)某省的衛(wèi)生部門,包含了數(shù)百萬(wàn)人從2009年到2015的醫(yī)療信息.原始數(shù)據(jù)包含三張表:個(gè)人基本信息表,體檢信息表和糖尿病管理信息表.個(gè)人信息表包含了個(gè)體的一些基本信息,比如性別,出生年月,家族病史等;體檢信息表包含了個(gè)體的一系列醫(yī)學(xué)臨床指標(biāo),如身高體重,血常規(guī),尿常規(guī),腎功能檢查,肝功能檢查等;糖尿病管理信息表包含了糖尿病患者每次的隨訪記錄.其中體檢信息表是本文主要使用的數(shù)據(jù).根據(jù)醫(yī)學(xué)知識(shí),我們初步從體檢信息表中摘選了24項(xiàng)與糖尿病有關(guān)的屬性.這24項(xiàng)屬性的詳細(xì)信息參見(jiàn)表1.而糖尿病管理信息表此處只用來(lái)標(biāo)記某個(gè)個(gè)體是否患有糖尿病.

3.2 數(shù)據(jù)預(yù)處理

如表1所示,體檢信息表中存在很多“臟數(shù)據(jù)”,而且有些屬性有較高的缺失率.在訓(xùn)練模型之前,我們必須對(duì)這些數(shù)據(jù)進(jìn)行預(yù)處理.

首先,清洗異常值.通過(guò)查閱相關(guān)資料,確定某個(gè)屬性的參考范圍,比如收縮壓的參考范圍為:90～180,此后通過(guò)兩種途徑來(lái)確定最后的合理范圍:

圖1 xEnsemble示意圖

表1 體檢信息表中24個(gè)屬性的詳細(xì)信息

(1)某些臨床指標(biāo)理論上符合正態(tài)分布,因此在統(tǒng)計(jì)意義上,[–3σ,3σ]區(qū)間能覆蓋超過(guò) 99.7% 的值,即此區(qū)間外的值均視為異常值;

(2)將初始合理范圍外的數(shù)據(jù)進(jìn)行分箱操作,根據(jù)每個(gè)區(qū)域的占比情況確定合理范圍.

然后,對(duì)缺失值進(jìn)行處理.如表1所示,24個(gè)屬性均有不同程度的缺失.針對(duì)這種情況,缺失率超過(guò)90%的屬性直接忽略,小于20%的屬性直接用均值填充,20%～90%之間的屬性用SPSS分析其缺失類型,發(fā)現(xiàn)其缺失相關(guān)性很小,可以認(rèn)為是完全隨機(jī)缺失.一般地,我們用所有非缺失樣本的均值進(jìn)行填充.

經(jīng)過(guò)預(yù)處理之后,我們最后保留了24個(gè)特征,其中6個(gè)特征來(lái)自個(gè)人信息表,分別為:性別,年齡,家族病史(父親,母親,兄弟姐妹,子女);另外18個(gè)特征來(lái)自體檢信息表,分別為:心率,舒張壓,收縮壓,呼吸頻率,腰圍,BMI,吸煙量,飲酒量,空腹血糖,谷丙轉(zhuǎn)氨酶,谷草轉(zhuǎn)氨酶,總膽紅素,血清肌酐,血尿素氮,總膽固醇,甘油三酯,低密度脂蛋白,高密度脂蛋白.考慮到疾病之間復(fù)雜的聯(lián)系,對(duì)于家族病史這方面,我們從簡(jiǎn)處理:比如只有當(dāng)父親曾經(jīng)患過(guò)糖尿病,父親病史才被標(biāo)記為1.

我們最初從體檢信息表中檢索某個(gè)個(gè)體時(shí)間最近的體檢記錄,再加上個(gè)人基本信息表的6個(gè)特征,總共24個(gè)特征構(gòu)成樣本.考慮到某些個(gè)體在2009～2015年之間具有多條體檢記錄,如果只是提取其最近的一條體檢記錄,無(wú)疑會(huì)損失大量的信息.尤其是某些臨床指標(biāo)通常具有較大的波動(dòng)性,比如空腹血糖.因此,我們針對(duì)某個(gè)特征額外提取了3個(gè)相應(yīng)的新特征:最大值,最小值和平均值.最終我們對(duì)12個(gè)臨床指標(biāo)采用這個(gè)操作:舒張壓,收縮壓,空腹血糖,谷丙轉(zhuǎn)氨酶,谷草轉(zhuǎn)氨酶,總膽紅素,血清肌酐,血尿素氮,總膽固醇,甘油三酯,低密度脂蛋白,高密度脂蛋白.這新增的3×12=36個(gè)特征,缺失值也用所有非缺失樣本的均值填充.最后特征數(shù)量為:6+18+36=60.

我們使用70%的樣本作為訓(xùn)練集,剩下的30%作為測(cè)試集.在所有樣本中,正例只有56 444個(gè),占比2.9%,其余為負(fù)例.明顯可以看出,樣本存在嚴(yán)重的類別不平衡問(wèn)題,不平衡比例為34.5.詳細(xì)情況參見(jiàn)表2.

表2 樣本情況

3.3 評(píng)價(jià)標(biāo)準(zhǔn)

如前所述,當(dāng)數(shù)據(jù)存在類別不平衡問(wèn)題或者錯(cuò)分代價(jià)不一致的時(shí)候,對(duì)分類器而言,錯(cuò)誤率并非一個(gè)合適的評(píng)價(jià)標(biāo)準(zhǔn).因此,本文使用F值和G-mean值作為分類器性能的評(píng)價(jià)標(biāo)準(zhǔn).F值和G-mean值的計(jì)算均基于表3所示的混淆矩陣.

表3 混淆矩陣

考慮到本文中召回率(recall)相對(duì)精確率(precision)更加重要,我們進(jìn)一步使用Fβ來(lái)評(píng)估性能.其中β值用來(lái)衡量召回率相對(duì)精確率的重要度.當(dāng)β=1時(shí),Fβ退化成標(biāo)準(zhǔn)的F1值;當(dāng)β＞1時(shí),召回率影響更大;當(dāng)β＜1時(shí),精確率影響更大.為了盡可能的降低FN的值,本文將β設(shè)置為3.Fβ和G-mean的定義如下所示:

3.4 實(shí)驗(yàn)設(shè)置

我們?cè)谟?xùn)練集上使用5-折交叉驗(yàn)證和網(wǎng)格尋優(yōu)方法來(lái)獲得最佳參數(shù).然后在測(cè)試集上運(yùn)行,得到最終的Sensitivity,Fβ和G-mean值.實(shí)驗(yàn)主要分成兩個(gè)步驟,第一步解決類別不平衡問(wèn)題,第二步為分類.第一步使用5種策略,第二步使用6種分類器,總共30種模型.5種用于解決類別不平衡問(wèn)題的策略如下所述.

1)Original:原始情況,不對(duì)負(fù)例樣本進(jìn)行任何操作,直接用來(lái)訓(xùn)練.此策略用來(lái)作為實(shí)驗(yàn)對(duì)比.

2)Cost-Sensitive(簡(jiǎn)稱Cost):假設(shè)不平衡比例為|N|/|P|,那么負(fù)例與正例的權(quán)重比值為|P|/|N|.通過(guò)此設(shè)置,能夠顯著地提高正例錯(cuò)分代價(jià).

3)Random Under-Sampling(簡(jiǎn)稱 Random):隨機(jī)無(wú)放回地從負(fù)例樣本集中采樣一個(gè)子集,子集大小和正例樣本集大小相同.

4)Edited Nearest Neighbours(簡(jiǎn)稱 ENN):如果一個(gè)樣本的標(biāo)記同它的K個(gè)鄰居相異,則將這個(gè)樣本刪除.

5)Ensemble Sampling(簡(jiǎn)稱 Ensemble):類似Random Under-Sampling,此方法隨機(jī)有放回地從負(fù)例樣本集中采樣M次,生成M個(gè)和正例樣本集大小相同的子集.考慮到本文所用數(shù)據(jù)集的不平衡比例為34.5,特將M設(shè)置為30.

對(duì)于第二個(gè)步驟,我們使用3個(gè)單分類器和3個(gè)集成分類器.3個(gè)單分類器分別為:LR,CART,Linear SVC(簡(jiǎn)稱LSVC);3個(gè)集成分類器分別為:Adaboost(簡(jiǎn)稱 Ada),Random Forest(簡(jiǎn)稱 RF),XGBoost(簡(jiǎn)稱XGB).Ada,RF和XGB都是基于CART并且弱分類器的數(shù)量都設(shè)置成500個(gè).在這6個(gè)分類器中,LR,RF,XGB能夠并行操作而另外3個(gè)只能串行操作.除了XGB之外,我們使用scikit-learn API[22]實(shí)現(xiàn)這些分類器.另外,Ada和XGB不支持設(shè)置類別權(quán)重,因此這兩個(gè)分類器無(wú)法在Cost策略下運(yùn)行,后面用-表示缺失的結(jié)果.在Ensemble策略下,EasyEnsemble使用Ada作為基分類器并采用線性加權(quán)求和的方法,而xEnsemble使用XGB作為基分類器并使用簡(jiǎn)單的投票法,另外4個(gè)分類器也同樣使用投票.

我們的實(shí)驗(yàn)運(yùn)行在一臺(tái)有24核CPU,主頻為3.0GHz,內(nèi)存為64GB的服務(wù)器上.整個(gè)實(shí)驗(yàn)的流程圖如圖2所示.

圖2 實(shí)驗(yàn)示意圖

3.5 實(shí)驗(yàn)結(jié)果與討論

表4、表5、表6分別表示這30個(gè)模型在測(cè)試集上的Sensitivity,F3和G-mean值.如表4所示,在Original策略下,所有分類器的Sensitivity指標(biāo)都有大幅退化.其中,XGB取得最高的分?jǐn)?shù),證明了其卓越的性能.由于減少了一些邊界上的負(fù)例樣本,ENN策略相比Original有了一些提高.更進(jìn)一步,Cost、Random和Ensemble策略都有大幅度的提高.Random比Cost表現(xiàn)稍強(qiáng),尤其是在LSVC分類器上.如前所述,Ada和XGB在Cost策略上結(jié)果是缺失的因?yàn)樗鼈儾恢С諧ost策略.另外,相比Random策略,Ada、RF和XGB在Ensemble下表現(xiàn)稍好,而LR和LSVC則反之.從分類器層面來(lái)看,RF和XGB的性能幾乎是并駕齊驅(qū),均取得優(yōu)異的表現(xiàn).

表4 所有模型的Sensitivity值

表5 所有模型的F3值

表6 所有模型的G-mean值

在表5中,Ensemble在F3上的表現(xiàn)優(yōu)于Random除了CART分類器.另外Cost的性能也比Random要強(qiáng),和Ensemble不相上下.在分類器層面,盡管RF對(duì)于Sensitivity在Random和Ensemble策略上比XGB表現(xiàn)要好,此處XGB對(duì)于F3卻比RF表現(xiàn)更佳.

表6的情況更加簡(jiǎn)潔明了.很明顯,Ensemble相比其他策略表現(xiàn)更加優(yōu)秀,XGB在所有分類器中取得最高的分?jǐn)?shù).值得一提的是,xEnsemble對(duì)于Sensitivity,F3和G-mean均比EasyEnsemble效果要好.

總之,集成分類器,特別是XGB,相比單分類器,性能表現(xiàn)更好.同時(shí),Ensemble策略相比其他策略,取得更優(yōu)秀的結(jié)果.因此,本文提出的方法:xEnsemble,相比其他方法表現(xiàn)出更良好的性能.

4 結(jié)語(yǔ)

本文主要將研究重點(diǎn)放在應(yīng)用不平衡學(xué)習(xí)方法來(lái)解決數(shù)據(jù)集中的類別不平衡問(wèn)題,然后對(duì)糖尿病進(jìn)行分類診斷.由于數(shù)據(jù)集的高度不平衡性,相比之前的研究,我們面臨一個(gè)更加嚴(yán)峻的挑戰(zhàn).本文提出的xEnsemble 方法類似于“bagging of boosting”,能夠同時(shí)降低模型的方差和偏差.通過(guò)采用該方法,我們獲得了一個(gè)較優(yōu)的結(jié)果,這將協(xié)助醫(yī)務(wù)工作人員更高效便捷地對(duì)糖尿病診斷做出決策.

提取影響糖尿病發(fā)病的關(guān)鍵因素將是本文進(jìn)一步的研究方向.明確這些關(guān)鍵發(fā)病因素能夠起到很好的預(yù)警作用,做到“未雨綢繆”,幫助那些潛在風(fēng)險(xiǎn)的糖尿病人群更好地管理健康和預(yù)防糖尿病的發(fā)生.

1 World Health Organization.Global report on diabetes.Geneva:World Health Organization,2016.

2 Tuomilehto J,Lindstr?m J,Eriksson JG,et al.Prevention of type 2 diabetes mellitus by changes in lifestyle among subjects with impaired glucose tolerance.New England Journal of Medicine,2001,344(18):1343–1350.[doi:10.1056/NEJM200105033441801]

3 Franciosi M,De Berardis G,Rossi MCE,et al.Use of the diabetes risk score for opportunistic screening of undiagnosed diabetes and impaired glucose tolerance.Diabetes Care,2005,28(5):1187–1194.[doi:10.2337/diacare.28.5.1187]

4 World Health Organization.Definition and diagnosis of diabetes mellitus and intermediate hyperglycaemia:Report of a WHO/IDF consultation.Geneva:World Health Organization,2006.

5 Huang Y,McCullagh P,Black N,et al.Feature selection and classification model construction on type 2 diabetic patients’data.Artificial Intelligence in Medicine,2007,41(3):251–262.[doi:10.1016/j.artmed.2007.07.002]

6 Goel R,Misra A,Kondal D,et al.Identification of insulin resistance in Asian Indian adolescents:Classification and regression tree (CART)and logistic regression based classification rules.Clinical Endocrinology,2009,70(5):717–724.[doi:10.1111/cen.2009.70.issue-5]

7 Heikes KE,Eddy DM,Arondekar B,et al.Diabetes risk calculator:A simple tool for detecting undiagnosed diabetes and pre-diabetes.Diabetes Care,2008,31(5):1040–1045.[doi:10.2337/dc07-1150]

8 Li L.Diagnosis of diabetes using a weight-adjusted voting approach.Proceedings of 2014 IEEE International Conference on Bioinformatics and Bioengineering.Boca Raton,FL,USA.2014.320–324.

9 Dogantekin E,Dogantekin A,Avci D,et al.An intelligent diagnosis system for diabetes on linear discriminant analysis and adaptive network based fuzzy inference system:LDAANFIS.Digital Signal Processing,2010,20(4):1248–1255.[doi:10.1016/j.dsp.2009.10.021]

10 Barakat N,Bradley AP,Barakat MNH.Intelligible support vector machines for diagnosis of diabetes mellitus.IEEE Transactions on Information Technology in Biomedicine,2010,14(4):1114–1120.[doi:10.1109/TITB.2009.2039485]

11 羅森林,成華,顧毓清,等.數(shù)據(jù)挖掘在2型糖尿病數(shù)據(jù)處理中的應(yīng)用.計(jì)算機(jī)工程與設(shè)計(jì),2004,25(11):1888–1892.[doi:10.3969/j.issn.1000-7024.2004.11.007]

12 羅森林,郭偉東,張?bào)?等,陳松景.基于Markov的Ⅱ型糖尿病預(yù)測(cè)技術(shù)研究.北京理工大學(xué)學(xué)報(bào),2011,31(12):1414–1418.

13 蔣琳,彭黎.基于支持向量機(jī)的Ⅱ型糖尿病判別與特征篩選.科學(xué)技術(shù)與工程,2007,7(5):721–726.

14 Liu XY,Wu JX,Zhou ZH.Exploratory undersampling for class-imbalance learning.IEEE Transactions on Systems,Man,and Cybernetics,Part B (Cybernetics),2009,39(2):539–550.[doi:10.1109/TSMCB.2008.2007853]

15 Chen TQ,Guestrin C.Xgboost:A scalable tree boosting system.Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.San Francisco,CA,USA.2016.785–794.

16 Weiss GM.Mining with rarity:A unifying framework.ACM SIGKDD Explorations Newsletter,2004,6(1):7–19.[doi:10.1145/1007730]

17 Zhou ZH,Liu XY.Training cost-sensitive neural networks with methods addressing the class imbalance problem.IEEE Transactions on Knowledge and Data Engineering,2006,18(1):63–77.[doi:10.1109/TKDE.2006.17]

18 Chawla NV,Bowyer KW,Hall LO,et al.SMOTE:Synthetic minority over-sampling technique.Journal of Artificial Intelligence Research,2002,16(1):321–357.

19 Drummond C,Holte RC.C4.5,class imbalance,and cost sensitivity:Why under-sampling beats over-sampling.Workshop on Learning from Imbalanced Datasets II.Washington,DC,USA.2003.

20 Batista GEAPA,Prati RC,Monard MC.A study of the behavior of several methods for balancing machine learning training data.ACM Sigkdd Explorations Newsletter,2004,6(1):20–29.[doi:10.1145/1007730]

21 Breiman L.Bagging predictors.Machine Learning,1996,24(2):123–140.

22 Buitinck L,Louppe G,Blondel M,et al.API design for machine learning software:Experiences from the scikit-learn project.arXiv:1309.0238,2013.