亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于大規(guī)模不平衡數(shù)據(jù)集的糖尿病診斷研究①

        2018-02-07 02:41:59勛,蔣
        關(guān)鍵詞:正例類別分類器

        魏 勛,蔣 凡

        (中國科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)學(xué)院,合肥 230022)

        糖尿病是一種慢性非傳染性疾病,主要包括1型糖尿病,2型糖尿病和妊娠型糖尿病.其中超過90%的患者為2型糖尿病.如果缺乏良好的干預(yù)和治療,糖尿病患者有一定風(fēng)險(xiǎn)患上一系列并發(fā)癥,進(jìn)而影響健康甚至危及生命.并發(fā)癥主要有致盲,腎衰竭,心腦血管疾病,中風(fēng)以及截肢等.正是由于這些嚴(yán)重的并發(fā)癥,糖尿病已經(jīng)成為全球第四大致死疾病.

        在過去幾十年中,糖尿病發(fā)病率逐漸上升[1].根據(jù)WHO估計(jì),2014年全球約有4.22億糖尿病患者,而在1980年這個(gè)數(shù)字僅為1.08億.在過去十年中,相比高收入國家,糖尿病在低收入和中等收入國家的發(fā)病率上升更加迅速.例如,在2015年中國擁有全世界最龐大的糖尿病患者群體,高達(dá)1.1億人之多.絕大多數(shù)患者是2型糖尿病,主要是由肥胖(特別是腹部肥胖),缺乏鍛煉以及不健康飲食導(dǎo)致[2].在某些國家,大約50%到80%的糖尿病患者從不關(guān)心他們的身體狀況,除非出現(xiàn)嚴(yán)重的并發(fā)癥.考慮到這種情況,早期的診斷顯得十分必要且有意義[3].

        最近研究指出,通過及時(shí)的篩查診斷,大約80%的2型糖尿病并發(fā)癥能夠避免或者延緩[2,3].然而單一的臨床指標(biāo),如空腹血糖檢查,不具備較高的敏感度,接近30%的糖尿病患者不會(huì)被查出[4].因此,智能的數(shù)據(jù)分析方法,比如數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)技術(shù),對于精準(zhǔn)地診斷糖尿病患者無疑具有很高的價(jià)值.近些年,已有研究人員應(yīng)用了一些數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的方法用于糖尿病診斷并取得較好的效果[5-13].

        在過去,收集真實(shí)的醫(yī)療數(shù)據(jù)是比較困難的而且相當(dāng)耗時(shí).因此,之前的很多研究中用的數(shù)據(jù)集主要是來源于規(guī)模較小的公開數(shù)據(jù)集和調(diào)查問卷.隨著信息技術(shù)的發(fā)展和大數(shù)據(jù)時(shí)代的來臨,目前醫(yī)療數(shù)據(jù)的規(guī)模變得十分龐大,能夠更好地反映真實(shí)情況.然而,真實(shí)的醫(yī)療數(shù)據(jù)往往存在類別不平衡的問題.在糖尿病診斷過程中,由于較低的發(fā)病率,數(shù)據(jù)集通常是不平衡的,即健康人群占據(jù)大多數(shù),而糖尿病患者通常只占據(jù)很小的比例.在這種不平衡數(shù)據(jù)集中,傳統(tǒng)的分類算法往往傾向于忽略少數(shù)類樣本,難以有效地診斷出糖尿病患者.

        本文提出一種集成模型:xEnsemble,能夠解決類別不平衡問題并精準(zhǔn)地診斷糖尿病患者.該方法基于EasyEnsemble[14]和 XGBoost[15],相比其他類似技術(shù),能夠取得更高的敏感度(Sensitivity),F值和G-mean值.本文后續(xù)內(nèi)容如下:首先,簡單介紹類別不平衡問題和常用的解決方法;然后,介紹xEnsemble方法的基本原理;接著詳細(xì)闡述實(shí)驗(yàn)過程,包括數(shù)據(jù)集介紹、數(shù)據(jù)預(yù)處理過程、性能評估標(biāo)準(zhǔn)、實(shí)驗(yàn)設(shè)置、實(shí)驗(yàn)結(jié)果與討論;最后,總結(jié)本文并指出進(jìn)一步的研究方向.

        1 類別不平衡問題

        類別不平衡,也就是某些類的樣本數(shù)量大于其他類別.在實(shí)際生活中,尤其是在醫(yī)療領(lǐng)域,類別不平衡問題十分常見.這種情形通常是由較低的發(fā)病率導(dǎo)致的.在某些情況下,不平衡比例(多數(shù)類樣本數(shù)量與少數(shù)類樣本數(shù)量之比)甚至高達(dá)106.在診斷過程中,如果不平衡數(shù)據(jù)沒有經(jīng)過適當(dāng)?shù)奶幚?分類器的性能將會(huì)受到嚴(yán)重的影響.例如:在一個(gè)不平衡比例為99的數(shù)據(jù)集中,即使分類器將所有樣本都分類成多數(shù)類,分類器的準(zhǔn)確率也能高達(dá)99%,然而所有少數(shù)類樣本都被錯(cuò)分.特別地,在糖尿病診斷過程中,類別不平衡會(huì)使傳統(tǒng)分類算法將大多數(shù)的糖尿病患者錯(cuò)誤分類成健康人群,很可能會(huì)貽誤良好的治療機(jī)會(huì).

        目前存在許多方法解決類別不平衡問題.本文主要集中于兩類方法:代價(jià)敏感學(xué)習(xí)方法與采樣方法.代價(jià)敏感學(xué)習(xí)的一種常用實(shí)現(xiàn)方法是權(quán)重縮放法(rescaling),即通過提高少數(shù)類樣本的權(quán)重來增加少數(shù)類被錯(cuò)分的代價(jià).采樣方法是一系列重構(gòu)樣本空間的方法.采樣法有兩種基本的實(shí)現(xiàn)方法:欠采樣(undersampling)和過采樣(over-sampling).欠采樣通過減少多數(shù)類樣本來創(chuàng)造一個(gè)規(guī)模更小的訓(xùn)練集;過采樣則是增加少數(shù)類樣本,形成一個(gè)規(guī)模更大的訓(xùn)練集.很明顯,這兩種方法都能降低不平衡比例,構(gòu)建一個(gè)更加平衡的訓(xùn)練集.這兩種方式都被證明能夠有效地解決類別不平衡問題[16,17].欠采樣能夠縮短訓(xùn)練時(shí)間,然而會(huì)忽略潛在有用的信息;過采樣通常需要更長的訓(xùn)練時(shí)間,并且有過擬合的風(fēng)險(xiǎn)[18,19].基于欠采樣和過采樣,研究者還提出了混合采樣[20]和集成采樣[14]的方法.混合采樣即同時(shí)應(yīng)用欠采樣和過采樣的方法;集成采樣則是通過重復(fù)的欠采樣,構(gòu)建若干個(gè)平衡訓(xùn)練子集.

        本文使用的數(shù)據(jù)集包含了數(shù)百萬條記錄,相對于常用的Pima公開數(shù)據(jù)集(768條記錄),規(guī)模可以算是十分龐大.考慮到龐大的規(guī)模和有限的計(jì)算資源,本文主要關(guān)注基于代價(jià)敏感學(xué)習(xí)和欠采樣的方法.

        2 xEnsemble方法

        為了構(gòu)建一個(gè)高效的糖尿病診斷系統(tǒng),首先需要采取適當(dāng)?shù)拇胧﹣斫鉀Q類別不平衡問題.欠采樣是一種有效的方法,然而這種方法會(huì)丟失大量潛在的有用數(shù)據(jù).而且一次隨機(jī)選取小規(guī)模的多數(shù)類樣本將會(huì)增加樣本方差.眾所周知,一個(gè)優(yōu)秀的分類模型需要同時(shí)具備較低的方差和較低的偏差.所以采樣之后,我們需要一個(gè)強(qiáng)力的分類器去盡量擬合新樣本來減少偏差.為了同時(shí)滿足這兩個(gè)要求,我們提出了一種集成模型:xEnsemble.此方法基于EasyEnsemble[14]和XGBoost[15],偽代碼如算法1所示.為方便表示,本文將少數(shù)類樣本視為正例,多數(shù)類樣本視為負(fù)例.

        算法1.xEnsemble 1.輸入:2.P:正例樣本集3.N:負(fù)例樣本集4.n:采樣子集數(shù)量5.si:每次訓(xùn)練XGBoost模型Hi的迭代次數(shù)6.步驟:7.for i=1 to n do 8. 隨機(jī)從N中采樣一個(gè)子集Ni,且|Ni|=|P|9. 使用Ni和P訓(xùn)練Hi,迭代si次10.end for 11.輸出:∑12.

        xEnsemble的主要思想為:通過重復(fù)有放回地對負(fù)例樣本集采樣,然后與正例樣本集合并,生成n個(gè)平衡的訓(xùn)練子集;在每個(gè)訓(xùn)練子集上使用XGBoost算法擬合得到一個(gè)基分類器Hi,這樣能夠盡量學(xué)習(xí)負(fù)例樣本集N的各個(gè)方面;最后將所有的基分類器集成起來,使用投票平均法構(gòu)成最終的集成分類器H(x).明顯可以看出,xEnsemble在上層使用了Bagging策略,此策略被證明能夠有效地降低模型方差[21];在下層,xEnsemble使用了基于Boosting的方法來盡量擬合訓(xùn)練集,能夠有效地減少偏差.與EasyEnsemble不同的是,xEnsemble使用投票法來決定類別,算法1中的表示集成模型的閾值,即需要多少票數(shù)可以判定某樣本為正例.一般地,本文將設(shè)置為n/2.還有一點(diǎn)明顯不同,xEnsemble采用XGBoost代替EasyEnsemble中的AdaBoost作為集成模型的基分類器.XGBoost可以并行操作,而AdaBoost只能串行處理,時(shí)間開銷相對較大,不適合用來訓(xùn)練本文規(guī)模較龐大的數(shù)據(jù)集.

        XGBoost是最近非常流行的一種基于樹提升(tree boosting)的高效機(jī)器學(xué)習(xí)模型.它的算法實(shí)現(xiàn)是基于梯度提升框架(Gradient Boosting Framework).它提供了一種在特征粒度上的并行方法,能夠迅速準(zhǔn)確地解決許多數(shù)據(jù)科學(xué)問題[1].正是由于XGBoost的種種優(yōu)點(diǎn),我們將它作為xEnsemble的基分類器.xEnsemble的流程圖如圖1所示.

        3 實(shí)驗(yàn)

        3.1 數(shù)據(jù)集

        本文使用的數(shù)據(jù)集來源于中國某省的衛(wèi)生部門,包含了數(shù)百萬人從2009年到2015的醫(yī)療信息.原始數(shù)據(jù)包含三張表:個(gè)人基本信息表,體檢信息表和糖尿病管理信息表.個(gè)人信息表包含了個(gè)體的一些基本信息,比如性別,出生年月,家族病史等;體檢信息表包含了個(gè)體的一系列醫(yī)學(xué)臨床指標(biāo),如身高體重,血常規(guī),尿常規(guī),腎功能檢查,肝功能檢查等;糖尿病管理信息表包含了糖尿病患者每次的隨訪記錄.其中體檢信息表是本文主要使用的數(shù)據(jù).根據(jù)醫(yī)學(xué)知識,我們初步從體檢信息表中摘選了24項(xiàng)與糖尿病有關(guān)的屬性.這24項(xiàng)屬性的詳細(xì)信息參見表1.而糖尿病管理信息表此處只用來標(biāo)記某個(gè)個(gè)體是否患有糖尿病.

        3.2 數(shù)據(jù)預(yù)處理

        如表1所示,體檢信息表中存在很多“臟數(shù)據(jù)”,而且有些屬性有較高的缺失率.在訓(xùn)練模型之前,我們必須對這些數(shù)據(jù)進(jìn)行預(yù)處理.

        首先,清洗異常值.通過查閱相關(guān)資料,確定某個(gè)屬性的參考范圍,比如收縮壓的參考范圍為:90~180,此后通過兩種途徑來確定最后的合理范圍:

        圖1 xEnsemble示意圖

        表1 體檢信息表中24個(gè)屬性的詳細(xì)信息

        (1)某些臨床指標(biāo)理論上符合正態(tài)分布,因此在統(tǒng)計(jì)意義上,[–3σ,3σ]區(qū)間能覆蓋超過 99.7% 的值,即此區(qū)間外的值均視為異常值;

        (2)將初始合理范圍外的數(shù)據(jù)進(jìn)行分箱操作,根據(jù)每個(gè)區(qū)域的占比情況確定合理范圍.

        然后,對缺失值進(jìn)行處理.如表1所示,24個(gè)屬性均有不同程度的缺失.針對這種情況,缺失率超過90%的屬性直接忽略,小于20%的屬性直接用均值填充,20%~90%之間的屬性用SPSS分析其缺失類型,發(fā)現(xiàn)其缺失相關(guān)性很小,可以認(rèn)為是完全隨機(jī)缺失.一般地,我們用所有非缺失樣本的均值進(jìn)行填充.

        經(jīng)過預(yù)處理之后,我們最后保留了24個(gè)特征,其中6個(gè)特征來自個(gè)人信息表,分別為:性別,年齡,家族病史(父親,母親,兄弟姐妹,子女);另外18個(gè)特征來自體檢信息表,分別為:心率,舒張壓,收縮壓,呼吸頻率,腰圍,BMI,吸煙量,飲酒量,空腹血糖,谷丙轉(zhuǎn)氨酶,谷草轉(zhuǎn)氨酶,總膽紅素,血清肌酐,血尿素氮,總膽固醇,甘油三酯,低密度脂蛋白,高密度脂蛋白.考慮到疾病之間復(fù)雜的聯(lián)系,對于家族病史這方面,我們從簡處理:比如只有當(dāng)父親曾經(jīng)患過糖尿病,父親病史才被標(biāo)記為1.

        我們最初從體檢信息表中檢索某個(gè)個(gè)體時(shí)間最近的體檢記錄,再加上個(gè)人基本信息表的6個(gè)特征,總共24個(gè)特征構(gòu)成樣本.考慮到某些個(gè)體在2009~2015年之間具有多條體檢記錄,如果只是提取其最近的一條體檢記錄,無疑會(huì)損失大量的信息.尤其是某些臨床指標(biāo)通常具有較大的波動(dòng)性,比如空腹血糖.因此,我們針對某個(gè)特征額外提取了3個(gè)相應(yīng)的新特征:最大值,最小值和平均值.最終我們對12個(gè)臨床指標(biāo)采用這個(gè)操作:舒張壓,收縮壓,空腹血糖,谷丙轉(zhuǎn)氨酶,谷草轉(zhuǎn)氨酶,總膽紅素,血清肌酐,血尿素氮,總膽固醇,甘油三酯,低密度脂蛋白,高密度脂蛋白.這新增的3×12=36個(gè)特征,缺失值也用所有非缺失樣本的均值填充.最后特征數(shù)量為:6+18+36=60.

        我們使用70%的樣本作為訓(xùn)練集,剩下的30%作為測試集.在所有樣本中,正例只有56 444個(gè),占比2.9%,其余為負(fù)例.明顯可以看出,樣本存在嚴(yán)重的類別不平衡問題,不平衡比例為34.5.詳細(xì)情況參見表2.

        表2 樣本情況

        3.3 評價(jià)標(biāo)準(zhǔn)

        如前所述,當(dāng)數(shù)據(jù)存在類別不平衡問題或者錯(cuò)分代價(jià)不一致的時(shí)候,對分類器而言,錯(cuò)誤率并非一個(gè)合適的評價(jià)標(biāo)準(zhǔn).因此,本文使用F值和G-mean值作為分類器性能的評價(jià)標(biāo)準(zhǔn).F值和G-mean值的計(jì)算均基于表3所示的混淆矩陣.

        表3 混淆矩陣

        考慮到本文中召回率(recall)相對精確率(precision)更加重要,我們進(jìn)一步使用Fβ來評估性能.其中β值用來衡量召回率相對精確率的重要度.當(dāng)β=1時(shí),Fβ退化成標(biāo)準(zhǔn)的F1值;當(dāng)β>1時(shí),召回率影響更大;當(dāng)β<1時(shí),精確率影響更大.為了盡可能的降低FN的值,本文將β設(shè)置為3.Fβ和G-mean的定義如下所示:

        3.4 實(shí)驗(yàn)設(shè)置

        我們在訓(xùn)練集上使用5-折交叉驗(yàn)證和網(wǎng)格尋優(yōu)方法來獲得最佳參數(shù).然后在測試集上運(yùn)行,得到最終的Sensitivity,Fβ和G-mean值.實(shí)驗(yàn)主要分成兩個(gè)步驟,第一步解決類別不平衡問題,第二步為分類.第一步使用5種策略,第二步使用6種分類器,總共30種模型.5種用于解決類別不平衡問題的策略如下所述.

        1)Original:原始情況,不對負(fù)例樣本進(jìn)行任何操作,直接用來訓(xùn)練.此策略用來作為實(shí)驗(yàn)對比.

        2)Cost-Sensitive(簡稱Cost):假設(shè)不平衡比例為|N|/|P|,那么負(fù)例與正例的權(quán)重比值為|P|/|N|.通過此設(shè)置,能夠顯著地提高正例錯(cuò)分代價(jià).

        3)Random Under-Sampling(簡稱 Random):隨機(jī)無放回地從負(fù)例樣本集中采樣一個(gè)子集,子集大小和正例樣本集大小相同.

        4)Edited Nearest Neighbours(簡稱 ENN):如果一個(gè)樣本的標(biāo)記同它的K個(gè)鄰居相異,則將這個(gè)樣本刪除.

        5)Ensemble Sampling(簡稱 Ensemble):類似Random Under-Sampling,此方法隨機(jī)有放回地從負(fù)例樣本集中采樣M次,生成M個(gè)和正例樣本集大小相同的子集.考慮到本文所用數(shù)據(jù)集的不平衡比例為34.5,特將M設(shè)置為30.

        對于第二個(gè)步驟,我們使用3個(gè)單分類器和3個(gè)集成分類器.3個(gè)單分類器分別為:LR,CART,Linear SVC(簡稱LSVC);3個(gè)集成分類器分別為:Adaboost(簡稱 Ada),Random Forest(簡稱 RF),XGBoost(簡稱XGB).Ada,RF和XGB都是基于CART并且弱分類器的數(shù)量都設(shè)置成500個(gè).在這6個(gè)分類器中,LR,RF,XGB能夠并行操作而另外3個(gè)只能串行操作.除了XGB之外,我們使用scikit-learn API[22]實(shí)現(xiàn)這些分類器.另外,Ada和XGB不支持設(shè)置類別權(quán)重,因此這兩個(gè)分類器無法在Cost策略下運(yùn)行,后面用-表示缺失的結(jié)果.在Ensemble策略下,EasyEnsemble使用Ada作為基分類器并采用線性加權(quán)求和的方法,而xEnsemble使用XGB作為基分類器并使用簡單的投票法,另外4個(gè)分類器也同樣使用投票.

        我們的實(shí)驗(yàn)運(yùn)行在一臺有24核CPU,主頻為3.0GHz,內(nèi)存為64GB的服務(wù)器上.整個(gè)實(shí)驗(yàn)的流程圖如圖2所示.

        圖2 實(shí)驗(yàn)示意圖

        3.5 實(shí)驗(yàn)結(jié)果與討論

        表4、表5、表6分別表示這30個(gè)模型在測試集上的Sensitivity,F3和G-mean值.如表4所示,在Original策略下,所有分類器的Sensitivity指標(biāo)都有大幅退化.其中,XGB取得最高的分?jǐn)?shù),證明了其卓越的性能.由于減少了一些邊界上的負(fù)例樣本,ENN策略相比Original有了一些提高.更進(jìn)一步,Cost、Random和Ensemble策略都有大幅度的提高.Random比Cost表現(xiàn)稍強(qiáng),尤其是在LSVC分類器上.如前所述,Ada和XGB在Cost策略上結(jié)果是缺失的因?yàn)樗鼈儾恢С諧ost策略.另外,相比Random策略,Ada、RF和XGB在Ensemble下表現(xiàn)稍好,而LR和LSVC則反之.從分類器層面來看,RF和XGB的性能幾乎是并駕齊驅(qū),均取得優(yōu)異的表現(xiàn).

        表4 所有模型的Sensitivity值

        表5 所有模型的F3值

        表6 所有模型的G-mean值

        在表5中,Ensemble在F3上的表現(xiàn)優(yōu)于Random除了CART分類器.另外Cost的性能也比Random要強(qiáng),和Ensemble不相上下.在分類器層面,盡管RF對于Sensitivity在Random和Ensemble策略上比XGB表現(xiàn)要好,此處XGB對于F3卻比RF表現(xiàn)更佳.

        表6的情況更加簡潔明了.很明顯,Ensemble相比其他策略表現(xiàn)更加優(yōu)秀,XGB在所有分類器中取得最高的分?jǐn)?shù).值得一提的是,xEnsemble對于Sensitivity,F3和G-mean均比EasyEnsemble效果要好.

        總之,集成分類器,特別是XGB,相比單分類器,性能表現(xiàn)更好.同時(shí),Ensemble策略相比其他策略,取得更優(yōu)秀的結(jié)果.因此,本文提出的方法:xEnsemble,相比其他方法表現(xiàn)出更良好的性能.

        4 結(jié)語

        本文主要將研究重點(diǎn)放在應(yīng)用不平衡學(xué)習(xí)方法來解決數(shù)據(jù)集中的類別不平衡問題,然后對糖尿病進(jìn)行分類診斷.由于數(shù)據(jù)集的高度不平衡性,相比之前的研究,我們面臨一個(gè)更加嚴(yán)峻的挑戰(zhàn).本文提出的xEnsemble 方法類似于“bagging of boosting”,能夠同時(shí)降低模型的方差和偏差.通過采用該方法,我們獲得了一個(gè)較優(yōu)的結(jié)果,這將協(xié)助醫(yī)務(wù)工作人員更高效便捷地對糖尿病診斷做出決策.

        提取影響糖尿病發(fā)病的關(guān)鍵因素將是本文進(jìn)一步的研究方向.明確這些關(guān)鍵發(fā)病因素能夠起到很好的預(yù)警作用,做到“未雨綢繆”,幫助那些潛在風(fēng)險(xiǎn)的糖尿病人群更好地管理健康和預(yù)防糖尿病的發(fā)生.

        1 World Health Organization.Global report on diabetes.Geneva:World Health Organization,2016.

        2 Tuomilehto J,Lindstr?m J,Eriksson JG,et al.Prevention of type 2 diabetes mellitus by changes in lifestyle among subjects with impaired glucose tolerance.New England Journal of Medicine,2001,344(18):1343–1350.[doi:10.1056/NEJM200105033441801]

        3 Franciosi M,De Berardis G,Rossi MCE,et al.Use of the diabetes risk score for opportunistic screening of undiagnosed diabetes and impaired glucose tolerance.Diabetes Care,2005,28(5):1187–1194.[doi:10.2337/diacare.28.5.1187]

        4 World Health Organization.Definition and diagnosis of diabetes mellitus and intermediate hyperglycaemia:Report of a WHO/IDF consultation.Geneva:World Health Organization,2006.

        5 Huang Y,McCullagh P,Black N,et al.Feature selection and classification model construction on type 2 diabetic patients’data.Artificial Intelligence in Medicine,2007,41(3):251–262.[doi:10.1016/j.artmed.2007.07.002]

        6 Goel R,Misra A,Kondal D,et al.Identification of insulin resistance in Asian Indian adolescents:Classification and regression tree (CART)and logistic regression based classification rules.Clinical Endocrinology,2009,70(5):717–724.[doi:10.1111/cen.2009.70.issue-5]

        7 Heikes KE,Eddy DM,Arondekar B,et al.Diabetes risk calculator:A simple tool for detecting undiagnosed diabetes and pre-diabetes.Diabetes Care,2008,31(5):1040–1045.[doi:10.2337/dc07-1150]

        8 Li L.Diagnosis of diabetes using a weight-adjusted voting approach.Proceedings of 2014 IEEE International Conference on Bioinformatics and Bioengineering.Boca Raton,FL,USA.2014.320–324.

        9 Dogantekin E,Dogantekin A,Avci D,et al.An intelligent diagnosis system for diabetes on linear discriminant analysis and adaptive network based fuzzy inference system:LDAANFIS.Digital Signal Processing,2010,20(4):1248–1255.[doi:10.1016/j.dsp.2009.10.021]

        10 Barakat N,Bradley AP,Barakat MNH.Intelligible support vector machines for diagnosis of diabetes mellitus.IEEE Transactions on Information Technology in Biomedicine,2010,14(4):1114–1120.[doi:10.1109/TITB.2009.2039485]

        11 羅森林,成華,顧毓清,等.數(shù)據(jù)挖掘在2型糖尿病數(shù)據(jù)處理中的應(yīng)用.計(jì)算機(jī)工程與設(shè)計(jì),2004,25(11):1888–1892.[doi:10.3969/j.issn.1000-7024.2004.11.007]

        12 羅森林,郭偉東,張?bào)?等,陳松景.基于Markov的Ⅱ型糖尿病預(yù)測技術(shù)研究.北京理工大學(xué)學(xué)報(bào),2011,31(12):1414–1418.

        13 蔣琳,彭黎.基于支持向量機(jī)的Ⅱ型糖尿病判別與特征篩選.科學(xué)技術(shù)與工程,2007,7(5):721–726.

        14 Liu XY,Wu JX,Zhou ZH.Exploratory undersampling for class-imbalance learning.IEEE Transactions on Systems,Man,and Cybernetics,Part B (Cybernetics),2009,39(2):539–550.[doi:10.1109/TSMCB.2008.2007853]

        15 Chen TQ,Guestrin C.Xgboost:A scalable tree boosting system.Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.San Francisco,CA,USA.2016.785–794.

        16 Weiss GM.Mining with rarity:A unifying framework.ACM SIGKDD Explorations Newsletter,2004,6(1):7–19.[doi:10.1145/1007730]

        17 Zhou ZH,Liu XY.Training cost-sensitive neural networks with methods addressing the class imbalance problem.IEEE Transactions on Knowledge and Data Engineering,2006,18(1):63–77.[doi:10.1109/TKDE.2006.17]

        18 Chawla NV,Bowyer KW,Hall LO,et al.SMOTE:Synthetic minority over-sampling technique.Journal of Artificial Intelligence Research,2002,16(1):321–357.

        19 Drummond C,Holte RC.C4.5,class imbalance,and cost sensitivity:Why under-sampling beats over-sampling.Workshop on Learning from Imbalanced Datasets II.Washington,DC,USA.2003.

        20 Batista GEAPA,Prati RC,Monard MC.A study of the behavior of several methods for balancing machine learning training data.ACM Sigkdd Explorations Newsletter,2004,6(1):20–29.[doi:10.1145/1007730]

        21 Breiman L.Bagging predictors.Machine Learning,1996,24(2):123–140.

        22 Buitinck L,Louppe G,Blondel M,et al.API design for machine learning software:Experiences from the scikit-learn project.arXiv:1309.0238,2013.

        猜你喜歡
        正例類別分類器
        小學(xué)生舉例表現(xiàn)與概念理解的相關(guān)性研究
        基于概念形成的教學(xué)研究
        BP-GA光照分類器在車道線識別中的應(yīng)用
        電子測試(2018年1期)2018-04-18 11:52:35
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        高中數(shù)學(xué)概率教學(xué)中的誤區(qū)與應(yīng)對策略分析
        服務(wù)類別
        新校長(2016年8期)2016-01-10 06:43:59
        “絕不”與“決不”的區(qū)別
        論類別股東會(huì)
        商事法論集(2014年1期)2014-06-27 01:20:42
        基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
        亚洲精品成人无限看| 91极品尤物在线观看播放| 国产一区二区在三区在线观看| 中文字幕隔壁人妻欲求不满| 国产乱码一区二区三区爽爽爽| 在线观看av永久免费| 麻豆人妻无码性色AV专区| 激情都市亚洲一区二区| 在线播放免费人成毛片乱码| aaaaa级少妇高潮大片免费看| 91青青草久久| 国产在线一区二区三区四区乱码| 国模冰莲自慰肥美胞极品人体图| 国产va免费精品观看| 国产免费无码9191精品| 日韩女优视频网站一区二区三区| 亚洲日韩欧美一区、二区| 成年女人永久免费看片| 亚洲中文字幕黄色小视频| 日本一二三四高清在线| 久久精品国产色蜜蜜麻豆| 国产最新在线视频| av男人的天堂手机免费网站| 一本到在线观看视频| 爱情岛永久地址www成人| 男人天堂AV在线麻豆| 久久本道久久综合伊人| 国产精品99久久久久久猫咪| 久久免费大片| 国产成人高清视频在线观看免费| 激情内射亚洲一区二区三区| 久久久久亚洲av无码专区网站 | 中文字幕av永久免费在线| 国产av无码专区亚洲av毛网站| 成人欧美在线视频| 亚洲女同精品一区二区久久 | 国产午夜精品理论片| 在线观看国产内射视频| 亚洲av高清不卡免费在线| 风流老熟女一区二区三区| 专区亚洲欧洲日产国码AV|