亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于CURE-SMOTE算法的隨機(jī)森林在醫(yī)學(xué)不平衡數(shù)據(jù)中的應(yīng)用

        2019-08-31 07:02:55范瀟文楊琳琳洪佳明魏航陳沁群
        中文信息 2019年8期
        關(guān)鍵詞:分類模型

        范瀟文 楊琳琳 洪佳明 魏航 陳沁群

        中圖分類號(hào):TP18文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1003-9082(2019)08-000-01

        引言

        近年來(lái),在全球信息化浪潮的推動(dòng)下,機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘等計(jì)算機(jī)界的熱門(mén)研究領(lǐng)域越來(lái)越多地應(yīng)用于醫(yī)療,但在實(shí)際的醫(yī)療診斷中,存在大量的不平衡數(shù)據(jù),即分類數(shù)據(jù)中某一類(多數(shù)類)的數(shù)量遠(yuǎn)大于另一類(少數(shù)類)的數(shù)量[1]。不平衡數(shù)據(jù)分類問(wèn)題已成為數(shù)據(jù)挖掘領(lǐng)域內(nèi)一個(gè)重要的研究課題。

        對(duì)不平衡數(shù)據(jù)的分類問(wèn)題的探討具有很大的學(xué)術(shù)研究?jī)r(jià)值和廣泛的現(xiàn)實(shí)應(yīng)用意義,針對(duì)該類特點(diǎn)的數(shù)據(jù)集的數(shù)據(jù)挖掘方法尤其是隨機(jī)森林分類算法的深入研究,有助于理清不平衡分類問(wèn)題的重點(diǎn)和難點(diǎn),抓住隨機(jī)森林算法影響分類效果的關(guān)鍵和實(shí)質(zhì)。本文提出改進(jìn)的基于CURE-SMOTE算法的隨機(jī)森林對(duì)不平衡數(shù)據(jù)進(jìn)行分類,并在此基礎(chǔ)上進(jìn)行不平衡數(shù)據(jù)分類研究,實(shí)現(xiàn)更為精準(zhǔn)有效的不平衡數(shù)據(jù)分類,以期促進(jìn)醫(yī)學(xué)事業(yè)的發(fā)展。

        本文選取UCI中的Pima、Haberman、Post-operative、New-thyroid四個(gè)醫(yī)學(xué)數(shù)據(jù)集,并對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理。同時(shí)提出改進(jìn)的基于CURE-SMOTE算法的隨機(jī)森林模型,結(jié)合訓(xùn)練數(shù)據(jù)集的不平衡程度,即數(shù)據(jù)預(yù)處理的平衡化采樣所給算法帶來(lái)的影響,以實(shí)現(xiàn)對(duì)醫(yī)學(xué)不平衡數(shù)據(jù)更為精準(zhǔn)有效的分類。

        一、基于CURE-SMOTE算法的隨機(jī)森林

        1.CURE算法原理

        CURE[2]層次聚類算法是針對(duì)大數(shù)據(jù)集的高效算法,適合任意形狀的數(shù)據(jù)集,對(duì)孤立點(diǎn)不敏感,優(yōu)于BIRCH、CLARANS和DBSCAN算法等,具有識(shí)別異常點(diǎn)的性質(zhì)[3]。CURE算法的基本思想是通過(guò)劃分?jǐn)?shù)據(jù)集,視所有樣本點(diǎn)各為一個(gè)簇,然后局部聚類后再合并,直到結(jié)束,適合分布式擴(kuò)展[4]。具體步驟如下:

        Step1 初始化參數(shù):形成的簇?cái)?shù),代表點(diǎn)(代表該簇的大致分布)的數(shù)目,收縮因子。

        Step2 聚類:對(duì)每個(gè)劃分進(jìn)行局部聚類,獲得代表點(diǎn)后,利用收縮因子收縮或向族中心移動(dòng);

        Step3 合并:對(duì)局部簇在進(jìn)行聚類,直到整個(gè)數(shù)據(jù)集聚類完畢。

        CURE算法提出者建議,算法中的收縮因子取值在[0.2 ,0.7],代表點(diǎn)的數(shù)量在大于10時(shí),能取得較好的聚類效果。

        2.CURE-SMOTE算法設(shè)計(jì)與分析

        CURE-SMOTE算法設(shè)計(jì)思想為:將小類樣本點(diǎn)經(jīng)過(guò)CURE聚類,保留聚類后的點(diǎn)、若干個(gè)代表點(diǎn)和中心點(diǎn),然后應(yīng)用修正的SMOTE公式產(chǎn)生新樣本。

        Step1 數(shù)據(jù)集歸一一化處理,提取小類樣本X,計(jì)算小類樣本之間的距離dist,初次每個(gè)點(diǎn)為一個(gè)簇類。對(duì)于一個(gè)簇類U,Ur和Uc代表類U的代表點(diǎn)集合和中心點(diǎn)。設(shè)p,q為數(shù)據(jù)項(xiàng),則兩個(gè)簇類U和V之間的距離為:

        Step2 設(shè)置聚類個(gè)數(shù)c,進(jìn)行聚類,合并距高最小的兩個(gè)簇類,更新中心點(diǎn)和代表點(diǎn)。

        其中|U|表示該簇類所含數(shù)據(jù)項(xiàng)的個(gè)數(shù),α為收縮因子(一般取0.5)。對(duì)于增長(zhǎng)速度非常慢的簇類,判定為異常點(diǎn),刪除。若代表點(diǎn)的數(shù)量超過(guò)要求,則選取距離聚類中心最遠(yuǎn)的數(shù)據(jù)點(diǎn)作為第一個(gè)代表點(diǎn),而后的代表點(diǎn)為距離前一個(gè)代表點(diǎn)最遠(yuǎn)的數(shù)據(jù)點(diǎn)。達(dá)到聚類中心個(gè)數(shù),則算法停止,判斷每個(gè)簇類的樣本個(gè)數(shù),樣本個(gè)數(shù)過(guò)少的簇需要?jiǎng)h除。

        Step3 根據(jù)修正的SMOTE插值公式,產(chǎn)生新的樣本,表示經(jīng)過(guò)CURE算法聚類后的樣本點(diǎn),向代表點(diǎn)隨機(jī)移動(dòng)。

        Step4 計(jì)算數(shù)據(jù)集的不平衡度IR,當(dāng)數(shù)據(jù)集沒(méi)有達(dá)到IR。時(shí),返回Step3.

        Step5 利用隨機(jī)森林算法對(duì)處理后的新數(shù)據(jù)集和大類樣本進(jìn)行分類操作。

        其中為人工生成的新樣本,直到IR大于或等于閾值IR時(shí),需要生成的樣本量為n。距離衡量采用歐幾里德距離,樣本1 X1=(X11,X12,...X1M)和樣本2 X2=(X21,X22,...,X2M)之間的距離為

        在上述CURE-SMOTE算法聚類過(guò)程中,通過(guò)設(shè)定算法結(jié)束準(zhǔn)則:達(dá)到聚類個(gè)數(shù)、達(dá)到代表點(diǎn)的數(shù)量、達(dá)到距離閾值等其中種, 避免設(shè)定原始SMOTE算法的k值,減小算法的不穩(wěn)定性,對(duì)算法可控。利用CURE-SMOTE算法k可進(jìn)行不平衡數(shù)據(jù)處理。

        二、基于CURE-SMOTE算法的隨機(jī)森林模型研究

        探究隨機(jī)森林在解決類別不平衡的醫(yī)學(xué)數(shù)據(jù)問(wèn)題的性能,選取UCI中的Pima、Haberman、Post-operative、New-thyroid四個(gè)醫(yī)學(xué)數(shù)據(jù)集,并對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,然后使用隨機(jī)森林訓(xùn)練、測(cè)試,使用綜合評(píng)價(jià)指標(biāo)F1進(jìn)行評(píng)估。

        1.構(gòu)建實(shí)驗(yàn)數(shù)據(jù)集

        (1) Pima

        數(shù)據(jù)集的目標(biāo)是基于數(shù)據(jù)集中包含的某些診斷測(cè)量來(lái)診斷性的預(yù)測(cè)患者是否患有糖尿病。數(shù)據(jù)集由多個(gè)醫(yī)學(xué)預(yù)測(cè)變量和一個(gè)目標(biāo)變量組成Outcome。

        (2)Haberman

        數(shù)據(jù)集包含了關(guān)于乳腺癌手術(shù)患者生存的研究案例,該數(shù)據(jù)集包含了一項(xiàng)研究的病例,該研究是在1958年至1970年期間在芝加哥大學(xué)比林斯醫(yī)院(University of Chicago s Billings Hospital)進(jìn)行的,研究對(duì)象是接受過(guò)乳腺癌手術(shù)的患者的存活率。

        (3)Post-operative

        該數(shù)據(jù)集的分類任務(wù)是確定患者在術(shù)后恢復(fù)區(qū)應(yīng)該被送往下一步。因?yàn)槭中g(shù)后降低體溫是一個(gè)重要的問(wèn)題,所以這些屬性與體溫測(cè)量值基本一致。

        (4)New-thyroid

        這個(gè)數(shù)據(jù)集是UCI存儲(chǔ)庫(kù)中關(guān)于甲狀腺的幾個(gè)數(shù)據(jù)庫(kù)之一。患者類別有正常、甲狀腺功能亢進(jìn)、甲狀腺功能減退。

        2.數(shù)據(jù)預(yù)處理

        2.1數(shù)據(jù)清理與輸出數(shù)據(jù)編碼

        主要進(jìn)行的數(shù)據(jù)清理包括數(shù)據(jù)集成、類型轉(zhuǎn)換和混亂格式處理。數(shù)據(jù)集成的主要工作是從數(shù)據(jù)集中把本課題研究所利用的數(shù)據(jù)特征和對(duì)應(yīng)的診斷結(jié)果擇取出來(lái);類型轉(zhuǎn)換的主要工作是對(duì)輸出數(shù)據(jù)(診斷結(jié)果)進(jìn)行重新的編碼,正常類別的標(biāo)識(shí)為“0”;異常類別的標(biāo)識(shí)為“1”;混亂格式處理的主要工作是把數(shù)據(jù)變成標(biāo)準(zhǔn)的矩陣樣式,每一行代表一個(gè)記錄實(shí)例,每一列是一個(gè)特征值。

        因目標(biāo)屬性書(shū)多分類屬性,需要將其轉(zhuǎn)化為二值日序列。本文采用one-hot編碼(獨(dú)熱編碼)將其轉(zhuǎn)化為多分類模式。

        2.2輸入數(shù)據(jù)歸一化

        關(guān)于數(shù)據(jù)轉(zhuǎn)換,對(duì)數(shù)據(jù)集中的輸入數(shù)據(jù)進(jìn)行歸一化處理。 因?yàn)楦骶S的數(shù)據(jù)存在數(shù)量級(jí)差異,輸入輸出變量的數(shù)量級(jí)如果差別比較大,可能會(huì)導(dǎo)致網(wǎng)絡(luò)預(yù)測(cè)的效果不佳,為了避免上述情況,需進(jìn)行歸一化處理。數(shù)據(jù)進(jìn)行歸一化處理后,數(shù)據(jù)可以轉(zhuǎn)化為(0-1)之間的數(shù)值數(shù)據(jù)歸一化的方式往往有下面:

        (a)最大最小法。函數(shù)的形式如下:

        式中,為數(shù)據(jù)各列中的最小值; 為數(shù)據(jù)各列中的最大值。

        三、實(shí)驗(yàn)結(jié)果與分析

        本文利用UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)中的四個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集,對(duì)基于CURE-SMOTE算法的隨機(jī)森林模型的構(gòu)建。

        根據(jù)精確率 P(Precision=TP/(TP+FP))、召回率R(Recall=TP/(TP+FN)和綜合評(píng)價(jià)指標(biāo)F1(F-score=2*P*R/P+R)進(jìn)一步分析不同數(shù)據(jù)集在模型中的性能。其中四個(gè)數(shù)據(jù)集的Precision分別為,97.51%、97.54%、79.37%和95.24%,Recall分別為96.01%、95.32%、86.21%和95.24%?;贑URE-SMOTE算法的隨機(jī)森林模型的 F1 得分分別為96.75%、96.43%、82.65%和 95.24%?;贑URE-SMOTE算法的隨機(jī)森林模型有著較好的結(jié)果。這也說(shuō)明了,基于CURE-SMOTE算法的隨機(jī)森林模型在解決醫(yī)學(xué)數(shù)據(jù)不平衡問(wèn)題中起到了較好的效果。

        四、結(jié)論

        在面對(duì)在實(shí)際的醫(yī)療診斷中存在大量的不平衡數(shù)據(jù),本文針對(duì)該類特點(diǎn)的數(shù)據(jù)集進(jìn)行數(shù)據(jù)挖掘,本文提出的改進(jìn)基于CURE-SMOTE算法的隨機(jī)森林對(duì)不平衡數(shù)據(jù)進(jìn)行分類,并在此基礎(chǔ)上進(jìn)行不平衡數(shù)據(jù)分類研究,抓住了隨機(jī)森林算法影響分類效果的核心和實(shí)質(zhì)。選取UCI中的Pima、Haberman、Post-operative、New-thyroid四個(gè)醫(yī)學(xué)數(shù)據(jù)集在基于CURE-SMOTE算法的隨機(jī)森林模型中取得了較好的效果,結(jié)合訓(xùn)練數(shù)據(jù)集的不平衡程度,即數(shù)據(jù)預(yù)處理的平衡化采樣所給算法帶來(lái)的影響,以實(shí)現(xiàn)對(duì)醫(yī)學(xué)不平衡數(shù)據(jù)更為精準(zhǔn)有效的分類,以期能夠更好地輔助臨床決策。

        參考文獻(xiàn)

        [1]Longadge MR, Donger MSS, Malik L. Class Imbalance Problem in Data Mining: Review. International Journal of Computer Science and Network, 2013, (2): 83-87.

        [2]Guha S, Rastogi R, Shim K. CURE: an efficient clustering algorithm for large databases[C]//ACM SIGMOD Record.ACM,1998, 27(2):73-84

        [3]周亞建,徐晨,李維國(guó),基于改進(jìn)CURE聚類算法的無(wú)監(jiān)督異常檢測(cè)方法[J].通信學(xué)報(bào),2010,31(7):18-23.

        [4]邱榮財(cái),基于Spark平臺(tái)的CURE算法并行化設(shè)計(jì)與應(yīng)用[D].華南理工大學(xué)碩士論文,2014.

        猜你喜歡
        分類模型
        一半模型
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        人人看人人做人人爱精品| 日本在线综合一区二区| 久久精品国产在热亚洲不卡| 男奸女永久免费视频网站| av天堂精品久久综合网| 五月丁香六月综合缴清无码 | 在线丝袜欧美日韩制服| 黑人免费一区二区三区| 一区二区日本免费观看| 风骚人妻一区二区三区| 亚洲成av人片乱码色午夜| av永久天堂一区二区三区| 久久夜色精品国产欧美乱| 最近中文av字幕在线中文| 亚洲精品6久久久久中文字幕| 亚洲精品美女久久久久99| 日本一区不卡在线观看| 美妇炮灰被狂躁爽到高潮h| 免费欧洲毛片a级视频老妇女| 无码人妻久久一区二区三区不卡| 亚洲gv白嫩小受在线观看| 538任你爽精品视频国产| 亚洲中文字幕久爱亚洲伊人| 国产熟女精品一区二区| 国产精品视频白浆免费视频| 国产av精品一区二区三区久久| 精品人妻大屁股白浆无码| 国产精品成人久久电影| 18禁男女爽爽爽午夜网站免费| 日本少妇按摩高潮玩弄| 日韩极品免费在线观看| 亚洲中文字幕人成乱码在线| 妺妺窝人体色777777| 中文人妻熟妇乱又伦精品| 国产最新网站| 在线视频日韩精品三区| 国产欧美精品aaaaaa片| 国内a∨免费播放| 亚洲无码毛片免费视频在线观看| 男人天堂亚洲天堂av| 性色做爰片在线观看ww|