亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        不平衡數(shù)據(jù)集的分類研究在醫(yī)療數(shù)據(jù)方面的應(yīng)用

        2020-02-01 03:24:30田波沈江明張德鑫曾志勇
        電子技術(shù)與軟件工程 2020年9期
        關(guān)鍵詞:分類模型

        田波 沈江明 張德鑫 曾志勇

        (1.中國(guó)電信股份有限公司云南分公司 云南省昆明市 650000)

        (2.云南省高校數(shù)據(jù)化運(yùn)營(yíng)管理工程研究中心 云南省昆明市 650000 3.云南財(cái)經(jīng)大學(xué)統(tǒng)計(jì)與數(shù)學(xué)學(xué)院 云南省昆明市 650000)

        (4.云南財(cái)經(jīng)大學(xué)信息學(xué)院 云南省昆明市 650000)

        1 理論知識(shí)

        1.1 SMOTE過采樣

        SMOTE 過采樣技術(shù)是由Chawle[4][3]和他的團(tuán)隊(duì)率先提出,該技術(shù)是通過在兩個(gè)少數(shù)類樣本之間隨機(jī)選擇一個(gè)新樣本作為少數(shù)類樣本,以此循環(huán)往復(fù),通過這種人工合成新樣本的方式不斷擴(kuò)充少數(shù)類樣本的數(shù)量,直至樣本數(shù)據(jù)平衡為止。

        1.2 ENN欠采樣

        ENN 欠采樣屬于一種將多數(shù)類樣本進(jìn)行刪減,使得原本的多數(shù)類樣本和少數(shù)類樣本在數(shù)量上盡可能的保持一定的平衡的欠采樣方法,它主要對(duì)于其中的多數(shù)類選定樣本,通過觀察該樣本附近k個(gè)近鄰點(diǎn),如果附近的k 個(gè)近鄰樣本中有超過一半的樣本和該樣本不屬于同一個(gè)類別,那么就將該樣本進(jìn)行相應(yīng)的剔除。

        1.3 隨機(jī)森林算法

        隨機(jī)森林算法是集成方法bagging 流派中的典型代表,該算法將原始數(shù)據(jù)集通過有放回抽樣的方式對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)充,通過多個(gè)決策樹并行運(yùn)算,輸出各自的預(yù)測(cè)值,然后通過投票選擇法,少數(shù)服從多數(shù)的原則,確定最后的輸出結(jié)果。

        1.4 Catboost算法

        Catboost 采用特殊的方式處理類別型特征,首先對(duì)類別特征做一些統(tǒng)計(jì),計(jì)算某個(gè)類別特征出現(xiàn)的頻率,之后加上超參數(shù),生成新的數(shù)值型特征。Catboost 還使用了組合類別特征,可以利用到特征之間的聯(lián)系,而且基模型采用的是對(duì)稱樹,同時(shí)計(jì)算葉子結(jié)點(diǎn)方式和傳統(tǒng)的boosting 算法通過平均值的計(jì)算方式也不一樣,由于在這方面做了優(yōu)化,而這些改進(jìn)都能防止模型過擬合。

        1.5 評(píng)價(jià)指標(biāo)

        關(guān)于分類問題的研究,本文將整體分類率、查準(zhǔn)率、召回率、f1-度量和auc 值作為模型分類效果的評(píng)價(jià)指標(biāo)。

        如表1所示,根據(jù)混淆矩陣可以得到以下指標(biāo),準(zhǔn)確率度量的是所有預(yù)測(cè)樣本當(dāng)中預(yù)測(cè)正確的比例,但是在面對(duì)不平衡數(shù)據(jù)集的時(shí)候,準(zhǔn)確率作為最重要的評(píng)價(jià)指標(biāo)[6],就會(huì)缺乏合理性,計(jì)算公式Accuracy=(TP+TN)/(TP+FN+FP+TN)。查準(zhǔn)率主要度量所有預(yù)測(cè)為正類的樣本當(dāng)中,被判斷正確的一個(gè)比例值,計(jì)算公式Precision=TP/(TP+FP)。召回率主要度量正類樣本當(dāng)中會(huì)有多少是被預(yù)測(cè)為正類樣本的,在不平衡數(shù)據(jù)集當(dāng)中,該評(píng)價(jià)指標(biāo)更加關(guān)注的是對(duì)于少數(shù)類的預(yù)測(cè)準(zhǔn)確率,計(jì)算公式Recall=TP/(TP+FN)。F1-度量主要是針對(duì)查準(zhǔn)率和召回率的調(diào)和平均指標(biāo),通過F1-度量可以知道查準(zhǔn)率和召回率兩者的側(cè)重關(guān)系,具體的計(jì)算公式F1=2(Precision*Recall)/(Precision+Recall),針對(duì)不平衡數(shù)據(jù)集,F(xiàn)1-度量作為分類模型主要的評(píng)價(jià)指標(biāo),AUC 值是ROC 曲線下的面積值,用來評(píng)價(jià)分類學(xué)習(xí)器的模型泛化能力。

        2 數(shù)據(jù)來源與數(shù)據(jù)不平衡特征

        2.1 數(shù)據(jù)來源

        數(shù)據(jù)真實(shí)來自于醫(yī)院,主要有14 個(gè)特征字段,存在著不平衡的現(xiàn)象,少數(shù)類和多數(shù)類達(dá)到了2:8 的比例,如果直接進(jìn)行模型訓(xùn)練和預(yù)測(cè),那么即便模型不學(xué)習(xí),只要將結(jié)果全部預(yù)測(cè)為多數(shù)類,那么整體的準(zhǔn)確率也可以達(dá)到80%,但實(shí)際模型是不具備預(yù)測(cè)功能的。

        3 仿真實(shí)驗(yàn)

        3.1 SMOTEENN采樣處理

        通過對(duì)原始數(shù)據(jù)集進(jìn)行一系列的數(shù)據(jù)預(yù)處理以及特征工程工作之后,為了測(cè)試訓(xùn)練模型的最終是否具有良好的預(yù)測(cè)效果,因此將已處理好的實(shí)驗(yàn)數(shù)據(jù)集按照7:3 的比例劃分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集,訓(xùn)練數(shù)據(jù)集主要用于前期模型的訓(xùn)練學(xué)習(xí),本文通過SMOTEENN 采樣處理之后的數(shù)據(jù)集數(shù)量結(jié)果如表2所示。

        通過上述結(jié)果可以看出,原始的訓(xùn)練數(shù)據(jù)集存在著不平衡現(xiàn)象,多數(shù)類和少數(shù)類的比列達(dá)到了大約4:1,經(jīng)過SMOTEENN 采樣處理之后,訓(xùn)練數(shù)據(jù)集的數(shù)量總量也由原來的77326 變成了110114,多數(shù)類和少數(shù)類的比例變得大致一樣。

        3.1.1 隨機(jī)森林模型

        由于隨機(jī)森林是集成方法當(dāng)中的優(yōu)良代表,本文就通過使用scikit-learn 庫(kù)中的隨機(jī)森林模型,將未經(jīng)采樣處理的訓(xùn)練數(shù)據(jù)集和經(jīng)過SMOTEENN 采樣處理的訓(xùn)練數(shù)據(jù)集通過隨機(jī)森林模型進(jìn)行學(xué)習(xí)訓(xùn)練,然后將未知的測(cè)試數(shù)據(jù)集通過已經(jīng)學(xué)習(xí)好的隨機(jī)森林模型進(jìn)行結(jié)果的預(yù)測(cè),并輸出最后的評(píng)價(jià)指標(biāo)參數(shù),結(jié)果如表3所示。

        結(jié)果顯示,precision(查準(zhǔn)率)達(dá)到了99%,recall(召回率)達(dá)到了93%,f1-score(f1-度量)達(dá)到了96%,而另類別1,也就是重點(diǎn)關(guān)注的少數(shù)類,precision(查準(zhǔn)率)達(dá)到了78%,recall(召回率)達(dá)到了95%,f1-score(f1-度量)達(dá)到了86%,而總體分類accuracy(精度)可達(dá)到94%,輸出AUC 值也達(dá)到了97%,說明該模型的泛化效果是比較優(yōu)秀的。

        3.1.2 Catboost 模型

        通過將經(jīng)過SMOTEENN 采樣處理的Catboost 算法結(jié)果如表4所示。

        對(duì)于多數(shù)類類別0,precision(查準(zhǔn)率)達(dá)到了99%,recall(召回率)達(dá)到了93%,f1-score(f1-度量)達(dá)到了96%,而另一邊的類別1,也就是關(guān)注的少數(shù)類,它的precision(查準(zhǔn)率)達(dá)到了78%,recall(召回率)達(dá)到了95%,f1-score(f1-度量)達(dá)到了86%,最后的accuracy(精度)也可以達(dá)到93%,而總體的precision(查準(zhǔn)率)達(dá)到了77.68%,recall(召回率)達(dá)到了95.38%,f1-score(f1-度量)達(dá)到了85.62%,處理之后的效果相對(duì)來說也是最好的,輸出的AUC 值為99%,整體效果相比于隨機(jī)森林模型效果更好,說明了Catboost 在處理分類問題上的優(yōu)良性能。

        表1:混淆矩陣

        表2:SMOTEENN 采樣處理不平衡數(shù)據(jù)

        表3:經(jīng)SMOTEENN 混合采樣處理的隨機(jī)森林模型結(jié)果

        表4:經(jīng)SMOTEENN 采樣處理的Catboost 模型結(jié)果

        表5:各自模型結(jié)果對(duì)比

        4 結(jié)論

        經(jīng)過SMOTEENN 采樣之后可以大大提高對(duì)于關(guān)鍵的少數(shù)類樣本的識(shí)別率,并通過集成方法當(dāng)中的隨機(jī)森林和Catboost 算法進(jìn)行對(duì)比分析,輸出結(jié)果如表5所示。

        從上述結(jié)果可以看到,未經(jīng)采樣處理的隨機(jī)森林模型和Catboost 模型,這兩者對(duì)于少數(shù)類的識(shí)別率(recall)都比較低,而經(jīng)過SMOTEENN 采樣處理之后,模型對(duì)于少數(shù)類的識(shí)別率會(huì)有較大程度的提高,這說明了SMOTEENN 采樣對(duì)于提升少數(shù)類的識(shí)別率有很大的幫助,而且通過f1-score 指標(biāo)也可以看到,通過SMOTEENN 采樣處理之后的模型都高于未經(jīng)采樣處理的模型,而且Catboost 算法相比于隨機(jī)森林模型,f1-score 指標(biāo)最高,也說明能更好的平衡少數(shù)類的查準(zhǔn)率和召回率。并且從總體分類準(zhǔn)確率可以看到,經(jīng)過采樣處理的模型雖然相比于未經(jīng)采樣處理的模型會(huì)有所降低,但是少數(shù)類的識(shí)別率卻大大的提升,而且少數(shù)類往往是關(guān)注的重點(diǎn)信息,因而也是可以理解的。

        綜上所述,對(duì)于不平衡數(shù)據(jù)集,SMOTEENN 采樣可以大大提升對(duì)于少數(shù)類的識(shí)別率。在分類算法的選擇上,新出的Catboost 算法相比于以往的傳統(tǒng)分類模型,分類的效果會(huì)更加優(yōu)秀,可以進(jìn)一步提高對(duì)于少數(shù)類的識(shí)別率,降低少數(shù)類的誤判率,即減少關(guān)鍵信息的錯(cuò)判。對(duì)于現(xiàn)實(shí)生活中的不平衡數(shù)據(jù)現(xiàn)象,具有很好的借鑒意義。

        猜你喜歡
        分類模型
        一半模型
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        成人激情五月天| 青青青免费在线视频亚洲视频| 国语自产视频在线| 幻女bbwxxxx在线视频| 综合精品欧美日韩国产在线| 中文字幕乱码av在线| 国产精品大片一区二区三区四区| 久久无码人妻一区二区三区午夜| 亚洲精品一区二区三区大桥未久| 国产视频在线一区二区三区四区| 亚洲av网站在线免费观看| 国产激情久久久久久熟女老人| 久久亚洲国产成人精品性色| 亚洲AV永久无码精品导航| 午夜一区二区在线视频| 国产精品女老熟女一区二区久久夜| 亚洲 另类 日韩 制服 无码 | 亚洲国产精品久久久天堂不卡海量 | 性色av浪潮av色欲av| 2021国产精品视频| 亚洲精品女同在线观看| 色偷偷久久久精品亚洲| 日韩人妻系列在线观看| 久久久av波多野一区二区| 久久久久99精品成人片试看| 国产高清亚洲精品视频| 亚洲av熟女一区二区三区站| 成人午夜性a级毛片免费| 亚洲视频99| 人妻少妇中文字幕av| 一本无码中文字幕在线观| 国产suv精品一区二人妻| 中文无码日韩欧免费视频| 高清国产国产精品三级国产av| 一本一道av无码中文字幕麻豆| 亚洲欧美日韩精品高清| 国产在线拍91揄自揄视精品91| 偷拍综合在线视频二区| 亚洲国产激情一区二区三区| A亚洲VA欧美VA国产综合| 国产激情视频在线观看大全 |