亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于重采樣策略的隨機(jī)森林算法在乳腺腫瘤分類中的研究

        2020-01-10 12:43:44侯珂珂蔡莉莉
        現(xiàn)代計(jì)算機(jī) 2019年34期
        關(guān)鍵詞:分類策略

        侯珂珂,蔡莉莉

        (1.中山大學(xué)新華學(xué)院健康學(xué)院,廣州510520;2.中山大學(xué)新華學(xué)院生物醫(yī)學(xué)工程學(xué)院,廣州510520)

        0 引言

        乳腺癌是一種影響女性健康和生命的惡性腫瘤。根據(jù)2018年國(guó)際癌癥研究機(jī)構(gòu)的最新調(diào)查結(jié)果,在全球女性癌癥中乳腺癌的發(fā)病率為24.2%,居女性惡性腫瘤的首位[1]。近年來(lái),我國(guó)每年診斷出的乳腺癌患者達(dá)30萬(wàn)之多,發(fā)病率呈現(xiàn)逐年上升的趨勢(shì)。隨著綜合治療手段的開展和普及,全球乳腺癌死亡率呈下降趨勢(shì),但是在中國(guó)尤其是廣大農(nóng)村地區(qū),這一變化并不明顯。而對(duì)乳腺腫瘤的早期診斷和治療,可以有效提高乳腺癌患者的存活率和治愈率[2-3]。

        隨著計(jì)算機(jī)技術(shù)和人工智能技術(shù)的發(fā)展,多種計(jì)算機(jī)輔助診斷技術(shù)已被應(yīng)用于乳腺腫瘤的早期診斷。劉瓊蓀等人提出了基于徑向基神經(jīng)網(wǎng)絡(luò)的乳腺腫瘤診斷模型,仿真結(jié)果表明訓(xùn)練樣本的平均誤差率為0,100個(gè)檢測(cè)樣本的平均誤差率為23.5%[4]。王曙燕等人研究了模糊聚類分析在乳腺腫瘤圖像數(shù)據(jù)分類中的應(yīng)用,取得了較高的分類準(zhǔn)確率[5]。易靜等人利用223例臨床手術(shù)患者的11項(xiàng)指標(biāo),基于4種決策樹算法,建立了乳腺腫瘤腋窩高位淋巴結(jié)分類診斷研究模型,分類模型的準(zhǔn)確率為83.79%[6]。金強(qiáng)等人利用附加了動(dòng)量項(xiàng)和自適應(yīng)速率的改進(jìn)BP神經(jīng)網(wǎng)絡(luò)算法對(duì)乳腺腫瘤進(jìn)行診斷,正確識(shí)別率達(dá)到了91.25%,平均誤識(shí)率為8.75%[7]。章永來(lái)等人設(shè)計(jì)的改進(jìn)的支持向量機(jī)分類算法,在乳腺腫瘤的分類診斷中表現(xiàn)了較好的分類效果,分類準(zhǔn)確率達(dá)98.59%[8]。徐勝舟等人提出融合遺傳算法和支持向量機(jī)的乳腺腫瘤分類診斷方法,AUC值達(dá)到了0.908[9]。Samala等人利用多任務(wù)遷移學(xué)習(xí)深度卷積神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)了對(duì)高精度乳腺X線圖像的乳腺腫瘤診斷[10]。Bayramoglu等人采用放大倍數(shù)獨(dú)立的深度學(xué)習(xí)分類方法實(shí)現(xiàn)乳腺腫瘤組織病理學(xué)圖像的分類,準(zhǔn)確率達(dá)83%[11]。

        然而,臨床醫(yī)學(xué)數(shù)據(jù)通常具有明顯的樣本類別不平衡性。不平衡的數(shù)據(jù)會(huì)導(dǎo)致分類器偏向多數(shù)類,影響少數(shù)類的分類效果。而在醫(yī)學(xué)診斷數(shù)據(jù)中,少數(shù)類樣本往往具有至關(guān)重要的現(xiàn)實(shí)意義,對(duì)少數(shù)類的錯(cuò)誤分類可能會(huì)導(dǎo)致嚴(yán)重的后果。例如,將惡性乳腺腫瘤患者錯(cuò)誤的分類成良性患者,貽誤治療,將會(huì)危及患者的生命健康。決策樹、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等傳統(tǒng)的分類算法通常假設(shè)數(shù)據(jù)集具有均勻的數(shù)據(jù)分布和相同的誤分類代價(jià),因此在處理不平衡數(shù)據(jù)時(shí),不能有效反映數(shù)據(jù)的分布特征,分類結(jié)果出現(xiàn)類別偏置現(xiàn)象,大大減弱算法性能。

        隨機(jī)森林作為一種性能良好的集成學(xué)習(xí)算法[12],具有較高的分類性能,能夠很好地規(guī)避過(guò)擬合現(xiàn)象,降低分類系統(tǒng)的泛化誤差,已被廣泛應(yīng)用于眾多領(lǐng)域,尤其是醫(yī)學(xué)數(shù)據(jù)的分類任務(wù)中。

        本文針對(duì)UCI乳腺腫瘤數(shù)據(jù)集樣本類別存在的不平衡性問(wèn)題,首先分別基于不同的重采樣策略構(gòu)建類別平衡的數(shù)據(jù)集,然后采用隨機(jī)森林算法構(gòu)建乳腺腫瘤數(shù)據(jù)分類模型,引入醫(yī)學(xué)數(shù)據(jù)分類模型評(píng)價(jià)指標(biāo)查全率、查準(zhǔn)率、F1-score與未使用采樣策略的構(gòu)建的分類模型進(jìn)行比較,同時(shí)引入混淆矩陣以直觀評(píng)估對(duì)少數(shù)類的分類效果影響。

        1 隨機(jī)森林算法

        隨機(jī)森林是一個(gè)由多個(gè)決策樹分類器構(gòu)成的集成分類器,每個(gè)決策樹分類器通過(guò)投票來(lái)決定最優(yōu)的分類結(jié)果。隨機(jī)森林的分類思想為:

        (1)利用bootstrap重采樣方法從原始訓(xùn)練集中隨機(jī)抽取k個(gè)樣本,形成k個(gè)相互獨(dú)立的bootstrap子樣本集,每個(gè)子樣本集的樣本容量與原始訓(xùn)練集相同。

        (2)每個(gè)bootstrap子樣本集利用CART算法生成單棵決策樹。在決策樹的每個(gè)節(jié)點(diǎn)分裂時(shí),從全部M個(gè)特征中隨機(jī)選擇m(m<M)個(gè)特征,按照“基尼基數(shù)(Gini index)”最小原則,再?gòu)膍個(gè)特征中選擇最優(yōu)特征作為分裂特征進(jìn)行分支生長(zhǎng)。假設(shè)當(dāng)前選取的特征ti中包含K個(gè)樣本類別,pk表示第k個(gè)類別樣本量占總樣本總量的比例,則ti的基尼值為:

        (3)重復(fù)步驟(2),針對(duì)k個(gè) bootstrap子樣本集,構(gòu)建k棵決策樹,形成隨機(jī)森林。

        (4)根據(jù)k棵決策樹的投票結(jié)果,選出最終分類。

        2 基于重采樣策略的隨機(jī)森林分類模型構(gòu)建

        2.1 數(shù)據(jù)選取

        本文選用UCI機(jī)器學(xué)習(xí)庫(kù)中的乳腺腫瘤病例樣本數(shù)據(jù),該數(shù)據(jù)由美國(guó)威斯康辛大學(xué)醫(yī)學(xué)院收集和整理。該數(shù)據(jù)樣本包括569個(gè)病例數(shù)據(jù),含有357例良性樣本和212例惡性樣本。樣本比例為1.68:1,存在一定的數(shù)據(jù)不平衡問(wèn)題。

        每個(gè)病例樣本為32維數(shù)據(jù),包含病例編號(hào)、診斷標(biāo)簽、細(xì)胞核10個(gè)特征量的平均值、標(biāo)準(zhǔn)差和最壞值。其中,第1個(gè)字段為病例編號(hào);第2個(gè)字段為診斷類別標(biāo)簽(B為良性,M為惡性);第3-12個(gè)字段為10個(gè)特征的平均值;第13-22個(gè)字段為10個(gè)特征對(duì)應(yīng)的標(biāo)準(zhǔn)差;第23-32個(gè)字段為10個(gè)特征對(duì)應(yīng)的最壞值。

        2.2 采樣策略

        醫(yī)學(xué)數(shù)據(jù)集分類模型的構(gòu)建,數(shù)據(jù)預(yù)處理工作十分重要,可能會(huì)直接影響到分類的準(zhǔn)確率[4]。數(shù)據(jù)處理中的采樣策略應(yīng)用較為廣泛的主要有兩種,即過(guò)采樣和欠采樣。

        (1)過(guò)采樣方法

        過(guò)采樣是一種通過(guò)增加少數(shù)類別的樣本數(shù)量,以平衡數(shù)據(jù)集的方法。其中,隨機(jī)過(guò)采樣是通過(guò)隨機(jī)復(fù)制少數(shù)類樣本來(lái)增加少數(shù)類的樣本數(shù)量,是最簡(jiǎn)單的過(guò)采樣方法。但該方法僅是通過(guò)簡(jiǎn)單復(fù)制少數(shù)類,沒有增加新的分類信息,容易造成分類過(guò)擬合問(wèn)題。SMOTE算法是比較常用的過(guò)采樣方法,并表現(xiàn)了較好的效果。SMOTE算法通過(guò)向少數(shù)類別樣本數(shù)據(jù)之間插入人工合成樣本,有利于改善原始樣本數(shù)據(jù)的不平衡性。

        (2)欠采樣方法

        與過(guò)采樣方法相反,欠采樣是通過(guò)減少多數(shù)類樣本量,使其與少數(shù)類樣本量趨同,以平衡數(shù)據(jù)分布,例如隨機(jī)欠采樣、數(shù)據(jù)清洗方法等。隨機(jī)欠采樣會(huì)隨機(jī)刪除多數(shù)類樣本,減輕數(shù)據(jù)的不平衡程度。數(shù)據(jù)清洗法則通過(guò)“清洗掉”類間重疊樣本來(lái)平衡數(shù)據(jù)集。

        本文分別采用數(shù)據(jù)處理中的SMOTE過(guò)采樣方法和隨機(jī)欠采樣方法構(gòu)建基于不同采樣策略的隨機(jī)森林分類模型,探討不同采樣策略對(duì)分類模型性能的影響。

        2.3 分類模型性能評(píng)價(jià)指標(biāo)

        準(zhǔn)確率(Accuracy)是評(píng)價(jià)分類器性能的常用指標(biāo)。然而對(duì)于不平衡數(shù)據(jù)集問(wèn)題,特別是醫(yī)學(xué)臨床問(wèn)題,準(zhǔn)確率不能很好說(shuō)明分類器的性能。針對(duì)本文中的乳腺腫瘤不平衡數(shù)據(jù)分類問(wèn)題,我們還引入正向樣本和負(fù)向樣本的查全率(又稱召回率,Recall)、查準(zhǔn)率(Precision)以及F1-score作為分類效果的評(píng)價(jià)指標(biāo)。

        定義1準(zhǔn)確率正確分類的測(cè)試樣本數(shù)量占所有測(cè)試樣本數(shù)量的比例,記為Accuracy,計(jì)算公式如式(2)所示:

        其中,TP為實(shí)際為正樣本,分類器也正確分類為正樣本的樣本量;TN為實(shí)際為負(fù)樣本,分類器正確分類為負(fù)樣本的樣本量;FP為實(shí)際為負(fù)樣本,分類器錯(cuò)誤分類為正樣本的樣本量;FN為實(shí)際為正樣本,分類器錯(cuò)誤分類為負(fù)樣本的樣本量。

        定義2正向查全率正向查全率為正確分類的正樣本數(shù)量占正確分類的正樣本和錯(cuò)誤分類為負(fù)樣本的比例,記為Recall_P,計(jì)算公式如式(3)所示:

        定義3負(fù)向查全率負(fù)向查全率為正確分類的負(fù)樣本數(shù)量占正確分類的負(fù)樣本和錯(cuò)誤分類為正樣本的比例,記為Recall_N,計(jì)算公式如式(4)所示:

        定義4正向查準(zhǔn)率正向查準(zhǔn)率為正確分類的正樣本數(shù)量占正確分類的正樣本和錯(cuò)誤分類為正樣本的比例,記為Precision_P,計(jì)算公式如式(5)所示:

        定義5負(fù)向查準(zhǔn)率負(fù)向查準(zhǔn)率為正確分類的負(fù)樣本數(shù)量占正確分類的負(fù)樣本和錯(cuò)誤分類為負(fù)樣本的比例,記為Precision_N,計(jì)算公式如式(6)所示:

        定義6 F1評(píng)分F1評(píng)分是綜合考慮查全率和查準(zhǔn)率計(jì)算的結(jié)果,記為F1-score,計(jì)算公式如式(7)所示:

        其中,當(dāng)計(jì)算正向評(píng)分時(shí),Precision=Precisionn_P,Recall=Recall_P,當(dāng)計(jì)算負(fù)向評(píng)分時(shí),Precision=Precision_N,Recall=Recall_N。

        3 實(shí)驗(yàn)與分析

        實(shí)驗(yàn)中訓(xùn)練集和測(cè)試集的數(shù)據(jù)比例按照7:3進(jìn)行劃分,訓(xùn)練數(shù)據(jù)為398例,測(cè)試數(shù)據(jù)為171例。以下在數(shù)據(jù)分析時(shí),用B表示正向樣本,用M表示負(fù)向樣本。

        (1)決策樹個(gè)數(shù)對(duì)分類性能的影響

        為探究決策樹個(gè)數(shù)對(duì)算法分類性能的影響,選取欠采樣策略下,決策樹個(gè)數(shù)N分別為3、6、9、11時(shí)進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1所示。

        表1 決策樹個(gè)數(shù)對(duì)分類性能的影響

        由表1可以看出,當(dāng)N=9時(shí),分類模型的各性能指標(biāo)較好。綜合考慮分類效果和時(shí)間效率,以下實(shí)驗(yàn)將決策樹個(gè)數(shù)選定為9,以此分析采樣策略對(duì)分類效果的影響。

        (2)采樣策略對(duì)分類性能的影響

        為了探究采樣策略對(duì)分類性能的影響,本實(shí)驗(yàn)分別測(cè)試了未采樣、欠采樣、過(guò)采樣策略下的分類效果,如圖1和表2所示。

        圖1 不同采樣策略的混淆矩陣

        圖1 (a)顯示,在未采樣策略下,105個(gè)正向樣本中有8個(gè)被錯(cuò)誤劃分為負(fù)向樣本,66個(gè)負(fù)向樣本中有4個(gè)被錯(cuò)誤劃分為正向樣本;圖 1(b)(c)結(jié)果顯示,在采用欠采樣和過(guò)采樣策略后,正向樣本及負(fù)向樣本中錯(cuò)誤劃分的樣本量均有不同程度的減少。

        表2 不同采樣策略對(duì)分類性能的影響

        表2結(jié)果表明,在未采樣策略下,負(fù)向樣本的分類效果不佳,低于正向樣本的分類效果;相比于未采樣策略,欠采樣和過(guò)采樣策略下各性能指標(biāo)均有不同程度的提升,其中,對(duì)負(fù)向類的查準(zhǔn)率均提高了5%,F(xiàn)1-score分別提高了3%和4%,性能提升明顯。

        因此,在該乳腺腫瘤的分類問(wèn)題中,經(jīng)欠采樣和過(guò)采樣策略處理數(shù)據(jù)后的分類模型性能均優(yōu)于未作采樣處理后原始數(shù)據(jù)模型分類效果,而且過(guò)采樣策略具有更優(yōu)異的表現(xiàn),較好地改善了不平衡數(shù)據(jù)集引起的分類偏置現(xiàn)象。

        4 結(jié)語(yǔ)

        為了解決乳腺腫瘤數(shù)據(jù)集類別不平衡的問(wèn)題,本文基于不同的重采樣策略構(gòu)建平衡數(shù)據(jù)集,采用隨機(jī)森林算法建立乳腺腫瘤分類模型,探究不同采樣策略對(duì)乳腺腫瘤數(shù)據(jù)集的分類效果的影響。實(shí)驗(yàn)結(jié)果表明,對(duì)比原始數(shù)據(jù)集,使用采樣策略后的數(shù)據(jù)構(gòu)建的乳腺腫瘤分類器性能有一定提升,且經(jīng)過(guò)采樣處理后構(gòu)建的分類模型較欠采樣處理后的分類性能更好。

        猜你喜歡
        分類策略
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        基于“選—練—評(píng)”一體化的二輪復(fù)習(xí)策略
        求初相φ的常見策略
        例談未知角三角函數(shù)值的求解策略
        我說(shuō)你做講策略
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        高中數(shù)學(xué)復(fù)習(xí)的具體策略
        教你一招:數(shù)的分類
        久久一区二区视频在线观看| 亚洲天堂成人在线| 天堂Av无码Av一区二区三区| 亚洲一区二区三区福利久久蜜桃 | 少妇被日到高潮的视频| 黄色国产一区二区99| 人妻少妇精品视频专区| 色妺妺视频网| 少妇高潮惨叫久久久久电影| 色婷婷久久综合中文蜜桃| 中文字幕人妻无码视频| 国产欧美日韩a片免费软件| 亚洲国产字幕| 久久麻传媒亚洲av国产| 精品亚洲国产成人| 熟妇与小伙子matur老熟妇e| 国产免费三级三级三级| 亚洲网站一区在线播放| 久久久久久曰本av免费免费| 五月天综合网站| 亚洲精品国产精品系列| 国产午夜视频在线观看免费| 精品人妻无码一区二区三区蜜桃一 | 久久精品国产亚洲av夜夜| 绝顶高潮合集videos| 使劲快高潮了国语对白在线| 午夜久久精品国产亚洲av| 久久久精品国产av麻豆樱花| 无码国产精品久久一区免费| 日本大片免费观看完整视频 | 精品久久免费一区二区三区四区| 精品女厕偷拍视频一区二区 | 性做久久久久久久| 天堂麻豆精品在线观看| 国内少妇毛片视频| 国产日产高清欧美一区| 精品丝袜一区二区三区性色| 97cp在线视频免费观看| 乌克兰粉嫩xxx极品hd| 色播中文字幕在线视频| 日本视频在线播放一区二区|