亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于隨機森林的乳腺癌計算機輔助診斷

        2017-04-20 07:56:42全雪峰
        軟件 2017年3期
        關(guān)鍵詞:決策樹分類器準(zhǔn)確率

        全雪峰

        (南陽醫(yī)學(xué)高等專科學(xué)校 衛(wèi)生管理系,河南 南陽 473061)

        基于隨機森林的乳腺癌計算機輔助診斷

        全雪峰

        (南陽醫(yī)學(xué)高等??茖W(xué)校 衛(wèi)生管理系,河南 南陽 473061)

        為提高乳腺癌診斷的準(zhǔn)確性,該文提出了一種基于隨機森林算法的乳腺癌診斷方法。用 UCI數(shù)據(jù)集提供的683例乳腺腫瘤患者進行了分類識別,5-折交叉驗證結(jié)果表明,采用新方法檢測乳癌平均準(zhǔn)確率達到96.93%,優(yōu)于概率神經(jīng)網(wǎng)絡(luò)識別方法,說明了其在乳腺癌計算機輔助診斷方面的可行性。

        隨機森林;乳腺癌;計算機輔助診斷

        0 引言

        乳腺癌是一種危及婦女健康和生命的惡性腫瘤,是導(dǎo)致女性癌癥死亡的第二大原因[1]。根據(jù)世界衛(wèi)生組織的報道,每年有超過120萬女性被診斷患有乳腺癌[2]。因此早期診斷、積極預(yù)防已成為迫切需要解決的問題。隨著人工智能技術(shù)的迅速發(fā)展,運用計算機輔助診斷乳腺癌已受到越來越多的關(guān)注,并取得了不少成果。劉瓊蓀[3]等提出基于徑向基神經(jīng)網(wǎng)絡(luò)的乳腺癌分類模型,對100個檢測樣本的平均誤識率為23.5%。毛利鋒[4]等采用決策樹方法對乳腺癌進行判別,準(zhǔn)確率達到96%以上。劉興華[5]等人利用支持向量機進行乳腺癌識別,最佳平均分類準(zhǔn)確率達到96.24%。徐勝舟[6]等人提出結(jié)合遺傳算法的支持向量機乳腺癌診斷新方法,AUC值達到了0.908。唐思源[7]等人利用支持向量機對癌細(xì)胞的識別,取得了較好的正確識別率。

        隨機森林是一種比較新的機器學(xué)習(xí)模型,它在沒有顯著提高運算量的前提下提高了預(yù)測精度。黃衍[8]等人指出,在多分類問題上,隨機森林的泛化能力明顯優(yōu)于支持向量機。文獻[9-10]指出支持向量機比BP神經(jīng)網(wǎng)絡(luò)具有更高的泛化能力。目前,隨機森林已被應(yīng)用于多個領(lǐng)域[11-12]。模型本文提出了一種基于隨機森林的乳腺癌識別方法,并使用UCI數(shù)據(jù)集驗證模型的性能,結(jié)果顯示該方法具有較好的分類準(zhǔn)確率。

        1 隨機森林

        隨機森林是一種集成樹形分類器[13],由多個決策樹(h(x,θi), i=1,2,…)組成。其中h(x,θi)是用分類回歸樹CART算法構(gòu)建的沒有剪枝的分類決策樹,θi是獨立同分布的隨機向量,決定單棵樹的生長速度。在給定輸入向量 x的情況下,每個決策樹分類器通過投票來決定最優(yōu)分類結(jié)果。

        隨機森林一般構(gòu)造過程如下:

        (1)利用自助法(bootstrap)重抽樣技術(shù)從原始樣本集中有放回地隨機抽取 k個新的自助樣本集,以此形成一個分類器。

        (2)每個自助樣本集生成單棵決策樹。在樹的每個節(jié)點處M個特征中隨機抽取m(m

        (3)重復(fù)步驟(2),構(gòu)建k棵決策樹,形成隨機森林。

        (4)根據(jù)每棵決策樹的投票結(jié)果,選出票數(shù)最多的一個分類。

        節(jié)點不純度的度量方法是Gini準(zhǔn)則[14]。設(shè)P(ωj)是節(jié)點n上屬于ωj類樣本個數(shù)占訓(xùn)練樣本總數(shù)的頻率,則Gini不純度表示為:

        2 算法設(shè)計

        2.1 數(shù)據(jù)選取

        本文所用數(shù)據(jù)來自UCI數(shù)據(jù)集[15]。該數(shù)據(jù)集是美國威斯康星州醫(yī)院用針吸細(xì)胞學(xué)方法所得到的乳腺癌樣本,共有699個。每一樣本具有9個特征,分別為:腫塊密度(Clump Thickness)、細(xì)胞大小均勻性(Uniformity of Cell Size)、細(xì)胞形狀均勻性(Uniformity of Cell Shape)、邊界粘連(Marginal Adhesion)、單個上皮細(xì)胞大?。⊿ingle Epithelial Cell Size)、裸核(Bare Nuclei)、微受激染色質(zhì)(Bland Chromatin)、正常核(Normal Nucleoli)、有絲分裂(Mitoses)。所有特征的屬性值都是1~10的整數(shù),1代表正常狀態(tài),10代表極不正常狀態(tài),值越大表示該患者乳腺腫瘤惡性的可能性就越大。整個數(shù)據(jù)集中,有少量屬性值缺省,以“?”表示??紤]到實驗數(shù)據(jù)的全面性,本文剔除了含有缺省屬性的病例,剩下病例中確診為良性的有444例,確診為乳腺癌惡性的有239例,共計683個樣本。

        2.2 確定訓(xùn)練集與測試集

        實驗中采用5折交叉驗證法對數(shù)據(jù)集進行分組和測試。即將數(shù)據(jù)隨機分為容量大致相同的5組,每一組依次輪流作為測試集,其余部分作為訓(xùn)練集。對每次分組得到的訓(xùn)練集和測試集,用隨機森林進行訓(xùn)練和測試。

        2.3 分類器設(shè)計

        在得到訓(xùn)練集和測試集之后就可以利用分類器進行識別了。本文采用 Matlab2013a中隨機森林工具箱函數(shù)TreeBagger()創(chuàng)建一個隨機森林分類器,利用predict()函數(shù)對測試集數(shù)據(jù)進行預(yù)測。

        3 實驗結(jié)果與分析

        3.1 決策樹個數(shù)對分類結(jié)果的影響

        在隨機森林模型中,決策樹個數(shù)k影響著分類器的性能。當(dāng)k值較小時,隨機森林的分類誤差大、性能也比較差。但是構(gòu)建隨機森林的復(fù)雜度與 k值成正比,若 k值過大,則需要花費較多的時間來構(gòu)建隨機森林。不同決策樹個數(shù)與模型誤差的關(guān)系如圖1所示。

        圖1 決策樹個數(shù)與模型誤差關(guān)系

        由圖 1可以看出,當(dāng)決策樹個數(shù)大概大于 300以后,模型誤差趨于穩(wěn)定,因此本文將模型中決策樹個數(shù)確定為300,以此來達到最優(yōu)模型。

        3.2 數(shù)據(jù)歸一化對算法性能的影響

        為研究數(shù)據(jù)歸一化處理對算法性能的影響,使用相同的訓(xùn)練集和測試集,分別在歸一化到[-1,1]和未歸一化情況下進行算法測試,結(jié)果如表1所示。

        表1 數(shù)據(jù)歸一化與否對模型性能的影響

        由表1可以看出,數(shù)據(jù)歸一化后的分類準(zhǔn)確率低于未歸一化的分類準(zhǔn)確率。這說明,數(shù)據(jù)是否需要歸一化處理,并非一個必要條件,需根據(jù)具體情況選擇。

        3.3 5-折交叉驗證結(jié)果

        取隨機森林模型中決策樹個數(shù)為 300,不進行數(shù)據(jù)歸一化處理,用5-折交叉驗證對剔除含有缺省屬性后的683個樣本進行測試。由于每次所選訓(xùn)練集和測試集均不相同,因而其結(jié)果也不相同。某輪5-折交叉驗證結(jié)果如表2所示。

        表2 5-折交叉驗證結(jié)果

        由表2可以看出,基于隨機森林算法的乳腺癌分類模型平均分類準(zhǔn)確率達到了96.93%,說明分類準(zhǔn)確率較高。

        3.4 不同算法比較

        為了與其他算法進行對比分析,本文使用相同的訓(xùn)練樣本和測試樣本,采用5-折交叉驗證方法,分別與文獻[5]所提支持向量機算法以及文獻[16]所提概率神經(jīng)網(wǎng)絡(luò)算法做了性能對比,某輪5-折交叉驗證結(jié)果如表3所示。

        表3 不同算法比較

        由表3可以看出,本文算法的平均準(zhǔn)確率與支持向量機的平均準(zhǔn)確率相當(dāng),但優(yōu)于概率神經(jīng)網(wǎng)絡(luò)算法。這表明隨機森林算法同支持向量機算法一樣,不僅可以較好地識別出乳腺癌患者,還可以較好地識別出非乳腺癌病例,從而可以減少人為原因造成的漏診和誤診幾率,給病人帶來福音。

        4 結(jié)束語

        本文將隨機森林算法用于乳腺腫瘤的良性和惡性識別。從實驗結(jié)果可以看出,該算法能較好的區(qū)分開良性腫瘤和惡性腫瘤,從而為乳腺癌的計算機輔助自動診斷提供了一種新的思路。

        [1]E.C.Fear, P.M.Meaney, and M.A.Stuchly, “Microwaves for breast cancer detection”, IEEE potentials, vol.22, pp.12-18, February-March 2003.

        [2]Akay M F.Support vector machines combined with feature selection for breast cancer diagnosis[J].Expert systems with applications, 2009, 36(2): 3240-3247.

        [3]劉瓊蓀, 何離慶.基于人工神經(jīng)網(wǎng)絡(luò)的乳腺癌診斷模型[J].重慶大學(xué)學(xué)報(自然科學(xué)版), 2003, 26(4): 70-72.

        [4]毛利鋒, 瞿海斌.一種基于決策樹的乳腺癌計算機輔助診斷新方法[J].江南大學(xué)學(xué)報(自然科學(xué)版), 2004, 3(3): 227-229.

        [5]劉興華, 蔡從中, 袁前飛等.基于支持向量機的乳腺癌輔助診斷[J].重慶大學(xué)學(xué)報(自然科學(xué)版), 2007, 30(6): 140-144.

        [6]徐勝舟, 裴承丹.基于遺傳算法和支持向量機的乳腺腫塊識別[J].計算機仿真, 2015, 32(2): 432-435, 440.

        [7]唐思源, 柳原, 崔媛.利用支持向量機對癌細(xì)胞的識別[J].軟件, 2014, 35(3): 170-171.

        [8]黃衍, 查偉雄.隨機森林與支持向量機分類性能比較[J].軟件, 2012, 33(6): 107-110.

        [9]王宏濤, 孫劍偉.基于BP神經(jīng)網(wǎng)絡(luò)和SVM的分類方法研究[J].軟件, 2015, 36(11): 96-99.

        [10]肖曉, 徐啟華.基于SVM與BP的分類與回歸比較研究[J].新型工業(yè)化, 2014, 4(5): 48-53.

        [11]全雪峰.基于奇異熵和隨機森林的人臉識別[J].軟件, 2016, 37(02): 35-38.

        [12]王浩.基于隨機森林的網(wǎng)絡(luò)攻擊檢測方法[J].軟件, 2016, (11): 60-63.

        [13]Breiman L.Random forests[J].Machine learning, 2001, 45(1): 5-32.

        [14]張洪強, 劉光遠, 賴祥偉等.隨機森林算法在肌電的重要特征選擇中的應(yīng)用[J].計算機科學(xué), 2013, 40(1): 200-202.

        [15]William H.Wolberg, UCI Machine Learning Repository[DB/OL].(2016-4-24).http: //archive.ics.uci.edu/ml.

        [16]程智輝, 陳將宏.基于概率神經(jīng)網(wǎng)絡(luò)的乳腺癌計算機輔助診斷[J].計算機仿真, 2012, 29(9): 166-169.

        Computer-Aided Diagnosis of Breast Cancer Based on Random Forest

        QUAN Xue-feng
        (Department of Health Management, Nanyang Medical College, Nanyang 473061, China)

        In order to improve the accuracy of diagnosis of breast cancer, this paper proposes a method for diagnosis of breast cancer based on random forest algorithm.With 683 cases of breast cancer patients from UCI data sets for identification and classification, 5-fold cross validation results show that average accuracy rate reached 96.93% by this new method for the detection of breast cancer.This is superior to probabilistic neural network recognition method, indicating the feasibility of computer-aided breast cancer diagnosis.

        Random forest; Breast cancer; Computer-aided diagnosis

        TP391

        A

        10.3969/j.issn.1003-6970.2017.03.012

        河南省醫(yī)學(xué)教育研究課題(Wjlx2015133)

        全雪峰(1969-),男,副教授,主要研究方向為智能信息處理。

        本文著錄格式:全雪峰.基于隨機森林的乳腺癌計算機輔助診斷[J].軟件,2017,38(3):57-59

        猜你喜歡
        決策樹分類器準(zhǔn)確率
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
        一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
        決策樹和隨機森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        高速公路車牌識別標(biāo)識站準(zhǔn)確率驗證法
        BP-GA光照分類器在車道線識別中的應(yīng)用
        電子測試(2018年1期)2018-04-18 11:52:35
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
        基于決策樹的出租車乘客出行目的識別
        漂亮人妻被强了中文字幕| 亚洲人成人网站在线观看| 亚洲av中文无码字幕色三| 岛国熟女一区二区三区| 中文字幕一区二区网址| 日韩 亚洲 制服 欧美 综合 | 后入到高潮免费观看| 成人无码一区二区三区网站| 亚洲电影一区二区| 精品视频手机在线免费观看| 色婷婷综合久久久中文字幕| 人人色在线视频播放| 麻豆91免费视频| 亚洲一区二区三区在线观看| 19款日产奇骏车怎么样| 亚洲人成电影在线播放| 伊人网综合| 国产女主播在线免费看| 国产自拍偷拍视频免费在线观看| 欧洲美熟女乱又伦av影片| 国产无遮挡无码视频免费软件 | 亚洲 欧美 激情 小说 另类| 美女熟妇67194免费入口| 国产高清视频在线不卡一区| 日本一本之道高清不卡免费| 亚洲综合欧美日本另类激情| 亚洲免费人成网站在线观看 | 成人精品天堂一区二区三区| 四川老熟妇乱子xx性bbw| 妞干网中文字幕| 午夜少妇高潮免费视频| 国产精品一区二区日本| 少妇放荡的呻吟干柴烈火动漫| 久久国产精品免费一区二区| 午夜少妇高潮在线观看视频| av无码av天天av天天爽| 亚洲综合中文字幕乱码在线| 少妇人妻中文字幕在线| 手机在线观看日韩不卡av| 丰满人妻被黑人猛烈进入| 亚洲区在线|