亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        AdaBoost算法在乳腺癌疾病預(yù)測中的研究

        2021-08-06 19:49:55葉琳石勝源羅鐵清
        計算機時代 2021年7期
        關(guān)鍵詞:機器學(xué)習(xí)乳腺癌

        葉琳 石勝源 羅鐵清

        摘? 要: 為了研究AdaBoost算法在乳腺癌疾病預(yù)測中的應(yīng)用,收集乳腺癌診斷數(shù)據(jù)集并按照一定的比例拆分成測試數(shù)據(jù)和訓(xùn)練數(shù)據(jù)。利用AdaBoost、GaussianNB、KNeighbors算法模型分別進行測試,以準(zhǔn)確率為評價標(biāo)準(zhǔn)來評價模型性能的好壞。當(dāng)測試數(shù)據(jù)占30%時,AdaBoost算法模型預(yù)測乳腺癌疾病優(yōu)于其他算法模型,準(zhǔn)確率為96.49%。通過綜合評價機制考察發(fā)現(xiàn),AdaBoost算法模型能從復(fù)雜的多因素中找到預(yù)測乳腺癌的重要影響因素,這對快速識別引起乳腺癌疾病的特征以及早期病人的有效治療具有重要意義。

        關(guān)鍵詞: 乳腺癌; 機器學(xué)習(xí); AdaBoost; 診斷預(yù)測

        中圖分類號:TP391.41;TP181;R737.9? ? ? ? ? 文獻標(biāo)識碼:A? ? ?文章編號:1006-8228(2021)07-61-04

        Study of AdaBoost algorithm application in breast cancer disease prediction

        Ye Lin, Shi Shengyuan, Luo Tieqing

        (School of Informatics, Hunan University of Chinese Medicine, Changsha, Hunan 410208, China)

        Abstract: In order to study the application of AdaBoost algorithm in breast cancer disease prediction, breast cancer diagnostic data sets were collected and divided into the test data and training data according to a certain proportion, which were be used respectively in the test with AdaBoost, GaussianNB, and KNeighbors algorithm models, and the accuracy rate was used as the evaluation criteria to evaluate the performance of model. When the test data accounted for 30%, the AdaBoost algorithm model predicted breast cancer disease better than the other algorithm models, with an accuracy of 96.49%. Through the investigation with comprehensive evaluation mechanism, it is found that AdaBoost algorithm model can find the important influencing factors for predicting breast cancer from complex multiple factors, which is of great significance for rapid identification of the characteristics of breast cancer diseases and effective treatment of early patients.

        Key words: breast cancer; machine learning; AdaBoost; diagnostic prediction

        0 引言

        Hyuna Sung[1]等人在癌癥領(lǐng)域頂級??禖A:A Cancer Journal for Clinicians》(IF≈292)發(fā)表題為《Global cancer statistics 2020:GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries》的研究論文,論文對全球癌癥疾病負擔(dān)信息進行了更新。2020年,全球估計有1930萬新發(fā)癌癥病例。全球癌癥發(fā)病率前五名依次是乳腺癌(226萬,11.7%)、肺癌(221萬,11.4%)、結(jié)直腸癌(193萬,10.0%)、前列腺癌(141萬,7.3%)、胃癌(109萬,5.6%)。由此可見,乳腺癌已經(jīng)成為全球第一大癌癥,具體情況如圖1所示。

        值得思考的是,第二名肺癌男女均會患病,乳腺癌患者超過99%為女性,而女性人數(shù)約占全球總?cè)丝诘囊话?,但乳腺癌新發(fā)病人數(shù)居然超過了肺癌,這是我們必須要重視的。由于乳腺癌診斷十分復(fù)雜,因此借助機器學(xué)習(xí)相關(guān)算法模型來對乳腺癌進行準(zhǔn)確評估和預(yù)測迫在眉睫。本文將AdaBoost與GaussianNB、KNeighbors算法模型做對比,最終發(fā)現(xiàn)AdaBoost算法模型相較于另外兩種算法模型能夠更為準(zhǔn)確的預(yù)測乳腺癌,實驗步驟如圖2所示。

        1 對象與方法

        1.1 研究對象

        本文實驗所用的乳腺癌數(shù)據(jù)來源于UCI repository[2]上美國威斯康星州乳腺癌(診斷)數(shù)據(jù)集中部分?jǐn)?shù)據(jù),共計569例,數(shù)據(jù)信息包括id(標(biāo)識),diagnosis(M:惡性,B:良性)以及乳腺腫塊信息,乳腺腫塊信息包括radius(半徑)、texture(文理)、perimeter(周長)、area(面積)、smoothness(平滑程度)、compactness(致密性)、concavity(凹面)、concave points(凹點)、symmetry(對稱性)、fractal_dimension(分形維數(shù))這10個特征的mean(平均值)、se(標(biāo)準(zhǔn)差)和worst(最大值),共計32個字段。

        1.2 數(shù)據(jù)預(yù)處理

        實驗前需要對乳腺癌診斷數(shù)據(jù)集進行清洗,在JupyterNotebook中剔除無意義字段id,剩余31個字段分別代表diagnosis以及radius,texture,perimeter,area,smoothness,compactness,concavity,concave points,symmetry,fractal_dimension這10個特征mean、se、worst維度。

        1.3 AdaBoost模型的建立

        AdaBoost算法是一種基礎(chǔ)的機器學(xué)習(xí)方法,根據(jù)曹瑩[3]等人總結(jié)的算法核心思想,得出實驗中AdaBoost分類器利用同一種弱分類器,根據(jù)弱分類器的錯誤率分配不同的權(quán)重參數(shù),最后累加加權(quán)的預(yù)測結(jié)果作為輸出。實驗研究的結(jié)局變量為乳房腫塊良性或惡性,是研究的根本目的。解釋變量為對乳腺癌發(fā)生率有影響的危險因素,如area_mean,texture_mean、concavity_mean等,用于支持結(jié)局變量的準(zhǔn)確性。

        1.4 特征選取

        相關(guān)系數(shù)矩陣熱力圖是特征之間相關(guān)系數(shù)可視化的一種方法,用來展示特征之間的相似程度。實驗在JupyterNotebook中進行演示,用相關(guān)系數(shù)矩陣熱力圖展示特征之間的相關(guān)性,圖中系數(shù)越大說明特征越相關(guān),如圖3所示。

        參考相關(guān)系數(shù)矩陣熱力圖可以對特征進行降維處理,將相關(guān)系數(shù)大于0.7的特征perimeter_mean,radius_mean,compactness_mean,concave points_mean,radius_se,perimeter_se,radius_worst,perimeter_worst,compactness_worst,concave points_worst,compactness_se,concave points_se,texture_worst,area_worst,area_se,smoothness_worst,concavity_worst,fractal_

        dimension_worst刪除,保留剩余12個特征,再一次驗證可以得出降維后的相關(guān)系數(shù)矩陣熱力圖,如圖4所示。

        2 結(jié)果

        2.1 特征重要性評分

        實驗需要將乳腺癌診斷數(shù)據(jù)集拆分成訓(xùn)練集和測試集,其中測試集占比30%(test_size=0.3)。計算test_size=0.3以及隨機種子數(shù)為42時的AdaBoost算法模型下12個特征的重要性評分,列出排名前10的變量和分?jǐn)?shù),如表1所示。

        2.2 模型預(yù)測性能評價

        為了對比在test_size=0.3和隨機種子數(shù)為42情況下的AdaBoost算法模型與其他兩個算法模型的性能,在模型測試前需要進行參數(shù)優(yōu)化,使用表1當(dāng)中10個特征進行測試并比較,使用混淆矩陣進行預(yù)測結(jié)果的分類,共分為 TP,F(xiàn)P,F(xiàn)N,TN四類,如表2所示。

        本文給出三種不同方法的混淆矩陣,分別對應(yīng)了真惡性、假惡性、假良性和真良性四種情況下數(shù)據(jù)的分布[4],不同算法模型的數(shù)據(jù)分配如表3所示。

        實驗結(jié)果以準(zhǔn)確率作為評價標(biāo)準(zhǔn),由混淆矩陣可知,AdaBoost算法模型準(zhǔn)確率為96.49%、GaussianNB算法模型準(zhǔn)確率為95.91%、KNeighbors算法準(zhǔn)確率為90.06%,如圖5所示。從圖5中的實驗數(shù)據(jù)可以看出當(dāng)test_size=0.3且隨機種子數(shù)為42時AdaBoost算法模型的準(zhǔn)確率高于另外兩種算法模型。

        2.3 最優(yōu)特征

        為了提高模型的泛化能力,實驗采用5折交叉驗證[5]降低泛化誤差,其原理將數(shù)據(jù)集分割成5個子集,一個單獨的子集被保留作為驗證模型的數(shù)據(jù),其他4個子集用來訓(xùn)練。交叉驗證重復(fù)5次,每個子集驗證一次,平均這5次的結(jié)果得到一個單一估測。這個方法的優(yōu)勢在于同時重復(fù)運用隨機產(chǎn)生的子集進行訓(xùn)練和驗證,每個子集都被驗證一次。在AdaBoost算法模型的基礎(chǔ)上經(jīng)過5折交叉驗證可以找到最佳特征為texture_mean,area_mean,smoothness_mean,concavity_

        mean,texture_se,symmetry_se,fractal_dimension_se,symmetry_worst的同時也預(yù)示著預(yù)測乳腺癌需要的最佳特征數(shù)為8,如圖6所示。

        主成分分析(Principal Component Analysis,PCA)[6]是對特征進行綜合評價的方法之一,其原理是通過投影的方法消除重疊信息,實現(xiàn)數(shù)據(jù)的降維[7]。經(jīng)過PCA可知最優(yōu)特征數(shù)為1,如圖7所示。參照表1數(shù)據(jù)選擇得分最高的變量area_mean作為最優(yōu)特征,該特征預(yù)測乳腺癌準(zhǔn)確率可達96%以上。

        3 結(jié)束語

        本文提出基于AdaBoost算法的乳腺癌疾病預(yù)測方法并將AdaBoost算法模型與GaussianNB、KNeighbors算法模型進行比較,證明在乳腺癌疾病診斷中,AdaBoost算法模型相對于另外兩種算法模型取得了良好的效果。此研究對于識別乳腺癌患者并為其進行及時和有效的治療有一定的現(xiàn)實意義。但本研究采用的是美國威斯康星州乳腺癌診斷數(shù)據(jù)中的一小部分?jǐn)?shù)據(jù),數(shù)據(jù)受地域和數(shù)量的限制使得最終實驗結(jié)果具有局限性,需要進一步擴大數(shù)據(jù)來源和使用大樣本數(shù)據(jù)驗證結(jié)果的適用性。

        參考文獻(References):

        [1] Hyuna Sung, Ferlay Jacques, Siegel Rebecca-L, et al.Global cancer statistics 2020: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries[J].CA:A Cancer Journal for Clinicians.

        [2] UCI repository.乳腺癌診斷數(shù)據(jù)集[EB/OL].http://archive.ics.uci.edu/ml/datasets/breast+cancer+wisconsin+%28diagnostic%29.

        [3] 曹瑩,苗啟廣,劉家辰等.AdaBoost算法研究進展與展望[J].自動化學(xué)報,2013.39(6):745-758

        [4] 盧星凝,張莉.基于屬性約簡和支持向量機集成的乳腺癌診斷決策[J].計算機應(yīng)用,2015.35(10):2793-2797

        [5] 張中文,姚婷婷,張海泉等.基于交叉驗證的組合診斷方法在乳腺腫瘤診斷研究中的應(yīng)用[J].中國衛(wèi)生統(tǒng)計,2020.37(2):166-169

        [6] 孔浩,郭慶梅,王慧慧等.主成分分析法在中藥質(zhì)量評價中的應(yīng)用[J].遼寧中醫(yī)雜志,2014.41(5):890-892

        [7] 符剛,張玥,曾強等.主成分分析法在北方某市飲用水水質(zhì)綜合評價中的應(yīng)用[J].中國預(yù)防醫(yī)學(xué)雜志,2015.16(12):955-960

        猜你喜歡
        機器學(xué)習(xí)乳腺癌
        絕經(jīng)了,是否就離乳腺癌越來越遠呢?
        中老年保健(2022年6期)2022-08-19 01:41:48
        中醫(yī)治療乳腺癌的研究進展
        乳腺癌是吃出來的嗎
        胸大更容易得乳腺癌嗎
        別逗了,乳腺癌可不分男女老少!
        祝您健康(2018年5期)2018-05-16 17:10:16
        基于詞典與機器學(xué)習(xí)的中文微博情感分析
        基于機器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護中的應(yīng)用
        基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
        時代金融(2016年27期)2016-11-25 17:51:36
        前綴字母為特征在維吾爾語文本情感分類中的研究
        基于支持向量機的金融數(shù)據(jù)分析研究
        国产毛片视频一区二区三区在线| 扒开双腿疯狂进出爽爽爽视频| 欧美色综合高清视频在线| 五月天无码| 99久久精品国产片| 国产内射视频在线观看| 亚洲国产色婷婷久久精品| 亚洲乱码一区av春药高潮| 粗一硬一长一进一爽一a级| 国产精品视频久久久久| 亚洲www视频| 国产视频在线观看一区二区三区 | 无码人妻久久久一区二区三区| 熟女少妇在线视频播放| 亚洲精品久久久久中文字幕二区| 亚洲美女啪啪| 91情侣在线精品国产免费| 亚洲中文字幕在线精品2021| 狼狼色丁香久久女婷婷综合| 日韩在线观看入口一二三四| 国内少妇毛片视频| 激情第一区仑乱| 国内精品人妻无码久久久影院94| 又色又爽又黄的视频网站| 日本美女性亚洲精品黄色| 亚洲女同同性一区二区| 欧美人伦禁忌dvd放荡欲情| 日本又黄又爽gif动态图| 久久精品国产屋| 91盗摄偷拍一区二区三区| 亚洲av午夜成人片精品电影| 丰满少妇被猛男猛烈进入久久| 人妻无码ΑV中文字幕久久琪琪布 尤物AV无码色AV无码麻豆 | 国产成人精品精品欧美| 伊人狼人影院在线视频| 国产一区亚洲二区三区极品| 免费大片黄国产在线观看| 极品新婚夜少妇真紧| 久久久综合九色合综国产| 初尝人妻少妇中文字幕在线| 久久久精品国产亚洲av网麻豆|