亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于不平衡分類的乳腺腫瘤預(yù)后預(yù)測方法的研究

        2019-04-18 06:49:46楊日東張學(xué)良
        關(guān)鍵詞:命中率決策樹敏感度

        王 哲, 楊日東, 周 毅, 張學(xué)良, 王 凱

        (1新疆醫(yī)科大學(xué)公共衛(wèi)生學(xué)院, 烏魯木齊 830011; 2中山大學(xué)中山醫(yī)學(xué)院, 廣州 510080;3新疆醫(yī)科大學(xué)醫(yī)學(xué)工程技術(shù)學(xué)院, 烏魯木齊 830011)

        2010年以來中國癌癥的發(fā)病率和死亡率不斷上升,癌癥成為主要的死亡原因,也是我國主要的公共衛(wèi)生問題之一[1]。乳腺癌(Breast Cancer)是乳腺組織中的細(xì)胞不正常分裂和增生的惡性腫瘤,是女性最常見的癌癥[2]。近年來,隨著乳腺癌的早期診斷和早期治療,患者的總體療效明顯提高。據(jù)估計(jì),通過減少可改變風(fēng)險(xiǎn)因素的暴露可以避免近60%的癌癥死亡[3]。因此,對乳腺癌預(yù)后狀態(tài)進(jìn)行預(yù)測,從而尋找有效的抑制途徑,是進(jìn)一步提高乳腺癌患者生存率的關(guān)鍵,具有重大的研究意義。

        傳統(tǒng)的分類器是基于均勻的數(shù)據(jù)分布的基礎(chǔ)上,而乳腺腫瘤患者的生存數(shù)據(jù)是不平衡的。雖然乳腺癌是女性癌癥死亡的第二大原因,但其存活率較高。早期診斷中,97%的女性存活5年以上[4],所以數(shù)據(jù)是不平衡的。不平衡數(shù)據(jù)具有數(shù)據(jù)稀缺、噪聲、決策面偏移、評測指標(biāo)等傳統(tǒng)分類器難以解決的問題[5]。必然會導(dǎo)致多數(shù)類精度高而少數(shù)類精度不高的問題,然而在乳腺腫瘤的預(yù)后預(yù)測分析研究中,少數(shù)類(死亡患者)的信息對臨床醫(yī)生的研究更有價(jià)值,通過少數(shù)類發(fā)現(xiàn)危險(xiǎn)因素可更好地提高生存率。因此,提高少數(shù)類的分類精度,對于乳腺腫瘤不平衡數(shù)據(jù)的研究是十分重要的,本研究結(jié)合過采樣技術(shù)(SMOTE、Borderline-SMOTE和ADASYN)或欠采樣技術(shù)(One-Sided Select)對乳腺癌患者的生存預(yù)后進(jìn)行預(yù)測,現(xiàn)報(bào)道如下。

        1 資料與方法

        1.1資料來源本研究所用數(shù)據(jù)來源于廣州市某三甲醫(yī)院的乳腺癌患者預(yù)后數(shù)據(jù),隨訪了1 845名乳腺癌患者,均為女性。

        1.2研究方法采樣技術(shù)是解決類不平衡的方法之一,它通過對數(shù)據(jù)樣本的預(yù)處理,從而達(dá)到數(shù)據(jù)平衡的效果。本研究將改進(jìn)提升樹與結(jié)合了過采樣技術(shù)(SMOTE、Borderline-SMOTE和ADASYN)或欠采樣技術(shù)(One-Sided Select)對乳腺癌患者的生存預(yù)后數(shù)據(jù)進(jìn)行預(yù)處理。經(jīng)典決策樹(classical decision tree)、條件決策樹(conditional inference tree)、隨機(jī)森林(random forest)[6]、支持向量機(jī)(support vector machine,SVM)分類算法構(gòu)造分類器,從而對乳腺腫瘤預(yù)后狀況進(jìn)行預(yù)測。

        1.3分類器性能比較在一個(gè)二分類的混淆矩陣中,實(shí)際為正類也被預(yù)測為正類的樣本稱為正確正類TP(true positive),實(shí)際為正類被預(yù)測為反類稱為錯(cuò)誤反類FN(false negative),實(shí)際為反類被預(yù)測為正類的稱為錯(cuò)誤正類FP(false positive),實(shí)際為反類被預(yù)測為反類的稱為正確反類TN(true negative)。表1為二分類分類器中常用的混淆矩陣,將大樣本類別稱為負(fù)類,小樣本類為正類。

        表1 混淆矩陣

        準(zhǔn)確率(accuracy)是最常用的選擇預(yù)測效果的統(tǒng)計(jì)量,即分類器能否總能正確劃分樣本。盡管準(zhǔn)確率承載的信息很大,這一個(gè)指標(biāo)仍然不能選出最準(zhǔn)確的模型,尤其是針對類不平衡數(shù)據(jù),我們還需要其他信息來評估不同分類方法的有效性。敏感度(sensitivity)、特異性(specificity)、正例命中率(positive predictive power)、負(fù)例命中率(negative predictive power)也被用來評價(jià)分類器的分類效果,具體含義見表2。

        表2 預(yù)測準(zhǔn)確性度量

        根據(jù)表1中的內(nèi)容,具體計(jì)算方式如下:

        (1)

        (2)

        (3)

        (4)

        1.4數(shù)據(jù)處理Python實(shí)現(xiàn)采樣技術(shù)的算法;使用R語言3.5.0,通過rpart包構(gòu)造經(jīng)典決策樹模型和條件決策樹模型,randomForest包可用于生成隨機(jī)森林,通過e1071包構(gòu)造支持向量機(jī)模型。

        2 結(jié)果

        2.1模型的建立實(shí)驗(yàn)使用有監(jiān)督機(jī)器學(xué)習(xí)領(lǐng)域中的方法對乳腺腫瘤的生存狀態(tài)進(jìn)行分類研究。將全部數(shù)據(jù)分為一個(gè)訓(xùn)練集和一個(gè)測試集,使用訓(xùn)練集建立預(yù)測模型,測試集用于測試模型的準(zhǔn)確性。隨機(jī)分出70%作為訓(xùn)練集,測試集包含樣本單元的30%。數(shù)據(jù)包含年齡、腫瘤大小、婚姻狀態(tài)、臨床分期、病理分級、T-stage、雌激素受體、孕激素受體等15個(gè)特征,特征描述見表3、4。

        表3 分類型自變量

        表4 數(shù)值型自變量

        2.2訓(xùn)練集不平衡數(shù)據(jù)的分布情況在1 845例數(shù)據(jù)中,存活患者1 668例,未存活患者176例。用SMOTE、Borderline-SMOTE、ADASYN、One-Sided Select算法對乳腺腫瘤數(shù)據(jù)集進(jìn)行預(yù)處理,使得預(yù)測變量乳腺腫瘤的生存狀態(tài)成為平衡數(shù)據(jù)。數(shù)據(jù)在各種預(yù)處理后的多數(shù)類、少數(shù)類及不平衡比分布情況見表5。

        表5 訓(xùn)練集不平衡數(shù)據(jù)的分布情況

        2.3不同采樣方法機(jī)器學(xué)習(xí)分類性能的比較在使用經(jīng)典決策樹、條件決策樹、隨機(jī)森林和支持向量機(jī)4種機(jī)器學(xué)習(xí)方法進(jìn)行預(yù)測時(shí),未經(jīng)采樣技術(shù)處理的原始數(shù)據(jù)集在預(yù)測準(zhǔn)確率上均表現(xiàn)良好,其中支持向量機(jī)準(zhǔn)確率最高,達(dá)到了90.42%,條件決策樹的準(zhǔn)確率為90.05%,經(jīng)典決策樹為89.53%,隨機(jī)森林為89.51%。在預(yù)測準(zhǔn)確率最高的支持向量機(jī)算法中,針對敏感度的預(yù)測僅為0,條件決策樹和隨機(jī)森林僅為2%和4%,經(jīng)典決策樹在未經(jīng)處理的數(shù)據(jù)集預(yù)測敏感度上表現(xiàn)最好,為11%。結(jié)合采樣技術(shù)對敏感度進(jìn)行預(yù)測發(fā)現(xiàn),條件決策樹的預(yù)測效果最好,為58%,相較于原始數(shù)據(jù)集,采用同一種機(jī)器學(xué)習(xí)算法比較后發(fā)現(xiàn),敏感度提升了56%。支持向量機(jī)結(jié)合SMOTE技術(shù)將敏感度由0提高到了43%。經(jīng)典決策樹結(jié)合One-Sided Select技術(shù)將敏感度提高了36%,隨機(jī)森林結(jié)合One-Sided Select技術(shù)將敏感度提高了32%。因此,在使用采樣技術(shù)針對數(shù)據(jù)進(jìn)行預(yù)處理之后,預(yù)后預(yù)測的敏感度均得到提升。比較預(yù)測的特異性發(fā)現(xiàn),原始數(shù)據(jù)集的特異性相較于經(jīng)過采樣技術(shù)處理后的特異性,支持向量機(jī)的特異性最高,為100%,其次是條件決策樹和隨機(jī)森林,均為99%,經(jīng)典決策樹為98%。觀察正例命中率發(fā)現(xiàn),總體的正例命中率偏低,針對不同的機(jī)器學(xué)習(xí)算法,采用不同的算法獲得的效果不同。其中,采用One-Sided Select結(jié)合支持向量機(jī)算法的正例命中率最高,為40%。各預(yù)測方法結(jié)合各采樣技術(shù)的負(fù)例命中率整體較高,采用One-Sided Select結(jié)合條件決策樹的負(fù)例命中率最高,為95%,具體見表6。

        表6 不同采樣方法機(jī)器學(xué)習(xí)分類性能比較/%

        3 討論

        傳統(tǒng)的乳腺癌預(yù)后研究是基于統(tǒng)計(jì)學(xué)的方法尋找影響因素,而利用機(jī)器學(xué)習(xí)算法,根據(jù)影響因素構(gòu)建分類器的研究較少。傳統(tǒng)機(jī)器學(xué)習(xí)算法也沒有考慮數(shù)據(jù)集的類不平衡問題,鑒于此,本文選用SMOTE、Borderline-SMOTE、ADASYN、One-Sided Select共4種方法處理類不平衡數(shù)據(jù),并通過經(jīng)典決策樹、條件決策樹、隨機(jī)森林、支持向量機(jī)共4種機(jī)器學(xué)習(xí)模型進(jìn)行分類結(jié)果預(yù)測。結(jié)果顯示,支持向量機(jī)預(yù)測準(zhǔn)確率最高,達(dá)90.42%。使用欠采樣方法One-Sided Select技術(shù),結(jié)合條件決策樹預(yù)測,在不平衡的乳腺腫瘤數(shù)據(jù)集中預(yù)后預(yù)測效果最好,將敏感度由2%提高到58%,提高了56%。支持向量機(jī)在預(yù)測未經(jīng)處理的數(shù)據(jù)集時(shí)特異性最高,為100%。采用One-Sided Select結(jié)合支持向量機(jī)算法的正例命中率最高,為40%。采用One-Sided Select結(jié)合條件決策樹的負(fù)例命中率最高,為95%。因此,可根據(jù)不同臨床需求,選擇最適合的采樣技術(shù)結(jié)合預(yù)測方法來預(yù)測結(jié)果。同時(shí)也說明目前收集數(shù)據(jù)樣本數(shù)量雖大但代表性差,因此可以對數(shù)據(jù)集進(jìn)一步做特征分析,從而選出同臨床理論相符合的具有高代表性的特征變量。臨床醫(yī)師更加關(guān)注的是造成患者死亡的危險(xiǎn)因素,針對類不平衡數(shù)據(jù)的過采樣和欠采樣方法在分類性能上有一定的提高,尤其能大大提高靈敏度,但準(zhǔn)確率下降,因此在后續(xù)針對不平衡數(shù)據(jù)的處理問題研究中,我們將考慮通過欠采樣與過采樣結(jié)合,進(jìn)一步研究能否提高模型性能。

        猜你喜歡
        命中率決策樹敏感度
        全體外預(yù)應(yīng)力節(jié)段梁動(dòng)力特性對于接縫的敏感度研究
        一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
        夜夜“奮戰(zhàn)”會提高“命中率”嗎
        2015男籃亞錦賽四強(qiáng)隊(duì)三分球進(jìn)攻特點(diǎn)的比較研究
        長江叢刊(2018年31期)2018-12-05 06:34:20
        決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        電視臺記者新聞敏感度培養(yǎng)策略
        新聞傳播(2018年10期)2018-08-16 02:10:16
        投籃的力量休斯敦火箭
        NBA特刊(2017年8期)2017-06-05 15:00:13
        在京韓國留學(xué)生跨文化敏感度實(shí)證研究
        基于決策樹的出租車乘客出行目的識別
        試析心理因素對投籃命中率的影響
        久久无码av三级| 亚洲va中文字幕欧美不卡| 亚洲综合婷婷久久| 亚洲成AⅤ人在线观看无码| 久久亚洲道色宗和久久| a午夜国产一级黄片| 白丝美女被狂躁免费视频网站 | 国产特级毛片aaaaaa| 免费操逼视频| 色猫咪免费人成网站在线观看 | 国产精品区一区二区三在线播放 | 欧美h久免费女| 亚洲国产不卡免费视频| 亚洲成av人片极品少妇| 69精品国产乱码久久久| 精品亚洲一区二区三区四区五区| 精品久久久久久久久午夜福利| 免费网站内射红桃视频| 亚洲中文字幕久久无码精品| 国产成人无码免费网站| 中文字幕精品无码一区二区| 国产91在线免费| 在线看片免费人成视久网不卡| 国产av熟女一区二区三区老牛| 国产三级在线观看性色av| 国产成人福利av一区二区三区| 国产一区不卡视频在线| 久久伊人精品色婷婷国产| 18禁在线永久免费观看| 国产电影无码午夜在线播放| 精品国产一区二区三区免费 | 操B小视频国产| 人妻少妇猛烈井进入中文字幕| 久久久久国色av免费观看性色 | 人妻无码中文专区久久五月婷| 亚洲色欲在线播放一区| 亚洲成av人片无码不卡播放器| 国产免费激情小视频在线观看| 亚洲av一区二区网址| 九九久久精品国产免费av| 成在线人av免费无码高潮喷水 |