亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于GA-XGBoost 算法的肺癌預(yù)測(cè)研究

        2023-12-18 18:13:49柯東晏峻峰
        計(jì)算機(jī)時(shí)代 2023年11期
        關(guān)鍵詞:肺癌

        柯東 晏峻峰

        關(guān)鍵詞:肺癌;SMOTE過(guò)采樣;特征選擇;遺傳算法;集成算法;XGBoost

        中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1006-8228(2023)11-131-05

        0 引言

        肺癌是起源于肺部支氣管黏膜或腺體的惡性腫瘤,其發(fā)病率和死亡率增長(zhǎng)很快,是對(duì)人的健康及生命威脅最大的惡性腫瘤之一[1]。由于肺栓塞常常伴有呼吸困難、咳嗽、胸痛、咯血等癥狀,臨床癥狀特異性不強(qiáng),通常難以鑒別,故漏診率較高,以致延誤救治時(shí)機(jī)[2]。在我國(guó),肺癌是危害人類的生命健康的主要惡性腫瘤之一,在排名前十的惡性腫瘤中,肺癌的發(fā)病率和死亡率分別占20.03% 和26.99%[3]。若肺癌在早期階段能被及時(shí)發(fā)現(xiàn)并得到恰當(dāng)?shù)闹委煟颊叩? 年生存率可提高到50% 甚至更高[4]。

        在早些年,Ledley[5]等人第一次將醫(yī)學(xué)領(lǐng)域的數(shù)學(xué)模型應(yīng)用到計(jì)算機(jī)輔助診斷中,首次提出計(jì)算機(jī)輔助診斷。Weizeng Li 等[6]提出了將決策樹和邏輯回歸相結(jié)合的邏輯樹,分別評(píng)估單個(gè)和多個(gè)腫瘤標(biāo)志物的診斷價(jià)值;Caijoie Ren 等[7]提出一種基于臨床肺癌個(gè)體化鑒別方案,采用LASSO 進(jìn)行回歸分析,得到了最優(yōu)預(yù)測(cè)結(jié)果;Nuhic Jusua 等[8]利用機(jī)器學(xué)習(xí)算法預(yù)測(cè)模型作為一種非侵入性工具來(lái)區(qū)分惡性與良性,應(yīng)用于肺癌的預(yù)測(cè)分類。Stefano Elia 等[9]使用遺傳算法在五種腫瘤標(biāo)志物種選擇出兩種指標(biāo)物進(jìn)行聯(lián)合檢測(cè),得到了最好的肺癌預(yù)測(cè)結(jié)果。相對(duì)于單個(gè)模型而言,集成模型由多個(gè)基學(xué)習(xí)器構(gòu)成,因此具有更好的分類和回歸效果。例如張楚函[10]以隨機(jī)森林算法建立術(shù)前診斷模型,建立了肺癌前期預(yù)診斷模型;張雨晴等[11]應(yīng)用隨機(jī)森林分析非吸煙女性肺癌風(fēng)險(xiǎn)因素。然而,機(jī)器學(xué)習(xí)在肺癌研究中也面臨一些挑戰(zhàn),如樣本大小、數(shù)據(jù)質(zhì)量、模型的可解釋性以及算法模型耗時(shí)長(zhǎng)等方面的限制。因此,本研究致力于解決這些問(wèn)題,探索臨床上肺癌患者與其生活習(xí)慣之間的關(guān)系,建立基于生活習(xí)慣進(jìn)行肺癌預(yù)測(cè)的分類模型。通過(guò)算法的融合、優(yōu)化,確定的最終模型在肺癌數(shù)據(jù)集上進(jìn)行試驗(yàn),實(shí)驗(yàn)得到93.2% 的高準(zhǔn)確率,同時(shí)算法模型相比強(qiáng)分類器SVM 具有更快的響應(yīng)速度,充分證明該模型能應(yīng)用到臨床,輔助醫(yī)生進(jìn)行疑似病例的肺癌預(yù)測(cè),結(jié)合必要的醫(yī)學(xué)檢查,及時(shí)對(duì)肺癌患者進(jìn)行醫(yī)學(xué)干預(yù),為肺癌患者爭(zhēng)取更多的治療從而提高生存率。

        1 研究方法

        本文方法如下:不平衡數(shù)據(jù)是指數(shù)據(jù)集中某一類別的樣本數(shù)量明顯少于其他類別的樣本數(shù)量[12],本文數(shù)據(jù)集標(biāo)簽比例嚴(yán)重失衡,標(biāo)簽為0 的樣本29 條,標(biāo)簽為1 的樣本280 條,即正負(fù)標(biāo)簽比例大約為1:9,因此引入過(guò)采樣技術(shù)SMOTE 方法對(duì)數(shù)據(jù)做均衡化處理;對(duì)本實(shí)驗(yàn)所用到的肺癌數(shù)據(jù)集進(jìn)行隨機(jī)森林重要性排名,根據(jù)排名結(jié)果選擇貢獻(xiàn)較大的特征,參與模型計(jì)算,實(shí)現(xiàn)降低數(shù)據(jù)緯度、提高分類準(zhǔn)確率的效果;構(gòu)建GA-XGBoost 算法模型即:采用遺傳算法優(yōu)化梯度提升樹算法XGBoost,并與其他機(jī)器學(xué)習(xí)方法如支持向量機(jī)(SVM),決策樹(DT)、K 最近鄰(KNN)、貝葉斯(NB)以及未調(diào)優(yōu)的XGBoost 進(jìn)行對(duì)比,證明模型的優(yōu)越性。具體流程圖如圖1 所示。

        1.1 構(gòu)建GA-XGBoost 模型

        極端梯度提升樹(XGBoost)算法是由陳天奇在2014 年提出,該算法能夠極大地提升模型的訓(xùn)練速度和預(yù)測(cè)精度[13]。它的設(shè)計(jì)是為了正確使用資源,克服以往梯度提升的局限性[14]。本文XGBoost 目標(biāo)函數(shù)如下:

        遺傳算法(GA)是一種求解優(yōu)化問(wèn)題的工具[15],主要用于解決搜索和優(yōu)化問(wèn)題。算法過(guò)程如下:

        ⑴ 初始化:生成一組初始種群,其中每個(gè)個(gè)體代表一個(gè)解。

        ⑵ 適應(yīng)度評(píng)估:對(duì)每個(gè)個(gè)體進(jìn)行適應(yīng)度評(píng)估,即計(jì)算其對(duì)應(yīng)的目標(biāo)函數(shù)值。

        ⑶ 選擇:從種群中選擇一部分個(gè)體作為下一代種群的父代。

        ⑷ 交叉:對(duì)父代中的個(gè)體進(jìn)行交叉操作,生成新的子代。

        ⑸ 變異:對(duì)子代中的個(gè)體進(jìn)行變異操作,引入隨機(jī)因素,增加種群的多樣性,防止算法陷入局部最優(yōu)解。

        ⑹ 更新種群:將父代和子代合并,生成新的種群。

        ⑺ 終止條件判斷:判斷是否達(dá)到終止條件,如最大迭代次數(shù)、目標(biāo)函數(shù)達(dá)到某個(gè)閾值等。

        ⑻ 輸出結(jié)果:輸出最優(yōu)解或者最優(yōu)解對(duì)應(yīng)的目標(biāo)函數(shù)值。

        本實(shí)驗(yàn)構(gòu)建GA-XGBoost 肺癌診斷模型如圖2。

        2 實(shí)驗(yàn)過(guò)程及結(jié)果分析

        本文基于Anaconda開發(fā)環(huán)境下的jupyter-notebook編輯器。研究選用kaggle 學(xué)習(xí)庫(kù)所公開的的肺癌數(shù)據(jù)集。該數(shù)據(jù)集包含疑似肺癌患者平時(shí)生活習(xí)慣和生理、行為表現(xiàn)等部分?jǐn)?shù)據(jù),一共有309 個(gè)樣本,類別為良性腫瘤和肺癌腫瘤,數(shù)據(jù)集包含的14 個(gè)特征基于疑似患者的生活記錄,分別是年齡(AGE)性別(SEX)、是否吸煙(SMOKING)、黃色手指(YELLOW)、平時(shí)是否有同輩壓力(PRESSURE)、是否焦慮(ANXIETY)、是否有慢性?。–HRONIC DISEASE)、是否感到疲勞、是否哮喘、藥物過(guò)敏(ALLERGY)、飲酒(ALCOHOL CONSUMING)、咳嗽(COUGHING)、呼吸急促(SHORTNESS OF BREATH)、吞咽困難、胸痛(CHEST PAIN)、是否肺癌(LUNG_CANCER)。特征中“是”為1,“否”為0;標(biāo)簽中患肺癌為1,沒(méi)有患肺癌為0。實(shí)驗(yàn)以70% 的數(shù)據(jù)集作為訓(xùn)練集,30% 作為測(cè)試集。

        2.1 評(píng)價(jià)指標(biāo)

        在分類指標(biāo)問(wèn)題上采用混淆矩陣是最直觀的,混淆矩陣可以詳細(xì)的展示分類性能?;煜仃嚾绫?所示。

        本文在混淆矩陣基礎(chǔ)上引入準(zhǔn)確率(Accuracy)、靈敏度(Sensitivity)、特異度(Specificity)作為算法的判斷指標(biāo)。其中靈敏度又叫真陽(yáng)性比例,即實(shí)際發(fā)病且被準(zhǔn)確診斷的病人所占比例;特異度又稱為真陰性率,是指實(shí)際無(wú)病并能準(zhǔn)確檢測(cè)的病歷所占比例:

        2.2 數(shù)據(jù)均衡化處理

        本文數(shù)據(jù)集標(biāo)簽比例嚴(yán)重失衡,標(biāo)簽為0 的樣本29 條,標(biāo)簽為1 的樣本280 條,即正負(fù)標(biāo)簽比例大約為1:9。采用SVM-SMOTE 過(guò)采樣技術(shù)進(jìn)行數(shù)據(jù)均衡化處理,原始數(shù)據(jù)和均衡化處理后的數(shù)據(jù)分布如圖3、圖4 所示。

        2.3 特征選擇

        特征重要性計(jì)算結(jié)果可以用于特征選擇和可視化,幫助我們理解模型的特征貢獻(xiàn)程度,從而更好地解釋和使用模型。本文通過(guò)隨機(jī)森林算法得出特征重要性排序,結(jié)果如表2 所示。

        排在后面四位的是YELLOW_FINGERS,GENDER,ANXIETY,F(xiàn)ATIGUE,由于這四個(gè)特征重要性比較低,故予以剔除,保留排名結(jié)果選擇排名靠前的10 個(gè)特征重新訓(xùn)練模型。比較SMOTE 均衡化前后、進(jìn)行特征選擇前后進(jìn)行XGBoost 訓(xùn)練,結(jié)果如表3 所示。

        2.4 GA-XGBoost 實(shí)驗(yàn)結(jié)果

        和隨機(jī)森林算法(Random Forest,RF)超參數(shù)空間類似[16],XGBoost 超參數(shù)眾多,需要手動(dòng)設(shè)定。本文選取常見的三個(gè)超參數(shù):n_estimators(樹的數(shù)量),max_depth(最大樹深度)、learning rate(學(xué)習(xí)率)進(jìn)行遺傳算法優(yōu)化,將評(píng)估指標(biāo)AUC 作為適應(yīng)度函數(shù)。考慮到適應(yīng)度函數(shù)上界難以確定,本文選取最大循環(huán)次數(shù)作為算法的終止條件。本文借助可視化工具—學(xué)習(xí)曲線,確定超參數(shù)的大致范圍,三個(gè)超參數(shù)的學(xué)習(xí)曲線圖分別如圖5、圖6、圖7 所示。

        由學(xué)習(xí)曲線可知,n_estimators 最佳取值在60左右,max_depth 最佳取值為6 左右,learning_rate 最佳范圍為0.2 到0.3 之間。用遺傳算法進(jìn)行最優(yōu)值搜索:設(shè)定n_estimators 范圍為50 到75,步長(zhǎng)為1;max_depth范圍為4 到9,步長(zhǎng)為1。Learning_rate 范圍設(shè)定為0.2-0.3,步長(zhǎng)為0.01。遺傳算法結(jié)果如表4 所示。

        得到XGBoost 最佳參數(shù)后,為了驗(yàn)證模型的優(yōu)越性,同其他機(jī)器學(xué)習(xí)進(jìn)行比較。不同算法的比較結(jié)果如表5 所示。

        進(jìn)行遺傳算法優(yōu)化的GA-XGBoost 模型,準(zhǔn)確率達(dá)到0.932,靈敏度達(dá)到0.928。特異度達(dá)到0.921,準(zhǔn)確率和靈敏度最高。雖然SVM 在分類中也表現(xiàn)出了不俗的性能,在特異度上較XGBoost 稍高,但作為強(qiáng)分類器,SVM 復(fù)雜度高,耗時(shí)長(zhǎng)。在講究實(shí)效性的臨床醫(yī)療診斷中,基于簡(jiǎn)單學(xué)習(xí)器集成的XGBoost 算法在高分類性能的同時(shí)還能實(shí)現(xiàn)快速運(yùn)算,與其他機(jī)器學(xué)習(xí)方法相比,進(jìn)行遺傳算法優(yōu)化的GA-XGBoost,表現(xiàn)堪稱完美。

        3 結(jié)束語(yǔ)

        對(duì)疑似患者進(jìn)行早期的預(yù)測(cè)診斷是應(yīng)對(duì)肺癌的有效手段[17]。本文提出的基于GA-XGBoost 算法的預(yù)測(cè)分類模型在準(zhǔn)確率、靈敏度和特異度三項(xiàng)指標(biāo)上表現(xiàn)優(yōu)異,運(yùn)行時(shí)效上優(yōu)勢(shì)明顯。模型的最終目的是在臨床上指導(dǎo)醫(yī)生對(duì)患者的肺癌風(fēng)險(xiǎn)進(jìn)行提前判斷,但本文數(shù)據(jù)集是肺癌患者的日常表現(xiàn)、生活習(xí)慣記錄,存在一定的主觀性,未來(lái)可以從更多的臨床電子病例出發(fā),采用客觀、標(biāo)準(zhǔn)化的數(shù)據(jù)。下一步結(jié)合大樣本,高緯度的客觀化數(shù)據(jù),嘗試深度學(xué)習(xí)的建模,致力于人工智能在人類的癌癥事業(yè)中的更大應(yīng)用。

        猜你喜歡
        肺癌
        中醫(yī)防治肺癌術(shù)后并發(fā)癥
        對(duì)比增強(qiáng)磁敏感加權(quán)成像對(duì)肺癌腦轉(zhuǎn)移瘤檢出的研究
        氬氦刀冷凍治療肺癌80例的臨床觀察
        長(zhǎng)鏈非編碼RNA APTR、HEIH、FAS-ASA1、FAM83H-AS1、DICER1-AS1、PR-lncRNA在肺癌中的表達(dá)
        CXCL-14在非小細(xì)胞肺癌中的表達(dá)水平及臨床意義
        廣泛期小細(xì)胞肺癌肝轉(zhuǎn)移治療模式探討
        PFTK1在人非小細(xì)胞肺癌中的表達(dá)及臨床意義
        microRNA-205在人非小細(xì)胞肺癌中的表達(dá)及臨床意義
        周圍型肺癌的MDCT影像特征分析
        基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
        日韩一区二区三区久久精品| 久久无码高潮喷水免费看| 国产成人亚洲综合小说区| 国产主播一区二区三区在线观看| 蜜桃av噜噜一区二区三区策驰| 久久久久成人精品无码| 四虎影院在线观看| 国产国拍亚洲精品永久69| 久久开心婷婷综合中文| 18禁裸体动漫美女无遮挡网站| 亚洲av无码精品色午夜在线观看| 国产成人拍精品免费视频| 亚洲春色视频在线观看| 亚洲av成熟国产一区二区| 国产成人精品白浆久久69| 亚洲精品高清你懂的| 丰满少妇高潮在线观看| 美女人妻中出日本人妻| 亚洲日韩一区二区一无码| 国产主播福利一区二区| 精品久久日产国产一区| 亚洲一区二区三区日本久久九| 国产女人的高潮国语对白| 9999毛片免费看| 女优av福利在线观看| 美女扒开腿露内裤免费看| 国产99在线 | 亚洲| 日韩无码视频淫乱| 波多野结衣一区二区三区视频| 久久本道久久综合一人| 亚洲视频高清一区二区| 中国人妻被两个老外三p| XXXXBBBB欧美| 国内精品嫩模av私拍在线观看| 国产精品一区二区三区在线免费 | 日韩在线精品视频一区| 中文无码一区二区三区在线观看| 男人天堂网在线视频| 日本一区二区在线播放观看| 中文字幕精品人妻在线| 久久久无码精品亚洲日韩按摩|