亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Lasso特征選擇乳腺癌二分類算法研究

        2023-08-04 07:21:12辛瑞昊
        吉林化工學(xué)院學(xué)報 2023年1期
        關(guān)鍵詞:特征選擇子集分類器

        馮 欣,張 航,辛瑞昊

        (1.吉林化工學(xué)院 理學(xué)院,吉林 吉林 132022;2.吉林化工學(xué)院 信息與控制工程學(xué)院,吉林 吉林 132022)

        乳腺癌[1](Breast cancer)是一種新發(fā)數(shù)高的一種疾病,已然成為一種噩夢。因此,研究乳腺癌發(fā)病機理,降低乳腺癌死亡率,提高乳腺癌預(yù)后效果迫在眉睫,這也是現(xiàn)在醫(yī)療領(lǐng)域所面臨的一個巨大挑戰(zhàn)。

        在目前研究中,已經(jīng)有很多學(xué)者針對乳腺癌分類提出自己的模型去展開研究。王冬[2]等人針對乳腺癌分類診斷提出了一種基于人工魚群優(yōu)化的隨機森林模型,其最終準確率能達到97.48%。章飛[3]等人針對女性乳房造影圖片的特征提取數(shù)據(jù)集進行分類診斷,使用多種機器學(xué)習(xí)算法建立分類模型對比。Lahoura[4]等人針對乳腺癌分類診斷問題提出一種基于云計算的無監(jiān)督極限學(xué)習(xí)機(ELM)乳腺癌遠程診斷系統(tǒng),診斷準確率達到98.68%。Wang[5]等人將ELM與卷積神經(jīng)網(wǎng)絡(luò)(CNN)相結(jié)合針對乳腺癌分類問題進行檢測,其實驗結(jié)果效果良好。因此對乳腺癌的分類研究已然成為現(xiàn)在的一個研究趨勢。

        本研究利用乳腺癌公開數(shù)據(jù)集,針對不平衡數(shù)據(jù)采用隨機過采樣算法,特征選擇采用了Least absolute shrinkage and selection operator(Lasso)回歸算法[6]與序列前向選擇算法。最后使用多種分類器的準確率對本研究提出的算法進行一定的評估,同時對最優(yōu)臨床特征進行可視化分析,本研究將為乳腺癌的診斷研究提供一定的參考。

        1 特征選擇模型及方法

        1.1 Lasso回歸模型

        Lasso回歸[7-9]是一種壓縮估計,該模型因為懲罰項而更加精練,它的另一個優(yōu)勢在于子集收縮的同時保留了回歸系數(shù)的壓縮。在考慮一般線性問題的時候,線性函數(shù)矩陣優(yōu)化目標(biāo)為

        (1)

        其中β表示估計參數(shù)向量;y表示觀測向量;X表示變量矩陣值;觀測值是由變量值計算得到的。

        Lasso的優(yōu)化目標(biāo)為

        (2)

        Lasso回歸是在線性回歸的基礎(chǔ)之上添加了正則化得到的,見公式(2)。由于Lasso回歸能夠?qū)⒁恍┗貧w系數(shù)歸零,這樣可以有效地解決各特征之間的多重共線性困擾,這將成為本研究中特征選擇的一個新方法。

        1.2 SFS模型

        序列前向選擇[10-11](SFS,Sequential Forward Selection)是一種搜索策略算法。主要思想為從空集Y0開始,每次選擇一個特征x加入最新的特征子集Y中,可以保障特征函數(shù)最優(yōu)。其算法步驟如下:

        1.建立空的特征子集Y0={?};

        3.更新目前最優(yōu)特征子集:Yk+1=Yk+x+,k=k+1;

        4.轉(zhuǎn)到第2步。

        1.3 評價指標(biāo)

        機器學(xué)習(xí)中的預(yù)測結(jié)果一般分為如下幾種結(jié)果,見表1。其中True Positive(TP):把正樣本預(yù)測為正。True Negative(TN):把負樣本預(yù)測為負。False Positive(FP):把負樣本預(yù)測為正。False Negative(FN):把正樣本預(yù)測為負。本研究的評價指標(biāo)準確率[12-13](ACC),它的求解公式為

        表1 分類預(yù)測結(jié)果

        (3)

        通過上述評價指標(biāo)來評判模型是否合理,以及模型結(jié)果是否符合預(yù)期結(jié)果。

        2 基于不平衡數(shù)據(jù)集分類模型構(gòu)建

        本研究實驗流程見圖1。首先對原始數(shù)據(jù)集進行標(biāo)準差標(biāo)準化處理方法,針對平衡數(shù)據(jù)集采用的隨機過采樣[14]方法。接下來是特征選擇這塊,使用Lasso回歸算法做初步的特征選擇,使用五倍交叉驗證取五次回歸系數(shù)不為0交集特征做接下來的實驗。接下來使用基于隨機森林(RF)的序列前向選擇算法,經(jīng)過分類器取最優(yōu)ACC結(jié)果。最終將得到的最優(yōu)臨床特征進行多方面的可視化分析,具體情況見下述章節(jié)。

        圖1 實驗流程圖

        3 實驗結(jié)果與分析

        3.1 數(shù)據(jù)集介紹

        本研究使用威斯康星州的乳腺癌公開數(shù)據(jù)集[2]進行實驗,該數(shù)據(jù)集有357例輕度患者,212例重度患者。數(shù)據(jù)集中含有32個屬性,其中含有30個特征。數(shù)據(jù)集根據(jù)平均值、標(biāo)準誤差以及最值將細胞核分為三組,數(shù)據(jù)集特征介紹見表2。

        表2 數(shù)據(jù)集特征介紹

        3.2 實驗結(jié)果

        利用第2節(jié)中所述算法對乳腺癌診斷分類進行測試。首先利用標(biāo)準差標(biāo)準化處理完數(shù)據(jù)集之后,使用隨機過采樣算法進行數(shù)據(jù)集的平衡,平衡后的樣本個數(shù)見表3。接下來運用Lasso特征選擇算法,運用五倍交叉驗證取回歸系數(shù)不為0的特征的交集,特征由原始30個變成8個,進行接下來的實驗。

        表3 數(shù)據(jù)預(yù)處理:隨機過采樣算法平衡數(shù)據(jù)集

        第二步特征選擇算法使用了SFS算法,此算法結(jié)合隨機森林分類器對其進行最優(yōu)特征子集評估,本研究從8個特征依次往下遞減,去尋找最優(yōu)特征子集區(qū)間。為了保證實驗的穩(wěn)定性,在進行分類診斷準確率評估的時候結(jié)合了十倍交叉驗證,其評價結(jié)果見表4。表4中出現(xiàn)的分類器依次為:支持向量機(Support Vector Machine,SVM[15])、K鄰近法[16](K-Nearest Neighbor,KNN)、決策樹(Decision Tree,DT)、樸素貝葉斯(Naive Bayes,NB)、隨機森林(Random forest,RF)、線性判別分析(Linear Discriminant Analysis,LDA)、自適應(yīng)提升算法(Adaptive Boosting,AdaBoost)和極限梯度提升算法(Extreme Gradient Boosting,XBG)。根據(jù)表4得到最優(yōu)特征子集以及最適用模型的分類器,最優(yōu)特征子集將用于下一步分析。由表4可知,最優(yōu)特征子集的特征個數(shù)為6個的時候最好,并且最優(yōu)的是隨機森林分類器。最優(yōu)6個特征為:平均半徑(radius mean)、平均周長(perimeter mean)、平均區(qū)域(area mean)、區(qū)域(area se)、最差周長(perimeter worst)和最差對稱性(symmetry worst)。接下來探究了6個特征對乳腺癌輕度患者與重度患者的顯著差異性,見3.3節(jié)。

        表4 UCI乳腺癌二分類實驗結(jié)果

        3.3 臨床特征可視化分析

        本研究針對實驗最優(yōu)特征子集進行單個特征分析,為了證實特征對于區(qū)分不同程度的患者樣本的效性,從最優(yōu)的6個臨床特征的數(shù)據(jù)分布情況(箱線圖)、對應(yīng)的student-t檢驗[17](Student's t test,T-test)的p-value[18]值以及主成分分析[19-20](Principal Component Analysis,PCA)后的降維圖等不同角度來進行驗證。見圖2,本研究通過箱線圖將最優(yōu)的6個臨床特征進行數(shù)據(jù)集的分布顯示,通過不同顏色表明不同程度的患者類型,其中黑色表示重度患者,白色表示輕度患者,從圖2中可見,單個特征的數(shù)據(jù)集在區(qū)分二分類問題上有一定的區(qū)分度。圖3是介紹了每個特征的p-value值,一般p-value值小于0.05可以證明該特征在不同分類上具有顯著差異性。由于本實驗中得到的p-value值太小,為了能可視化出來,使用了“-log10(p-value)”函數(shù)(此函數(shù)為單調(diào)遞減函數(shù))進行了變化,同時使用“-log10(0.05)”進行對比(此函數(shù)為p-value=0.5),最終結(jié)果對比見圖3,可視化圖形很好地展示6個特征的單獨p-value值均小于0.05,為顯著差性特征。PCA降維一般用于提取數(shù)據(jù)的主要特征分量,在維度壓縮的同時盡可能保留更多的變量。

        圖2 特征箱線圖分布情況

        圖3 特征T-test的p_value比較

        本研究將針對上述6個特征進行降維分析,進一步通過可視化驗證最優(yōu)特征區(qū)分重度與輕度患者的優(yōu)越性。側(cè)重于三維可視化,所以特征也是壓縮到3個。如圖4所示,三維坐標(biāo)分別表示壓縮后的三個特征值,能夠很好地看見不同類別的樣本經(jīng)過PCA降維分析之后比較容易辨別。此處可視化展示將從另外的角度說明最優(yōu)特征子集對于數(shù)據(jù)集的分類效果比較好。

        圖4 PCA降維的3D圖

        3.4 SEER數(shù)據(jù)庫驗證

        為了證實本研究提出算法的優(yōu)越性,繼而針對SEER(The Surveillance,Epidemiology,and End Results)[21]數(shù)據(jù)庫(https://seer.cancer.gov/)中乳腺癌數(shù)據(jù)集進行了進一步驗證。本研究選擇了最近的時間年份(2015年)診斷數(shù)據(jù)進行實驗探究,根據(jù)臨床常用字段加上意義取舍。最終保留下來17 636個樣本,其中2 623個死亡樣本,15 013個存活樣本數(shù)據(jù),特征為:種族(Race recode)、性別(Sex)、原發(fā)灶部位(Primary Site)、組織學(xué)類型(Histologic Type ICD-O-3)、雙側(cè)/單側(cè)(Laterality)、腫瘤大小(CS tumor size)、腫瘤進入程度(CS extension)、淋巴結(jié)情況(CS lymph nodes)、轉(zhuǎn)移部位(CS mets at dx)、生存時間月份(Survival months)和是否有多原發(fā)癌(First malignant primary indicator)11個特征。經(jīng)過對原始數(shù)據(jù)集的數(shù)據(jù)進行標(biāo)準差標(biāo)準化與隨機過采樣的數(shù)據(jù)預(yù)處理階段,接下來運用Lasso特征選擇算法,運用五倍交叉驗證取回歸系數(shù)不為0的特征的交集,特征由原始11個變成10個,進行SFS算法,特征從10個依次遞減,至于找到最優(yōu)特征子集。結(jié)合分類器最終得到以下評價結(jié)果見表5,根據(jù)表格中內(nèi)容可知,最優(yōu)特征子集的特征個數(shù)為6個的時候最好,并且最優(yōu)的是隨機森林分類器。如圖5所示為了使實驗結(jié)果更好地展示出來,橫坐標(biāo)表示最優(yōu)特征組合個數(shù),縱坐標(biāo)表示該子集下的分類準確度,結(jié)合不同分類器找到最優(yōu)結(jié)果是隨機森林分類器,準確度達到97.24%,為臨床醫(yī)療診斷提供了理論支持。根據(jù)上述實驗最終得到的6個特征為:Race recode、Primary Site、Laterality、CS tumor size、Survival months和First malignant primary indicator。上述特征組成的子集對區(qū)分乳腺癌的生存與死亡分類有顯著差異性。

        number圖5 不同分類器二分類準確度

        表5 SRRE乳腺癌二分類實驗結(jié)果

        4 結(jié) 論

        本研究針對威斯康星州的乳腺癌數(shù)據(jù)集,平衡數(shù)據(jù)后,提出Lasso回歸與SFS相結(jié)合算法進行特征選擇步驟,從而減少對冗余臨床特征的研究,結(jié)合8種分類器進行模型最終評價,為乳腺癌分類診斷提供新的探究思路。通過數(shù)據(jù)可視化展示出最優(yōu)特征子集的乳腺癌分類效果圖,為醫(yī)療大數(shù)據(jù)行業(yè)的臨床研究提供了理論支撐。為了驗證本研究算法的優(yōu)越性,利用SEER數(shù)據(jù)庫中的乳腺癌數(shù)據(jù)集進行驗證,通過本文的算法的驗證,從最初的11個特征篩選到最后的6個特征,實驗結(jié)果表明乳腺癌的分類準確率達到97.24%。本研究提出的方法模型在威斯康星州的乳腺癌公開數(shù)據(jù)集和SEER數(shù)據(jù)庫乳腺癌數(shù)據(jù)集中體現(xiàn)比較好,但未在其他疾病的數(shù)據(jù)集中探究,這將成為未來的研究重點。

        猜你喜歡
        特征選擇子集分類器
        由一道有關(guān)集合的子集個數(shù)題引發(fā)的思考
        拓撲空間中緊致子集的性質(zhì)研究
        關(guān)于奇數(shù)階二元子集的分離序列
        BP-GA光照分類器在車道線識別中的應(yīng)用
        電子測試(2018年1期)2018-04-18 11:52:35
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        每一次愛情都只是愛情的子集
        都市麗人(2015年4期)2015-03-20 13:33:22
        基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
        亚洲小少妇一区二区三区| 日本一卡二卡3卡四卡免费观影2022| www夜插内射视频网站| 九色九九九老阿姨| 国产色a在线观看| 国产精品国产三级农村妇女| 手机AV片在线| 成av人片一区二区久久| 精品久久久久久无码中文野结衣| 99精品国产一区二区| 无码少妇一区二区三区芒果| 韩国女主播一区二区在线观看| 青青草精品在线免费观看| 欧美又大粗又爽又黄大片视频| 午夜男女很黄的视频| 久久久久久国产精品无码超碰动画 | 亚洲精品国产熟女久久久| 国产av无码专区亚洲av男同| 国产丝袜无码一区二区三区视频| 精品久久无码中文字幕| 国产香蕉尹人在线视频你懂的| 一区二区在线观看视频亚洲| 少妇被黑人嗷嗷大叫视频| 国产99视频精品免视看7| 午夜精品久久久久久毛片| 国产AV无码专区久久精品网站| 亚洲一区二区三区品视频| 91精品国产综合久久熟女| 国产精品亚洲一区二区在线观看 | av在线手机中文字幕| 中文字日产幕码三区的做法大全 | 日韩人妻中文无码一区二区| 日本不卡在线视频二区三区| 精品 无码 国产观看| 青青草视频在线免费视频| 免费观看a级毛片| 精品人人妻人人澡人人爽牛牛| 中文字幕人妻丝袜成熟乱| 人妖一区二区三区视频| 亚洲一区二区三区播放| 久久99久久久无码国产精品色戒|