亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于鄰域粗糙集的莆田地區(qū)肺癌特征選擇

        2021-09-10 17:38:56沈林陳金清胡建雄蔡榮貴
        關(guān)鍵詞:特征選擇肺癌

        沈林 陳金清 胡建雄 蔡榮貴

        0? ? ? 引言

        肺癌是我國發(fā)病率和死亡率最高的惡性腫瘤之一,臨床上在發(fā)現(xiàn)肺部結(jié)節(jié)病灶后將其切除是預(yù)防其發(fā)展為惡性腫瘤的常見治療手段。醫(yī)院積累了大量的臨床數(shù)據(jù),通過對(duì)這些臨床數(shù)據(jù)的分析,可以更好地幫助醫(yī)生判斷哪些病人需要手術(shù)。但臨床數(shù)據(jù)規(guī)模龐大、維度高、不完備,如果直接處理,必然陷入“維度災(zāi)難”。所以,先對(duì)臨床數(shù)據(jù)進(jìn)行特征選擇是必要的。本文提出一種基于變精度鄰域粗糙集的特征選擇算法,并對(duì)從醫(yī)院采集的病例進(jìn)行特征選擇,然后用多種機(jī)器學(xué)習(xí)的方法驗(yàn)證特征選擇的有效性。

        1? ? ?鄰域粗糙集和變精度鄰域粗糙集

        粗糙集理論(Rough Sets,RS)是Z.Pawlak[1]在上世紀(jì)90年代初提出的理論,通過上、下近似集,將知識(shí)分為模糊的知識(shí)和精確的知識(shí),這使得RS理論具備從不確定、不一致、不完備的知識(shí)中,找出潛藏知識(shí)的能力。隨后,為了解決經(jīng)典粗糙集抗干擾能力差的問題,W.Ziarko[2]提出了變精度粗糙集(VPRS);為了解決經(jīng)典粗糙集無法直接處理連續(xù)數(shù)據(jù)的問題,HU等[3]提出了鄰域粗糙集(NBRS),用鄰域關(guān)系代替等價(jià)關(guān)系處理連續(xù)型數(shù)據(jù),并對(duì)變精度鄰域粗糙集進(jìn)行了研究。

        定義1? ?一個(gè)決策系統(tǒng)可以描述為[DS=(U,C?D)],其中[U]是非空樣本集[{x1,x2,…,xn}],[C]是特征集合,[D]是決策類。則樣本[xi]的鄰域關(guān)系表示為[δA(xi)={xjΔA(xi,xj)≤δ,xj∈U,A?C}],其中[δ]是鄰域半徑,[ΔA(xi,xj)]表示樣本[xi]和[xj]的距離,最常用的是歐式距離。對(duì)于給定的集合[X?U],鄰域粗糙集的上下近似集定義為:

        [RA(X)={xiδA(xi)?X≠φ,xi∈U}RA(X)={xiδA(xi)?X,xi∈U}] (1)

        若[δA(xi)?Dj],則認(rèn)為[xi∈Dj]。由于定義1對(duì)鄰域關(guān)系的定義過于嚴(yán)格,易受干擾,所以在使用時(shí)可以引入錯(cuò)誤率[β(0<β<0.5)],若[δA(xi)]中不屬于[Dj]的樣本比例小于[β],就認(rèn)為[xi∈Dj],這就得到了變精度鄰域粗糙集。

        定義2? ?變精度鄰域粗糙集的上下近似集定義為:

        [RβA(X)={xi1-(δA(xi)?X)/δA(xi)≤1-β,xi∈U}RβA(X)={xi1-(δA(xi)?X)/δA(xi)≤β,xi∈U}] (2)

        定義3? ?決策類[D]的下近似集又被稱為鄰域粗糙集的正域,表示為:

        [POSA=Xi∈UDRA(Xi)] (3)

        粗糙集的正域的意義是特征集[A]下決策系統(tǒng)[DS]包含的所有精確的知識(shí)。

        定義4? ?決策系統(tǒng)[DS]在特征集[A]下的依賴度定義為:

        [r(DS)=POSAU] (4)

        定義5? ?對(duì)于任意的特征集[A?C],若是有[POSA=POSC],則稱特征集[A]是[C]的一個(gè)約簡(jiǎn)。

        定義6? ?決策系統(tǒng)[DS]的變精度鄰域下近似分布的定義為:

        [DP(DS,β)={RβC(Y1),RβC(Y2),…,RβC(Yn)}] (5)

        2? ? ?基于辨識(shí)矩陣的變精度鄰域粗糙集特征選擇

        2.1? ?辨識(shí)矩陣

        在用粗糙集理論處理特征選擇問題時(shí),主要有基于依賴度和基于辨識(shí)矩陣兩種方法:基于依賴度的特征選擇需要反復(fù)計(jì)算鄰域關(guān)系和依賴度,時(shí)間復(fù)雜度較高;基于辯識(shí)矩陣則是通過構(gòu)建一個(gè)矩陣,記錄每個(gè)樣本對(duì)在各個(gè)特征下的領(lǐng)域關(guān)系,來尋找最小約簡(jiǎn),時(shí)間復(fù)雜度大幅降低,但空間復(fù)雜度較高。由于傳統(tǒng)的辨識(shí)矩陣針對(duì)的是鄰域粗糙集,無法應(yīng)用于變精度鄰域粗糙集,本文采用了改進(jìn)的辨識(shí)矩陣,定義如下[4]:

        [Mi,j=2xj∈δa(xi)∧Dxi≠Dxj1xj∈δa(xi)∧Dxi=Dxj0其他] (6)

        公式(6)所列矩陣,每一行為一個(gè)樣本對(duì)[xi,xj],每一列對(duì)應(yīng)一個(gè)特征,整個(gè)矩陣有[m×(m-1)/2]行、[C]列,其中[m]為樣本個(gè)數(shù),[C]為條件特征?!?”表示樣本[xi]和[xj]是鄰域關(guān)系但決策類不一致,“1”表示是鄰域關(guān)系且決策類一致;“0”表示非鄰域關(guān)系。很明顯,對(duì)于任意一行的樣本對(duì)[xi,xj],只可能由["0","1"]或者["0","2"]組成,不會(huì)同時(shí)出現(xiàn)“1”和“2”。若要計(jì)算樣本對(duì)[xi,xj]在特征集[a1,a2]下是否為鄰域關(guān)系,僅需計(jì)算[M(i,j)a1&M(i,j)a2]是否為0即可。

        2.2? ?算法步驟[4]

        輸入:決策系統(tǒng)[DS=(U,C?D)],錯(cuò)誤率[β]。

        輸出:約簡(jiǎn)后的特征集。

        (1)計(jì)算各個(gè)特征的鄰域半徑;

        (2)根據(jù)鄰域半徑,按照公式(6)計(jì)算[DS]的辨識(shí)矩陣;

        (3)根據(jù)定義6計(jì)算[DS]在[C]下的下近似分布;

        (4)建立一特征隊(duì)列,將所有屬性依次和特征隊(duì)列組合,找出組合后錯(cuò)誤率最小的特征,并將該特征放入特征隊(duì)列;

        (5)檢查當(dāng)前特征隊(duì)列的下近似分布是否和(3)一致,如果是則輸出特征隊(duì)列并結(jié)束算法,如果不是則重復(fù)步驟(4),直到滿足條件。

        步驟(4)由于要反復(fù)執(zhí)行,耗時(shí)最多,時(shí)間復(fù)雜度為[Om2*n*l],[m]為[U]中樣本個(gè)數(shù),[n]為輸入時(shí)條件特征個(gè)數(shù),[l]為輸出時(shí)特征隊(duì)列中的特征個(gè)數(shù)。

        3? ? ?實(shí)驗(yàn)分析

        3.1? ?數(shù)據(jù)說明

        本文采用的數(shù)據(jù)來自莆田學(xué)院附屬醫(yī)院2019年8月至2020年4月采集的272位患者。采集的數(shù)據(jù)集共包含61個(gè)條件特征和1個(gè)決策屬性[5-7]。由于以下原因,在和醫(yī)生探討后刪除了部分記錄:①部分特征有大量空缺,難以用常見的不完備數(shù)據(jù)處理方法進(jìn)行處理;②部分特征下所有患者數(shù)據(jù)一致,無法區(qū)分決策屬性;③部分患者的部分特征大量缺失,影響結(jié)果。

        最后剩余202位患者、37個(gè)條件特征和1個(gè)決策屬性(良性/惡性),37個(gè)條件特征如表1所示。

        在202名病患中,男性病患107人,女性病患95人,年齡分布如表2所示。

        3.2? ?鄰域半徑的選擇

        采集到的數(shù)據(jù)既有離散型數(shù)據(jù),如性別、是否胸痛等,也有連續(xù)型數(shù)據(jù),如年齡、CEA等,且不同數(shù)據(jù)的取值范圍不同。為了避免取值范圍不同帶來的影響,每個(gè)特征都采用離散歸一法將該特征的所有數(shù)據(jù)歸一到[0,1]的區(qū)間內(nèi),公式如下:

        [f(xi)=xi-xminxmax-xmin] (7)

        由于不同的特征具有不同的分布特性,所以要為不同特征設(shè)置不同的鄰域半徑,本文采用標(biāo)準(zhǔn)差[σ]作為鄰域半徑的基準(zhǔn),0.5倍標(biāo)準(zhǔn)差就記作0.5[σ]。采用標(biāo)準(zhǔn)差,可以避免靠經(jīng)驗(yàn)劃分半徑帶來的問題。

        3.3? ?算法運(yùn)行結(jié)果

        表3列出了在錯(cuò)誤率0.5下,本文算法在不同鄰域半徑下選擇出的候選特征組。

        圖1和圖2列出了表3的5個(gè)特征集在3NN、Bagging、J48、JRIP、NaiveBayes、RandomForest算法下的Accuracy和Precision,采用十折交叉驗(yàn)證。

        表4列出了表3的候選特征組在3NN、Bagging、J48、JRIP、NaiveBayes、RandomForest算法下Accuracy、Precision、ROC、Kappa statistic的平均值,并列出了全特征(ALL)的情況對(duì)比。

        從表4可以看出,序號(hào)FS2特征集在Precision.avg、ROC.avg、Kappa statistic.avg上優(yōu)于其他特征集,在Accuracy.avg同其他特征集大致相當(dāng),所以特征集FS2(年齡、咳嗽咳痰、最大大小、累及部位數(shù)、NSE、性別、邊緣是否光滑、長寬比)是更合理的選擇。并同時(shí)發(fā)現(xiàn),本文算法在不同鄰域半徑下找出的不同特征,除了FS1外,大多數(shù)效果都比全特征(ALL)時(shí)的效果好。

        為了更好地檢驗(yàn)本文算法的效果,表5列出了本文算法同經(jīng)典鄰域粗糙集NBRS的對(duì)比,測(cè)試方法同表4。從中可以發(fā)現(xiàn),在相同鄰域半徑下,除0.7[σ]半徑外,本文算法在Accuracy.avg和Precision.avg上均好于NBRS。同時(shí)發(fā)現(xiàn),除0.4[σ]半徑外,本文算法在ROC.avg和Kappa statistic.avg上均差于NBRS。分析發(fā)現(xiàn),相對(duì)于NBRS,本文算法更傾向于將良性患者判定為惡性患者,這可能是因?yàn)椴杉降臄?shù)據(jù)來自于醫(yī)生認(rèn)為惡性風(fēng)險(xiǎn)高的病患??紤]到惡性患者被錯(cuò)放的風(fēng)險(xiǎn),可以認(rèn)為本文算法相對(duì)于NBRS,更適合應(yīng)用于對(duì)惡性患者的判定。

        同時(shí),本文算法在0.4[σ]半徑下的表現(xiàn),和NBRS在0.7[σ]半徑下的表現(xiàn)大致相當(dāng),但特征個(gè)數(shù)少2個(gè),說明本文算法可以排除更多的冗余特征,選出更關(guān)鍵的特征組合,并且更適合細(xì)粒度的知識(shí)場(chǎng)景。

        4? ? ? 總結(jié)

        本文提出了一種在高維的肺部結(jié)節(jié)灶臨床數(shù)據(jù)中找出和肺癌相關(guān)的關(guān)鍵特征組合的算法,并用于分析莆田學(xué)院附屬醫(yī)院采集的臨床數(shù)據(jù),利用3NN、Bagging、J48、JRIP、NaiveBayes、RandomForest算法對(duì)選出的特征組合進(jìn)行驗(yàn)證,證明了本方法的有效性。

        [參考文獻(xiàn)]

        [1]Pawlak Z. Rough—Sets: Theoretical Aspects of Reasoning About Data[M]. Dordrecht: Kluwer Academic Publisher,1991.

        [2] Ziarko W.Variable precision rough set model[J]. Journal of Computer System Science, 1993,46(1): 39-59.

        [3]Hu Qinghua,Yu Daren,XIE Zongxia.Numerical Attribute Reduction Based on Neighborhood Granulation and Rough Approximation[J].Journal of Software,2008,19 (3):640-649.

        [4] 沈林.基于隨機(jī)抽樣的變精度鄰域粗糙集特征選擇[J].廊坊師范學(xué)院學(xué)報(bào)(自然科學(xué)版),2019,19(2):14-17.

        [5] 王月,趙茂先.基于最大最小爬山算法的肺癌預(yù)后模型[J].山東科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,39(2):105-110.

        [6] 張紹宇.肺腺癌磨玻璃結(jié)節(jié)和實(shí)性結(jié)節(jié)臨床特點(diǎn)及預(yù)后相關(guān)因素分析[D].蘇州:蘇州大學(xué),2017.

        [7] 楊宏薇.肺結(jié)節(jié)特征提取和特征選擇的研究及系統(tǒng)實(shí)現(xiàn)[D].重慶:重慶大學(xué),2010.

        【摘? ?要】? ?判斷肺部結(jié)節(jié)是否是肺癌,是具有重大意義的工作,通過分析肺癌臨床數(shù)據(jù),可以找出和肺癌最相關(guān)的特征。首先,從醫(yī)院采集肺部結(jié)節(jié)切除術(shù)的數(shù)據(jù),使用一種改進(jìn)的變精度鄰域粗糙集對(duì)其進(jìn)行特征選擇;其次,在實(shí)驗(yàn)中使用多種算法驗(yàn)證特征選擇的有效性。

        【關(guān)鍵詞】? ?肺癌;特征選擇;鄰域粗糙集

        Feature Selection of Lung Cancer in Putian Based

        on Neighborhood Rough Sets

        Shen Lin1, Chen Jinqing2, Hu Jianxiong2, Cai Ronggui1

        (1.Putian University, Putian 351100, China;

        2.The Affiliated Hospital Of Putian University, Putian 351100, China)

        【Abstract】? ? It is of great significance to determine whether lung nodules are lung cancer. This paper, by analyzing the clinical data of lung cancer, finds out the most relevant features of lung cancer. First, the data of lung nodule resection were collected from the hospital. Then, an improved variable precision neighborhood rough sets is used for feature selection. Finally, several algorithms are used to verify the effectiveness of feature selection.

        【Key words】? ? ?lung cancer; feature selection; neighborhood rough sets

        猜你喜歡
        特征選擇肺癌
        中醫(yī)防治肺癌術(shù)后并發(fā)癥
        對(duì)比增強(qiáng)磁敏感加權(quán)成像對(duì)肺癌腦轉(zhuǎn)移瘤檢出的研究
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        基于GA和ELM的電能質(zhì)量擾動(dòng)識(shí)別特征選擇方法
        PFTK1在人非小細(xì)胞肺癌中的表達(dá)及臨床意義
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        基于特征選擇聚類方法的稀疏TSK模糊系統(tǒng)
        microRNA-205在人非小細(xì)胞肺癌中的表達(dá)及臨床意義
        基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
        基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
        特级毛片a级毛片在线播放www| 国产美腿丝袜一区二区| 日本高清一级二级三级| 亚洲成a∨人片在线观看不卡 | 日本亚洲欧美高清专区| 久久国产精品免费一区六九堂 | 国产男女免费完整视频| av无码精品一区二区三区四区| A亚洲VA欧美VA国产综合| 亚洲av天堂一区二区| 日韩av无码一区二区三区| 久久精品亚洲热综合一本色婷婷| 国产欧美va欧美va香蕉在线| 亚洲精品国偷拍自产在线麻豆| 一区二区日韩国产精品| av中文字幕在线资源网| 亚洲成av人片在久久性色av| 亚洲女优中文字幕在线观看| 特级a欧美做爰片第一次| 无码综合天天久久综合网| 久久福利青草精品资源| 求网址日韩精品在线你懂的| 天天干天天日夜夜操| 久久99热久久99精品| 91精品国产免费青青碰在线观看| 久久99免费精品国产| 永久天堂网av手机版| www国产精品内射熟女| 亚洲成a人片在线观看中文!!! | 欧美自拍丝袜亚洲| 亚洲天堂免费成人av| 男人天堂这里只有精品| 人妻夜夜爽天天爽一区| 国产精品亚洲片夜色在线| 精品亚洲一区二区在线观看| 国产freesexvideos中国麻豆| 男女肉粗暴进来120秒动态图 | 东北妇女肥胖bbwbbwbbw| 久久国产亚洲AV无码麻豆| 亚洲男人的天堂色偷偷| 日本丰满少妇裸体自慰|