亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Weka平臺和代價敏感特征選擇的基因表達數(shù)據(jù)分類研究

        2022-08-31 03:44:44韓磊黃瑞龍范文靜葉明全
        智慧健康 2022年17期
        關(guān)鍵詞:特征選擇代價分類器

        韓磊,黃瑞龍,范文靜,葉明全

        皖南醫(yī)學(xué)院 醫(yī)學(xué)信息學(xué)院,安徽 蕪湖 241002

        0 引言

        腫瘤是目前人類在疾病面前面臨的主要威脅之一。據(jù)2014年的《世界癌癥》報告[1]顯示,僅2012年一年就有超過1000萬的癌癥新發(fā)病例。腫瘤不是瞬間產(chǎn)生的[2],腫瘤細胞的分類增殖存在一個相對較長的演變時期。因此,這種在基因?qū)用鎸δ[瘤進行早期識別的研究[3],對患者的治療具有重大意義[4-5]。

        由于腫瘤基因表達數(shù)據(jù)是一種典型的不平衡數(shù)據(jù)[6-7],使之很難直接應(yīng)用于腫瘤的分類診斷[8-9]。因此本文提出了一種基于Weka平臺和代價敏感特征選擇的基因表達數(shù)據(jù)分類方法[10]用于解決這類基因表達數(shù)據(jù)分布不平衡的分類問題[11-12]。該方法彌補了分類器只注重分類精度的片面性,并且它的合理性在于通過引入代價敏感而尋求總體的最小代價,而不是僅僅擁有精度最高這個特性。通常在代價敏感學(xué)習(xí)中,對于一個N分類問題,用表示訓(xùn)練樣本,x表示樣本屬性,y∈{1,2,…,N}表示類標,P(j|x)是樣本x的后驗概率,Cij表示將第i類樣本錯誤地分類為第j類時產(chǎn)生的代價,R(x,i)表示將樣本x分為i類的誤分類代價?;诖?,本研究基于Weka平臺,將基于代價敏感特征選擇的基因表達數(shù)據(jù)分類方法應(yīng)用于腫瘤基因表達數(shù)據(jù)的分類中,現(xiàn)總結(jié)如下。

        1 資料與方法

        1.1 資料來源

        本文實驗從Kent Ridge Biomedical Data Set數(shù)據(jù)庫中選取兩個類別,共計六個小組的腫瘤樣本數(shù)據(jù),分別為神經(jīng)系統(tǒng)疾病NervSys(central nervous system embryonal tumor)、結(jié)腸癌(colon cancer)、彌漫性大B細胞瘤(DLBCL)、卵巢癌(ovarian cancer)、前列腺癌(prostate cancer)和肺癌(lung cancer)。數(shù)據(jù)集的詳細描述見表1。

        表1 實驗數(shù)據(jù)集描述

        1.2 實驗方法

        本文實驗基于Windows 平臺完成和實現(xiàn)。為了消除不同量綱對實驗結(jié)果的影響,實驗過程中,我們首先通過Weka平臺[13-14]對實驗數(shù)據(jù)集進行標準化預(yù)處理,使數(shù)據(jù)分析更加準確,然后選擇本文提出的代價敏感特征選擇方法(cost sensitive attribute eval),使用特征選擇的搜索函數(shù)Ranker來調(diào)整信息基因個數(shù),并且通過支持向量機(SVM)、K近鄰(IBK)、樸素貝葉斯(NB)和隨機森林(RF)這4種分類器對數(shù)據(jù)進行分類得到的分類準確率來評估該方法的有效性。在實驗過程中均使用Weka平臺中分類器的默認參數(shù)。具體實驗流程見圖1。

        圖1 實驗流程圖

        2 實驗結(jié)果及分析

        表2為4種分類器在6組兩類別的腫瘤樣本數(shù)據(jù)的分類準確率,表中Std表示在原始實驗數(shù)據(jù)[15]上只執(zhí)行標準化處理后就進行4種分類器的分類建模,本文方法即通過代價敏感特征選擇[16]處理后再進行4種分類器的分類建模。

        表2 4 種分類器在6 個數(shù)據(jù)集上的分類準確率對比

        為了方便對比,本文實驗選擇的信息基因數(shù)分別為3、4、5、6,選擇4種分類器中最高分類準確率作為最終評價值。具體實驗結(jié)果見表2。

        從圖2可以看出,六組數(shù)據(jù)直接在只進行標準化預(yù)處理后,在SVM、IBK、NB和RF分類器評估分類性能時,大部分分類準確率較低。但是通過本文實驗方法得到的分類準確率大部分高于只進行標準化預(yù)處理的分類準確率,這在一定程度上說明了本文提出的代價敏感特征選擇方法的有效性。

        圖2 4 種分類器在6 個數(shù)據(jù)集上的分類準確率對比

        為了更直觀地表明本文方法在提高分類準確率上的優(yōu)良性能,實驗還對比分析了其他兩種流行特征選擇方法的分類準確率。包括SUAE(symmetrical uncert atrribute eval)根據(jù)屬性的對稱不確定性評估屬性和CA(correlation attribute)通過測量特征與類別之間的皮爾遜(Pearson's)相關(guān)性評估基因的價值。具體實驗結(jié)果見表3。

        表3 3 種方法在6 個數(shù)據(jù)集上的最優(yōu)分類準確率

        從圖3可以看出,對比SUAE和CA的特征選擇方法在六組數(shù)據(jù)的最優(yōu)分類準確率,本方法也獲得了相對更好的分類準確率,進一步有力地證明了該方法具有良好的特征選擇效果,能夠針對腫瘤基因表達數(shù)據(jù)獲取較高的分類性能。

        圖3 3 種方法在6 個數(shù)據(jù)集上的最優(yōu)分類準確率

        3 結(jié)論

        本文提出的基于Weka平臺和代價敏感特征選擇的基因表達數(shù)據(jù)分類方法可以有效地解決腫瘤基因表達數(shù)據(jù)不平衡數(shù)據(jù)的分類問題,大幅度提高分類準確率,但仍存在一些不足和缺陷[17],如分類過程中真實的誤分類代價很難通過人為經(jīng)驗進行準確估計。由于此方法本身的性能指標與代價參數(shù)設(shè)置等方面存在一定空缺,可能會導(dǎo)致其最終的分類結(jié)果存在相對較強的主觀性而不夠客觀,因此代價敏感算法[18]仍有繼續(xù)完善優(yōu)化的空間。通過改變一些相關(guān)代價參數(shù)從而進一步改進本文方法等方式,都是今后的研究方向。

        猜你喜歡
        特征選擇代價分類器
        BP-GA光照分類器在車道線識別中的應(yīng)用
        電子測試(2018年1期)2018-04-18 11:52:35
        愛的代價
        海峽姐妹(2017年12期)2018-01-31 02:12:22
        代價
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
        聯(lián)合互信息水下目標特征選擇算法
        成熟的代價
        基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
        基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
        人妻无码∧V一区二区| 极品成人影院| 麻豆蜜桃av蜜臀av色欲av| √新版天堂资源在线资源| 欧美国产日韩a在线视频| 97精品国产高清自在线看超 | 国产最新进精品视频| 亚洲偷自拍另类图片二区| 骚货人妻视频中文字幕| 99精品久久99久久久久| 大胸少妇午夜三级| 国产人妻黑人一区二区三区 | 亚洲国产精品久久久久秋霞影院| 性一交一乱一伦一视频一二三区| 中文字幕精品久久一区二区三区| 性欧美丰满熟妇xxxx性久久久| 一区二区三区国产亚洲网站| 国产精品国产三级国产专播 | 人妻中文久久人妻蜜桃| 亚洲精品国产精品国自产| 久久精品国产9久久综合| 成人国产在线播放自拍| 亚洲av无吗国产精品| 午夜精品久久久久久久| 黄色视频在线免费观看| 综合久久久久6亚洲综合| 一区二区视频在线国产| 欧美真人性野外做爰| 欧美精品黄页在线观看视频| 久久精品人妻嫩草av蜜桃| 青青草狠吊色在线视频| 熟妇人妻av中文字幕老熟妇| 亚洲色偷拍一区二区三区| 亚洲av专区一区二区| 成人无码网www在线观看| 亚洲综合婷婷久久| 中文字幕一区二区在线| 青青河边草免费在线看的视频 | 中文字幕亚洲乱码熟女1区 | 亚洲AV成人无码久久精品老人 | 黄色成人网站免费无码av|