亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        優(yōu)化的代價敏感隨機森林算法設(shè)計研究

        2021-12-06 07:42:14任宇軒
        科學(xué)與生活 2021年24期
        關(guān)鍵詞:隨機森林

        任宇軒

        摘要:代價敏感隨機森林算法是解決不平衡數(shù)據(jù)分析的一種典型方法,在許多領(lǐng)域應(yīng)用廣泛,但其存在著兩個不足一是構(gòu)造代價函數(shù)時未考慮樣本分布情況,二是對于數(shù)據(jù)集內(nèi)的所有特征其距離計算過程相同,未突出重要特征。為解決上述問題,本文提出了一種優(yōu)化方法根據(jù)樣本分布情況構(gòu)造代價因子,并引入權(quán)重距離,以提升算法性能。

        關(guān)鍵詞:隨機森林;代價敏感;不平衡數(shù)據(jù)

        1代價敏感學(xué)習(xí)

        在處理不平衡數(shù)據(jù)時,由于多數(shù)類樣本與少數(shù)類樣本數(shù)量相差巨大,會導(dǎo)致學(xué)習(xí)結(jié)果出現(xiàn)偏差,生成的分類器會完全偏向于多數(shù)類。如樣本空間為1000的數(shù)據(jù)集,為二分類,其中多數(shù)類樣本995個,少數(shù)類樣本5個,那么分類器在對待新樣本時,只需要將其機械的分為多數(shù)類,其準(zhǔn)確率也在99.5%左右。而這種分類方法卻遠(yuǎn)不同于我們的需求,往往我們希望分類器能夠更加準(zhǔn)確的分出少數(shù)類。如醫(yī)院在診斷癌癥患病者時、銀行在判斷貸款有無壞賬風(fēng)險時等。

        代價敏感的學(xué)習(xí)方法就是對分類器設(shè)置分類錯誤時的代價,如下表所示,其中表示少數(shù)類,表示多數(shù)類,表示將a分為b需要付出的代價。

        之后采用貝葉斯定理構(gòu)建風(fēng)險函數(shù),如式(1)所示:

        2優(yōu)化的代價敏感隨機森林算法設(shè)計

        通過將代價矩陣引入到隨機森林中,起到準(zhǔn)確處理不平衡數(shù)據(jù)的效果,但代價矩陣構(gòu)造的準(zhǔn)確程度將直接影響分類準(zhǔn)確度,且傳統(tǒng)的代價敏感隨機森林方法使用歐式距離計算樣本距離,但在樣本空間中特征的重要程度不同,僅通過計算歐氏距離構(gòu)造的代價矩陣分類性能較差。本文選用的方法根據(jù)樣本實際分布情況,產(chǎn)生代價因子,并將樣本集的權(quán)重距離結(jié)合到代價函數(shù)的計算過程之中。

        首先計算多數(shù)類、少數(shù)類與整個數(shù)據(jù)集的數(shù)據(jù)中心之間的距離,通過計算每個特征的算術(shù)平均值,設(shè)數(shù)據(jù)集的每一行代表一個樣本,每一列代表一個屬性,如:

        然后需要計算各類樣本中心到數(shù)據(jù)集中心的權(quán)重距離,在數(shù)據(jù)集中,重要特征相對較少,計算類別中心到整個數(shù)據(jù)集中心的歐式距離構(gòu)造代價對重要特征不公平,本算法引入權(quán)重距離,利用信息增益衡量每個特征在不同類別中的重要性,如下式所示

        第三步,設(shè)多數(shù)類,少數(shù)類,其中樣本數(shù)分別為,能夠定義系數(shù)如下:

        最后,設(shè)d表示權(quán)重距離,可得到代價函數(shù)如下:

        算法基分類器組合階段,針對不平衡數(shù)據(jù),每棵決策樹使用?AUC 值進(jìn)行性能的在評估,利用?AUC?值對數(shù)據(jù)進(jìn)行加權(quán)投票,權(quán)重越大,說明該基分類器性能較好,在最后決策階段占的權(quán)重越大,對于分類性能差的,權(quán)重越小,對結(jié)果的影響就小。最后隨機森林分類器的輸出為

        3實驗與分析

        為驗證方法準(zhǔn)確性,本文選取公開數(shù)據(jù)集UCI中的多組數(shù)據(jù)將其轉(zhuǎn)化調(diào)整為兩類不平衡數(shù)據(jù),對決策樹(C4.5)、隨機森林分類器(RF)、傳統(tǒng)代價敏感隨機森林與選用的的優(yōu)化的代價敏感隨機森林算法進(jìn)行對比。

        其中C4.5分類器算法比較直觀,實現(xiàn)簡單,但是容易對數(shù)據(jù)造成過擬合,特別當(dāng)特征較多時,訓(xùn)練的決策樹較復(fù)雜,且沒有考慮不平衡數(shù)據(jù)的特點,少數(shù)類性能很差。?隨機森林分類器的性能優(yōu)于傳統(tǒng)決策樹算法,但其同樣沒有對不平衡數(shù)據(jù)集針對學(xué)習(xí),對少數(shù)類樣本的分類結(jié)果較差。而引入代價敏感的兩種算法可以較好地處理不平衡數(shù)據(jù),在AUC性能上有了較大的提高,但是代價敏感的隨機森林算法忽略了不同代價類型在分類過程中的重要性,而優(yōu)化算法能夠?qū)⒉煌诸惸芰Φ幕诸惼饕?AUC?值賦予權(quán)重,有效避免了噪聲數(shù)據(jù)的干擾。實驗結(jié)果表明,重新構(gòu)造代價函數(shù)、利用?AUC?值對樹進(jìn)行評價,對性能不同的樹區(qū)別對待對不平衡數(shù)據(jù)分類是有效的。

        從上表中可以看出,雖然優(yōu)化算法需要稍高的運算資源,且多數(shù)類精度有所下降,但其少數(shù)類精度提升明顯,符合我們設(shè)計分類器的需求。

        4結(jié)語

        不平衡數(shù)據(jù)集給數(shù)據(jù)分析工作帶來了較大的難處,本文選用的優(yōu)化的代價敏感隨機森林方法,能夠有效防止分類器盲目將新樣本歸為多數(shù)類,設(shè)計了更加合理的代價函數(shù)與結(jié)果生成方法,通過實驗證明,該方法對于處理不平衡數(shù)據(jù)具有一定的意義。

        參考文獻(xiàn)

        [1]向鴻鑫,楊云.不平衡數(shù)據(jù)挖掘方法綜述[J].計算機工程與應(yīng)用,2019,55(04):1-16.

        [2]陳斌.?SMOTE不平衡數(shù)據(jù)過采樣算法的改進(jìn)與應(yīng)用[D].廣西大學(xué),2015.

        [3]馬驪.?隨機森林算法的優(yōu)化改進(jìn)研究[D].暨南大學(xué),2016.

        [4]陳圣靈,沈思淇,李東升.基于樣本權(quán)重更新的不平衡數(shù)據(jù)集成學(xué)習(xí)方法[J].計算機科學(xué),2018,45(07):31-37.

        猜你喜歡
        隨機森林
        隨機森林算法在中藥指紋圖譜中的應(yīng)用:以不同品牌夏桑菊顆粒指紋圖譜分析為例
        基于隨機森林的登革熱時空擴散影響因子等級體系挖掘
        基于隨機森林的HTTP異常檢測
        個人信用評分模型比較數(shù)據(jù)挖掘分析
        時代金融(2017年6期)2017-03-25 22:21:13
        隨機森林在棉蚜蟲害等級預(yù)測中的應(yīng)用
        基于二次隨機森林的不平衡數(shù)據(jù)分類算法
        軟件(2016年7期)2017-02-07 15:54:01
        拱壩變形監(jiān)測預(yù)報的隨機森林模型及應(yīng)用
        基于隨機森林算法的飛機發(fā)動機故障診斷方法的研究
        基于奇異熵和隨機森林的人臉識別
        軟件(2016年2期)2016-04-08 02:06:21
        基于隨機森林算法的B2B客戶分級系統(tǒng)的設(shè)計
        国产国拍精品av在线观看按摩| 人妻蜜桃日产一本久道综合在线| 亚洲乱码中文在线观看| 久久精品黄aa片一区二区三区| 免费观看成人欧美www色| 狼狼综合久久久久综合网| 国产成人亚洲精品无码mp4| 国产熟女亚洲精品麻豆| A阿V天堂免费无码专区| 亚洲一区中文字幕视频| 女人张开腿让男人桶爽| 最新国产乱人伦偷精品免费网站| 久久精品性无码一区二区爱爱| 久久综合九色综合久久久| 亚洲av日韩专区在线观看| 丰满的人妻hd高清日本| 国产午夜影视大全免费观看| 无码熟妇人妻av在线c0930| 久久精品国产熟女亚洲av麻豆 | 国产亚洲一区二区三区成人| 日韩一区二区av极品| 国产精品 无码专区| 99精品国产一区二区三区| 午夜婷婷国产麻豆精品| 国产喷白浆精品一区二区豆腐 | 欧美午夜一区二区福利视频| 久久精品国产亚洲av成人擦边| 亚洲国产精品成人av在线不卡| 免费无码一区二区三区蜜桃| 久久久久久久中文字幕| 国产剧情亚洲一区二区三区| 国产猛烈高潮尖叫视频免费| 香蕉久久人人97超碰caoproen| 91在线无码精品秘 入口九色十| 在线观看亚洲av每日更新影片| 久久久久亚洲av成人片| 国产在线精品一区二区不卡| 国产综合一区二区三区av| 国产日本精品视频一区二区| 波多野结衣av手机在线观看| 欧美中出在线|