亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于隨機(jī)森林的航材不平衡樣本集數(shù)據(jù)分析方法研究

        2021-10-21 08:51:30任宇軒
        科技信息·學(xué)術(shù)版 2021年15期

        任宇軒

        摘要:不平衡樣本集一般指在多數(shù)類樣本個數(shù)與少數(shù)類樣本個數(shù)相差較大的數(shù)據(jù)集合,對這類數(shù)據(jù)進(jìn)行分類時,結(jié)果會偏向于多數(shù)類,導(dǎo)致分類錯誤。為解決不平衡樣本集在數(shù)據(jù)分析時的問題,使用了一種基于代價敏感的隨機(jī)森林方法,并在飛機(jī)航材保障數(shù)據(jù)分析中應(yīng)用,結(jié)果表明該方法能夠?qū)Σ黄胶鈹?shù)據(jù)進(jìn)行較為準(zhǔn)確的分析。

        關(guān)鍵詞:隨機(jī)森林;不平衡數(shù)據(jù);分類器;航材

        1 引言

        航材保障是為飛機(jī)檢修維修提供所需航材的重要工作,其直接關(guān)系到飛機(jī)能否正常執(zhí)行任務(wù)。缺材停飛指飛機(jī)因缺乏航材導(dǎo)致無法飛行,為掌握航材保障工作規(guī)律,對保障數(shù)據(jù)進(jìn)行分析,預(yù)判缺材停飛事件發(fā)生具有重要的意義。但是航材保障工作中缺材停飛屬于小概率事件,導(dǎo)致缺材停飛的航材占比一般不足百分之五,導(dǎo)致樣本集內(nèi)正樣本與負(fù)樣本比例極不平衡,對這類樣本集進(jìn)行數(shù)據(jù)分析會導(dǎo)致結(jié)果出現(xiàn)偏差,算法會使得分類結(jié)果偏向于樣本容量大的一類,如何解決不平衡樣本集對數(shù)據(jù)分析結(jié)果帶來的影響是當(dāng)前的熱點研究方向。

        2 代價敏感的隨機(jī)森林算法

        代價敏感的思想對于不平衡數(shù)據(jù)分析有很好的效果,在對于不平衡數(shù)據(jù)的分類器中把少數(shù)類錯分為多數(shù)類的代價設(shè)為較大,能夠使得分類器對于少數(shù)類樣本更加關(guān)注。其主要思想與我們對待不平衡樣本集的思想相同,與其他對于不平衡樣本集的處理方法相比較,代價敏感矩陣擁有更低的時間復(fù)雜度,更適合大數(shù)據(jù)處理,但大家敏感矩陣的具體值確定較為困難,代價敏感矩陣方法分類方法一般有三種。

        一是將誤分類的代價以權(quán)重的形式直接作用到數(shù)據(jù)集中,這種方法其實相當(dāng)于通過改變數(shù)據(jù)權(quán)重的方式來修改數(shù)據(jù)的分布,使分類器朝著誤分類代價減少的方向?qū)W習(xí)。受到AdaBoost的啟發(fā),有一些用于不平衡數(shù)據(jù)的代價敏感的Boosting算法已經(jīng)提出,一個典型的算法就是AdaCost,它是AdaBoost的變種形式,只是將誤分類代價作為數(shù)據(jù)空間中權(quán)重更新的策略而引入。

        二是把代價最小化技術(shù)同集成方法結(jié)合。先使用傳統(tǒng)的集成學(xué)習(xí)方法訓(xùn)練模型,然后將訓(xùn)練出的傳統(tǒng)模型與代價最小化技術(shù)相結(jié)合形成代價敏感模型。MetaCost是一種將傳統(tǒng)的分類器轉(zhuǎn)換為代價敏感模型的方法,傳統(tǒng)分類器通過一個“元學(xué)習(xí)”過程,根據(jù)最小期望代價修改訓(xùn)練樣本的類標(biāo)記,并使用修改后的訓(xùn)練集重新學(xué)習(xí)新的模型。使用 MetaCost 的優(yōu)勢就是它將分類器視為黑箱,不需要知道分類器的內(nèi)部結(jié)構(gòu),同時可以應(yīng)用到任何個數(shù)的基分類器上以及任何形式的代價矩陣上。

        三是直接構(gòu)造一個代價敏感模型,將代價敏感函數(shù)或者特征同分類器直接結(jié)合,通過學(xué)習(xí)器的學(xué)習(xí)過程將代價敏感函數(shù)擬合到分類器中。文獻(xiàn)將代價敏感方法和決策樹結(jié)合,提出了基于代價敏感的剪枝方法。該方法將代價函數(shù)作為剪枝評判的標(biāo)準(zhǔn),對決策樹的過擬合問題起到一定的緩解作用。同時,經(jīng)過剪枝后,分類器泛化能力和分類準(zhǔn)確率得到了一定程度的提高。然而,剪枝操作對閾值的設(shè)定十分敏感,將閾值進(jìn)行少量的變動,會引起整棵樹很大的變動。另外,將剪枝操作加入到分類器的學(xué)習(xí)中,無疑會加大分類器學(xué)習(xí)所需的時間。

        隨機(jī)森林分類器是一種將多個決策樹組合為一個算法的機(jī)器學(xué)習(xí)方法,多棵決策樹表示為{h(X,θk),k=1,2,…,k},k表示隨機(jī)森林里基分類器的個數(shù),決策樹基于Bagging的隨機(jī)有放回抽樣,在隨機(jī)空間進(jìn)行魔性訓(xùn)練,保證了基分類器的多樣性。由于在樣本選擇過程中的隨機(jī)性提高看分類的精準(zhǔn)度,避開了過擬合問題。隨機(jī)森林方法組合多棵決策樹的分類結(jié)果,結(jié)果選擇多數(shù)決策樹的結(jié)果。

        式中,hk(x)是決策樹模型,y是決策樹的分類結(jié)果,I(·)為指示器函數(shù)

        代價函數(shù)是根據(jù)數(shù)據(jù)集特征得來,通過計算樣本分布,構(gòu)造代價因子,詳細(xì)步驟如下。

        第一步,計算整個數(shù)據(jù)集、多數(shù)類樣本、少數(shù)類樣本的的數(shù)據(jù)中心。

        第二步,計算各類別數(shù)據(jù)中心到數(shù)據(jù)集數(shù)據(jù)中心的全中距離,在數(shù)據(jù)集中,重要特征相對較少,計算類別中心到整個數(shù)據(jù)集中心的歐式距離構(gòu)造代價對重要特征不公平,本算法引入權(quán)重距離,利用信息增益衡量每個特征在不同類別中的重要性。

        第三步,設(shè)多數(shù)類c1,少數(shù)類c0,其中樣本數(shù)分別為N1,N2,能夠定義γ系數(shù)如下:

        3 實例驗證

        實例選擇某保障單位一段時間內(nèi)的保障數(shù)據(jù)進(jìn)行分析,共1121條數(shù)據(jù)中,缺材數(shù)據(jù)占比約為百分之5,屬于不平衡數(shù)據(jù)集,采用代價敏感的隨機(jī)森林方法進(jìn)行分析。為消除不同屬性之間量綱不同對結(jié)果的影響對數(shù)據(jù)集采用歸一化處理。

        將代價敏感的隨機(jī)森林算法與普通隨機(jī)森林算法結(jié)果相比較,0表示未發(fā)生缺材,1表示發(fā)生缺材。下表中1/0表示實際為1算法分類結(jié)果為0,以此類推。是研究過表明傳統(tǒng)隨機(jī)森林算法會將絕大多數(shù)樣本歸類為多數(shù)類,而代價敏感的隨機(jī)森林算法能提高分類器對少數(shù)類樣本的分類準(zhǔn)確度。

        可見代價敏感隨機(jī)森林算法在處理不平衡數(shù)據(jù)時總準(zhǔn)確率明顯提高,且將少數(shù)類樣本分類正確率也有極大的提升。

        4 結(jié)論

        不平衡樣本數(shù)據(jù)集對數(shù)據(jù)分析工作提出了更高的要求,傳統(tǒng)的機(jī)器學(xué)習(xí)算法會受到樣本容量不均的影響,對少數(shù)類樣本的分類能力較差。本文采用了一種代價敏感的隨機(jī)森林方法,使算法更加關(guān)注少數(shù)類樣本的分類結(jié)果,隨機(jī)森林綜合了多棵決策樹的結(jié)果,實例驗證表明該算法相較于傳統(tǒng)隨機(jī)森林方法,在處理不平衡數(shù)據(jù)時有著更高的準(zhǔn)確率。

        參考文獻(xiàn)

        [1]曹正鳳.隨機(jī)森林算法優(yōu)化研究[D].首都經(jīng)濟(jì)貿(mào)易大學(xué),2014.

        [2]姚登舉.面向醫(yī)學(xué)數(shù)據(jù)的隨機(jī)森林特征選擇及分類方法研究[D].哈爾濱工程大學(xué),2016.

        [3]肖堅.基于隨機(jī)森林的不平衡數(shù)據(jù)分類方法研究[D].哈爾濱工業(yè)大學(xué),2013.

        [4]尹華,胡玉平.一種代價敏感隨機(jī)森林算法[J].武漢大學(xué)學(xué)報(工學(xué)版),2014,47(05):707-711.

        [5]楊杰明,高聰,曲朝陽,闞中鋒,高冶,常成.基于代價敏感的隨機(jī)森林不平衡數(shù)據(jù)分類算法[J].科學(xué)技術(shù)與工程,2018,18(06):285-290.

        [6]高聰.基于隨機(jī)森林的不平衡大數(shù)據(jù)分類算法研究[D].東北電力大學(xué),2018.

        [7]王平,單文英.改進(jìn)的隨機(jī)森林算法在乳腺腫瘤診斷中的應(yīng)用[J].計算機(jī)應(yīng)用與軟件,2016,33(04):252-257+264.

        国产ww久久久久久久久久| 久久精品国产亚洲av夜夜| 国产精品久色婷婷不卡| 日韩精品视频一区二区三区| 少妇邻居内射在线| 色综合久久久久综合一本到桃花网| 精品人妻码一区二区三区红楼视频 | 国产人妻人伦精品1国产盗摄| 亚洲AV一二三四区四色婷婷| 偷拍与自偷拍亚洲精品| 亚洲国产精品高清一区| 成年免费视频黄网站zxgk| 亚洲性啪啪无码AV天堂| 国产一区二区三区特区| 丰满少妇高潮惨叫久久久| 精品亚洲国产成人av| 一本一道AⅤ无码中文字幕| 国产三级国产精品国产专播| 精品国产精品国产偷麻豆| 中文字幕无码免费久久| 网红极品女神精品视频在线| 亚洲av毛片在线免费观看| 日韩吃奶摸下aa片免费观看| 久久av高潮av喷水av无码 | 亚洲av鲁丝一区二区三区黄| 色诱久久av| 全程国语对白资源在线观看| 黑人大群体交免费视频| 久久精品国产亚洲av麻| 亚洲欧美v国产蜜芽tv| 白白色发布的在线视频| 女人被狂躁高潮啊的视频在线看| 亚洲AV一二三四区四色婷婷| 中文字幕中文字幕三区| 亚洲 欧美 日韩 国产综合 在线| 国产精品久久久久久久久KTV| 丰满少妇一区二区三区专区 | 亚洲一区二区三区久久久| 伊人久久大香线蕉午夜av | 一二三四在线观看韩国视频| 精品久久久久久无码中文野结衣|