亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        雙重代價(jià)敏感隨機(jī)森林算法

        2021-01-16 02:51:19周炎龍孫廣路
        關(guān)鍵詞:隨機(jī)森林特征選擇

        周炎龍 孫廣路

        摘要:針對(duì)分類器在識(shí)別不平衡數(shù)據(jù)時(shí)少數(shù)類準(zhǔn)確率不理想的問(wèn)題,提出了一種雙重代價(jià)敏感隨機(jī)森林算法,雙重代價(jià)敏感隨機(jī)森林算法分別在隨機(jī)森林的特征選擇階段和集成投票階段引入代價(jià)敏感學(xué)習(xí)。在特征選擇階段提出了生成代價(jià)向量時(shí)間復(fù)雜度更低的方法,并將代價(jià)向量引入到了分裂屬性的計(jì)算中,使其在不破壞隨機(jī)森林隨機(jī)性的同時(shí)更有傾向性地選擇強(qiáng)特征;在集成階段引入誤分類代價(jià),從而選出對(duì)少數(shù)類數(shù)據(jù)更敏感的決策樹集合。在UCI數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,提出的算法較對(duì)比方法具有更高的整體識(shí)別率,平均提高2.46%,對(duì)少數(shù)類識(shí)別率整體提升均在5%以上。

        關(guān)鍵詞:隨機(jī)森林;不平衡數(shù)據(jù);特征選擇;代價(jià)敏感

        DOI:10.15938/j.jhust.2021.05.006

        中圖分類號(hào):TP181 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1007-2683(2021)05-0044-07

        0 引言

        隨著大數(shù)據(jù)時(shí)代的來(lái)臨,數(shù)據(jù)呈現(xiàn)數(shù)量多、不平衡等特點(diǎn),即一個(gè)類樣本數(shù)量遠(yuǎn)多于另一個(gè)類的樣本數(shù)量[1],如何將其正確的分類是一種重要的數(shù)據(jù)分析技術(shù)。類別不平衡的數(shù)據(jù)普遍存在于現(xiàn)實(shí)生活的許多應(yīng)用中。例如,用于疾病診斷預(yù)測(cè)的病歷數(shù)據(jù)中,許多少見卻非常重要的疾病樣本數(shù)遠(yuǎn)小于正?;虺R姷募膊颖緮?shù)[2];用于互聯(lián)網(wǎng)人侵檢測(cè)的樣本數(shù)據(jù)中,正常的樣本數(shù)遠(yuǎn)多于人侵的樣本數(shù)。若將傳統(tǒng)分類器應(yīng)用于這些場(chǎng)景而不對(duì)類別的不平衡性做任何處理,就會(huì)使得多數(shù)類淹沒(méi)少數(shù)類(少數(shù)類往往是更重要的),得不到好的分類效果。因此,類別分布的不平衡問(wèn)題是數(shù)據(jù)分類中很重要的一類問(wèn)題。

        針對(duì)類別不平衡數(shù)據(jù)的分類問(wèn)題,研究人員在數(shù)據(jù)預(yù)處理和分類器模型算法2個(gè)方面提出很多改進(jìn)方法。其中,在數(shù)據(jù)預(yù)處理方法中又分為數(shù)據(jù)分布和特征選擇。特征選擇的目的是從全部特征中選擇更適合于類別不平衡數(shù)據(jù)、能反映類別不平衡特點(diǎn)的子集來(lái)構(gòu)建分類器模型,從而使得分類器在類別不平衡的前提下達(dá)到較好的性能[3]。數(shù)據(jù)分布調(diào)整主要通過(guò)數(shù)據(jù)重采樣或數(shù)據(jù)分組等手段使得類別在一定程度上達(dá)到平衡,從而消除類別不平衡問(wèn)題。

        除了通過(guò)特征選擇、數(shù)據(jù)分布調(diào)整來(lái)降低類別不平衡對(duì)分類算法的影響,還可以直接在算法層面,通過(guò)設(shè)計(jì)適用于不平衡數(shù)據(jù)特征的模型訓(xùn)練算法來(lái)解決類別不平衡問(wèn)題。這方面的研究工作主要有代價(jià)敏感學(xué)習(xí),集成學(xué)習(xí)以及其他算法,如關(guān)聯(lián)分類算法、K近鄰算法等。

        1 相關(guān)工作

        隨機(jī)森林是由Breiman[4]提出的一種集成學(xué)習(xí)算法,通過(guò)組合若干個(gè)單分類器的分類結(jié)果,從而對(duì)測(cè)試樣本的類別做出分類。該算法與單個(gè)分類器相比,具有更好的分類效果和泛化能力。研究人員在隨機(jī)森林不同階段提出了優(yōu)化和改進(jìn)方法。

        在特征選擇階段,Paul等[5]提出了一種改進(jìn)的隨機(jī)森林分類器。根據(jù)重要特征和不重要特征的個(gè)數(shù),迭代地去除一些非重要的特征,構(gòu)造了一個(gè)新的理論上限,即加入到森林中的樹的個(gè)數(shù)。以保證分類精度的提高,并且算法收斂于一組減少但重要的特征。Zhou等[6]提出一種特征代價(jià)敏感隨機(jī)森林算法(Feature Cost-Sensitive Random Forest,F(xiàn)CS-RF),該算法將代價(jià)敏感學(xué)習(xí)引入隨機(jī)森林算法的特征選擇階段,針對(duì)每棵決策樹通過(guò)其OOB(Out ofBag,OOB)數(shù)據(jù)計(jì)算出不同特征下的分類準(zhǔn)確率,再通過(guò)提出的算法計(jì)算出代價(jià)向量,在不破壞隨機(jī)性的同時(shí)使隨機(jī)森林在選擇特征時(shí)會(huì)更傾向于代價(jià)高的特征(即分類準(zhǔn)確率更高的特征)。然而該方法在特征間沒(méi)有明顯強(qiáng)弱關(guān)系的時(shí)候就會(huì)退化為普通的隨機(jī)森林算法。并且該方法沒(méi)有考慮特征間的相對(duì)關(guān)系,并且生成特征向量的時(shí)間復(fù)雜度過(guò)高。

        在集成投票階段,用OOB數(shù)據(jù)計(jì)算出識(shí)別準(zhǔn)確率,再通過(guò)不同的算法計(jì)算出每棵決策樹的權(quán)重,從而在最終樣本分類時(shí)使分類結(jié)果更傾向于分類準(zhǔn)確率高的決策樹的分類結(jié)果[7-8]。這些方法在數(shù)據(jù)高度不平衡時(shí),雖然能有較高的整體識(shí)別準(zhǔn)確率,但是對(duì)少數(shù)類的識(shí)別準(zhǔn)確率卻并不理想。Xie等[9]將加權(quán)隨機(jī)森林和平衡隨機(jī)森林相結(jié)合,通過(guò)抽樣技術(shù)與成本敏感相結(jié)合引入隨機(jī)森林集成投票階段的方法可以在保證整體識(shí)別準(zhǔn)確率的同時(shí)提升少數(shù)類的識(shí)別準(zhǔn)確率,但是該方法在時(shí)間和空間上消耗過(guò)大。

        隨機(jī)森林算法雖然具有較好的分類效果和泛化能力,但是在數(shù)據(jù)不平衡度較大時(shí),分類效果卻并不理想,為此可以引入代價(jià)敏感學(xué)習(xí)來(lái)解決此問(wèn)題。目前對(duì)代價(jià)敏感學(xué)習(xí)的研究主要集中在代價(jià)敏感間接學(xué)習(xí)和代價(jià)敏感直接學(xué)習(xí)2個(gè)方面[10]。代價(jià)敏感間接學(xué)習(xí)主要是通過(guò)對(duì)數(shù)據(jù)集特征空間的重構(gòu),間接地進(jìn)行代價(jià)敏感學(xué)習(xí),從而改變已有數(shù)據(jù)集的不平衡度,代表性的方法是代價(jià)敏感元學(xué)習(xí)[11]。代價(jià)敏感直接學(xué)習(xí)則是在傳統(tǒng)學(xué)習(xí)算法的基礎(chǔ)上引入代價(jià)敏感因子,通過(guò)改進(jìn)分類器模型的內(nèi)部構(gòu)造,使基于最小錯(cuò)誤率的分類器轉(zhuǎn)化為基于最小代價(jià)的代價(jià)敏感分類器。目前,主流的分類算法如人工神經(jīng)網(wǎng)絡(luò)[12]、樸素貝葉斯[13]、SVM[14-16]、決策樹[17-18],AdaBoost[19-20]等都有著相應(yīng)的代價(jià)敏感擴(kuò)展算法。雖然近些年深度學(xué)習(xí)成為大家關(guān)注的焦點(diǎn),并在各個(gè)領(lǐng)域效果顯著。但其可解釋性的探索仍處于初級(jí)階段[21],并且模型的訓(xùn)練需要大量的數(shù)據(jù),在樣本數(shù)量不足時(shí)會(huì)發(fā)生欠擬合的現(xiàn)象。

        2 基于雙重代價(jià)敏感的隨機(jī)森林算法

        2.1 代價(jià)敏感的引入

        目前代價(jià)敏感學(xué)習(xí)算法主要針對(duì)二分類問(wèn)題,當(dāng)目標(biāo)被錯(cuò)分成其他類的代價(jià)有較大差異時(shí),區(qū)分這些代價(jià)是必要的,即使被錯(cuò)分類,也希望被錯(cuò)分到代價(jià)小的類上。針對(duì)二分類問(wèn)題,代價(jià)敏感一般用代價(jià)矩陣(見表1)表示分類器分錯(cuò)時(shí)要付出的代價(jià)。c0為少數(shù)類,c1為多數(shù)類,C(i,j)表示將類別j錯(cuò)分類為i所要付出的代價(jià)。

        2.2 雙重代價(jià)敏感隨機(jī)森林(Double Cost SensitiveRandom Forest,DCS-RF)

        雙重代價(jià)敏感隨機(jī)森林算法(DCS-RF)主要分為生成代價(jià)向量、構(gòu)建決策樹和集成投票3個(gè)階段,如圖1所示。

        隨機(jī)森林算法對(duì)數(shù)據(jù)集隨機(jī)并有放回地抽樣N次作為一棵決策樹的訓(xùn)練集。其中未被選擇到的數(shù)

        2.2.1 代價(jià)向量的生成

        在生成代價(jià)向量階段,F(xiàn)CS-RF算法利用隨機(jī)森林OOB數(shù)據(jù)計(jì)算出的誤差變化來(lái)計(jì)算特征的重要度得分,從而計(jì)算出代價(jià)向量,但其所耗時(shí)間過(guò)長(zhǎng)。因此本文提出的獲取代價(jià)向量的方法僅利用OOB數(shù)據(jù)的準(zhǔn)確率作為標(biāo)準(zhǔn),經(jīng)實(shí)驗(yàn)證明耗時(shí)更少。具體步驟如下:

        1)初始化代價(jià)向量q=[r1,r2,…,rn],n為特征數(shù)量。設(shè)定閾值ω和權(quán)值向量λ=[λ1,λ2,…,λn],其中向量λ中的數(shù)值為[n,n-1,n-2,…,1],n為特征數(shù)量。因此權(quán)值向量λ=[n,n-1,n-2,…,1]。設(shè)置m為每次選取的特征數(shù)量,常設(shè)m=■。利用OOB數(shù)據(jù)對(duì)每棵決策樹進(jìn)行測(cè)試。設(shè)A為準(zhǔn)確率,當(dāng)Aj≥w,j=1,2,…,ntree時(shí)(其中ntree為決策樹的數(shù)量),將第j棵樹中所選擇的所有特征按照從根結(jié)點(diǎn)到葉子結(jié)點(diǎn)的順序排序,將各結(jié)點(diǎn)中所選的用作分裂屬性的特征構(gòu)成集合Fj。對(duì)于集合Fj中所有的特征,通過(guò)式(3)依次計(jì)算得到特征i的特征系數(shù)ri。

        2.2.2 分裂范式的構(gòu)建

        在構(gòu)建決策樹階段,將代價(jià)向量引入屬性分裂Gini指數(shù)的計(jì)算中,得到新的Gini指數(shù)CGini(CostGini index)。

        特征系數(shù)越低的特征對(duì)應(yīng)的CGini的不純度越高,其作為分裂準(zhǔn)則的效果越好。

        2.2.3 集成投票

        在決策樹的集成階段引入誤分類代價(jià),將平均誤差代價(jià)(average error costs,AEC)作為集成標(biāo)準(zhǔn),獲得對(duì)于少數(shù)類更敏感的決策樹集合,構(gòu)建完整的DCS-RF算法。AEC可表示為

        針對(duì)每棵決策樹j,分別計(jì)算對(duì)應(yīng)的平均誤差代價(jià):其中x10表示偽正例;x01表示偽反例;N是樣本總數(shù)量。

        2.2.4 算法步驟

        整體算法步驟如算法1所示。

        算法1 雙重代價(jià)敏感隨機(jī)森林算法

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 實(shí)驗(yàn)設(shè)置

        本文選擇了UCI的8組數(shù)據(jù)集,并對(duì)其中的多分類數(shù)據(jù)集進(jìn)行調(diào)整,轉(zhuǎn)化為二分類數(shù)據(jù)集,具體描述如表2所示。8組數(shù)據(jù)分成2組,一組通過(guò)生成的代價(jià)向量中各個(gè)特征間的數(shù)值關(guān)系對(duì)數(shù)據(jù)集的特征強(qiáng)度進(jìn)行了高、中、低的標(biāo)注,檢測(cè)算法在不同特征強(qiáng)度數(shù)據(jù)集上的識(shí)別效果。并對(duì)FCS-RF和DCS-RF算法生成代價(jià)向量的時(shí)間進(jìn)行比對(duì)。

        另一組根據(jù)數(shù)據(jù)集的特征強(qiáng)度進(jìn)行劃分,分別從高、中、低特征強(qiáng)度的數(shù)據(jù)集中各取出一組數(shù)據(jù)進(jìn)行不平衡處理,使其呈現(xiàn)出5種不同的不平衡度如表3所示,對(duì)本方法在不同平衡度上的分類效果進(jìn)行實(shí)驗(yàn)驗(yàn)證。在實(shí)驗(yàn)開始前,需要對(duì)代價(jià)矩陣進(jìn)行賦值。假設(shè)少數(shù)類為c0,多數(shù)類為c1。那么C(c1,c0)和C(c0,c1)就分別代表把少數(shù)類錯(cuò)分為多數(shù)類的代價(jià)和將多數(shù)類錯(cuò)分為少數(shù)類的代價(jià)。本文更加關(guān)注的是針對(duì)不平衡數(shù)據(jù)的識(shí)別率,即對(duì)少數(shù)類的識(shí)別準(zhǔn)確率,所以C(c1,c0)的代價(jià)應(yīng)該高于C(c0,c1)的代價(jià)。這樣我們就將C(c0,c1)的代價(jià)設(shè)為1,假設(shè)C(c1,c0)的代價(jià)是2就說(shuō)明將c0錯(cuò)分為c1的代價(jià)是將c1錯(cuò)分為c0的代價(jià)的兩倍。通過(guò)調(diào)節(jié)C(c1,c0)的值N,分別計(jì)算其等于1,2,4,8,16,32,64時(shí)的結(jié)果。通過(guò)實(shí)驗(yàn)計(jì)算發(fā)現(xiàn)C(c1,c0)=32時(shí)效果最佳。

        同時(shí)對(duì)于決策樹的數(shù)量理論上是數(shù)量越多識(shí)別效果越好,但是消耗的時(shí)間也會(huì)增加,綜合考慮設(shè)置決策樹的數(shù)量為100,因?yàn)樵跊Q策樹的數(shù)量為100時(shí)即可達(dá)到分類精度。

        3.2 結(jié)果分析

        2種算法生成的代價(jià)向量如表4所示,分別選取高、中、低特征強(qiáng)度的數(shù)據(jù)集Wine,Cancer,Jain,Diabetes進(jìn)行對(duì)比實(shí)驗(yàn)??梢钥吹皆诟?、中特征強(qiáng)度的數(shù)據(jù)集中,本文的特征選擇方法可以更加快速高效的挖掘出高強(qiáng)度特征。雖然不能保證特征的強(qiáng)弱排序都與FCS-RF所產(chǎn)生的順序相同,但高、中、低強(qiáng)度特征集合中的特征元素卻相同。同時(shí)隨著數(shù)據(jù)維度的增加,DCS-RF在代價(jià)向量的生成速度上更占優(yōu)勢(shì)如表5所示,速度提升普遍在2倍以上,數(shù)據(jù)維度是訓(xùn)練集數(shù)據(jù)量乘以特征維度。

        在不平衡數(shù)據(jù)分類問(wèn)題中,關(guān)注整體識(shí)別準(zhǔn)確率的同時(shí)更應(yīng)關(guān)注少數(shù)目標(biāo)類的分類準(zhǔn)確率。本文選擇如下指標(biāo)評(píng)價(jià)分類算法:準(zhǔn)確率(accuracy),召回率(recall)和F-measure。分別對(duì)支持向量機(jī)(SVM),K最鄰近(KNN),隨機(jī)森林(RF),特征代價(jià)隨機(jī)森林(FCS-RF)和本文提出的雙重代價(jià)隨機(jī)森林(DCS-RF)算法進(jìn)行對(duì)比。

        對(duì)KNN分類標(biāo)準(zhǔn)采取的是歐氏距離,K值設(shè)置為2。SYM中核函數(shù)采用RBF,迭代次數(shù)為50,松弛變量為20,懲罰因子0.6。表6顯示了5種不同的分類算法在8組不同特征強(qiáng)度的數(shù)據(jù)集上的整體識(shí)別準(zhǔn)確率??梢钥闯鲈诰哂懈咛卣鲝?qiáng)度和中特征強(qiáng)度的數(shù)據(jù)集上,DCS-RF和FCS-RF算法的識(shí)別率明顯高于其他的分類算法。在低特征強(qiáng)度的數(shù)據(jù)集上,F(xiàn)CS-RF算法對(duì)低特征強(qiáng)度數(shù)據(jù)不敏感,所以會(huì)退化成普通的隨機(jī)森林算法,其結(jié)果也與隨機(jī)森林沒(méi)有任何區(qū)別。由于DCS-RF算法在集成階段引入誤分類代價(jià),所以在處理低特征強(qiáng)度的數(shù)據(jù)時(shí),整體識(shí)別準(zhǔn)確率仍能高于隨機(jī)森林和FCS-RF算法。同時(shí)在絕大多數(shù)的數(shù)據(jù)集上明顯高于其他4種分類算法,有著更高的識(shí)別準(zhǔn)確率。另外我們可以注意到,雖然在Wine數(shù)據(jù)集上隨機(jī)森林,F(xiàn)CS-RF和DCS-RF達(dá)到了接近100%的識(shí)別準(zhǔn)確率,但是經(jīng)過(guò)實(shí)驗(yàn)證明,3種分類算法到達(dá)該準(zhǔn)確率使用的決策樹數(shù)量完全不同,比值為10:7:5。由此可以看出相比于隨機(jī)森林和FCS-RF兩種算法,DCS-RF達(dá)到相同的識(shí)別效果所使用的決策樹數(shù)量更少。

        通過(guò)表7、8中各類算法在數(shù)據(jù)集上的召回率和F-measure可以看出,DCS-RF算法因?yàn)樵跊Q策樹的集成階段引入了代價(jià)敏感學(xué)習(xí)的原因,所以其對(duì)少數(shù)類樣本的分類效果始終優(yōu)于其他的算法。

        為了驗(yàn)證算法在不平衡數(shù)據(jù)上的識(shí)別效果,圖2顯示了5種算法在Cancer,Jain和Diabetes數(shù)據(jù)集的不同平衡度上的召回率。數(shù)據(jù)的不平衡度分為5個(gè)級(jí)別,其中Cancer數(shù)據(jù)集中少數(shù)類占比分別是42.3%,32.3%,22.4%,12.4%,2.5%:Jain數(shù)據(jù)集中少數(shù)類占比分別是25.94%,20.72%,15.83%,10.39%,7.17%;Diabetes數(shù)據(jù)集少數(shù)類占比分別是34.90%,30.36%,25.15%,19.09%,11.98%。

        通過(guò)圖2(a)、(b)可以看出隨著少數(shù)類所占比例的減少,RF及其變種算法對(duì)于少數(shù)類的識(shí)別率的波動(dòng)幅度相對(duì)平緩。但是SVM和KNN算法的表現(xiàn)則并不理想。在圖2(c)上可以看到,由于特征強(qiáng)度低,F(xiàn)CS-RF算法已經(jīng)完全退化為RF算法,但基于隨機(jī)森林本身良好的魯棒性,其召回率的下降速度相對(duì)于SVM和KNN算法更平緩。同時(shí)也能看出DCS-RF算法由于在決策樹集成階段誤分類代價(jià)的引入,其召回率始終高于其他幾種算法,即對(duì)少數(shù)類有著更高的識(shí)別率。

        4 結(jié)論

        針對(duì)分類器在識(shí)別不平衡數(shù)據(jù)時(shí)少數(shù)類準(zhǔn)確率不理想的問(wèn)題,提出了一種基于雙重代價(jià)敏感的隨機(jī)森林算法,分別在隨機(jī)森林的特征選擇階段和集成投票階段引入代價(jià)敏感學(xué)習(xí),使其對(duì)少數(shù)類數(shù)據(jù)敏感。在保證特征間強(qiáng)弱關(guān)系的前提下,提出了獲取代價(jià)向量耗時(shí)更少的方法;同時(shí)將代價(jià)向量引入到Gini指數(shù)中,在不破壞隨機(jī)性的前提下,更有傾向地選擇強(qiáng)特征;最后在集成階段引入了誤分類代價(jià),使其在提高整體識(shí)別準(zhǔn)確率的同時(shí)對(duì)不平衡數(shù)據(jù)中的少數(shù)類也有著較好的識(shí)別準(zhǔn)確率。通過(guò)與SVM、KNN、隨機(jī)森林、FCS-RF的實(shí)驗(yàn)對(duì)比,證明了本文提出的DCS-RF方法的有效性,在保證多數(shù)類準(zhǔn)確的基礎(chǔ)上提高了少數(shù)類的識(shí)別準(zhǔn)確率。但該算法的代價(jià)矩陣需要人為去規(guī)定,如何自主生成合理且有效的代價(jià)矩陣則是下一階段的研究目標(biāo)。

        參考文獻(xiàn):

        [1]AU H,SALLEH M N B M,SAEDUDIN R,et al.ImbalanceClass Problems in Data Mining:A Review[J].Indonesian Jour-nal of Electrical Engineering and Computer Science,2019,14(3):1560.

        [2]SUN Y,WONG A K C,KAMEL M S.Classification of Imbal-anced Data:A Review[J].International Journal of Pattern Rec-ognition&Artificial Intelligence,2009,23(4);687.

        [3]宋智超,康健,孫廣路,等.特征選擇方法中三種度量的比較研究[J].哈爾濱理工大學(xué)學(xué)報(bào),2018,23(1):111.

        [4]BREIMAN L.Random Forests[J].Machine Learning,2001,45(1):5.

        [5]PAUL A,MUKHERJEE D P,DAS P,CHINTHA R.ImprovedRandom Forest for Classification[J].IEEE Transactions on ImageProcessing,2018,27(8):4012.

        [6]ZHOU Q,ZHOU H,LI T,et al.Cost-sensitive Feature SelectionUsing Random Forest:Selecting Low-cost Subsets of InformativeFeatures[J].Knowledge Based Systems,2016(95):1,

        [7]楊宏宇,徐晉.基于改進(jìn)隨機(jī)森林算法的Android惡意軟件檢測(cè)[J].通信學(xué)報(bào),2017,37(4):8.

        [8]蔡加欣,馮國(guó)燦,湯鑫,等.基于局部輪廓和隨機(jī)森林的人體行為識(shí)別[J].光學(xué)學(xué)報(bào),2014,34(10):204.

        [9]XIE Y,LI X,NGAI E W,et al.Customer Churn Prediction U-sing Improved Balanced Random Forests[J].Expert Systems withApplications,2009,36(3):5445.

        [10]凌曉峰,SHENG,Victor,等.代價(jià)敏感分類器的比較研究[J].計(jì)算機(jī)學(xué)報(bào),2007,30(8):1203.

        [11]DOMINGOS P.Meta cost:A General Method for Marking Classifi-ers Cost-sensitive[C]//Proc.5th ACM SIGKDD InternationalConf.Knowledge Discovery and Data Mining,1999:155.

        [12]ZHANG Z,LUO X,GARCA S,et al.Cost-Sensitive Back-propa-gation Neural Networks with Binarization Techniques in AddressingMulti-class Problems and Non-competent Xlassifiers[J].AppliedSoft Computing,2017(56):357.

        [13]蔣盛益,謝照青,余雯.基于代價(jià)敏感的樸素貝葉斯不平衡數(shù)據(jù)分類研究[J].計(jì)算機(jī)研究與發(fā)展,2011,48(S1):387.

        [14]DHAR S,CHERKASSKY V.Development and Evaluation ofCost-Sensitive Universum-SVM[J].IEEE Transactions on Sys-tems,Man,and Cybernetics,2015,45(4):806.

        [15]周宇航,周志華.代價(jià)敏感大間隔分布學(xué)習(xí)機(jī)[J].計(jì)算機(jī)研究與發(fā)展,2016,53(9):1964.

        [16]HIANMEHR A,MASNADISHIRAZI H,VASCONCELOS N,etal.Cost-sensitive Support Vector Machines[J].Neurocomputing,2019:50.

        [17]齊志鑫,王宏志,周雄,等.劣質(zhì)數(shù)據(jù)上代價(jià)敏感決策樹的建立[J].軟件學(xué)報(bào),2019,30(3):114.

        [18]LI F,ZHANG X.Cost-Sensitive and Hybrid-Attribute MeasureMulti-Decision Tree over Imbalanced Data Sets[J].InformationSciences An International Journal,2018(22):242.

        [19]付忠良.多分類問(wèn)題代價(jià)敏感AdaBoost算法[J].自動(dòng)化學(xué)報(bào),2011,37(8):973.

        [20]ZELENKOV Y.Example-dependent Cost-sensitive AdaptiveBoosting[J].Expert Systems with Application,2019,135(11):71.

        [21]成科揚(yáng),王寧,師文喜,等.深度學(xué)習(xí)可解釋性研究進(jìn)展[J].計(jì)算機(jī)研究與發(fā)展,2020,57(6):1208.

        (編輯:溫澤宇)

        收稿日期:2020-07-08

        基金項(xiàng)目:國(guó)家自然科學(xué)基金(61702140);黑龍江省留學(xué)歸國(guó)人員科學(xué)基金(LC2018030);黑龍江省普通高校基本科研業(yè)務(wù)費(fèi)專項(xiàng)資金資助(JMRH2018XM04).

        作者簡(jiǎn)介:孫廣路(1979-),男,博士,教授,博士研究生導(dǎo)師.

        通信作者:周炎龍(1996-),男,碩士研究生,E-mail:zy1279751705@163.com.

        猜你喜歡
        隨機(jī)森林特征選擇
        隨機(jī)森林在棉蚜蟲害等級(jí)預(yù)測(cè)中的應(yīng)用
        基于二次隨機(jī)森林的不平衡數(shù)據(jù)分類算法
        軟件(2016年7期)2017-02-07 15:54:01
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        拱壩變形監(jiān)測(cè)預(yù)報(bào)的隨機(jī)森林模型及應(yīng)用
        基于隨機(jī)森林算法的飛機(jī)發(fā)動(dòng)機(jī)故障診斷方法的研究
        基于GA和ELM的電能質(zhì)量擾動(dòng)識(shí)別特征選擇方法
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        基于特征選擇聚類方法的稀疏TSK模糊系統(tǒng)
        基于隨機(jī)森林算法的B2B客戶分級(jí)系統(tǒng)的設(shè)計(jì)
        基于多視角特征融合與隨機(jī)森林的蛋白質(zhì)結(jié)晶預(yù)測(cè)
        久久久久香蕉国产线看观看伊| 亚州精品无码人妻久久| 国产人成无码视频在线1000| 在线久草视频免费播放| 性欧美丰满熟妇xxxx性久久久| 国产最新进精品视频| 无码人妻一区二区三区免费手机| 亚洲国产黄色在线观看| av高清在线不卡直播| 男人j进女人j啪啪无遮挡| 久久精品伊人无码二区| 一级二级三一片内射视频| 欧美老妇牲交videos| 波多野结衣乳巨码无在线| 欧美三级超在线视频| 丝袜美腿亚洲综合一区| 真人抽搐一进一出视频| 亚洲av无码专区国产乱码不卡 | 久久精品亚洲国产av网站| 午夜性色一区二区三区不卡视频 | 成人av鲁丝片一区二区免费| 国产综合激情在线亚洲第一页| 女同成片av免费观看| 一区二区黄色在线观看| 日日婷婷夜日日天干| 国产免费av片在线观看播放| 国产网红一区二区三区| 国产精品美女久久久免费| 天天摸日日摸狠狠添| 99热在线播放精品6| 国产一区二区免费在线视频| 欧美老熟妇喷水| 欧美成人a在线网站| 欧亚精品无码永久免费视频| 日本视频在线播放一区二区| 色先锋av影音先锋在线| 日韩爱爱网站| 久久亚洲日本免费高清一区| 免费在线亚洲视频观看| 波多野42部无码喷潮在线| 91福利国产在线观看一区二区|