亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于非平衡問題的卷積神經(jīng)網(wǎng)絡(luò)分類模型

        2023-07-07 03:10:12矯桂娥張文俊陳一民
        關(guān)鍵詞:分類模型

        矯桂娥 徐 紅 張文俊 陳一民

        1(上海大學(xué)上海電影學(xué)院 上海 200072) 2(上海海洋大學(xué)信息學(xué)院 上海 201306) 3(上海建橋?qū)W院信息技術(shù)學(xué)院 上海 201306)

        0 引 言

        在現(xiàn)實(shí)生活中,數(shù)據(jù)集的分布都不是理想的均衡分布,更多的是呈現(xiàn)非平衡分布特性。非平衡問題是指在數(shù)據(jù)集中不同類別的數(shù)據(jù)分布差異較大,即存在樣本數(shù)量多的多數(shù)類以及樣本數(shù)量少的少數(shù)類。在分類任務(wù)中,傳統(tǒng)的分類學(xué)習(xí)器適合類別平衡分布的數(shù)據(jù)集,而對(duì)于存在非平衡問題的數(shù)據(jù)集,往往受多數(shù)類的影響而導(dǎo)致少數(shù)類分類出現(xiàn)錯(cuò)誤。但實(shí)際應(yīng)用中,少數(shù)類樣本的有效分類卻是極其重要的,比如銀行用戶詐騙檢測(cè)、醫(yī)療疾病診斷、客戶流失檢測(cè)、設(shè)備故障檢測(cè)等等[1-5]。因此,準(zhǔn)確地判別少數(shù)類是非平衡分類問題的一項(xiàng)重要研究?jī)?nèi)容,目前,研究學(xué)者對(duì)該類問題的解決方法主要集中在數(shù)據(jù)以及算法兩個(gè)層面。

        在數(shù)據(jù)層面上,需要對(duì)數(shù)據(jù)進(jìn)行初步的分析采樣,以達(dá)到數(shù)據(jù)分布平衡目的。但是這種簡(jiǎn)單的方式生成的新樣本具有很大的不確定性,生成的少數(shù)類樣本質(zhì)量不高,極易產(chǎn)生過擬合問題。為了解決這一問題,Devi等[6]提出了CorrOV-CSEn算法,將過采樣與集成算法AdaBoot相結(jié)合,欠采樣算法通過舍棄部分多數(shù)類樣本達(dá)到樣本類別平衡,而過采樣算法是依據(jù)某些規(guī)律增加少數(shù)類樣本以達(dá)到平衡不同類別,但效果欠佳。熊炫睿等[7]提出了SABER采樣算法,將簇內(nèi)樣本平均分類錯(cuò)誤率考慮到采樣算法中。Park等[8]采用融合過采樣與欠采樣的算法COUSS處理非平衡數(shù)據(jù)分類問題,但效果不理想。趙錦陽等[9]提出了SCSMOTE方法,通過在少數(shù)類樣本中選擇出合適的首選樣本,在樣本中心和候選樣本中間生成新樣本,克服了簡(jiǎn)單生成新樣本的缺陷,可以避免一定的過擬合,但是該方法合成的新樣本有一定的重復(fù)性,部分樣本會(huì)變成噪聲樣本。因此,有部分研究學(xué)者在此基礎(chǔ)上將SMOTE和欠采樣方法相結(jié)合,對(duì)少數(shù)類進(jìn)行SMOTE過采樣,在多數(shù)類中進(jìn)行隨機(jī)欠采樣,該方法不會(huì)過多地生成新的少數(shù)類樣本,從一定層面上降低了樣本噪聲的影響。于艷麗等[10]提出了基于異類k距離的邊界混合采樣算法BHSK,首先異類k距離識(shí)別邊界,再通過支持度將邊界數(shù)據(jù)細(xì)分,最后依次采樣。Li等[11]提出了根據(jù)損失值來確定可以參與訓(xùn)練的樣本的采樣方法,該方法對(duì)數(shù)據(jù)集中數(shù)據(jù)依據(jù)樣本損失值加權(quán),在抽樣操作中被選中的概率由樣本權(quán)重決定。以上這些方法都是在數(shù)據(jù)層面的調(diào)整,讓數(shù)據(jù)在輸入分類模型前就分布平衡,因此很多數(shù)據(jù)集的樣本分布規(guī)律與生成類過采樣算法生成樣本所依據(jù)的規(guī)律并不相關(guān),所以按照這種過采樣方法生成的樣本會(huì)有很大概率生成噪聲樣本,這樣的采樣方法非但起不到提高檢測(cè)少數(shù)類精確率的效果,還會(huì)對(duì)多數(shù)類的判別產(chǎn)生混淆影響,從而影響分類效果,并且降低多數(shù)類的正確率。

        卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)領(lǐng)域中最出色的網(wǎng)絡(luò)結(jié)構(gòu),應(yīng)用在計(jì)算機(jī)的各領(lǐng)域中,比如圖片分類[12]、目標(biāo)跟蹤[13]和自然語言[14]等方面,因此近年來非平衡問題的研究學(xué)者也采用卷積神經(jīng)網(wǎng)絡(luò)解決此類問題。卷積神經(jīng)網(wǎng)絡(luò)模型以損失函數(shù)最小為目標(biāo),所以在卷積神經(jīng)網(wǎng)絡(luò)處理非平衡數(shù)據(jù)分類問題時(shí),對(duì)于不同類別的數(shù)據(jù)賦予不同的損失權(quán)重,以此更新卷積神經(jīng)網(wǎng)絡(luò)的損失函數(shù),以達(dá)到損失函數(shù)最小化的目的。周麗娜等[15]使用卷積神經(jīng)網(wǎng)絡(luò)處理文本分類時(shí),采用特征融合結(jié)合交叉熵?fù)p失函數(shù);Niu等[16]提出了一種代價(jià)敏感重構(gòu)損失函數(shù),并對(duì)引入了正則項(xiàng);張士川等[17]采用代價(jià)敏感損失函數(shù)結(jié)合孿生網(wǎng)絡(luò)對(duì)暗星系進(jìn)行分類檢測(cè);Miao等[18]在軟件缺陷檢測(cè)中采用代價(jià)敏感函數(shù),對(duì)不同的樣本賦予不同的損失權(quán)重。以上是在算法層面對(duì)非平衡數(shù)據(jù)分類問題的研究,但是,上述數(shù)據(jù)預(yù)處理算法只是較為適應(yīng)數(shù)據(jù)集,并不能與分類模型更好地融合,損失函數(shù)也不能與采樣函數(shù)相結(jié)合發(fā)揮最佳的效果。為此我們提出了一種卷積神經(jīng)網(wǎng)絡(luò)分類模型CNN-EMWRA-WCELF(Convolutional Neural Network-Expectation Maximization Weighted Resampling Algorithm-Weight Cross Entropy Loss Function),模型中有兩個(gè)關(guān)鍵算法,其中EMWRA算法對(duì)數(shù)據(jù)集進(jìn)行采樣,該算法對(duì)EM算法進(jìn)行了改進(jìn)優(yōu)化,巧妙地將加權(quán)采樣算法融合進(jìn)了高斯混合模型中,通過本文所提的EMWRA算法對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,明顯降低了訓(xùn)練數(shù)據(jù)集的不平衡程度。由于EMWRA算法在對(duì)原始數(shù)據(jù)的選擇上更加注重少數(shù)類的分布特征,采樣高質(zhì)量的少數(shù)類新樣本,避免了生成大量噪聲樣本的弊端,使模型分類效果更好。另外,通過本文所提的WCELF函數(shù)根據(jù)訓(xùn)練樣本的分類結(jié)果和真實(shí)標(biāo)簽,反饋模型的損失,以此達(dá)到提升非平衡數(shù)據(jù)分類準(zhǔn)確率。CNN-EMWRA-WCELF模型解決了上述改進(jìn)的非平衡問題的采樣數(shù)據(jù)混淆模型分類等單一算法對(duì)非平衡問題的缺點(diǎn)和不足。

        1 本文算法

        本文中的分類模型采用的是卷積神經(jīng)網(wǎng)絡(luò)模型,在數(shù)據(jù)預(yù)處理階段提出將加權(quán)采樣算法融合進(jìn)高斯混合模型中,得到了一種新的EMWRA算法,綜合考慮了數(shù)據(jù)集中的樣本分布,對(duì)少數(shù)類樣本進(jìn)行更精確地過采樣,經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,損失函數(shù)WCELF作為衡量模型分類結(jié)果和真實(shí)標(biāo)簽的差異程度的目標(biāo)函數(shù),將根據(jù)模型對(duì)輸出的分類結(jié)果賦予樣本相應(yīng)的權(quán)重?fù)p失并反饋給模型,模型依據(jù)損失函數(shù)進(jìn)行下一輪的訓(xùn)練,以此逐步提高模型對(duì)于非平衡數(shù)據(jù)的分類準(zhǔn)確性。

        CNN-EMWRA-WCELF模型如圖1所示:對(duì)非平衡數(shù)據(jù)的分類,本文用到的是卷積神經(jīng)網(wǎng)絡(luò)模型,在數(shù)據(jù)預(yù)處理階段,EMWRA算法將數(shù)據(jù)按照其整體分布劃分為小的高斯混合分類簇,并按照每個(gè)簇中的樣本分布進(jìn)行加權(quán)采樣,將各分類簇中的采樣集傳入卷積神經(jīng)網(wǎng)絡(luò)分類模型中進(jìn)行分類訓(xùn)練,再根據(jù)分類結(jié)果依照真實(shí)分類結(jié)果計(jì)算損失函數(shù),最后將結(jié)果反饋到卷積神經(jīng)網(wǎng)絡(luò)中,并以此修改EMWRA采樣結(jié)果。

        圖1 CNN-EMWRA-WCELF模型示意圖

        本文的EMWRA-WCELF算法的流程如圖2所示??梢钥闯?EMWRA-WCELF具體包括:在訓(xùn)練的初始輸入數(shù)據(jù)集;設(shè)定模型訓(xùn)練采樣集的大小;高斯混合模型對(duì)數(shù)據(jù)集進(jìn)行初步分類;根據(jù)高斯混合模型原理,通過EM算法求得最佳高斯混合模型的參數(shù),進(jìn)而得到最佳高斯混合簇;在對(duì)每個(gè)混合簇進(jìn)行采樣的過程中,會(huì)判斷簇中的樣本分布是否平衡,對(duì)樣本分布不同的混合簇,有不同的采樣方式;在完成對(duì)每個(gè)混合簇的采樣后,將所有的采樣結(jié)果匯聚到采樣集中,分類模型對(duì)最終的采樣集進(jìn)行學(xué)習(xí)訓(xùn)練;WCELF函數(shù)根據(jù)模型分類結(jié)果和樣本真實(shí)標(biāo)簽,計(jì)算損失函數(shù),并反饋給分類模型;如果損失函數(shù)上升或者達(dá)到了模型訓(xùn)練的最好結(jié)果,訓(xùn)練就會(huì)停止,將模型的訓(xùn)練參數(shù)保存。

        圖2 EMWRA-WCELF算法流程

        1.1 EMWRA

        1.1.1 高斯混合模型及核心算法

        高斯混合模型[19]是一種概率密度聚類算法,在預(yù)測(cè)數(shù)據(jù)分布概率方面有較好的分類效果。高斯混合模型對(duì)整個(gè)數(shù)據(jù)集的擬合能力主要依賴于它的構(gòu)成,高斯混合模型是由多個(gè)高斯單模型組成,這一特性可以較好地?cái)M合實(shí)際中的數(shù)據(jù)集,其核心算法是EM算法。EM算法是一類通過迭代進(jìn)行最大似然估計(jì)的優(yōu)化算法,可以有效地避免數(shù)據(jù)中的噪聲和混合成分所帶來的局限性。

        因?yàn)楦咚够旌夏P偷膶?duì)數(shù)據(jù)集的整體分布的概括能力,所以我們?cè)诓蓸拥某跏茧A段,用它擬合數(shù)據(jù)集。設(shè)數(shù)據(jù)集X為n維數(shù)據(jù),服從高斯分布,其概率密度函數(shù)可表示為:

        (1)

        式中:μ為數(shù)據(jù)均值,Σ為n×n協(xié)方差矩陣,由此可以將其記錄為P(x|μ,Σ)。

        (2)

        1.1.2EM算法改進(jìn)提升EMWRA

        我們?cè)诟咚够旌夏P秃诵乃惴‥M基礎(chǔ)上對(duì)其進(jìn)行了改進(jìn),得到了一種新的算法EMWRA。

        在高斯混合模型中,根據(jù)數(shù)據(jù)的先驗(yàn)分布α1,α2,…,αk采樣混合樣本,我們將混合系數(shù)αi表示為采樣自第i個(gè)高斯混合成分的概率,采樣數(shù)據(jù)集D={d1,d2,…,dn}為在高斯混合模型中采樣產(chǎn)生的數(shù)據(jù)集,設(shè)φj∈{1,2,…,k}表示高斯混合簇di的隨機(jī)變量,其先驗(yàn)概率為P(φj=i)=αi,φj的后驗(yàn)概率根據(jù)貝葉斯公式為:

        (3)

        根據(jù)式(2),式(3)可表示為:

        (4)

        (5)

        (6)

        (7)

        高斯混合算法是高斯混合模型的一種迭代算法,它是根據(jù)每個(gè)樣本點(diǎn)的概率分布對(duì)其進(jìn)行劃分,不同于傳統(tǒng)的聚類算法根據(jù)距離等因素對(duì)數(shù)據(jù)進(jìn)行類,EM算法是依據(jù)它們歸屬于哪一類而進(jìn)行劃分,所以這種分類策略更適應(yīng)于復(fù)雜數(shù)據(jù)。

        傳統(tǒng)加權(quán)采樣方法是從m個(gè)樣本集中依據(jù)樣本權(quán)重選擇s個(gè)樣本,每個(gè)樣本被選中的概率由其相對(duì)權(quán)重決定,樣本ζ被選中的概率如式(8)所示。

        (8)

        EMWRA在數(shù)據(jù)預(yù)處理階段,高斯混合模型將數(shù)據(jù)集劃分為一些簇,每個(gè)高斯混合分類簇中的數(shù)據(jù)是不同的。在劃分結(jié)果中數(shù)據(jù)可能服從于不同的高斯分布,在每個(gè)簇中各類樣本的概率分布確定多數(shù)類和少數(shù)類的交叉情況。

        在高斯混合分類簇中,少數(shù)類樣本的均值μs和多數(shù)類樣本的均值μd,數(shù)據(jù)量Q=QS+Qd,樣本集的類別分布比例可表示為β=QS/Q。令βi=Qis/Qi,其中i表示是第i個(gè)高斯分類簇,i={1,2,…,k}。Qis表示該混合簇中的少數(shù)類樣本數(shù)據(jù)量,βi表示高斯混合簇中的非平衡樣本比例。

        符合情況(2)和(3)的混合簇的樣本采樣概率計(jì)算如式(9)所示。

        (9)

        每個(gè)混合簇采樣數(shù)量由混合系數(shù)αi確定,數(shù)據(jù)分布不平衡的混合簇中,簇中的少數(shù)類樣本會(huì)依據(jù)其權(quán)重進(jìn)行采樣。

        這樣可以根據(jù)數(shù)據(jù)集的整體概率分布,劃分出最佳的簇,其中根據(jù)αi可以得出整個(gè)數(shù)據(jù)的分布,αi為整個(gè)高斯過程的權(quán)重,它的大小體現(xiàn)了樣本集中的大多數(shù)數(shù)據(jù)的分布范圍,可以更加全面地統(tǒng)計(jì)樣本信息。EMWRA有效避免了對(duì)少數(shù)類樣本進(jìn)行采樣而產(chǎn)生的噪聲樣本,有效提高了模型對(duì)非平衡數(shù)據(jù)集的分類準(zhǔn)確度。

        1.2 WCELF函數(shù)

        為提升卷積神經(jīng)網(wǎng)絡(luò)對(duì)非平衡數(shù)據(jù)集的分類性能,在模型的訓(xùn)練過程中,能夠根據(jù)預(yù)測(cè)結(jié)果與真實(shí)標(biāo)簽的差距,得到最佳的模型損失函數(shù),本文提出了一種基于權(quán)重交叉熵?fù)p失WCELF函數(shù),該損失函數(shù)是描述模型分類結(jié)果與真實(shí)樣本標(biāo)簽差距的函數(shù)。在二分類任務(wù)中,最常用的損失函數(shù)是交叉熵?fù)p失函數(shù),但是在非平衡分類任務(wù)中,該損失函數(shù)的效果難以達(dá)到最好。因此,我們針對(duì)非平衡問題提出了結(jié)合樣本權(quán)重的損失函數(shù)WCELF。

        交叉熵?fù)p失函數(shù)[20]一般通用的公式如式(10)所示。

        (10)

        這里的tθ是樣本的真實(shí)類別,yθ是模型的預(yù)測(cè)結(jié)果,交叉熵?fù)p失函數(shù)的大小表示兩者的差距。當(dāng)模型預(yù)測(cè)值與真實(shí)值越接近時(shí),它對(duì)應(yīng)的損失值就越小,分類模型的損失也就越大,值得注意的是,這種損失值的增大是非線性的,由其自身log函數(shù)的特性呈現(xiàn)指數(shù)增長(zhǎng)。

        δi=log1.1βi

        (11)

        式中:βi表示的是樣本所在高斯混合簇中的樣本分布,在這里i={1,2,…,k}。當(dāng)該log函數(shù)的自變量大于1時(shí),保證了少數(shù)類別的權(quán)重不過高導(dǎo)致模型分類失衡。

        添加了權(quán)重的交叉熵?fù)p失函數(shù)如下:

        (12)

        WCELF函數(shù)根據(jù)非平衡數(shù)據(jù)集的高斯混合簇中的數(shù)據(jù)分布情況,自適應(yīng)更新每個(gè)高斯混合簇中的樣本損失權(quán)重。該損失函數(shù)在計(jì)算訓(xùn)練樣本的網(wǎng)絡(luò)輸出值與樣本真實(shí)標(biāo)簽的同時(shí),考慮樣本所在的高斯混合簇,易分類的多數(shù)類樣本的預(yù)測(cè)值yp→1,1-yp→0,如此,分類模型的Lwce→0,這確保了多數(shù)類的損失相對(duì)較少。但是對(duì)于部分非正常非平衡高斯混合簇,該簇中的少數(shù)類為原始數(shù)據(jù)集中的多數(shù)類,所以該損失函數(shù)中δζ會(huì)對(duì)該高斯混合簇中的多數(shù)類賦予一定的代價(jià)損失。然而,對(duì)于少數(shù)類樣本預(yù)測(cè)值yp→0,1-yp→1,且該損失函數(shù)考慮到了高斯混合簇中的樣本分布δζ,結(jié)合EMWRA合理地增加了少數(shù)類的代價(jià)損失,對(duì)非平衡數(shù)據(jù)分類有積極的影響,但是在提升模型對(duì)少數(shù)類樣本分類精確度的同時(shí),沒有降低對(duì)多數(shù)類數(shù)據(jù)的分類效果。

        損失權(quán)重的計(jì)算會(huì)根據(jù)采樣值的不同進(jìn)行自適應(yīng)更改,根據(jù)不同分類簇中的不同樣本采樣權(quán)重,給予不同的損失權(quán)重。在此過程中對(duì)于部分在高斯混合簇中的非正常不平衡數(shù)據(jù)集中的多數(shù)類,實(shí)行同樣的少數(shù)類損失權(quán)重。該損失函數(shù)很好地避免了分類模型在平衡少數(shù)類樣本時(shí),忽略部分易錯(cuò)多數(shù)類樣本的情況,可以更進(jìn)一步提升分類模型的準(zhǔn)確率。

        對(duì)該損失函數(shù)進(jìn)行求導(dǎo)可得:

        (13)

        初始化神經(jīng)網(wǎng)絡(luò)模型,按照訓(xùn)練epoch訓(xùn)練數(shù)據(jù)集,根據(jù)輸出結(jié)果統(tǒng)計(jì)樣本分類正確率,依照類別權(quán)重分別賦予不同樣本損失,將損失函數(shù)反饋到分類模型中,模型按照式(13)更新得到最佳參數(shù),從而逐步提高分類準(zhǔn)確率,最終得到一個(gè)最優(yōu)結(jié)果。

        2 實(shí)驗(yàn)結(jié)果與分析

        2.1 實(shí)驗(yàn)數(shù)據(jù)集

        本文使用kaggle競(jìng)賽數(shù)據(jù)集churn(電信用戶流失數(shù)據(jù))和Model_churning(銀行客戶流失數(shù)據(jù))進(jìn)行實(shí)驗(yàn),數(shù)據(jù)集對(duì)客戶是否留存進(jìn)行了分類,這兩個(gè)數(shù)據(jù)集屬于典型的非平衡問題的數(shù)據(jù)集。

        2.2 評(píng)價(jià)指標(biāo)

        為更好地處理非平衡數(shù)據(jù)的分類問題,更全面地衡量模型的分類性能,評(píng)價(jià)標(biāo)準(zhǔn)既要保證分類的準(zhǔn)確率也要保證少數(shù)類分類的正確性。本文采用混淆矩陣的三級(jí)指標(biāo)F1調(diào)和平均值和G-mean這兩個(gè)評(píng)價(jià)標(biāo)準(zhǔn)對(duì)模型進(jìn)行評(píng)估,F1的值可以從整體上反映分類的性能,G-mean是用于衡量非平衡數(shù)據(jù)分類效果的指標(biāo)。

        2.3 實(shí)驗(yàn)過程

        本文采用PyTorch深度學(xué)習(xí)框架,搭建卷積神經(jīng)網(wǎng)絡(luò)分類學(xué)習(xí)模型,為降低模型的分類過擬合,在模型訓(xùn)練過程中相對(duì)應(yīng)添加了dropout層,參數(shù)為0.5,訓(xùn)練集、驗(yàn)證機(jī)與測(cè)試集的比例為8∶1∶1,batch_size設(shè)置為512。

        2.4 實(shí)驗(yàn)結(jié)果分析

        CNN-EMWRA-WCELF卷積神經(jīng)網(wǎng)絡(luò)模型的分類結(jié)果主要是和整體分類模型的數(shù)據(jù)分類結(jié)果作比較,其中集成學(xué)習(xí)方法是對(duì)結(jié)構(gòu)化數(shù)據(jù)較為常用的方法,在過往許多kaggle數(shù)據(jù)比賽成果中,獲勝方法都會(huì)用到集成學(xué)習(xí)算法。編碼方案采用的是one-hot編碼,本文通過競(jìng)賽數(shù)據(jù)集來驗(yàn)證本文提出的卷積神經(jīng)網(wǎng)絡(luò)模型CNN-EMWRA-WCELF的分類性能。

        在churn和Model_churning兩個(gè)數(shù)據(jù)集上,本文對(duì)加權(quán)損失函數(shù)和卷積神經(jīng)網(wǎng)絡(luò)在非平衡數(shù)據(jù)的處理做了對(duì)比實(shí)驗(yàn)。

        損失函數(shù)比較結(jié)果如圖3所示,實(shí)線表示交叉熵?fù)p失函數(shù),虛線表示W(wǎng)CELF損失函數(shù)。損失函數(shù)總體都在下降,在銀行客戶分類中損失函數(shù)的差別更為明顯,相差在0.2左右。由此可見對(duì)損失函數(shù)添加類別權(quán)重能夠很好地降低模型損失,提升模型的分類性能。

        圖3 損失函數(shù)對(duì)比

        本文的對(duì)照模型是參照文獻(xiàn)[7]中的SABER采樣算法,分別結(jié)合邏輯回歸、隨機(jī)森林,還有集成學(xué)習(xí)分類模型XGBoost,如LRSABER(邏輯回歸SABER分類模型)、RFSABER(隨機(jī)森林SABER分類模型)、SVMSABER(支持向量機(jī)SABER分類模型)、XGBoostSABER(XGBoostSABER分類模型),文獻(xiàn)[8]中COUSS采樣算法LRCOUSS(邏輯回歸COUSS分類模型)、SVMCOUSS(支持向量機(jī)COUSS分類模型)等。以上模型都是經(jīng)典的分類模型,應(yīng)用范圍較廣,其中XGBoost模型采用了集成學(xué)習(xí)思想,這種集弱學(xué)習(xí)器之長(zhǎng)處成強(qiáng)學(xué)習(xí)器的思想應(yīng)用在很多數(shù)據(jù)分析競(jìng)賽中,分類效果很好。為體現(xiàn)本文所提算法對(duì)神經(jīng)網(wǎng)絡(luò)分類性能有所提升,所以本文設(shè)置了對(duì)卷積網(wǎng)絡(luò)的對(duì)比,首先對(duì)比的是在兩個(gè)數(shù)據(jù)集上采樣算法在分類指標(biāo)F1和G-mean上的表現(xiàn),其中CNNSABER(卷積神經(jīng)網(wǎng)絡(luò)SABER分類模型)、CNNCOUSS(卷積神經(jīng)網(wǎng)絡(luò)COUSS分類模型)和CNNAdaptive-SMOTE(卷積神經(jīng)網(wǎng)絡(luò)Adaptive-SMOTE分類模型)是卷積神經(jīng)網(wǎng)絡(luò)結(jié)合各采樣算法的分類模型。表1是上述各分類模型與各采樣算法在churn數(shù)據(jù)集上的分類效果對(duì)比。其中CNN-EMWRA-WCELF是本文所提的分類模型。

        表1 在數(shù)據(jù)集churn上實(shí)驗(yàn)結(jié)果

        表1中的結(jié)果顯示了在邏輯回歸、支持向量機(jī)等傳統(tǒng)機(jī)器分類模型和卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)合了SABER和COUSS等采樣算法在kaggle電信客戶分類數(shù)據(jù)集上的分類效果??梢缘贸鲈贔1調(diào)和平均值和G-mean值兩個(gè)評(píng)測(cè)指標(biāo)中,卷積神經(jīng)網(wǎng)絡(luò)模型的分類性能相比較傳統(tǒng)機(jī)器學(xué)習(xí)分類模型有約2%~4%的提升,這個(gè)對(duì)比結(jié)果表明因其高效的特征提取能力,卷積神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)挖掘和數(shù)據(jù)分析領(lǐng)域更有優(yōu)勢(shì)。在對(duì)比采樣算法在卷積神經(jīng)網(wǎng)絡(luò)模型上的分類效果的三組對(duì)比實(shí)驗(yàn)中,本文所提采樣算法EMWRA讓卷積神經(jīng)網(wǎng)絡(luò)的分類性能在此基礎(chǔ)上又提升了近2%,由這個(gè)對(duì)比結(jié)果可以得出,我們提出的分類模型CNN-EMWRA-WCELF在非平衡數(shù)據(jù)集中的表現(xiàn)比結(jié)合SABER和COUSS等采樣算法的分類模型更好。

        如表2所示,在銀行客戶數(shù)據(jù)集中的結(jié)果分析與比較中可以發(fā)現(xiàn),卷積神經(jīng)網(wǎng)絡(luò)模型的分類評(píng)價(jià)指標(biāo)較傳統(tǒng)機(jī)器學(xué)習(xí)如支持向量機(jī)等有4%~15%的效果提升,本文的采樣算法使得卷積神經(jīng)網(wǎng)絡(luò)在評(píng)價(jià)指標(biāo)F1和G-mean上提升近2%。而且僅對(duì)比卷積神經(jīng)網(wǎng)絡(luò)的實(shí)驗(yàn)結(jié)果也可以看出,簡(jiǎn)單生成少數(shù)類的采樣方法算法會(huì)產(chǎn)生一些噪聲樣本,降低模型的分類性能。簡(jiǎn)單來說,相較于XGBoost等集成分類模型,卷積神經(jīng)網(wǎng)絡(luò)模型效果更好一些,而采樣算法EMWRA讓卷積神經(jīng)網(wǎng)絡(luò)的分類性能又提升了2%,在該數(shù)據(jù)集上CNN-EMWRA-WCELF分類模型的優(yōu)勢(shì)更為明顯。

        表2 在數(shù)據(jù)集Model_churning上實(shí)驗(yàn)對(duì)比

        3 結(jié) 論

        在非平衡分類問題的研究中,本文提出的CNN-EMWRA-WCELF分類模型,其中EMWRA是結(jié)合高斯混合模型和加權(quán)采樣的采樣方法,該采樣算法可以很好地處理樣本空間類別重疊的數(shù)據(jù)集,提升了采樣的少數(shù)類樣本的質(zhì)量,除此之外還對(duì)數(shù)據(jù)集進(jìn)行加權(quán)采樣,使采樣集內(nèi)數(shù)據(jù)達(dá)到類別分布平衡;損失函數(shù)WCELF作為衡量模型分類結(jié)果和真實(shí)標(biāo)簽的差異程度的目標(biāo)函數(shù),將根據(jù)模型對(duì)輸出的分類結(jié)果賦予樣本相應(yīng)的權(quán)重?fù)p失并反饋給模型,模型依據(jù)損失函數(shù)進(jìn)行下一輪的訓(xùn)練,由此可不斷提高模型對(duì)于非平衡數(shù)據(jù)的分類準(zhǔn)確性。從本文的實(shí)驗(yàn)結(jié)果來看,卷積神經(jīng)網(wǎng)絡(luò)在非平衡數(shù)據(jù)問題中有著出色的表現(xiàn),這也驗(yàn)證了近年來研究學(xué)者將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到非平衡問題中的正確性。除此之外,本文提出的模型整體效果也比其他模型好很多。后續(xù)的工作是研究多分類的非平衡分類問題,為處理現(xiàn)實(shí)生活中的更多實(shí)際問題做出貢獻(xiàn)。

        猜你喜歡
        分類模型
        一半模型
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        欧美丝袜激情办公室在线观看| 国产一区二区三区仙踪林| 国产欧美综合一区二区三区| 国产女人高潮叫床免费视频| 国产精品麻豆综合在线| 久久久精品国产亚洲麻色欲| 国产高清人肉av在线一区二区| 中文字幕av高清人妻| 精品久久久久久无码中文字幕| 欧美日韩视频无码一区二区三| 日本一区不卡在线| 人妻少妇精品一区二区三区| av中文字幕在线直播| 亚洲 欧美 国产 制服 动漫| 欧美丰满熟妇乱xxxxx图片| 国产一线视频在线观看高清| 男人天堂插插综合搜索| 中文字幕亚洲精品无码| 色婷婷日日躁夜夜躁| 国产高清一区在线观看| 二区免费在线视频观看| 我把护士日出水了视频90分钟| 国产成人精品一区二区视频| 无码伊人久久大杳蕉中文无码 | 国产成人无码a在线观看不卡| 狠狠色婷婷久久综合频道日韩| 久久精品国产亚洲av高清漫画| 久久狠狠高潮亚洲精品暴力打| 性色av成人精品久久| 偷拍美女上厕所一区二区三区| 成人一区二区免费中文字幕视频| 成人三级a视频在线观看| 五月婷婷激情六月| 亚洲av毛片在线播放| 成视频年人黄网站免费视频| 免费人成再在线观看网站| 亚洲国产精品免费一区| 高级会所技师自拍视频在线| 海角国精产品一区一区三区糖心 | 久久www免费人成人片| 免费黄色福利|