亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于某組合模型的不平衡數(shù)據(jù)分類算法研究

        2022-06-14 10:05:48龔曉峰
        計算機仿真 2022年5期
        關鍵詞:編碼器權值分類器

        李 斌,龔曉峰

        (四川大學電氣工程學院,四川 成都 610065)

        1 引言

        數(shù)據(jù)不平衡,即其中一類樣本的數(shù)目遠遠小于另一類,而往往少數(shù)類樣本會蘊藏更有價值的信息,因此具有更高的錯分代價。不平衡分類問題廣泛存在于社會生產(chǎn)中,如財務欺詐[1],腫瘤識別[2],軟件漏洞查找[3]。除了數(shù)據(jù)樣本量的差別,不平衡數(shù)據(jù)經(jīng)常存在特征空間重疊,樣本分布不明顯等問題,影響分類結果。

        目前的研究主要從數(shù)據(jù)重采樣和改進分類算法兩方面解決問題。在數(shù)據(jù)處理層面,主要分為欠采樣和過采樣。Chawla等人[4]提出的 SMOTE算法通過分析少數(shù)類樣本特征空間,生成與少數(shù)類樣本相似的樣本來使數(shù)據(jù)集平衡。由于SMOTE算法在合成少數(shù)類樣本的隨機性過大問題,Torres提出了SMOTE-D[5]。針對欠采樣容易造成多數(shù)類樣本丟失的缺點,學者先后提出了鄰域清理法[6],基于聚類的欠采樣方法[7]。

        分類算法主要根據(jù)傳統(tǒng)分類算法對不平衡數(shù)據(jù)的缺陷進行相應的改進,如單類學習中的單類支持向量機[8],引入敏感因子的代價敏感決策樹[9]。集成學習是解決不平衡問題的常用算法,通過訓練多個不同的基分類器,并將其分類結果按一定方式集成,從而提升單個分類器的性能[10]。集成學習算法分為Bagging和Boosting,常見的Boosting算法如XGBoost,Adaboost,GBDT[11],常見的Bagging算法如隨機森林[12]。學者將數(shù)據(jù)采樣技術與集成學習結合,相繼提出了SMOTEBoost[13],RUSBoost[14],RHSBoost[15]去處理不平衡問題。

        文獻[16]提出了結合隨機子空間和SMTOTE過采樣技術的AdaBoostRs來增加分類樣本的多樣性和降低數(shù)據(jù)維度;文獻[17]借鑒了Focal loss的基本思想提出了根據(jù)基分類器預測結果直接優(yōu)化權重更新策略的FocalBoost。以上所列算法雖然取得了良好的識別效果,但是在某些極端條件下,如少數(shù)類樣本極端少和分布不連續(xù),很難反映數(shù)據(jù)真實的分布特性,造成算法分類誤差較大;在處理高維特征數(shù)據(jù)時很難學習到潛在的最優(yōu)特征表達,具有一定的局限性。

        針對上述問題,本文在結合了集成學習和特征學習思想的基礎上,提出了一種新的不平衡分類算法Bagging-RUSBoost。該算法對經(jīng)典RUSBoost模型的樣本權重更新方式進行了改進,提高少數(shù)類樣本的錯分代價;引入了散度自編碼器進行隱含特征提取,將高維特征進行降維處理,使兩類特征差異最大化,提高模型的特征學習能力;采用Bagging對RUSBoost子模型進行了加權集成,解決了單分類器泛化能力差的問題。實驗結果證明相較于其它集成領域的模型,本文算法有效提高了精度,在面對高維的非平衡樣本時具有更強的魯棒性。

        2 Bagging-RUSBoost算法簡介

        2.1 改進的RUSBoost模型

        RUSBoost模型是在AdaBoost理論基礎上融入隨機欠采樣技術的不平衡數(shù)據(jù)分類模型,是由多個弱分類器組合為強分類器的算法。但是在面對極端不平衡數(shù)據(jù)時,仍存在一些不足和改進的地方。主要分為兩點:在權重更新時,所有樣本錯分的權值變化是相同的,這樣容易造成不公平的權值分配,在兩類樣本相差懸殊時,少數(shù)類應當具有更高的錯分代價;在基分類器訓練階段,樣本權重變化主要依賴于上一輪訓練的結果,然而這樣的權值分配方式過于片面,例如前t次迭代某一樣本x全部分類正確,樣本y全部分類錯誤,第t+1次x,y均分類錯誤,那么其權值是變化相同的,這樣是不公平的,y理應獲得更高的權值分配,參考前t次的分類結果進行權值更新更為客觀,使樣本訓練更為均衡。

        設訓練的不平衡數(shù)據(jù)集S為{(x1,y1),(x2,y2),…(xm,ym)},其中xi表示樣本的特征向量,yi∈{-1,1}表示樣本標簽,樣本權值分布為Dt={w1,w2,…wm}。t表示迭代次數(shù),ht(xi)表示弱分類器。

        2)Fort=1,2,…T

        a.使用隨機欠采樣技術創(chuàng)建臨時的訓練集St,并產(chǎn)生其對應的權值分布Dt

        b.將生成的訓練集St,去訓練第t次迭代生成的弱分類器ht

        c.返回預測模型ht

        d.計算第t次訓練的分類錯誤率εt,εt為在訓練集St所有樣本構成的分布Λt下預測錯誤的概率之和,I為弱分類器的概率輸出。如果εt>0.5,則返回b步驟重新訓練弱分類器

        (1)

        e.計算樣本的權值更新參數(shù)αt,即弱分類器的權重

        (2)

        f.更新樣本權值,Dt+1(i)表示第i個樣本在第t+1輪訓練的權值,原始算法為

        (3)

        Zt表示對所有樣本權重的歸一化函數(shù)。

        針對原更新方式的不足,本文提出了一種新的更新模式。原始算法中樣本權重更新只依賴于上一輪的訓練結果,本算法改為以加權歷史迭代結果對樣本權重進行更新。樣本i在前t次的迭代,即前t個弱分類器訓練的中加權分類正確率βt

        (4)

        設λ為敏感因子,對少數(shù)類作特殊標記,提高每次迭代時少數(shù)類樣本的錯分代價,使其在下次更新時具有更高的選中率。一般取[0.1,0.2]

        (5)

        則第t+1次的樣本權值為

        (6)

        歸一化因子公式如下

        (7)

        3) 輸出的T個弱分類器組合模型RUSBoost

        (8)

        最終算法會以sign[HT(x)]輸出樣本所屬類別。如果sign[HT(x)]>0,則輸出1,反之則輸出-1。

        2.2 基于散度自編碼器的隱含特征提取

        樣本不平衡問題,除了樣本數(shù)量的失衡,往往伴隨著特征空間重疊、樣本特征不明顯等問題,會導致數(shù)據(jù)特征屬性分布的失衡,尤其在遭遇高維不平衡特征時,其少數(shù)類樣本分布更加稀疏,關鍵的樣本特征很難得到表達,因此容易導致分類器的性能降低,甚至造成維度災難等情況。

        針對以上情況,本文從特征學習角度出發(fā),提出了一種基于自編碼器的特征提取方法, 在自編碼器架構的基礎上,在其瓶頸層,引入一層KL散度激勵函數(shù),和重構損失函數(shù)構成了雙目標訓練的模型,結構圖如下:

        圖1 散度自編碼器的結構

        重構損失采用交叉熵損失函數(shù)來評價重構特征相對于原始特征的損失,KL散度激勵函數(shù)用于將瓶頸層的壓縮特征差異最大化。

        編碼階段為對原始特征進行逐層抽象的過程,x為輸入的原始特征

        z=fθ(x)=σ(wx+b)

        (9)

        z為隱含層的抽象特征,θ={w,b}分別為編碼層權值參數(shù)和偏置參數(shù),σ為非線性激活函數(shù),一般采用Sigmoid函數(shù)。

        (10)

        輸入到瓶頸層的特征,會進一步降維。輸入自編碼器的多數(shù)類樣本數(shù)目為m1,少數(shù)類為n1,因為樣本是不平衡的,在瓶頸層會在多數(shù)類樣本中抽樣,生成m1/n1個平衡的樣本矩陣。zM和zN分別代表多數(shù)類樣本和少數(shù)類樣本,在瓶頸層迭代m1/n1次后結束。KL散度本質(zhì)是對兩類數(shù)據(jù)分布差異的評估,在KL散度的激勵下,模型同時學習兩類樣本的特征,兩類特征會朝著樣本差異最大化的方向訓練,最終生成分布差異更加鮮明的抽象特征,公式如式(11)

        (11)

        解碼階段即反編碼階段,將瓶頸層的抽象特征z重構為原始輸入

        y=gθ′(z)=σ′(w′z+b′)

        (12)

        y為輸出特征,θ′={w′,b′}為解碼層的權值參數(shù)和偏置參數(shù),σ為非線性激活函數(shù)。

        重構損失函數(shù)即交叉熵損失,并采用了L2正則化作為懲罰項,防止過擬合。

        如下

        (13)

        最小化交叉損失熵來調(diào)整網(wǎng)絡內(nèi)部的權值參數(shù)θ,θ′,即優(yōu)化目標為

        (14)

        采用隨機梯度下降的方式對自編碼器參數(shù)進行優(yōu)化,如下式

        (15)

        (16)

        2.3 改進的加權Bagging組合模型

        Bagging作為一種典型的集成學習算法,在原始樣本中隨機采樣,對多個獨立的弱分類器進行平行訓練,然后利用子學習器的投票機制選出最終的結果。

        結合2.2節(jié)的特征提取方法,將RUSBoost作為基分類器,利用Bagging思想對分類器進行集成。散度自編碼器的特征在瓶頸層提取后,作為基分類器的訓練集。

        多數(shù)類樣本數(shù)量為m,少數(shù)類樣本數(shù)量為n,基分類器數(shù)目為k。在自編碼特征訓練過程中,盡可能保留少數(shù)類的特征,避免自編碼器模型偏向于多數(shù)類。少數(shù)類樣本抽樣數(shù)目固定為n,多數(shù)類樣本每次抽樣2*m/k,生成數(shù)據(jù)集輸入到散度自編碼器訓練。這樣最大限度保證了自編碼器能充分學習到少數(shù)類樣本的特性的同時,也盡量保留了多數(shù)類的特征信息。這樣反復有放回抽取k次,分別輸入k個基分類器進行訓練。

        Bagging算法一般采用簡單多數(shù)投票策略,然而沒有考慮到各個基分類器分類性能的差異,不平衡樣本很容易造成在Bagging隨機抽樣的過程中數(shù)據(jù)集出現(xiàn)一定的差異,因此需要綜合各分類器的性能進行加權處理。

        本文以多數(shù)類和少數(shù)類召回率作為分類器性能的評價指標,召回率高的分類器即給與較高的權值,最后綜合基分類器給出加權投票結果。相對于原始投票法的硬閾值組合,最終輸出了一個加權投票概率,降低了單一分類器隨機性的影響。

        ri表示單個基分類器的召回率,取兩類召回率的均值,TPR和TNR分別表示少數(shù)類和多數(shù)類的召回率

        (17)

        即每個模型的分配權值ηi為

        (18)

        RUSBoost子分類器Hi(x)∈{-1,1},1代表少數(shù)類樣本,-1代表多數(shù)類樣本,Bagging加權組合后的分類器模型為

        (19)

        最終的分類結果Result為

        (20)

        δ為分類閾值,大于閾值會被歸類到少數(shù)類。δ并不是一個定值,取值范圍一般在(-1,1),可以通過交叉驗證對閾值進行微調(diào)以達到較好的處理效果。關于δ取值的進一步討論在第3章闡述。算法流程如圖2所示。

        圖2 Bagging-RUSBoost分類算法流程圖

        3 實驗結果與分析

        為了驗證本文所提算法的先進性,本文選取了UCI數(shù)據(jù)集和Fashion_MNIST進行實驗,選取了XGBoost,RUSBoost,AdaBoostRs[16](結合隨機子空間和SMOTE過采樣),F(xiàn)ocalBoost[17](利用Focalloss優(yōu)化權值更新)四種模型作為對照。對召回率、F1score、G-mean、Auc等性能指標進行了比較,并討論了閾值對模型的影響。

        3.1 評價指標

        本文選取了不平衡分類常用的幾種評價指標,混淆矩陣如表1,召回率為樣本正確被分類的比例,TPR和TNR分別表示少數(shù)類和多數(shù)類召回率

        表1 淆矩陣

        (21)

        TPV和TNV分別表示陽性精確率和陰性精確率

        (22)

        F1score是衡量精確率和召回率的分類指標

        (23)

        G-mean是衡量分類器識別多數(shù)類和少數(shù)類精度的幾何平均值

        (24)

        Auc是其對應的Roc曲線的面積,能很好度量分類器在面對不平衡數(shù)據(jù)的分類性能。

        3.2 UCI實驗

        Bioassay是UCI的一個不平衡數(shù)據(jù)集,包含21個生物測定數(shù)據(jù)集,本文選取其中的AID362red,AID1608red兩個特征維度較高的數(shù)據(jù)集進行實驗,其具體信息如下:

        表2 UCI數(shù)據(jù)集信息

        在處理非圖片數(shù)據(jù)時,自編碼器采用全連接即可,在瓶頸層提取到最優(yōu)的特征表達去訓練RUSBoost分類器,這里采用十折交叉驗證去得到最優(yōu)的性能指標,閾值選取0.1,基分類器數(shù)目為10,單個分類器的敏感因子取0.2,實驗結果如表3和表4。

        表3 AID362red的五種性能指標對比結果

        表4 AID1608red的五種性能指標對比結果

        由表3和表4可知,新模型的多數(shù)類召回率與AdaBoostRS和FocalBoost相差不大,而在不平衡分類中也更關注少數(shù)類的分類指標。新模型在少數(shù)類召回率更有優(yōu)勢,分別達到0.833和0.846。其余三種指標也優(yōu)于對比模型,AUC分別達到了0.886和0.917,尤其在與單一RUSBoost模型的比較占據(jù)了全面優(yōu)勢,證明本模型在不平衡數(shù)據(jù)下是有明顯進步的,改進的加權Bagging是有效的。

        3.3 Fashion_MNIST實驗

        新模型在面對UCI的數(shù)據(jù)集時表現(xiàn)出了良好的分類效果,為了進一步證明在圖片這種更高維的數(shù)據(jù)時,同樣能保持性能,本文選取了Fashion_MNIST商品數(shù)據(jù)集進行實驗。Fashion_MNIST有十類商品標簽,相對于經(jīng)典的MNIST手寫數(shù)據(jù)集,F(xiàn)ashion_MNIST的商品圖像訓練更具挑戰(zhàn)性,分類難度也更大。為了全面證明模型的泛化能力,選取了兩種實驗方案,為一對一和一對多。一對一為隨機選取兩類商品訓練,多數(shù)類樣本量固定為3000,少數(shù)類分別選取30,25,20,15,10,5進行訓練,實驗選取shirt和coat作為兩類樣本 ;一對多為隨機選取一類商品為少數(shù)類,剩余九類商品為多數(shù)類,樣本數(shù)量與一對一相同,選取dress作為少數(shù)類。

        圖3 散度自編碼器兩種損失函數(shù)的變化

        圖4 兩類訓練集下算法的性能對比圖

        在處理28×28的圖片數(shù)據(jù)時,自編碼器采用卷積結構,選取三層編碼層和三層解碼層,瓶頸層采用全連接層輸出100維數(shù)據(jù)特征。28×28維的原始輸入圖經(jīng)過編碼層的逐層抽象,會先轉(zhuǎn)換為1×1000的特征向量,在經(jīng)過Relu操作和進一步降維,最終在瓶頸層輸出100維隱含特征表達。

        自編碼的損失函數(shù)變化如圖3,可知重構函數(shù)隨著迭代進行逐步趨于0,而KL散度隨迭代次數(shù)增加逐步增大而穩(wěn)定,兩類特征差異隨訓練是增大的,最終得到隱含層的兩類特征,是分布差異明顯的特征表達,更有利于分類器的訓練。

        五種算法的表現(xiàn)如圖4,圖5,訓練選取的多數(shù)類樣本固定為3000,橫坐標代表訓練的少數(shù)類樣本數(shù)目。圖4表示的兩類樣本的分類,而圖5代表多類中識別一類的實驗結果。五張子圖分別對應了多數(shù)類召回率,少數(shù)類召回率,F(xiàn)1score,G-mean,Auc。由圖4和圖5可知,五種分類器的多數(shù)類的召回率比較穩(wěn)定,且趨近于1。其余指標下,對照實驗的四組算法,XGBoost的分類性能相對要低一些,其它三種差異并不明顯,互有優(yōu)劣,在某些樣本集下略微重合。整體的分類效果隨著少數(shù)類樣本數(shù)目的降低而呈現(xiàn)下降趨勢。

        而本文所提模型在所有樣本集下依然保持優(yōu)異的分類性能,尤其在少數(shù)類樣本減少到5時仍有0.5以上的少數(shù)類召回率,各項指標優(yōu)勢更加明顯,證明模型在樣本極端少且高維的情況下,具有優(yōu)秀的特征學習能力,能學習到樣本的隱含特征表達。圖5實際上驗證了樣本在復雜的噪聲背景下提取關鍵字的能力,雖然整體的召回率相較于圖4略有下降,但仍然保持較高的精度,在少數(shù)類樣本為10時,仍能保持0.6以上的召回率和接近0.8的AUC,證明了模型在面對不同的復雜數(shù)據(jù)集時,具有很強的泛化能力和較高的魯棒性。

        圖5 多類訓練集下算法的性能對比圖

        3.4 算法分析

        以上實驗可以充分證明Bagging-RUSBoost優(yōu)于其它模型,本節(jié)對算法本身進行更深一步的探究。

        閾值δ的取值對Bagging組合模型是有影響的,因此閾值參數(shù)的選取極為重要。當基分類器數(shù)目為10,選取UCI數(shù)據(jù)集對閾值的變化進行討論,如圖6。

        圖6 模型在不同閾值下的召回率表現(xiàn)

        基分類器的輸出為{-1,1},因此閾值的相對取值范圍在[-1,1],通過多次實驗可以發(fā)現(xiàn),當閾值過大時,少數(shù)類的召回率會急劇下降;而閾值過低時,雖然少數(shù)類的召回率維持在較高水準,但是多數(shù)類性能卻會下降,閾值維持在[-0.1,0.1]之間時少數(shù)類和多數(shù)類召回率都相對良好,因此在選取閾值時要盡量保證兩類的召回率處于相對平衡的狀態(tài)。

        Bagging-RUSBoost的時間復雜度為o(kn),k代表基分類器的數(shù)目,o(n)為單個基分類器的時間復雜度。由于單個分類器的訓練樣本是隨機抽樣產(chǎn)生的,并在散度自編碼器進行了特征降維,因此相對于傳統(tǒng)的強分類器,樣本規(guī)模和特征復雜度是降低的,因此分類器有較為良好的時間復雜度特性。在實際實驗過程中,基分類器的數(shù)目要選取適當,數(shù)目過多往往會導致模型過擬合,準確率下降,并且增加了算法的復雜度。

        4 結論

        本文結合特征層面和算法層面提出了一種基于Bagging思想的RUSBoost組合模型,并得出以下結論:

        1) 針對數(shù)據(jù)分布極端不均衡的情況,本文在RUSBoost模型的基礎上,結合了樣本權重更新的歷史經(jīng)驗,提高少數(shù)類的錯分代價,在UCI兩組訓練集少數(shù)類召回率達到了0.833和0.846,優(yōu)于經(jīng)典RUSBoost算法,降低了單分類器隨機性的影響。

        2) 采用散度自編碼器處理高維數(shù)據(jù),瓶頸層增加的KL散度損失函數(shù)對兩類特征進行了差異區(qū)分,使特征表達更加鮮明,圖4和圖5當少數(shù)類減少到5時仍能保持0.5左右的召回率,證明了模型處理高維不平衡樣本的優(yōu)越性。

        3) 通過Bagging組合對基分類器進行了加權投票處理,當分類閾值維持在[-0.1,0.1]時兩類召回率達到相對平衡。模型在多個數(shù)據(jù)集均保持了較好的性能,具有較強的泛化能力,為不平衡數(shù)據(jù)分類提供了一種新思路。

        猜你喜歡
        編碼器權值分類器
        一種融合時間權值和用戶行為序列的電影推薦模型
        CONTENTS
        基于FPGA的同步機軸角編碼器
        BP-GA光照分類器在車道線識別中的應用
        電子測試(2018年1期)2018-04-18 11:52:35
        基于權值動量的RBM加速學習算法研究
        自動化學報(2017年7期)2017-04-18 13:41:02
        基于PRBS檢測的8B/IOB編碼器設計
        加權空-譜與最近鄰分類器相結合的高光譜圖像分類
        結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
        JESD204B接口協(xié)議中的8B10B編碼器設計
        電子器件(2015年5期)2015-12-29 08:42:24
        基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
        免费一级淫片日本高清| 国产激情久久久久影院老熟女 | 国产综合久久久久久鬼色| 亚洲av日韩av在线观看| 白嫩少妇激情无码| 久久精品国产亚洲不av麻豆 | 国产欧美VA欧美VA香蕉在| 亚洲 国产 哟| 国产在线天堂av| 久久少妇高潮免费观看| 水蜜桃精品视频在线观看| 亚洲 中文 欧美 日韩 在线| 欧美老妇与禽交| 日韩欧美在线播放视频| 亚洲亚洲亚洲亚洲亚洲天堂| 99国产精品欲av麻豆在线观看| 亚洲a级视频在线播放| 天天做天天爱夜夜爽女人爽| 十八禁在线观看视频播放免费| 久久国产热这里只有精品| 8av国产精品爽爽ⅴa在线观看| 中文字幕日韩熟女av| 亚洲女同高清精品一区二区99| 日韩精品视频高清在线| 国产精品特级毛片一区二区三区| 久久99国产乱子伦精品免费 | 国产三级黄色片子看曰逼大片| 国产情侣自拍偷拍精品| 亚洲不卡高清av网站| 日本老熟妇乱| 亚洲综合无码一区二区三区| 青青青国产免A在线观看| 亚洲大胆视频在线观看| 国产无套一区二区三区久久| 免费人成激情视频在线观看冫| 亚洲精品国产美女久久久| 一区二区三区四区四色av| 亚洲综合色区一区二区三区| 成人av鲁丝片一区二区免费| 99热成人精品热久久66| 久久精品国产亚洲AV高清y w|