亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于某組合模型的不平衡數(shù)據(jù)分類算法研究

2022-06-14 10:05:48龔曉峰

計算機仿真 2022年5期

李斌，龔曉峰

(四川大學電氣工程學院，四川成都 610065)

1 引言

數(shù)據(jù)不平衡，即其中一類樣本的數(shù)目遠遠小于另一類，而往往少數(shù)類樣本會蘊藏更有價值的信息，因此具有更高的錯分代價。不平衡分類問題廣泛存在于社會生產(chǎn)中，如財務欺詐[1]，腫瘤識別[2]，軟件漏洞查找[3]。除了數(shù)據(jù)樣本量的差別，不平衡數(shù)據(jù)經(jīng)常存在特征空間重疊，樣本分布不明顯等問題，影響分類結果。

目前的研究主要從數(shù)據(jù)重采樣和改進分類算法兩方面解決問題。在數(shù)據(jù)處理層面，主要分為欠采樣和過采樣。Chawla等人[4]提出的 SMOTE算法通過分析少數(shù)類樣本特征空間，生成與少數(shù)類樣本相似的樣本來使數(shù)據(jù)集平衡。由于SMOTE算法在合成少數(shù)類樣本的隨機性過大問題，Torres提出了SMOTE-D[5]。針對欠采樣容易造成多數(shù)類樣本丟失的缺點，學者先后提出了鄰域清理法[6]，基于聚類的欠采樣方法[7]。

分類算法主要根據(jù)傳統(tǒng)分類算法對不平衡數(shù)據(jù)的缺陷進行相應的改進，如單類學習中的單類支持向量機[8]，引入敏感因子的代價敏感決策樹[9]。集成學習是解決不平衡問題的常用算法，通過訓練多個不同的基分類器，并將其分類結果按一定方式集成，從而提升單個分類器的性能[10]。集成學習算法分為Bagging和Boosting，常見的Boosting算法如XGBoost，Adaboost，GBDT[11]，常見的Bagging算法如隨機森林[12]。學者將數(shù)據(jù)采樣技術與集成學習結合，相繼提出了SMOTEBoost[13]，RUSBoost[14]，RHSBoost[15]去處理不平衡問題。

文獻[16]提出了結合隨機子空間和SMTOTE過采樣技術的AdaBoostRs來增加分類樣本的多樣性和降低數(shù)據(jù)維度；文獻[17]借鑒了Focal loss的基本思想提出了根據(jù)基分類器預測結果直接優(yōu)化權重更新策略的FocalBoost。以上所列算法雖然取得了良好的識別效果，但是在某些極端條件下，如少數(shù)類樣本極端少和分布不連續(xù)，很難反映數(shù)據(jù)真實的分布特性，造成算法分類誤差較大；在處理高維特征數(shù)據(jù)時很難學習到潛在的最優(yōu)特征表達，具有一定的局限性。

針對上述問題，本文在結合了集成學習和特征學習思想的基礎上，提出了一種新的不平衡分類算法Bagging-RUSBoost。該算法對經(jīng)典RUSBoost模型的樣本權重更新方式進行了改進，提高少數(shù)類樣本的錯分代價；引入了散度自編碼器進行隱含特征提取，將高維特征進行降維處理，使兩類特征差異最大化，提高模型的特征學習能力；采用Bagging對RUSBoost子模型進行了加權集成，解決了單分類器泛化能力差的問題。實驗結果證明相較于其它集成領域的模型，本文算法有效提高了精度，在面對高維的非平衡樣本時具有更強的魯棒性。

2 Bagging-RUSBoost算法簡介

2.1 改進的RUSBoost模型

RUSBoost模型是在AdaBoost理論基礎上融入隨機欠采樣技術的不平衡數(shù)據(jù)分類模型，是由多個弱分類器組合為強分類器的算法。但是在面對極端不平衡數(shù)據(jù)時，仍存在一些不足和改進的地方。主要分為兩點：在權重更新時，所有樣本錯分的權值變化是相同的，這樣容易造成不公平的權值分配，在兩類樣本相差懸殊時，少數(shù)類應當具有更高的錯分代價；在基分類器訓練階段，樣本權重變化主要依賴于上一輪訓練的結果，然而這樣的權值分配方式過于片面，例如前t次迭代某一樣本x全部分類正確，樣本y全部分類錯誤，第t+1次x，y均分類錯誤，那么其權值是變化相同的，這樣是不公平的，y理應獲得更高的權值分配，參考前t次的分類結果進行權值更新更為客觀，使樣本訓練更為均衡。

設訓練的不平衡數(shù)據(jù)集S為{(x1，y1)，(x2，y2)，…(xm，ym)}，其中xi表示樣本的特征向量，yi∈{-1，1}表示樣本標簽，樣本權值分布為Dt={w1，w2，…wm}。t表示迭代次數(shù)，ht(xi)表示弱分類器。

2)Fort=1，2，…T

a.使用隨機欠采樣技術創(chuàng)建臨時的訓練集St，并產(chǎn)生其對應的權值分布Dt

b.將生成的訓練集St，去訓練第t次迭代生成的弱分類器ht

c.返回預測模型ht

d.計算第t次訓練的分類錯誤率εt，εt為在訓練集St所有樣本構成的分布Λt下預測錯誤的概率之和，I為弱分類器的概率輸出。如果εt>0.5，則返回b步驟重新訓練弱分類器

(1)

e.計算樣本的權值更新參數(shù)αt，即弱分類器的權重

(2)

f.更新樣本權值，Dt+1(i)表示第i個樣本在第t+1輪訓練的權值，原始算法為

(3)

Zt表示對所有樣本權重的歸一化函數(shù)。

針對原更新方式的不足，本文提出了一種新的更新模式。原始算法中樣本權重更新只依賴于上一輪的訓練結果，本算法改為以加權歷史迭代結果對樣本權重進行更新。樣本i在前t次的迭代，即前t個弱分類器訓練的中加權分類正確率βt

(4)

設λ為敏感因子，對少數(shù)類作特殊標記，提高每次迭代時少數(shù)類樣本的錯分代價，使其在下次更新時具有更高的選中率。一般取[0.1，0.2]

(5)

則第t+1次的樣本權值為

(6)

歸一化因子公式如下

(7)

3) 輸出的T個弱分類器組合模型RUSBoost

(8)

最終算法會以sign[HT(x)]輸出樣本所屬類別。如果sign[HT(x)]>0，則輸出1，反之則輸出-1。

2.2 基于散度自編碼器的隱含特征提取

樣本不平衡問題，除了樣本數(shù)量的失衡，往往伴隨著特征空間重疊、樣本特征不明顯等問題，會導致數(shù)據(jù)特征屬性分布的失衡，尤其在遭遇高維不平衡特征時，其少數(shù)類樣本分布更加稀疏，關鍵的樣本特征很難得到表達，因此容易導致分類器的性能降低，甚至造成維度災難等情況。

針對以上情況，本文從特征學習角度出發(fā)，提出了一種基于自編碼器的特征提取方法，在自編碼器架構的基礎上，在其瓶頸層，引入一層KL散度激勵函數(shù)，和重構損失函數(shù)構成了雙目標訓練的模型，結構圖如下：

圖1 散度自編碼器的結構

重構損失采用交叉熵損失函數(shù)來評價重構特征相對于原始特征的損失，KL散度激勵函數(shù)用于將瓶頸層的壓縮特征差異最大化。

編碼階段為對原始特征進行逐層抽象的過程，x為輸入的原始特征

z=fθ(x)=σ(wx+b)

(9)

z為隱含層的抽象特征，θ={w，b}分別為編碼層權值參數(shù)和偏置參數(shù)，σ為非線性激活函數(shù)，一般采用Sigmoid函數(shù)。

(10)

輸入到瓶頸層的特征，會進一步降維。輸入自編碼器的多數(shù)類樣本數(shù)目為m1，少數(shù)類為n1，因為樣本是不平衡的，在瓶頸層會在多數(shù)類樣本中抽樣，生成m1/n1個平衡的樣本矩陣。zM和zN分別代表多數(shù)類樣本和少數(shù)類樣本，在瓶頸層迭代m1/n1次后結束。KL散度本質(zhì)是對兩類數(shù)據(jù)分布差異的評估，在KL散度的激勵下，模型同時學習兩類樣本的特征，兩類特征會朝著樣本差異最大化的方向訓練，最終生成分布差異更加鮮明的抽象特征，公式如式(11)

(11)

解碼階段即反編碼階段，將瓶頸層的抽象特征z重構為原始輸入

y=gθ′(z)=σ′(w′z+b′)

(12)

y為輸出特征，θ′={w′，b′}為解碼層的權值參數(shù)和偏置參數(shù)，σ為非線性激活函數(shù)。

重構損失函數(shù)即交叉熵損失，并采用了L2正則化作為懲罰項，防止過擬合。

如下

(13)

最小化交叉損失熵來調(diào)整網(wǎng)絡內(nèi)部的權值參數(shù)θ，θ′，即優(yōu)化目標為

(14)

采用隨機梯度下降的方式對自編碼器參數(shù)進行優(yōu)化，如下式

(15)

(16)

2.3 改進的加權Bagging組合模型

Bagging作為一種典型的集成學習算法，在原始樣本中隨機采樣，對多個獨立的弱分類器進行平行訓練，然后利用子學習器的投票機制選出最終的結果。

結合2.2節(jié)的特征提取方法，將RUSBoost作為基分類器，利用Bagging思想對分類器進行集成。散度自編碼器的特征在瓶頸層提取后，作為基分類器的訓練集。

多數(shù)類樣本數(shù)量為m，少數(shù)類樣本數(shù)量為n，基分類器數(shù)目為k。在自編碼特征訓練過程中，盡可能保留少數(shù)類的特征，避免自編碼器模型偏向于多數(shù)類。少數(shù)類樣本抽樣數(shù)目固定為n，多數(shù)類樣本每次抽樣2*m/k，生成數(shù)據(jù)集輸入到散度自編碼器訓練。這樣最大限度保證了自編碼器能充分學習到少數(shù)類樣本的特性的同時，也盡量保留了多數(shù)類的特征信息。這樣反復有放回抽取k次，分別輸入k個基分類器進行訓練。

Bagging算法一般采用簡單多數(shù)投票策略，然而沒有考慮到各個基分類器分類性能的差異，不平衡樣本很容易造成在Bagging隨機抽樣的過程中數(shù)據(jù)集出現(xiàn)一定的差異，因此需要綜合各分類器的性能進行加權處理。

本文以多數(shù)類和少數(shù)類召回率作為分類器性能的評價指標，召回率高的分類器即給與較高的權值，最后綜合基分類器給出加權投票結果。相對于原始投票法的硬閾值組合，最終輸出了一個加權投票概率，降低了單一分類器隨機性的影響。

ri表示單個基分類器的召回率，取兩類召回率的均值，TPR和TNR分別表示少數(shù)類和多數(shù)類的召回率

(17)

即每個模型的分配權值ηi為

(18)

RUSBoost子分類器Hi(x)∈{-1，1}，1代表少數(shù)類樣本，-1代表多數(shù)類樣本，Bagging加權組合后的分類器模型為

(19)

最終的分類結果Result為

(20)

δ為分類閾值，大于閾值會被歸類到少數(shù)類。δ并不是一個定值，取值范圍一般在(-1，1)，可以通過交叉驗證對閾值進行微調(diào)以達到較好的處理效果。關于δ取值的進一步討論在第3章闡述。算法流程如圖2所示。

圖2 Bagging-RUSBoost分類算法流程圖

3 實驗結果與分析

為了驗證本文所提算法的先進性，本文選取了UCI數(shù)據(jù)集和Fashion＿MNIST進行實驗，選取了XGBoost，RUSBoost，AdaBoostRs[16](結合隨機子空間和SMOTE過采樣)，F(xiàn)ocalBoost[17](利用Focalloss優(yōu)化權值更新)四種模型作為對照。對召回率、F1score、G-mean、Auc等性能指標進行了比較，并討論了閾值對模型的影響。

3.1 評價指標

本文選取了不平衡分類常用的幾種評價指標，混淆矩陣如表1，召回率為樣本正確被分類的比例，TPR和TNR分別表示少數(shù)類和多數(shù)類召回率

表1 淆矩陣

(21)

TPV和TNV分別表示陽性精確率和陰性精確率

(22)

F1score是衡量精確率和召回率的分類指標

(23)

G-mean是衡量分類器識別多數(shù)類和少數(shù)類精度的幾何平均值

(24)

Auc是其對應的Roc曲線的面積，能很好度量分類器在面對不平衡數(shù)據(jù)的分類性能。

3.2 UCI實驗

Bioassay是UCI的一個不平衡數(shù)據(jù)集，包含21個生物測定數(shù)據(jù)集，本文選取其中的AID362red，AID1608red兩個特征維度較高的數(shù)據(jù)集進行實驗，其具體信息如下：

表2 UCI數(shù)據(jù)集信息

在處理非圖片數(shù)據(jù)時，自編碼器采用全連接即可，在瓶頸層提取到最優(yōu)的特征表達去訓練RUSBoost分類器，這里采用十折交叉驗證去得到最優(yōu)的性能指標，閾值選取0.1，基分類器數(shù)目為10，單個分類器的敏感因子取0.2，實驗結果如表3和表4。

表3 AID362red的五種性能指標對比結果

表4 AID1608red的五種性能指標對比結果

由表3和表4可知，新模型的多數(shù)類召回率與AdaBoostRS和FocalBoost相差不大，而在不平衡分類中也更關注少數(shù)類的分類指標。新模型在少數(shù)類召回率更有優(yōu)勢，分別達到0.833和0.846。其余三種指標也優(yōu)于對比模型，AUC分別達到了0.886和0.917，尤其在與單一RUSBoost模型的比較占據(jù)了全面優(yōu)勢，證明本模型在不平衡數(shù)據(jù)下是有明顯進步的，改進的加權Bagging是有效的。

3.3 Fashion＿MNIST實驗

新模型在面對UCI的數(shù)據(jù)集時表現(xiàn)出了良好的分類效果，為了進一步證明在圖片這種更高維的數(shù)據(jù)時，同樣能保持性能，本文選取了Fashion＿MNIST商品數(shù)據(jù)集進行實驗。Fashion＿MNIST有十類商品標簽，相對于經(jīng)典的MNIST手寫數(shù)據(jù)集，F(xiàn)ashion＿MNIST的商品圖像訓練更具挑戰(zhàn)性，分類難度也更大。為了全面證明模型的泛化能力，選取了兩種實驗方案，為一對一和一對多。一對一為隨機選取兩類商品訓練，多數(shù)類樣本量固定為3000，少數(shù)類分別選取30，25，20，15，10，5進行訓練，實驗選取shirt和coat作為兩類樣本；一對多為隨機選取一類商品為少數(shù)類，剩余九類商品為多數(shù)類，樣本數(shù)量與一對一相同，選取dress作為少數(shù)類。

圖3 散度自編碼器兩種損失函數(shù)的變化

圖4 兩類訓練集下算法的性能對比圖

在處理28×28的圖片數(shù)據(jù)時，自編碼器采用卷積結構，選取三層編碼層和三層解碼層，瓶頸層采用全連接層輸出100維數(shù)據(jù)特征。28×28維的原始輸入圖經(jīng)過編碼層的逐層抽象，會先轉(zhuǎn)換為1×1000的特征向量，在經(jīng)過Relu操作和進一步降維，最終在瓶頸層輸出100維隱含特征表達。

自編碼的損失函數(shù)變化如圖3，可知重構函數(shù)隨著迭代進行逐步趨于0，而KL散度隨迭代次數(shù)增加逐步增大而穩(wěn)定，兩類特征差異隨訓練是增大的，最終得到隱含層的兩類特征，是分布差異明顯的特征表達，更有利于分類器的訓練。

五種算法的表現(xiàn)如圖4，圖5，訓練選取的多數(shù)類樣本固定為3000，橫坐標代表訓練的少數(shù)類樣本數(shù)目。圖4表示的兩類樣本的分類，而圖5代表多類中識別一類的實驗結果。五張子圖分別對應了多數(shù)類召回率，少數(shù)類召回率，F(xiàn)1score，G-mean，Auc。由圖4和圖5可知，五種分類器的多數(shù)類的召回率比較穩(wěn)定，且趨近于1。其余指標下，對照實驗的四組算法，XGBoost的分類性能相對要低一些，其它三種差異并不明顯，互有優(yōu)劣，在某些樣本集下略微重合。整體的分類效果隨著少數(shù)類樣本數(shù)目的降低而呈現(xiàn)下降趨勢。

而本文所提模型在所有樣本集下依然保持優(yōu)異的分類性能，尤其在少數(shù)類樣本減少到5時仍有0.5以上的少數(shù)類召回率，各項指標優(yōu)勢更加明顯，證明模型在樣本極端少且高維的情況下，具有優(yōu)秀的特征學習能力，能學習到樣本的隱含特征表達。圖5實際上驗證了樣本在復雜的噪聲背景下提取關鍵字的能力，雖然整體的召回率相較于圖4略有下降，但仍然保持較高的精度，在少數(shù)類樣本為10時，仍能保持0.6以上的召回率和接近0.8的AUC，證明了模型在面對不同的復雜數(shù)據(jù)集時，具有很強的泛化能力和較高的魯棒性。

圖5 多類訓練集下算法的性能對比圖

3.4 算法分析

以上實驗可以充分證明Bagging-RUSBoost優(yōu)于其它模型，本節(jié)對算法本身進行更深一步的探究。

閾值δ的取值對Bagging組合模型是有影響的，因此閾值參數(shù)的選取極為重要。當基分類器數(shù)目為10，選取UCI數(shù)據(jù)集對閾值的變化進行討論，如圖6。

圖6 模型在不同閾值下的召回率表現(xiàn)

基分類器的輸出為{-1，1}，因此閾值的相對取值范圍在[-1，1]，通過多次實驗可以發(fā)現(xiàn)，當閾值過大時，少數(shù)類的召回率會急劇下降；而閾值過低時，雖然少數(shù)類的召回率維持在較高水準，但是多數(shù)類性能卻會下降，閾值維持在[-0.1，0.1]之間時少數(shù)類和多數(shù)類召回率都相對良好，因此在選取閾值時要盡量保證兩類的召回率處于相對平衡的狀態(tài)。

Bagging-RUSBoost的時間復雜度為o(kn)，k代表基分類器的數(shù)目，o(n)為單個基分類器的時間復雜度。由于單個分類器的訓練樣本是隨機抽樣產(chǎn)生的，并在散度自編碼器進行了特征降維，因此相對于傳統(tǒng)的強分類器，樣本規(guī)模和特征復雜度是降低的，因此分類器有較為良好的時間復雜度特性。在實際實驗過程中，基分類器的數(shù)目要選取適當，數(shù)目過多往往會導致模型過擬合，準確率下降，并且增加了算法的復雜度。

4 結論

本文結合特征層面和算法層面提出了一種基于Bagging思想的RUSBoost組合模型，并得出以下結論：

1) 針對數(shù)據(jù)分布極端不均衡的情況，本文在RUSBoost模型的基礎上，結合了樣本權重更新的歷史經(jīng)驗，提高少數(shù)類的錯分代價，在UCI兩組訓練集少數(shù)類召回率達到了0.833和0.846，優(yōu)于經(jīng)典RUSBoost算法，降低了單分類器隨機性的影響。

2) 采用散度自編碼器處理高維數(shù)據(jù)，瓶頸層增加的KL散度損失函數(shù)對兩類特征進行了差異區(qū)分，使特征表達更加鮮明，圖4和圖5當少數(shù)類減少到5時仍能保持0.5左右的召回率，證明了模型處理高維不平衡樣本的優(yōu)越性。

3) 通過Bagging組合對基分類器進行了加權投票處理，當分類閾值維持在[-0.1，0.1]時兩類召回率達到相對平衡。模型在多個數(shù)據(jù)集均保持了較好的性能，具有較強的泛化能力，為不平衡數(shù)據(jù)分類提供了一種新思路。