亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        不平衡數(shù)據(jù)集分類方法綜述

        2021-11-26 07:21:34李小娟程浩東
        計算機工程與應(yīng)用 2021年22期
        關(guān)鍵詞:學(xué)習(xí)機代價實例

        王 樂,韓 萌,李小娟,張 妮,程浩東

        北方民族大學(xué) 計算機科學(xué)與工程學(xué)院,銀川750021

        數(shù)據(jù)隨著時間流逝總是趨向于改變其特性。不平衡數(shù)據(jù)集的主要特征就是類別中的實例數(shù)量不相等,也就是類別不平衡。類別不平衡是因為不滿足條件的數(shù)據(jù)在處理問題時由于一些實例的數(shù)量較少,優(yōu)先級過低而導(dǎo)致被忽略的現(xiàn)象。

        分類是處理數(shù)據(jù)集的一個非常有用的方法,對不平衡數(shù)據(jù)集進行分類時關(guān)注的實例往往都是少數(shù)類實例,但是這種實例的數(shù)量特別少?,F(xiàn)實生活中的數(shù)據(jù)出現(xiàn)這種問題是很常見的,像處理欺詐檢測[1]、醫(yī)療診斷[2]或垃圾郵件過濾[3]等領(lǐng)域的任務(wù)時都會出現(xiàn)此現(xiàn)象,因此類不平衡學(xué)習(xí)總是面臨少數(shù)類實例不足的挑戰(zhàn)。

        現(xiàn)有的不平衡數(shù)據(jù)分類方法綜述大多數(shù)都從數(shù)據(jù)級方法開始進行研究,主要分為欠采樣方法和過采樣方法,文獻(xiàn)[4]就從這兩方面介紹不平衡數(shù)據(jù)分類方法。還有從集成學(xué)習(xí)角度介紹不平衡數(shù)據(jù)分類算法,其中文獻(xiàn)[5]就是基于集成分類算法介紹不平衡數(shù)據(jù)的分類算法;文獻(xiàn)[6]針對集成方法按照單個正類和多類數(shù)據(jù)進行總結(jié)歸納。但是以往的不平衡數(shù)據(jù)集分類方法綜述中只單獨介紹欠采樣和過采樣方法,并不能突出采樣算法所使用的主要技術(shù),并且對涉及的算法總結(jié)得不夠全面。本文使用采樣方法對不平衡數(shù)據(jù)集分類算法按照使用的技術(shù)類型進行歸納,并且總結(jié)其采樣類型;還結(jié)合了當(dāng)下研究熱點,綜合各種技術(shù),總結(jié)并分析了不平衡數(shù)據(jù)集的分類方法。

        本文詳細(xì)地總結(jié)了不平衡數(shù)據(jù)集的幾種分類方法,如圖1所示。本文的主要貢獻(xiàn)有:

        圖1 文章框架圖Fig.1 Article frame diagram

        (1)從采樣方法、深度學(xué)習(xí)方法、極限學(xué)習(xí)機方法和代價敏感學(xué)習(xí)方法等方面詳細(xì)總結(jié)和分析了不平衡數(shù)據(jù)集的分類方法,并且涵蓋了更新的相關(guān)方法。

        (2)采用數(shù)據(jù)采樣方法對不平衡數(shù)據(jù)集的分類方法進行介紹,以欠采樣、過采樣以及混合采樣為入手點,在每小節(jié)以使用的技術(shù)作為總結(jié)和分析的落腳點,使用實驗結(jié)果進行詳細(xì)的分析和比較。

        (3)基于深度學(xué)習(xí)和極限學(xué)習(xí)機的方法是近幾年研究熱點,這種方法在不平衡數(shù)據(jù)集的分類中起到了很大的作用。本文對基于深度學(xué)習(xí)、極限學(xué)習(xí)機的方法進行了詳細(xì)的研究與分析,有助于不平衡數(shù)據(jù)集的研究。

        (4)總結(jié)了不平衡數(shù)據(jù)集的代價敏感分類方法、特征層面的分類方法,對以上的幾種方法進行了詳細(xì)的分析和對比總結(jié)。

        1 基于采樣方法的不平衡數(shù)據(jù)集分類方法

        采樣方法的分類方法是不平衡數(shù)據(jù)集分類時比較常見的方法,在預(yù)處理過程中對數(shù)據(jù)進行采樣來重新平衡高度偏斜的類分布。本文將主要從欠采樣、過采樣和混合采方法三個角度來詳細(xì)分析不平衡數(shù)據(jù)集的分類方法。

        1.1 不平衡數(shù)據(jù)集欠采樣分類方法

        最簡單的欠采樣方法就是隨機欠采樣方法(Random Under Sampling,RUS)[7],該方法隨機地在多數(shù)類樣本中采樣,隨機選擇大多數(shù)類實例并將其從數(shù)據(jù)集中移除,直到達(dá)到所需的類分布[8]。下面主要基于K近鄰(K-Nearest Neighbor,KNN)、Bagging 和Boosting 方法來介紹不平衡數(shù)據(jù)集欠采樣分類方法。

        1.1.1 基于K 近鄰的欠采樣分類方法

        不平衡數(shù)據(jù)的特點導(dǎo)致了在處理不平衡數(shù)據(jù)集時很難獲得理想的分類結(jié)果,很多研究者根據(jù)KNN 方法的優(yōu)點和不平衡數(shù)據(jù)集的特點提出了一些提高分類器精度的欠采樣方法。

        Kang等[9]提出了一種新的欠采樣方案,其結(jié)合一種具有代表性的欠采樣技術(shù)EasyEnsenble(EE)來實現(xiàn)噪聲濾波的采樣方案(Noise-filtered Under-sampling Scheme,NUS)。該方法并未使用所有少數(shù)實例,而是從原始少數(shù)實例數(shù)據(jù)集中過濾出嘈雜的實例,然后使用新的少數(shù)類數(shù)據(jù)集訓(xùn)練分類器,這也是第一次將噪聲濾波和欠采樣方法相結(jié)合。

        Hou 等[10]開發(fā)了一種欠采樣策略以保留有用的實例并消除嘈雜的實例。首先將每一類例子分為三類,引入一個相似系數(shù)來區(qū)分每個類別的例子,通過這種選擇機制保留了有用的樣本,并去除了噪聲樣本。

        同時他們提出了一種基于密度的欠采樣方法(Densitybased Undersampling algorithm,DBU),其同樣使用了KNN 聚類方法,并且使用了密度用以選取有用的實例和潛在的實例。還引入了一個相似系數(shù)來區(qū)分每個類別中的實例,這些實例的相似系數(shù)等于0。對于多數(shù)類,根據(jù)樣本的相似性系數(shù)選取一定數(shù)量的樣本作為重采樣多數(shù)類的元素。對于少數(shù)類,通過刪除相似系數(shù)為0的例子來消除噪聲,以達(dá)到對數(shù)據(jù)進行采樣調(diào)節(jié)不平衡現(xiàn)象的目的。

        1.1.2 基于Bagging的欠采樣分類方法

        UnderBagging[11]在每次Bagging 迭代中對數(shù)據(jù)集進行隨機欠采樣,將所有少數(shù)類實例都保留在每次迭代中。UnderBagging 用一個不平衡的訓(xùn)練樣本代替一個單獨的使用1-NN 規(guī)則的分類模型,每個分類器都使用一個平衡的訓(xùn)練樣本作為其學(xué)習(xí)過程。通過實驗證明了集成模型可以更好地提高分類器的精度。

        Hido等[12]提出了一種新的采樣方法RB-Bagging來改進帶有傾斜類分布的數(shù)據(jù)集。RB-Bagging充分利用了所有少數(shù)實例的欠抽樣。通過實驗表明,該算法可以保持原有Bagging的性質(zhì),同時在AUC(Area Under ROC Curve)和ISE(Improved Squared Error)等指標(biāo)上也被認(rèn)為是解決不平衡類問題的合適方法。其中伯努利實驗失敗次數(shù)的概率分布如式(1)所示。

        為了在訓(xùn)練過程中最大限度地利用多數(shù)類數(shù)據(jù),Li等[13]提出了一種將欠采樣思想與Bagging方法相結(jié)合的方法。在訓(xùn)練中包含盡可能多的目標(biāo)類數(shù)據(jù),每個分類器生成一個類別標(biāo)簽用于投票。實驗結(jié)果表明,該方法在分類過程中產(chǎn)生了一個具有較高靈敏度、特異性和G-Means值的集成分類器。

        1.1.3 基于Boosting的欠采樣分類方法

        基于Boosting 的不平衡數(shù)據(jù)集成分類相關(guān)算法是使用整個數(shù)據(jù)集對每個分類器進行串行訓(xùn)練。Seiffert等[14]提出了一種新的混合采樣RUSBoost。RUSBoost 使用隨機欠采樣技術(shù),從AdaBoost.M2[15]的每次迭代中從多數(shù)類中刪除實例,對新的欠采樣數(shù)據(jù)集中的實例權(quán)重進行歸一化。將RUS引入Boosting過程的動機是簡單、快速,雖然它很簡單[16],但其表現(xiàn)出較好的性能。

        一些研究人員也提出了解決隨機欠采樣可能會丟失一些有用信息問題的算法,例如Galar 等[17]提出的EUSBoost,Gong 等[18]提出的RHSBoost,Lin 等[19]提出的CBUBoost 等。在EUSBoost 算法中將不平衡比定義為負(fù)類實例數(shù)除以正類實例數(shù),隨機采樣幾個數(shù)據(jù)子集,然后對其進行迭代,直到無法進一步改善當(dāng)前最佳的重新采樣數(shù)據(jù)集為止。

        Liu等[20]提出了兩種算法來克服欠采樣時多數(shù)類實例被忽略的缺陷。EasyEnsemble的表現(xiàn)與UnderBagging相似,盡管為每個新塊訓(xùn)練了一個分類器,但他們還是使用AdaBoost 訓(xùn)練了每個塊。BalanceCascade 不再考慮被正確分類的多數(shù)類實例。通過實驗證明,由于Easy-Ensemble對獨立的子集進行采樣,而BalanceCascade使用訓(xùn)練好的分類器來指導(dǎo)后續(xù)分類器的欠采樣過程,這一區(qū)別使BalanceCascade 算法在為不平衡數(shù)據(jù)集進行分類時有著更高的準(zhǔn)確率。

        1.1.4 小結(jié)

        除了前面總結(jié)不平衡數(shù)據(jù)集的欠采樣分類方法,崔彩霞等[21]提出了一種基于密度峰值聚類的自適應(yīng)欠采樣方法。該方法根據(jù)子簇中樣本的密度計算采樣權(quán)重并欠采樣,利用近鄰搜索算法識別重疊區(qū)的多數(shù)類樣本并將其刪除。

        通過使用相同參數(shù)的數(shù)據(jù)集來對算法的AUC值進行分析與比較,結(jié)果如表1所示。

        表1 欠采樣方法實驗性能Table 1 Experimental performance of under-sampling methods

        表中Pima 數(shù)據(jù)集有768 個數(shù)據(jù),8 個屬性,目標(biāo)類使用1個少數(shù)類,其中少數(shù)類和多數(shù)類的數(shù)據(jù)數(shù)量分別為268個和500個,多數(shù)類和少數(shù)類的比例為1.9;Satimage 數(shù)據(jù)集有6 435 個數(shù)據(jù),36 個屬性,目標(biāo)類使用4 個少數(shù)類,其中少數(shù)類和多數(shù)類的數(shù)據(jù)數(shù)量分別為626個和5 809個,多數(shù)類和少數(shù)類的比例為9.3;Glass數(shù)據(jù)集有214 個數(shù)據(jù),9 個屬性,不平衡比例為11.9。從表1 中可以看出,在不平衡比例較大的Glass 數(shù)據(jù)集中,DBU算法具有較高的AUC值,因為DBU方法同時引入了密度和一個相似系數(shù)來區(qū)分實例;Satimage數(shù)據(jù)集中不平衡比例只有9.3,雖稍弱于Glass 數(shù)據(jù)集,但是仍然是很高的不平衡比例,而且數(shù)據(jù)量遠(yuǎn)大于其他兩個數(shù)據(jù)集。從AUC 值結(jié)果中可以看出NUS、RB-Bagging 和Easy-Ensemble 三種算法都取得了較高的結(jié)果,在Pima 數(shù)據(jù)集上EasyEnsemble 方法效果較為突出,取得了0.809 的AUC 值,因為其使用AdaBoost 算法訓(xùn)練了每個數(shù)據(jù)塊。結(jié)合Satimage 和Pima 數(shù)據(jù)集可以得出,將欠采樣算法與集成方法相結(jié)合可以取得更好的效果。但是欠采樣方法在數(shù)據(jù)采樣的過程中經(jīng)常會出現(xiàn)多類實例被忽略的現(xiàn)象,這樣就會導(dǎo)致采樣后的數(shù)據(jù)不均衡。有關(guān)欠采樣的不平衡數(shù)據(jù)集的分類方法就要關(guān)注這一點,從其他技術(shù)上來彌補這一不足,提升不平衡數(shù)據(jù)集的分類效果。

        1.2 不平衡數(shù)據(jù)集過采樣分類方法

        過采樣技術(shù)就是通過復(fù)制少數(shù)類別樣本中的例子來對兩種類別樣本的數(shù)量進行平衡。下面將基于合成少數(shù)過采樣技術(shù)(Synthetic Minority Over-sampling Technique,SMOTE)以及支持向量機技術(shù)(Support Vector Machine,SVM)來分析不平衡數(shù)據(jù)集的過采樣分類方法。

        1.2.1 基于SMOTE的過采樣分類方法

        合成少數(shù)過采樣技術(shù)(SMOTE)的采樣方法是基于Chawla等[22]提出的過采樣算法,繼承了該算法優(yōu)秀的部分并進行了一系列改進。

        因為SMOTE方法目前無法處理具有所有特征的數(shù)據(jù)集,Chawla 等[22]提出了一種“綜合少數(shù)群體過采樣”SMOTE-NC(SMOTE-Nominal Continuous)。SMOTE與不同的分類器結(jié)合,允許分類器切割更廣泛的決策區(qū)域,從而使更多的少數(shù)類覆蓋。在48個實驗中,SMOTE-NC方法也僅在4個實驗中表現(xiàn)不佳。

        Han等[23]提出了Borderline-SMOTE,使用與SMOTE相同的過采樣技術(shù),但僅對少數(shù)類的邊界實例進行過采樣。Bunkhumpornpat 等[24]提出了Safe-Level-SMOTE 算法。該算法沿著同一條線以不同的權(quán)重程度仔細(xì)地對少數(shù)實例進行采樣,在生成實例前為每個正實例分配安全等級。通過實驗證明,該方法實現(xiàn)了比SMOTE 和Borderline-SMOTE更好的準(zhǔn)確性。

        Bunkhumpornpat 等[25]提出了一種新的過采樣技術(shù)DBSMOTE(Density-Based SMOTE)。DBSMOTE 沿著從每個正實例到少數(shù)類聚類偽質(zhì)心的最短路徑生成合成實例。實驗結(jié)果表明,DBSMOTE比SMOTE、Borderline-SMOTE 和Safe-Level-SMOTE 更有效地提高了精度、F值和AUC測量值。

        Wang 等[26]提出了SMOTEBagging 算法,將其擴展到求解多類數(shù)據(jù)集。實驗表明,在兩類數(shù)據(jù)集和多類數(shù)據(jù)集上對每一個類的多樣性都有相似的影響,其總體性能和多樣性都有提高。但是SMOTEBagging 方法的多類研究只包含兩個數(shù)據(jù)集,對于兩類和多類之間的性能差異還沒有全面地分析到。

        分類器在不平衡數(shù)據(jù)集中進行分類時通常會產(chǎn)生有偏分類器,Chawla 等[27]提出了SMOTEBoost 方法,通過利用SMOTE 來改進少數(shù)類的預(yù)測,提升分類器的性能。SMOTEBoost減少了類不平衡學(xué)習(xí)中固有的偏差,但是在噪聲存在的情況下Boosting的性能并不好,錯誤標(biāo)記噪聲對SMOTEBoost性能的影響極大,還需要更深入地研究。

        1.2.2 基于支持向量機的過采樣分類方法

        支持向量機(SVM)是一種新的二分類問題學(xué)習(xí)機器。SVM在特征空間中構(gòu)造了一個線性決策面[28],決策面的特殊性質(zhì)保證了學(xué)習(xí)機具有較高的泛化能力。

        為了縮小正負(fù)類樣本數(shù)據(jù)集上的偏差,黃海松等[29]提出一種基于樣本特性的新型過采樣SVM算法NOBDF(New Over-sampling Based on Data Feature)進行數(shù)據(jù)集的重構(gòu),使用支持向量機進行分類。該算法在正負(fù)類分類精度上、總體分類性能上都取得了較好的結(jié)果,提供了一個有效的理論模型。

        在支持向量機分類中支持向量對分類超平面起著決定性的作用。Zhang等[30]將改進的隨機合成少數(shù)過采樣算法與SVM 方法相結(jié)合,能夠?qū)ι贁?shù)類樣本進行聚類,并根據(jù)少數(shù)類聚類中心與多數(shù)類中心的距離確定支持向量作為父樣本以及少數(shù)類樣本,實驗證明該算法對不平衡數(shù)據(jù)集具有顯著的分類效果。

        Ma等[31]為解決入侵檢測類不平衡問題學(xué)習(xí)算法準(zhǔn)確度較低的問題,提出了一種新的混合方法FSVMs,將現(xiàn)有的過采樣方法與模糊半監(jiān)督SVM學(xué)習(xí)方法相結(jié)合,在分割策略的基礎(chǔ)上進一步解決多類不平衡問題。最后的實驗表明該方法對不平衡數(shù)據(jù)集具有較高的精度。

        1.2.3 小結(jié)

        除了前面兩小節(jié)介紹的兩類方法,也有結(jié)合其他新技術(shù)的過采樣方法。Tao 等[32]提出了一種新的過采樣技術(shù),使用實值負(fù)選擇(Real-value Negative Selection,RNS)生成少數(shù)類實例,以調(diào)整不平衡數(shù)據(jù)集的類別數(shù)量的比例,從而確定最優(yōu)決策函數(shù)。Tao 等[33]提出了一種基于密度峰值聚類和啟發(fā)式濾波的自適應(yīng)加權(quán)過采樣方法,這種方法可以同時適應(yīng)由各種原因引起的類間和類內(nèi)的不平衡。

        表2 列舉了主流數(shù)據(jù)增強算法所使用的相同的數(shù)據(jù)集,以便進行詳細(xì)的對比分析;表3 列舉了本文所介紹的算法多次在實驗中使用的數(shù)據(jù)集的參數(shù)。

        表2 數(shù)據(jù)增強SMOTE方法使用的數(shù)據(jù)集情況Table 2 Data sets used in data augmentation SMOTE methods

        表3 數(shù)據(jù)集參數(shù)Table 3 Data set parameters

        本小節(jié)分析使用以上幾個數(shù)據(jù)集進行實驗的算法,這樣更易于對幾種不平衡數(shù)據(jù)的過采樣算法進行比較。對于Pima 和Haberman 兩個數(shù)據(jù)集,Borderline-SMOTE在TP 率上優(yōu)于SMOTE 和RUS 算法。因為Borderline-SMOTE 強調(diào)邊界性,其僅對少數(shù)類的邊界實例進行過采樣,而其他過采樣算法直接對所有實例進行過采樣。對于Satimage 數(shù)據(jù)集,Borderline-SMOTE 的TP 率大于RUS,與SMOTE的TP率相當(dāng)。這證明了在不同數(shù)據(jù)集上統(tǒng)一效果的算法會有不同,但在大方向上的優(yōu)劣趨勢是幾乎相同的。在Satimage數(shù)據(jù)集上,使用樸素貝葉斯作為分類器時Safe-Level-SMOTE 算法的Recall 值也是高 于SMOTE 的Recall 值,但 比Borderline-SMOTE 算法的Recall 值略低,當(dāng)使用C4.5 作為分類器時,Safe-Level-SMOTE 算法取得了最優(yōu)的Recall 值。這是因為Safe-Level-SMOTE 仔細(xì)地對數(shù)據(jù)集進行了過采樣,考慮實例的安全等級比,在安全位置生成每個合成實例,同時使用C4.5 和樸素貝葉斯作為分類器,取得了完全不同的結(jié)果,這也說明了分類器的選取對算法性能的優(yōu)劣有很大的影響。在Haberman數(shù)據(jù)集中使用支持向量機方法,Safe-Level-SMOTE 算法取得了最優(yōu)的AUC值。在Pima 數(shù)據(jù)集中,DBSMOTE 算法比Safe-Level-SMOTE 算法獲得了更好的精度和AUC 值,在Recall 和F值上Safe-Level-SMOTE更勝一籌。在Haberman數(shù)據(jù)集中,DBSMOTE除了召回率以外都很優(yōu)秀。在SMOTEBagging 算法的實驗中,與OverBagging 進行了對比,SMOTEBagging 都取得了更高的G-mean 值;SMOTEBoost算法與SMOTE算法進行對比,極大地提高了召回率和精度,在F值方面也都得到了明顯的提高。NOBDF在Pima數(shù)據(jù)集上也取得了0.925的G-mean值和0.834的F 測量值,與SMOTE 和RUS 算法相比,都高出了約0.2個點,因為NOBDF算法綜合考慮數(shù)據(jù)樣本的類內(nèi)間距、類間間距以及不平衡度等因素。在表2以及表3給出的幾個數(shù)據(jù)集中分析上面給出的算法,可以發(fā)現(xiàn)單獨的SMOTE算法并不能很好地處理不平衡數(shù)據(jù)集,SMOTE對數(shù)據(jù)的復(fù)雜性很敏感,如果數(shù)據(jù)集中存在一個以上的少數(shù)類別就會使SMOTE方法難以通過調(diào)整生成率來平衡類別,而且簡單的過采樣算法中也可能在采樣過程中產(chǎn)生大量的冗余,進一步增加訓(xùn)練時間,降低訓(xùn)練樣本的質(zhì)量,但是將采樣技術(shù)與其他方法結(jié)合時,例如加入簇的概念、結(jié)合集成的方法等,都可以有效提高算法的性能,得到更好的不平衡數(shù)據(jù)集的分類結(jié)果。

        1.3 不平衡數(shù)據(jù)集混合采樣分類方法

        混合采樣方法結(jié)合了欠采樣和過采樣方法的優(yōu)點,Estabrooks等[34]進行了大量的實驗,證明了這一優(yōu)點,他們對構(gòu)成組合的各種分類器做出不同的決策,使組合方法的效果發(fā)揮到最好,這種組合方案的整體效果十分可觀。

        Seiffert等[35]提出了一種混合數(shù)據(jù)采樣方法,該方法用一種抽樣技術(shù)對訓(xùn)練數(shù)據(jù)進行部分抽樣,然后用另一種方法完成整個過程。Estabrooks等[36]將基于兩種采樣數(shù)據(jù)的分類器結(jié)合在一起,輸出的結(jié)果為兩種分類器結(jié)果的結(jié)合。兩組實驗結(jié)果都表明混合采樣方法要優(yōu)于單獨的采樣技術(shù)。

        許多研究者也提出隨機森林和采樣策略結(jié)合的方法處理不平衡數(shù)據(jù)集。鄭建華等[37]提出了一種基于混合采樣策略的隨機森林不平衡數(shù)據(jù)分類算法ARIRF(ADASYN RUS Improved Random Forest),通過對隨機森林中的每一個子樹采用混合采樣策略,提高基分類器的多樣性,增強了分類器的效果。楊霞霞[38]提出了一種改進的不平衡數(shù)據(jù)集分類算法AEIRF(ADASYN ENN Improved Random Forest),采用混合抽樣方法生成訓(xùn)練子集,然后通過加權(quán)投票的方式選擇最終的分類結(jié)果,充分利用了高精度的決策樹。通過混合采樣策略和隨機森林結(jié)合的方法,不但利用了混合采樣可以更全面地處理數(shù)據(jù)集的優(yōu)點,還結(jié)合了隨機森林可以平衡誤差、抗過擬合能力較強等優(yōu)勢,在不平衡數(shù)據(jù)集的分類上取得了不錯的效果。

        通過2.3節(jié)對不平衡數(shù)據(jù)集混合采樣分類方法的介紹與分析,研究者通過大量的實驗證實了混合采樣方法對于不平衡數(shù)據(jù)集的分類要優(yōu)于單獨的欠采樣和過采樣方法。Estabrooks 等[34,36]和Seiffert 等[35]都采用了UCI中的部分?jǐn)?shù)據(jù)集,使用混合采樣的方法與前面小節(jié)中所介紹的RUS、隨機過采樣、SMOTE、Borderline-SMOTE以及AdaBoost 五個算法進行了對比,實驗結(jié)果表明混合采樣在大多數(shù)UCI 數(shù)據(jù)集上的AUC 值均是提高的。后來越來越多的研究學(xué)者在不平衡數(shù)據(jù)集分類方面開始關(guān)注混合采樣方法,并將其與隨機森林算法相結(jié)合,也取得了不錯的效果。ARIRF 算法使用UCI 中的數(shù)據(jù)集在AUC 和G-mean 上均優(yōu)于不平衡數(shù)據(jù)集欠采樣分類方法RUSBoost,可以說明混合采樣方法優(yōu)于單獨的欠采樣或者過采樣方法。但是對于特征較少的數(shù)據(jù)或者低維數(shù)據(jù),隨機森林方法可能不能產(chǎn)生很好的分類效果,而且混合采樣方法和隨機森林方法在處理數(shù)據(jù)的過程中都比較耗時,因此在時間方面還有待加強。

        表4 對基于采樣方法的不平衡數(shù)據(jù)集分類方法從優(yōu)缺點、數(shù)據(jù)集以及對比算法等方面進行了總結(jié)與比較。

        表4 基于采樣方法的不平衡數(shù)據(jù)集分類方法Table 4 Unbalanced data set classification method based on sampling method

        2 其他不平衡數(shù)據(jù)分類方法

        2.1 基于深度學(xué)習(xí)的不平衡數(shù)據(jù)集分類方法

        深度學(xué)習(xí)是近幾年的研究熱點,研究者利用其優(yōu)秀的學(xué)習(xí)數(shù)據(jù)規(guī)律的特點,將其運用于處理不平衡數(shù)據(jù)集,從而使分類和預(yù)測更容易。

        周霄晗[39]提出了一種基于深度去噪自編碼器的深度生成對抗網(wǎng)絡(luò)(Adversarial Deep Denoising Autoencoder,GAN-DAE),其通過生成器和判別器的對抗訓(xùn)練獲取不平衡數(shù)據(jù)中正負(fù)樣本的特征,改善數(shù)據(jù)樣本的不平衡狀況。周霄晗[39]還提出了以GAN-DAE作為成員神經(jīng)網(wǎng)絡(luò)的集成模型,每個GAN的子訓(xùn)練集空間不同,因此訓(xùn)練得到的GAN 可以互補,提高了少數(shù)群體的分類率,限制了多數(shù)類群體的誤分類率。最后實驗也驗證了該方法在識別少數(shù)樣本上性能良好,而且更適合處理高維度和高不平衡比率的數(shù)據(jù)集。

        解曉波[40]提出一種基于生成對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)的不平衡數(shù)據(jù)集分類方法,使用WGAN(Wasserstein GAN)對GAN 的損失函數(shù)以及網(wǎng)絡(luò)結(jié)構(gòu)做了適當(dāng)修改,使得在訓(xùn)練方面更加穩(wěn)定。與SMOTE做數(shù)據(jù)增強的實驗相比,WGAN對閾值的敏感程度比SMOTE要低,這也說明了WGAN檢查錯誤樣本更為準(zhǔn)確,SMOTE在預(yù)測時可能會產(chǎn)生更多誤判。

        Konno等[41]使用深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)提取少數(shù)樣本的特征作為基本特征,然后加入一部分偽特征(Pseudo Feature)產(chǎn)生新樣本來彌補少數(shù)類樣本的不足,有效改善了不平衡數(shù)據(jù)集分類的結(jié)果。實驗結(jié)果證明,一旦在少數(shù)類確定的情況下,該方法在準(zhǔn)確率、查全率和F值上相對于欠采樣、過采樣和SMOTE都有明顯的提高,在精度上各算法相當(dāng)。

        類別不平衡導(dǎo)致神經(jīng)網(wǎng)絡(luò)模型被多數(shù)類所主導(dǎo),致使分類效果不佳,針對這種現(xiàn)象陳志等[42]提出將卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中損失函數(shù)引入類別標(biāo)簽權(quán)重,強化少數(shù)類對模型參數(shù)的影響。文本分類實驗也表明了此方法可以顯著地提升F1 值,提高神經(jīng)網(wǎng)絡(luò)對不平衡數(shù)據(jù)集的分類能力。

        2.2 基于極限學(xué)習(xí)機的不平衡數(shù)據(jù)集分類方法

        極限學(xué)習(xí)機(Extreme Learning Machine,ELM)作為集成網(wǎng)絡(luò)的基礎(chǔ)分類器可以保證單個網(wǎng)絡(luò)的精度,將ELM與集成方法相結(jié)合可以很好地改善不平衡數(shù)據(jù)集分類效果。

        李晗縵等[43]提出了一種基于分層交叉驗證的集成超限學(xué)習(xí)機,將集成學(xué)習(xí)方法和分層交叉驗證策略引入到網(wǎng)絡(luò)訓(xùn)練過程中,減輕過度擬合,提高泛化能力。因為在訓(xùn)練過程中,訓(xùn)練集和驗證集每類樣本的分布和測試集一致,所以能更好地學(xué)習(xí)樣本的特征,保證了測試的效果。

        孫慶帥[44]提出了基于數(shù)據(jù)分布的加權(quán)極限學(xué)習(xí)機D-WELM(Data Distribution based Weighted Extreme Learning Machine)。該算法不僅考慮了樣本類別數(shù)量的影響,同時考慮了全局損失,設(shè)計了一個新的加權(quán)方案。其中加權(quán)方案的數(shù)學(xué)表達(dá)式為:

        這個公式不僅考慮到類樣本數(shù)量不同的影響,更重要的是考慮了數(shù)據(jù)分布特性即數(shù)據(jù)離散程度的影響。實驗結(jié)果也表明該算法的加權(quán)方案不受使用者的主觀因素影響,完全依托于數(shù)據(jù)集的分布特性,具有較強的可遷移性。

        2.3 代價敏感學(xué)習(xí)不平衡數(shù)據(jù)集分類方法

        除了以上提到的方法來分類不平衡數(shù)據(jù)集,很多研究者還會選擇采用代價敏感學(xué)習(xí)方法來調(diào)整不平衡數(shù)據(jù)在分類時所出現(xiàn)的狀況。Li 等[45]提出了一種代價敏感的混合屬性測度多決策樹(Cost-sensitive and Hybrid attribute measure Multi-Decision Tree,CHMDT)方法用于非平衡數(shù)據(jù)集的二值分類,對兩個類進行不平衡的懲罰以提高分類精度。基于類似的原理,Veropoulos等[46]為多數(shù)類和少數(shù)類分配不同的代價,但是此方法未考慮相同類別的樣本對分類器形成的不同影響,這可能導(dǎo)致噪聲和離群值出現(xiàn)過擬合現(xiàn)象。

        Tao等[47]提出了一種新的基于自適應(yīng)成本權(quán)重的支持向量機代價敏感集成方法,使用成本敏感的支持向量機作為基分類器,并使用改進的成本敏感的Boosting方案,這個策略有利于最終分類邊界略微偏離少數(shù)類。平瑞等[48]提出基于聚類的弱平衡代價敏感隨機森林算法(Weak Balance Cost-sensitive Random Forest,WBCRF)用于不平衡數(shù)據(jù)分類,采用K-means聚類方法進行欠采樣,選擇使誤分類代價下降值最大的屬性進行劃分。實驗結(jié)果表明該方法可以有效提高單棵決策樹的分類性能。

        Elkan 等[49]提出了一個定理,該定理說明了如何通過使用標(biāo)準(zhǔn)的非代價敏感學(xué)習(xí)方法學(xué)習(xí)的分類器來改變訓(xùn)練集中的負(fù)數(shù)比例,但該定理沒有說明反例的數(shù)量應(yīng)該以什么方式改變。改進后的定理允許使用從一個概率分布中提取的訓(xùn)練集學(xué)習(xí)的分類器,放寬了最基本的假設(shè),即訓(xùn)練集和測試集都來自同一總體。

        2.4 特征選擇不平衡數(shù)據(jù)集分類方法

        數(shù)據(jù)集中若沒有一個足夠大的訓(xùn)練集,一個分類器可能無法概括數(shù)據(jù)的特征;分類器也可能過度擬合訓(xùn)練數(shù)據(jù),特別是對于高維數(shù)據(jù)在測試點上容易被誤導(dǎo)[50]。對軟件缺陷預(yù)測的研究表明[51],特征選擇和特征提取的方法可以為研究提供很大的幫助。Putten 等[52]分析了Coil Challenge 2000的數(shù)據(jù)集,發(fā)現(xiàn)特征選擇能更有效地解決過度擬合問題。

        Nam 等[53]提出了一種從特征映射角度出發(fā)的TCA(Transfer Component Analysis)方法,將源項目和目標(biāo)項目的特征映射到一個最接近兩者的潛在空間上,平衡不同項目間的數(shù)據(jù)分布差異。之后他們基于TCA優(yōu)點提出了TCA+[54],這種方法不但可以將兩個項目映射到一個空間上,還能對其進行特征分析,自動分析出一個數(shù)據(jù)歸一化方法。

        劉樹毅等[55]提出了一種基于多策略的特征選擇方法,對軟件靜態(tài)缺陷數(shù)據(jù)進行評估然后排序,隨后根據(jù)每個特征出現(xiàn)的頻率進行二次排序,選取靠前的特征組成新的最優(yōu)特征子集合來平衡項目中數(shù)據(jù)的缺失。Gao等[56]提出了一種名為AHS(Automatic Hybrid Search)的屬性子集選擇方法,選擇一致性率最高的屬性子集生成超集以減少搜索空間。Laradji 等[57]結(jié)合特征選擇和集成學(xué)習(xí)也可以提高軟件缺陷預(yù)測的準(zhǔn)確性,提出了幾種特征選擇技術(shù),通過大量的實驗證明,選擇少量的質(zhì)量特征可以獲得比其他方法更高的AUC值。

        2.5 小結(jié)

        本章從深度學(xué)習(xí)、極限學(xué)習(xí)機、代價敏感學(xué)習(xí)以及特征選擇四方面介紹了不平衡數(shù)據(jù)集的分類方法,其中深度學(xué)習(xí)多使用神經(jīng)網(wǎng)絡(luò)的方法,因為神經(jīng)網(wǎng)絡(luò)的穩(wěn)健性可以自然地應(yīng)用于在線學(xué)習(xí)和大型數(shù)據(jù)集中。使用神經(jīng)網(wǎng)絡(luò)的基于深度學(xué)習(xí)的不平衡數(shù)據(jù)集分類方法和前面介紹的采樣分類方法最大的不同點就是采樣方法多對多數(shù)類和少數(shù)類實例進行采樣,而基于深度學(xué)習(xí)的分類方法會通過生成偽特征,利用神經(jīng)網(wǎng)絡(luò)對偽特征進行操作;也可以將神經(jīng)網(wǎng)絡(luò)和集成方法結(jié)合,賦予各個成員神經(jīng)網(wǎng)絡(luò)權(quán)重,或者在損失函數(shù)中引入類別標(biāo)簽權(quán)重,這樣就可以構(gòu)建具有較強的泛化能力的預(yù)測模型。基于深度學(xué)習(xí)的方法與SMOTE方法、ADASYN方法以及EUSBoost相比,在AUC和召回率方面都取得了更好的結(jié)果,而且通過實驗證明,基于深度學(xué)習(xí)的方法相比于其他方法更適合高不平衡比率的數(shù)據(jù)集。

        極限學(xué)習(xí)機近幾年也在機器學(xué)習(xí)領(lǐng)域中發(fā)揮著重要作用,2.2 節(jié)所分析的算法都應(yīng)用了極限學(xué)習(xí)機結(jié)構(gòu)簡單、訓(xùn)練速度快、泛化能力強等優(yōu)點,結(jié)合基于代價敏感和集成的思想,進一步提高了極限學(xué)習(xí)機對不平衡數(shù)據(jù)集的分類能力。在不平衡率為0.02 的二分類數(shù)據(jù)集中,與其他極限學(xué)習(xí)機算法相比準(zhǔn)確率,最低提高了2%,最高提高了15%左右,這是一個可觀的提升。但是有些基于極限學(xué)習(xí)機的方法可能會忽略相同類別的樣本對分類器形成的不同影響,導(dǎo)致出現(xiàn)噪聲和離群值,從而出現(xiàn)過擬合現(xiàn)象。極限學(xué)習(xí)機方法未來還要對相同類別的樣本數(shù)據(jù)進行重點研究。

        2.3節(jié)中基于代價敏感學(xué)習(xí)的不平衡數(shù)據(jù)集分類方法多是將代價敏感方法與各類分類算法結(jié)合,類似于決策樹、支持向量機和隨機森林等方法。將代價敏感學(xué)習(xí)引入到分類方法中調(diào)節(jié)誤分類代價,可以對不平衡數(shù)據(jù)集做出更好的決策,調(diào)節(jié)類別不平衡比例。在各類實驗評價指標(biāo)中,如SE、SP、G-mean 和AUC 等,不平衡數(shù)據(jù)集代價敏感學(xué)習(xí)分類算法都要比AdaBoost、CUSBoost和RUSBoost 等算法提高很多,這也說明了代價敏感與分類算法結(jié)合能夠有效地提高準(zhǔn)確率。

        2.4節(jié)中介紹的算法是將特征選擇方法運用于不平衡數(shù)據(jù)集分類中,相較于前面提到的方法,特征選擇方法可以更好地處理過擬合的問題。當(dāng)處理高維數(shù)據(jù)時,特征選擇會根據(jù)一定的評價標(biāo)準(zhǔn)在樣本集中選擇符合評價的最優(yōu)的數(shù)據(jù)作為特征子集,有效地將樣本集中的數(shù)據(jù)區(qū)分開,處理高維數(shù)據(jù)中的類別不平衡現(xiàn)象。隨后,更多研究者開始對特征進行分等級、賦予權(quán)重、與集成方法相結(jié)合等操作,從中選擇信息量和特征子集,從而提高不平衡數(shù)據(jù)集分類的效果。但是極個別特征選擇方法面對類別實例度量差異過大,類別間分布差異急劇增大時就可能面臨著失效的可能。

        下面對本章不平衡數(shù)據(jù)集分類算法按照使用的技術(shù)進行了一個簡單的總結(jié)與分析,如圖2所示。

        圖2 不平衡數(shù)據(jù)集分類算法Fig.2 Unbalanced data set classification algorithms

        3 未來展望

        近年來不平衡數(shù)據(jù)集的分類方法越來越多,而且研究者們也從多方面根據(jù)不平衡數(shù)據(jù)集的特點提出不同的方法,但面對不平衡數(shù)據(jù)集仍有很多方面需要去簡化和克服。下面探討針對不平衡數(shù)據(jù)集的進一步研究方向。

        (1)基于采樣技術(shù)的不平衡數(shù)據(jù)集分類算法

        采樣技術(shù)是很常見的一種處理不平衡數(shù)據(jù)集的分類算法。已經(jīng)有很多算法開始針對不平衡數(shù)據(jù)集中的噪聲進行處理,類似于噪聲濾波器,但使用的技術(shù)還是比較局限,應(yīng)嘗試使用更多的優(yōu)化技術(shù)來處理一些難以平衡的數(shù)據(jù)集。也可以針對特定的數(shù)據(jù)集研究采樣方法的不足,直接改進采樣比率等可以影響不同級別類不平衡表現(xiàn)的因素,以便提高算法在不平衡數(shù)據(jù)集上的分類效果。

        (2)基于特征層面的不平衡數(shù)據(jù)集分類算法

        高維的不平衡數(shù)據(jù)集是分類中一個棘手的問題,現(xiàn)有的針對高維不平衡數(shù)據(jù)集分類多采用特征層面的方法,當(dāng)樣本數(shù)增加或不平衡度降低時,特征選擇解決不平衡數(shù)據(jù)集的優(yōu)勢可能逐漸減弱。未來研究不僅可以采用基于特征等級的最簡單特征子集搜索方法,也可以通過其他方法進行改進,如順序回溯浮動選擇等。還可以對特征層面方法給分類性能帶來突變做一個更好的預(yù)測與估計,以免造成更多的資源浪費。

        (3)基于代價敏感學(xué)習(xí)的不平衡數(shù)據(jù)集分類算法

        現(xiàn)有的代價敏感學(xué)習(xí)通過為基分類器設(shè)置不同的誤分代價來使算法可以對不平衡數(shù)據(jù)更好地分類。在單個分類器中引入代價敏感函數(shù),從而提高對少數(shù)類樣本的關(guān)注度,提高對不平衡數(shù)據(jù)集的分類精度。針對使用代價敏感函數(shù)進行不平衡數(shù)據(jù)集分類的研究現(xiàn)狀,在未來的研究中可以使用更多種類的代價函數(shù),例如主動學(xué)習(xí)代價、計算代價、存儲代價等,來嘗試解決不平衡數(shù)據(jù)集的分類問題。

        (4)基于深度學(xué)習(xí)的不平衡數(shù)據(jù)集分類算法

        基于深度學(xué)習(xí)的不平衡數(shù)據(jù)集分類算法在近兩年取得了不錯的成效,尤其是在深度神經(jīng)網(wǎng)絡(luò)集成模型中。在之后的研究中可以嘗試優(yōu)化單個深度神經(jīng)網(wǎng)絡(luò),改進優(yōu)化策略,提高神經(jīng)網(wǎng)絡(luò)模型性能等。在使用深度生成對抗網(wǎng)絡(luò)的生成樣本數(shù)據(jù)時通常只輸入少數(shù)類樣本,在這個過程中也可以嘗試使用傳統(tǒng)的數(shù)據(jù)增強方法先對不平衡數(shù)據(jù)集進行數(shù)據(jù)增強,再使用深度生成對抗網(wǎng)絡(luò)去生成數(shù)據(jù),效果可能會更佳。

        (5)基于集成方法的不平衡數(shù)據(jù)集分類算法

        目前針對不平衡數(shù)據(jù)集的集成分類問題,研究者們已經(jīng)提出了很多方法,在一定程度上解決了不平衡數(shù)據(jù)集分類問題。但是現(xiàn)有的集成算法大多是針對二分類不平衡數(shù)據(jù)集進行研究的,在現(xiàn)實場景中很多問題都是多分類問題,雖然有個別研究工作針對多類分類問題進行了探討,但對不平衡數(shù)據(jù)集的多類集成分類問題研究仍然不足,還需要進一步深入研究。再者還可以針對特定的算法,從集成規(guī)模的大小和分配給基分類器的權(quán)重上進一步研究,選擇合適的集成大小和基分類器權(quán)重都可以使算法得到更好的效果。

        4 總結(jié)

        對不平衡數(shù)據(jù)集的多類分類問題研究仍然不足,還需要進一步深入研究,不平衡數(shù)據(jù)在現(xiàn)實生活中非常普遍,其問題也越來越明顯,因此這項研究具有重要的現(xiàn)實意義。隨著分類技術(shù)研究的一步步深入,越來越多的研究者開始從不平衡數(shù)據(jù)集類別數(shù)量分布極度不平衡的特點著手來進行研究,針對不平衡數(shù)據(jù)集的分類算法也越來越全面。本文主要基于數(shù)據(jù)的采樣方法介紹了不平衡數(shù)據(jù)集的分類方法,分為欠采樣、過采樣和混合采樣進行了介紹,在每一種采樣方法中又分為不同的側(cè)重點進行詳細(xì)對比與分析,并使用實驗數(shù)據(jù)進行了總結(jié);還分析了其他不平衡數(shù)據(jù)集的分類方法,從基于深度學(xué)習(xí)、極限學(xué)習(xí)機、代價敏感學(xué)習(xí)以及特征選擇四方面對不平衡數(shù)據(jù)集分類方法進行了分析與總結(jié)。最后展望了不平衡數(shù)據(jù)集分類方法現(xiàn)階段還存在的問題,討論了以后的解決思路。

        猜你喜歡
        學(xué)習(xí)機代價實例
        極限學(xué)習(xí)機綜述
        基于極限學(xué)習(xí)機參數(shù)遷移的域適應(yīng)算法
        愛的代價
        海峽姐妹(2017年12期)2018-01-31 02:12:22
        分層極限學(xué)習(xí)機在滾動軸承故障診斷中的應(yīng)用
        代價
        成熟的代價
        完形填空Ⅱ
        完形填空Ⅰ
        一種基于AdaBoost的極限學(xué)習(xí)機分類方法
        代價
        免费在线国产不卡视频| 免费AV一区二区三区无码| 国产精品久久久久亚洲| 亚洲一二三四五中文字幕| 亚洲最大成人网站| 一二三四在线观看免费视频 | 亚洲熟妇自偷自拍另欧美| 亚洲综合av在线在线播放| 国产成人综合亚洲av| 美女与黑人巨大进入免费观看| 亚洲日韩国产av无码无码精品| 躁躁躁日日躁| 91免费国产高清在线| 午夜精品久久99蜜桃 | 免费a级毛片出奶水| 久久久久久久综合日本| 91九色极品探花内射| 欧美人妻aⅴ中文字幕| 国产精品久久久久免费a∨| 日本精品一区二区在线看| 久久av不卡人妻出轨一区二区| 大地资源网高清在线播放| √天堂中文官网8在线| 韩国三级大全久久网站| 人妻精品人妻一区二区三区四区| 国产成人精品午夜二三区波多野| 国内精品大秀视频日韩精品| 大量老肥熟女老女人自拍| 少妇一区二区三区久久| 国产裸拍裸体视频在线观看| 五月婷婷激情六月| 一区二区三区极品少妇| 亚洲欧美日韩精品久久| 中文字幕在线亚洲日韩6页手机版| 国产乱老熟视频乱老熟女1| 99噜噜噜在线播放| 福利视频一二三在线观看| 亚洲AV成人综合五月天在线观看| 青青草激情视频在线播放| 最新精品国偷自产在线| 亚洲黄色尤物视频|