亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向不平衡數(shù)據(jù)集的機(jī)器學(xué)習(xí)分類策略

        2020-12-26 02:56:24徐玲玲遲冬祥
        關(guān)鍵詞:分類

        徐玲玲,遲冬祥

        上海電機(jī)學(xué)院 電子信息學(xué)院,上海201306

        1 引言

        科學(xué)技術(shù)的不斷創(chuàng)新發(fā)展使得數(shù)據(jù)迅速膨脹并呈爆炸性增長,從錯(cuò)綜復(fù)雜的海量數(shù)據(jù)中挖掘出潛在的價(jià)值成為機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域最為熱門的話題。傳統(tǒng)的分類問題大體是假設(shè)數(shù)據(jù)平衡,但在諸多應(yīng)用領(lǐng)域這種假設(shè)往往是不成立的,即數(shù)據(jù)集中某一類的數(shù)量顯著多于另一類,因此形成了不平衡數(shù)據(jù)集(imbalanced data sets)[1],此時(shí)傳統(tǒng)的分類算法如決策樹、樸素貝葉斯、KNN、SVM等基于精度評(píng)價(jià)標(biāo)準(zhǔn)的分類算法也不能很好地適用于不平衡數(shù)據(jù)集。一般稱樣本數(shù)量極端少的一類為少數(shù)類(minority class),樣本數(shù)量特別多的類別為多數(shù)類(majority class),正類和負(fù)類之間的比例稱之為不平衡比例(Imbalanced Ratio,IR),這種廣泛存在的樣本數(shù)量不平衡問題使得在處理不平衡數(shù)據(jù)集分類時(shí)容易發(fā)生錯(cuò)誤分類,尤其在不平衡比例非常高的情況下,會(huì)造成很大的分類損失。例如在癌癥疾病診斷中,把患者錯(cuò)誤診斷為正常,會(huì)使病人錯(cuò)失最佳治療時(shí)機(jī),嚴(yán)重的還會(huì)造成生命威脅;又如在欺詐檢測(cè)中,把欺詐事件誤判為正常的代價(jià)遠(yuǎn)大于把正常的誤判為異常,甚至造成不可預(yù)估的損失。

        近年來,上述數(shù)據(jù)不平衡現(xiàn)象在各行各業(yè)愈發(fā)突出,引起了眾多專家學(xué)者的高度關(guān)注[2],提出解決不平衡數(shù)據(jù)集的分類策略也層出不窮,總結(jié)起來可以歸為兩大類,一類是從數(shù)據(jù)本身出發(fā)對(duì)數(shù)據(jù)集重構(gòu),以此改變樣本數(shù)量的分布結(jié)構(gòu),使不平衡數(shù)據(jù)集內(nèi)不同類別之間的數(shù)量達(dá)到相對(duì)平衡。另一類針對(duì)傳統(tǒng)分類模型整體分類精度高卻對(duì)少數(shù)類識(shí)別能力低的特點(diǎn),分別從分類算法和分類思想層面,提出了一系列有針對(duì)性、偏向?qū)ι贁?shù)類更加關(guān)注、提高少數(shù)類分類精度的改進(jìn)策略。

        2 不平衡數(shù)據(jù)集分類問題概述

        本章主要通過介紹不平衡數(shù)據(jù)集存在的基本問題,如不平衡數(shù)據(jù)集的特征描述、常見的應(yīng)用場景、一般的分類過程以及不平衡數(shù)據(jù)集分類困難的主要來源,提供了對(duì)類不平衡數(shù)據(jù)集全面且深入的剖析。

        2.1 不平衡數(shù)據(jù)集定義及應(yīng)用場景

        數(shù)據(jù)不平衡問題主要是指數(shù)據(jù)集中各類別樣本數(shù)量分布不均衡,由于不平衡數(shù)據(jù)集分類問題的特殊性,用一般的分類算法對(duì)其進(jìn)行分類操作時(shí),往往易受“少數(shù)服從多數(shù)”原則影響。顯而易見,分類器為了提高整體的分類精度,會(huì)自然地忽略少數(shù)類對(duì)分類的影響并將其劃分為多數(shù)類。依據(jù)這樣的劃分結(jié)果確實(shí)能得到一個(gè)較高的分類性能,卻不能帶來相對(duì)高的利用價(jià)值。正所謂“物以稀為貴”,類不平衡問題中數(shù)量稀少的少數(shù)類帶來的價(jià)值遠(yuǎn)遠(yuǎn)超過多數(shù)類,集中研究它會(huì)給人們帶來巨大的潛在價(jià)值。在醫(yī)療檢測(cè)、異常檢測(cè)、故障分析、信用卡欺詐等場景中無一例外地存在不平衡數(shù)據(jù)集分類的困擾。

        2.2 不平衡數(shù)據(jù)集分類過程

        機(jī)器學(xué)習(xí)的分類過程主要包括:獲取原始數(shù)據(jù)集、數(shù)據(jù)預(yù)處理、分類模型構(gòu)建、模型評(píng)估四部分,不平衡數(shù)據(jù)集也常遵循著以下分類流程。

        (1)獲取原始數(shù)據(jù)集:數(shù)據(jù)集是機(jī)器學(xué)習(xí)算法必不可少的元素,獲取數(shù)據(jù)集也是機(jī)器學(xué)習(xí)研究的第一步,較為常見的標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)集是UCI數(shù)據(jù)集。

        (2)數(shù)據(jù)預(yù)處理:原始數(shù)據(jù)可能是雜亂無章、紛繁復(fù)雜的,直接用這樣的數(shù)據(jù)集進(jìn)行建模訓(xùn)練往往會(huì)給分類器帶來極高的訓(xùn)練成本,卻得不到較好的分類效果。通常會(huì)在對(duì)不平衡數(shù)據(jù)集分析后,進(jìn)行一些預(yù)處理操作,為訓(xùn)練模型減少后顧之憂。

        (3)分類模型構(gòu)建:這是從數(shù)據(jù)中學(xué)習(xí)從而建立一個(gè)分類模型(分類器,classifier),然后對(duì)新的輸入進(jìn)行輸出預(yù)測(cè)的過程。構(gòu)建分類模型從來不是一勞永逸的事情,需要根據(jù)不平衡數(shù)據(jù)集的內(nèi)在特征,構(gòu)建適合的分類模型。

        (4)模型評(píng)估:通過一系列的評(píng)估指標(biāo)去判斷一個(gè)分類器模型的分類效果。

        2.3 不平衡數(shù)據(jù)集分類存在的困難

        分類是機(jī)器學(xué)習(xí)研究的基本問題,就算面對(duì)一組平衡的數(shù)據(jù)集,分類問題本身也沒有一套較為完善的處理算法,不平衡數(shù)據(jù)集又以其內(nèi)在的復(fù)雜性和特殊性,使得這一領(lǐng)域的研究還存在諸多有待解決的困難,其分類困難的主要原因如下。

        (1)數(shù)據(jù)采樣困難:分類問題常帶來的是大量數(shù)據(jù),但在不平衡數(shù)據(jù)集中少數(shù)類樣本所占比值往往遠(yuǎn)不及整體樣本的百分之一。雖然會(huì)采取一系列的采樣策略去平衡數(shù)據(jù),而現(xiàn)存的采樣方法普遍存在諸如過擬合、易丟失多數(shù)類樣本信息、增加冗余信息等缺陷。

        (2)算法選擇困難:常見的較為成熟的分類算法如決策樹、隨機(jī)森林、支持向量機(jī)等雖已取得長足的發(fā)展,但它們對(duì)不平衡數(shù)據(jù)中少數(shù)類的識(shí)別率低,不能很好地適應(yīng)不平衡數(shù)據(jù)集的特點(diǎn)。

        (3)數(shù)據(jù)識(shí)別困難:噪聲通常是數(shù)據(jù)集中不可避免的因素,少數(shù)類樣本遇上噪聲無疑會(huì)降低分類器對(duì)少數(shù)類的識(shí)別能力。特別當(dāng)噪聲數(shù)據(jù)的數(shù)量與少數(shù)類樣本數(shù)量持平或多于時(shí),可能出現(xiàn)分類器同時(shí)學(xué)習(xí)噪聲和少數(shù)類的風(fēng)險(xiǎn)。因此,盡可能多地去除不平衡數(shù)據(jù)集中的噪聲尤為重要,也與后續(xù)分類器順利分類息息相關(guān)。

        (4)性能評(píng)價(jià)困難:性能評(píng)價(jià)對(duì)衡量一個(gè)分類器的優(yōu)劣具有重要的評(píng)判價(jià)值,也為選擇合適的分類器提供了不可或缺的參考價(jià)值?;跍?zhǔn)確率和錯(cuò)誤率的評(píng)價(jià)指標(biāo)會(huì)為了追求整體較高的準(zhǔn)確率和較低的錯(cuò)誤率,不惜以犧牲少數(shù)類為代價(jià)將未知樣本向多數(shù)類傾斜,忽略了少數(shù)類樣本的分類精度,因而不能很好地反映模型的好壞。

        3 不平衡數(shù)據(jù)集的數(shù)據(jù)重構(gòu)策略

        數(shù)據(jù)重構(gòu)策略是獨(dú)立于分類算法、在數(shù)據(jù)層面上對(duì)原始數(shù)據(jù)分布進(jìn)行預(yù)處理的過程,旨在將不平衡數(shù)據(jù)集轉(zhuǎn)換成較平衡數(shù)據(jù)集,然后采用對(duì)平衡數(shù)據(jù)的分類方法進(jìn)行學(xué)習(xí)分類和性能評(píng)估。目前最為常見的數(shù)據(jù)重構(gòu)策略有特征選擇和重采樣技術(shù)。

        3.1 特征選擇

        有時(shí)數(shù)據(jù)集中的數(shù)據(jù)是不相關(guān)的、冗余的或是有噪聲的,特征選擇的目的是在不丟失有用信息的前提下,采用“取其精華,去其糟粕”的思想,從原始特征空間中選擇較優(yōu)的特征,剔除劣等特征,從而在原始特征中選擇更適合不平衡數(shù)據(jù)集、能更好地反映不平衡數(shù)據(jù)集特點(diǎn)的訓(xùn)練子集,使構(gòu)建的分類器模型達(dá)到最優(yōu)的性能。

        常見的特征選擇方法大致可分為三類:過濾式(filter)、包裹式(wrapper)和嵌入式(embedding)。以下分別介紹了三種特征選擇方法的特點(diǎn)、分析了面對(duì)不平衡數(shù)據(jù)集時(shí)它們做出的一系列改進(jìn)方法。

        (1)過濾式特征選擇算法(filter)

        過濾式算法與分類器獨(dú)立,在訓(xùn)練分類器之前先利用距離測(cè)度、信息測(cè)度和相關(guān)性測(cè)度等特征選擇方法對(duì)初始特征進(jìn)行“過濾”,再使用過濾后的特征對(duì)模型訓(xùn)練。文獻(xiàn)[3]便提出三種filter 技術(shù):高權(quán)重(HW)、差分少數(shù)重復(fù)(DMR)和平衡少數(shù)重復(fù)(BMR),有效地從不平衡分布數(shù)據(jù)集中識(shí)別和選擇出重要信息的特征。Relief[4]是一種典型的基于filter 原理的特征選擇方法,根據(jù)二分類中每個(gè)樣本的特征與其最近的樣本之間的差異來估計(jì)特征的重要性,為分類貢獻(xiàn)大的特征賦予較大的權(quán)值,Relief 算法簡單、運(yùn)行效率高、對(duì)數(shù)據(jù)類型也沒有限制,然而它在廣泛應(yīng)用的同時(shí),暴露出不適合處理有干擾的數(shù)據(jù),也不適合處理不平衡數(shù)據(jù)等缺陷。為了彌補(bǔ)這些缺陷,菅小艷等[5]提出基于Relief 算法的閾值-Relief 干擾數(shù)據(jù)特征選擇算法,消除了干擾數(shù)據(jù)對(duì)分類結(jié)果的影響。

        特征選擇方法多采用歐氏距離來衡量樣本之間的差異,以識(shí)別出有助于分類的特征。歐氏距離簡單易計(jì)算,卻只局限于兩個(gè)樣本之間的相似度,忽略了數(shù)據(jù)的整體結(jié)構(gòu)以及類內(nèi)的不平衡,導(dǎo)致分類器的分類性能較差。Shahee 等[6]由此提出了基于距離的特征選擇方法(ED-Relief),其特點(diǎn)是采用一種新的距離度量,利用歸一化JF散度的幾何平均值以及類之間的分離來同時(shí)處理類內(nèi)和類間的不平衡,突破了傳統(tǒng)僅基于類間不平衡特征選擇的局限。

        由于filter 算法獨(dú)立于分類器,只是通過分析原始特征集的內(nèi)在特性,再結(jié)合相應(yīng)的評(píng)價(jià)準(zhǔn)則來選擇特征子集,通常會(huì)降低分類器的準(zhǔn)確率。

        (2)包裹式特征選擇算法(wrapper)

        包裹式特征選擇算法[7]與分類器相結(jié)合,直接把最終將要使用的分類器的性能作為特征子集的評(píng)價(jià)準(zhǔn)則,旨在通過啟發(fā)式或順序式搜索等方式為給定的分類器選擇出能夠取得較高準(zhǔn)確率、有利于其性能的特征子集。Yang等[8]提出的基于集成的包裹式特征選擇方法,從類分布高度不平衡的數(shù)據(jù)中進(jìn)行特征選擇,通過采樣方法從原始的不平衡數(shù)據(jù)集中創(chuàng)建多個(gè)平衡數(shù)據(jù)集,然后使用在平衡數(shù)據(jù)集上訓(xùn)練的基分類器集成來評(píng)估特征子集。Das等[9]正是分析了過濾和包裹式方法在特征選擇中的優(yōu)缺點(diǎn),從而提出一種新的混合算法,它利用提升技術(shù),將wrapper 方法的一些特征融合到一種快速的特征選擇filter 方法中。實(shí)驗(yàn)結(jié)果表明,該混合算法不僅在訓(xùn)練速度上優(yōu)于單一的wrapper 方法,并且可以很好地?cái)U(kuò)展到具有數(shù)千個(gè)特征的數(shù)據(jù)集。

        雖然包裹式特征選擇方法為給定分類器進(jìn)行優(yōu)化,獲得了比過濾式特征選擇方法更好的性能,但它需要不斷地訓(xùn)練和測(cè)試分類器以找到最優(yōu)的特征組合,需要的計(jì)算代價(jià)大,遍歷時(shí)間長。

        (3)嵌入式特征選擇算法(embedding)

        不同于過濾式和包裹式方法,嵌入式算法沒有將特征選擇過程和分類器訓(xùn)練過程明顯區(qū)別,而是將這兩者有機(jī)融合在一起,在訓(xùn)練分類器的過程中自動(dòng)進(jìn)行特征選擇。不僅能使所訓(xùn)練的分類器具有較高的準(zhǔn)確率,還能大大節(jié)省計(jì)算開銷。Maldonado等[10]針對(duì)高維不平衡數(shù)據(jù),采用嵌入式特征選擇方法選擇原始數(shù)據(jù)集中不同類型的特征來權(quán)衡對(duì)少數(shù)類樣本的重要性,從而篩選出對(duì)有效分類出少數(shù)類樣本更有意義的特征,同時(shí)達(dá)到降維的目的,更有利于分類器的訓(xùn)練。Liu 等[11]提出代價(jià)敏感的嵌入式特征選擇方法,在基于CART[12]決策樹算法結(jié)構(gòu)的基礎(chǔ)上,增加了一種處理不平衡數(shù)據(jù)集的索引加權(quán)方法以達(dá)到提升分類器分類性能的目的。

        一個(gè)好的特征選擇可以提高分類器的學(xué)習(xí)速度、減少內(nèi)存消耗、簡化模型。文獻(xiàn)[13]便全面介紹了上述三種特征選擇方式的優(yōu)缺點(diǎn)及其各自適用的應(yīng)用場景。

        3.2 重采樣技術(shù)

        特征選擇側(cè)重對(duì)數(shù)據(jù)進(jìn)行“選擇”,選擇更有助于分類的特征進(jìn)行訓(xùn)練,重采樣技術(shù)則是一種異于特征選擇的數(shù)據(jù)重構(gòu)策略,通過調(diào)整多數(shù)類和少數(shù)類之間的樣本分布結(jié)構(gòu),達(dá)到削弱數(shù)據(jù)集不平衡度的目的。

        3.2.1 欠采樣(Under-Sampling)

        欠采樣策略通過減少部分多數(shù)類樣本數(shù)量來降低類間不平衡比例,使樣本數(shù)量趨于平衡。最簡單的欠采樣策略是隨機(jī)欠采樣(Random Under-Sampling,RUS),即從多數(shù)類樣本中隨機(jī)選取一些樣本進(jìn)行剔除。常見的欠采樣策略如圖1所示。

        圖1 欠采樣分類策略

        編輯最近鄰(Edited Nearest Neighbor,ENN)[14]欠采樣算法主要?jiǎng)h除那些類別與其最近三個(gè)鄰近樣本類別中有兩個(gè)或以上不同類別的樣本,在ENN 的基礎(chǔ)上鄰域清理法(Neighborhood Cleaning Rule,NCL)[15]進(jìn)一步識(shí)別訓(xùn)練集中的樣本,若該樣本屬于少數(shù)類且它的三個(gè)最近鄰中包含兩個(gè)或以上的多數(shù)類,便將三個(gè)最近鄰中的多數(shù)類刪除;若該樣本屬于多數(shù)類且它的三個(gè)最近鄰中包含兩個(gè)或以上的少數(shù)類樣本,則把該多數(shù)類樣本直接刪除,NCL能精準(zhǔn)地刪除更多的多數(shù)類。壓縮最近鄰法(Condensed Neatest Neighbor,CNN)[16]反其道而行之,盡量保留決策邊界附近可能具有價(jià)值的多數(shù)類樣本,移除了遠(yuǎn)離決策邊界的多數(shù)類樣本,將剩下的多數(shù)類與少數(shù)類樣本組合成新的數(shù)據(jù)集訓(xùn)練。Tomek Links[17]被用來識(shí)別噪聲樣本和邊界樣本,它計(jì)算來自不同類別的兩個(gè)樣本之間的距離,若在數(shù)據(jù)集剩下的樣本中找不到任何一個(gè)樣本與它們的距離更近,則稱這兩個(gè)少數(shù)類樣本與多數(shù)類樣本互為最近鄰(稱Tomek對(duì)),Tomek對(duì)中可能存在一個(gè)噪聲或這兩個(gè)樣本位于兩類樣本的分類邊界區(qū)域。通過找到所有的Tomek對(duì),便可以刪除多數(shù)類樣本中的噪聲或邊界上的多數(shù)類樣本,從而消除類之間的重疊。單邊選擇[18](one-sided selection)欠采樣算法,利用CNN算法刪除遠(yuǎn)離邊界的樣本點(diǎn),利用Tomek對(duì)刪除噪聲樣本點(diǎn)和邊界樣本點(diǎn),兩種方法的結(jié)合使采樣后的樣本更具有學(xué)習(xí)價(jià)值。Garcia等[19]則提出了一種進(jìn)化欠采樣(Evolutionary Under-Sampling,EUS)方法,旨在從原始訓(xùn)練集中選擇數(shù)據(jù)樣本的最佳子集,使用不同的適應(yīng)度函數(shù),以在不平衡數(shù)據(jù)集的類分布和分類器性能之間取得良好的平衡。

        上述通過減少多數(shù)類的數(shù)量來平衡數(shù)據(jù)集的欠采樣技術(shù),簡單高效易實(shí)現(xiàn)但易忽略多數(shù)類潛在的信息,特別是當(dāng)不平衡比例非常高的時(shí)候需要剔除較多的多數(shù)類樣本信息,嚴(yán)重影響了分類器的泛化能力。為了緩解這一問題,提出了兩種算法,其一是EasyEnsemble[20]算法,將不平衡原始數(shù)據(jù)集劃分為多數(shù)類數(shù)據(jù)集和少數(shù)類訓(xùn)練集兩部分,對(duì)多數(shù)類隨機(jī)欠采樣獨(dú)立生成與少數(shù)類樣本數(shù)目相當(dāng)?shù)亩鄠€(gè)訓(xùn)練子集,并將生成的每個(gè)子集和少數(shù)類結(jié)合起來訓(xùn)練學(xué)習(xí)多個(gè)子分類器,然后將構(gòu)建的子分類器加權(quán)融合成一個(gè)最終的分類器模型。其二是BalanceCascade[20]算法,前者是分類器串行的級(jí)聯(lián)算法,后者則是分類器并行的算法。該算法反復(fù)迭代隨機(jī)欠采樣與分類器訓(xùn)練這兩個(gè)過程,每迭代一次把子分類器中正確分類的多數(shù)類樣本從訓(xùn)練數(shù)據(jù)集中移除,再對(duì)多數(shù)類樣本集隨機(jī)欠采樣,直到訓(xùn)練數(shù)據(jù)集中多數(shù)類樣本數(shù)目少于少數(shù)類樣本數(shù)目為止。雖然這兩種算法緩解了欠采樣存在的問題,但分批訓(xùn)練多個(gè)分類器增加了訓(xùn)練時(shí)間和學(xué)習(xí)成本。

        以上討論的大都是基于K 近鄰的欠采樣方法,在不平衡數(shù)據(jù)集的背景下,聚類[21]以其“物以類聚,人以群分”,感知樣本間的相識(shí)度,對(duì)類別歸納,對(duì)新的輸入進(jìn)行輸出預(yù)測(cè)的思想獲得了廣泛的關(guān)注。從表1 的AUC對(duì)比值中,可以看出基于聚類的欠采樣在不平衡數(shù)據(jù)集中獲得了較好的效果[22]。Lin等[23]同樣通過實(shí)驗(yàn)證明了基于聚類的欠采樣策略可以降低從多數(shù)類中移除潛在有用數(shù)據(jù)的風(fēng)險(xiǎn),使構(gòu)造的分類器優(yōu)于使用基于隨機(jī)欠采樣的分類器。文獻(xiàn)[24]提出基于聚類的欠采樣方法來選擇具有代表性的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),以提高少數(shù)類的分類精度。

        表1 UCI數(shù)據(jù)集上三種欠采樣的AUC值對(duì)比

        圖2 過采樣分類策略

        除了基于K 近鄰和基于聚類的欠采樣方法外,基于進(jìn)化論的遺傳算法也時(shí)常被用來探究多數(shù)類樣本之間的特性,如Drown等[25]通過遺傳算法對(duì)多數(shù)類樣本欠采樣,同時(shí)去除了噪聲和冗余數(shù)據(jù),使得采樣后的數(shù)據(jù)更利于分類器訓(xùn)練。文獻(xiàn)[26]等提出基于遺傳算法的欠采樣GAUS(Genetic Algorithm Based Under-Sampling)方法,使用遺傳算法對(duì)樣本選擇,彌補(bǔ)了單一使用欠采樣算法易丟失潛在有效信息的不足,使分類器的性能更加穩(wěn)定。

        3.2.2 過采樣(Over-Sampling)

        與欠采樣相對(duì)應(yīng)的過采樣技術(shù)采用增加不平衡數(shù)據(jù)集中少數(shù)類數(shù)量的策略,通過一系列方法合成新的少數(shù)類樣本,并添加到原始數(shù)據(jù)集中,從而均衡數(shù)據(jù)集。隨機(jī)過采樣(Random Over-Sampling,ROS)同樣是最簡單的過采樣策略,從樣本少的類別中隨機(jī)復(fù)制采樣,再將采樣得來的樣本添加到數(shù)據(jù)集中。過采樣策略實(shí)現(xiàn)思想簡單,但以這樣簡單隨機(jī)復(fù)制的方法來增加少數(shù)類樣本,易造成過擬合,使模型沒有很好的泛化能力,新合成樣本的加入也會(huì)增加樣本訓(xùn)練時(shí)間。為了降低分類算法過擬合的可能性,過采樣策略處理不平衡數(shù)據(jù)集引起了眾多專家學(xué)者的廣泛關(guān)注,經(jīng)典的SMOTE 過采樣算法應(yīng)運(yùn)而生。常見的過采樣分類策略如圖2所示。

        SMOTE(Synthetic Minority Over-sampling Technique)是由Chawla 等人[27]提出的基于隨機(jī)過采樣算法的一種改進(jìn)的線性插值過采樣方法。該算法通過對(duì)少數(shù)類進(jìn)行分析,取每一個(gè)少數(shù)類樣本點(diǎn)xi,沿著連接它們?cè)谑S嗌贁?shù)類中隨機(jī)選擇出的k 個(gè)最近鄰的樣本點(diǎn)x?i,并以0~1 之間的采樣倍率進(jìn)行線性插值,從而產(chǎn)生新的合成數(shù)據(jù)(synthesized data),其合成原理如公式(1)所示,合成示意圖如圖3所示。

        圖3 SMOTE算法合成數(shù)據(jù)示意圖

        SMOTE算法不僅有效彌補(bǔ)了隨機(jī)過采樣簡單復(fù)制少數(shù)類合成新樣本易造成模型過擬合、泛化能力不強(qiáng)等缺陷,還以其設(shè)計(jì)過程簡單易實(shí)現(xiàn),具有較強(qiáng)的魯棒性等優(yōu)勢(shì),為人們研究不平衡數(shù)據(jù)集提供了強(qiáng)有力的理論基礎(chǔ),后續(xù)衍生出一系列基于SMOTE 算法原理的采樣策略,文獻(xiàn)[28]綜述了自SMOTE 算法被提出15 年來系列擴(kuò)展算法及它帶來的影響和將迎來的挑戰(zhàn)。

        從表2中也可以明顯看出SMOTE算法在不同不平衡數(shù)據(jù)集分類器中的AUC值明顯高于其他重采樣算法[29]。

        表2 三種重采樣方法在不同不平衡數(shù)據(jù)集使用C4.5分類的AUC值比較 %

        MSMOTE[30]是一種典型的優(yōu)化算法,它彌補(bǔ)了SMOTE合成數(shù)據(jù)時(shí)對(duì)數(shù)據(jù)集中少數(shù)類分布特征和對(duì)潛在噪聲欠考慮的不足,通過計(jì)算少數(shù)類樣本與訓(xùn)練數(shù)據(jù)樣本間的距離,將少數(shù)類樣本劃分為安全、邊界和潛在噪聲三類,并對(duì)安全樣本隨機(jī)選擇k 最近鄰樣本點(diǎn)、對(duì)邊界樣本只選擇最近鄰樣本點(diǎn),來進(jìn)行SOMTE采樣,對(duì)潛在噪聲不進(jìn)行任何操作。Borderline-SMOTE[31]則利用k 近鄰規(guī)則將少數(shù)類樣本分為噪聲、邊界和安全三個(gè)區(qū)域,重點(diǎn)關(guān)注那些容易被錯(cuò)誤分類的邊界樣本,分析和識(shí)別邊界中的少數(shù)類樣本,只對(duì)邊界上的少數(shù)類進(jìn)行SMOTE 過采樣,減少了對(duì)所有的少數(shù)類進(jìn)行過采樣的處理時(shí)間、強(qiáng)化了邊界數(shù)據(jù)的學(xué)習(xí)。自適應(yīng)合成抽樣算法(adaptive synthetic sampling,ADASYN)[32],同樣是對(duì)少數(shù)類進(jìn)行劃分并針對(duì)其特征采取不同的處理方式合成新樣本。但ADASYN方法側(cè)重于根據(jù)樣本分類的難易程度為少數(shù)類樣本賦予不同的權(quán)重,并不斷自適應(yīng)調(diào)整,不僅減少了原始不平衡數(shù)據(jù)分布帶來的偏差,而且自適應(yīng)地將決策邊界轉(zhuǎn)移到難以學(xué)習(xí)的樣本上。然而它易受離群點(diǎn)的影響,當(dāng)一個(gè)少數(shù)類樣本的K 近鄰都是多數(shù)類樣本時(shí),會(huì)被賦予相當(dāng)大的權(quán)重,進(jìn)而會(huì)在其周圍合成較多的樣本。此外蔣華等[33]發(fā)現(xiàn)無論是SMOTE還是ADSYN 方法在合成新樣本時(shí)都忽略了數(shù)據(jù)集分布特點(diǎn),從而提出將兩者相結(jié)合來合成少數(shù)類樣本,使不同類別樣本點(diǎn)邊界更加清晰,分類性能明顯優(yōu)于兩者單獨(dú)使用。文獻(xiàn)[34]正是認(rèn)識(shí)到SMOTE算法在沒有考慮多數(shù)類的情況下泛化了少數(shù)類區(qū)域的現(xiàn)象,提出了Safe-Level-SMOTE 算法,它在合成數(shù)據(jù)之前使用最近鄰少數(shù)樣本為每一個(gè)少數(shù)類計(jì)算一個(gè)安全級(jí)別,沿著同一條線根據(jù)不同的安全級(jí)別賦予不同的采樣權(quán)重,由于只在安全區(qū)域生成所有合成樣本,使得每個(gè)新合成的樣本的位置將更接近最大安全級(jí)別,獲得了更好的性能。盡管諸多SMOTE 改進(jìn)算法獲得了較好的成效,但仍然無法解決數(shù)據(jù)集中少數(shù)類樣本分布邊緣化和計(jì)算復(fù)雜度較大的問題,為此趙清華等[35]提出TSMOTE(Triangle SMOTE)算法和MDSMOTE(Max Disatance SMOTE)算法,前者著重關(guān)注新樣本產(chǎn)生的區(qū)域,避免所產(chǎn)生的新樣本使數(shù)據(jù)集分布邊緣化;后者只關(guān)注少數(shù)類樣本質(zhì)心點(diǎn)和距離質(zhì)心最遠(yuǎn)的少數(shù)類樣本點(diǎn),在這兩個(gè)樣本點(diǎn)連線之間隨機(jī)產(chǎn)生新樣本。

        雖然上述SMOTE改進(jìn)算法合成新數(shù)據(jù)采取的技術(shù)各不相同,核心仍是在選定的線段上線性插值。Luo等[36]針對(duì)SMOTE線性插值的不足提出利用不平衡三角形合成數(shù)據(jù)(the Imbalanced Triangle Synthetic Data method,ITSD),充分利用數(shù)據(jù)空間里將多數(shù)類和少數(shù)類分開的機(jī)器學(xué)習(xí)分類超平面,從超平面的兩端取三個(gè)數(shù)據(jù)構(gòu)成不平衡三角形,最大限度地利用了少數(shù)類和多數(shù)類數(shù)據(jù)。基于高斯概率分布的Gaussian-based SMOTE[37]算法,結(jié)合特征空間中的高斯概率分布,解決了SMOTE傾向于以高概率在同一條直線上合成數(shù)據(jù)易造成過擬合的問題。它不再以0~1間均勻分布的隨機(jī)數(shù)生成數(shù)據(jù),而是采用介于0~從高斯分布中啟發(fā)式選擇數(shù)字,使SMOTE算法產(chǎn)生的新合成樣本不顯著偏離直線。

        以上主要是針對(duì)線性可分?jǐn)?shù)據(jù)集的討論,實(shí)際應(yīng)用中也不乏非線性可分的數(shù)據(jù)集,為了解決非線性數(shù)據(jù)集的分類難題,常使用核方法對(duì)其高維映射,然后在核空間線性分類[38]。王莉等[39]提出的基于核空間的過采樣算法(NKSMOTE),首先利用非線性映射函數(shù)將樣本映射到一個(gè)高維的核空間,在核空間中將少數(shù)類分成不同的類別,然后根據(jù)類別的不同賦予不同的向上采樣倍率,再結(jié)合K 近鄰合成新的樣本。Lin等[40]為了減少特征空間投影過程中的信息損失,提出新的核自適應(yīng)子空間過采樣(MOKAS)算法,利用核變體中不變特征析取的能力來自適應(yīng)子空間進(jìn)行自組織映射,盡可能地保留了原始特征在映射過程中信息的完整性。

        3.2.3 混合采樣(Hybrid-Sampling)

        欠采樣方法縮小了樣本訓(xùn)練空間、降低了學(xué)習(xí)成本,但易造成潛在有用信息遺失;過采樣方法雖擴(kuò)大了樣本訓(xùn)練空間,卻增加了訓(xùn)練時(shí)間,新合成的樣本也增加了過擬合的風(fēng)險(xiǎn)?;旌喜蓸覽41]將過采樣和欠采樣融合在一起,一定程度彌補(bǔ)了二者的缺點(diǎn),也能兼顧他們的優(yōu)點(diǎn),往往能夠取得比采用單個(gè)采樣策略更好的效果。

        Padmaja等[42]對(duì)不平衡數(shù)據(jù)集中的多數(shù)類樣本隨機(jī)欠采樣,并在對(duì)少數(shù)類樣本進(jìn)行SMOTE 過采樣時(shí)摒棄了使用歐氏距離來衡量樣本間的距離,改用插值度量(VDM)來計(jì)算距離的混合采樣方式平衡原始數(shù)據(jù)集。歐陽源遊[43]為了緩解過采樣可能存在合成無用新樣本以及噪聲樣本對(duì)分類產(chǎn)生干擾等問題,提出基于錯(cuò)分思想的混合采樣算法,以錯(cuò)分樣本為基礎(chǔ)有指導(dǎo)地、針對(duì)性地合成新樣本,避免了盲目產(chǎn)生新樣本的風(fēng)險(xiǎn)。為了解決基于聚類的欠采樣易造成訓(xùn)練集過度稀疏,SMOTE 過采樣時(shí)常引入較多噪聲等問題,林舒楊等[44]使用SMOTE過采樣算法結(jié)合聚類欠采樣方法。張明等[45]引進(jìn)“變異系數(shù)”找出樣本的稀疏域和密集域,針對(duì)稀疏域中的少數(shù)類樣本,提出BSMOTE過采樣算法;對(duì)密集域中的多數(shù)類樣本,提出了改進(jìn)的欠采樣方法(IS)形成新的多數(shù)類樣本集。

        4 不平衡數(shù)據(jù)集分類模型改進(jìn)策略

        數(shù)據(jù)重構(gòu)策略重點(diǎn)調(diào)整數(shù)據(jù)內(nèi)部分布結(jié)構(gòu),使不平衡數(shù)據(jù)集趨于平衡。分類模型的改進(jìn)策略則盡可能地保留原始數(shù)據(jù)的分布特征和數(shù)據(jù)集的內(nèi)在結(jié)構(gòu),旨在調(diào)整傳統(tǒng)的分類算法或提出對(duì)現(xiàn)有分類思想進(jìn)行優(yōu)化和改進(jìn),使其適應(yīng)不平衡數(shù)據(jù)集的內(nèi)在特征,從而提高對(duì)少數(shù)類樣本的識(shí)別能力。本章所闡述的分類模型改進(jìn)策略主要是從分類算法和分類思想這兩方面對(duì)不平衡數(shù)據(jù)集分類進(jìn)行優(yōu)化和改進(jìn)。

        4.1 分類算法的改進(jìn)策略

        傳統(tǒng)的分類算法在機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域取得了較為成熟的發(fā)展,也衍生出一系列經(jīng)典的分類算法[46],如K 最近鄰、支持向量機(jī)、樸素貝葉斯、決策樹等已得到了廣泛的應(yīng)用。然而這些分類算法大都是基于樣本數(shù)據(jù)間平衡的假設(shè),當(dāng)類不平衡時(shí)便出現(xiàn)了分類器明顯向多數(shù)類偏移的共性問題。不平衡數(shù)據(jù)集的算法改進(jìn)策略最大程度地保留了原始數(shù)據(jù)集的所有信息,因而受到了不少研究學(xué)者的青睞。

        4.1.1 K 最近鄰

        K 最近鄰(K-NearestNeighbor,KNN)[47]是一種經(jīng)典的數(shù)據(jù)挖掘分類算法,測(cè)量不同樣本之間的距離進(jìn)行分類,大體思想是計(jì)算給定樣本與剩下其他樣本之間的距離,選出距離該樣本最近的K 個(gè)鄰近值,如果這K 個(gè)樣本大多屬于某個(gè)類別,則該樣本同屬于這一類別。當(dāng)面對(duì)不平衡數(shù)據(jù)集時(shí),KNN 算法卻沒有發(fā)揮屬于它的優(yōu)勢(shì),因?yàn)槠銴 最近鄰?fù)ǔ?huì)受到多數(shù)類的影響,多數(shù)類在K 近鄰中占主導(dǎo)地位使得分類結(jié)果向多數(shù)類偏移,少數(shù)類分類精度下降。為了緩解不平衡數(shù)據(jù)的影響,Tan等[48]提出的近鄰加權(quán)算法(Neighbor-Weighted KNearest Neighbor,NWKNN),對(duì)K 近鄰中的少數(shù)類賦予較大權(quán)重,為多數(shù)類賦予較小權(quán)重,將其應(yīng)用于文本分類領(lǐng)域,取得了較好的成果。在選擇K 近鄰時(shí)通常采用歐氏距離來測(cè)量各樣本間的距離,作為一種定量距離度量公式,顯然并不適用于二分類不平衡數(shù)據(jù)集非此即彼的分類規(guī)則。Batista 等[49]由此提出了使用異質(zhì)值差度量(HVDM)距離函數(shù)來實(shí)現(xiàn)KNN 算法,該距離函數(shù)使用歐式距離來定量衡量樣本間的距離;使用VDM距離來定性考慮樣本的每個(gè)可能值分類的相似性,能夠更好地描述不平衡數(shù)據(jù)集中樣本間的差異和距離。

        4.1.2 支持向量機(jī)

        支持向量機(jī)(Support Vector Machine,SVM)[50]是基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)方法,在訓(xùn)練集的樣本空間中找到一個(gè)能夠?qū)㈩悇e不同的樣本劃分開的最優(yōu)邊界或最大間隔超平面。當(dāng)數(shù)據(jù)集中各個(gè)類別的數(shù)量比例是均衡時(shí),支持向量機(jī)生成的決策邊界是理想分界面;然而當(dāng)面對(duì)不平衡數(shù)據(jù)集時(shí)或各類別間的數(shù)量比呈現(xiàn)高度不平衡狀態(tài)時(shí),支持向量機(jī)所訓(xùn)練的分類器會(huì)明顯將決策邊界偏向少數(shù)類,與理想的分界面形成一定的偏差(如圖4 所示),受分類邊界偏移的影響,新樣本進(jìn)行分類時(shí)易被錯(cuò)分為多數(shù)類,造成少數(shù)類預(yù)測(cè)精度比多數(shù)類的預(yù)測(cè)精度低。Imam等[51]考慮到傳統(tǒng)支持向量機(jī)處理類不平衡時(shí)決策邊界的偏移,在訓(xùn)練不平衡數(shù)據(jù)集建立支持向量機(jī)模型時(shí),根據(jù)模型結(jié)果引入附加參數(shù)自動(dòng)對(duì)決策邊界進(jìn)行修正,使其趨近理想分界面,從而消除SVM對(duì)多數(shù)類的偏差。同樣為了矯正偏移的決策邊界,文獻(xiàn)[52-54]引入權(quán)重參數(shù)來調(diào)整SVM 的分類決策函數(shù),以此提高少數(shù)類樣本對(duì)分類器的貢獻(xiàn),使分類平面向多數(shù)類樣本傾斜,解決了類不平衡對(duì)SVM 造成的影響。

        圖4 數(shù)據(jù)不平衡數(shù)據(jù)集下SVM的分類邊界的偏移

        楊等[55]直接將少數(shù)類作為訓(xùn)練目標(biāo),提出基于樣本重要性的支持向量機(jī)(IISVM),首先將訓(xùn)練集按照樣本的重要性重新組織規(guī)劃,然后在新訓(xùn)練集上顯式設(shè)置早停止條件,既節(jié)省了分類器學(xué)習(xí)訓(xùn)練的時(shí)間又高效地實(shí)現(xiàn)了對(duì)少數(shù)類的識(shí)別。Batuwita等[56-57]則利用在不平衡數(shù)據(jù)集上訓(xùn)練支持向量機(jī)模型得到的分離超平面,選擇距離類邊界區(qū)域最近且信息量最大的數(shù)據(jù)樣本,再使用這些選定的樣本進(jìn)行重采樣,避免了采樣的盲目性,還處理了異常值和噪聲,極大縮短了SVM的訓(xùn)練時(shí)間。

        雖然SVM 在許多應(yīng)用領(lǐng)域取得了不錯(cuò)的分類效果,當(dāng)面對(duì)分類數(shù)據(jù)集呈現(xiàn)非線性分布的情況時(shí),卻很難找到超平面將樣本分開。此時(shí)核方法的引入巧妙地將非線性映射到一個(gè)高維核空間,進(jìn)而在高維映射的核空間分離樣本,例如Zhang等[58]首先使用標(biāo)準(zhǔn)的支持向量機(jī)算法來獲得一個(gè)近似的超平面,然后根據(jù)統(tǒng)計(jì)分析中的保角變換和卡方檢驗(yàn),結(jié)合每個(gè)樣本到支持向量機(jī)分類器的距離,得到一個(gè)新尺度的核函數(shù)來修正近似超平面,解決了數(shù)據(jù)分布不均勻而導(dǎo)致的分類器性能下降的問題。

        4.1.3 決策樹

        決策樹(Decision Tree,DT)算法是機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法之一,利用樹形結(jié)構(gòu)、基于規(guī)則進(jìn)行分類決策,將樣本數(shù)據(jù)根據(jù)其特征的重要性進(jìn)行分割,遞歸地生成決策樹,樹的葉子節(jié)點(diǎn)代表著最終決策結(jié)果。傳統(tǒng)的使用信息增益或信息熵作為選擇決策樹分裂特征的度量準(zhǔn)則在面對(duì)類不平衡數(shù)據(jù)時(shí)效果欠佳[59],Cieslak等[60]為此提出使用海林格距離作為決策樹分裂準(zhǔn)則來建立海林格距離決策樹(Hellinger Distance Decision Tree,HDDT),有效提升了決策樹在類不平衡數(shù)據(jù)下分類的魯棒性。Liu 等[61]對(duì)基于關(guān)聯(lián)規(guī)則的分類方法進(jìn)行優(yōu)化,用類置信度代替置信度,提出類置信度比例決策樹(Class Confidence Proportion Decision Tree,CCPDT),充分考慮了類之間的聯(lián)系,提高了決策樹的健壯性和對(duì)類大小的敏感性。然而決策樹在訓(xùn)練數(shù)據(jù)的過程中可能會(huì)生成復(fù)雜的樹結(jié)構(gòu),易造成過擬合的現(xiàn)象。

        4.1.4 樸素貝葉斯

        樸素貝葉斯(Naive Bayes,NB)[62]是基于Bayes 定理的簡單概率歸納算法,在各屬性間相互獨(dú)立的假設(shè)下,根據(jù)樣本的后驗(yàn)概率對(duì)樣本進(jìn)行分類,該算法不需要對(duì)參數(shù)調(diào)整和估計(jì),對(duì)缺失數(shù)據(jù)不敏感,效率高且具有廣泛的適用范圍,常應(yīng)用于文本分類、推薦系統(tǒng)等領(lǐng)域進(jìn)行決策與分析,但由于類不平衡數(shù)據(jù)的內(nèi)在特征,使得后驗(yàn)概率與實(shí)際結(jié)果存在較高的偏差,影響了樸素貝葉斯分類性能。蔣盛益等[63]便提出一種對(duì)樸素貝葉斯的后驗(yàn)概率進(jìn)行加權(quán)運(yùn)算的算法,結(jié)合基于整個(gè)數(shù)據(jù)集的類別分布構(gòu)造能自適應(yīng)數(shù)據(jù)分布的代價(jià)敏感函數(shù),使偏差盡量減小,顯著提高了分類性能。姚宇等[64]進(jìn)一步提出基于數(shù)據(jù)平滑與加權(quán)補(bǔ)集的樸素貝葉斯優(yōu)化算法,并將其應(yīng)用于文本分類中解決類不平衡及數(shù)據(jù)稀疏問題。韓忠明等[65]將貝葉斯思想引入不平衡分類任務(wù),用類別的間隔似然函數(shù)代替后驗(yàn)分布中樣本的概率似然函數(shù),優(yōu)化了不平衡類的分類判別依據(jù),從而提高不平衡數(shù)據(jù)的分類精度。

        樸素貝葉斯這一基于概率論的分類方法雖簡單易實(shí)現(xiàn),但其各屬性間需要獨(dú)立的前提假設(shè)和將各特征屬性對(duì)分類影響一致視為相同的規(guī)則,在實(shí)際應(yīng)用中很難滿足,制約了它在類不平衡數(shù)據(jù)中的發(fā)展。

        4.1.5 基于神經(jīng)網(wǎng)絡(luò)的分類策略

        神經(jīng)網(wǎng)絡(luò)(Neural Network)[66]分類算法是運(yùn)用類似于大腦神經(jīng)突觸聯(lián)接結(jié)構(gòu),對(duì)信息進(jìn)行分析處理的模型,傳統(tǒng)神經(jīng)網(wǎng)絡(luò)主要通過梯度下降算法迭代調(diào)整權(quán)值的方式來縮小訓(xùn)練誤差,將其應(yīng)用于不平衡數(shù)據(jù)集時(shí),由于多數(shù)類樣本數(shù)多于少數(shù)類樣本,導(dǎo)致梯度下降方向受多數(shù)類影響,以縮小訓(xùn)練誤差為目的的迭代會(huì)使得決策邊界向少數(shù)類樣本傾斜,降低了少數(shù)類樣本的識(shí)別率。文獻(xiàn)[67]便采用反向傳播算法對(duì)神經(jīng)網(wǎng)絡(luò)訓(xùn)練,然后應(yīng)用粒子群優(yōu)化算法(PSO)去訓(xùn)練網(wǎng)絡(luò)中的數(shù)據(jù),從而輸出預(yù)測(cè)值,優(yōu)化了神經(jīng)網(wǎng)絡(luò)的決策邊界,以此解決類不平衡數(shù)據(jù)集對(duì)神經(jīng)網(wǎng)絡(luò)分類的影響。張文東等[68]則提出一種改進(jìn)的神經(jīng)網(wǎng)絡(luò)算法,在輸入層與隱藏層之間加入一層特征受損層,剔除了部分冗余特征值,降低了數(shù)據(jù)集的不平衡度。神經(jīng)網(wǎng)絡(luò)常與SMOTE 過采樣結(jié)合起來處理類不平衡問題,如基于SMOTE 的互補(bǔ)神經(jīng)網(wǎng)絡(luò)[69]和基于SMOTE 的去噪自編碼神經(jīng)網(wǎng)絡(luò)[70],不僅均衡了數(shù)據(jù)集,還有效降低了數(shù)據(jù)冗余和噪聲。NNSMOTE[71]則彌補(bǔ)了SMOTE 線性插值的不足,采用神經(jīng)網(wǎng)絡(luò)非線性插值的思想來合成新的少數(shù)類,使合成的樣本豐富多樣,能更靈活地?cái)M合原少數(shù)類樣本的分布。值得注意的是,訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),需要較多的參數(shù),如權(quán)值和閾值等,增加了訓(xùn)練成本和時(shí)間。

        神經(jīng)網(wǎng)絡(luò)得到了如此廣泛的應(yīng)用,提出了一系列基于神經(jīng)網(wǎng)絡(luò)的算法,其中最為常見且在類不平衡應(yīng)用中獲得了較為深入的研究當(dāng)屬于極限學(xué)習(xí)機(jī)和深度學(xué)習(xí)。

        (1)極限學(xué)習(xí)機(jī)

        極限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)是由Huang等[72]提出的一種機(jī)器學(xué)習(xí)算法,主要通過隨機(jī)初始化輸入層和隱藏層的權(quán)重參數(shù),并利用最小二乘法求解輸出層權(quán)重的方式來訓(xùn)練單隱層前饋神經(jīng)網(wǎng)絡(luò),相比于傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò),在保證學(xué)習(xí)精度的前提下實(shí)現(xiàn)了更快的速度,同時(shí)避免了迭代訓(xùn)練過程。ELM 也因其泛化能力強(qiáng),訓(xùn)練速度快等優(yōu)點(diǎn)被廣泛運(yùn)用于故障診斷[73]、遙感圖像分類等諸多實(shí)際應(yīng)用領(lǐng)域。但當(dāng)面對(duì)不平衡數(shù)據(jù)集時(shí),同樣面臨著分類算法向多數(shù)類偏移的問題,針對(duì)這一現(xiàn)象很多學(xué)者也相繼提出了不同的極限學(xué)習(xí)機(jī)處理類不平衡的算法。較為常見的便是為樣本賦予不同的權(quán)重而引申出來的加權(quán)極限學(xué)習(xí)機(jī)[74-77],略有區(qū)別的是Zhang[76]將模糊記憶應(yīng)用于ELM 的每個(gè)輸入,使得不同的輸入對(duì)輸出權(quán)值的學(xué)習(xí)產(chǎn)生不同的貢獻(xiàn),于化龍等[77]基于此進(jìn)一步提出了模糊加權(quán)極限學(xué)習(xí)機(jī),引入模糊集的概念,充分挖掘每個(gè)樣本在特征空間中的分布信息并對(duì)其各自的權(quán)重進(jìn)行模糊化與個(gè)性化設(shè)置,以最大化分類性能。

        (2)深度學(xué)習(xí)

        正如上述所述,機(jī)器學(xué)習(xí)已經(jīng)在不平衡數(shù)據(jù)集處理方法中取得了較好的研究成果[78],而深度學(xué)習(xí)雖然近年在某些方面取得了不錯(cuò)的進(jìn)展,但是其在類不平衡情況下的研究還是非常少的。從圖5 機(jī)器學(xué)習(xí)和深度學(xué)習(xí)處理流程對(duì)比圖中,可以很明顯地看到深度學(xué)習(xí)省去了機(jī)器學(xué)習(xí)中人工建立特征工程的步驟,能自動(dòng)地學(xué)習(xí)特征和預(yù)測(cè)結(jié)果之間的關(guān)聯(lián),自動(dòng)了解樣本的數(shù)據(jù)分布特征,也能從簡單特征中提取復(fù)雜的特征。特別是在大數(shù)據(jù)背景下,深度學(xué)習(xí)的出現(xiàn)無疑為機(jī)器學(xué)習(xí)開辟了一個(gè)新的領(lǐng)域,真正實(shí)現(xiàn)了“自主學(xué)習(xí)”。

        圖5 機(jī)器學(xué)習(xí)與深度學(xué)習(xí)處理流程對(duì)比

        深度學(xué)習(xí)(Deep Learning,DL)[79]是源于人工神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)方法,不同于極限學(xué)習(xí)機(jī)的單隱層結(jié)構(gòu),深度學(xué)習(xí)是具有多個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò),采用多層級(jí)的模型結(jié)構(gòu),對(duì)輸入的樣本數(shù)據(jù)進(jìn)行層次化提取與分析,因而具有更強(qiáng)的自主學(xué)習(xí)和泛化能力。如Dong等[80]提出了一種新的類不平衡深度學(xué)習(xí)方法,利用批量優(yōu)化過程對(duì)少數(shù)類中難以分類的樣本進(jìn)行批量學(xué)習(xí),對(duì)少數(shù)類增量校正。常見的深度學(xué)習(xí)模型有生成式對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)等。

        生成對(duì)抗網(wǎng)絡(luò)[81]能夠?qū)W習(xí)原始樣本數(shù)據(jù)分布特征,進(jìn)而生成具有相似分布的新樣本。Lee等[82]便設(shè)計(jì)了一個(gè)用于故障檢測(cè)與診斷的深層神經(jīng)網(wǎng)絡(luò),利用經(jīng)驗(yàn)?zāi)B(tài)分解(EMD)能譜數(shù)據(jù)通過GAN 生成的新樣本,得到了比傳統(tǒng)過采樣技術(shù)更好的故障診斷結(jié)果。解曉波[83]認(rèn)為不平衡數(shù)據(jù)集分類困難的主要原因是數(shù)據(jù)集中樣本類別不協(xié)調(diào),因此著眼于少數(shù)類樣本,提出了基于生成對(duì)抗網(wǎng)絡(luò)的數(shù)據(jù)集增強(qiáng)方法,充分利用生成對(duì)抗網(wǎng)絡(luò)中生成器的強(qiáng)擬合能力最大程度擬合少數(shù)類樣本的分布,再用較為成熟的生成器去生成與多數(shù)類數(shù)量趨于均衡的少數(shù)類樣本。

        卷積神經(jīng)網(wǎng)絡(luò)(CNNs)因其能夠?qū)⒆詣?dòng)特征提取和判別分類器集成在一個(gè)模型中的特性,在深度學(xué)習(xí)領(lǐng)域受到廣泛的關(guān)注。如文獻(xiàn)[84]為了解決背景圖像塊與目標(biāo)圖像塊數(shù)量不平衡問題,利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)目標(biāo)進(jìn)行檢測(cè),只隨機(jī)選取背景圖像塊的10%進(jìn)行訓(xùn)練,極大地降低了訓(xùn)練成本。陳志等[85]在使用卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中,為損失函數(shù)引入類別標(biāo)簽權(quán)重,從而強(qiáng)化少數(shù)類對(duì)模型參數(shù)的影響,極大緩解了不平衡數(shù)據(jù)集分類難的問題。Xie[86]則巧妙地將卷積和生成對(duì)抗網(wǎng)絡(luò)結(jié)合,提出了深卷積GAN(DCGAN)模型來模擬少數(shù)類的原始分布,從整體的類分布中學(xué)習(xí),從而生成新的數(shù)據(jù)來解決不平衡問題。

        4.2 分類思想的改進(jìn)策略

        分類算法側(cè)重通過對(duì)分類器改進(jìn)和優(yōu)化來適應(yīng)不平衡數(shù)據(jù)集的內(nèi)部分布結(jié)構(gòu),而分類思想上的改進(jìn)則保持了各類分類器原有的屬性特征,根據(jù)不平衡數(shù)據(jù)集的特征采用不同的學(xué)習(xí)思想進(jìn)行分類改進(jìn),但它們最終的分類實(shí)現(xiàn)往往還是要借助于傳統(tǒng)的分類器。

        4.2.1 代價(jià)敏感學(xué)習(xí)

        不平衡數(shù)據(jù)集分類過程中,數(shù)量稀少的少數(shù)類往往是需要重點(diǎn)關(guān)注的研究對(duì)象,傳統(tǒng)的分類器并不對(duì)各個(gè)類別的錯(cuò)分代價(jià)加以區(qū)分。代價(jià)敏感學(xué)習(xí)(Cost Sensitive Learning)[87]針對(duì)分類器對(duì)少數(shù)類的錯(cuò)分代價(jià)遠(yuǎn)遠(yuǎn)大于對(duì)多數(shù)類的這一特點(diǎn),給予少數(shù)類更高的錯(cuò)分代價(jià),從而使構(gòu)建的分類器對(duì)少數(shù)類有較高的識(shí)別率和關(guān)注度,并最小化錯(cuò)誤分類所帶來的影響,即使面對(duì)大型數(shù)據(jù)集也能取得相當(dāng)好的效果。

        MetaCost[88]便是一種典型的代價(jià)敏感元學(xué)習(xí)方法,通過估計(jì)訓(xùn)練樣本的后驗(yàn)概率密度,并結(jié)合代價(jià)矩陣來計(jì)算每個(gè)訓(xùn)練樣本的理想類別,然后根據(jù)理想類別修改原訓(xùn)練樣本的類別得到新的訓(xùn)練集,最后使用基于錯(cuò)誤率的分類器學(xué)習(xí)此新的訓(xùn)練集。Zhou 等[89]則將代價(jià)敏感引入神經(jīng)網(wǎng)絡(luò)中,深入研究了采樣和閾值移動(dòng)對(duì)訓(xùn)練代價(jià)敏感神經(jīng)網(wǎng)絡(luò)的影響。

        如上分析可知,代價(jià)敏感根據(jù)不同的類別對(duì)分類影響的重要程度給予相應(yīng)的權(quán)重,迫使分類器更加關(guān)注權(quán)值大的類別,常與其他主流的分類算法結(jié)合使用獲得了更好的分類效果。雖然在很多實(shí)際運(yùn)用中取得了較大的成功,但也存在模型過擬合的風(fēng)險(xiǎn),而準(zhǔn)確地確定誤分類成本也是需要有足夠多的先驗(yàn)知識(shí)來支撐的,同樣需要付出很大的學(xué)習(xí)代價(jià)去確定代價(jià)參數(shù),數(shù)據(jù)內(nèi)在特征也為代價(jià)敏感學(xué)習(xí)用于類不平衡數(shù)據(jù)帶來巨大的挑戰(zhàn)。

        4.2.2 集成學(xué)習(xí)

        集成學(xué)習(xí)[90]是在原始訓(xùn)練集上訓(xùn)練多個(gè)子分類模型,預(yù)測(cè)時(shí)根據(jù)每個(gè)子分類器的分類結(jié)果進(jìn)行加權(quán)投票,得到最終預(yù)測(cè)結(jié)果來綜合決策分類的技術(shù),即將多個(gè)分類器組合起來,形成一個(gè)強(qiáng)大的分類器,如圖6 所示。集成算法增加了分類器的多樣性,按集成組合方式的不同,大致可分為三類,分別是Bagging、Boosting 以及隨機(jī)森林。

        圖6 基于集成學(xué)習(xí)的方法

        (1)Bagging

        Bagging[91]是子學(xué)習(xí)器間不存在強(qiáng)依賴關(guān)系,可同時(shí)生成的并行化套袋算法,主要思想是使用Bootstraping方法從原始數(shù)據(jù)集中隨機(jī)有放回地抽取數(shù)據(jù)樣本,形成一個(gè)新的訓(xùn)練集,進(jìn)行多次同樣的隨機(jī)抽取得到多個(gè)獨(dú)立的訓(xùn)練集,對(duì)生成的多個(gè)訓(xùn)練集來最小化預(yù)測(cè)方差,獨(dú)立地為每個(gè)訓(xùn)練集生成一個(gè)分類器,然后將它們各自的模型采用投票或加權(quán)的方式得到分類結(jié)果。通常在使用Bagging 算法之前會(huì)對(duì)原始數(shù)據(jù)集進(jìn)行重采樣,得到均衡的數(shù)據(jù)集來集成訓(xùn)練分類器的每個(gè)子分類器,有效地避免了重采樣技術(shù)的潛在缺點(diǎn),增強(qiáng)了弱分類器的性能。例如文獻(xiàn)[92]使用SMOTE過采樣和欠采樣技術(shù)與Bagging 結(jié)合得到SMOTEBagging 和UnderBagging to OverBagging(UOBag)等套袋算法。RB-Bagging[93](Roughly Balanced-Bagging)算法則利用一種新的采樣技術(shù)改進(jìn)了現(xiàn)有的基于Bagging的不平衡數(shù)據(jù)處理方法中每一個(gè)子分類器的類分布與期望的分布完全相同的現(xiàn)狀,使每個(gè)子集的類分布變得略有不同,以此增加訓(xùn)練模型的多樣性。

        (2)Boosting

        Boosting[94]是子學(xué)習(xí)器間存在強(qiáng)依賴關(guān)系,須以串行方式生成的序列化提升算法。Boosting 在對(duì)每個(gè)模型序列進(jìn)行擬合時(shí),會(huì)更加關(guān)注那些序列中容易錯(cuò)分或難以處理的數(shù)據(jù),即每次迭代都是對(duì)上一輪結(jié)果的優(yōu)化、提升。AdaBoost[95]是典型具有代表性的Boosting 提升算法,它可以自適應(yīng)地修改權(quán)重以減少預(yù)測(cè)偏差,從而提高分類器性能并有效地防止過擬合。該算法主要使用整個(gè)數(shù)據(jù)集對(duì)每個(gè)分類器進(jìn)行串行訓(xùn)練,在每一輪訓(xùn)練之后,將更多的精力放在分類難度大的樣本數(shù)據(jù)上,經(jīng)過多次迭代后,錯(cuò)誤分類的數(shù)據(jù)樣本權(quán)重都會(huì)增加,而正確分類的數(shù)據(jù)樣本權(quán)重則會(huì)減少。AdaCost[96]是AdaBoost的變體,它為了減少累積的錯(cuò)誤分類成本,在迭代過程中利用錯(cuò)分代價(jià)來更新數(shù)據(jù)集中樣本的分布,降低了固定和可變的錯(cuò)誤分類成本。

        同樣,提升算法與采樣技術(shù)結(jié)合,衍生出SMOTEBoost[97]等一系列基于采樣技術(shù)的Boosting 算法在處理不平衡數(shù)據(jù)集的分類問題中也獲得顯著的成效。盡管Boosting 算法具有較高的準(zhǔn)確率,但它的串行迭代過程,時(shí)常會(huì)降低訓(xùn)練速度、增加訓(xùn)練時(shí)間和學(xué)習(xí)成本。

        (3)隨機(jī)森林

        隨機(jī)森林(Random Forest,RF)[98]是Bagging的一個(gè)擴(kuò)展變體,利用Bootstrap隨機(jī)重采樣技術(shù)和節(jié)點(diǎn)隨機(jī)分裂技術(shù)構(gòu)建多棵決策樹,通過投票得到最終分類結(jié)果。其各子樹間相對(duì)獨(dú)立,各自選擇部分樣本進(jìn)行訓(xùn)練或?qū)μ卣靼粗匾潭群Y選出對(duì)分類貢獻(xiàn)較大的特征來分裂,避免了過擬合的風(fēng)險(xiǎn),可擴(kuò)展性強(qiáng),受噪聲和異常值影響較小,即使是面對(duì)高維特征也能獲得較優(yōu)的分類結(jié)果。盡管如此,隨機(jī)森林遇到類不平衡數(shù)據(jù)時(shí),分類效果仍欠佳。為了使隨機(jī)森林算法能夠適用于不平衡數(shù)據(jù)的分類,目前提出了兩種主流的優(yōu)化方案,一種是結(jié)合預(yù)處理的隨機(jī)森林優(yōu)化算法,另一種則是改進(jìn)自身構(gòu)建過程的隨機(jī)森林優(yōu)化算法。如文獻(xiàn)[99]針對(duì)這兩種解決方案提出了平衡隨機(jī)林(BRF)和加權(quán)隨機(jī)林(WRF),實(shí)驗(yàn)結(jié)果表明這兩種方法均能提高少數(shù)類的預(yù)測(cè)精度。魏正韜等[100]從數(shù)據(jù)層進(jìn)行預(yù)處理,提出基于不平衡數(shù)據(jù)對(duì)隨機(jī)森林算法進(jìn)行新的改進(jìn),對(duì)采樣結(jié)果增加約束條件來改進(jìn)重采樣方法,削弱采樣對(duì)類不平衡的影響,保證算法隨機(jī)性的同時(shí)利用生成的不平衡系數(shù)對(duì)每個(gè)決策樹進(jìn)行加權(quán)處理,以此提高不平衡數(shù)據(jù)敏感決策樹在最終投票時(shí)的權(quán)重。文獻(xiàn)[101]則從算法構(gòu)建自身出發(fā),在構(gòu)造隨機(jī)森林算法過程中為處于劣勢(shì)地位的少數(shù)類賦予較高的投票權(quán)重,提高了少數(shù)類樣本識(shí)別率。

        4.2.3 單類學(xué)習(xí)

        數(shù)據(jù)集中數(shù)據(jù)分布不平衡時(shí),分類器通常都會(huì)間接地忽略少數(shù)類對(duì)分類結(jié)果的影響,傾向于將所有的數(shù)據(jù)劃分為多數(shù)類。為了避免分類器在對(duì)樣本分類時(shí)受多數(shù)類支配,傳統(tǒng)采用基于區(qū)別的分類方法逐漸淡出了人們的研究視線,探索出了一種基于識(shí)別的方法進(jìn)行學(xué)習(xí),單類學(xué)習(xí)由此應(yīng)運(yùn)而生。它只利用感興趣的少數(shù)類數(shù)據(jù)樣本進(jìn)行學(xué)習(xí),對(duì)于新的樣本,通過比較該樣本與目標(biāo)類的相似程度而識(shí)別該樣本是否歸屬于目標(biāo)類,巧妙地將兩類問題轉(zhuǎn)化成單類問題。在解決不平衡分類問題時(shí),從少數(shù)類到多數(shù)類,單類學(xué)習(xí)為每個(gè)類制定規(guī)則,不斷為每個(gè)規(guī)則添加條件。William[102]基于此就提出了一種直接僅用于少數(shù)類的規(guī)則學(xué)習(xí)算法,該算法以規(guī)則為基礎(chǔ),在規(guī)則歸納系統(tǒng)中采用分而治之的方法建立迭代規(guī)則,覆蓋了以往未覆蓋的訓(xùn)練樣本。對(duì)可能包含噪聲特征的高維空間下的高度不平衡數(shù)據(jù)集,單類學(xué)習(xí)效果顯著。Bernhard 等[103]則提出了單類支持向量機(jī)(One-Class Support Vector Machine,OCSVM),它把原始數(shù)據(jù)映射到特征空間中,同時(shí)把原點(diǎn)作為異常點(diǎn),將原點(diǎn)和訓(xùn)練樣本分隔開來的超平面作為決策邊界來實(shí)現(xiàn)對(duì)新樣本的分類決策。

        單類學(xué)習(xí)僅僅考慮某一個(gè)類別的樣本數(shù)據(jù)來解決不平衡問題,雖然能夠有效地減少時(shí)間開銷,但也容易對(duì)訓(xùn)練集中的少數(shù)類造成過擬合,而且它完全無視多數(shù)類樣本的相關(guān)有用信息,泛化能力明顯下降,多用于數(shù)據(jù)極度不平衡的情況。

        4.2.4 主動(dòng)學(xué)習(xí)

        單類學(xué)習(xí)只學(xué)習(xí)感興趣的少數(shù)類樣本,進(jìn)而識(shí)別出新樣本是否屬于少數(shù)類。而主動(dòng)學(xué)習(xí)[104]能夠主動(dòng)去選擇想要學(xué)習(xí)的數(shù)據(jù),從不帶標(biāo)簽的數(shù)據(jù)中主動(dòng)選擇一部分進(jìn)行標(biāo)注,然后讓分類器進(jìn)行訓(xùn)練和學(xué)習(xí),不斷迭代這兩個(gè)過程直到達(dá)到預(yù)先設(shè)定的最優(yōu)值。即利用盡可能少的標(biāo)記數(shù)據(jù)來達(dá)到高精度,最大限度地降低獲取標(biāo)記數(shù)據(jù)的成本。文獻(xiàn)[105]較為詳細(xì)地闡述了主動(dòng)學(xué)習(xí)對(duì)不平衡數(shù)據(jù)的正面影響。主動(dòng)學(xué)習(xí)時(shí)常會(huì)與重采樣技術(shù)、SVM算法等結(jié)合起來處理類不平衡問題。張永等[106]運(yùn)用SMOTE 方法均衡部分少數(shù)類樣本,得到初始分類器;然后利用主動(dòng)學(xué)習(xí)方法調(diào)整分類器精度,有效提高了不平衡數(shù)據(jù)的分類準(zhǔn)確率?;谥С窒蛄繖C(jī)的主動(dòng)學(xué)習(xí)選擇[107-108]策略,從較小的樣本庫中選擇信息數(shù)據(jù)進(jìn)行主動(dòng)學(xué)習(xí),避免了學(xué)習(xí)整個(gè)數(shù)據(jù)集帶來的開銷。Fu等[109]提出了基于確定性的主動(dòng)學(xué)習(xí)(CBAL)算法來確定每個(gè)未標(biāo)記樣本在探索的鄰域內(nèi)查詢的概率,有效地識(shí)別出信息樣本和處理不平衡數(shù)據(jù)分類問題。

        表3 各類分類算法總結(jié)

        表4 各類分類思想總結(jié)

        4.3 各類分類模型總結(jié)

        以上分別討論了各類分類模型為了適應(yīng)不平衡數(shù)據(jù)集數(shù)據(jù)分布結(jié)構(gòu)所做出的一系列的改進(jìn)和優(yōu)化,表3和表4 分別直觀地展現(xiàn)了各類分類算法和分類模型的核心、優(yōu)缺點(diǎn)以及所對(duì)應(yīng)的文獻(xiàn)。

        5 分類評(píng)價(jià)指標(biāo)

        準(zhǔn)確率(Accuracy)是分類問題的一項(xiàng)常見的評(píng)價(jià)指標(biāo),反映的是被正確分類的樣本數(shù)量占樣本總數(shù)量比值的大小。對(duì)于傳統(tǒng)的數(shù)據(jù)平衡分類問題,準(zhǔn)確率能夠很好地反映分類算法的性能。然而對(duì)于不平衡問題,少數(shù)類會(huì)向多數(shù)類傾斜,導(dǎo)致準(zhǔn)確率這一評(píng)價(jià)指標(biāo)似乎沒有參考價(jià)值。在信用卡欺詐檢測(cè)案例中,正常情況的多數(shù)類占總體樣本的比值高達(dá)99%,屬于欺詐事件的少數(shù)類占總體樣本數(shù)的1%,如果此時(shí)分類器把僅存的1%的欺詐事件歸為多數(shù)正常類,盡管分類器的準(zhǔn)確率達(dá)到99%,卻忽視了真正關(guān)注的少數(shù)類,不僅不能夠檢測(cè)出欺詐事件,不能為決策提供有意義的信息,甚至?xí)砭薮蟮膿p失。因而一般采用召回率(Recall)、精確率(Precision)等單一評(píng)價(jià)指標(biāo)和F-measure、G-mean、ROC曲線等綜合評(píng)價(jià)指標(biāo)作為不平衡數(shù)據(jù)集的評(píng)價(jià)指標(biāo)。為了更好地描述這幾類評(píng)價(jià)指標(biāo),本文首先引入混淆矩陣的相關(guān)概念?;煜仃嘯110]將預(yù)測(cè)分類結(jié)果和實(shí)際分類結(jié)果以矩陣的形式直觀地展示出來。在二分類的不平衡分類問題中,將重點(diǎn)關(guān)注的少數(shù)類記為正類,多數(shù)類記為負(fù)類?;煜仃嚾绫?所示。

        表5 混淆矩陣

        表5 中真正類(True Positive,TP)表示樣本集中被正確分為正類的個(gè)數(shù);假正類(False Positive,TP)表示樣本集中錯(cuò)分為正類的個(gè)數(shù);假負(fù)類(False Negative,TN)表示樣本集中錯(cuò)分為負(fù)類的個(gè)數(shù);真負(fù)類(True Negative,TN)表示樣本集中被正確分為負(fù)類的個(gè)數(shù)。

        5.1 單一評(píng)價(jià)指標(biāo)

        召回率(Recall)指分類正確的正類個(gè)數(shù)占所有正類個(gè)數(shù)的比例,Recall=TP/(TP+FN),召回率較高的分類器會(huì)盡可能多的關(guān)注少數(shù)類,盡量避免將少數(shù)類誤分為多數(shù)類。

        精確率(Precision)指分類正確的正類個(gè)數(shù)占所有被預(yù)測(cè)為正類個(gè)數(shù)的比例,Precision=TP/(TP+FP),精確率較高的分類器會(huì)盡可能地避免將多數(shù)類誤分為少數(shù)類。

        5.2 綜合評(píng)價(jià)指標(biāo)

        顯而易見,召回率和精確率有時(shí)是一對(duì)相互矛盾的指標(biāo),即不能保證在擁有較高召回率的同時(shí)也擁有較高的精確率。由于不平衡數(shù)據(jù)集分類的復(fù)雜性,很難做到僅使用召回率或精確率這樣單一指標(biāo)就能較準(zhǔn)確地評(píng)價(jià)分類器的性能,為了綜合反映不平衡數(shù)據(jù)集的分類性能,常采用F-measure、G-mean、ROC等作為評(píng)價(jià)指標(biāo)。

        F-measure[111]又稱F-Score,其計(jì)算公式如式(2)所示,α是常取值為1的比例系數(shù)。F-measure可以兼顧精度和召回率并找到它們的最佳組合。

        G-mean也是一項(xiàng)綜合評(píng)價(jià)指標(biāo),涉及靈敏度(Sensitive)和特異度(Specificity)兩個(gè)單一評(píng)價(jià)指標(biāo),Sensitive=TP/(TP+FN) ,衡量了分類器對(duì)正類的識(shí)別能力;Specificity=TN/(TN+FP),衡量了分類器對(duì)負(fù)類的識(shí)別能力。其表達(dá)式如式(3):

        盡管F-measure 和G-mean 對(duì)準(zhǔn)確率和錯(cuò)誤率進(jìn)行了改進(jìn)和完善,但在比較分類器和各種分布之間的性能時(shí),仍不能起到很好的評(píng)估效果。ROC[112]曲線的出現(xiàn)恰如其分地解決了難以在不同樣本分布范圍上比較不同分類器性能的這一問題。

        ROC 曲線全稱為接受者操作特性曲線(receiver operating characteristic curve)以假正率(FP_rate)和真正率(TP_rate)為軸,權(quán)衡了正確分類的收益和錯(cuò)誤分類的代價(jià)之間的關(guān)聯(lián),并以可視化的方式直觀地展現(xiàn)出來。ROC 曲線下方的面積稱為AUC(Area Under Curve)[113],AUC用來定量評(píng)價(jià)分類器預(yù)測(cè)的準(zhǔn)確性,曲線越接近左上角,值越高,即曲線下方面積越大,預(yù)測(cè)準(zhǔn)確率越高。如圖7所示,圖中L2曲線對(duì)應(yīng)的性能比曲線L1 好,D 點(diǎn)是性能最好的點(diǎn),B 點(diǎn)則是最差的點(diǎn),位于CA 直線上的點(diǎn)所代表的是隨機(jī)分類器分類的結(jié)果,位于CA線之上的點(diǎn)如G點(diǎn)的性能比隨機(jī)分類器上的點(diǎn)E好,F(xiàn) 點(diǎn)的性能比隨機(jī)分類器差。最理想的情況是TP_rate接近1,F(xiàn)P_rate接近0。圖7中TP_rate=TP/(TP+FN),F(xiàn)P_rate=FP/(FP+TN)。

        圖7 ROC曲線

        AUC 因其不受分類器種類以及先驗(yàn)概率的影響,在不平衡數(shù)據(jù)集分類性能評(píng)價(jià)指標(biāo)中獲得廣泛的認(rèn)可??紤]到不同類別的分類代價(jià)存在著一定的偏差,Weng等[114]引入了加權(quán)AUC指標(biāo),它在計(jì)算面積時(shí)引入成本偏差,更好地反映了類不平衡數(shù)據(jù)集類別間誤分代價(jià)的差異。文獻(xiàn)[115]同樣意識(shí)到ROC 曲線下的區(qū)域(AUC)由于隱式地對(duì)不同的分類器使用不同的誤分類代價(jià)分布而存在的嚴(yán)重缺陷,提出H 測(cè)度,用對(duì)稱β分布代替AUC中的隱式成本權(quán)重分布來評(píng)估分類器在訓(xùn)練不平衡數(shù)據(jù)集時(shí)的性能,即使面對(duì)高度不平衡數(shù)據(jù)時(shí)該方法也能獲得比AUC更好的評(píng)價(jià)性能。Drummond等[116]則提出了一種代價(jià)敏感評(píng)估方法:代價(jià)曲線(Cost Curves),彌補(bǔ)了ROC曲線尚存的不足,直觀地反映了分類器期望的總代價(jià),更支持了幾種關(guān)鍵的性能評(píng)估類型,評(píng)估效果更佳。

        不可否認(rèn)ROC曲線為類不平衡數(shù)據(jù)分類評(píng)估提供了強(qiáng)大的可視化方法,但當(dāng)面對(duì)不平衡比例非常高,即高度傾斜的數(shù)據(jù)集時(shí),ROC 曲線往往呈現(xiàn)出過于樂觀的圖來展示分類算法的性能,評(píng)估效果明顯下降。在這種情況下,精確召回(Precision-Recall,PR)[117]曲線則可以提供一個(gè)較為全面、信息量更大的評(píng)估曲線。

        6 不平衡數(shù)據(jù)集分類研究的挑戰(zhàn)和展望

        6.1 不平衡數(shù)據(jù)集內(nèi)在結(jié)構(gòu)分析問題

        一些研究認(rèn)為,類不平衡是造成機(jī)器學(xué)習(xí)算法分類性能受限的根本原因。但在某些情況下,分類算法在類不平衡的各個(gè)應(yīng)用領(lǐng)域也能夠獲得較高的分類性能,由此又引發(fā)了對(duì)類不平衡問題新的思考。文獻(xiàn)[118-119]等通過實(shí)驗(yàn)證明,在分類性能上造成阻礙的主要原因不是類分布不均,而是類之間的重疊程度,這常常是多數(shù)類和少數(shù)類邊界模糊造成的。因此,即使解決了類不平衡問題也并不總是有助于分類器性能的提高。一個(gè)類中由于樣本數(shù)量不同的多個(gè)子簇(也稱小分離項(xiàng),small disjuncts)而形成的類內(nèi)不平衡同樣會(huì)導(dǎo)致分類器性能的下降[120],由于普遍存在的類間不平衡問題,類內(nèi)不平衡分布問題往往被忽視。

        除此之外,以上對(duì)類不平衡數(shù)據(jù)分類方法的討論大都是在有監(jiān)督學(xué)習(xí)框架下進(jìn)行的,但實(shí)際應(yīng)用中半監(jiān)督或無監(jiān)督學(xué)習(xí)廣泛存在,即未充分標(biāo)注或完全未標(biāo)注的樣本均可能存在于數(shù)據(jù)集中,如何充分利用僅有標(biāo)注好的少數(shù)類數(shù)據(jù)或從未標(biāo)注的數(shù)據(jù)中學(xué)習(xí)隱藏信息是深入研究類不平衡數(shù)據(jù)又一大需要突破的瓶頸。

        6.2 不平衡大數(shù)據(jù)分類問題

        信息化時(shí)代的到來,數(shù)據(jù)的產(chǎn)生日益增加,如此龐大的數(shù)據(jù)體系雖然可以提供足夠多的信息進(jìn)行決策,但同樣為對(duì)這些大規(guī)模數(shù)據(jù)進(jìn)行分類提出了新的挑戰(zhàn)。不言而喻,當(dāng)使用傳統(tǒng)的不平衡數(shù)據(jù)二分類技術(shù)去處理大數(shù)據(jù)時(shí),即使分類器能夠獲得較好的分類性能,但所花費(fèi)的時(shí)間以及需要的計(jì)算成本必將是巨大的,況且很多二分類分類器在面對(duì)不平衡大數(shù)據(jù)時(shí)表現(xiàn)得并不友好,分類性能明顯下降。由于巨大的不平衡數(shù)據(jù)可能來自不同的應(yīng)用領(lǐng)域,產(chǎn)生的數(shù)據(jù)其內(nèi)部結(jié)構(gòu)所呈現(xiàn)出的多樣性和復(fù)雜性,為類不平衡數(shù)據(jù)集的分類帶來了更大的挑戰(zhàn)[121]。正如Katal[122]等指出的在大數(shù)據(jù)類不平衡比例高達(dá)10 000∶1的背景下,現(xiàn)有的分類方法對(duì)這些大數(shù)據(jù)進(jìn)行建模和分析將會(huì)變得異常困難,其困難具體表現(xiàn)在大數(shù)據(jù)體積大、數(shù)據(jù)格式紛繁復(fù)雜、需要在海量數(shù)據(jù)中對(duì)重要數(shù)據(jù)進(jìn)行過濾才能提取有價(jià)值的數(shù)據(jù)信息等,現(xiàn)有的分類方法望而卻步,此時(shí)不僅急切需要可擴(kuò)展和高效的分類算法,還需要能夠處理異構(gòu)數(shù)據(jù)的新方法,來解決大數(shù)據(jù)集下的類不平衡問題。

        大數(shù)據(jù)還時(shí)常伴隨著高維不平衡數(shù)據(jù)集的出現(xiàn),這使得分類器對(duì)少數(shù)類的識(shí)別變得更加復(fù)雜。特別在高維特征空間下,數(shù)據(jù)分布尤其稀疏,直接導(dǎo)致少數(shù)類難以識(shí)別,而高維特征中含有更多的冗余和不相關(guān)特征,也為不均衡數(shù)據(jù)分類帶來了額外的難度?,F(xiàn)存處理高維數(shù)據(jù)的主要方式是降低數(shù)據(jù)維度來找到一個(gè)適合分類的低維空間或是通過特征選擇[123]等預(yù)處理方式減少特征數(shù)量來緩解高維不平衡數(shù)據(jù)帶來的問題。但面對(duì)數(shù)據(jù)呈現(xiàn)高維和不平衡的雙重特性,目前這兩種處理方式還存在欠缺,有效地分類高維不平衡數(shù)據(jù)仍是亟待解決的問題。

        6.3 基于不平衡數(shù)據(jù)流分類問題

        以上研究的分類算法主要是從靜態(tài)的數(shù)據(jù)集中學(xué)習(xí),實(shí)際應(yīng)用中數(shù)據(jù)不乏以流的方式呈現(xiàn),如在對(duì)動(dòng)態(tài)不斷更新的網(wǎng)頁中分析數(shù)據(jù)以期建立分類模型時(shí),因其數(shù)據(jù)特征高度動(dòng)態(tài)變化的特性,對(duì)新的樣本類別分布存在不確定性使得分類任務(wù)無法如期進(jìn)行。以上分析可知,數(shù)據(jù)流分布可能隨著時(shí)間的推移而改變,會(huì)形成概念漂移(Concept Drift)[124]的現(xiàn)象,可能導(dǎo)致數(shù)據(jù)集中多數(shù)類和少數(shù)類的不平衡比例變化,流式數(shù)據(jù)也可能表現(xiàn)出不同程度的類不平衡,導(dǎo)致分類任務(wù)更加復(fù)雜多變,基于靜態(tài)學(xué)習(xí)的分類算法儼然難以根據(jù)數(shù)據(jù)集的分布規(guī)律和內(nèi)在屬性建立分類模型,進(jìn)而對(duì)新樣本進(jìn)行預(yù)測(cè),迫切需要能夠?qū)崟r(shí)處理類不平衡數(shù)據(jù)流的自適應(yīng)方法。Nguyen等[125]提出新的自適應(yīng)重用數(shù)據(jù)學(xué)習(xí)方法來解決類不平衡數(shù)據(jù)流問題便獲得了較優(yōu)的性能。Ryan等[126]則綜合考慮了數(shù)據(jù)流中分布變化和類不平衡問題,提出基于分布散度和元分類的新方法,改進(jìn)了不平衡分類研究中常用的幾種性能指標(biāo),即使對(duì)于不平衡度高且極為復(fù)雜的數(shù)據(jù)流,它的分類性能也能明顯提高。

        雖文獻(xiàn)[127]回顧了學(xué)習(xí)類不平衡數(shù)據(jù)流中的一系列框架,但是目前對(duì)類不平衡數(shù)據(jù)流的研究還是非常稀少,值得今后去進(jìn)一步研究。

        6.4 不平衡數(shù)據(jù)集的多分類問題

        本文主要研究的是類不平衡數(shù)據(jù)下的二分類問題,討論了類不平衡分類的各種策略。雖然這些應(yīng)對(duì)策略可以使用多個(gè)二元分類任務(wù)序列擴(kuò)展到多分類問題,但這大都是建立在理想的條件下,多分類問題的分類任務(wù)實(shí)際情況會(huì)復(fù)雜得多,很難判斷數(shù)據(jù)集中不同類別之間的聯(lián)系,而且也可能會(huì)為了追求某個(gè)類別較高的分類性能,而犧牲其他類別的分類性能。當(dāng)然也存在著多個(gè)少數(shù)類和多個(gè)多數(shù)類的情況,文獻(xiàn)[128]便深入研究了多少數(shù)類和多多數(shù)類這兩類多分類不平衡問題,提出三種集成方法對(duì)總體性能和少數(shù)類性能進(jìn)行分析,發(fā)現(xiàn)欠采樣技術(shù)對(duì)少數(shù)類的數(shù)量很敏感,并且在多數(shù)類數(shù)據(jù)中分類器的性能會(huì)受到損失,得出一個(gè)好的解決多分類問題的方案不是減少多數(shù)類的數(shù)量,而應(yīng)該克服過采樣帶來的過擬合問題的結(jié)論。Zhou等[129]也指出處理具有不同類別錯(cuò)誤分類代價(jià)的多類別任務(wù)會(huì)比處理兩類別的任務(wù)更困難。

        另外,分類評(píng)估指標(biāo)一直以來都飽受爭議,又由于類不平衡問題的特殊性,使得對(duì)分類器性能的評(píng)價(jià)變得更加困難,即使是針對(duì)二分類任務(wù)也鮮有為其量身定制的分類性能評(píng)估指標(biāo)出現(xiàn),而多分類問題的復(fù)雜性導(dǎo)致很多適用于二分類問題的評(píng)估指標(biāo)對(duì)于多分類問題未必適用。

        只有深入了解多分類中類不平衡的本質(zhì),才能設(shè)計(jì)一個(gè)較為適合的算法處理該問題。而目前針對(duì)不平衡多分類問題的研究仍處于初期,還擁有很大的發(fā)展空間,這也為未來的研究提出了許多開放的挑戰(zhàn)。

        猜你喜歡
        分類
        2021年本刊分類總目錄
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        星星的分類
        我給資源分分類
        垃圾分類,你準(zhǔn)備好了嗎
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        按需分類
        教你一招:數(shù)的分類
        中文字幕av免费专区| 午夜一区二区三区免费观看| 久久久大少妇免费高潮特黄| 第一次处破女18分钟高清| 亚洲人成影院在线观看| 78成人精品电影在线播放| 亚洲av熟女天堂系列| 婷婷久久av综合一区二区三区| 欧美大屁股xxxx高潮喷水| 国产精品无码一区二区三区免费 | 久久精品99国产精品日本| 东北妇女xx做爰视频| 久久精品国产亚洲AⅤ无码| 亚洲成av在线免费不卡| 日本不卡的一区二区三区中文字幕 | 白白白色视频在线观看播放 | 91精品国产福利尤物免费| 69精品人妻一区二区| 末成年人av一区二区| 国产精品久久久久久久久岛| 色婷婷资源网| 国产成人激情视频在线观看| 人妻少妇不满足中文字幕| 日韩亚洲欧美中文在线| 精品国产av无码一道| 白白色福利视频在线观看| 日本护士xxxxhd少妇| 免费看泡妞视频app| 亚洲日韩中文字幕在线播放| 国产黄色一区二区三区,| 无码人妻h动漫中文字幕| 亚洲av无码一区二区三区网站| 91综合久久婷婷久久| 99精品国产综合久久麻豆| 国产精品视频免费播放| 国产精品毛片无遮挡高清| 亚洲美女av二区在线观看| 巨爆中文字幕巨爆区爆乳| 大肉大捧一进一出好爽视频mba| 日韩精品一区二区三区毛片| 丰满老熟女性生活视频|