楊小軍,劉 志,王力猛,劉 文
(國(guó)防大學(xué) 聯(lián)合勤務(wù)學(xué)院,北京 100858)
分類(lèi)是數(shù)據(jù)挖掘領(lǐng)域的一類(lèi)重要問(wèn)題,現(xiàn)有的分類(lèi)方法都很成熟,如決策樹(shù)、支持向量機(jī)、樸素貝葉斯方法等,并利用這些方法成功地解決了許多實(shí)際問(wèn)題。但隨著應(yīng)用范圍的擴(kuò)大和研究的深入,分類(lèi)方法在使用過(guò)程中遇到了數(shù)據(jù)樣本分布不均衡問(wèn)題。通常稱(chēng)數(shù)據(jù)分布不均衡的數(shù)據(jù)集為不均衡數(shù)據(jù)集,數(shù)據(jù)分布不均衡表現(xiàn)為兩種形式:一是類(lèi)間數(shù)據(jù)分布不均衡;二是在某一類(lèi)樣本的內(nèi)部存在著類(lèi)內(nèi)不均衡。在不均衡數(shù)據(jù)集中,將樣本數(shù)量少的類(lèi)稱(chēng)為少數(shù)類(lèi)或正類(lèi),樣本數(shù)量多的類(lèi)稱(chēng)為多數(shù)類(lèi)或負(fù)類(lèi)。
對(duì)不均衡數(shù)據(jù)進(jìn)行正確分類(lèi),是數(shù)據(jù)分類(lèi)的一個(gè)難題。問(wèn)題來(lái)源于不均衡數(shù)據(jù)集的樣本分布特點(diǎn),以及傳統(tǒng)分類(lèi)算法固有的局限性。傳統(tǒng)分類(lèi)算法的重要前提是:數(shù)據(jù)集中各樣本比例是均衡的;以總體最大精度為目標(biāo),很容易忽略少數(shù)類(lèi);所有的分類(lèi)錯(cuò)誤代價(jià)都相同。因此,如果用傳統(tǒng)的分類(lèi)器來(lái)直接處理不均衡數(shù)據(jù)集,會(huì)造成少數(shù)類(lèi)樣本的分類(lèi)精度較差,尤其是數(shù)據(jù)不均衡嚴(yán)重時(shí)更是如此。鑒于目前研究不均衡分類(lèi)問(wèn)題都是基于不均衡的兩類(lèi)問(wèn)題,則本文主要研究比較二類(lèi)不均衡數(shù)據(jù)分類(lèi)問(wèn)題的常用策略。
常用的不均衡數(shù)據(jù)分類(lèi)策略主要有如下幾類(lèi):在數(shù)據(jù)層面,通過(guò)重采樣來(lái)解決數(shù)據(jù)分布不均衡狀況;在算法層面,通過(guò)代價(jià)敏感算法或是集成算法提升不均衡數(shù)據(jù)分類(lèi)時(shí)的性能;通過(guò)數(shù)據(jù)層面與算法層面相結(jié)合的策略進(jìn)行改進(jìn)。
由于不均衡數(shù)據(jù)集是數(shù)據(jù)樣本之間比例不均衡,可通過(guò)對(duì)各類(lèi)別數(shù)據(jù)的增刪,重新實(shí)現(xiàn)不同類(lèi)別數(shù)據(jù)樣本之間的平衡。數(shù)據(jù)重采樣是最具代表性的數(shù)據(jù)層面處理辦法,可將其分為欠采樣、過(guò)采樣,以及二者結(jié)合的混合采樣方法。最簡(jiǎn)單的重采樣為隨機(jī)過(guò)采樣(ROS)方法和隨機(jī)欠采樣(RUS)方法。通過(guò)簡(jiǎn)單復(fù)制/刪除部分樣本的方式,達(dá)到平衡二類(lèi)樣本比例的目的。而隨機(jī)方法的缺點(diǎn)是增加了過(guò)學(xué)習(xí)的概率。因此目前考慮更多的是啟發(fā)式方法。
Chawla 提出的SMOTE[1]方法,是一種經(jīng)典的啟發(fā)式過(guò)采樣方法。SMOTE 方法首先為每一個(gè)少數(shù)類(lèi)樣本隨機(jī)地挑選出幾個(gè)相鄰的樣本,然后在這個(gè)少數(shù)類(lèi)樣本和挑出的鄰近樣本的連接線上,以隨機(jī)方式取點(diǎn),生成沒(méi)有重復(fù)的少數(shù)類(lèi)樣本。因此,在很大程度上解決了隨機(jī)過(guò)采樣方法產(chǎn)生的過(guò)擬合問(wèn)題。此后,在SMOTE 方法的基礎(chǔ)上形成了大量的改進(jìn)算法:如D-SMOTE 過(guò)抽樣算法,是采用求最近鄰樣本均值點(diǎn)的方法來(lái)生成少數(shù)類(lèi)樣本;N-SMOTE算法[2],則采用了周?chē)臻g結(jié)構(gòu)信息的鄰居計(jì)算公式來(lái)生成少數(shù)類(lèi)樣本等等。
啟發(fā)式欠采樣方法為達(dá)到更好的分類(lèi)效果,采用方法去除掉那些遠(yuǎn)離分類(lèi)邊界的、有數(shù)據(jù)重疊的、且對(duì)分類(lèi)作用不大的多數(shù)類(lèi)樣本。典型的欠采樣方法有Tomek links 方 法[3]和ENN 方 法 等。Tomek links 方法是先判斷兩個(gè)不同類(lèi)樣本之間是否構(gòu)成了Tomek links,是則進(jìn)行樣本剪輯;ENN 算法的基本思想是,刪除離每個(gè)多數(shù)類(lèi)樣本最近的3 個(gè)近鄰樣本中的2 個(gè)。在實(shí)際應(yīng)用中,為了達(dá)到最佳效果,一般將各種欠采樣和過(guò)采樣方法混合使用。在增加少數(shù)類(lèi)數(shù)據(jù)樣本同時(shí),減少了多數(shù)類(lèi)數(shù)據(jù)樣本,最終達(dá)到兩類(lèi)數(shù)據(jù)樣本平衡的目的。SMOTE+Tomek links、SMOTE+ENN[4]是典型的混合采樣方法。
在算法層面,不均衡數(shù)據(jù)學(xué)習(xí)常用的方法有:代價(jià)敏感算法、集成學(xué)習(xí)方法、單類(lèi)學(xué)習(xí)方法和特征選擇方法。
1.2.1 代價(jià)敏感算法
傳統(tǒng)分類(lèi)器以實(shí)現(xiàn)樣本整體誤差最小為最終目標(biāo)。在訓(xùn)練過(guò)程中,由于數(shù)量偏少的緣故,少數(shù)類(lèi)樣本的預(yù)測(cè)準(zhǔn)確率很低,甚至出現(xiàn)被忽略的情況。為了提升少數(shù)類(lèi)的重要程度,代價(jià)敏感算法給少數(shù)類(lèi)樣本造成的誤差施加更大的懲罰。算法的中心思想是:運(yùn)用該方法訓(xùn)練分類(lèi)器的目標(biāo)是最小化樣本的整體誤分代價(jià),不再追求實(shí)現(xiàn)樣本整體誤差最小化。代價(jià)敏感算法的核心是代價(jià)矩陣的設(shè)計(jì),其設(shè)計(jì)是否合理,最終決定了分類(lèi)模型的性能。在二分類(lèi)問(wèn)題中,代價(jià)矩陣見(jiàn)表1。
其中,Cij表示第i 類(lèi)樣本被誤分成j 類(lèi)的代價(jià),應(yīng)賦大于0 的值。左對(duì)角線上的元素Cii表示被正確分類(lèi)的代價(jià),其取值應(yīng)為0。重要的類(lèi)別應(yīng)賦更大的代價(jià),如Cij>Cji表示第i 類(lèi)樣本比第j 類(lèi)更重要。在類(lèi)不均衡學(xué)習(xí)中,一般更為關(guān)心少數(shù)類(lèi)樣本。如癌癥檢測(cè)中的指標(biāo)異常、機(jī)器故障檢測(cè)中出現(xiàn)的異常等。因此可將少數(shù)類(lèi)視為重要類(lèi),在代價(jià)敏感學(xué)習(xí)中賦予更大的錯(cuò)分代價(jià)[5]。但誤分代價(jià)具體取值難以確定。
表1 二分類(lèi)問(wèn)題的代價(jià)矩陣Tab.1 The cost matrix of binary classification
1.2.2 集成學(xué)習(xí)算法
集成算法是將多個(gè)弱分類(lèi)器組合構(gòu)造成一個(gè)強(qiáng)分類(lèi)器。由于單個(gè)算法能力有限,找到的多數(shù)是局部最優(yōu)解,而非全局最優(yōu)解。集成學(xué)習(xí)算法對(duì)多個(gè)局部最優(yōu)解進(jìn)行綜合,可以提升分類(lèi)器的性能,已被證明是一種能有效解決不均衡問(wèn)題的技術(shù)。典型的集成算法有裝袋方法(Bagging)和提升方法(Boosting),其主要思想是先對(duì)訓(xùn)練集進(jìn)行不同方式的訓(xùn)練,得到不同的基分類(lèi)器;再對(duì)基分類(lèi)器進(jìn)行組合,最終達(dá)到提升集成分類(lèi)器學(xué)習(xí)效果的目的。在Bagging 算法中,為了提高集成分類(lèi)器泛化能力,以有放回的方式從原始訓(xùn)練集中隨機(jī)選取出若干樣例形成訓(xùn)練集,多次選取不同訓(xùn)練集以增加基分類(lèi)器差異度。AdaBoost 算法是Boosting 方法中的代表,通過(guò)在迭代中加大被錯(cuò)誤分類(lèi)樣本的權(quán)重,減少被正確分類(lèi)樣本的權(quán)重,由有差異的訓(xùn)練樣本集得到不同的基分類(lèi)器,最終經(jīng)過(guò)加權(quán)集成為最終的分類(lèi)器。在迭代過(guò)程中,Bagging 算法每個(gè)樣本的權(quán)重都一樣,而B(niǎo)oosting 算法卻能夠根據(jù)樣本的錯(cuò)誤率不斷調(diào)整樣本的權(quán)重。因此,在處理不均衡分類(lèi)問(wèn)題時(shí),基于Boosting 的算法在一定程度上優(yōu)于基于Bagging 的算法[6]。
在實(shí)際處理不均衡數(shù)據(jù)分類(lèi)時(shí),通常將數(shù)據(jù)層面的方法與算法層面的方法相結(jié)合,解決不均衡分類(lèi)問(wèn)題。如,將采樣技術(shù)和集成算法結(jié)合。其中最典型的是Nitesh V.Chawla 提出的SMOTEBoost[7]方法。該方法通過(guò)結(jié)合 SMOTE 過(guò)采樣技術(shù)和AdaBoost 提升方法,來(lái)解決不均衡數(shù)據(jù)分類(lèi)問(wèn)題。SMOTEBoost 算法在訓(xùn)練開(kāi)始前,先使用SMOTE 方法生成少數(shù)類(lèi)樣本,再使用Adaboost 方法對(duì)樣本分類(lèi),提升了少數(shù)類(lèi)樣本的分類(lèi)準(zhǔn)確率,避免了過(guò)擬合。此外,將采樣和代價(jià)敏感算法相結(jié)合,也是不均衡數(shù)據(jù)學(xué)習(xí)的一類(lèi)重要方法。
對(duì)常用的集成算法進(jìn)一步集成就形成了混合集成算法。為防止采用降采樣技術(shù)后,造成多數(shù)類(lèi)樣本信息丟失的情況,Liu 等提出EasyEnsemble 和BalanceCascade 算法[3]。EasyEnsemble 算法首先利用Bagging 技術(shù)對(duì)多數(shù)類(lèi)樣本進(jìn)行多次有放回隨機(jī)采樣,形成多個(gè)與少數(shù)類(lèi)樣本數(shù)量相同的多數(shù)類(lèi)樣本子集;接著將每個(gè)多數(shù)類(lèi)樣本子集與少數(shù)類(lèi)樣本組合,用AdaBoost 方法訓(xùn)練分類(lèi)器;最后將所有的多數(shù)類(lèi)子集所形成的分類(lèi)器再組合。BalanceCascade 算法與EasyEnsemble 算法的原理類(lèi)似,區(qū)別之處在于每一次形成多數(shù)類(lèi)樣本子集時(shí),已正確分類(lèi)的多數(shù)類(lèi)樣本將被從多數(shù)類(lèi)樣本集中去掉。
此外,單類(lèi)學(xué)習(xí)方法是在分類(lèi)時(shí),只識(shí)別樣本中的少數(shù)類(lèi),主要應(yīng)用于異常檢測(cè)領(lǐng)域。特征選擇從已知的特征集合中選擇出代表性特征子集,從而保留原數(shù)據(jù)的主要信息,其目的是去除冗余特征。在不均衡數(shù)據(jù)集中選出關(guān)鍵的區(qū)分特征,將會(huì)增強(qiáng)少數(shù)類(lèi)和多數(shù)類(lèi)的區(qū)分度,提升分類(lèi)器中少數(shù)類(lèi)和整體的正確率。
評(píng)價(jià)分類(lèi)器性能的指標(biāo)有查準(zhǔn)率、召回率(查全率)、F -measure、AUC等。對(duì)于傳統(tǒng)分類(lèi)器來(lái)說(shuō),數(shù)據(jù)集中多數(shù)類(lèi)和少數(shù)類(lèi)的分布大致保持均衡,分類(lèi)準(zhǔn)確率是最常用的性能評(píng)價(jià)指標(biāo)。對(duì)不均衡數(shù)據(jù)集,則不能用準(zhǔn)確率去評(píng)價(jià)一個(gè)分類(lèi)器的好壞了,而常用G -mean和F -measure、AUC作為分類(lèi)器性能的評(píng)估指標(biāo)。
表2 分類(lèi)結(jié)果的混淆矩陣Tab.2 Confusion matrix of classification results
表2 表達(dá)的是二類(lèi)分類(lèi)結(jié)果的混淆矩陣。表中TP和TN分別表示被正確預(yù)測(cè)的正類(lèi)、負(fù)類(lèi)樣本數(shù),F(xiàn)P和FN則分別表示被錯(cuò)誤預(yù)測(cè)為正類(lèi)的負(fù)類(lèi)樣本數(shù)和被錯(cuò)誤預(yù)測(cè)為負(fù)類(lèi)的正類(lèi)樣本數(shù)。因TP+TN是分類(lèi)器正確預(yù)測(cè)的樣本數(shù),F(xiàn)P+FN則是分類(lèi)錯(cuò)誤的樣本數(shù)量,TP +TN +FP +FN是所有數(shù)據(jù)樣本數(shù)量。則分類(lèi)準(zhǔn)確率Acc可以由式(1)得出:
查準(zhǔn)率Precision、召回率(查全率)Recall、真正率TPR、真負(fù)率TNR等指標(biāo),也可由這4 個(gè)變量,通過(guò)以下各式得到:
其中,查準(zhǔn)率和召回率是一對(duì)矛盾的度量指標(biāo),一個(gè)指標(biāo)高時(shí),另一指標(biāo)往往偏低。為實(shí)現(xiàn)兩者之間的平衡,將其合并為一個(gè)F -measure度量。只有當(dāng)查準(zhǔn)率和召回率都高時(shí),F(xiàn) -measure的值才會(huì)大,其計(jì)算公式如下:
此外,采用G -mean來(lái)衡量真正率TPR和真負(fù)率TNR之間的關(guān)系。只有當(dāng)正類(lèi)和負(fù)類(lèi)的準(zhǔn)確率同時(shí)都高時(shí),G -mean值才會(huì)高,G -mean值可用來(lái)衡量不均衡分類(lèi)器的整體準(zhǔn)確率,其計(jì)算公式如下:
在不均衡數(shù)據(jù)學(xué)習(xí)中,還有一種常用的性能評(píng)價(jià)標(biāo)準(zhǔn):受控者操縱特征曲線下面積(AUC)。受控者操縱特征曲線(ROC)顯示了分類(lèi)模型真正率和假正率之間的關(guān)系,是對(duì)各樣本的決策輸出值排序而形成的。ROC曲線下的面積就是AUC測(cè)度,AUC能很好地評(píng)價(jià)不均衡分類(lèi)器的泛化性能。
F -measure、G -mean與AUC的取值范圍均為[0,1],分類(lèi)器性能與其值成正比,即指標(biāo)值越大,分類(lèi)器性能越好。
各種處理不均衡數(shù)據(jù)集的方法各有優(yōu)劣。在不同的應(yīng)用場(chǎng)景下,對(duì)各種不同的數(shù)據(jù)類(lèi)型,需要采用不同的處理方法。下面對(duì)常用的3 種類(lèi)不均衡分類(lèi)策略:重采樣方法、代價(jià)敏感學(xué)習(xí)、集成學(xué)習(xí)及其組合方法進(jìn)行實(shí)驗(yàn)分析比較。本文試驗(yàn)數(shù)據(jù)來(lái)自于KEEL 數(shù)據(jù)集(http:/ /www.keel.es/),本文從中選取了10 個(gè)樣本數(shù)據(jù)集,見(jiàn)表3。使用基于Java 語(yǔ)言的開(kāi)源軟件KEEL 實(shí)現(xiàn)了不均衡數(shù)據(jù)集的分類(lèi)學(xué)習(xí)。KEEL 軟件有專(zhuān)門(mén)的不均衡數(shù)據(jù)學(xué)習(xí)模塊,集成了大部分主流的不均衡數(shù)據(jù)處理方法。實(shí)驗(yàn)采用G -mean和AUC值作為評(píng)價(jià)不均衡分類(lèi)學(xué)習(xí)能力的指標(biāo),用G -mean值衡量分類(lèi)器的準(zhǔn)確率,AUC值衡量分類(lèi)器的泛化性能,取值越大,性能越優(yōu)。實(shí)驗(yàn)采用5 折交叉驗(yàn)證法。實(shí)驗(yàn)環(huán)境具體配置為:處理器為Intel i7-4720 2.60GHz;8G 內(nèi)存;64 位windows 操作系統(tǒng)。
(1)重采樣方法在不均衡數(shù)據(jù)集上的分類(lèi)性能比較。實(shí)驗(yàn)選用了過(guò)采樣方法SMOTE、欠采樣方法Tomek links 方法、混合采樣方法SMOTE_Tomek links 和SMOTE_ENN 方法。通過(guò)重采樣方法實(shí)現(xiàn)了數(shù)據(jù)集的再平衡之后,選用常用的決策樹(shù)算法C4.5 進(jìn)行分類(lèi)。各種重采樣方法與C4.5 算法的結(jié)合在不同數(shù)據(jù)集上的性能見(jiàn)表4。表中的TL 表示Tomek links 欠采樣方法,SMOTE_TL 表示SMOTE_Tomek links 混合采樣方法。
表3 不均衡數(shù)據(jù)集基本信息Tab.3 Basic information about imbalanced data sets
表4 重采樣方法性能比較Tab.4 Performance comparison of resample method
(2)3 種代價(jià)敏感算法在不同數(shù)據(jù)集上的性能比較。實(shí)驗(yàn)結(jié)果見(jiàn)表5。C4.5CS 表示代價(jià)敏感決策樹(shù)算法,SVMCS 表示代價(jià)敏感支持向量機(jī)算法,NNCS 表示代價(jià)敏感神經(jīng)網(wǎng)絡(luò)算法。
表5 代價(jià)敏感方法性能比較Tab.5 Performance comparison of cost-sensitive learning method
(3)重采樣方法SMOTE 和SMOTE_ENN 方法性能比較。選用經(jīng)典的重采樣方法SMOTE 和SMOTE_ENN 方法,將其與代價(jià)敏感決策樹(shù)算法C4.5CS進(jìn)行組合,觀察其是否比與普通決策樹(shù)算法C4.5 結(jié)合性能提升更大,結(jié)果見(jiàn)表6。
表6 重采樣與代價(jià)敏感集成方法性能比較Tab.6 Performance comparison of ensemble learning method about resample and cost-sensitive learning
(4)經(jīng)典集成方法性能比較。比較3 種經(jīng)典集成方法SMOTEBoost、EasyEnsemble、BalanceCascade在不同數(shù)據(jù)集上的性能,這3 種集成方法均以C4.5決策樹(shù)算法作為弱分類(lèi)器,結(jié)果見(jiàn)表7。
表7 經(jīng)典集成方法性能比較Tab.7 Performance comparison of classical ensemble learning method
(1)重采樣方法分析。根據(jù)表4 的實(shí)驗(yàn)結(jié)果,過(guò)采樣方法SMOTE 在大部分?jǐn)?shù)據(jù)集上的G-mean值和AUC 值都高于欠采樣方法Tomek links,只有在一個(gè)數(shù)據(jù)集“ecoli-0-1-3-7_vs_2-6”上出現(xiàn)例外,而且隨著不平衡率的增加,二者之間的差值有逐漸增大的趨勢(shì),這說(shuō)明SMOTE 方法的性能全面優(yōu)于Tomek links 方法?;旌喜蓸臃矫?,當(dāng)不均衡率小于3 時(shí),SMOTE_TL 采樣方法的G-mean 值和AUC 值都高于SMOTE_ENN 方法。不均衡率大于3 后,SMOTE_ENN 方法的G-mean 值和AUC 值普遍高于SMOTE_TL 方法,說(shuō)明SMOTE_ENN 的準(zhǔn)確率和泛化性能優(yōu)于SMOTE_TL 方法。比較SMOTE 和SMOTE_ENN 這兩種相對(duì)更好的方法,當(dāng)不平衡率在30 以內(nèi)時(shí),SMOTE 方法的G-mean 值和AUC 值高于SMOTE_ENN 方法或是與其接近。當(dāng)不平衡率超過(guò)30 時(shí),SMOTE_ENN 方法的G-mean 值和AUC值才會(huì)高于SMOTE 方法。
(2)代價(jià)敏感學(xué)習(xí)方法分析。根據(jù)表5 的實(shí)驗(yàn)結(jié)果,代價(jià)敏感支持向量機(jī)算法SVMCS 的G-mean值和AUC 值,大多數(shù)情況下都高于另外兩種代價(jià)敏感算法。在不均衡比例較高時(shí),代價(jià)敏感決策樹(shù)方法C4.5CS 的性能與代價(jià)敏感支持向量機(jī)算法SVMCS 的性能相差不大,在兩個(gè)數(shù)據(jù)集中C4.5CS的準(zhǔn)確率與泛化性能甚至超過(guò)了SVMCS 方法。當(dāng)不均衡比例超過(guò)100 時(shí),如在“abalone19”數(shù)據(jù)集中,SVMCS 的性能比另外兩種代價(jià)敏感方法要高出很多。相比較而言,代價(jià)敏感神經(jīng)網(wǎng)絡(luò)算法的性能比另外兩種算法差。
(3)重采樣方法與代價(jià)敏感方法集成分析。根據(jù)表6 的實(shí)驗(yàn)結(jié)果,當(dāng)不平衡率小于10 時(shí),二種集成方法在不同數(shù)據(jù)集上所表現(xiàn)出的性能沒(méi)有明顯的規(guī)律可循。不平衡率在10~20 時(shí),SMOTE+C4.5CS集成方法的性能要強(qiáng)于SMOTE_ENN+C4.5CS集成方法。當(dāng)不平衡率在20~100 時(shí)則相反,SMOTE_ENN+C4.5CS 方法的性能要強(qiáng)于SMOTE+C4.5CS 方法。當(dāng)數(shù)據(jù)分布嚴(yán)重不均衡時(shí),SMOTE+C4.5CS 方法的性能又超過(guò)了SMOTE_ENN+C4.5CS 方法??傮w而言,重采樣方法與代價(jià)敏感方法的集成方法其性能表現(xiàn)出的規(guī)律性不強(qiáng)。
(4)C4.5 為基分類(lèi)器的3 種經(jīng)典集成方法比較分析。根據(jù)表7 的實(shí)驗(yàn)結(jié)果,當(dāng)不均衡率小于3 時(shí),EasyEnsemble 方法的性能優(yōu)于其它二種方法。不平衡率在8~30 之間時(shí),BalanceCascade 的性能要強(qiáng)于SMOTEBoost 方法和EasyEnsemble 方法。當(dāng)不均衡率超過(guò)40 后,EasyEnsemble 較另外兩種集成方法重新取得了性能優(yōu)勢(shì)。當(dāng)不均衡率超過(guò)100 時(shí),SMOTEBoost 方法的G-mean 值明顯下降,AUC 值也不如另外兩種算法。
迄今為止,對(duì)于不均衡數(shù)據(jù)分類(lèi)的理論成果非常少,本文所作的研究也只是在實(shí)驗(yàn)數(shù)據(jù)的基礎(chǔ)上,總結(jié)出一些經(jīng)驗(yàn)性的結(jié)果,迫切需要進(jìn)行更深入的理論分析和研究。另外,目前研究不均衡分類(lèi)問(wèn)題都是基于不均衡的二分類(lèi)問(wèn)題,即使是不均衡的多類(lèi)問(wèn)題,也是通過(guò)將原問(wèn)題分解成二類(lèi)問(wèn)題的方法去解決,并沒(méi)有針對(duì)多類(lèi)不均衡問(wèn)題公認(rèn)的評(píng)價(jià)指標(biāo)。因此,需要進(jìn)一步的深入研究,提出針對(duì)多類(lèi)不均衡分類(lèi)問(wèn)題的評(píng)價(jià)指標(biāo)和相應(yīng)的學(xué)習(xí)算法。