范夢(mèng)瑤
(上海市地震局應(yīng)急救援保障中心,上海 200062)
利用集成分類(lèi)器進(jìn)行稀有類(lèi)分類(lèi)
范夢(mèng)瑤
(上海市地震局應(yīng)急救援保障中心,上海 200062)
現(xiàn)實(shí)生活中存在很多稀有類(lèi)的例子,也就是我們所說(shuō)的非平衡類(lèi)數(shù)據(jù),即數(shù)據(jù)中的一類(lèi)樣本在數(shù)量上遠(yuǎn)多于另一類(lèi)。占少數(shù)類(lèi)的數(shù)據(jù)往往具有顯著意義,例如癌癥檢測(cè),它可以有效識(shí)別癌癥患者,對(duì)醫(yī)生做出正確的診斷有實(shí)際意義。常用的分類(lèi)方法一般會(huì)產(chǎn)生偏向多數(shù)類(lèi)的結(jié)果,因而對(duì)于少數(shù)類(lèi)數(shù)據(jù)來(lái)說(shuō),預(yù)測(cè)的性能會(huì)很差。在分析了非平衡類(lèi)數(shù)據(jù)分類(lèi)問(wèn)題的基礎(chǔ)上,簡(jiǎn)要研究了利用集成分類(lèi)器進(jìn)行稀有類(lèi)分類(lèi)的相關(guān)內(nèi)容,以期為日后相關(guān)工作的順利進(jìn)行提供參考。
集成分類(lèi)器;數(shù)據(jù)庫(kù);非平衡類(lèi)數(shù)據(jù);召回率
數(shù)據(jù)庫(kù)中蘊(yùn)藏大量信息,對(duì)數(shù)據(jù)的有效分析可以幫助人們做出明智的決定。數(shù)據(jù)挖掘的分類(lèi)方法被應(yīng)用于多個(gè)領(lǐng)域,典型應(yīng)用有識(shí)別信用卡交易欺詐、預(yù)測(cè)視頻設(shè)備故障以及對(duì)視頻傳輸信號(hào)的分類(lèi)、從衛(wèi)星圖像檢測(cè)油井噴發(fā)和電信領(lǐng)域客戶(hù)的流失預(yù)測(cè)等。統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、破壞矩陣等領(lǐng)域的研究者提出了很多分類(lèi)方法。在現(xiàn)實(shí)世界的數(shù)據(jù)分類(lèi)中,通常情況下,數(shù)據(jù)集中標(biāo)號(hào)不同的兩類(lèi)樣本的數(shù)量是不等的,甚至有著極大的差別,即數(shù)據(jù)集中的兩類(lèi)是高度傾斜的或者說(shuō)是非平衡的。這個(gè)問(wèn)題可以描述為從一個(gè)分布極不平衡的數(shù)據(jù)集中標(biāo)識(shí)出那些具有顯著意義卻很少發(fā)生的實(shí)例。例如,在網(wǎng)絡(luò)入侵中,一個(gè)計(jì)算機(jī)通過(guò)猜測(cè)一個(gè)密碼或打開(kāi)一個(gè)ftp數(shù)據(jù)連接進(jìn)行遠(yuǎn)程攻擊。雖然這種網(wǎng)絡(luò)行為是不常見(jiàn)的,但識(shí)別并分析出這種行為對(duì)網(wǎng)絡(luò)安全的影響是很有必要的。從實(shí)例中不難看出,稀有類(lèi)實(shí)例數(shù)目很少,較難提供完備的信息,常用的分類(lèi)方法在分類(lèi)稀有類(lèi)時(shí)往往失效,這就使得分類(lèi)稀有類(lèi)問(wèn)題變得更具有挑戰(zhàn)性。
本文既研究基于處理訓(xùn)練數(shù)據(jù)集的集成學(xué)習(xí)算法,也研究基于處理輸入特征的集成學(xué)習(xí)算法。基于處理訓(xùn)練數(shù)據(jù)集是采用取樣技術(shù)選取不同的訓(xùn)練數(shù)據(jù),然后利用這些訓(xùn)練數(shù)據(jù)生成集成中的個(gè)體。這樣做的目的是通過(guò)選取不同的數(shù)據(jù)集來(lái)獲得個(gè)體間的差異。提升(AdaBoost)和裝袋(Bagging)是基于處理數(shù)據(jù)的典型方法。
基于處理特征是通過(guò)輸入特征的子集來(lái)形成每個(gè)訓(xùn)練集,子集隨機(jī)選擇或由領(lǐng)域?qū)<医ㄗh。隨機(jī)森林(Random Forest)和旋轉(zhuǎn)森林(Rotation Forest)是處理輸入特征的組合方法,它們都使用決策樹(shù)作為基分類(lèi)器。本文在分析非平衡類(lèi)數(shù)據(jù)分類(lèi)問(wèn)題的基礎(chǔ)上,利用上述4種集成分類(lèi)算法進(jìn)行稀有類(lèi)分類(lèi),得出實(shí)驗(yàn)結(jié)論并進(jìn)行比較。
通常情況下,數(shù)據(jù)分類(lèi)的應(yīng)用會(huì)遇到數(shù)據(jù)不平衡的問(wèn)題,即數(shù)據(jù)中的一類(lèi)樣本在數(shù)量上遠(yuǎn)多于另一類(lèi),例如病患分類(lèi)和欺詐檢測(cè)問(wèn)題等。其中,少數(shù)樣本具有巨大的影響力和價(jià)值,這是我們主要關(guān)心的對(duì)象,稱(chēng)為正類(lèi),另一類(lèi)則稱(chēng)為負(fù)類(lèi)。正類(lèi)樣本與負(fù)類(lèi)樣本可能數(shù)量上相差極大,這就為訓(xùn)練非平衡類(lèi)數(shù)據(jù)帶來(lái)了挑戰(zhàn)。常用的分類(lèi)方法一般會(huì)產(chǎn)生偏向多數(shù)類(lèi)的結(jié)果,因而對(duì)于正類(lèi)來(lái)說(shuō),預(yù)測(cè)的性能會(huì)很差。
通常數(shù)據(jù)集中標(biāo)號(hào)不同的兩類(lèi)樣本的數(shù)量是不等的,甚至有極大的差別。與不平衡類(lèi)問(wèn)題相關(guān)的例子很多,通過(guò)衛(wèi)星圖像檢測(cè)油井噴發(fā)的數(shù)據(jù)集就是非平衡數(shù)據(jù)的一個(gè)好例子。數(shù)據(jù)顯示,937張衛(wèi)星圖像中只有41張包含浮油,我們可以說(shuō)包含浮油的圖像是少數(shù)類(lèi)樣本。然而,有時(shí)候少數(shù)類(lèi)樣本才是我們首要關(guān)心的。由于數(shù)量上的嚴(yán)重傾斜,使用分類(lèi)算法對(duì)非平衡的數(shù)據(jù)集進(jìn)行分類(lèi)時(shí),其性能往往不盡如人意。不平衡類(lèi)問(wèn)題分類(lèi)是數(shù)據(jù)挖掘中的難點(diǎn)問(wèn)題,主要表現(xiàn)在以下5個(gè)方面。
2.1.1 不當(dāng)?shù)脑u(píng)估度量
評(píng)估度量在數(shù)據(jù)挖掘中至關(guān)重要,如果評(píng)估度量不能充分評(píng)估少數(shù)類(lèi)樣本,則分類(lèi)算法就可能對(duì)少數(shù)類(lèi)樣本處理不當(dāng)。其中,分類(lèi)的準(zhǔn)確率是指被正確分類(lèi)的樣本占數(shù)據(jù)集樣本總數(shù)的比例,是分類(lèi)任務(wù)中最常用的評(píng)估度量,它在度量少數(shù)類(lèi)時(shí)的缺點(diǎn)是顯而易見(jiàn)的。
2.1.2 缺少數(shù)據(jù)
缺少數(shù)據(jù),是指既存在絕對(duì)缺少,又存在相對(duì)缺少。非平衡數(shù)據(jù)挖掘的根本問(wèn)題是,正類(lèi)數(shù)據(jù)數(shù)量比較少,以至于在少數(shù)類(lèi)內(nèi)部難以發(fā)現(xiàn)規(guī)律。有時(shí)候,樣本在絕對(duì)數(shù)量上并不少,但是,相對(duì)于其他類(lèi)的樣本來(lái)說(shuō)所占的比例很小。
2.1.3 數(shù)據(jù)分裂
許多數(shù)據(jù)挖掘算法采用將最初的問(wèn)題分解得越來(lái)越小的方法,這樣做出現(xiàn)的結(jié)果就是樣本空間被分解為越來(lái)越小的部分。數(shù)據(jù)規(guī)律只能在每個(gè)單獨(dú)的數(shù)據(jù)塊中找到,這些數(shù)據(jù)塊卻只包含了較少的數(shù)據(jù),一些跨越數(shù)據(jù)塊的規(guī)律可能因此丟失,這就是數(shù)據(jù)分裂問(wèn)題。這個(gè)問(wèn)題在對(duì)少數(shù)類(lèi)樣本進(jìn)行分類(lèi)時(shí)尤為突出。
2.1.4 不當(dāng)?shù)臍w納偏移
將特定樣本一般化或歸納分類(lèi)器,都需要一種額外的偏移。數(shù)據(jù)挖掘系統(tǒng)的偏移對(duì)其性能來(lái)說(shuō)是至關(guān)重要的。據(jù)了解,許多訓(xùn)練系統(tǒng)就是利用偏移來(lái)實(shí)現(xiàn)分類(lèi)器的通用化,避免過(guò)度擬合的。但是,這種偏移可能會(huì)使數(shù)據(jù)挖掘系統(tǒng)訓(xùn)練少數(shù)類(lèi)樣本的能力大打折扣,產(chǎn)生不好的影響。
2.1.5 噪聲
少數(shù)類(lèi)樣本數(shù)量比較少,少量的噪聲就可以影響被訓(xùn)練的子概念,這樣訓(xùn)練系統(tǒng)就不能區(qū)分特殊樣本和噪聲。如果訓(xùn)練系統(tǒng)減小其通用性,就會(huì)得到不希望得到的結(jié)果,即將噪聲數(shù)據(jù)也包含進(jìn)來(lái)。因此,噪聲數(shù)據(jù)的存在使防止過(guò)度擬合技術(shù)成為必需技術(shù)之一,但是,這樣就導(dǎo)致一些“真”的少數(shù)類(lèi)樣本沒(méi)有被訓(xùn)練。由此可以看出,噪聲數(shù)據(jù)對(duì)少數(shù)類(lèi)樣本的影響大于普通類(lèi)。
可選度量,即稀有類(lèi)分類(lèi)的評(píng)估標(biāo)準(zhǔn)。常用的分類(lèi)算法的評(píng)估標(biāo)準(zhǔn)包括預(yù)測(cè)的準(zhǔn)確率、可規(guī)模性和可解釋性等。對(duì)于普通類(lèi)來(lái)說(shuō),我們通常使用分類(lèi)器的總準(zhǔn)確率來(lái)評(píng)價(jià)分類(lèi)效果。但是,在稀有類(lèi)分類(lèi)問(wèn)題中,我們更關(guān)注稀少目標(biāo)類(lèi)的正確分類(lèi)率。然而對(duì)于稀有類(lèi)分類(lèi)問(wèn)題來(lái)說(shuō),由于關(guān)注的焦點(diǎn)不同,僅用準(zhǔn)確率是不合適的。所以,在評(píng)價(jià)稀有類(lèi)分類(lèi)時(shí),還應(yīng)該采用其他的評(píng)價(jià)標(biāo)準(zhǔn)。通常情況下,我們使用召回率(Recall)即TPrate、精確率(Precision)即PPvalue和F-度量(F-measure)來(lái)評(píng)估稀有類(lèi)分類(lèi)。
召回率公式為:
精確率公式為:
F-度量(F-measure)可定義為:
式(1)(2)(3)中:TP為真正類(lèi)個(gè)數(shù);FP為假正類(lèi)個(gè)數(shù);FN為假負(fù)類(lèi)個(gè)數(shù)。
總的來(lái)說(shuō),召回率(Recall)和精確率(Precision)是信息檢索和數(shù)據(jù)挖掘中常用的評(píng)價(jià)指標(biāo),許多系統(tǒng)同時(shí)考慮這兩者,它們?cè)诜诸?lèi)器評(píng)測(cè)方面所作的貢獻(xiàn)是很重要的。
在實(shí)際應(yīng)用中,稀有類(lèi)分類(lèi)問(wèn)題是非常常見(jiàn)的。有些問(wèn)題的原始數(shù)據(jù)分布就存在不平衡的情況,比如通過(guò)衛(wèi)星雷達(dá)圖片檢測(cè)海面石油油污,檢測(cè)信用卡非法交易,醫(yī)學(xué)數(shù)據(jù)檢測(cè),發(fā)掘基因序列中編碼信息和地震應(yīng)急基礎(chǔ)數(shù)據(jù)分類(lèi)等。這些問(wèn)題都以稀有類(lèi)的信息為關(guān)注焦點(diǎn),例如,在信用卡非法交易記錄的檢測(cè)過(guò)程中,非法交易記錄是檢測(cè)的目標(biāo)。但是,訓(xùn)練數(shù)據(jù)中包含大量正常的信用卡交易記錄,只有很少一部分是非法交易記錄,使用一般的模式分類(lèi)方法,非法交易記錄的檢測(cè)率很低。再比如,地震應(yīng)急基礎(chǔ)數(shù)據(jù)是開(kāi)展應(yīng)急工作的基礎(chǔ),是地震應(yīng)急指揮技術(shù)系統(tǒng)的重要內(nèi)容?;A(chǔ)數(shù)據(jù)包括歷史地震災(zāi)害、強(qiáng)震目錄、物資儲(chǔ)備、道路交通等,它們屬于非平衡類(lèi)數(shù)據(jù),其準(zhǔn)確性直接影響震時(shí)分析和救災(zāi)指揮的順利進(jìn)行。因此,平時(shí)做好收集分類(lèi)工作是十分重要的。以上種種情況都需要采用能夠適應(yīng)稀有類(lèi)分類(lèi)問(wèn)題的分類(lèi)器進(jìn)行分類(lèi),而常用的分類(lèi)器往往不能勝任這項(xiàng)工作。所以說(shuō),稀有類(lèi)分類(lèi)問(wèn)題與每個(gè)人的生活息息相關(guān),做好這項(xiàng)研究有利于社會(huì)的平衡與和諧發(fā)展。
文中使用的實(shí)驗(yàn)?zāi)M工具為weka實(shí)驗(yàn)平臺(tái)。
為了比較4個(gè)學(xué)習(xí)算法的性能,筆者選用weka平臺(tái)中的3個(gè)不平衡數(shù)據(jù)集進(jìn)行測(cè)試。這3個(gè)數(shù)據(jù)集分別為視頻信號(hào)故障數(shù)據(jù)集(video_signal_failure)、強(qiáng)震數(shù)據(jù)集(strong_earthquake)和網(wǎng)絡(luò)侵入數(shù)據(jù)集(network_intrusion)。這些數(shù)據(jù)集的特征如表1所示。
表1 數(shù)據(jù)集的特征
為了驗(yàn)證基于數(shù)據(jù)技術(shù)和基于特征集的集成學(xué)習(xí)算法的性能,對(duì)這3個(gè)數(shù)據(jù)集(video_signal_failure,strong_earthquake和network_intrusion)使用集成學(xué)習(xí)算法(AdaBoost、 Bagging、 Rotation Forest、Random Forest)進(jìn)行分類(lèi)實(shí)驗(yàn)研究,同時(shí),選擇決策樹(shù)(Random Tree)作為基分類(lèi)器。簡(jiǎn)單地說(shuō),實(shí)驗(yàn)過(guò)程就是比較使用集成分類(lèi)器與僅使用Random Tree做分類(lèi)器在分類(lèi)結(jié)果上的差異。其中,稀有類(lèi)都用“*”標(biāo)明。具體實(shí)驗(yàn)步驟如下:①在weka軟件的classifier中選擇分類(lèi)器Random Tree進(jìn)行試驗(yàn)。實(shí)驗(yàn)數(shù)據(jù)如表2所示。②在classifier中依次選擇AdaBoost、Bagging、Rotation Forest、Random Forest做分類(lèi)器,同時(shí),選擇 Random Tree作為基分類(lèi)器進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)數(shù)據(jù)如表3所示。③修改實(shí)驗(yàn)數(shù)據(jù)集為strong_earthquake,再?gòu)腸lassifier中選擇Random Tree作為分類(lèi)器開(kāi)始實(shí)驗(yàn)。實(shí)驗(yàn)數(shù)據(jù)如表4所示。④依次更改 classifier為 AdaBoost、Bagging、Rotation Forest、Random Forest,同時(shí),在每個(gè)分類(lèi)器中選擇Random Tree作為基分類(lèi)器開(kāi)始實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表5所示。⑤返回第③步,選擇數(shù)據(jù)集network_intrusion,選擇分類(lèi)器Random Tree開(kāi)始實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表6所示。⑥具體步驟同實(shí)驗(yàn)步驟④一樣,實(shí)驗(yàn)數(shù)據(jù)如表7所示。至此,實(shí)驗(yàn)結(jié)束。
對(duì)3個(gè)數(shù)據(jù)集使用集成分類(lèi)器(AdaBoost、Bagging、Rotation Forest、Random Forest)進(jìn)行分類(lèi)(算法中的其他參數(shù)設(shè)置采用了weka系統(tǒng)中的默認(rèn)值),分類(lèi)前均選擇Random Tree作為基分類(lèi)器。實(shí)驗(yàn)結(jié)果分別記錄每個(gè)類(lèi)的3組度量數(shù)據(jù),即召回率(Recall)、精確率(Precision)和F-度量。
觀察實(shí)驗(yàn)中的分類(lèi)結(jié)果可以看出,4種集成學(xué)習(xí)算法的分類(lèi)性能都要優(yōu)于使用Random Tree單獨(dú)分類(lèi),也就是說(shuō),使用集成分類(lèi)器分類(lèi)稀有類(lèi)的效果遠(yuǎn)遠(yuǎn)好于不使用集成分類(lèi)器進(jìn)行稀有類(lèi)分類(lèi)。同時(shí),相比之下,基于處理輸入特征得出的度量數(shù)據(jù)要高于基于處理數(shù)據(jù)得出的。另外,在使用Random Tree做基分類(lèi)器的時(shí)候,Bagging、Rotation Forest和Random Forest的精確率(Precision)比AdaBoost好,說(shuō)明分類(lèi)更準(zhǔn)確。
表2 數(shù)據(jù)集video_signal_failure(Random Tree)
表3 數(shù)據(jù)集video_signal_failure
表4 數(shù)據(jù)集strong_earthquake(Random Tree)
表5 數(shù)據(jù)集strong_earthquake
表6 數(shù)據(jù)集network_intrusion(Random Tree)
表7 數(shù)據(jù)集network_intrusion
集成學(xué)習(xí)是機(jī)器學(xué)習(xí)的研究熱點(diǎn)之一,它既要研究基于數(shù)據(jù)技術(shù)的集成學(xué)習(xí)方法,又要研究基于處理輸入特征的學(xué)習(xí)方法。研究表明,對(duì)那些含有大量冗余特征的數(shù)據(jù)集,集成學(xué)習(xí)算法的分類(lèi)效果更好。本文通過(guò)對(duì)比3種度量數(shù)據(jù),針對(duì)3個(gè)不平衡的標(biāo)準(zhǔn)數(shù)據(jù)集分析研究了基于數(shù)據(jù)和基于特征的集成學(xué)習(xí)算法。同時(shí),為了統(tǒng)一起點(diǎn),設(shè)置Random Tree作為基分類(lèi)器。
結(jié)果表明,集成分類(lèi)器分類(lèi)稀有類(lèi)的效果遠(yuǎn)遠(yuǎn)好于不使用集成分類(lèi)器進(jìn)行稀有類(lèi)分類(lèi),而且Bagging、Rotation Forest和Random Forest這3個(gè)分類(lèi)器的分類(lèi)精確率更高。
[1]Han J,Kanber M.數(shù)據(jù)挖掘:概念與技術(shù)[M].范明,孟小峰,譯.北京:機(jī)械工業(yè)出版社,2001.
[2]Yanmin,Mobamed S.Kamel,Andrew K.C.Wong,et al.Cost-sensitive boosting for classification of imbalanced data[J].Patter Recognition,2007(10):3358-3378.
[3]Agarwal R,Joshi M V.Pnrule:A new Framework for Learning Classifier Models in Data Mining(A Case-Study in Network Intrusion Detection)[C]//In Proc.of the First SIAM Conference on Data Mining,2001.
[4]Ian H,F(xiàn)rank W E.Data Mining:Practical Machine Learning Tools and Techniques[M].2nd ed.San Francisco:Morgan Kaufmann,2005.
[5]張勇,陳婧,范夢(mèng)瑤.跨網(wǎng)段視頻會(huì)議互聯(lián)互通的設(shè)計(jì)與實(shí)現(xiàn)[J].科技與創(chuàng)新,2017(17):30-31.
[6]Fan H,Ramamohanarao K.A Bayesian Approach to use Emerging Patterns for Classification[C]//In Proc of 14th Australasian Database Conference.Adelaide:Australian Computer Society,Inc,2003:39-48.
[7]Liu Chenglin.Classifier Combination Based on Confidence Transformation[J].Pattern Recognition,2005, 38(1):11-28.
[8]Aksela M,Laaksonen J.Using Diversity of Errors for Selecting Members of a Committee Classifier[J].Pattern Recognition,2006,39(4):608-623.
[9]劉艷霞,職為梅,楊亮.稀有類(lèi)分類(lèi)問(wèn)題研究[J].微型機(jī)與應(yīng)用,2005,24(6):54-56.
范夢(mèng)瑤(1988—),女,主要從事地震應(yīng)急方面的工作。
〔編輯:白潔〕
TP301.6
A
10.15913/j.cnki.kjycx.2017.24.046
2095-6835(2017)24-0046-04