楊忠誠
(重慶財經(jīng)職業(yè)學(xué)院,重慶 402160)
近期科學(xué)技術(shù)的發(fā)展使原始數(shù)據(jù)的增長和可用性以爆炸性的速度發(fā)生。這為知識發(fā)現(xiàn)和數(shù)據(jù)工程研究創(chuàng)造了巨大的機會,在從日常平民生活到國家安全,從企業(yè)信息處理到政府決策支持系統(tǒng),從微觀數(shù)據(jù)分析到宏觀規(guī)模等各種應(yīng)用中發(fā)揮重要作用知識發(fā)現(xiàn)。近年來,不平衡的學(xué)習(xí)問題引起了學(xué)術(shù)界、工業(yè)界和政府資助機構(gòu)的極大興趣。不平衡學(xué)習(xí)問題的根本問題是不平衡數(shù)據(jù)的能力嚴重影響大多數(shù)標(biāo)準(zhǔn)學(xué)習(xí)算法的性能。大多數(shù)標(biāo)準(zhǔn)算法假定或期望均衡的類別分布或相等的錯誤分類成本。因此,當(dāng)出現(xiàn)復(fù)雜的不平衡數(shù)據(jù)集時,這些算法無法正確表示數(shù)據(jù)的分布特征,從而導(dǎo)致數(shù)據(jù)類別之間的不準(zhǔn)確精度。當(dāng)翻譯成現(xiàn)實世界的領(lǐng)域時,不平衡的學(xué)習(xí)問題代表了一個重要問題,具有廣泛的影響,值得不斷探索。
從技術(shù)上講,任何在其類別之間呈現(xiàn)不均等分布的數(shù)據(jù)集都可能被認為是不平衡的。學(xué)術(shù)圈的共識是,不平衡數(shù)據(jù)對應(yīng)的數(shù)據(jù)集表現(xiàn)出顯著的,有時甚至是極端的不平衡。具體來說,這種失衡形式被稱為一種“類間失衡”,兩類數(shù)據(jù)的比例為100:1、1000:1甚至10000:1的失衡情況并不少見,在每種情況下,一類數(shù)據(jù)量嚴重超出另一類。雖然這種描述似乎暗示所有階級間的不平衡本質(zhì)上是二元的(或兩類的),但我們注意到存在多類數(shù)據(jù),其中各類之間存在不平衡。在本文中,我們只簡要介紹多類不平衡學(xué)習(xí)問題,重點討論兩類不均衡學(xué)習(xí)問題。
如果不平衡是數(shù)據(jù)空間性質(zhì)的直接結(jié)果,則稱這種形式的不平衡內(nèi)在的。但是,不平衡的數(shù)據(jù)并不完全限于固有品種,時間和存儲等可變因素也會產(chǎn)生不平衡的數(shù)據(jù)集。這種不平衡被認為是外在的,即不平衡不直接與數(shù)據(jù)空間的性質(zhì)有關(guān)。外在的不平衡與內(nèi)在的不平衡同樣有趣,因為很可能出現(xiàn)外部不平衡數(shù)據(jù)集所達到的數(shù)據(jù)空間可能完全不平衡的情況。
當(dāng)將標(biāo)準(zhǔn)學(xué)習(xí)算法應(yīng)用于不平衡數(shù)據(jù)時,描述少數(shù)群體概念的歸納規(guī)則通常比大多數(shù)概念的歸納規(guī)則更少且更弱,因為少數(shù)群體類別往往數(shù)量多或者數(shù)量少。為了提供對不平衡學(xué)習(xí)問題對標(biāo)準(zhǔn)學(xué)習(xí)算法的直接影響的具體理解,我們觀察了流行決策樹學(xué)習(xí)算法的案例研究。
不平衡數(shù)據(jù)集利用了決策樹每個節(jié)點處分裂標(biāo)準(zhǔn)的不足之處。決策樹使用遞歸的,自上而下的貪婪搜索算法,該算法使用特征選擇方案來選擇最佳特征作為樹的每個節(jié)點處的分割準(zhǔn)則;然后為與分割特征對應(yīng)的每個可能值創(chuàng)建后繼(葉)。結(jié)果,訓(xùn)練集被連續(xù)分割成更小的子集,最終用于形成與類概念有關(guān)的不相交規(guī)則。這些規(guī)則最終結(jié)合起來,以便最終假設(shè)最小化每個類別的總錯誤率。在存在不平衡數(shù)據(jù)的情況下,這個過程的問題是雙重的。首先,數(shù)據(jù)空間的連續(xù)分區(qū)導(dǎo)致少數(shù)類例子的觀察次數(shù)越來越少,導(dǎo)致描述少數(shù)概念的葉子越來越少,并且可信度估計值也越來越弱。其次,依賴于不同特征空間連詞的概念可能沒有通過分區(qū)引入的稀疏性來解決。第一個問題與相對和絕對不平衡問題相關(guān),而第二個問題與類間不平衡和高維問題相關(guān)。在這兩種情況下,不平衡數(shù)據(jù)對決策樹分類性能的影響都是有害的。下面我們將評估所提出的解決不平衡數(shù)據(jù)影響的解決方案。
通常,在不平衡學(xué)習(xí)應(yīng)用中使用抽樣方法包括通過一些機制修改不平衡數(shù)據(jù)集以提供均衡分布。研究表明,對于多個基本分類器,與不平衡數(shù)據(jù)集相比,平衡數(shù)據(jù)集提供了改進的整體分類性能。這些結(jié)果證明采用不平衡學(xué)習(xí)的抽樣方法是合理的。但是,它們并不意味著分類器不能從不平衡的數(shù)據(jù)集中學(xué)習(xí);相反,研究還表明,由某些不平衡數(shù)據(jù)集引發(fā)的分類器與由采樣技術(shù)平衡的相同數(shù)據(jù)集引起的分類器相當(dāng)。然而,對于大多數(shù)不平衡的數(shù)據(jù)集,抽樣技術(shù)的應(yīng)用的確有助于提高分類器的準(zhǔn)確性。
雖然抽樣方法試圖通過考慮分配中類別示例的代表性比例來平衡分配,但成本敏感的學(xué)習(xí)方法會考慮與錯誤分類示例相關(guān)的成本。通過使用不同的成本矩陣來描述對任何特定數(shù)據(jù)示例進行錯誤分類的成本,而不是通過不同的抽樣策略來創(chuàng)建均衡的數(shù)據(jù)分布,而成本敏感的學(xué)習(xí)則針對不平衡的學(xué)習(xí)問題。最近的研究表明,成本敏感型學(xué)習(xí)與從不平衡數(shù)據(jù)中學(xué)習(xí)有密切聯(lián)系。成本敏感方法的理論基礎(chǔ)和算法可以自然地應(yīng)用于不平衡的學(xué)習(xí)問題。此外,各種實證研究表明,在某些應(yīng)用領(lǐng)域,包括某些特定的不平衡學(xué)習(xí)領(lǐng)域,成本敏感學(xué)習(xí)優(yōu)于抽樣方法。因此,成本敏感技術(shù)為不平衡學(xué)習(xí)領(lǐng)域的抽樣方法提供了可行的替代方案。
雖然抽樣方法和成本敏感的學(xué)習(xí)方法似乎主導(dǎo)了當(dāng)前在不平衡學(xué)習(xí)方面的研究工作,但社區(qū)也采取了許多其他方法。由于基于內(nèi)核的學(xué)習(xí)方法為當(dāng)今的許多數(shù)據(jù)工程應(yīng)用提供了最先進的技術(shù),因此使用基于內(nèi)核的方法來理解不平衡學(xué)習(xí)最近自然引起了越來越多的關(guān)注。
在本文中,我們討論了知識發(fā)現(xiàn)和數(shù)據(jù)工程領(lǐng)域中一個具有挑戰(zhàn)性和關(guān)鍵性的問題,即不平衡學(xué)習(xí)問題。我們討論了不平衡學(xué)習(xí)問題的基本性質(zhì),解決這個問題的最先進的解決方案,以及用于評估這個問題的幾種主要評估技術(shù),為知識發(fā)現(xiàn)和數(shù)據(jù)工程研究人員和從業(yè)人員提供參考。