古平,凌照
(重慶大學(xué)計(jì)算機(jī)學(xué)院,重慶 400044)
不平衡學(xué)習(xí)是機(jī)器學(xué)習(xí)中一種重要的分類問(wèn)題,其中包含樣本數(shù)目較多的為多數(shù)類,而樣本數(shù)較少的為少數(shù)類。在許多實(shí)際應(yīng)用中都存在不平衡問(wèn)題,例如網(wǎng)絡(luò)入侵檢測(cè)[1]、信用卡欺詐檢測(cè)和垃圾郵件檢測(cè)。自不平衡學(xué)習(xí)問(wèn)題被提出以來(lái),已有大量的學(xué)習(xí)方法被開(kāi)發(fā)用于解決該問(wèn)題,這些工作大多分為兩類:重采樣技術(shù)和代價(jià)敏感學(xué)習(xí)技術(shù)[2]。重采樣是一種重新平衡類分布的技術(shù),它通過(guò)對(duì)少數(shù)類進(jìn)行過(guò)采樣或?qū)Χ鄶?shù)類進(jìn)行欠采樣而實(shí)現(xiàn)。代價(jià)敏感方法則為每個(gè)類提供不同的錯(cuò)誤分類代價(jià),而且一般少數(shù)類的分類錯(cuò)誤的代價(jià)較大。與現(xiàn)有的方法不同,Ertekin等人提出了基于主動(dòng)學(xué)習(xí)[3]策略的不平衡學(xué)習(xí)算法[4](AL-SVM)來(lái)處理虛擬樣本合成以及信息量的度量問(wèn)題。最近,P Vateekul等人提出了一種基于G-means的主動(dòng)學(xué)習(xí)模型來(lái)解決不平衡問(wèn)題,并發(fā)現(xiàn)尤其適用于大規(guī)模數(shù)據(jù)集[5]。
直覺(jué)上主動(dòng)學(xué)習(xí)在不平衡學(xué)習(xí)中的應(yīng)用是從未標(biāo)記的數(shù)據(jù)集中主動(dòng)選擇可能的少數(shù)類樣本,然后標(biāo)記并添加它們到初始訓(xùn)練集中以產(chǎn)生平衡的數(shù)據(jù)集。不幸的是,該技術(shù)可能會(huì)在不平衡的設(shè)定下遭受標(biāo)記成本較大的風(fēng)險(xiǎn),也就是說(shuō),由于初始數(shù)據(jù)分布是傾斜的,所以未標(biāo)記的多數(shù)類樣本將比少數(shù)類樣本更頻繁地被查詢和標(biāo)記,最后導(dǎo)致主動(dòng)學(xué)習(xí)在降低不平衡率的效果上將受到較大的限制。
經(jīng)過(guò)對(duì)主動(dòng)學(xué)習(xí)和半監(jiān)督學(xué)習(xí)[6]的研究啟發(fā),我們通過(guò)計(jì)算樣本的少數(shù)類置信度,提出了一種新的針對(duì)不平衡學(xué)習(xí)的主動(dòng)學(xué)習(xí)算法:基于稀疏鄰域的主動(dòng)不平衡學(xué)習(xí)算法(ASS-SN)。它有效地克服了虛擬樣本合成的局限性,并且具有針對(duì)少數(shù)類樣本有效查詢的優(yōu)點(diǎn)。其基本思想是僅使用小規(guī)模的有標(biāo)記數(shù)據(jù)和大量未標(biāo)記數(shù)據(jù)計(jì)算出未標(biāo)記樣本的少數(shù)類置信度,然后選擇置信度最高的未標(biāo)記樣本作為迭代查詢的標(biāo)準(zhǔn)。其中我們利用半監(jiān)督學(xué)習(xí)技術(shù)來(lái)確定每個(gè)未標(biāo)記樣本的少數(shù)類置信度,受稀疏編碼的啟發(fā),與其他基于圖結(jié)構(gòu)的半監(jiān)督方法不同,我們通過(guò)求解一個(gè)L1最優(yōu)化問(wèn)題來(lái)計(jì)算出圖結(jié)構(gòu)的頂點(diǎn)與邊權(quán)重信息,從而不需要預(yù)先設(shè)定相關(guān)參數(shù)的大小。
給定不平衡數(shù)據(jù)集X={x1,x2,…,xm+n},xi∈Rd,1≤i≤m+n,其中d為維數(shù)??梢詫⒃摬黄胶鈹?shù)據(jù)集X劃分為XL和XU,其中XL=(x1,y1)…(xm,ym)是有標(biāo)記的數(shù)據(jù)集,而且每一個(gè)樣本包含有獨(dú)一無(wú)二的屬于(0,1)的樣本標(biāo)簽,yi代表其類別標(biāo)簽。XU=(xm+1,ym+1)…(xm+n,ym+n)代表未標(biāo)記的數(shù)據(jù)集,其類別標(biāo)簽未知。在有標(biāo)記的數(shù)據(jù)集XL中,IR代表該數(shù)據(jù)集的不平衡比率。
我們所提出的問(wèn)題是如何在以下情況使用未標(biāo)記數(shù)據(jù)來(lái)提高監(jiān)督學(xué)習(xí)算法的準(zhǔn)確性:①只有少量有標(biāo)記的樣本可用。②有大量未標(biāo)記的數(shù)據(jù)。③在有標(biāo)記的數(shù)據(jù)集中,少數(shù)類樣本數(shù)量遠(yuǎn)遠(yuǎn)少于多數(shù)類。經(jīng)過(guò)AL-SVM算法的啟發(fā),我們發(fā)現(xiàn)該方法存在一個(gè)主要的缺點(diǎn):直接將SVM算法應(yīng)用到不平衡的數(shù)據(jù)集會(huì)導(dǎo)致該超平面存在偏倚,并且偏向于多數(shù)類樣本,因此該算法并沒(méi)有考慮查詢有效性的問(wèn)題,即希望不平衡學(xué)習(xí)算法能夠有效地查詢未標(biāo)記的樣本盡可能為少數(shù)類樣本以達(dá)到均衡數(shù)據(jù)集的目的,從而降低人工標(biāo)注成本。為此,我們采用了一種完全不同的主動(dòng)采樣策略,其目標(biāo)是盡可能多地標(biāo)記少數(shù)類樣本,從而均衡初始的有標(biāo)記數(shù)據(jù)集并提高分類性能。因此該策略包含本文的核心問(wèn)題定義:少數(shù)類置信度。
定義1少數(shù)類置信度(MC):對(duì)于任意未標(biāo)記樣本xi∈XU,假設(shè)其屬于少數(shù)類或者多數(shù)類的概率為yui mi或yui ma,那么該樣本xi的少數(shù)類置信度(MC)可以通過(guò)以下公式計(jì)算:
Mci越大,表示該樣本屬于少數(shù)類的可能性就越高。如果我們根據(jù)少數(shù)類置信度相應(yīng)地對(duì)未標(biāo)記的樣本進(jìn)行主動(dòng)采樣,則更有可能正確地選擇并標(biāo)記它們?yōu)樯贁?shù)類樣本。
根據(jù)定義1,我們的主動(dòng)采樣策略是根據(jù)未標(biāo)注樣本的少數(shù)類置信度選擇最可能的少數(shù)類樣本,也就是說(shuō),這個(gè)問(wèn)題可以轉(zhuǎn)換為求解未標(biāo)記樣本分別屬于多數(shù)類和少數(shù)類的概率。為了解決這個(gè)問(wèn)題,在機(jī)器學(xué)習(xí)中我們知道半監(jiān)督學(xué)習(xí)旨在對(duì)標(biāo)記樣本和未標(biāo)記樣本進(jìn)行學(xué)習(xí),尤其是基于圖的半監(jiān)督學(xué)習(xí)方法。大多數(shù)現(xiàn)有的半監(jiān)督學(xué)習(xí)方法是基于k最近鄰(knn)圖提出的,但k值在實(shí)際應(yīng)用中難以預(yù)先確定,且尤其是在不平衡數(shù)據(jù)集中。受稀疏編碼的啟發(fā),我們通過(guò)求解L1最優(yōu)化問(wèn)題來(lái)構(gòu)建稀疏鄰域圖[7],這避免了在不同場(chǎng)景中預(yù)先定義k值的難題。最后通過(guò)在樣本的稀疏鄰域中實(shí)現(xiàn)標(biāo)簽傳播來(lái)測(cè)量未標(biāo)記樣本的少數(shù)類置信度。
(1)構(gòu)建稀疏鄰域圖
假設(shè)定義一個(gè)線性方程組:xi=Xiαi,其中xi是要表示的樣本,αi是重建系數(shù)的向量,Xi是除了xi的其他樣本,可以表示為:Xi=[x1…xi-1,xi+1…xm+n]。通過(guò)稀疏編碼的啟發(fā),激勵(lì)我們通過(guò)解決以下最優(yōu)化問(wèn)題來(lái)尋求xi=Xiαi的最稀疏的解決方案:
通過(guò)求解結(jié)果我們發(fā)現(xiàn)在系數(shù)重建過(guò)程中某些距離表示樣本較遠(yuǎn)的“壞的”樣本的重建系數(shù)一般較小而且會(huì)對(duì)標(biāo)簽傳播起到負(fù)面作用。為了解決這個(gè)問(wèn)題,我們定義了給定樣本xi的稀疏鄰域。
定義2稀疏鄰域(SN):給定參數(shù)ε,樣本xi的稀疏鄰域定義為:如果重建過(guò)程中樣本xj,i≠j的重建系數(shù)αj滿足αj>ε,則認(rèn)為樣本在xj給定樣本xi的稀疏鄰域中,或者xj∈SN(xi)。
根據(jù)定義2,對(duì)于給定的樣本xi,我們刪除了那些所謂的“壞的”樣本,即這些樣本的重建系數(shù)很小。也就是說(shuō),我們強(qiáng)調(diào)那些在稀疏鄰域中的樣本的作用并且認(rèn)為這些樣本與被表示的樣本“相似”。因此,構(gòu)造的稀疏鄰域圖的目標(biāo)函數(shù)由下式給出:
其中G表示稀疏鄰域圖,如果αij<ε,則αij=0。這表明如果樣本xj不在樣本xi稀疏鄰域中,則重建系數(shù)將為0。
(2)基于稀疏鄰域的標(biāo)簽傳播
假設(shè)對(duì)于樣本xi,xi的標(biāo)簽可以由來(lái)自xi的稀疏鄰域的那些樣本標(biāo)簽線性重建。并且我們假設(shè)標(biāo)簽空間和樣本空間共享相同的局部線性重建權(quán)重,因此通過(guò)以下式子估計(jì)所有樣本的標(biāo)簽:
基于基本的代數(shù)知識(shí),可以很容易地推斷出:
I是一個(gè)單位矩陣,令W=(I-G)T(I-G),我們可以得到結(jié)論:tr(YTWY),tr(·)表示矩陣的跡。將Y進(jìn)行劃分:Y=[YL;YU],YU表示待求解的未標(biāo)記樣本的標(biāo)簽矩陣,YL表示有標(biāo)記樣本的標(biāo)簽矩陣。將矩陣W劃分為四個(gè)部分:
通過(guò)結(jié)論(5):tr(YTWY),我們求出關(guān)于Y的偏導(dǎo)數(shù):
最后求解上式,獲得所有未標(biāo)記樣本的標(biāo)簽概率矩陣:
通過(guò)將上述推導(dǎo)過(guò)程應(yīng)用于訓(xùn)練數(shù)據(jù)集,每個(gè)未標(biāo)記樣本將分別獲得屬于少數(shù)類和多數(shù)類的概率,該求解結(jié)果可以表示為因此跟據(jù)定義1,我們可以計(jì)算每個(gè)未標(biāo)記樣本的少數(shù)類置信度,即
基于稀疏鄰域的主動(dòng)不平衡學(xué)習(xí)算法(ASS-SN)包括兩個(gè)關(guān)鍵步驟。首先我們通過(guò)求解L1最優(yōu)化問(wèn)題的方式構(gòu)建稀疏鄰域圖,并在其基礎(chǔ)上進(jìn)行標(biāo)簽傳播,以計(jì)算每個(gè)未標(biāo)記樣本的少數(shù)類置信度。其次,通過(guò)主動(dòng)學(xué)習(xí)技術(shù)結(jié)合這種查詢策略進(jìn)行迭代學(xué)習(xí),并在每一次迭代中更新標(biāo)簽傳播矩陣,直到數(shù)據(jù)集幾乎平衡。ASS-SN算法的框架如下:
輸入:XL:有標(biāo)記的數(shù)據(jù)集
XU:大量的未標(biāo)記數(shù)據(jù)集
輸出:XL:有標(biāo)記數(shù)據(jù)集
(1)根據(jù)定義2以及公式(3)求解以下最優(yōu)化問(wèn)題,并構(gòu)建稀疏鄰域圖G:
(2)while(IR>1):
①根據(jù)圖G,構(gòu)建傳播矩陣W:W=(I-G)T(I-G),基于W進(jìn)行標(biāo)簽傳播,并計(jì)算出未標(biāo)記樣本的標(biāo)簽矩陣
②對(duì)每一個(gè)未標(biāo)記樣本xi∈XU,根據(jù)定義1和標(biāo)簽矩陣計(jì)算樣本xi的少數(shù)類置信度,Mci:
③根據(jù)Mci,選擇其中少數(shù)類置信度最大的ul個(gè)樣本交與專家標(biāo)注,并將其中標(biāo)注的少數(shù)類樣本添加到過(guò)渡集V中。最后讓XL=XL?{V},XU=XU{V}
④基于貝葉斯分類器重新訓(xùn)練XL并跟新標(biāo)簽傳播矩陣W
(3)end while
實(shí)驗(yàn)主要在來(lái)自UCI機(jī)器學(xué)習(xí)庫(kù)的數(shù)據(jù)集上進(jìn)行,即Prima數(shù)據(jù)集。為了深度分析不平衡數(shù)據(jù)集對(duì)ASS-SN算法的影響,我們通過(guò)隨機(jī)刪除Prima數(shù)據(jù)集中樣本的標(biāo)簽來(lái)獲得主動(dòng)學(xué)習(xí)中所需的未標(biāo)記樣本。表1顯示了在這種情況下選擇的數(shù)據(jù)集。為了評(píng)估不同算法在不平衡問(wèn)題上的分類性能,我們采用了針對(duì)不平衡問(wèn)題的經(jīng)典評(píng)估方法,即F-measure[8]。在本文算法第1.2小節(jié)中,需要對(duì)是否處于稀疏鄰域中的樣本進(jìn)行判定,我們根據(jù)經(jīng)驗(yàn)和稀疏表示的特征選擇ε的值,并且將稀疏鄰域ε的半徑固定在0.02。本文算法與兩種流行的主動(dòng)學(xué)習(xí)算法進(jìn)行比較,即AL-EN[3]和AL-SVM,其中AL-EN是一種基于信息熵測(cè)量的主動(dòng)學(xué)習(xí)方法。
表1 實(shí)驗(yàn)所采用的數(shù)據(jù)集
從圖1可以看出,對(duì)于每種主動(dòng)學(xué)習(xí)技術(shù),每次查詢的樣本中少數(shù)類樣本的數(shù)量都受到不平衡數(shù)據(jù)集的強(qiáng)烈影響。例如,如果查詢284個(gè)未標(biāo)記的樣本,通過(guò)本文算法可以有效地標(biāo)記181個(gè)少數(shù)類樣本,而在AL-EN和AL-SVM中則只能標(biāo)記98和73個(gè)少數(shù)類樣本。從算法整體來(lái)分析可以看出由于本文算法有效地利用稀疏標(biāo)簽傳播算法使得在主動(dòng)學(xué)習(xí)采樣的過(guò)程中,少數(shù)類未標(biāo)記樣本的采樣概率大幅度提升。因此在每一輪標(biāo)注占比上,本文算法完全優(yōu)于其他主動(dòng)學(xué)習(xí)算法,并且會(huì)提前完成對(duì)大部分少數(shù)類樣本的標(biāo)注。
從圖2中,可以看到在每次的迭代過(guò)程中,F(xiàn)1值隨著主動(dòng)采樣過(guò)程而逐漸增加,但是可以觀察到,ASSSN的F1值優(yōu)于AL-EN和AL-SVM。例如,AL-EN和AL-SVM的最佳 F1值分別為 0.6278和 0.5098,而ASS-SN算法可以達(dá)到0.7107??傊?,這種性能提升是由于通過(guò)這種有傾向性的主動(dòng)學(xué)習(xí)算法在少數(shù)類上具有強(qiáng)大的搜索能力,特別是當(dāng)這些樣本遠(yuǎn)離最初的少數(shù)類群體時(shí);傳統(tǒng)的主動(dòng)學(xué)習(xí)算法傾向于丟棄這些樣本,而本文的標(biāo)簽傳播機(jī)制可以有效地找到它們。
圖1 少數(shù)類的標(biāo)記效率
圖2 每次迭代采樣后的分類性能
本文中我們提出了一種自適應(yīng)的主動(dòng)學(xué)習(xí)方法針對(duì)不平衡學(xué)習(xí)問(wèn)題,本文算法的一個(gè)優(yōu)點(diǎn)是利用稀疏鄰域的標(biāo)簽傳播策略計(jì)算未標(biāo)注樣本的少數(shù)類置信度,并專注于采樣其置信度較高的樣本,從而有效地解決不平衡問(wèn)題并降低標(biāo)記成本。其次通過(guò)引入主動(dòng)學(xué)習(xí)技術(shù)的迭代過(guò)程,使得本文算法能夠有效地提高不平衡數(shù)據(jù)集的分類性能。雖然ASS-SN算法在大多數(shù)情況下都能獲得更好的性能,但仍有許多問(wèn)題需要解決,例如我們所提出的算法比其他算法消耗更多的時(shí)間。