亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于稀疏鄰域的主動(dòng)不平衡學(xué)習(xí)算法

2019-07-15 01:52:12古平凌照

現(xiàn)代計(jì)算機(jī) 2019年16期

古平，凌照

（重慶大學(xué)計(jì)算機(jī)學(xué)院，重慶 400044）

0 引言

不平衡學(xué)習(xí)是機(jī)器學(xué)習(xí)中一種重要的分類問(wèn)題，其中包含樣本數(shù)目較多的為多數(shù)類，而樣本數(shù)較少的為少數(shù)類。在許多實(shí)際應(yīng)用中都存在不平衡問(wèn)題，例如網(wǎng)絡(luò)入侵檢測(cè)[1]、信用卡欺詐檢測(cè)和垃圾郵件檢測(cè)。自不平衡學(xué)習(xí)問(wèn)題被提出以來(lái)，已有大量的學(xué)習(xí)方法被開(kāi)發(fā)用于解決該問(wèn)題，這些工作大多分為兩類：重采樣技術(shù)和代價(jià)敏感學(xué)習(xí)技術(shù)[2]。重采樣是一種重新平衡類分布的技術(shù)，它通過(guò)對(duì)少數(shù)類進(jìn)行過(guò)采樣或?qū)Χ鄶?shù)類進(jìn)行欠采樣而實(shí)現(xiàn)。代價(jià)敏感方法則為每個(gè)類提供不同的錯(cuò)誤分類代價(jià)，而且一般少數(shù)類的分類錯(cuò)誤的代價(jià)較大。與現(xiàn)有的方法不同，Ertekin等人提出了基于主動(dòng)學(xué)習(xí)[3]策略的不平衡學(xué)習(xí)算法[4]（AL-SVM）來(lái)處理虛擬樣本合成以及信息量的度量問(wèn)題。最近，P Vateekul等人提出了一種基于G-means的主動(dòng)學(xué)習(xí)模型來(lái)解決不平衡問(wèn)題，并發(fā)現(xiàn)尤其適用于大規(guī)模數(shù)據(jù)集[5]。

直覺(jué)上主動(dòng)學(xué)習(xí)在不平衡學(xué)習(xí)中的應(yīng)用是從未標(biāo)記的數(shù)據(jù)集中主動(dòng)選擇可能的少數(shù)類樣本，然后標(biāo)記并添加它們到初始訓(xùn)練集中以產(chǎn)生平衡的數(shù)據(jù)集。不幸的是，該技術(shù)可能會(huì)在不平衡的設(shè)定下遭受標(biāo)記成本較大的風(fēng)險(xiǎn)，也就是說(shuō)，由于初始數(shù)據(jù)分布是傾斜的，所以未標(biāo)記的多數(shù)類樣本將比少數(shù)類樣本更頻繁地被查詢和標(biāo)記，最后導(dǎo)致主動(dòng)學(xué)習(xí)在降低不平衡率的效果上將受到較大的限制。

經(jīng)過(guò)對(duì)主動(dòng)學(xué)習(xí)和半監(jiān)督學(xué)習(xí)[6]的研究啟發(fā)，我們通過(guò)計(jì)算樣本的少數(shù)類置信度，提出了一種新的針對(duì)不平衡學(xué)習(xí)的主動(dòng)學(xué)習(xí)算法：基于稀疏鄰域的主動(dòng)不平衡學(xué)習(xí)算法（ASS-SN）。它有效地克服了虛擬樣本合成的局限性，并且具有針對(duì)少數(shù)類樣本有效查詢的優(yōu)點(diǎn)。其基本思想是僅使用小規(guī)模的有標(biāo)記數(shù)據(jù)和大量未標(biāo)記數(shù)據(jù)計(jì)算出未標(biāo)記樣本的少數(shù)類置信度，然后選擇置信度最高的未標(biāo)記樣本作為迭代查詢的標(biāo)準(zhǔn)。其中我們利用半監(jiān)督學(xué)習(xí)技術(shù)來(lái)確定每個(gè)未標(biāo)記樣本的少數(shù)類置信度，受稀疏編碼的啟發(fā)，與其他基于圖結(jié)構(gòu)的半監(jiān)督方法不同，我們通過(guò)求解一個(gè)L1最優(yōu)化問(wèn)題來(lái)計(jì)算出圖結(jié)構(gòu)的頂點(diǎn)與邊權(quán)重信息，從而不需要預(yù)先設(shè)定相關(guān)參數(shù)的大小。

1 算法過(guò)程及框架

1.1 相關(guān)概念以及動(dòng)機(jī)

給定不平衡數(shù)據(jù)集X={x1,x2,…,xm+n},xi∈Rd,1≤i≤m+n，其中d為維數(shù)?？梢詫⒃摬黄胶鈹?shù)據(jù)集X劃分為XL和XU，其中XL=(x1,y1)…(xm,ym)是有標(biāo)記的數(shù)據(jù)集，而且每一個(gè)樣本包含有獨(dú)一無(wú)二的屬于（0,1）的樣本標(biāo)簽，yi代表其類別標(biāo)簽。XU=(xm+1,ym+1)…(xm+n,ym+n)代表未標(biāo)記的數(shù)據(jù)集，其類別標(biāo)簽未知。在有標(biāo)記的數(shù)據(jù)集XL中，IR代表該數(shù)據(jù)集的不平衡比率。

我們所提出的問(wèn)題是如何在以下情況使用未標(biāo)記數(shù)據(jù)來(lái)提高監(jiān)督學(xué)習(xí)算法的準(zhǔn)確性：①只有少量有標(biāo)記的樣本可用。②有大量未標(biāo)記的數(shù)據(jù)。③在有標(biāo)記的數(shù)據(jù)集中，少數(shù)類樣本數(shù)量遠(yuǎn)遠(yuǎn)少于多數(shù)類。經(jīng)過(guò)AL-SVM算法的啟發(fā)，我們發(fā)現(xiàn)該方法存在一個(gè)主要的缺點(diǎn)：直接將SVM算法應(yīng)用到不平衡的數(shù)據(jù)集會(huì)導(dǎo)致該超平面存在偏倚，并且偏向于多數(shù)類樣本，因此該算法并沒(méi)有考慮查詢有效性的問(wèn)題，即希望不平衡學(xué)習(xí)算法能夠有效地查詢未標(biāo)記的樣本盡可能為少數(shù)類樣本以達(dá)到均衡數(shù)據(jù)集的目的，從而降低人工標(biāo)注成本。為此，我們采用了一種完全不同的主動(dòng)采樣策略，其目標(biāo)是盡可能多地標(biāo)記少數(shù)類樣本，從而均衡初始的有標(biāo)記數(shù)據(jù)集并提高分類性能。因此該策略包含本文的核心問(wèn)題定義：少數(shù)類置信度。

定義1少數(shù)類置信度（MC）：對(duì)于任意未標(biāo)記樣本xi∈XU，假設(shè)其屬于少數(shù)類或者多數(shù)類的概率為yui mi或yui ma，那么該樣本xi的少數(shù)類置信度（MC）可以通過(guò)以下公式計(jì)算：

Mci越大，表示該樣本屬于少數(shù)類的可能性就越高。如果我們根據(jù)少數(shù)類置信度相應(yīng)地對(duì)未標(biāo)記的樣本進(jìn)行主動(dòng)采樣，則更有可能正確地選擇并標(biāo)記它們?yōu)樯贁?shù)類樣本。

1.2 半監(jiān)督學(xué)習(xí)技術(shù)求解少數(shù)類置信度問(wèn)題

根據(jù)定義1，我們的主動(dòng)采樣策略是根據(jù)未標(biāo)注樣本的少數(shù)類置信度選擇最可能的少數(shù)類樣本，也就是說(shuō)，這個(gè)問(wèn)題可以轉(zhuǎn)換為求解未標(biāo)記樣本分別屬于多數(shù)類和少數(shù)類的概率。為了解決這個(gè)問(wèn)題，在機(jī)器學(xué)習(xí)中我們知道半監(jiān)督學(xué)習(xí)旨在對(duì)標(biāo)記樣本和未標(biāo)記樣本進(jìn)行學(xué)習(xí)，尤其是基于圖的半監(jiān)督學(xué)習(xí)方法。大多數(shù)現(xiàn)有的半監(jiān)督學(xué)習(xí)方法是基于k最近鄰（knn）圖提出的，但k值在實(shí)際應(yīng)用中難以預(yù)先確定，且尤其是在不平衡數(shù)據(jù)集中。受稀疏編碼的啟發(fā)，我們通過(guò)求解L1最優(yōu)化問(wèn)題來(lái)構(gòu)建稀疏鄰域圖[7]，這避免了在不同場(chǎng)景中預(yù)先定義k值的難題。最后通過(guò)在樣本的稀疏鄰域中實(shí)現(xiàn)標(biāo)簽傳播來(lái)測(cè)量未標(biāo)記樣本的少數(shù)類置信度。

（1）構(gòu)建稀疏鄰域圖

假設(shè)定義一個(gè)線性方程組：xi=Xiαi，其中xi是要表示的樣本，αi是重建系數(shù)的向量，Xi是除了xi的其他樣本，可以表示為：Xi=[x1…xi-1,xi+1…xm+n]。通過(guò)稀疏編碼的啟發(fā)，激勵(lì)我們通過(guò)解決以下最優(yōu)化問(wèn)題來(lái)尋求xi=Xiαi的最稀疏的解決方案：

通過(guò)求解結(jié)果我們發(fā)現(xiàn)在系數(shù)重建過(guò)程中某些距離表示樣本較遠(yuǎn)的“壞的”樣本的重建系數(shù)一般較小而且會(huì)對(duì)標(biāo)簽傳播起到負(fù)面作用。為了解決這個(gè)問(wèn)題，我們定義了給定樣本xi的稀疏鄰域。

定義2稀疏鄰域（SN）：給定參數(shù)ε，樣本xi的稀疏鄰域定義為：如果重建過(guò)程中樣本xj，i≠j的重建系數(shù)αj滿足αj＞ε，則認(rèn)為樣本在xj給定樣本xi的稀疏鄰域中，或者xj∈SN(xi)。

根據(jù)定義2，對(duì)于給定的樣本xi，我們刪除了那些所謂的“壞的”樣本，即這些樣本的重建系數(shù)很小。也就是說(shuō)，我們強(qiáng)調(diào)那些在稀疏鄰域中的樣本的作用并且認(rèn)為這些樣本與被表示的樣本“相似”。因此，構(gòu)造的稀疏鄰域圖的目標(biāo)函數(shù)由下式給出：

其中G表示稀疏鄰域圖，如果αij＜ε，則αij=0。這表明如果樣本xj不在樣本xi稀疏鄰域中，則重建系數(shù)將為0。

（2）基于稀疏鄰域的標(biāo)簽傳播

假設(shè)對(duì)于樣本xi，xi的標(biāo)簽可以由來(lái)自xi的稀疏鄰域的那些樣本標(biāo)簽線性重建。并且我們假設(shè)標(biāo)簽空間和樣本空間共享相同的局部線性重建權(quán)重，因此通過(guò)以下式子估計(jì)所有樣本的標(biāo)簽：

基于基本的代數(shù)知識(shí)，可以很容易地推斷出：

I是一個(gè)單位矩陣，令W=(I-G)T(I-G)，我們可以得到結(jié)論：tr(YTWY)，tr(·)表示矩陣的跡。將Y進(jìn)行劃分：Y=[YL；YU]，YU表示待求解的未標(biāo)記樣本的標(biāo)簽矩陣，YL表示有標(biāo)記樣本的標(biāo)簽矩陣。將矩陣W劃分為四個(gè)部分：

通過(guò)結(jié)論（5）：tr(YTWY)，我們求出關(guān)于Y的偏導(dǎo)數(shù)：

最后求解上式，獲得所有未標(biāo)記樣本的標(biāo)簽概率矩陣：

通過(guò)將上述推導(dǎo)過(guò)程應(yīng)用于訓(xùn)練數(shù)據(jù)集，每個(gè)未標(biāo)記樣本將分別獲得屬于少數(shù)類和多數(shù)類的概率，該求解結(jié)果可以表示為因此跟據(jù)定義1，我們可以計(jì)算每個(gè)未標(biāo)記樣本的少數(shù)類置信度，即

1.3 算法框架

基于稀疏鄰域的主動(dòng)不平衡學(xué)習(xí)算法（ASS-SN）包括兩個(gè)關(guān)鍵步驟。首先我們通過(guò)求解L1最優(yōu)化問(wèn)題的方式構(gòu)建稀疏鄰域圖，并在其基礎(chǔ)上進(jìn)行標(biāo)簽傳播，以計(jì)算每個(gè)未標(biāo)記樣本的少數(shù)類置信度。其次，通過(guò)主動(dòng)學(xué)習(xí)技術(shù)結(jié)合這種查詢策略進(jìn)行迭代學(xué)習(xí)，并在每一次迭代中更新標(biāo)簽傳播矩陣，直到數(shù)據(jù)集幾乎平衡。ASS-SN算法的框架如下：

輸入：XL：有標(biāo)記的數(shù)據(jù)集

XU：大量的未標(biāo)記數(shù)據(jù)集

輸出：XL：有標(biāo)記數(shù)據(jù)集

（1）根據(jù)定義2以及公式（3）求解以下最優(yōu)化問(wèn)題，并構(gòu)建稀疏鄰域圖G：

（2）while（IR＞1）：

①根據(jù)圖G，構(gòu)建傳播矩陣W：W=(I-G)T(I-G),基于W進(jìn)行標(biāo)簽傳播，并計(jì)算出未標(biāo)記樣本的標(biāo)簽矩陣

②對(duì)每一個(gè)未標(biāo)記樣本xi∈XU，根據(jù)定義1和標(biāo)簽矩陣計(jì)算樣本xi的少數(shù)類置信度,Mci：

③根據(jù)Mci，選擇其中少數(shù)類置信度最大的ul個(gè)樣本交與專家標(biāo)注，并將其中標(biāo)注的少數(shù)類樣本添加到過(guò)渡集V中。最后讓XL=XL?{V},XU=XU{V}

④基于貝葉斯分類器重新訓(xùn)練XL并跟新標(biāo)簽傳播矩陣W

（3）end while

2 實(shí)驗(yàn)結(jié)果與分析

實(shí)驗(yàn)主要在來(lái)自UCI機(jī)器學(xué)習(xí)庫(kù)的數(shù)據(jù)集上進(jìn)行，即Prima數(shù)據(jù)集。為了深度分析不平衡數(shù)據(jù)集對(duì)ASS-SN算法的影響，我們通過(guò)隨機(jī)刪除Prima數(shù)據(jù)集中樣本的標(biāo)簽來(lái)獲得主動(dòng)學(xué)習(xí)中所需的未標(biāo)記樣本。表1顯示了在這種情況下選擇的數(shù)據(jù)集。為了評(píng)估不同算法在不平衡問(wèn)題上的分類性能，我們采用了針對(duì)不平衡問(wèn)題的經(jīng)典評(píng)估方法，即F-measure[8]。在本文算法第1.2小節(jié)中，需要對(duì)是否處于稀疏鄰域中的樣本進(jìn)行判定，我們根據(jù)經(jīng)驗(yàn)和稀疏表示的特征選擇ε的值，并且將稀疏鄰域ε的半徑固定在0.02。本文算法與兩種流行的主動(dòng)學(xué)習(xí)算法進(jìn)行比較，即AL-EN[3]和AL-SVM，其中AL-EN是一種基于信息熵測(cè)量的主動(dòng)學(xué)習(xí)方法。

表1 實(shí)驗(yàn)所采用的數(shù)據(jù)集

從圖1可以看出，對(duì)于每種主動(dòng)學(xué)習(xí)技術(shù)，每次查詢的樣本中少數(shù)類樣本的數(shù)量都受到不平衡數(shù)據(jù)集的強(qiáng)烈影響。例如，如果查詢284個(gè)未標(biāo)記的樣本，通過(guò)本文算法可以有效地標(biāo)記181個(gè)少數(shù)類樣本，而在AL-EN和AL-SVM中則只能標(biāo)記98和73個(gè)少數(shù)類樣本。從算法整體來(lái)分析可以看出由于本文算法有效地利用稀疏標(biāo)簽傳播算法使得在主動(dòng)學(xué)習(xí)采樣的過(guò)程中，少數(shù)類未標(biāo)記樣本的采樣概率大幅度提升。因此在每一輪標(biāo)注占比上，本文算法完全優(yōu)于其他主動(dòng)學(xué)習(xí)算法，并且會(huì)提前完成對(duì)大部分少數(shù)類樣本的標(biāo)注。

從圖2中，可以看到在每次的迭代過(guò)程中，F(xiàn)1值隨著主動(dòng)采樣過(guò)程而逐漸增加，但是可以觀察到，ASSSN的F1值優(yōu)于AL-EN和AL-SVM。例如，AL-EN和AL-SVM的最佳 F1值分別為 0.6278和 0.5098，而ASS-SN算法可以達(dá)到0.7107?？傊?，這種性能提升是由于通過(guò)這種有傾向性的主動(dòng)學(xué)習(xí)算法在少數(shù)類上具有強(qiáng)大的搜索能力，特別是當(dāng)這些樣本遠(yuǎn)離最初的少數(shù)類群體時(shí)；傳統(tǒng)的主動(dòng)學(xué)習(xí)算法傾向于丟棄這些樣本，而本文的標(biāo)簽傳播機(jī)制可以有效地找到它們。

圖1 少數(shù)類的標(biāo)記效率

圖2 每次迭代采樣后的分類性能

3 結(jié)語(yǔ)

本文中我們提出了一種自適應(yīng)的主動(dòng)學(xué)習(xí)方法針對(duì)不平衡學(xué)習(xí)問(wèn)題，本文算法的一個(gè)優(yōu)點(diǎn)是利用稀疏鄰域的標(biāo)簽傳播策略計(jì)算未標(biāo)注樣本的少數(shù)類置信度，并專注于采樣其置信度較高的樣本，從而有效地解決不平衡問(wèn)題并降低標(biāo)記成本。其次通過(guò)引入主動(dòng)學(xué)習(xí)技術(shù)的迭代過(guò)程，使得本文算法能夠有效地提高不平衡數(shù)據(jù)集的分類性能。雖然ASS-SN算法在大多數(shù)情況下都能獲得更好的性能，但仍有許多問(wèn)題需要解決，例如我們所提出的算法比其他算法消耗更多的時(shí)間。