亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于稀疏鄰域的主動(dòng)不平衡學(xué)習(xí)算法

        2019-07-15 01:52:12古平凌照
        現(xiàn)代計(jì)算機(jī) 2019年16期
        關(guān)鍵詞:置信度鄰域標(biāo)簽

        古平,凌照

        (重慶大學(xué)計(jì)算機(jī)學(xué)院,重慶 400044)

        0 引言

        不平衡學(xué)習(xí)是機(jī)器學(xué)習(xí)中一種重要的分類問(wèn)題,其中包含樣本數(shù)目較多的為多數(shù)類,而樣本數(shù)較少的為少數(shù)類。在許多實(shí)際應(yīng)用中都存在不平衡問(wèn)題,例如網(wǎng)絡(luò)入侵檢測(cè)[1]、信用卡欺詐檢測(cè)和垃圾郵件檢測(cè)。自不平衡學(xué)習(xí)問(wèn)題被提出以來(lái),已有大量的學(xué)習(xí)方法被開(kāi)發(fā)用于解決該問(wèn)題,這些工作大多分為兩類:重采樣技術(shù)和代價(jià)敏感學(xué)習(xí)技術(shù)[2]。重采樣是一種重新平衡類分布的技術(shù),它通過(guò)對(duì)少數(shù)類進(jìn)行過(guò)采樣或?qū)Χ鄶?shù)類進(jìn)行欠采樣而實(shí)現(xiàn)。代價(jià)敏感方法則為每個(gè)類提供不同的錯(cuò)誤分類代價(jià),而且一般少數(shù)類的分類錯(cuò)誤的代價(jià)較大。與現(xiàn)有的方法不同,Ertekin等人提出了基于主動(dòng)學(xué)習(xí)[3]策略的不平衡學(xué)習(xí)算法[4](AL-SVM)來(lái)處理虛擬樣本合成以及信息量的度量問(wèn)題。最近,P Vateekul等人提出了一種基于G-means的主動(dòng)學(xué)習(xí)模型來(lái)解決不平衡問(wèn)題,并發(fā)現(xiàn)尤其適用于大規(guī)模數(shù)據(jù)集[5]。

        直覺(jué)上主動(dòng)學(xué)習(xí)在不平衡學(xué)習(xí)中的應(yīng)用是從未標(biāo)記的數(shù)據(jù)集中主動(dòng)選擇可能的少數(shù)類樣本,然后標(biāo)記并添加它們到初始訓(xùn)練集中以產(chǎn)生平衡的數(shù)據(jù)集。不幸的是,該技術(shù)可能會(huì)在不平衡的設(shè)定下遭受標(biāo)記成本較大的風(fēng)險(xiǎn),也就是說(shuō),由于初始數(shù)據(jù)分布是傾斜的,所以未標(biāo)記的多數(shù)類樣本將比少數(shù)類樣本更頻繁地被查詢和標(biāo)記,最后導(dǎo)致主動(dòng)學(xué)習(xí)在降低不平衡率的效果上將受到較大的限制。

        經(jīng)過(guò)對(duì)主動(dòng)學(xué)習(xí)和半監(jiān)督學(xué)習(xí)[6]的研究啟發(fā),我們通過(guò)計(jì)算樣本的少數(shù)類置信度,提出了一種新的針對(duì)不平衡學(xué)習(xí)的主動(dòng)學(xué)習(xí)算法:基于稀疏鄰域的主動(dòng)不平衡學(xué)習(xí)算法(ASS-SN)。它有效地克服了虛擬樣本合成的局限性,并且具有針對(duì)少數(shù)類樣本有效查詢的優(yōu)點(diǎn)。其基本思想是僅使用小規(guī)模的有標(biāo)記數(shù)據(jù)和大量未標(biāo)記數(shù)據(jù)計(jì)算出未標(biāo)記樣本的少數(shù)類置信度,然后選擇置信度最高的未標(biāo)記樣本作為迭代查詢的標(biāo)準(zhǔn)。其中我們利用半監(jiān)督學(xué)習(xí)技術(shù)來(lái)確定每個(gè)未標(biāo)記樣本的少數(shù)類置信度,受稀疏編碼的啟發(fā),與其他基于圖結(jié)構(gòu)的半監(jiān)督方法不同,我們通過(guò)求解一個(gè)L1最優(yōu)化問(wèn)題來(lái)計(jì)算出圖結(jié)構(gòu)的頂點(diǎn)與邊權(quán)重信息,從而不需要預(yù)先設(shè)定相關(guān)參數(shù)的大小。

        1 算法過(guò)程及框架

        1.1 相關(guān)概念以及動(dòng)機(jī)

        給定不平衡數(shù)據(jù)集X={x1,x2,…,xm+n},xi∈Rd,1≤i≤m+n,其中d為維數(shù)??梢詫⒃摬黄胶鈹?shù)據(jù)集X劃分為XL和XU,其中XL=(x1,y1)…(xm,ym)是有標(biāo)記的數(shù)據(jù)集,而且每一個(gè)樣本包含有獨(dú)一無(wú)二的屬于(0,1)的樣本標(biāo)簽,yi代表其類別標(biāo)簽。XU=(xm+1,ym+1)…(xm+n,ym+n)代表未標(biāo)記的數(shù)據(jù)集,其類別標(biāo)簽未知。在有標(biāo)記的數(shù)據(jù)集XL中,IR代表該數(shù)據(jù)集的不平衡比率。

        我們所提出的問(wèn)題是如何在以下情況使用未標(biāo)記數(shù)據(jù)來(lái)提高監(jiān)督學(xué)習(xí)算法的準(zhǔn)確性:①只有少量有標(biāo)記的樣本可用。②有大量未標(biāo)記的數(shù)據(jù)。③在有標(biāo)記的數(shù)據(jù)集中,少數(shù)類樣本數(shù)量遠(yuǎn)遠(yuǎn)少于多數(shù)類。經(jīng)過(guò)AL-SVM算法的啟發(fā),我們發(fā)現(xiàn)該方法存在一個(gè)主要的缺點(diǎn):直接將SVM算法應(yīng)用到不平衡的數(shù)據(jù)集會(huì)導(dǎo)致該超平面存在偏倚,并且偏向于多數(shù)類樣本,因此該算法并沒(méi)有考慮查詢有效性的問(wèn)題,即希望不平衡學(xué)習(xí)算法能夠有效地查詢未標(biāo)記的樣本盡可能為少數(shù)類樣本以達(dá)到均衡數(shù)據(jù)集的目的,從而降低人工標(biāo)注成本。為此,我們采用了一種完全不同的主動(dòng)采樣策略,其目標(biāo)是盡可能多地標(biāo)記少數(shù)類樣本,從而均衡初始的有標(biāo)記數(shù)據(jù)集并提高分類性能。因此該策略包含本文的核心問(wèn)題定義:少數(shù)類置信度。

        定義1少數(shù)類置信度(MC):對(duì)于任意未標(biāo)記樣本xi∈XU,假設(shè)其屬于少數(shù)類或者多數(shù)類的概率為yui mi或yui ma,那么該樣本xi的少數(shù)類置信度(MC)可以通過(guò)以下公式計(jì)算:

        Mci越大,表示該樣本屬于少數(shù)類的可能性就越高。如果我們根據(jù)少數(shù)類置信度相應(yīng)地對(duì)未標(biāo)記的樣本進(jìn)行主動(dòng)采樣,則更有可能正確地選擇并標(biāo)記它們?yōu)樯贁?shù)類樣本。

        1.2 半監(jiān)督學(xué)習(xí)技術(shù)求解少數(shù)類置信度問(wèn)題

        根據(jù)定義1,我們的主動(dòng)采樣策略是根據(jù)未標(biāo)注樣本的少數(shù)類置信度選擇最可能的少數(shù)類樣本,也就是說(shuō),這個(gè)問(wèn)題可以轉(zhuǎn)換為求解未標(biāo)記樣本分別屬于多數(shù)類和少數(shù)類的概率。為了解決這個(gè)問(wèn)題,在機(jī)器學(xué)習(xí)中我們知道半監(jiān)督學(xué)習(xí)旨在對(duì)標(biāo)記樣本和未標(biāo)記樣本進(jìn)行學(xué)習(xí),尤其是基于圖的半監(jiān)督學(xué)習(xí)方法。大多數(shù)現(xiàn)有的半監(jiān)督學(xué)習(xí)方法是基于k最近鄰(knn)圖提出的,但k值在實(shí)際應(yīng)用中難以預(yù)先確定,且尤其是在不平衡數(shù)據(jù)集中。受稀疏編碼的啟發(fā),我們通過(guò)求解L1最優(yōu)化問(wèn)題來(lái)構(gòu)建稀疏鄰域圖[7],這避免了在不同場(chǎng)景中預(yù)先定義k值的難題。最后通過(guò)在樣本的稀疏鄰域中實(shí)現(xiàn)標(biāo)簽傳播來(lái)測(cè)量未標(biāo)記樣本的少數(shù)類置信度。

        (1)構(gòu)建稀疏鄰域圖

        假設(shè)定義一個(gè)線性方程組:xi=Xiαi,其中xi是要表示的樣本,αi是重建系數(shù)的向量,Xi是除了xi的其他樣本,可以表示為:Xi=[x1…xi-1,xi+1…xm+n]。通過(guò)稀疏編碼的啟發(fā),激勵(lì)我們通過(guò)解決以下最優(yōu)化問(wèn)題來(lái)尋求xi=Xiαi的最稀疏的解決方案:

        通過(guò)求解結(jié)果我們發(fā)現(xiàn)在系數(shù)重建過(guò)程中某些距離表示樣本較遠(yuǎn)的“壞的”樣本的重建系數(shù)一般較小而且會(huì)對(duì)標(biāo)簽傳播起到負(fù)面作用。為了解決這個(gè)問(wèn)題,我們定義了給定樣本xi的稀疏鄰域。

        定義2稀疏鄰域(SN):給定參數(shù)ε,樣本xi的稀疏鄰域定義為:如果重建過(guò)程中樣本xj,i≠j的重建系數(shù)αj滿足αj>ε,則認(rèn)為樣本在xj給定樣本xi的稀疏鄰域中,或者xj∈SN(xi)。

        根據(jù)定義2,對(duì)于給定的樣本xi,我們刪除了那些所謂的“壞的”樣本,即這些樣本的重建系數(shù)很小。也就是說(shuō),我們強(qiáng)調(diào)那些在稀疏鄰域中的樣本的作用并且認(rèn)為這些樣本與被表示的樣本“相似”。因此,構(gòu)造的稀疏鄰域圖的目標(biāo)函數(shù)由下式給出:

        其中G表示稀疏鄰域圖,如果αij<ε,則αij=0。這表明如果樣本xj不在樣本xi稀疏鄰域中,則重建系數(shù)將為0。

        (2)基于稀疏鄰域的標(biāo)簽傳播

        假設(shè)對(duì)于樣本xi,xi的標(biāo)簽可以由來(lái)自xi的稀疏鄰域的那些樣本標(biāo)簽線性重建。并且我們假設(shè)標(biāo)簽空間和樣本空間共享相同的局部線性重建權(quán)重,因此通過(guò)以下式子估計(jì)所有樣本的標(biāo)簽:

        基于基本的代數(shù)知識(shí),可以很容易地推斷出:

        I是一個(gè)單位矩陣,令W=(I-G)T(I-G),我們可以得到結(jié)論:tr(YTWY),tr(·)表示矩陣的跡。將Y進(jìn)行劃分:Y=[YL;YU],YU表示待求解的未標(biāo)記樣本的標(biāo)簽矩陣,YL表示有標(biāo)記樣本的標(biāo)簽矩陣。將矩陣W劃分為四個(gè)部分:

        通過(guò)結(jié)論(5):tr(YTWY),我們求出關(guān)于Y的偏導(dǎo)數(shù):

        最后求解上式,獲得所有未標(biāo)記樣本的標(biāo)簽概率矩陣:

        通過(guò)將上述推導(dǎo)過(guò)程應(yīng)用于訓(xùn)練數(shù)據(jù)集,每個(gè)未標(biāo)記樣本將分別獲得屬于少數(shù)類和多數(shù)類的概率,該求解結(jié)果可以表示為因此跟據(jù)定義1,我們可以計(jì)算每個(gè)未標(biāo)記樣本的少數(shù)類置信度,即

        1.3 算法框架

        基于稀疏鄰域的主動(dòng)不平衡學(xué)習(xí)算法(ASS-SN)包括兩個(gè)關(guān)鍵步驟。首先我們通過(guò)求解L1最優(yōu)化問(wèn)題的方式構(gòu)建稀疏鄰域圖,并在其基礎(chǔ)上進(jìn)行標(biāo)簽傳播,以計(jì)算每個(gè)未標(biāo)記樣本的少數(shù)類置信度。其次,通過(guò)主動(dòng)學(xué)習(xí)技術(shù)結(jié)合這種查詢策略進(jìn)行迭代學(xué)習(xí),并在每一次迭代中更新標(biāo)簽傳播矩陣,直到數(shù)據(jù)集幾乎平衡。ASS-SN算法的框架如下:

        輸入:XL:有標(biāo)記的數(shù)據(jù)集

        XU:大量的未標(biāo)記數(shù)據(jù)集

        輸出:XL:有標(biāo)記數(shù)據(jù)集

        (1)根據(jù)定義2以及公式(3)求解以下最優(yōu)化問(wèn)題,并構(gòu)建稀疏鄰域圖G:

        (2)while(IR>1):

        ①根據(jù)圖G,構(gòu)建傳播矩陣W:W=(I-G)T(I-G),基于W進(jìn)行標(biāo)簽傳播,并計(jì)算出未標(biāo)記樣本的標(biāo)簽矩陣

        ②對(duì)每一個(gè)未標(biāo)記樣本xi∈XU,根據(jù)定義1和標(biāo)簽矩陣計(jì)算樣本xi的少數(shù)類置信度,Mci:

        ③根據(jù)Mci,選擇其中少數(shù)類置信度最大的ul個(gè)樣本交與專家標(biāo)注,并將其中標(biāo)注的少數(shù)類樣本添加到過(guò)渡集V中。最后讓XL=XL?{V},XU=XU{V}

        ④基于貝葉斯分類器重新訓(xùn)練XL并跟新標(biāo)簽傳播矩陣W

        (3)end while

        2 實(shí)驗(yàn)結(jié)果與分析

        實(shí)驗(yàn)主要在來(lái)自UCI機(jī)器學(xué)習(xí)庫(kù)的數(shù)據(jù)集上進(jìn)行,即Prima數(shù)據(jù)集。為了深度分析不平衡數(shù)據(jù)集對(duì)ASS-SN算法的影響,我們通過(guò)隨機(jī)刪除Prima數(shù)據(jù)集中樣本的標(biāo)簽來(lái)獲得主動(dòng)學(xué)習(xí)中所需的未標(biāo)記樣本。表1顯示了在這種情況下選擇的數(shù)據(jù)集。為了評(píng)估不同算法在不平衡問(wèn)題上的分類性能,我們采用了針對(duì)不平衡問(wèn)題的經(jīng)典評(píng)估方法,即F-measure[8]。在本文算法第1.2小節(jié)中,需要對(duì)是否處于稀疏鄰域中的樣本進(jìn)行判定,我們根據(jù)經(jīng)驗(yàn)和稀疏表示的特征選擇ε的值,并且將稀疏鄰域ε的半徑固定在0.02。本文算法與兩種流行的主動(dòng)學(xué)習(xí)算法進(jìn)行比較,即AL-EN[3]和AL-SVM,其中AL-EN是一種基于信息熵測(cè)量的主動(dòng)學(xué)習(xí)方法。

        表1 實(shí)驗(yàn)所采用的數(shù)據(jù)集

        從圖1可以看出,對(duì)于每種主動(dòng)學(xué)習(xí)技術(shù),每次查詢的樣本中少數(shù)類樣本的數(shù)量都受到不平衡數(shù)據(jù)集的強(qiáng)烈影響。例如,如果查詢284個(gè)未標(biāo)記的樣本,通過(guò)本文算法可以有效地標(biāo)記181個(gè)少數(shù)類樣本,而在AL-EN和AL-SVM中則只能標(biāo)記98和73個(gè)少數(shù)類樣本。從算法整體來(lái)分析可以看出由于本文算法有效地利用稀疏標(biāo)簽傳播算法使得在主動(dòng)學(xué)習(xí)采樣的過(guò)程中,少數(shù)類未標(biāo)記樣本的采樣概率大幅度提升。因此在每一輪標(biāo)注占比上,本文算法完全優(yōu)于其他主動(dòng)學(xué)習(xí)算法,并且會(huì)提前完成對(duì)大部分少數(shù)類樣本的標(biāo)注。

        從圖2中,可以看到在每次的迭代過(guò)程中,F(xiàn)1值隨著主動(dòng)采樣過(guò)程而逐漸增加,但是可以觀察到,ASSSN的F1值優(yōu)于AL-EN和AL-SVM。例如,AL-EN和AL-SVM的最佳 F1值分別為 0.6278和 0.5098,而ASS-SN算法可以達(dá)到0.7107??傊?,這種性能提升是由于通過(guò)這種有傾向性的主動(dòng)學(xué)習(xí)算法在少數(shù)類上具有強(qiáng)大的搜索能力,特別是當(dāng)這些樣本遠(yuǎn)離最初的少數(shù)類群體時(shí);傳統(tǒng)的主動(dòng)學(xué)習(xí)算法傾向于丟棄這些樣本,而本文的標(biāo)簽傳播機(jī)制可以有效地找到它們。

        圖1 少數(shù)類的標(biāo)記效率

        圖2 每次迭代采樣后的分類性能

        3 結(jié)語(yǔ)

        本文中我們提出了一種自適應(yīng)的主動(dòng)學(xué)習(xí)方法針對(duì)不平衡學(xué)習(xí)問(wèn)題,本文算法的一個(gè)優(yōu)點(diǎn)是利用稀疏鄰域的標(biāo)簽傳播策略計(jì)算未標(biāo)注樣本的少數(shù)類置信度,并專注于采樣其置信度較高的樣本,從而有效地解決不平衡問(wèn)題并降低標(biāo)記成本。其次通過(guò)引入主動(dòng)學(xué)習(xí)技術(shù)的迭代過(guò)程,使得本文算法能夠有效地提高不平衡數(shù)據(jù)集的分類性能。雖然ASS-SN算法在大多數(shù)情況下都能獲得更好的性能,但仍有許多問(wèn)題需要解決,例如我們所提出的算法比其他算法消耗更多的時(shí)間。

        猜你喜歡
        置信度鄰域標(biāo)簽
        硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
        稀疏圖平方圖的染色數(shù)上界
        無(wú)懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        基于鄰域競(jìng)賽的多目標(biāo)優(yōu)化算法
        正負(fù)關(guān)聯(lián)規(guī)則兩級(jí)置信度閾值設(shè)置方法
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        關(guān)于-型鄰域空間
        標(biāo)簽化傷害了誰(shuí)
        置信度條件下軸承壽命的可靠度分析
        軸承(2015年2期)2015-07-25 03:51:04
        基于多進(jìn)制查詢樹(shù)的多標(biāo)簽識(shí)別方法
        成年奭片免费观看视频天天看| 极品美女扒开粉嫩小泬图片| 男人的天堂免费a级毛片无码| 野外性史欧美k8播放| 亚洲一区二区三区在线观看播放| 白色白色在线视频播放平台| 末成年人av一区二区| 人人妻人人妻人人片av| 精品国产一级毛片大全| 高清亚洲成av人片乱码色午夜 | 天天狠天天添日日拍| 久久精品国产9久久综合| 亚洲图片第二页| 国产白色视频在线观看| 男人的天堂无码动漫av| 亚洲人成电影在线无码| 日本看片一区二区三区| 国产精品女同一区二区免费站| 日韩国产成人无码av毛片蜜柚| 久久精品国产99精品国偷| 日本免费三片在线播放| 邻居少妇张开腿让我爽了一夜| 亚洲乱亚洲乱少妇无码99p| 亚洲精品天堂av免费看| 99久久精品人妻一区| 久久综合狠狠综合久久综合88| 少妇邻居内射在线| 亚洲一区二区观看网站| 人妻久久一区二区三区蜜桃| 在线人成免费视频69国产| 野外三级国产在线观看| 蜜桃在线视频一区二区| 国产精品成人免费视频一区| 亚洲av无码av在线播放| 成人影院免费观看在线播放视频| 一二三四区中文字幕在线| 国精无码欧精品亚洲一区| 午夜爽毛片| 蜜臀av一区二区三区久久| 国产免费人成视频在线观看| 久久精品国产亚洲婷婷|