亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于負(fù)相關(guān)性增強的不平衡多標(biāo)簽學(xué)習(xí)算法*

        2021-09-22 13:27:26程玉勝曹天成王一賓鄭偉杰
        計算機工程與科學(xué) 2021年9期
        關(guān)鍵詞:分類

        程玉勝,曹天成,王一賓,鄭偉杰

        (1.安徽省高校智能感知與計算重點實驗室(安慶師范大學(xué)),安徽 安慶 246133; 2.計算智能與信號處理教育部重點實驗室(安徽大學(xué)),安徽 合肥 230061)

        1 引言

        多標(biāo)簽學(xué)習(xí)[1]作為機器學(xué)習(xí)研究的熱點,吸引了大量研究者的關(guān)注,并在自動標(biāo)注、信息檢索、個性化推薦等領(lǐng)域得到了廣泛應(yīng)用[2 - 5]。但是,由于標(biāo)記空間的維數(shù)過大,造成了多標(biāo)簽數(shù)據(jù)的不平衡問題更加突出,嚴(yán)重影響了分類器的性能。也正是由于標(biāo)簽的不平衡性造成了不同標(biāo)簽對樣本實例的描述程度存在一定的差異性,有些標(biāo)簽出現(xiàn)的頻率較大,能描述大部分的樣本;而有些標(biāo)簽僅僅存在于少量樣本中,但往往這一小部分的標(biāo)簽卻包含了很多的信息。

        與平衡數(shù)據(jù)相比,大多數(shù)算法在處理不平衡數(shù)據(jù)時表現(xiàn)不佳,分類器偏向多數(shù)標(biāo)簽,從而在少數(shù)標(biāo)簽的判別上會出現(xiàn)更高的錯誤率,近年來越來越多針對多標(biāo)簽不平衡問題的方法被提出。如,Liu等[6]利用實例的局部標(biāo)簽分布,對數(shù)據(jù)進(jìn)行合成過采樣,在兼具全局與局部不平衡的同時,提高了分類器的分類精度;Tsai等[7]在處理臨床記錄文本時,將類別標(biāo)簽進(jìn)行分層,再加入卷積模型中,不僅提高了識別性能,同時還解決了類別不平衡問題;Lo等[8]利用代價敏感學(xué)習(xí)方法,為每種標(biāo)簽計算一個錯分代價,通過代價值的不同來減少少數(shù)標(biāo)簽錯分類情況??梢?,解決標(biāo)簽不平衡問題是提高多標(biāo)簽分類精度的有效手段。

        然而,真實世界中標(biāo)簽和標(biāo)簽之間并非相互獨立,往往存在一定的關(guān)聯(lián)性。在沒有足夠多的訓(xùn)練集時,充分利用標(biāo)簽間相關(guān)性來豐富訓(xùn)練集的標(biāo)簽集是必要的。目前,有許多學(xué)者利用標(biāo)簽之間的相關(guān)性來提高多標(biāo)簽學(xué)習(xí)算法的性能。鏈?zhǔn)椒诸怌C(Classifier Chains)[9]將多標(biāo)簽學(xué)習(xí)問題轉(zhuǎn)化為基于BR(Binary Relevance)的分類器鏈,但是鏈?zhǔn)请S機排列的,對標(biāo)簽間相關(guān)性的考慮也是隨機的。校準(zhǔn)標(biāo)簽排序CLR(Calibrated Label Ranking)算法[10]利用人工校準(zhǔn)標(biāo)簽進(jìn)行排序,但是遇到數(shù)據(jù)集較大、類別標(biāo)簽較多的問題時,不僅耗時耗力,而且得到的子分類器過多,增加了算法復(fù)雜度。隨機k標(biāo)簽集RAkEL(RAndom k-LabELsets)算法[11]是基于LP(Label Powerest)分類器的集成算法,在保留LP優(yōu)點的同時還考慮了標(biāo)簽之間的相關(guān)性,但會導(dǎo)致算法更復(fù)雜。多標(biāo)簽分類的核方法RankSVM(kernel method for multi-labelled classification)[12]利用最大間隔準(zhǔn)則策略適應(yīng)多標(biāo)簽學(xué)習(xí),在建模過程中對樣本對應(yīng)的相關(guān)標(biāo)簽和不相關(guān)標(biāo)簽間的排序損失構(gòu)建SVM分類器,但這需要計算大量的變量,所以耗時較大。

        上述方法都是通過計算標(biāo)簽間“距離”來衡量相關(guān)性,越接近的2個標(biāo)簽,相關(guān)性越大,這就默認(rèn)了以正相關(guān)為主來考慮標(biāo)簽間的相關(guān)性??墒窃趯嶋H問題中,還存在某種程度上的負(fù)相關(guān)。例如,在自然場景中,標(biāo)簽“山”和“樹”存在某種程度上的正相關(guān),而標(biāo)簽“沙漠”和“海洋”往往相互排斥,一般不會同時出現(xiàn)在一個樣本上,它們之間以負(fù)相關(guān)進(jìn)行制約。例如,圖1a是分類器識別為“海洋”標(biāo)簽的圖像,而圖1b中由于顏色、紋理等特征與圖1a極為相似,“天空”標(biāo)簽被錯分為“海洋”標(biāo)簽,使得圖1b最終分類到“海洋”“沙漠”標(biāo)簽中。但是,“海洋”與“沙漠”2個標(biāo)簽一般存在著負(fù)相關(guān)性,極大可能不會同時用于描述同一實例,那么,如果讓分類器學(xué)習(xí)了這組負(fù)相關(guān),就可以避免這種情況的發(fā)生。

        現(xiàn)有方法更多地側(cè)重于標(biāo)簽正相關(guān)性來提高學(xué)習(xí)性能,而對標(biāo)簽負(fù)相關(guān)性的明確探索卻很少。一些算法利用標(biāo)簽空間流形假設(shè)下的拉普拉斯矩陣正則化來探索標(biāo)簽間的兩兩相關(guān)關(guān)系,但他們主要關(guān)注的還是標(biāo)簽正相關(guān)性,而不能很好地利用標(biāo)簽負(fù)相關(guān)性。雖然,Huang等[13]明確探討了標(biāo)簽正相關(guān)和負(fù)相關(guān)這2種相關(guān)關(guān)系,但未考慮利用這2種關(guān)系相互促進(jìn)進(jìn)行分類。Zhang等[14]利用標(biāo)簽之間的協(xié)方差矩陣將標(biāo)簽兩兩組合成標(biāo)簽對,并探討每個標(biāo)簽對中的相關(guān)性(包括正相關(guān)、不相關(guān)和負(fù)相關(guān)),但是也只能求出成對標(biāo)簽之間的相關(guān)性,全局相關(guān)性的信息并不完善。Wu等[15]在分類算法中加入了負(fù)相關(guān)性正則,并用核映射加以求解,但也忽略了標(biāo)簽不平衡所帶來的影響。

        Figure 1 Natural scene images with multi labels 圖1 多標(biāo)簽自然場景圖像

        可見,探索標(biāo)簽的負(fù)相關(guān)性,改善分類器性能很有必要?;诖耍疚奶岢隽艘环N基于負(fù)相關(guān)性增強的不平衡多標(biāo)簽學(xué)習(xí)算法MLNCE(imbalanced Multi-label Learning algorithm based on Negative Correlation Enhancement)。該算法利用密度標(biāo)簽空間取代傳統(tǒng)標(biāo)簽空間,有效解決了多標(biāo)簽不平衡問題,并且在信息更加完善的密度標(biāo)簽空間中挖掘了標(biāo)簽間的正負(fù)2種相關(guān)性信息,從而提高分類精度。首先,本文算法利用訓(xùn)練集標(biāo)簽密度與代價因子構(gòu)建新的密度標(biāo)簽矩陣,使新的標(biāo)簽空間包含更多密度信息,從而解決多標(biāo)簽不平衡的問題;然后,使用密度標(biāo)簽矩陣取代原有標(biāo)簽矩陣,分別計算對應(yīng)于標(biāo)簽正相關(guān)性和負(fù)相關(guān)性的2個稀疏對稱相似性矩陣;最后,構(gòu)建線性分類模型,并在線性分類模型中加入2個標(biāo)簽流形正則項來完善相關(guān)性的信息。本文在11個數(shù)據(jù)集上對6種多標(biāo)簽學(xué)習(xí)算法進(jìn)行了對比實驗,實驗結(jié)果表明了本文算法的可行性、有效性和穩(wěn)定性。實驗結(jié)果表明:該算法在絕大多數(shù)情況下可以取得更好的預(yù)測精度且穩(wěn)定性更高。

        2 密度標(biāo)簽空間

        2.1 多標(biāo)簽學(xué)習(xí)

        2.2 密度標(biāo)簽矩陣的構(gòu)建

        (1)

        (2)

        其中,P+(j)是第j個標(biāo)簽的正類密度,P-(j)是第j個標(biāo)簽的負(fù)類密度,理論上P+(j)與P-(j)的和為1。本文將標(biāo)簽密度和條件熵[16]相結(jié)合計算代價因子,各標(biāo)簽代價因子就是分類正確或是錯誤帶來的信息量大小。在傳統(tǒng)的代價敏感學(xué)習(xí)方法中,代價的大小都是由研究者主觀給出的,而在本文中是通過計算得出的,不同的數(shù)據(jù)集會得到不同的代價。設(shè)代價因子共分為4種:已知標(biāo)簽為正類時,通過分類器計算得到標(biāo)簽預(yù)測為正類或負(fù)類的代價因子;已知標(biāo)簽為負(fù)類時,通過分類器計算得到標(biāo)簽預(yù)測為正類或負(fù)類的代價因子。4種錯分代價因子的計算如式(3)~式(6)所示:

        θTP=-p((P++s),(P++s))

        lbp((P++s)|(P++s))

        (3)

        θFP=-p((P++s),(P-+s))

        lbp((P-+s)|(P++s))

        (4)

        θFN=-p((P-+s),(P++s))

        lbp((P++s)|(P-+s))

        (5)

        θTN=-p((P-+s),(P-+s))

        lbp((P-+s)|(P-+s))

        (6)

        實驗數(shù)據(jù)集中會出現(xiàn)某類標(biāo)簽密度為零的情況,這種情況會導(dǎo)致條件熵值無法計算,所以本文在計算代價時引入了一個數(shù)值極小的平滑參數(shù)s,目的是在盡可能不改變結(jié)果大小的情況下,消除標(biāo)簽密度為零而帶來的無法計算情況,一般情況s∈[1×10-5,1×10-3]。代價因子具體如表1所示。

        Table 1 Four kinds of cost factor表1 4種代價因子

        這4種代價因子的含義可以理解為:現(xiàn)已知某樣本的第j個標(biāo)簽為+1時,通過分類器預(yù)測出標(biāo)簽為+1的代價為θTP(j),通過分類器預(yù)測出標(biāo)簽為-1的代價為θFP(j)。算法正確預(yù)測后,若樣本的第j個標(biāo)簽為正類則θTP(j)為0,若樣本的第j個標(biāo)簽為負(fù)類則θTN(j)為0。計算出的代價因子越大,說明預(yù)測的標(biāo)簽置信度越小,錯誤分類的代價就應(yīng)該越大。這些錯誤是由每個標(biāo)簽的標(biāo)簽密度帶來的,若密度趨向于平衡,代價因子就會小,相應(yīng)所求得的標(biāo)簽置信度也大,利用這4種代價因子計算標(biāo)簽密度代價矩陣Ldcf如式(7)所示:

        (7)

        其中,i∈{1,2,3,…,N}為樣本編號;j∈{1,2,3,…,m}為標(biāo)簽編號;α為平衡化參數(shù),用于調(diào)整標(biāo)簽密度代價的敏感程度,取值在[1,10],本文所有實驗中α取值為2。標(biāo)簽密度代價矩陣Ldcf包含樣本標(biāo)簽的密度信息,將其融入標(biāo)簽空間后,可以使原標(biāo)簽空間含有標(biāo)簽密度信息,增大了少數(shù)標(biāo)簽的錯分類代價,從而大幅降低分類時數(shù)據(jù)不平衡而帶來的錯分類現(xiàn)象。新的密度標(biāo)簽矩陣Y*由式(8)構(gòu)建:

        Y*=Y×Ldcf

        (8)

        標(biāo)簽改造的過程是要在盡可能不改變原始標(biāo)簽語義信息的情況下,加上改變不平衡的約束,所以,平衡化參數(shù)α的取值也不宜太過敏感,要使得改造后標(biāo)簽值盡可能地逼近+1或-1。

        3 基于負(fù)相關(guān)性增強的不平衡多標(biāo)簽學(xué)習(xí)算法

        3.1 基本多標(biāo)簽學(xué)習(xí)模型

        (9)

        其中,W=[W1,W2,W3,…,Wd]T∈Rd*m為模型的回歸權(quán)重,為了提高模型的穩(wěn)定性和泛化性能,本文使用L1正則(Lasso正則)項[17]來產(chǎn)生稀疏的權(quán)值矩陣,并且還起到了特征選擇的作用,λ1≥0是平衡參數(shù)。設(shè)測試集預(yù)測矩陣F=X*W,則多標(biāo)簽分類函數(shù)H=sgn(F)。這里的sgn(x)為符號函數(shù),當(dāng)x>0時,輸出為1;反之則輸出-1。

        為了解決標(biāo)簽密度不平衡的問題,本文用密度標(biāo)簽矩陣代替標(biāo)簽矩陣,模型更新如式(10)所示:

        (10)

        3.2 標(biāo)簽正相關(guān)正則項

        利用標(biāo)簽相關(guān)性對多標(biāo)簽學(xué)習(xí)至關(guān)重要,本文使用標(biāo)簽的正負(fù)相關(guān)性來規(guī)范模型。如果2個標(biāo)簽yi和yj呈正相關(guān)關(guān)系,它們的標(biāo)簽值應(yīng)該更可能是相近的(都接近1或-1),在預(yù)測時,這2個標(biāo)簽的預(yù)測值fi和fj應(yīng)當(dāng)更加相似,根據(jù)這一點,本文采用標(biāo)簽流形正則項來約束模型。類似于實例級流形正則化項[18],標(biāo)簽正相關(guān)性的流形正則項被定義如式(11)所示:

        (11)

        其中,S∈Rm*m是用余弦相似度[19]計算出的基礎(chǔ)標(biāo)簽相似度矩陣,該矩陣是基于密度標(biāo)簽矩陣Y*計算得到的,由于標(biāo)簽空間的不平衡情況得到了解決,所以相對于利用原有不平衡標(biāo)簽空間計算出的相似度矩陣,該矩陣的置信度更高,可以提升分類效果。對正則項進(jìn)行推算:

        這里,Dp∈Rm*m是對角線上值為1的對角矩陣,拉普拉斯矩陣Lp=Dp-S是S的標(biāo)簽正相關(guān)性對角矩陣。這時,結(jié)合了標(biāo)簽正相關(guān)性的分類模型如式(12)所示:

        λ2Tr(XWLp(XW)T)

        (12)

        其中,λ2為標(biāo)簽流形正則項的正則參數(shù)。

        此時,分類模型已經(jīng)規(guī)范了標(biāo)簽正相關(guān)性。

        3.3 標(biāo)簽負(fù)相關(guān)正則項

        式(12)對模型加上了正相關(guān)性約束,但是只考慮正相關(guān)性的分類模型不夠全面完善,在模型中加入標(biāo)簽負(fù)相關(guān)性約束是必要的。如果2個標(biāo)簽yi和yj呈負(fù)相關(guān)關(guān)系,它們的標(biāo)簽值應(yīng)該更可能是相反的,若一個標(biāo)簽值接近1,則另一個接近-1,反之亦然。而在預(yù)測時,這2個標(biāo)簽的預(yù)測值fi和fj應(yīng)當(dāng)相差巨大,而fi與fj的相反數(shù)-fj應(yīng)極為相似,因此,標(biāo)簽負(fù)相關(guān)性的流形正則項被定義如式(13)所示:

        (13)

        同樣地,S∈Rm*m是基于密度標(biāo)簽矩陣Y*計算得到的基礎(chǔ)標(biāo)簽相似度矩陣。對正則項進(jìn)行進(jìn)一步推算:

        其中,拉普拉斯矩陣Ln=Dn+S是S的標(biāo)簽負(fù)相關(guān)性對角矩陣。將正則項加入模型得式(14):

        λ2Tr(XWLp(XW)T)+λ3Tr(XWLn(XW)T)

        (14)

        Figure 2 Diagram of model operation圖2 模型工作圖解

        其中,λ2和λ3是2個標(biāo)簽流形正則項的正則參數(shù)。

        圖2描述了分類模型的主要工作流程,密度標(biāo)簽矩陣作為目標(biāo)函數(shù)的輸入,正負(fù)相關(guān)性信息作為約束條件,將直接作用于目標(biāo)函數(shù)的訓(xùn)練過程。而選用的2個標(biāo)簽流形正則化項之所以能夠兼顧正負(fù)2種相關(guān)性并起到促進(jìn)作用,是因為2個拉普拉斯矩陣Lp和Ln的編碼方式都是基于相似度矩陣S的線性變化。而且對于分類模型來說,在標(biāo)簽空間分別考慮正負(fù)相關(guān)性,這2個性質(zhì)不會相互抵消,反而會相互促進(jìn)。

        4 算法優(yōu)化

        本文算法的目標(biāo)是通過迭代求解出最優(yōu)權(quán)重矩陣W,目標(biāo)函數(shù)如式(15)所示:

        λ2Tr(XWLp(XW)T)+λ3Tr(XWLn(XW)T)

        (15)

        將式(15)進(jìn)行分解得式(16):

        W=argminWF(W)=f(W)+g(W)

        (16)

        其中,

        λ3Tr(XWLn(XW)T)

        (17)

        g(W)=λ1‖W‖1

        (18)

        首先,對式(17)進(jìn)行線性處理,從而計算目標(biāo)梯度:

        2λ2XTXWLp2λ3XTXWLn

        (19)

        然后,利用式(19)來計算利普希茨常數(shù),部分推導(dǎo)過程為:

        所以,得到本文模型的利普希茨常數(shù)為:

        (20)

        同時,在加速梯度下降法中,主要的迭代公式如式(21)~式(23)所示:

        (21)

        (22)

        (23)

        利用加速梯度下降法計算輸出權(quán)重的算法過程如算法1所示。

        算法1利用加速梯度下降法計算輸出權(quán)重的算法

        輸入:X∈RN*d,Y*∈RN*m,模型參數(shù)λ1,λ2,λ3。

        輸出:權(quán)值W*∈Rd*m。

        1 初始化t=1,b1=1;

        2 初始化零矩陣Gt=W0∈Rd*m;

        3 計算矩陣Lp和Ln;

        4 利用式(22)計算利普西茨常數(shù)Lf;

        5 根據(jù)式(16)進(jìn)入循環(huán):

        10t=t+1;

        11 迭代次數(shù)t達(dá)到最大值時結(jié)束循環(huán);

        12W*=Wt-1。

        5 實驗

        5.1 實驗環(huán)境與評價指標(biāo)

        實驗代碼均在Matlab 2016a 中運行,硬件環(huán)境為Intel? Core(TM)i5-2525M 2.50 GHz CPU,8 GB內(nèi)存;操作系統(tǒng)為Windows 10。選用5個常用的多標(biāo)簽學(xué)習(xí)評價指標(biāo)來綜合評價算法性能,分別是平均精度AP(Average Precision)、覆蓋率CV(CoVerage)、漢明損失HL(Hamming Loss)、1-錯誤率OE(One-Error)和排序損失RL(Ranking Loss)[21]。為方便簡寫為AP↑、CV↓、HL↓、OE↓和RL↓,其中↑表示數(shù)值越高越好,↓表示數(shù)值越低越好。

        5.2 實驗數(shù)據(jù)集

        本文實驗使用的11個多標(biāo)簽標(biāo)準(zhǔn)化數(shù)據(jù)集選自木蘭網(wǎng)與雅虎網(wǎng)頁,其中涵蓋了文本、音樂和圖像等多個領(lǐng)域,詳細(xì)信息如表2所示。所選數(shù)據(jù)集都是常用的多標(biāo)簽數(shù)據(jù)集,同時計算了數(shù)據(jù)集的平均正負(fù)類密度,以佐證多標(biāo)簽數(shù)據(jù)集中普遍存在標(biāo)簽不平衡情況。由表2可以看出,選用的所有數(shù)據(jù)集都存在不同程度的不平衡情況,其中,F(xiàn)lags數(shù)據(jù)集最為平衡,正負(fù)類數(shù)量接近相同,但在Birds等5個數(shù)據(jù)集上,正負(fù)類數(shù)量基本呈1∶9,正類數(shù)量遠(yuǎn)少于負(fù)類數(shù)量,其他數(shù)據(jù)集也表現(xiàn)出不同程度的不平衡情況,且都是負(fù)類數(shù)量高于正類數(shù)量。

        5.3 對比算法

        本文選擇了6個多標(biāo)簽學(xué)習(xí)算法作為對比算法,分別為基于K近鄰思想的多標(biāo)簽ML-KNN(K-Nearest Neighbor for Multi-label Learning)算法、基于極限學(xué)習(xí)機ELM (Extreme Learning Machine)的多標(biāo)簽學(xué)習(xí)ML RKELM(Multi-label Regression Kernel Extreme Learning Machine)算法[22]、基于類屬屬性思想的多標(biāo)簽學(xué)習(xí)LIFT(Multi-label Learning with Label-specific FeaTures)算法[23]、LLSF-DL(Learning Label-Specific Features and class-Dependent Labels)算法[24]、基于標(biāo)簽稀疏重構(gòu)學(xué)習(xí)的多標(biāo)簽學(xué)習(xí)MLFE(Multi-label Learning with Feature-induced labeling infor-mation Enrichment)算法[25]和反向傳播多標(biāo)簽學(xué)習(xí)BP-MLL(BackPropagation for Multi- Label Learning)算法[4]。

        其中,ML RKELM算法的正則化系數(shù)?=1,核函數(shù)選用RBF核,核參數(shù)ρ∈[1,100]。LIFT算法的平滑參數(shù)λ=0.1。ML-KNN算法的近鄰個數(shù)k=15,平滑參數(shù)s=1。LLSF-DL算法的平滑參數(shù)α,β,γ∈[4-5,45],ρ∈{0.1,1,10}。MLFE算法的參數(shù)β1∈{1,2,…,10},β2∈{1,10,15},β3∈{1,10}。BP-MLL算法的核函數(shù)選用RBF核,核參數(shù)ρ=1。本文MLNCE算法的平衡化參數(shù)α=2,平滑參數(shù)s=0.001,參數(shù)λ1∈{2-10,2-1,21,210},λ2,λ3∈[2-10,2]。

        Table 2 Detailed description of multi-label datasets表2 多標(biāo)簽數(shù)據(jù)集的詳細(xì)描述

        5.4 實驗結(jié)果與分析

        限于篇幅,僅列出AP評價指標(biāo)結(jié)果,如表3所示,其中,數(shù)字下標(biāo)表示算法排位信息,最優(yōu)結(jié)果以黑體表示,并且將每種算法在所有數(shù)據(jù)集上的平均排位列在最后一行,排位越小算法性能越優(yōu)。最后一列中,URL 1:Yahoo Web Pages(http://www.kecl.ntt.co.jp/as/members/ueda/yahoo.tar),URL 2:Mulan(http://mulan.sourceforge.net/datasets-mlc.html)。可見,在AP指標(biāo)上,MLNCE算法在7個數(shù)據(jù)集上性能最優(yōu),在其他4個數(shù)據(jù)集上均排第2,平均排位為1.36。由于各數(shù)據(jù)集的不平衡程度不同,本文算法在各數(shù)據(jù)集上的效果也不相同,同樣地,各數(shù)據(jù)集中標(biāo)簽的相關(guān)關(guān)系也不同,這些因素會影響到本文算法的實驗結(jié)果,使得本文算法并不能在全部指標(biāo)上全面地優(yōu)于其他對比算法,但數(shù)據(jù)集的這些性質(zhì)并不是實驗結(jié)果的決定性因素,結(jié)果也表明了本文算法在大部分的情況下都要優(yōu)于其他對比算法。為了更直觀地體現(xiàn)本文算法的優(yōu)越性,圖3比較了所有算法在5個指標(biāo)上的平均排位,圖3柱狀圖中柱體越低代表排序越好。結(jié)果表明,在5個評價指標(biāo)上,MLNCE算法的結(jié)果都在不同程度上優(yōu)于其他對比算法,總體平均排序也是最優(yōu)的,充分說明了該算法的優(yōu)越性。

        5.5 模型結(jié)構(gòu)分析

        本文算法的核心點就是密度標(biāo)簽矩陣的使用以及兼顧標(biāo)簽正負(fù)相關(guān)性,本節(jié)就這2點內(nèi)容進(jìn)行2組對比實驗。

        Table 3 AP↑ value of each algorithm on 11 datasets表3 各算法在11個數(shù)據(jù)集上的AP↑值

        Figure 3 Overall average ranks of the comparing algorithms in terms of all the metrics圖3 算法在所有指標(biāo)上的總體平均排位

        首先,為了驗證使用密度標(biāo)簽矩陣的可行性和有效性,添加對比實驗以說明。在實驗數(shù)據(jù)集不變,模型參數(shù)不變,求解方法不變的情況下,將目標(biāo)函數(shù)式(16)中的密度標(biāo)簽矩陣Y*替換為原始的標(biāo)簽矩陣Y,求得預(yù)測結(jié)果計算5種評價指標(biāo),并與使用密度標(biāo)簽矩陣Y*的本文算法實驗結(jié)果進(jìn)行對比,具體對比結(jié)果如表4所示,黑色加粗代表占優(yōu)。

        由表4可以直觀地看出,使用密度標(biāo)簽矩陣計算得到的實驗結(jié)果在大部分情況下是占優(yōu)的,只有在極少部分情況下使用原始標(biāo)簽得到的結(jié)果要更好,反映了密度標(biāo)簽矩陣對分類效果有改善作用,表明本文算法可以有效改善因標(biāo)簽不平衡帶來的錯分類現(xiàn)象,說明密度標(biāo)簽矩陣是可行有效的。

        然后,為了分析模型中正負(fù)相關(guān)性正則項的可行性和有效性,本文進(jìn)行了如下的對比實驗。將目標(biāo)函數(shù)式(16)中的λ3取值為0,其它因素不變,構(gòu)成只考慮標(biāo)簽正相關(guān)性的改進(jìn)算法MLPC;同樣>地,將目標(biāo)函數(shù)式(16)中的λ2取值為0,構(gòu)成只考慮標(biāo)簽負(fù)相關(guān)性的改進(jìn)算法MLNC。將這2個改進(jìn)算法在同樣的11個數(shù)據(jù)集上進(jìn)行的實驗,并與本文算法MLNCE進(jìn)行AP、CV2個指標(biāo)的對比,實驗結(jié)果如表5所示,黑色加粗代表占優(yōu)。

        由表5可以看出,由于本文MLNCE算法兼顧了正反相關(guān)性信息,分類性能有所提高。實驗結(jié)果表明,本文MLNCE算法大體上占優(yōu),表明正負(fù)相關(guān)性正則化項是可行的,且有益于分類效果的提高。

        5.6 參數(shù)敏感性分析

        根據(jù)本文算法思想,模型參數(shù)λ1,λ2,λ3都不是唯一值,其中參數(shù)λ2,λ3的取值在[2-10,2]。由于參數(shù)的取值對本文算法有一定的影響,所以,本文選取Natural_scene數(shù)據(jù)集進(jìn)行不同參數(shù)取值的對比實驗。圖4給出了不同參數(shù)λ2,λ3在Natural_scene數(shù)據(jù)集上AP和OE指標(biāo)的對比結(jié)果。

        從圖4可以看出,在Natural_scene數(shù)據(jù)集上,當(dāng)浮動參數(shù)λ2,λ3時,2個評價指標(biāo)的變動趨勢大致相同。當(dāng)λ2,λ3取值小于2-4時,各指標(biāo)得到最優(yōu)值,并且隨著取值越來越小,趨于穩(wěn)定。

        5.7 統(tǒng)計假設(shè)檢驗分析

        為了評價MLNCE算法在各數(shù)據(jù)集上的綜合性能,本文選用統(tǒng)計假設(shè)檢驗的方式評估該算法與其他對比算法在11個數(shù)據(jù)集上的結(jié)果是否真實有效。首先使用非參數(shù)化的弗里德曼檢驗[26]進(jìn)行評估,再采用顯著性水平下的Nemenyi檢驗[27]。若2個對比算法在所有數(shù)據(jù)集上的平均排序的差值大于臨界差值CD(Critical Difference),則認(rèn)為這2個算法存在顯著性差異,否則無顯著性差異。

        Table 4 Experimental results before and after label space transformation表4 標(biāo)簽空間改造前后的實驗結(jié)果

        Table 5 Results of correlation comparison experiment表5 相關(guān)性對比實驗的結(jié)果

        Figure 4 Parameter sensitivity analysis圖4 參數(shù)敏感性分析圖

        圖5給出了在AP和OE2個評價指標(biāo)下每個算法之間的對比,其他指標(biāo)略。對于沒有顯著性差異的算法用實線相連,各評價指標(biāo)從左至右,算法性能依次降低。

        對于每個算法,都有30種實驗對比結(jié)果(6個對比算法,5個評價指標(biāo)),結(jié)合圖5得到結(jié)論:在54%的情況下,MLNCE算法與其他算法有顯著性差異,并且性能在100%的情況下占優(yōu)。在AP指標(biāo)上,MLNCE算法與MLFE、MLRKELM算法沒有顯著性差異;在OE指標(biāo)上,MLNCE算法與BP-MLL算法、ML-KNN算法具有顯著性差異;在RL指標(biāo)上,MLNCE算法與MLFE等3個算法沒有顯著性差異;在CV指標(biāo)上,MLNCE算法與MLFE算法、LIFT算法和MLRKELM算法沒有顯著性差異;在HL指標(biāo)上,MLNCE算法與LLSF-DL算法、LIFT算法沒有顯著性差異。在5個評價指標(biāo)的性能對比上,MLNCE算法在所有指標(biāo)上均為最優(yōu)。從上述2次統(tǒng)計假設(shè)檢驗分析可知,MLNCE算法性能最優(yōu),與其他對比算法顯著性差異明顯,進(jìn)一步說明了MLNCE算法的有效性和合理性。

        Figure 5 Performance comparison of each algorithm圖5 各算法性能對比

        6 結(jié)束語

        在多標(biāo)簽分類學(xué)習(xí)中,有必要研究標(biāo)簽間相關(guān)關(guān)系,而在解決不平衡問題的同時,結(jié)合相關(guān)性的研究則可以提升分類性能,利用這一關(guān)系,本文引入了密度標(biāo)簽空間這一概念,并且提出了基于負(fù)相關(guān)性增強的不平衡多標(biāo)簽學(xué)習(xí)算法MLNCE,該算法有效地提升了標(biāo)簽空間質(zhì)量,改善了標(biāo)簽不平衡情況,并且深入探究了標(biāo)簽正負(fù)相關(guān)性對分類精度的影響。實驗結(jié)果表明,MLNCE算法的分類精度優(yōu)于對比算法。

        本文算法設(shè)計過程中,利用平衡后的密度標(biāo)簽空間來研究標(biāo)簽間的正負(fù)相關(guān)性,做到了相互結(jié)合,但是并沒有嘗試?yán)孟嚓P(guān)性信息來解決標(biāo)簽不平衡問題,這將是下一步研究的重點。另外,在真實世界的多標(biāo)簽數(shù)據(jù)集中,很多樣本數(shù)據(jù)是缺損的[28],本文的研究都是在完備數(shù)據(jù)集上進(jìn)行的,如何進(jìn)一步提升在不完備數(shù)據(jù)集上的分類性能,也是后續(xù)的重點研究方向。

        猜你喜歡
        分類
        2021年本刊分類總目錄
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        星星的分類
        我給資源分分類
        垃圾分類,你準(zhǔn)備好了嗎
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        按需分類
        教你一招:數(shù)的分類
        久久午夜伦鲁鲁片免费| 一本大道久久东京热无码av| 欧美三级一区| 国产成人综合久久三区北岛玲| 亚洲成av人片极品少妇| 国产日产亚洲系列最新| 亚洲国产另类久久久精品黑人| 国产女奸网站在线观看| 国产精品国产三级国产专播| 国产一区二区三区久久精品| www国产无套内射com| 日韩最新在线不卡av| 久久精品一区一区二区乱码| 乱色欧美激惰| 无码午夜人妻一区二区三区不卡视频| 日本高清色惰www在线视频| 日本啪啪视频一区二区| 国模冰莲极品自慰人体| 中日av乱码一区二区三区乱码| 国产美女精品AⅤ在线老女人| 中文字幕亚洲入口久久| 一区二区三区中文字幕| 奇米影视久久777中文字幕| 日本精品一区二区在线看| 精品一区二区三区蜜桃麻豆| 国产喷水1区2区3区咪咪爱av| 欧美国产亚洲日韩在线二区| 国产人妖一区二区av| 麻豆精品一区二区综合av| 99久久综合精品五月天| 国产aⅴ天堂亚洲国产av| 亚洲精品大全中文字幕| 久久国产色av免费观看| 欧美日韩电影一区| 伊人久久婷婷综合五月97色| 黄片视频免费在线播放观看| 中文字幕精品一二三四五六七八| 国产在线精品福利大全| 亚洲国产一区二区网站| 少妇被粗大的猛烈进出69影院一| 久久免费大片|