程玉勝,曹天成,王一賓,鄭偉杰
(1.安徽省高校智能感知與計算重點實驗室(安慶師范大學(xué)),安徽 安慶 246133; 2.計算智能與信號處理教育部重點實驗室(安徽大學(xué)),安徽 合肥 230061)
多標(biāo)簽學(xué)習(xí)[1]作為機器學(xué)習(xí)研究的熱點,吸引了大量研究者的關(guān)注,并在自動標(biāo)注、信息檢索、個性化推薦等領(lǐng)域得到了廣泛應(yīng)用[2 - 5]。但是,由于標(biāo)記空間的維數(shù)過大,造成了多標(biāo)簽數(shù)據(jù)的不平衡問題更加突出,嚴(yán)重影響了分類器的性能。也正是由于標(biāo)簽的不平衡性造成了不同標(biāo)簽對樣本實例的描述程度存在一定的差異性,有些標(biāo)簽出現(xiàn)的頻率較大,能描述大部分的樣本;而有些標(biāo)簽僅僅存在于少量樣本中,但往往這一小部分的標(biāo)簽卻包含了很多的信息。
與平衡數(shù)據(jù)相比,大多數(shù)算法在處理不平衡數(shù)據(jù)時表現(xiàn)不佳,分類器偏向多數(shù)標(biāo)簽,從而在少數(shù)標(biāo)簽的判別上會出現(xiàn)更高的錯誤率,近年來越來越多針對多標(biāo)簽不平衡問題的方法被提出。如,Liu等[6]利用實例的局部標(biāo)簽分布,對數(shù)據(jù)進(jìn)行合成過采樣,在兼具全局與局部不平衡的同時,提高了分類器的分類精度;Tsai等[7]在處理臨床記錄文本時,將類別標(biāo)簽進(jìn)行分層,再加入卷積模型中,不僅提高了識別性能,同時還解決了類別不平衡問題;Lo等[8]利用代價敏感學(xué)習(xí)方法,為每種標(biāo)簽計算一個錯分代價,通過代價值的不同來減少少數(shù)標(biāo)簽錯分類情況??梢?,解決標(biāo)簽不平衡問題是提高多標(biāo)簽分類精度的有效手段。
然而,真實世界中標(biāo)簽和標(biāo)簽之間并非相互獨立,往往存在一定的關(guān)聯(lián)性。在沒有足夠多的訓(xùn)練集時,充分利用標(biāo)簽間相關(guān)性來豐富訓(xùn)練集的標(biāo)簽集是必要的。目前,有許多學(xué)者利用標(biāo)簽之間的相關(guān)性來提高多標(biāo)簽學(xué)習(xí)算法的性能。鏈?zhǔn)椒诸怌C(Classifier Chains)[9]將多標(biāo)簽學(xué)習(xí)問題轉(zhuǎn)化為基于BR(Binary Relevance)的分類器鏈,但是鏈?zhǔn)请S機排列的,對標(biāo)簽間相關(guān)性的考慮也是隨機的。校準(zhǔn)標(biāo)簽排序CLR(Calibrated Label Ranking)算法[10]利用人工校準(zhǔn)標(biāo)簽進(jìn)行排序,但是遇到數(shù)據(jù)集較大、類別標(biāo)簽較多的問題時,不僅耗時耗力,而且得到的子分類器過多,增加了算法復(fù)雜度。隨機k標(biāo)簽集RAkEL(RAndom k-LabELsets)算法[11]是基于LP(Label Powerest)分類器的集成算法,在保留LP優(yōu)點的同時還考慮了標(biāo)簽之間的相關(guān)性,但會導(dǎo)致算法更復(fù)雜。多標(biāo)簽分類的核方法RankSVM(kernel method for multi-labelled classification)[12]利用最大間隔準(zhǔn)則策略適應(yīng)多標(biāo)簽學(xué)習(xí),在建模過程中對樣本對應(yīng)的相關(guān)標(biāo)簽和不相關(guān)標(biāo)簽間的排序損失構(gòu)建SVM分類器,但這需要計算大量的變量,所以耗時較大。
上述方法都是通過計算標(biāo)簽間“距離”來衡量相關(guān)性,越接近的2個標(biāo)簽,相關(guān)性越大,這就默認(rèn)了以正相關(guān)為主來考慮標(biāo)簽間的相關(guān)性??墒窃趯嶋H問題中,還存在某種程度上的負(fù)相關(guān)。例如,在自然場景中,標(biāo)簽“山”和“樹”存在某種程度上的正相關(guān),而標(biāo)簽“沙漠”和“海洋”往往相互排斥,一般不會同時出現(xiàn)在一個樣本上,它們之間以負(fù)相關(guān)進(jìn)行制約。例如,圖1a是分類器識別為“海洋”標(biāo)簽的圖像,而圖1b中由于顏色、紋理等特征與圖1a極為相似,“天空”標(biāo)簽被錯分為“海洋”標(biāo)簽,使得圖1b最終分類到“海洋”“沙漠”標(biāo)簽中。但是,“海洋”與“沙漠”2個標(biāo)簽一般存在著負(fù)相關(guān)性,極大可能不會同時用于描述同一實例,那么,如果讓分類器學(xué)習(xí)了這組負(fù)相關(guān),就可以避免這種情況的發(fā)生。
現(xiàn)有方法更多地側(cè)重于標(biāo)簽正相關(guān)性來提高學(xué)習(xí)性能,而對標(biāo)簽負(fù)相關(guān)性的明確探索卻很少。一些算法利用標(biāo)簽空間流形假設(shè)下的拉普拉斯矩陣正則化來探索標(biāo)簽間的兩兩相關(guān)關(guān)系,但他們主要關(guān)注的還是標(biāo)簽正相關(guān)性,而不能很好地利用標(biāo)簽負(fù)相關(guān)性。雖然,Huang等[13]明確探討了標(biāo)簽正相關(guān)和負(fù)相關(guān)這2種相關(guān)關(guān)系,但未考慮利用這2種關(guān)系相互促進(jìn)進(jìn)行分類。Zhang等[14]利用標(biāo)簽之間的協(xié)方差矩陣將標(biāo)簽兩兩組合成標(biāo)簽對,并探討每個標(biāo)簽對中的相關(guān)性(包括正相關(guān)、不相關(guān)和負(fù)相關(guān)),但是也只能求出成對標(biāo)簽之間的相關(guān)性,全局相關(guān)性的信息并不完善。Wu等[15]在分類算法中加入了負(fù)相關(guān)性正則,并用核映射加以求解,但也忽略了標(biāo)簽不平衡所帶來的影響。
Figure 1 Natural scene images with multi labels 圖1 多標(biāo)簽自然場景圖像
可見,探索標(biāo)簽的負(fù)相關(guān)性,改善分類器性能很有必要?;诖耍疚奶岢隽艘环N基于負(fù)相關(guān)性增強的不平衡多標(biāo)簽學(xué)習(xí)算法MLNCE(imbalanced Multi-label Learning algorithm based on Negative Correlation Enhancement)。該算法利用密度標(biāo)簽空間取代傳統(tǒng)標(biāo)簽空間,有效解決了多標(biāo)簽不平衡問題,并且在信息更加完善的密度標(biāo)簽空間中挖掘了標(biāo)簽間的正負(fù)2種相關(guān)性信息,從而提高分類精度。首先,本文算法利用訓(xùn)練集標(biāo)簽密度與代價因子構(gòu)建新的密度標(biāo)簽矩陣,使新的標(biāo)簽空間包含更多密度信息,從而解決多標(biāo)簽不平衡的問題;然后,使用密度標(biāo)簽矩陣取代原有標(biāo)簽矩陣,分別計算對應(yīng)于標(biāo)簽正相關(guān)性和負(fù)相關(guān)性的2個稀疏對稱相似性矩陣;最后,構(gòu)建線性分類模型,并在線性分類模型中加入2個標(biāo)簽流形正則項來完善相關(guān)性的信息。本文在11個數(shù)據(jù)集上對6種多標(biāo)簽學(xué)習(xí)算法進(jìn)行了對比實驗,實驗結(jié)果表明了本文算法的可行性、有效性和穩(wěn)定性。實驗結(jié)果表明:該算法在絕大多數(shù)情況下可以取得更好的預(yù)測精度且穩(wěn)定性更高。
(1)
(2)
其中,P+(j)是第j個標(biāo)簽的正類密度,P-(j)是第j個標(biāo)簽的負(fù)類密度,理論上P+(j)與P-(j)的和為1。本文將標(biāo)簽密度和條件熵[16]相結(jié)合計算代價因子,各標(biāo)簽代價因子就是分類正確或是錯誤帶來的信息量大小。在傳統(tǒng)的代價敏感學(xué)習(xí)方法中,代價的大小都是由研究者主觀給出的,而在本文中是通過計算得出的,不同的數(shù)據(jù)集會得到不同的代價。設(shè)代價因子共分為4種:已知標(biāo)簽為正類時,通過分類器計算得到標(biāo)簽預(yù)測為正類或負(fù)類的代價因子;已知標(biāo)簽為負(fù)類時,通過分類器計算得到標(biāo)簽預(yù)測為正類或負(fù)類的代價因子。4種錯分代價因子的計算如式(3)~式(6)所示:
θTP=-p((P++s),(P++s))
lbp((P++s)|(P++s))
(3)
θFP=-p((P++s),(P-+s))
lbp((P-+s)|(P++s))
(4)
θFN=-p((P-+s),(P++s))
lbp((P++s)|(P-+s))
(5)
θTN=-p((P-+s),(P-+s))
lbp((P-+s)|(P-+s))
(6)
實驗數(shù)據(jù)集中會出現(xiàn)某類標(biāo)簽密度為零的情況,這種情況會導(dǎo)致條件熵值無法計算,所以本文在計算代價時引入了一個數(shù)值極小的平滑參數(shù)s,目的是在盡可能不改變結(jié)果大小的情況下,消除標(biāo)簽密度為零而帶來的無法計算情況,一般情況s∈[1×10-5,1×10-3]。代價因子具體如表1所示。
Table 1 Four kinds of cost factor表1 4種代價因子
這4種代價因子的含義可以理解為:現(xiàn)已知某樣本的第j個標(biāo)簽為+1時,通過分類器預(yù)測出標(biāo)簽為+1的代價為θTP(j),通過分類器預(yù)測出標(biāo)簽為-1的代價為θFP(j)。算法正確預(yù)測后,若樣本的第j個標(biāo)簽為正類則θTP(j)為0,若樣本的第j個標(biāo)簽為負(fù)類則θTN(j)為0。計算出的代價因子越大,說明預(yù)測的標(biāo)簽置信度越小,錯誤分類的代價就應(yīng)該越大。這些錯誤是由每個標(biāo)簽的標(biāo)簽密度帶來的,若密度趨向于平衡,代價因子就會小,相應(yīng)所求得的標(biāo)簽置信度也大,利用這4種代價因子計算標(biāo)簽密度代價矩陣Ldcf如式(7)所示:
(7)
其中,i∈{1,2,3,…,N}為樣本編號;j∈{1,2,3,…,m}為標(biāo)簽編號;α為平衡化參數(shù),用于調(diào)整標(biāo)簽密度代價的敏感程度,取值在[1,10],本文所有實驗中α取值為2。標(biāo)簽密度代價矩陣Ldcf包含樣本標(biāo)簽的密度信息,將其融入標(biāo)簽空間后,可以使原標(biāo)簽空間含有標(biāo)簽密度信息,增大了少數(shù)標(biāo)簽的錯分類代價,從而大幅降低分類時數(shù)據(jù)不平衡而帶來的錯分類現(xiàn)象。新的密度標(biāo)簽矩陣Y*由式(8)構(gòu)建:
Y*=Y×Ldcf
(8)
標(biāo)簽改造的過程是要在盡可能不改變原始標(biāo)簽語義信息的情況下,加上改變不平衡的約束,所以,平衡化參數(shù)α的取值也不宜太過敏感,要使得改造后標(biāo)簽值盡可能地逼近+1或-1。
(9)
其中,W=[W1,W2,W3,…,Wd]T∈Rd*m為模型的回歸權(quán)重,為了提高模型的穩(wěn)定性和泛化性能,本文使用L1正則(Lasso正則)項[17]來產(chǎn)生稀疏的權(quán)值矩陣,并且還起到了特征選擇的作用,λ1≥0是平衡參數(shù)。設(shè)測試集預(yù)測矩陣F=X*W,則多標(biāo)簽分類函數(shù)H=sgn(F)。這里的sgn(x)為符號函數(shù),當(dāng)x>0時,輸出為1;反之則輸出-1。
為了解決標(biāo)簽密度不平衡的問題,本文用密度標(biāo)簽矩陣代替標(biāo)簽矩陣,模型更新如式(10)所示:
(10)
利用標(biāo)簽相關(guān)性對多標(biāo)簽學(xué)習(xí)至關(guān)重要,本文使用標(biāo)簽的正負(fù)相關(guān)性來規(guī)范模型。如果2個標(biāo)簽yi和yj呈正相關(guān)關(guān)系,它們的標(biāo)簽值應(yīng)該更可能是相近的(都接近1或-1),在預(yù)測時,這2個標(biāo)簽的預(yù)測值fi和fj應(yīng)當(dāng)更加相似,根據(jù)這一點,本文采用標(biāo)簽流形正則項來約束模型。類似于實例級流形正則化項[18],標(biāo)簽正相關(guān)性的流形正則項被定義如式(11)所示:
(11)
其中,S∈Rm*m是用余弦相似度[19]計算出的基礎(chǔ)標(biāo)簽相似度矩陣,該矩陣是基于密度標(biāo)簽矩陣Y*計算得到的,由于標(biāo)簽空間的不平衡情況得到了解決,所以相對于利用原有不平衡標(biāo)簽空間計算出的相似度矩陣,該矩陣的置信度更高,可以提升分類效果。對正則項進(jìn)行推算:
這里,Dp∈Rm*m是對角線上值為1的對角矩陣,拉普拉斯矩陣Lp=Dp-S是S的標(biāo)簽正相關(guān)性對角矩陣。這時,結(jié)合了標(biāo)簽正相關(guān)性的分類模型如式(12)所示:
λ2Tr(XWLp(XW)T)
(12)
其中,λ2為標(biāo)簽流形正則項的正則參數(shù)。
此時,分類模型已經(jīng)規(guī)范了標(biāo)簽正相關(guān)性。
式(12)對模型加上了正相關(guān)性約束,但是只考慮正相關(guān)性的分類模型不夠全面完善,在模型中加入標(biāo)簽負(fù)相關(guān)性約束是必要的。如果2個標(biāo)簽yi和yj呈負(fù)相關(guān)關(guān)系,它們的標(biāo)簽值應(yīng)該更可能是相反的,若一個標(biāo)簽值接近1,則另一個接近-1,反之亦然。而在預(yù)測時,這2個標(biāo)簽的預(yù)測值fi和fj應(yīng)當(dāng)相差巨大,而fi與fj的相反數(shù)-fj應(yīng)極為相似,因此,標(biāo)簽負(fù)相關(guān)性的流形正則項被定義如式(13)所示:
(13)
同樣地,S∈Rm*m是基于密度標(biāo)簽矩陣Y*計算得到的基礎(chǔ)標(biāo)簽相似度矩陣。對正則項進(jìn)行進(jìn)一步推算:
其中,拉普拉斯矩陣Ln=Dn+S是S的標(biāo)簽負(fù)相關(guān)性對角矩陣。將正則項加入模型得式(14):
λ2Tr(XWLp(XW)T)+λ3Tr(XWLn(XW)T)
(14)
Figure 2 Diagram of model operation圖2 模型工作圖解
其中,λ2和λ3是2個標(biāo)簽流形正則項的正則參數(shù)。
圖2描述了分類模型的主要工作流程,密度標(biāo)簽矩陣作為目標(biāo)函數(shù)的輸入,正負(fù)相關(guān)性信息作為約束條件,將直接作用于目標(biāo)函數(shù)的訓(xùn)練過程。而選用的2個標(biāo)簽流形正則化項之所以能夠兼顧正負(fù)2種相關(guān)性并起到促進(jìn)作用,是因為2個拉普拉斯矩陣Lp和Ln的編碼方式都是基于相似度矩陣S的線性變化。而且對于分類模型來說,在標(biāo)簽空間分別考慮正負(fù)相關(guān)性,這2個性質(zhì)不會相互抵消,反而會相互促進(jìn)。
本文算法的目標(biāo)是通過迭代求解出最優(yōu)權(quán)重矩陣W,目標(biāo)函數(shù)如式(15)所示:
λ2Tr(XWLp(XW)T)+λ3Tr(XWLn(XW)T)
(15)
將式(15)進(jìn)行分解得式(16):
W=argminWF(W)=f(W)+g(W)
(16)
其中,
λ3Tr(XWLn(XW)T)
(17)
g(W)=λ1‖W‖1
(18)
首先,對式(17)進(jìn)行線性處理,從而計算目標(biāo)梯度:
2λ2XTXWLp2λ3XTXWLn
(19)
然后,利用式(19)來計算利普希茨常數(shù),部分推導(dǎo)過程為:
所以,得到本文模型的利普希茨常數(shù)為:
(20)
同時,在加速梯度下降法中,主要的迭代公式如式(21)~式(23)所示:
(21)
(22)
(23)
利用加速梯度下降法計算輸出權(quán)重的算法過程如算法1所示。
算法1利用加速梯度下降法計算輸出權(quán)重的算法
輸入:X∈RN*d,Y*∈RN*m,模型參數(shù)λ1,λ2,λ3。
輸出:權(quán)值W*∈Rd*m。
1 初始化t=1,b1=1;
2 初始化零矩陣Gt=W0∈Rd*m;
3 計算矩陣Lp和Ln;
4 利用式(22)計算利普西茨常數(shù)Lf;
5 根據(jù)式(16)進(jìn)入循環(huán):
10t=t+1;
11 迭代次數(shù)t達(dá)到最大值時結(jié)束循環(huán);
12W*=Wt-1。
實驗代碼均在Matlab 2016a 中運行,硬件環(huán)境為Intel? Core(TM)i5-2525M 2.50 GHz CPU,8 GB內(nèi)存;操作系統(tǒng)為Windows 10。選用5個常用的多標(biāo)簽學(xué)習(xí)評價指標(biāo)來綜合評價算法性能,分別是平均精度AP(Average Precision)、覆蓋率CV(CoVerage)、漢明損失HL(Hamming Loss)、1-錯誤率OE(One-Error)和排序損失RL(Ranking Loss)[21]。為方便簡寫為AP↑、CV↓、HL↓、OE↓和RL↓,其中↑表示數(shù)值越高越好,↓表示數(shù)值越低越好。
本文實驗使用的11個多標(biāo)簽標(biāo)準(zhǔn)化數(shù)據(jù)集選自木蘭網(wǎng)與雅虎網(wǎng)頁,其中涵蓋了文本、音樂和圖像等多個領(lǐng)域,詳細(xì)信息如表2所示。所選數(shù)據(jù)集都是常用的多標(biāo)簽數(shù)據(jù)集,同時計算了數(shù)據(jù)集的平均正負(fù)類密度,以佐證多標(biāo)簽數(shù)據(jù)集中普遍存在標(biāo)簽不平衡情況。由表2可以看出,選用的所有數(shù)據(jù)集都存在不同程度的不平衡情況,其中,F(xiàn)lags數(shù)據(jù)集最為平衡,正負(fù)類數(shù)量接近相同,但在Birds等5個數(shù)據(jù)集上,正負(fù)類數(shù)量基本呈1∶9,正類數(shù)量遠(yuǎn)少于負(fù)類數(shù)量,其他數(shù)據(jù)集也表現(xiàn)出不同程度的不平衡情況,且都是負(fù)類數(shù)量高于正類數(shù)量。
本文選擇了6個多標(biāo)簽學(xué)習(xí)算法作為對比算法,分別為基于K近鄰思想的多標(biāo)簽ML-KNN(K-Nearest Neighbor for Multi-label Learning)算法、基于極限學(xué)習(xí)機ELM (Extreme Learning Machine)的多標(biāo)簽學(xué)習(xí)ML RKELM(Multi-label Regression Kernel Extreme Learning Machine)算法[22]、基于類屬屬性思想的多標(biāo)簽學(xué)習(xí)LIFT(Multi-label Learning with Label-specific FeaTures)算法[23]、LLSF-DL(Learning Label-Specific Features and class-Dependent Labels)算法[24]、基于標(biāo)簽稀疏重構(gòu)學(xué)習(xí)的多標(biāo)簽學(xué)習(xí)MLFE(Multi-label Learning with Feature-induced labeling infor-mation Enrichment)算法[25]和反向傳播多標(biāo)簽學(xué)習(xí)BP-MLL(BackPropagation for Multi- Label Learning)算法[4]。
其中,ML RKELM算法的正則化系數(shù)?=1,核函數(shù)選用RBF核,核參數(shù)ρ∈[1,100]。LIFT算法的平滑參數(shù)λ=0.1。ML-KNN算法的近鄰個數(shù)k=15,平滑參數(shù)s=1。LLSF-DL算法的平滑參數(shù)α,β,γ∈[4-5,45],ρ∈{0.1,1,10}。MLFE算法的參數(shù)β1∈{1,2,…,10},β2∈{1,10,15},β3∈{1,10}。BP-MLL算法的核函數(shù)選用RBF核,核參數(shù)ρ=1。本文MLNCE算法的平衡化參數(shù)α=2,平滑參數(shù)s=0.001,參數(shù)λ1∈{2-10,2-1,21,210},λ2,λ3∈[2-10,2]。
Table 2 Detailed description of multi-label datasets表2 多標(biāo)簽數(shù)據(jù)集的詳細(xì)描述
限于篇幅,僅列出AP評價指標(biāo)結(jié)果,如表3所示,其中,數(shù)字下標(biāo)表示算法排位信息,最優(yōu)結(jié)果以黑體表示,并且將每種算法在所有數(shù)據(jù)集上的平均排位列在最后一行,排位越小算法性能越優(yōu)。最后一列中,URL 1:Yahoo Web Pages(http://www.kecl.ntt.co.jp/as/members/ueda/yahoo.tar),URL 2:Mulan(http://mulan.sourceforge.net/datasets-mlc.html)。可見,在AP指標(biāo)上,MLNCE算法在7個數(shù)據(jù)集上性能最優(yōu),在其他4個數(shù)據(jù)集上均排第2,平均排位為1.36。由于各數(shù)據(jù)集的不平衡程度不同,本文算法在各數(shù)據(jù)集上的效果也不相同,同樣地,各數(shù)據(jù)集中標(biāo)簽的相關(guān)關(guān)系也不同,這些因素會影響到本文算法的實驗結(jié)果,使得本文算法并不能在全部指標(biāo)上全面地優(yōu)于其他對比算法,但數(shù)據(jù)集的這些性質(zhì)并不是實驗結(jié)果的決定性因素,結(jié)果也表明了本文算法在大部分的情況下都要優(yōu)于其他對比算法。為了更直觀地體現(xiàn)本文算法的優(yōu)越性,圖3比較了所有算法在5個指標(biāo)上的平均排位,圖3柱狀圖中柱體越低代表排序越好。結(jié)果表明,在5個評價指標(biāo)上,MLNCE算法的結(jié)果都在不同程度上優(yōu)于其他對比算法,總體平均排序也是最優(yōu)的,充分說明了該算法的優(yōu)越性。
本文算法的核心點就是密度標(biāo)簽矩陣的使用以及兼顧標(biāo)簽正負(fù)相關(guān)性,本節(jié)就這2點內(nèi)容進(jìn)行2組對比實驗。
Table 3 AP↑ value of each algorithm on 11 datasets表3 各算法在11個數(shù)據(jù)集上的AP↑值
Figure 3 Overall average ranks of the comparing algorithms in terms of all the metrics圖3 算法在所有指標(biāo)上的總體平均排位
首先,為了驗證使用密度標(biāo)簽矩陣的可行性和有效性,添加對比實驗以說明。在實驗數(shù)據(jù)集不變,模型參數(shù)不變,求解方法不變的情況下,將目標(biāo)函數(shù)式(16)中的密度標(biāo)簽矩陣Y*替換為原始的標(biāo)簽矩陣Y,求得預(yù)測結(jié)果計算5種評價指標(biāo),并與使用密度標(biāo)簽矩陣Y*的本文算法實驗結(jié)果進(jìn)行對比,具體對比結(jié)果如表4所示,黑色加粗代表占優(yōu)。
由表4可以直觀地看出,使用密度標(biāo)簽矩陣計算得到的實驗結(jié)果在大部分情況下是占優(yōu)的,只有在極少部分情況下使用原始標(biāo)簽得到的結(jié)果要更好,反映了密度標(biāo)簽矩陣對分類效果有改善作用,表明本文算法可以有效改善因標(biāo)簽不平衡帶來的錯分類現(xiàn)象,說明密度標(biāo)簽矩陣是可行有效的。
然后,為了分析模型中正負(fù)相關(guān)性正則項的可行性和有效性,本文進(jìn)行了如下的對比實驗。將目標(biāo)函數(shù)式(16)中的λ3取值為0,其它因素不變,構(gòu)成只考慮標(biāo)簽正相關(guān)性的改進(jìn)算法MLPC;同樣>地,將目標(biāo)函數(shù)式(16)中的λ2取值為0,構(gòu)成只考慮標(biāo)簽負(fù)相關(guān)性的改進(jìn)算法MLNC。將這2個改進(jìn)算法在同樣的11個數(shù)據(jù)集上進(jìn)行的實驗,并與本文算法MLNCE進(jìn)行AP、CV2個指標(biāo)的對比,實驗結(jié)果如表5所示,黑色加粗代表占優(yōu)。
由表5可以看出,由于本文MLNCE算法兼顧了正反相關(guān)性信息,分類性能有所提高。實驗結(jié)果表明,本文MLNCE算法大體上占優(yōu),表明正負(fù)相關(guān)性正則化項是可行的,且有益于分類效果的提高。
根據(jù)本文算法思想,模型參數(shù)λ1,λ2,λ3都不是唯一值,其中參數(shù)λ2,λ3的取值在[2-10,2]。由于參數(shù)的取值對本文算法有一定的影響,所以,本文選取Natural_scene數(shù)據(jù)集進(jìn)行不同參數(shù)取值的對比實驗。圖4給出了不同參數(shù)λ2,λ3在Natural_scene數(shù)據(jù)集上AP和OE指標(biāo)的對比結(jié)果。
從圖4可以看出,在Natural_scene數(shù)據(jù)集上,當(dāng)浮動參數(shù)λ2,λ3時,2個評價指標(biāo)的變動趨勢大致相同。當(dāng)λ2,λ3取值小于2-4時,各指標(biāo)得到最優(yōu)值,并且隨著取值越來越小,趨于穩(wěn)定。
為了評價MLNCE算法在各數(shù)據(jù)集上的綜合性能,本文選用統(tǒng)計假設(shè)檢驗的方式評估該算法與其他對比算法在11個數(shù)據(jù)集上的結(jié)果是否真實有效。首先使用非參數(shù)化的弗里德曼檢驗[26]進(jìn)行評估,再采用顯著性水平下的Nemenyi檢驗[27]。若2個對比算法在所有數(shù)據(jù)集上的平均排序的差值大于臨界差值CD(Critical Difference),則認(rèn)為這2個算法存在顯著性差異,否則無顯著性差異。
Table 4 Experimental results before and after label space transformation表4 標(biāo)簽空間改造前后的實驗結(jié)果
Table 5 Results of correlation comparison experiment表5 相關(guān)性對比實驗的結(jié)果
Figure 4 Parameter sensitivity analysis圖4 參數(shù)敏感性分析圖
圖5給出了在AP和OE2個評價指標(biāo)下每個算法之間的對比,其他指標(biāo)略。對于沒有顯著性差異的算法用實線相連,各評價指標(biāo)從左至右,算法性能依次降低。
對于每個算法,都有30種實驗對比結(jié)果(6個對比算法,5個評價指標(biāo)),結(jié)合圖5得到結(jié)論:在54%的情況下,MLNCE算法與其他算法有顯著性差異,并且性能在100%的情況下占優(yōu)。在AP指標(biāo)上,MLNCE算法與MLFE、MLRKELM算法沒有顯著性差異;在OE指標(biāo)上,MLNCE算法與BP-MLL算法、ML-KNN算法具有顯著性差異;在RL指標(biāo)上,MLNCE算法與MLFE等3個算法沒有顯著性差異;在CV指標(biāo)上,MLNCE算法與MLFE算法、LIFT算法和MLRKELM算法沒有顯著性差異;在HL指標(biāo)上,MLNCE算法與LLSF-DL算法、LIFT算法沒有顯著性差異。在5個評價指標(biāo)的性能對比上,MLNCE算法在所有指標(biāo)上均為最優(yōu)。從上述2次統(tǒng)計假設(shè)檢驗分析可知,MLNCE算法性能最優(yōu),與其他對比算法顯著性差異明顯,進(jìn)一步說明了MLNCE算法的有效性和合理性。
Figure 5 Performance comparison of each algorithm圖5 各算法性能對比
在多標(biāo)簽分類學(xué)習(xí)中,有必要研究標(biāo)簽間相關(guān)關(guān)系,而在解決不平衡問題的同時,結(jié)合相關(guān)性的研究則可以提升分類性能,利用這一關(guān)系,本文引入了密度標(biāo)簽空間這一概念,并且提出了基于負(fù)相關(guān)性增強的不平衡多標(biāo)簽學(xué)習(xí)算法MLNCE,該算法有效地提升了標(biāo)簽空間質(zhì)量,改善了標(biāo)簽不平衡情況,并且深入探究了標(biāo)簽正負(fù)相關(guān)性對分類精度的影響。實驗結(jié)果表明,MLNCE算法的分類精度優(yōu)于對比算法。
本文算法設(shè)計過程中,利用平衡后的密度標(biāo)簽空間來研究標(biāo)簽間的正負(fù)相關(guān)性,做到了相互結(jié)合,但是并沒有嘗試?yán)孟嚓P(guān)性信息來解決標(biāo)簽不平衡問題,這將是下一步研究的重點。另外,在真實世界的多標(biāo)簽數(shù)據(jù)集中,很多樣本數(shù)據(jù)是缺損的[28],本文的研究都是在完備數(shù)據(jù)集上進(jìn)行的,如何進(jìn)一步提升在不完備數(shù)據(jù)集上的分類性能,也是后續(xù)的重點研究方向。