錢 龍,趙 靜,韓京宇,毛 毅
(南京郵電大學(xué) 計(jì)算機(jī)學(xué)院,南京 210023)
多標(biāo)簽學(xué)習(xí)廣泛存在于真實(shí)世界中。在文檔分類問(wèn)題[1-3]中,每篇文檔可能隸屬于多個(gè)預(yù)定義的主題,如“經(jīng)濟(jì)”與“文化”;在場(chǎng)景分類[4]問(wèn)題中,每個(gè)場(chǎng)景圖片可能屬于多個(gè)語(yǔ)義類別,如“海灘”和“城市”;在ECG 心電異常檢測(cè)[5]問(wèn)題中,每個(gè)病人可能同時(shí)具有多種心臟疾病,如“完全性左束支阻滯”“前壁心肌梗死”以及“下壁心肌梗死”。對(duì)于上述多標(biāo)簽學(xué)習(xí)問(wèn)題,訓(xùn)練集中的每條樣本對(duì)應(yīng)一組標(biāo)簽,學(xué)習(xí)系統(tǒng)通過(guò)對(duì)訓(xùn)練集進(jìn)行學(xué)習(xí)從而完成對(duì)未知樣本標(biāo)簽集的預(yù)測(cè)。
如果限定每個(gè)樣本只對(duì)應(yīng)一個(gè)標(biāo)簽,那么傳統(tǒng)的二分類以及多分類問(wèn)題均可看作多標(biāo)簽學(xué)習(xí)問(wèn)題的特例。相較二分類以及多分類問(wèn)題,多標(biāo)簽學(xué)習(xí)的難點(diǎn)在于隨著標(biāo)簽數(shù)量的增加,待預(yù)測(cè)的標(biāo)簽組合數(shù)量呈指數(shù)級(jí)增長(zhǎng)[6],從而導(dǎo)致分類器的計(jì)算成本過(guò)高,例如,一個(gè)具有20 個(gè)標(biāo)簽的數(shù)據(jù)集,每條樣本對(duì)應(yīng)的標(biāo)簽組合一共有220種,且各個(gè)標(biāo)簽組合對(duì)應(yīng)的訓(xùn)練樣本數(shù)不平衡[7],會(huì)進(jìn)一步增加學(xué)習(xí)的難度。在解決此類問(wèn)題時(shí),一種直觀的做法是將其轉(zhuǎn)換為多個(gè)獨(dú)立的二分類問(wèn)題來(lái)求解[8],其中,每個(gè)二分類問(wèn)題對(duì)應(yīng)一個(gè)可能的標(biāo)簽。然而,此種做法忽略了樣本標(biāo)簽間的相關(guān)性[9-11],因此,其泛化性能往往并不理想。例如,在ECG 心電異常檢測(cè)問(wèn)題中[5],如果已知一個(gè)病人具有下壁心肌梗死疾病,則該病人具有前壁心肌梗死疾病的可能性將大于完全性左束支阻滯疾?。?]。因此,有效利用標(biāo)簽間的相關(guān)性是解決多標(biāo)簽學(xué)習(xí)問(wèn)題的關(guān)鍵。
根據(jù)多標(biāo)簽學(xué)習(xí)中考慮的標(biāo)簽關(guān)聯(lián)程度,可以將現(xiàn)有方法分為一階策略、二階策略和高階策略3 類[12]:一階策略是將每個(gè)標(biāo)簽看成是獨(dú)立不相關(guān)的,不考慮標(biāo)簽間的相關(guān)性;二階策略利用了標(biāo)簽成對(duì)的關(guān)聯(lián)信息;高階策略考慮每個(gè)標(biāo)簽對(duì)其他標(biāo)簽的影響。LP 算法[13]將多標(biāo)簽問(wèn)題轉(zhuǎn)換為多分類問(wèn)題,雖然其考慮了標(biāo)簽間的相關(guān)性,但標(biāo)簽組合的爆炸提高了算法的復(fù)雜度。TSOUMAKAS 等[14]提出Random k-Labelsets 算法,該算法將集成學(xué)習(xí)與LP算法[13]相結(jié)合,將原始的標(biāo)簽集分成若干子標(biāo)簽集,使用LP 技術(shù)訓(xùn)練相應(yīng)的分類器,但是,該算法對(duì)于標(biāo)簽子集的選擇是隨機(jī)的,沒(méi)有充分利用標(biāo)簽集間的相關(guān)性。READ 等[15]提出了分類器鏈(Classifier Chain,CC)算法,該算法將先預(yù)測(cè)出的標(biāo)簽作為后續(xù)待預(yù)測(cè)標(biāo)簽的輸入特征,CC 算法雖然考慮到了標(biāo)簽間的相關(guān)性,但其結(jié)果依賴于標(biāo)簽預(yù)測(cè)的順序,前面預(yù)測(cè)的標(biāo)簽誤差會(huì)傳遞到后面的標(biāo)簽中,如果前面的標(biāo)簽誤差較大,將會(huì)導(dǎo)致算法整體分類性能不佳。YANG 等[16]提出深度森林的多標(biāo)簽學(xué)習(xí)(Multilabel Learning with Deep Forest,MLDF)算法,MLDF算法通過(guò)設(shè)計(jì)多層結(jié)構(gòu)來(lái)學(xué)習(xí)標(biāo)簽之間的相關(guān)性,使得深度森林模型適用于多標(biāo)簽分類場(chǎng)景。
本文提出一種雙模態(tài)、閾值自調(diào)節(jié)的多標(biāo)簽學(xué)習(xí)K 近鄰算法,該算法的核心思想是根據(jù)標(biāo)簽相關(guān)性的雙模態(tài)來(lái)構(gòu)建預(yù)測(cè)模型,其中,一種模態(tài)是某些標(biāo)簽和其他標(biāo)簽具有多階相關(guān)性,另一種模態(tài)是某些標(biāo)簽和其他標(biāo)簽是獨(dú)立的。使用Fp_growth[17]算法挖掘標(biāo)簽集的頻繁項(xiàng),明確數(shù)據(jù)集本身固有的標(biāo)簽高階關(guān)系,然后基于本文算法為高階標(biāo)簽關(guān)系建模,評(píng)估樣本標(biāo)簽集合是每一種頻繁項(xiàng)的可能性,如果標(biāo)簽高階關(guān)系模型不能預(yù)測(cè)出樣本的標(biāo)簽集合,說(shuō)明該樣本具有的標(biāo)簽間相關(guān)性并不強(qiáng),則使用一階策略完成該樣本標(biāo)簽集的預(yù)測(cè)。在此基礎(chǔ)上,提出一種閾值自學(xué)習(xí)算法,該算法采用通用的Beta 分布[18]描述閾值分布,基于每個(gè)頻繁項(xiàng)和標(biāo)簽在原始特征空間上選擇出對(duì)應(yīng)的特征子空間,針對(duì)特征子空間中的每條樣本,根據(jù)相應(yīng)的評(píng)分模型獲取相應(yīng)的概率,用于更新Beta 分布的參數(shù)α和β,使得閾值更加準(zhǔn)確地?cái)M合樣本分布,從而提高模型的預(yù)測(cè)性能。
設(shè)D={(xi,Yi)|1≤i≤m}(xi∈X,Yi?Y)為給定的多標(biāo)簽數(shù)據(jù)集,其中,X=Rd表示d維的樣本空間,Y={l1,l2,…,lq}表示所有可能的標(biāo)簽,q是標(biāo)簽數(shù)量,xi是第i條訓(xùn)練樣本實(shí)例,Yi∈Y為樣本xi對(duì)應(yīng)的標(biāo)簽集。
本文目的是基于標(biāo)簽相關(guān)性的雙模態(tài)分別構(gòu)建2 個(gè)分類器:
1)第一個(gè)分類器是h1(x),該分類器輸出一個(gè)實(shí)值函數(shù)f:X×P→R,對(duì)于給定樣本x及頻繁項(xiàng)Pj(1≤j≤k),分類器h1(x)輸出的函數(shù)值量化樣本x與頻繁項(xiàng)Pj相關(guān)性得分的大小,頻繁項(xiàng)由Fp_growth[17]算法挖掘得到,P={P1,P2,…,Pk}為頻繁項(xiàng)集,k為頻繁項(xiàng)個(gè)數(shù)。分類器h1(·)可由f(·,·)求得:
其中:CT(Pt)是頻繁項(xiàng)Pt對(duì)應(yīng)的閾值,本文稱為關(guān)聯(lián)閾值。
2)第二個(gè)分類器是h2(x),該分類器輸出一個(gè)實(shí)值函數(shù)g:X×Y→R,對(duì)于給定樣本x和標(biāo)簽lj(1≤j≤q),分類器h2(x)輸出的函數(shù)值可以量化樣本x與標(biāo)簽lj相關(guān)性得分的大小。分類器h2(·)可由g(·,·)求得:
其中:IT(lt)是標(biāo)簽lt對(duì)應(yīng)的閾值,本文稱為獨(dú)立閾值。
當(dāng)頻繁項(xiàng)相關(guān)性得分大于對(duì)應(yīng)的關(guān)聯(lián)閾值且該頻繁項(xiàng)得分是所有頻繁項(xiàng)中的最大值時(shí),樣本的標(biāo)簽集就是該頻繁項(xiàng)。當(dāng)通過(guò)多標(biāo)簽分類器h1(x)預(yù)測(cè)樣本的標(biāo)簽為空集時(shí),說(shuō)明樣本的標(biāo)簽集并不在頻繁項(xiàng)集中,驗(yàn)證了樣本標(biāo)簽間的相關(guān)性并不大,此時(shí)再使用分類器h2(x)預(yù)測(cè)樣本的標(biāo)簽集,從而兼顧標(biāo)簽間多種可能的相關(guān)性。
定義1(特征子空間)在多標(biāo)簽任務(wù)中,給定標(biāo)簽lj(1≤j≤q)和頻繁項(xiàng)Pj(1 ≤j≤k),可以在原始樣本空間中獲得對(duì)應(yīng)的特征子空間:
定義2(頻繁項(xiàng))給定一個(gè)標(biāo)簽組合ls(ls?Y)和最小支持度θ(1<θ≤|D|),如果標(biāo)簽組合ls在數(shù)據(jù)集D中出現(xiàn)的頻數(shù)大于等于最小支持度θ,則該標(biāo)簽組合ls就是一個(gè)頻繁項(xiàng)Pj(1≤j≤k)。
本文提出一種基于標(biāo)簽相關(guān)性的多標(biāo)簽學(xué)習(xí)K 近鄰算法,其架構(gòu)如圖1 所示。首先,使用頻繁項(xiàng)挖掘算法Fp_growth[17]挖掘給定數(shù)據(jù)集的頻繁項(xiàng)集;然后,為頻繁項(xiàng)相關(guān)性得分和標(biāo)簽相關(guān)性得分建模,基于這2 種評(píng)分模型使用閾值自學(xué)習(xí)算法為每一個(gè)頻繁項(xiàng)和標(biāo)簽學(xué)習(xí)對(duì)應(yīng)的關(guān)聯(lián)閾值和獨(dú)立閾值。至此,多標(biāo)簽學(xué)習(xí)分類模型構(gòu)建完畢,最終使用預(yù)測(cè)算法完成測(cè)試樣本預(yù)測(cè)。
圖1 本文算法結(jié)構(gòu)框架Fig.1 The structure framework of this algorithm
本文對(duì)標(biāo)簽高階關(guān)系和單標(biāo)簽分別進(jìn)行建模,建模方法與ML-kNN 算法[19]相比,ML-kNN 算法將標(biāo)簽與其他標(biāo)簽之間看作是相互獨(dú)立的,實(shí)現(xiàn)了單標(biāo)簽的建模與模型求解,忽略了標(biāo)簽之間的相關(guān)性,本文在ML-kNN 單標(biāo)簽建模算法的基礎(chǔ)上,實(shí)現(xiàn)高階標(biāo)簽關(guān)系建模與模型求解,兼顧了標(biāo)簽間多種可能的相關(guān)性。
標(biāo)簽高階關(guān)系通常以頻繁項(xiàng)的形式呈現(xiàn),對(duì)頻繁項(xiàng)相關(guān)性得分進(jìn)行建模,形式化表示為:
其中:p(Pj)是頻繁項(xiàng)Pj的先驗(yàn)概率;表示在樣本t的標(biāo)簽集是頻繁項(xiàng)Pj的條件下,樣本t的k 近鄰樣本中恰有個(gè)樣本的標(biāo)簽集是頻繁項(xiàng)Pj的概率。
st(Pj)計(jì)算過(guò)程如算法1 所示。
對(duì)標(biāo)簽相關(guān)性得分進(jìn)行建模,形式化表示為:
使用貝葉斯準(zhǔn)則,式(7)可以重寫為:
st(lj)的計(jì)算過(guò)程見(jiàn)文獻(xiàn)[19]。以上2 種評(píng)分模型求解算法的時(shí)間復(fù)雜度類似,以算法1 的時(shí)間復(fù)雜度為例進(jìn)行分析,該算法是對(duì)標(biāo)簽高階關(guān)系建模以評(píng)估樣本標(biāo)簽集是該頻繁項(xiàng)的可能性,核心步驟是計(jì)算先驗(yàn)p(Pj)和似然,這2 個(gè)概率的計(jì)算都是基于訓(xùn)練集T中樣本數(shù)的統(tǒng)計(jì)而進(jìn)行的,需要遍歷整個(gè)訓(xùn)練集T,因此,該算法的時(shí)間復(fù)雜度為O(N)。
對(duì)于某個(gè)樣本t,通過(guò)上述相關(guān)性得分建模算法,便可得到模型對(duì)各個(gè)頻繁項(xiàng)的相關(guān)性得分以及模型對(duì)各個(gè)標(biāo)簽的相關(guān)性得分。在多標(biāo)簽分類中,每個(gè)實(shí)例對(duì)應(yīng)的標(biāo)簽數(shù)是不同的,大多數(shù)情況下采取的做法是設(shè)置全局閾值,將標(biāo)簽相關(guān)性得分大于全局閾值的標(biāo)簽篩選出來(lái)。本文采取一種更加靈活的方法,為每個(gè)頻繁項(xiàng)自動(dòng)地學(xué)習(xí)得到適用于樣本特征的關(guān)聯(lián)閾值,為每個(gè)標(biāo)簽自動(dòng)地學(xué)習(xí)得到適用于樣本特征的獨(dú)立閾值。關(guān)聯(lián)閾值記為:
本文采用通用的Beta 分布來(lái)描述關(guān)聯(lián)閾值CT(Pj)(Pj∈P,CT(Pj)∈[0,1])的閾值分布。Beta 分布的參數(shù)α和β可以基于可用樣本通過(guò)貝葉斯推斷估計(jì)出。f(CT(Pj):α,β)是關(guān)聯(lián)閾值服從的Beta 分布的密度函數(shù),α和β決定了密度函數(shù)的形狀。本文利用關(guān)聯(lián)閾值自學(xué)習(xí)算法求解關(guān)聯(lián)閾值CT(Pj),關(guān)聯(lián)閾值自學(xué)習(xí)算法描述如下:
獨(dú)立閾值自學(xué)習(xí)算法描述如下:
值得注意的是,以上提到的2 種閾值自學(xué)習(xí)算法都是增量式學(xué)習(xí)算法,當(dāng)有新的訓(xùn)練樣本時(shí),可以基于已有的閾值直接進(jìn)行更新,而無(wú)需重新學(xué)習(xí)。
例1假設(shè)一個(gè)頻繁項(xiàng)P1,在訓(xùn)練集中有3 個(gè)樣本t1、t2、t3的標(biāo)簽集是該頻繁項(xiàng),對(duì)t1、t2、t3計(jì)算頻繁項(xiàng)相關(guān)性得分,分別為,假設(shè)頻繁項(xiàng)P1的關(guān)聯(lián)閾值Beta 分布的初始參數(shù)為α0=1,β0=1,則Beta 分布參數(shù)的更新如下:
α1=1+100×0.28=29,β1=1+100×0.72=73
α2=29+100×0.25=54,β2=73+100×0.75=148
α3=54+100×0.44=98,β3=148+100×0.56=204
最終,頻繁項(xiàng)P1的關(guān)聯(lián)閾值為:
預(yù)測(cè)的思路是首先基于標(biāo)簽高階關(guān)系模型,評(píng)估樣本標(biāo)簽集合屬于每一種頻繁項(xiàng)的可能性,如果標(biāo)簽高階關(guān)系模型不能預(yù)測(cè)出樣本的標(biāo)簽集合,說(shuō)明該樣本具有的標(biāo)簽間相關(guān)性并不強(qiáng),則將問(wèn)題轉(zhuǎn)換為多個(gè)獨(dú)立的二分類問(wèn)題進(jìn)行解決,從而兼顧標(biāo)簽間多種可能的相關(guān)性。預(yù)測(cè)算法描述如下:
為了驗(yàn)證本文算法的有效性,選取來(lái)自Mulan Library[21]庫(kù)中的2 組經(jīng)典多標(biāo)簽數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),多標(biāo)簽數(shù)據(jù)集對(duì)應(yīng)的名稱、領(lǐng)域、樣本數(shù)、特征數(shù)、標(biāo)簽空間中標(biāo)簽數(shù)等詳細(xì)信息如表1 所示。
表1 多標(biāo)簽數(shù)據(jù)集統(tǒng)計(jì)信息Table 1 Multi-label dataset statistics
Emotions[22]數(shù)據(jù)集包含593 個(gè)標(biāo)注了情感的歌曲樣本,每個(gè)樣本由72 個(gè)特征描述,即8 個(gè)韻律特征和64 個(gè)音色特征。每個(gè)樣本對(duì)應(yīng)6 個(gè)情感標(biāo)簽,每個(gè)標(biāo)簽代表一個(gè)基于模型的歌曲情感聚類。
Scene[23]數(shù)據(jù)集包含2 407 個(gè)自然場(chǎng)景的圖片樣本,每個(gè)樣本由294 個(gè)特征描述,對(duì)應(yīng)一個(gè)294 維的特征向量,具體的屬性向量生成過(guò)程可參見(jiàn)文獻(xiàn)[23],標(biāo)簽空間是6 種可能的自然場(chǎng)景。
實(shí)驗(yàn)設(shè)置具體如下:
1)實(shí)驗(yàn)平臺(tái)。實(shí)驗(yàn)中所有代碼都由Python 編寫,模型基于sklearn 搭建。設(shè)備系統(tǒng)為Windows10,配備NVIDIA GEFORCE GTX 950M 顯卡,內(nèi)存為16 GB。
2)數(shù)據(jù)預(yù)處理。本文算法對(duì)樣本進(jìn)行預(yù)測(cè)需要找出樣本在訓(xùn)練集上相似度最高的k個(gè)樣本,基于這k個(gè)樣本的標(biāo)簽集預(yù)測(cè)測(cè)試樣本的標(biāo)簽組合。為了度量樣本之間的相似性,本文采用樣本間的歐氏距離作為樣本相似性的度量標(biāo)準(zhǔn),為了消除特征之間的量綱影響,對(duì)數(shù)據(jù)特征進(jìn)行歸一化處理。
3)評(píng)價(jià)指標(biāo)。本文算法可以直接預(yù)測(cè)出測(cè)試樣本的標(biāo)簽集,因此,基于多標(biāo)簽排序[24]的評(píng)價(jià)指標(biāo)并不適用于本文算法,考慮到本文算法的特殊性,從多標(biāo)簽分類層面對(duì)預(yù)測(cè)結(jié)果進(jìn)行評(píng)估,采用Precision(P)、Recall(R)、F1-Measure(F1)[25]作為算法性能的評(píng)價(jià)指標(biāo)。Precision、Recall 的計(jì)算依賴于分類結(jié)果的混淆矩陣,F(xiàn)1-Measure 的計(jì)算又是基于Precision、Recall。分類結(jié)果的混淆矩陣如表2 所示。
表2 分類結(jié)果的混淆矩陣Table 2 Confusion matrix of classification results
各評(píng)價(jià)指標(biāo)的計(jì)算公式如下:
P指標(biāo)用于衡量預(yù)測(cè)出的正樣本中確實(shí)是正樣本的比率,R指標(biāo)用于衡量正樣本中有多少比例被預(yù)測(cè)出,F(xiàn)1 是P和R的調(diào)和平均,用于衡量算法在整體上的性能效果。
3.3.1 本文算法與各基準(zhǔn)方法性能比較
各方法在實(shí)驗(yàn)數(shù)據(jù)集上的性能比較結(jié)果如表3、表4 所示。從表3、表4 可以看出,本文算法在2 個(gè)數(shù)據(jù)集上的F1 指標(biāo)都取得了最優(yōu)值,在Emotions 數(shù)據(jù)集上,本文算法的F1 比CC、LP、RAKEL、MLDF 分別提高1.4、5.8、1.4、6.6 個(gè)百分點(diǎn),在Scene 數(shù)據(jù)集上,本文算法的F1 相比CC、LP 分別提升1.3 和8.4 個(gè)百分點(diǎn)。相較其他基準(zhǔn)方法對(duì)標(biāo)簽高階關(guān)系建模,本文算法通過(guò)數(shù)據(jù)挖掘來(lái)明確數(shù)據(jù)集本身固有的高階標(biāo)簽關(guān)系并進(jìn)行建模,其考慮標(biāo)簽間真實(shí)存在的相關(guān)性,因此,取得了較好的分類性能。
表3 多標(biāo)簽學(xué)習(xí)方法在Emotions 數(shù)據(jù)集上的性能比較Table 3 Performance comparison of multi-label learning methods on Emotions dataset
表4 多標(biāo)簽學(xué)習(xí)方法在Scene 數(shù)據(jù)集上的性能比較Table 4 Performance comparison of multi-label learning methods on Scene dataset
3.3.2 關(guān)聯(lián)閾值和獨(dú)立閾值的有效性分析
為了驗(yàn)證關(guān)聯(lián)閾值CT和獨(dú)立閾值IT的有效性,本文采用3 種策略分別進(jìn)行實(shí)驗(yàn):
1)只使用關(guān)聯(lián)閾值對(duì)測(cè)試樣本進(jìn)行預(yù)測(cè)。
2)只使用獨(dú)立閾值對(duì)測(cè)試樣本進(jìn)行預(yù)測(cè)。
3)結(jié)合2 個(gè)閾值對(duì)測(cè)試樣本進(jìn)行預(yù)測(cè)。
3 種策略的判別能力如表5、表6 所示。由表5、表6 可以看出,策略3 的分類性能優(yōu)于策略1 和策略2。對(duì)比2 組實(shí)驗(yàn)數(shù)據(jù)不難發(fā)現(xiàn),在Emotions 數(shù)據(jù)集上,只使用關(guān)聯(lián)閾值就可以取得較好的分類性能,在Scene 數(shù)據(jù)集上,只使用關(guān)聯(lián)閾值則分類性能不理想。在Emotions 數(shù)據(jù)集上,從策略1 到策略3 分類性能提升不是很明顯,但是在Scene 數(shù)據(jù)集上,從策略1到策略3 的分類性能提升效果非常顯著。
表5 不同策略在Emotions 數(shù)據(jù)集上的性能比較Table 5 Performance comparison of different strategies on Emotions dataset
表6 不同策略在Scene 數(shù)據(jù)集上的性能比較Table 6 Performance comparison of different strategies on Scene dataset
出現(xiàn)上述2 種情況,最主要的原因是2 組數(shù)據(jù)集標(biāo)簽間相關(guān)性的強(qiáng)弱不同。具體來(lái)說(shuō),Emotions 數(shù)據(jù)集上因?yàn)闃?biāo)簽間的相關(guān)性很強(qiáng),測(cè)試樣本的標(biāo)簽集總是以頻繁項(xiàng)的形式呈現(xiàn),因此,通過(guò)關(guān)聯(lián)閾值預(yù)測(cè)就可以將絕大部分的測(cè)試樣本標(biāo)簽集確定,剩余的樣本需借助獨(dú)立閾值去獲取樣本的標(biāo)簽集,即從策略1 到策略3 分類效果的性能提升不是很明顯,驗(yàn)證了本文對(duì)標(biāo)簽高階關(guān)系建模的有效性。在Scene數(shù)據(jù)集上,由于標(biāo)簽間的相關(guān)性較弱,存在挖掘出的頻繁項(xiàng)不能覆蓋所有標(biāo)簽的情況,通過(guò)使用關(guān)聯(lián)閾值進(jìn)行預(yù)測(cè),該標(biāo)簽的分類指標(biāo)必然為0,將大幅影響整體分類效果。在實(shí)際的預(yù)測(cè)過(guò)程中,只有很少部分的測(cè)試樣本標(biāo)簽集是頻繁項(xiàng),值得注意的是,在數(shù)據(jù)集上雖然挖掘出頻繁項(xiàng),但一種標(biāo)簽組合是否屬于頻繁項(xiàng)由它在數(shù)據(jù)集上出現(xiàn)的頻數(shù)以及設(shè)置的閾值參數(shù)共同決定,在Scene 數(shù)據(jù)集上,頻繁項(xiàng)的個(gè)數(shù)很少,通過(guò)本文算法驗(yàn)證了Scene 數(shù)據(jù)集標(biāo)簽間的相關(guān)性較弱,對(duì)于測(cè)試樣本,大部分都采用策略2 完成標(biāo)簽集的獲取,因此,從策略1 到策略3 分類效果有了很大的提升。
已有多標(biāo)簽學(xué)習(xí)算法大多將多標(biāo)簽學(xué)習(xí)問(wèn)題轉(zhuǎn)化為多個(gè)獨(dú)立的二分類問(wèn)題,以對(duì)每個(gè)標(biāo)簽進(jìn)行單獨(dú)求解,該過(guò)程通常忽略了標(biāo)簽間的相關(guān)性。本文提出一種基于標(biāo)簽相關(guān)性的多標(biāo)簽學(xué)習(xí)K 近鄰算法,該算法充分挖掘標(biāo)簽間的相關(guān)性,對(duì)標(biāo)簽高階關(guān)系進(jìn)行建模,基于標(biāo)簽高階關(guān)系模型分析樣本的標(biāo)簽集合,如果標(biāo)簽高階關(guān)系模型不能預(yù)測(cè)出樣本的標(biāo)簽集合,說(shuō)明該樣本標(biāo)簽間的相關(guān)性并不強(qiáng),此時(shí)使用一階策略完成該樣本標(biāo)簽集的預(yù)測(cè)工作,從而消除僅依靠單階或多階模型進(jìn)行預(yù)測(cè)時(shí)存在的弊端。在2 個(gè)經(jīng)典數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該算法具有較高的F1-Measure 值,其能取得較好的分類效果。下一步將在確定對(duì)應(yīng)于每個(gè)頻繁項(xiàng)或標(biāo)簽的近鄰樣本時(shí),采用不同大小的近鄰參數(shù)K,從近鄰樣本中提取出更為有效的信息來(lái)輔助分類過(guò)程,從而提高本文算法的分類性能。