冀 中,李慧慧,何宇清
天津大學(xué) 電氣自動(dòng)化與信息工程學(xué)院,天津 300072
傳統(tǒng)圖像分類系統(tǒng)通常要求測(cè)試類別在訓(xùn)練階段有大量訓(xùn)練數(shù)據(jù)。然而在實(shí)際應(yīng)用中,隨著事物種類的不斷增多和細(xì)化,大量數(shù)據(jù)標(biāo)注信息的獲取非常昂貴,使得傳統(tǒng)的分類任務(wù)的擴(kuò)展性差,難以滿足實(shí)際需求。零樣本學(xué)習(xí)技術(shù)的出現(xiàn),則在一定程度上解決了標(biāo)簽缺失問(wèn)題[1-5],其目的在于模仿人類無(wú)需看過(guò)實(shí)際視覺樣例,就能識(shí)別新類別的能力。人類之所以具備這種能力,是因?yàn)槟軌驅(qū)⑽匆婎惡鸵岩婎愅ㄟ^(guò)語(yǔ)義信息建立聯(lián)系。類似地,零樣本圖像分類技術(shù)通過(guò)有標(biāo)簽的訓(xùn)練數(shù)據(jù)(即已見過(guò)的類別),在視覺空間和語(yǔ)義空間之間建立映射關(guān)系,而后根據(jù)訓(xùn)練數(shù)據(jù)和未見類別的測(cè)試數(shù)據(jù)在視覺和語(yǔ)義上的聯(lián)系,為測(cè)試數(shù)據(jù)賦予類別標(biāo)簽。
目前相關(guān)研究主要集中于單標(biāo)簽圖像分類任務(wù)。然而在實(shí)際應(yīng)用中,一幅圖像不同的區(qū)域往往對(duì)應(yīng)若干語(yǔ)義標(biāo)簽,因此將多標(biāo)簽圖像分類技術(shù)與零樣本學(xué)習(xí)相結(jié)合,即零樣本多標(biāo)簽圖像分類,更具實(shí)際應(yīng)用價(jià)值。幾種不同任務(wù)的關(guān)系如圖1所示。
Fig.1 Relationship between zero-shot multi-label classification and related techniques圖1 零樣本多標(biāo)簽分類與相關(guān)技術(shù)的關(guān)系
近年來(lái),越來(lái)越多的學(xué)者開始關(guān)注于這一任務(wù),并提出了一些解決方案。例如,F(xiàn)u等人[6]提出一個(gè)解決框架,將原始圖像直接映射至語(yǔ)義空間,并在語(yǔ)義空間針對(duì)映射后的特征分別利用直接相似性度量和直推學(xué)習(xí)兩類算法進(jìn)行標(biāo)簽分類。Mensink等人[7]則將多標(biāo)簽學(xué)習(xí)分解為多個(gè)獨(dú)立的二進(jìn)制分類問(wèn)題,并利用標(biāo)簽間的統(tǒng)計(jì)相關(guān)性以提高分類性能。Sandouk等人[8]分別建立視覺、標(biāo)簽空間到語(yǔ)義空間的映射,且不同圖像中的同一標(biāo)簽的具體含義、語(yǔ)義表征不同,從而充分地利用圖像和標(biāo)簽間的多義性實(shí)現(xiàn)分類。最近,Zhang等人[1]提出一種映射主方向模型,具有很好的泛化能力。他們利用跨模態(tài)映射模型實(shí)現(xiàn)多標(biāo)簽圖像至對(duì)應(yīng)語(yǔ)義空間的嵌入,嵌入后的特征向量作為分類主方向,和圖像相關(guān)性越大,在主方向的排名越靠前。然而,目前針對(duì)零樣本多標(biāo)簽圖像分類的研究仍處于起步階段,其有效性和魯棒性仍存在很大的提升空間。
為此,本文借鑒零樣本單標(biāo)簽分類和多示例多標(biāo)簽圖像分類中的思想,提出一種新的零樣本多標(biāo)簽圖像分類方法,通過(guò)深度嵌入模型(deep embedding model,DEM)將視覺空間映射至語(yǔ)義空間,并在語(yǔ)義空間利用示例差異化算法(instance differentiation,InsDif)實(shí)現(xiàn)零樣本多標(biāo)簽分類。所提方法稱為Deep ZSL-ID(deep zero-shot learning with instance differentiation),其系統(tǒng)框圖如圖2所示。
Fig.2 Illustration of proposed Deep ZSL-ID framework圖2 所提Deep ZSL-ID系統(tǒng)框圖
多標(biāo)簽學(xué)習(xí)已廣泛應(yīng)用于諸多場(chǎng)合,其關(guān)鍵挑戰(zhàn)在于多標(biāo)簽空間大小呈指數(shù)增長(zhǎng)。例如類別個(gè)數(shù)為20時(shí),對(duì)應(yīng)標(biāo)簽空間的大小為220。為應(yīng)對(duì)這種輸出空間指數(shù)爆炸的問(wèn)題,通常需要利用標(biāo)簽間的相關(guān)性促進(jìn)學(xué)習(xí)過(guò)程[9]。例如,已知圖像含有標(biāo)簽“熱帶雨林”“足球”,則被標(biāo)注為“巴西”的概率就較高。除標(biāo)簽間相關(guān)性外,根據(jù)標(biāo)簽量充足與否,多標(biāo)簽分類任務(wù)可分為三類:(1)直接實(shí)現(xiàn)從視覺特征空間到標(biāo)簽空間的分類[9-11],容易遷移至不同數(shù)據(jù)集,具有普適性,但性能不能得以保證。(2)針對(duì)大規(guī)模訓(xùn)練樣本和大量標(biāo)簽,此時(shí)標(biāo)簽空間存在指數(shù)爆炸,對(duì)此通常利用標(biāo)簽空間降維和特征選擇方案[12-13],將視覺特征和標(biāo)簽向量同時(shí)映射至某一低維隱空間,再實(shí)現(xiàn)從隱空間至標(biāo)簽空間的反向預(yù)測(cè)。(3)針對(duì)標(biāo)簽缺失或訓(xùn)練樣本不足,此時(shí)需要借助一定的輔助信息實(shí)現(xiàn)分類,例如Kong等人[14]采用直推式算法,同時(shí)利用已標(biāo)記和未標(biāo)記數(shù)據(jù)以獲取最佳標(biāo)記標(biāo)簽。情況(3)中標(biāo)簽不足的極端情況即為零樣本多標(biāo)簽分類任務(wù)問(wèn)題設(shè)定,此時(shí)借助的輔助信息一般稱為語(yǔ)義信息。
已有多標(biāo)簽分類方法大都基于單示例多標(biāo)簽假設(shè),但多標(biāo)簽圖像具有多義性,只用一個(gè)示例表征過(guò)度簡(jiǎn)化,容易丟失有用信息。為此,Zhou等人借鑒多示例學(xué)習(xí)思路,將單幅圖像表征為多維數(shù)組,提出了多示例多標(biāo)簽(multi-instance multi-label,MIML)學(xué)習(xí)框架[15-16]。幾年來(lái),隨著深度學(xué)習(xí)技術(shù)的發(fā)展,多示例學(xué)習(xí)為端對(duì)端實(shí)現(xiàn)零樣本多標(biāo)簽圖像分類提供了可能[16]。
零樣本學(xué)習(xí)(zero-shot learning,ZSL)旨在解決標(biāo)簽缺失問(wèn)題,即測(cè)試類別的標(biāo)簽在模型訓(xùn)練過(guò)程中沒有對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)。這一過(guò)程的實(shí)現(xiàn)通常需要借助中間輔助信息,例如屬性向量[4]及詞向量。詞向量中常用的方法是將語(yǔ)料庫(kù)中的單詞表示成一個(gè)向量[17],并且向量之間的相似度可以較好地模擬單詞語(yǔ)義上的相似度。
求得已見類別和未見類別的語(yǔ)義特征后,各類別間的語(yǔ)義相關(guān)性即可由語(yǔ)義特征間的距離求出。然而由于視覺特征和語(yǔ)義特征之間語(yǔ)義鴻溝的存在,兩者不能直接建立聯(lián)系,現(xiàn)有方法大多利用訓(xùn)練樣本的視覺特征和對(duì)應(yīng)標(biāo)簽語(yǔ)義特征學(xué)習(xí)跨模態(tài)嵌入模型。已有的方法大致可分為三類:(1)視覺至語(yǔ)義空間的嵌入,該方案是零樣本學(xué)習(xí)最廣泛的解決方案,典型算法有線性回歸、神經(jīng)網(wǎng)絡(luò)[18]和流形學(xué)習(xí)[19]等。(2)語(yǔ)義至視覺空間的嵌入,該方案由Shigeto等人[20]最早提出,并證明可以緩解零樣本學(xué)習(xí)中廣泛存在的hubness問(wèn)題。最近,Zhang等人[21]利用該映射方式實(shí)現(xiàn)了一個(gè)端對(duì)端模型。(3)視覺語(yǔ)義特征嵌入公共空間,例如采用典型相關(guān)分析模型[3]以及Ji等人提出的MBFA(multi-battery factor analysis)模型[4]。視覺特征和語(yǔ)義特征映射至同一空間后,通常直接進(jìn)行相似性度量得出最終預(yù)測(cè)結(jié)果。
給定已標(biāo)記的訓(xùn)練集S={(XS,TS,YS,WS)}以及對(duì)應(yīng)文本集,其中n為訓(xùn)練標(biāo)簽個(gè)數(shù)。XS={x1S,x2S,…,表示訓(xùn)練樣本視覺特征向量,而TS={t1S,表示對(duì)應(yīng)標(biāo)簽向量,,u=1,2,…,n表示樣本i包含標(biāo)簽u,反之,NS為訓(xùn)練樣本個(gè)數(shù)。WS={w1,w2,…,wn}表征文本經(jīng)語(yǔ)義變換后的詞向量集合,為標(biāo)簽向量和對(duì)應(yīng)詞向量線性組合結(jié)果,即訓(xùn)練樣本XS的語(yǔ)義空間表征。特別地,d和p分別表示視覺特征空間和語(yǔ)義特征空間維度。類似地有測(cè)試集U={(XU,TU,YU,WU)}及其候選文本集,其中m為測(cè)試樣本候選標(biāo)簽數(shù),測(cè)試樣本數(shù)記為MU,各符號(hào)含義與訓(xùn)練集對(duì)應(yīng),在本文零樣本多標(biāo)簽任務(wù)設(shè)定中,滿足假設(shè)。為區(qū)別樣本的相關(guān)標(biāo)簽和不相關(guān)標(biāo)簽,標(biāo)簽向量T可劃分為不相交的兩個(gè)集合 (T,),Ti為樣本i中ti=1的標(biāo)簽集合,則為ti=-1的集合。顯然集合Ti中標(biāo)簽和樣本i的相關(guān)性大于中標(biāo)簽和樣本i的相關(guān)性。
一般來(lái)說(shuō),訓(xùn)練集及其標(biāo)注信息已知,WU和XU也可利用對(duì)應(yīng)特征提取方法獲取。此時(shí),給定新的測(cè)試樣本xiU,i=1,2,…,MU,目的是預(yù)測(cè)其語(yǔ)義表征及其對(duì)應(yīng)標(biāo)簽向量。注意到可能被任意2m個(gè)標(biāo)簽組合向量標(biāo)記,本文定義一個(gè)新的冪集合P={(TP,YP,WU)},其中TP∈{-1,1}m×2m為所有標(biāo)簽組合向量,為對(duì)應(yīng)線性組合的語(yǔ)義表征,WU為測(cè)試樣本候選標(biāo)簽對(duì)應(yīng)語(yǔ)義向量。表1對(duì)主要符號(hào)進(jìn)行總結(jié)說(shuō)明。
Table 1 Main symbol description表1 主要符號(hào)說(shuō)明
本文所提零樣本多標(biāo)簽圖像分類方法的大體流程如圖2所示,具體來(lái)說(shuō),主要包括如下幾個(gè)步驟。
(1)特征提取階段。提取樣本的視覺特征X∈X和類別語(yǔ)義特征W∈V,視覺特征提取器選擇經(jīng)ImageNet預(yù)訓(xùn)練的VGGNet-19模型[22],選取Word2Vec模型[17]提取語(yǔ)義,文本至詞向量的映射為v:T→V,其中X、T、V分別表示視覺、標(biāo)簽和語(yǔ)義空間;在語(yǔ)義空間V中容易獲取標(biāo)簽間的相關(guān)性,并且一個(gè)多標(biāo)簽樣本的語(yǔ)義表征可通過(guò)單個(gè)標(biāo)簽的詞向量線性組合來(lái)表征,形式上有:
測(cè)試集、冪集的對(duì)應(yīng)關(guān)系類似。
(2)跨模態(tài)映射階段。利用深度嵌入模型DEM實(shí)現(xiàn)視覺特征空間至語(yǔ)義特征空間的跨模態(tài)映射f:X→V,利用訓(xùn)練集對(duì)模型進(jìn)行參數(shù)訓(xùn)練。
(3)測(cè)試樣本語(yǔ)義預(yù)測(cè)階段。測(cè)試樣本xiU利用第(2)步所得跨模態(tài)映射模型可得預(yù)測(cè)語(yǔ)義表征。
(4)語(yǔ)義空間的分類階段。利用示例差異化算法InsDif實(shí)現(xiàn)語(yǔ)義特征空間至標(biāo)簽空間的分類h:V→L,最終可得測(cè)試樣本對(duì)應(yīng)標(biāo)注。
為了實(shí)現(xiàn)針對(duì)零樣本多標(biāo)簽學(xué)習(xí)任務(wù)的跨模態(tài)映射功能f:X→V,本文設(shè)計(jì)了深度嵌入模型,如圖3所示。模型主要由三層全連接網(wǎng)絡(luò)(fully connected layer,FC)組成,其中前兩個(gè)全連接層后分別有一個(gè)Leaky ReLU(leaky rectified unit)激活單元。原始圖像經(jīng)視覺特征提取器后得到4 096-D的視覺特征向量,該特征向量依次經(jīng)過(guò)三個(gè)全連接層和兩個(gè)對(duì)應(yīng)激活函數(shù),向量維度由4 096依次變?yōu)? 048、1 024和100。特別地,對(duì)每層FC網(wǎng)絡(luò)的超參進(jìn)行L2正則化以使該嵌入網(wǎng)絡(luò)更具魯棒性,在測(cè)試集中具有良好的泛化性能;FC層的末端連接一個(gè)回歸損失函數(shù)層,旨在最大限度地減小訓(xùn)練樣本的語(yǔ)義特征和其視覺特征嵌入向量在語(yǔ)義空間的差異。采用和文獻(xiàn)[21]中相同的損失函數(shù)機(jī)制,最終目標(biāo)函數(shù)如下:
Fig.3 Architecture of DEM model圖3 DEM模型結(jié)構(gòu)
本文將示例差異化算法[15]的思想應(yīng)用到零樣本多標(biāo)簽分類任務(wù),將單示例多標(biāo)簽樣本轉(zhuǎn)化為多示例多標(biāo)簽樣本。主要思路為:首先將一維樣本特征轉(zhuǎn)換為包的形式,從而顯式地描述圖像中多個(gè)對(duì)象的歧義性;然后利用MIML學(xué)習(xí)器[15-16]對(duì)轉(zhuǎn)換后的數(shù)據(jù)集進(jìn)行分類學(xué)習(xí),具體過(guò)程為:
首先,計(jì)算含標(biāo)簽j,j=1,2,…,m的所有樣本特征平均值,用作標(biāo)簽j的原型向量νj;基于該原型向量,將每個(gè)原始訓(xùn)練樣本轉(zhuǎn)換為示例包:
其中,包的大小等于該樣本包含類別數(shù)q。
其次,利用兩層分類策略對(duì)轉(zhuǎn)換后的數(shù)據(jù)集(BiP,tiP),i=1,2,…,2m進(jìn)行分類學(xué)習(xí)。第一層利用聚類算法將新的訓(xùn)練集劃分為g個(gè)不相交子集:
其中,i表示每個(gè)子集包含訓(xùn)練樣本的個(gè)數(shù),將g個(gè)包的集合記作{G1,G2,…,Gg}。集合{G1,G2,…,Gg}為各聚類子集Gl的簇中心,每個(gè)子集Gl和對(duì)應(yīng)的中心Ql滿足:
其中,dH(E,F)用于計(jì)算包E和F之間的Hausdorff距離[15]。第二層對(duì)應(yīng)權(quán)值矩陣W=[ωlj]g×q,其中ωlj為連接包Ql與輸出的權(quán)值。該權(quán)值矩陣的求解與文獻(xiàn)[15]一致,通過(guò)最小化如下誤差函數(shù)得到:
本文利用主流數(shù)據(jù)集Natural Scene[10]和IAPRTC-12[24]進(jìn)行實(shí)驗(yàn)驗(yàn)證。其中,Natural Scene數(shù)據(jù)集包含2 000張自然場(chǎng)景圖像,每幅圖可被desert、mountain、sea、sunset和tree共5個(gè)標(biāo)簽任意組合標(biāo)記,且超過(guò)22%的圖像是多標(biāo)記的。對(duì)于該數(shù)據(jù)集的驗(yàn)證實(shí)驗(yàn),選取含2 688張圖像8個(gè)標(biāo)簽的單標(biāo)簽數(shù)據(jù)集Scene[25]用作訓(xùn)練,Natural Scene數(shù)據(jù)集用作測(cè)試。IAPRTC-12數(shù)據(jù)集則包含來(lái)自275個(gè)類別的20 000張圖像,該數(shù)據(jù)集包含 6 個(gè)主要子集:humans、animals、food、landscape nature、man-made和其他。為保證樣本數(shù)據(jù)的均衡分布,與文獻(xiàn)[6]一致,本文選取Natural Scene和Scene兩個(gè)數(shù)據(jù)集用作訓(xùn)練,IAPRTC-12的landscape nature子集(共計(jì)9 663張圖像,其中超過(guò)30%是多標(biāo)簽圖像)用作測(cè)試,并選擇該分支中出現(xiàn)頻率最高的8個(gè)標(biāo)簽用作候選類。
對(duì)于所有樣本圖像,使用經(jīng)ImageNet預(yù)訓(xùn)練的VGGNet-19模型[22],將隱藏層最頂層的4 096維輸出作為視覺特征,輸入圖像的大小調(diào)整為224×224。本文選取文本特征作為中間輔助信息,在維基百科語(yǔ)料庫(kù)訓(xùn)練Word2Vec模型[17]以形成100維的詞向量。上述視覺特征、語(yǔ)義特征在進(jìn)行跨模態(tài)映射或多標(biāo)簽分類時(shí),均進(jìn)行L2歸一化處理,訓(xùn)練DEM模型時(shí)從訓(xùn)練集隨機(jī)選取20%作為驗(yàn)證集,用以調(diào)整深度網(wǎng)絡(luò)超參。
記h(?)為分類器,r(?)為中間預(yù)測(cè)所得實(shí)值函數(shù),本文選取文獻(xiàn)[6]中4個(gè)標(biāo)準(zhǔn)度量指標(biāo)來(lái)評(píng)估標(biāo)注結(jié)果,分別如下所示。
(1)Ranking Loss(RL):該指標(biāo)用于衡量未正確排序?qū)Φ钠骄?,?shù)值越小,性能越好。
(2)Average Precision(AP):該指標(biāo)用于衡量相關(guān)標(biāo)簽排序高于不相關(guān)標(biāo)簽的平均分?jǐn)?shù),數(shù)值越大,性能越好。
(3)Hamming Loss(HL):該指標(biāo)用于衡量樣本標(biāo)簽對(duì)被錯(cuò)分的次數(shù),數(shù)值越小,性能越好。
其中,Δ表示兩者的對(duì)稱差異。
(4)MicroF1(MF1):該指標(biāo)用于評(píng)估平均微精度(micro-precision)和平均微召回率(micro-recall)的微觀平均值,數(shù)值越大,性能越好。
值得一提的是,上述4個(gè)指標(biāo)從不同的角度對(duì)分類性能進(jìn)行評(píng)估,通常很少有算法能同時(shí)在所有度量標(biāo)準(zhǔn)下實(shí)現(xiàn)最佳性能[6,11]。
表2給出了在Natural Scene和IAPRTC-12數(shù)據(jù)集中當(dāng)前零樣本多標(biāo)簽圖像分類算法結(jié)果比較,實(shí)驗(yàn)主要選取Fu等人的工作[6]和Fast0Tag[1]作為對(duì)比算法。文獻(xiàn)[6]利用Mul-DR(multi-output deep regression)深度回歸模型實(shí)現(xiàn)從原始圖像到語(yǔ)義特征空間的映射,并提出兩種分類算法DMP(direct multi-label zeroshot prediction)和 TraMP(transductive multi-label zeroshot prediction)。其中,DMP通過(guò)直接相似性度量實(shí)現(xiàn)分類,TraMP屬于直推式學(xué)習(xí)算法,分類過(guò)程中同時(shí)利用訓(xùn)練和測(cè)試樣本信息。Fast0Tag[1]通過(guò)估計(jì)視覺特征映射至語(yǔ)義特征空間的主方向向量,來(lái)解決零樣本多標(biāo)簽圖像分類任務(wù),認(rèn)為標(biāo)簽與圖像的相關(guān)性越大,對(duì)應(yīng)在主方向向量的投影越靠前。該方法同時(shí)利用線性映射和非線性深度神經(jīng)網(wǎng)絡(luò)來(lái)估計(jì)該主方向向量,此處選取性能更優(yōu)的非線性法Fast0Tag(net.)作為對(duì)比算法。此外,為進(jìn)行公平比較,對(duì)比算法與所提算法采用相同的視覺和語(yǔ)義特征。
為便于觀察,進(jìn)行1-AP和1-MF1處理,此時(shí)對(duì)于所有指標(biāo)均是取值越小性能越好。表中最佳結(jié)果加粗顯示,次優(yōu)性能斜體顯示(后文設(shè)定一致)??梢钥闯觯涸跀?shù)據(jù)集Natural Scene上,Mul-DR+TraMP算法整體性能優(yōu)于Fast0Tag(net.)和Deep ZSL-ID,F(xiàn)ast0Tag(net.)和Deep ZSL-ID性能相當(dāng)并優(yōu)于Mul-DR+DMP;數(shù)據(jù)集IAPRTC-12上性能優(yōu)先順序大致為Deep ZSL-ID> Fast0Tag(net.)> Mul-DR+TraMP>Mul-DR+DMP。與Natural Scene數(shù)據(jù)集相比,IAPRTC-12的landscape nature分支規(guī)模更大,樣本數(shù)據(jù)分布更豐富,而Deep ZSL-ID和Fast0Tag(net.)算法基于深層網(wǎng)絡(luò),需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練,因此在Natural Scene上性能較差。TraMP屬于直推式[9]分類算法,分類時(shí)利用測(cè)試樣本作為輔助信息,因此在Natural Scene上性能優(yōu)越。此外,數(shù)據(jù)集Natural Scene上Deep ZSLID的HL指標(biāo)較差,HL同時(shí)會(huì)加重誤分類和缺失分類誤差,而InsDif將單示例問(wèn)題轉(zhuǎn)換為多示例,在訓(xùn)練樣本不足的情況下,轉(zhuǎn)換多示例時(shí)會(huì)引入新的誤差,使誤分類/錯(cuò)分類比重增大。此外,為檢驗(yàn)所提算法的穩(wěn)定性,隨機(jī)選擇10組分類結(jié)果,對(duì)兩個(gè)數(shù)據(jù)集的4個(gè)衡量指標(biāo)分別進(jìn)行方差檢驗(yàn),方差結(jié)果Δ列于表2最后一欄??傮w而言,表2的比較結(jié)果可驗(yàn)證所提Deep ZSL-ID方法的有效性與先進(jìn)性。
Table 2 Performance comparison of different algorithms on Natural Scene and IAPRTC-12 datasets表2 不同算法在Natural Scene和IAPRTC-12數(shù)據(jù)集中的性能比較 %
為了進(jìn)一步驗(yàn)證文本分類方法的有效性,基于所提跨模態(tài)映射模型,本節(jié)選取經(jīng)典多標(biāo)簽分類算法進(jìn)行對(duì)比,它們是exDAP(extension of direct attribute prediction)[6]、DMP[6]、TraMP[14]和 COINS(co-training for inductive semi-supervised multi-label learning)[26]。具體地,exDAP算法將多標(biāo)簽分類任務(wù)分解為多個(gè)獨(dú)立不相關(guān)的二元分類問(wèn)題,直接進(jìn)行分類預(yù)測(cè)。DMP算法同零樣本單標(biāo)簽圖像分類一致,該算法利用詞向量間的語(yǔ)義相關(guān)性,將視覺嵌入特征Y?U和標(biāo)簽組合語(yǔ)義特征YP進(jìn)行相似性度量,實(shí)現(xiàn)分類。TraMP算法則在分類過(guò)程中,將測(cè)試標(biāo)簽的組合語(yǔ)義特征YP作為先驗(yàn)知識(shí),在Y?U和YP間進(jìn)行標(biāo)簽傳播,最終得出最接近的標(biāo)簽預(yù)測(cè)結(jié)果。同TraMP算法相反,COINS算法是一種歸納式、半監(jiān)督算法,利用訓(xùn)練和測(cè)試數(shù)據(jù)協(xié)同訓(xùn)練多標(biāo)簽分類器,再利用所得分類器對(duì)測(cè)試集進(jìn)行分類。
結(jié)果如表3所示。可以看出:在小樣本數(shù)據(jù)集Natural Scene上,TraMP作為一種直推式算法,4個(gè)指標(biāo)下均保持性能優(yōu)勢(shì),InsDif、COINS、DMP和exDAP依次次之。TraMP作為一種直推式方法,利用測(cè)試樣本的標(biāo)簽信息進(jìn)行分類,這是該算法在小樣本數(shù)據(jù)集下具備優(yōu)勢(shì)的原因。而隨著樣本數(shù)量集的增大,IAPRTC-12上性能優(yōu)先順序依次為InsDif>COINS>TraMP>DMP>exDAP。由此可見,隨著樣本數(shù)據(jù)增大,InsDif算法和COINS算法泛化能力強(qiáng)于TraMP算法。同時(shí)InsDif算法較COINS算法的性能優(yōu)勢(shì)也說(shuō)明,將尋求單示例多標(biāo)簽間的對(duì)應(yīng)關(guān)系轉(zhuǎn)換為尋求多示例多標(biāo)簽間的對(duì)應(yīng)關(guān)系,更滿足實(shí)際需求。DMP利用語(yǔ)義信息間的語(yǔ)義語(yǔ)法關(guān)聯(lián)進(jìn)行相似性度量,性能優(yōu)于忽略標(biāo)簽相關(guān)性的exDAP算法;InsDif、COINS和TraMP算法性能則顯著優(yōu)于DMP和exDAP,可見充分利用標(biāo)簽間相關(guān)性是多標(biāo)簽分類問(wèn)題不可或缺的步驟。
Table 3 Performance comparison of different classification strategies表3 不同分類策略下的性能比較 %
此外,基于同一分類方法TraMP,選取文獻(xiàn)[6]中的映射模型Mul-DR同所提模型DEM進(jìn)行對(duì)比,用-M和-D分別表示基于Mul-DR和DEM模型的實(shí)驗(yàn)結(jié)果。從圖4可見,DEM模型相比Mul-DR性能有顯著提升,驗(yàn)證了本文所設(shè)計(jì)網(wǎng)絡(luò)的有效性。
Fig.4 Performance comparison of different cross-modal embedding models圖4 不同跨模態(tài)嵌入模型的性能比較
本文針對(duì)零樣本多標(biāo)簽提出了一種基于深度嵌入網(wǎng)絡(luò)的示例差異化分類方法。首先將視覺特征嵌入語(yǔ)義特征空間,然后在該嵌入空間進(jìn)行零樣本多標(biāo)簽分類。大量的實(shí)驗(yàn)比較和分析證明了所提方法的有效性和先進(jìn)性。實(shí)驗(yàn)表明,相比尋求單示例多標(biāo)簽間的對(duì)應(yīng)關(guān)系,尋求多示例多標(biāo)簽間的對(duì)應(yīng)關(guān)系更符合實(shí)際任務(wù)本身。后續(xù)的研究方向是直接利用深度嵌入網(wǎng)絡(luò)與示例差異化實(shí)現(xiàn)端到端的學(xué)習(xí),以期望進(jìn)一步提升性能。