亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于視覺和語義互學(xué)習(xí)的標(biāo)簽完備標(biāo)注

2022-03-03 13:46:30楊凱婷張素蘭張繼福胡立華楊海峰

小型微型計(jì)算機(jī)系統(tǒng) 2022年3期

楊凱婷，張素蘭，張繼福，胡立華，楊海峰

(太原科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，太原 030024)

1 引言

目前，很多社會(huì)化媒體主要依賴于用戶提供的標(biāo)簽來檢索存儲(chǔ)在社交網(wǎng)站中的大量圖像.而網(wǎng)絡(luò)用戶提供的初始標(biāo)簽往往是不完整和有噪聲的，圖像標(biāo)簽的缺失使得用戶不能快速地檢索出其關(guān)心的圖像；有噪聲的標(biāo)簽則會(huì)導(dǎo)致用戶檢索出與標(biāo)簽無關(guān)的圖像，從而影響了檢索效率.圖像標(biāo)簽的完備標(biāo)注因非常有助于提高圖像檢索效率，目前仍是圖像語義自動(dòng)標(biāo)注一個(gè)研究熱點(diǎn)[1].

近年來，具有代表性的標(biāo)簽完備標(biāo)注方法主要有基于矩陣完備[2]、基于線性空間重建[3，4]和基于低秩矩陣分解的方法[5，6].基于矩陣完備的方法主要將標(biāo)簽完備問題轉(zhuǎn)化為矩陣完備問題，如Wu L 等提出的較為經(jīng)典的標(biāo)簽矩陣完備(tag matrix completion，TMC)模型[2].該模型將標(biāo)簽和圖像之間的關(guān)系描述為一個(gè)標(biāo)簽矩陣，通過最小化基于標(biāo)簽的相似性和基于視覺內(nèi)容的相似性之間的差異來搜索最優(yōu)標(biāo)簽矩陣.但TMC 模型沒有充分利用初始標(biāo)簽，缺少對(duì)標(biāo)簽自身相關(guān)度的分析，影響標(biāo)注效果.Lin Z 等[3]提出的一種線性稀疏重建(linear sparse reconstructions，LSR)模型，該模型利用圖像之間的視覺和語義相似性重構(gòu)每幅圖像，利用標(biāo)簽之間的一致性重建每個(gè)標(biāo)簽，并對(duì)其重建值進(jìn)行歸一化合并，以選擇缺失的相關(guān)標(biāo)簽.為降低計(jì)算復(fù)雜度，Lin Z 等對(duì)LSR 模型進(jìn)一步擴(kuò)展和改進(jìn)，得到雙視圖線性稀疏重構(gòu)(dual-view linear sparse reconstructions，DLSR)模型[4].孟磊等[5]提出了一種基于低秩稀疏分解優(yōu)化(low-rank sparse decomposition and optimization，LRSDO)的圖像標(biāo)簽完備方法.該方法主要通過構(gòu)造低秩稀疏分解模型獲得待完備圖像視覺特征和標(biāo)簽語義之間的映射關(guān)系，并使用標(biāo)簽共現(xiàn)頻率方法對(duì)候選標(biāo)簽進(jìn)行去噪優(yōu)化.但是該方法沒有考慮標(biāo)簽的語義相關(guān)性，因此完備標(biāo)注性能仍有提升.為了充分利用標(biāo)簽之間的信息，提高圖像標(biāo)注和檢索性能，有學(xué)者開始深入挖掘標(biāo)簽之間的關(guān)系[7-9].顧廣華等人[10]利用關(guān)聯(lián)規(guī)則算法挖掘數(shù)據(jù)集中語義之間的關(guān)聯(lián)規(guī)則，對(duì)圖像標(biāo)注進(jìn)行語義豐富和標(biāo)簽補(bǔ)充.崔超然等人[11]討論了如何平衡標(biāo)簽的相關(guān)性和多樣性，李雯莉等人利用概念格進(jìn)行標(biāo)簽本身潛在的語義分析，有效地改善了標(biāo)注效果.

雖然這些標(biāo)簽完備標(biāo)注方法取得了較好的性能，但在考慮標(biāo)簽關(guān)系時(shí)仍存在一些問題.大多數(shù)方法[2，5，12，13]不考慮數(shù)據(jù)集中與標(biāo)簽關(guān)聯(lián)的圖像的視覺信息，使得在圖像標(biāo)注過程中出現(xiàn)多義詞和同義詞.而且，目前考慮標(biāo)簽視覺內(nèi)容的工作相對(duì)較少.因此，為有效提高圖像標(biāo)簽完備標(biāo)注的精度，本文提出了一種基于視覺和語義互學(xué)習(xí)(mutual learning using visual and semantic，MLVS)的標(biāo)簽完備標(biāo)注方法.首先，綜合考慮待完備圖像的視覺特征和初始語義計(jì)算圖像之間相似度，獲取待完備圖像的近鄰圖像集和候選標(biāo)簽集；然后，取候選標(biāo)簽與初始標(biāo)簽最大的視覺內(nèi)容相似性和語義相關(guān)性作為其與待完備圖像的視覺內(nèi)容相關(guān)度、語義相關(guān)度；最后，結(jié)合標(biāo)簽頻率優(yōu)化候選標(biāo)簽與待完備圖像的相關(guān)性，確認(rèn)最優(yōu)的候選標(biāo)簽進(jìn)行標(biāo)簽完備.

2 相關(guān)定義

信息的互學(xué)習(xí)可以幫助我們更好地認(rèn)識(shí)事物之間的相關(guān)關(guān)系.圖像標(biāo)簽完備標(biāo)注方法一般是用相關(guān)語義標(biāo)簽補(bǔ)全待完備圖像，主要涉及到圖像和標(biāo)簽之間的3種關(guān)系，即圖像-圖像、標(biāo)簽-標(biāo)簽、圖像-標(biāo)簽.本文通過視覺和語義互學(xué)習(xí)考慮這3種關(guān)系，給出相關(guān)定義.

2.1 圖像-圖像相似度度量

僅依據(jù)視覺特征搜索近鄰圖像的標(biāo)簽完備方法[3，6，14]忽略了圖像高層語義的相關(guān)性，尋找的近鄰圖像代表性不高.為提高圖像完備標(biāo)注的精度，本文綜合考慮圖像之間的視覺相似度和圖像語義相關(guān)度以更精確地度量圖像間的相似度.

定義1.圖像視覺相似度Sv(Xi，Xj).SIFT特征是圖像標(biāo)簽完備方法常用的圖像視覺特征.在度量圖像視覺相似性時(shí)，為更好地計(jì)算圖像視覺相似性和便于實(shí)驗(yàn)對(duì)比，本文采用文獻(xiàn)[3]的1000維SIFT詞包特征，使用歐氏距離來計(jì)算圖像的視覺相似性.距離越小，說明兩幅圖像越相似.圖像之間的視覺距離定義如式(1)所示：

dist(Xi，Xj)=‖Di-Dj‖2

(1)

式中，Di和Dj分別是圖像Xi和Xj歸一化的SIFT 視覺特征向量.根據(jù)上述視覺距離，兩幅圖像之間的視覺相似性定義如式(2)所示：

Sv(Xi，Xj)=exp(-dist(Xi，Xj))

(2)

定義2.圖像語義相關(guān)度St(Xi，Xj).圖像的內(nèi)容越接近，圖像共有的標(biāo)簽越多.用戶提供的初始標(biāo)簽在一定程度上可以反映一幅圖像的語義內(nèi)容.因此，通過考慮圖像之間標(biāo)簽的語義相關(guān)度來考慮圖像之間的語義相關(guān)度.但以往的文獻(xiàn)很少充分地利用現(xiàn)有有效的概念相似度方法度量圖像的標(biāo)簽語義距離.本文基于初始標(biāo)簽向量，采用文獻(xiàn)[15]中的規(guī)范化Google 距離來度量標(biāo)簽之間的語義距離.標(biāo)簽之間的語義距離定義如式(3)所示：

(3)

式中，f(t1)、f(t2)和f(t1，t2)分別表示包含標(biāo)簽t1、t2、t1和t2的圖像數(shù)，G表示數(shù)據(jù)集中的圖像總數(shù).根據(jù)兩個(gè)標(biāo)簽之間的語義距離，兩幅圖像之間的語義相關(guān)度定義見式(4)：

(4)

式中，TXi和TXj分別表示圖像Xi和Xj對(duì)應(yīng)的初始標(biāo)簽集合.

2.2 標(biāo)簽-標(biāo)簽相似度度量

在考慮標(biāo)簽與標(biāo)簽之間的關(guān)系時(shí)，傳統(tǒng)的方法有WordNet[16]和歸一化的Google距離[17].但是，這兩種方法只是基于文本描述建立標(biāo)簽相關(guān)性，沒有考慮包含該標(biāo)簽圖像的視覺信息，導(dǎo)致在圖像標(biāo)簽完備過程中出現(xiàn)多義詞和同義詞.因此，利用包含標(biāo)簽的圖像的視覺信息可以更好地度量標(biāo)簽與標(biāo)簽之間的關(guān)系.

定義3.標(biāo)簽視覺內(nèi)容相似性rel_v(t，t′).在待完備圖像x的近鄰圖像集合中，將含有標(biāo)簽t和t′的近鄰圖像作為標(biāo)簽t和t′的樣本，考慮樣本圖像之間的平均視覺相似性，作為標(biāo)簽t和t′的視覺內(nèi)容相似性.標(biāo)簽之間的視覺內(nèi)容相似性定義如式(5)所示：

(5)

式中，Xt和Xt′分別表示含有標(biāo)簽t和t′的近鄰圖像集合，|Xt|和|Xt′|是它們集合的大小，xt和xt′分別表示含有標(biāo)簽t和t′的圖像，dist(xt，xt′)是通過公式(1)得到的圖像xt和xt′視覺特征的歐氏距離.

標(biāo)簽之間是相互依賴存在的.例如，標(biāo)簽“beach”和“sea”，這對(duì)標(biāo)簽同時(shí)用來描述一幅圖像視覺內(nèi)容的概率很高.如果某幅圖像存在標(biāo)簽“sea”，則可以根據(jù)標(biāo)簽之間的相關(guān)性，將標(biāo)簽“beach”補(bǔ)給這幅圖像，進(jìn)而達(dá)到完備圖像標(biāo)簽的目的.

定義4.標(biāo)簽語義相關(guān)性rel_s(t，t′).利用標(biāo)簽共現(xiàn)頻率可以更加準(zhǔn)確地挖掘標(biāo)簽之間的關(guān)聯(lián)性.標(biāo)簽的共現(xiàn)頻率定義如式(6)所示：

(6)

式中，count(t，t′)表示在整個(gè)數(shù)據(jù)集中，同時(shí)含有標(biāo)簽t和t′的圖像數(shù)，count(t)表示在整個(gè)數(shù)據(jù)集中含有標(biāo)簽t的圖像數(shù).

2.3 標(biāo)簽-圖像關(guān)聯(lián)度度量

構(gòu)建候選標(biāo)簽與待完備圖像之間的關(guān)聯(lián)關(guān)系是篩選候選標(biāo)簽的關(guān)鍵，影響著標(biāo)簽完備的結(jié)果.本文給出的MLVS方法通過考慮候選標(biāo)簽與初始標(biāo)簽關(guān)系來考慮候選標(biāo)簽與待完備圖像的關(guān)系.

定義5.標(biāo)簽-圖像視覺內(nèi)容相關(guān)度rel1(x，t).根據(jù)定義3，取候選標(biāo)簽與待完備圖像初始標(biāo)簽最大的視覺內(nèi)容相似性，作為候選標(biāo)簽與待完備圖像的視覺內(nèi)容相關(guān)度.相關(guān)定義如式(7)所示：

rel1(x，t)=max(rel_v(ti，t))

(7)

式中，ti是待完備圖像x含有的初始標(biāo)簽；t是待完備圖像x的候選標(biāo)簽，rel_v(ti，t)是表示標(biāo)簽ti和標(biāo)簽t的視覺內(nèi)容相似性.

定義6.標(biāo)簽-圖像語義相關(guān)度rel2(x，t).同定義5，本文取候選標(biāo)簽與待完備圖像的初始標(biāo)簽最大的語義相關(guān)性，作為候選標(biāo)簽與待完備圖像的語義相關(guān)度.相關(guān)定義見式(8)：

rel2(x，t)=max(rel_s(ti，t))

(8)

式中，ti是待完備圖像x含有的初始標(biāo)簽；t是x的候選標(biāo)簽，rel_s(ti，t)是表示標(biāo)簽ti和標(biāo)簽t的語義相關(guān)性，根據(jù)定義4，依據(jù)式(6)計(jì)算得出.

3 基于MLVS的圖像標(biāo)簽完備

基于MLVS的標(biāo)簽完備方法通過待完備圖像的視覺和初始標(biāo)簽語義相互學(xué)習(xí)，得到候選標(biāo)簽，然后從候選標(biāo)簽和初始標(biāo)簽的視覺和語義出發(fā)，豐富待完備圖像的標(biāo)簽，框架如圖1所示.

圖1 基于MLVS的標(biāo)簽完備方法Fig.1 Tag completion annotation based on mutual learning using visual and semantic

3.1 圖像近鄰搜索

為有效度量待完備圖像與其近鄰圖像的相似度，以尋找待完備圖像的高質(zhì)量近鄰圖像，我們?nèi)诤蠄D像視覺相似度和語義相關(guān)度，兩幅圖像的相似度如式(9)所示：

S(Xi，Xj)=α×Sv(Xi，Xj)+(1-α)×St(Xi，Xj)

(9)

式中，Sv(Xi，Xj)是根據(jù)定義1得到的圖像Xi和Xj的視覺相似度；St(Xi，Xj)是根據(jù)定義2得出的Xi和Xj的語義相關(guān)度；S(Xi，Xj)是兩幅圖像最終的相似度，其值越大，兩幅圖像越相似；α是權(quán)重系數(shù)，其值依據(jù)實(shí)驗(yàn)分析設(shè)定.

根據(jù)公式(9)，我們度量待完備圖像與數(shù)據(jù)集中每幅圖像的相似度，搜索其β近鄰，獲取候選標(biāo)簽集.β是近鄰圖像個(gè)數(shù)，其值依據(jù)實(shí)驗(yàn)分析設(shè)定.

3.2 度量候選標(biāo)簽與待完備圖像關(guān)聯(lián)度

在圖像標(biāo)注過程中，綜合考慮候選標(biāo)簽與待完備圖像初始標(biāo)簽之間的視覺內(nèi)容相似性以及語義相關(guān)性，可以避免多義詞和同義詞現(xiàn)象.MLVS方法依據(jù)定義5和定義6，由候選標(biāo)簽與初始標(biāo)簽的視覺內(nèi)容相似性和語義相關(guān)性得到候選標(biāo)簽與待完備圖像的視覺內(nèi)容相關(guān)度和語義相關(guān)度.因此，為更好地豐富圖像的語義內(nèi)容，將候選標(biāo)簽與待完備圖像的視覺內(nèi)容相關(guān)度和語義相關(guān)度進(jìn)行融合.候選標(biāo)簽與待完備圖像的關(guān)聯(lián)度定義如式(10)所示：

rel(Xi，Tj)=γ×rel1(Xi，Tj)+
(1-γ)×rel2(Xi，Tj)

(10)

式中，T是待完備圖像Xi的候選標(biāo)簽集；rel1(Xi，Tj)是候選標(biāo)簽Tj與Xi的視覺內(nèi)容相關(guān)度，根據(jù)定義5得出；rel2(Xi，Tj)是Tj與Xi的語義相關(guān)度，由定義6得出；γ是權(quán)重系數(shù)，其值依據(jù)實(shí)驗(yàn)分析設(shè)定.

根據(jù)定義3、定義4、定義5和定義6，依據(jù)公式(10)，計(jì)算3.1節(jié)中得到的每個(gè)候選標(biāo)簽與待完備圖像的關(guān)聯(lián)度.

3.3 關(guān)聯(lián)度優(yōu)化及標(biāo)簽預(yù)測(cè)

候選標(biāo)簽在待完備圖像的近鄰集中出現(xiàn)頻率越高，越有可能是待完備圖像的缺失標(biāo)簽.因此，候選標(biāo)簽頻率也是計(jì)算候選標(biāo)簽與待完備圖像相關(guān)性的指標(biāo)之一.每個(gè)候選標(biāo)簽與待完備圖像最終的相關(guān)性分?jǐn)?shù)如式(11)所示：

(11)

其中，rel(Xi，Tj)是候選標(biāo)簽Tj與待完備圖像Xi的關(guān)聯(lián)度；count(Tj)是Xi的近鄰圖像集中包含Tj的近鄰圖像數(shù)；β是指Xi的近鄰集合大小，由3.1節(jié)給出.

結(jié)合標(biāo)簽頻率，依據(jù)公式(11)，計(jì)算每個(gè)候選標(biāo)簽與待完備圖像的相關(guān)性分?jǐn)?shù).之后，將所有候選標(biāo)簽的相關(guān)性概率值降序排序，保留前幾個(gè)排名高的候選標(biāo)簽作為待完備圖像的缺少標(biāo)簽.

3.4 MLVS算法描述

輸入：圖像集合I={I1，I2，…，In}，初始標(biāo)簽集合T={T1，T2，…，Tn}，特征矩陣X以及參數(shù)α、β和γ.

輸出：待完備圖像Ii的缺失標(biāo)簽.

Step 1.搜索圖像近鄰.基于視覺特征和初始標(biāo)簽語義，經(jīng)式(9)融合視覺相似度Sv(Ii，Ij)和語義相關(guān)度St(Ii，Ij)，獲取Ii的β近鄰圖像集合NS和候選標(biāo)簽集.

Step 2.度量候選標(biāo)簽與待完備圖像關(guān)聯(lián)度.在NS中，對(duì)每一個(gè)候選標(biāo)簽t，通過式(7)計(jì)算t與Ii的視覺內(nèi)容相關(guān)度rel1(Ii，t)；根據(jù)式(8)計(jì)算t與Ii的語義相關(guān)度rel2(Ii，t)，利用式(10)計(jì)算候選標(biāo)簽與待完備圖像關(guān)聯(lián)度.

Step 3.關(guān)聯(lián)度優(yōu)化及標(biāo)簽預(yù)測(cè).通過式(11)優(yōu)化候選標(biāo)簽與待完備圖像的關(guān)聯(lián)度，對(duì)優(yōu)化后的關(guān)聯(lián)度排序并將高排名相應(yīng)的候選標(biāo)簽作為Ii的缺失標(biāo)簽進(jìn)行完備.

4 實(shí)驗(yàn)及分析

本文在Corel5K以及Flickr30Concepts數(shù)據(jù)集上分別進(jìn)行了對(duì)比實(shí)驗(yàn).

4.1 數(shù)據(jù)集處理

為構(gòu)造一個(gè)不完備的數(shù)據(jù)環(huán)境并便于對(duì)比，我們對(duì)數(shù)據(jù)集Corel5K和Flickr30Concepts進(jìn)行與文獻(xiàn)[5]相同的處理，隨機(jī)刪除每幅圖像40%的標(biāo)簽.同時(shí)，為確保每幅圖像至少刪除一個(gè)標(biāo)簽并保留一個(gè)標(biāo)簽，本文刪除數(shù)據(jù)集中只有一個(gè)標(biāo)簽的圖像.進(jìn)行了8次實(shí)驗(yàn)，計(jì)算8次實(shí)驗(yàn)結(jié)果的平均值，作為最終的實(shí)驗(yàn)結(jié)果.實(shí)驗(yàn)相關(guān)數(shù)據(jù)集的具體介紹如表1所示.

表1 數(shù)據(jù)集信息Table 1 Dataset information

4.2 評(píng)估指標(biāo)

實(shí)驗(yàn)中，本文采用3個(gè)評(píng)估指標(biāo)，即平均準(zhǔn)確率(average precision@N，AP@N)，平均召回率(average recall@N，AR@N)以及覆蓋率(coverage@N，C@N).其中，AP@N 是指每幅測(cè)試圖像準(zhǔn)確找回的缺失標(biāo)簽數(shù)量與實(shí)際找回的缺失標(biāo)簽數(shù)量的比值；AR@N是指每幅圖像準(zhǔn)確找回的缺失標(biāo)簽數(shù)量與圖像本身缺失標(biāo)簽數(shù)量的比值；C@N 是指測(cè)試集中至少有一個(gè)標(biāo)簽被正確找回的圖像數(shù)量與整個(gè)測(cè)試集圖像數(shù)量的比值.所有評(píng)估指標(biāo)的定義如下：

式中，m為待完備圖像的數(shù)量；NL為找回的缺失標(biāo)簽數(shù)量；Ncl(i)為第i幅圖像正確找回的缺失標(biāo)簽數(shù)量；Ntm為第i幅圖像真正缺失的標(biāo)簽數(shù)量；f(·)為一個(gè)條件函數(shù)，當(dāng)條件滿足時(shí)返回1，否則，返回0.

4.3 參數(shù)分析

本文方法中用到了3個(gè)參數(shù)α、β和γ，α和γ是權(quán)重系數(shù)，為區(qū)間[0，1]之間的數(shù)，β是近鄰圖像數(shù).本節(jié)，在Corel5K數(shù)據(jù)集上，通過實(shí)驗(yàn)法對(duì)它們進(jìn)行分析設(shè)置.

參數(shù)α是融合圖像視覺特征相似度和初始語義相關(guān)度的權(quán)重，我們通過尋找其最佳值，來提高待完備圖像的近鄰圖像質(zhì)量，圖2對(duì)參數(shù)α進(jìn)行了分析.從圖2可知，隨著α的逐漸增大，所提出方法的性能越來越好，并在α=0.9時(shí)達(dá)到峰值，之后，它的性能開始下降.因此，本文設(shè)置參數(shù)α=0.9.

圖2 評(píng)估指標(biāo)隨參數(shù)α的變化Fig.2 Change of evaluation index with parameter α

參數(shù)β是待完備圖像的近鄰圖像數(shù)量，尋找待完備圖像合適的近鄰數(shù)，可以更好地完備圖像的缺失標(biāo)簽.圖3展示了評(píng)估指標(biāo)隨β的變化，從中可以看到，3個(gè)評(píng)估指標(biāo)曲線大體上均是先上升，后下降，最后趨于平穩(wěn)的趨勢(shì).并且，評(píng)估指標(biāo)在β=50的時(shí)候，達(dá)到峰值，因此，β設(shè)置為50.

圖3 評(píng)估指標(biāo)隨參數(shù)β的變化Fig.3 Change of evaluation index with parameter β

參數(shù)γ是在度量候選標(biāo)簽與待完備圖像之間的關(guān)系時(shí)，用于平衡標(biāo)簽與圖像的視覺內(nèi)容相關(guān)度和語義相關(guān)度的權(quán)重.同樣，我們通過尋找其最優(yōu)值，來提升候選標(biāo)簽的精確度.由圖4可見，隨著γ的增加，評(píng)估指標(biāo)曲線有著程度較小的波動(dòng)，雖然變化不太顯著，但是大體上呈現(xiàn)先上升后下降的趨勢(shì)，并在γ=0.1時(shí)，3個(gè)評(píng)估指標(biāo)均達(dá)到最大值.因此，通過觀察實(shí)驗(yàn)結(jié)果，γ設(shè)置為0.1.

圖4 評(píng)估指標(biāo)隨參數(shù)γ的變化Fig.4 Change of evaluation index with parameter γ

綜上分析，本文方法中用到的3個(gè)參數(shù)α、β和γ，分別設(shè)置為0.9、50和0.1.

4.4 對(duì)比實(shí)驗(yàn)

為證明本文方法的有效性，將其與一些最具代表性的自動(dòng)圖像標(biāo)注方法和傳統(tǒng)的標(biāo)簽完備方法在Corel5K以及Flickr30Concepts上分別進(jìn)行了比較.實(shí)驗(yàn)對(duì)比結(jié)果如圖5和圖6所示.

圖5 基準(zhǔn)數(shù)據(jù)集Corel5K上的對(duì)比實(shí)驗(yàn)結(jié)果Fig.5 Comparative experimental results on Corel5k

圖6 真實(shí)數(shù)據(jù)集Flickr30Concepts上的對(duì)比實(shí)驗(yàn)結(jié)果Fig.6 Comparative experimental results on Flickr30Concepts

從兩幅對(duì)比結(jié)果圖可以看出，與傳統(tǒng)AIA(automatic image annotation)方法JEC[18]和2PKNN[19]相比，TagProp[20]的總體性能最好.在最近的標(biāo)簽完備方法中，比如TMC[2]和LSR[3]，這些方法能夠利用初始標(biāo)簽的信息，因此其標(biāo)注性能又優(yōu)于大多數(shù)AIA方法.由圖5可以看出，在Corel5K數(shù)據(jù)集上，本文方法明顯優(yōu)于其他方法.本文方法在AP@N、AR@N和C@N上分別達(dá)到30%、44%和54%，與標(biāo)簽完備方法TMC[2]相比，本文方法通過候選標(biāo)簽與初始標(biāo)簽的視覺和語義互學(xué)習(xí)構(gòu)建候選標(biāo)簽與待完備圖像的關(guān)系，有效去除噪聲標(biāo)簽，AP@N提高了7%，AR@N提高了11%，C@N提高了14%.相比于標(biāo)簽完備性能較好的線性稀疏重建方法LSR[3]和DLSR[4]以及LRSDO方法[5]，本文方法利用有效的概念相似度方法Google距離，而不是僅基于待完備圖像與近鄰圖像的標(biāo)簽一致[5]考慮圖像語義相關(guān)度，更好地提升了近鄰圖像的質(zhì)量；同時(shí)，根據(jù)標(biāo)簽之間視覺內(nèi)容和語義互學(xué)習(xí)，優(yōu)化了候選標(biāo)簽.與LRSDO方法[5]相比，AP@N提高了5%，AR@N提高了13%，C@N提高了10%.與LSR方法[3]和DLSR方法[4]相比，AP@N均提高了2%，AR@N均提高了2%，C@N均提高了4%.而由圖6可知，在Flickr30Concepts數(shù)據(jù)集上，本文方法與TMC方法[2]相比，3個(gè)指標(biāo)都有所提升；與使用歐氏距離考慮圖像初始標(biāo)簽的LRSDO方法[5]相比，本文方法的平均準(zhǔn)確率和平均召回率有所提升，覆蓋率一致；本文方法與標(biāo)簽完備效果較優(yōu)的DLSR方法[4]相比較，雖然平均準(zhǔn)確率和覆蓋率相差不大，但基于視覺和語義互學(xué)習(xí)更好地構(gòu)建了圖像與標(biāo)簽之間的關(guān)系比DLSR模型的平均召回率提高了5%，有一定的改進(jìn)效果.

最后，從以上分析可見，對(duì)于基準(zhǔn)數(shù)據(jù)集Corel5K和真實(shí)數(shù)據(jù)集Flickr30Concepts，本文所提出的標(biāo)簽完備方法都優(yōu)于以前的方法，這表明了我們方法的有效性.同時(shí)，從這兩個(gè)數(shù)據(jù)集的標(biāo)注性能結(jié)果來看，本文方法在這兩個(gè)數(shù)據(jù)集上的準(zhǔn)確率相同，Corel5K數(shù)據(jù)集上的召回率稍微高于Flickr30Concepts數(shù)據(jù)集，而Flickr30Concepts數(shù)據(jù)集上的覆蓋率較高于Corel5K數(shù)據(jù)集.因此，本文方法既適用于真實(shí)圖像數(shù)據(jù)又適用于基準(zhǔn)圖像數(shù)據(jù).

圖7 有無噪聲標(biāo)簽的Corel5K數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果Fig.7 Experimental results on Corel5k dataset with or without noise labels

4.5 魯棒性檢測(cè)

為驗(yàn)證本文方法的魯棒性，我們把注意力從標(biāo)注良好的專家標(biāo)簽轉(zhuǎn)向了有噪聲的用戶標(biāo)簽.由于本文方法最初便在基準(zhǔn)數(shù)據(jù)集Corel5K以及真實(shí)數(shù)據(jù)集Flickr30Concepts進(jìn)行了對(duì)比實(shí)驗(yàn)，因此進(jìn)行魯棒性檢測(cè)實(shí)驗(yàn)時(shí)，只需對(duì)Corel5K數(shù)據(jù)集進(jìn)行噪聲處理并重復(fù)3.4節(jié)的算法實(shí)驗(yàn).我們認(rèn)為當(dāng)在經(jīng)過噪聲處理的數(shù)據(jù)集實(shí)驗(yàn)結(jié)果與無噪聲數(shù)據(jù)集實(shí)驗(yàn)結(jié)果一致或相差較小時(shí)，本文方法具有很強(qiáng)的魯棒性.為此，隨機(jī)選取10%、20%、30%、40%、50%的Corel5K數(shù)據(jù)集圖像，并對(duì)其中每幅圖像，隨機(jī)刪除一個(gè)已有標(biāo)簽和補(bǔ)全一個(gè)錯(cuò)誤標(biāo)簽.為避免實(shí)驗(yàn)結(jié)果的偶然性，進(jìn)行8次實(shí)驗(yàn)，取8次實(shí)驗(yàn)的平均值作為最終的實(shí)驗(yàn)結(jié)果.為說明本文方法的有效性，將在含有噪聲標(biāo)簽的Corel5K數(shù)據(jù)集上的本文方法結(jié)果和在不含有噪聲標(biāo)簽的Corel5K數(shù)據(jù)集上的其他標(biāo)簽完備方法結(jié)果進(jìn)行對(duì)比.圖7展示了本文方法在有噪聲和無噪聲的Corel5K數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果.圖8展示了在無噪聲標(biāo)簽的Corel5K數(shù)據(jù)集中，其他標(biāo)簽完備方法實(shí)驗(yàn)結(jié)果和有噪聲標(biāo)簽的Corel5K數(shù)據(jù)集中，本文方法實(shí)驗(yàn)結(jié)果.

圖8 有噪聲標(biāo)簽的Corel5K數(shù)據(jù)集的對(duì)比實(shí)驗(yàn)結(jié)果Fig.8 Comparative experiment results on the Corel5K dataset with noisy labels

從圖7中可以看到，隨著Corel5K數(shù)據(jù)集噪聲數(shù)據(jù)的增加，3個(gè)評(píng)估指標(biāo)曲線均出現(xiàn)緩慢下降的趨勢(shì)，這是合乎常理的.本文方法在尋找待完備圖像的近鄰圖像時(shí)，考慮了初始語義.因此，初始語義的質(zhì)量對(duì)待完備圖像的近鄰圖像質(zhì)量有一定的影響，進(jìn)而影響到后續(xù)的標(biāo)簽完備結(jié)果.在圖7中，可以看出這種影響并不大.3個(gè)指標(biāo)中，平均準(zhǔn)確率和覆蓋率變化都相對(duì)平緩，平均召回率變化相對(duì)明顯.

圖8中，LSR 方法[3]、DLSR 方法[4]以及LRSDO方法[5]是近年來，標(biāo)注完備性能較好的標(biāo)簽完備方法.圖中顯示的LSR方法[3]、DLSR 方法[4]、LRSDO 方法[5]以及本文方法實(shí)驗(yàn)結(jié)果是在沒有進(jìn)行噪聲處理的Corel5K數(shù)據(jù)集上獲取的.10%數(shù)據(jù)噪聲柱、20%數(shù)據(jù)噪聲柱以及30%數(shù)據(jù)噪聲柱對(duì)應(yīng)的結(jié)果分別是本文方法在10%含有噪聲標(biāo)簽的Corel5K數(shù)據(jù)集、20%含有噪聲標(biāo)簽的Corel5K數(shù)據(jù)集和30%含有噪聲標(biāo)簽的Corel5K數(shù)據(jù)集上獲取的.從圖8中可以看出，在10%含有噪聲標(biāo)簽的Corel5K數(shù)據(jù)集上，本文方法依舊優(yōu)于其他標(biāo)簽完備方法；在20%含有噪聲標(biāo)簽的Corel5K數(shù)據(jù)集上，本文方法的平均準(zhǔn)確率和覆蓋率優(yōu)于其他標(biāo)簽完備方法，而平均召回率略低于它們；而在30%含有噪聲標(biāo)簽的Corel5K數(shù)據(jù)集上，本文方法的平均準(zhǔn)確率和較好的DLSR方法一致，平均召回率低于DLSR方法6%，覆蓋率低于DLSR方法2%.可見，當(dāng)Corel5K數(shù)據(jù)集上含有20%的噪聲數(shù)據(jù)時(shí)，本文方法依舊有一定的優(yōu)越性.

5 結(jié)束語

本文提出了一種基于視覺和語義互學(xué)習(xí)的標(biāo)簽完備標(biāo)注方法，通過基于視覺和語義的兩次互相學(xué)習(xí)，有效地實(shí)現(xiàn)了圖像標(biāo)簽完備標(biāo)注.第1次融合待完備圖像視覺特征和初始語義搜索其近鄰圖像集，提升了近鄰圖像集的質(zhì)量；第2次依據(jù)候選標(biāo)簽與初始標(biāo)簽的視覺內(nèi)容和語義，并結(jié)合標(biāo)簽頻率進(jìn)一步考慮候選標(biāo)簽與待完備圖像之間的關(guān)聯(lián)關(guān)系，有效地對(duì)候選標(biāo)簽進(jìn)行了去噪優(yōu)化.在基準(zhǔn)數(shù)據(jù)集Corel5K以及真實(shí)數(shù)據(jù)集Flickr30Concepts上進(jìn)行實(shí)驗(yàn)，證明了本文方法標(biāo)簽完備標(biāo)注的性能.下一步的研究工作主要是利用視覺特征聚類劃分待完備圖像初始標(biāo)簽語義優(yōu)先級(jí)，去除初始噪聲標(biāo)簽，更好地提高近鄰圖像質(zhì)量，進(jìn)一步提升圖像標(biāo)簽完備標(biāo)注精度.