亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        跨模態(tài)檢索中的相似性漂移問(wèn)題*

        2021-10-10 04:35:50鄭奇斌刁興春王彥臻曹建軍
        關(guān)鍵詞:覆蓋率鄰域相似性

        鄭奇斌,刁興春,王彥臻,曹建軍,劉 藝,秦 偉

        (1. 陸軍工程大學(xué) 指揮控制工程學(xué)院, 江蘇 南京 210007; 2. 軍事科學(xué)院, 北京 100089;3. 軍事科學(xué)院 國(guó)防科技創(chuàng)新研究院, 北京 100071; 4. 天津(濱海)人工智能創(chuàng)新中心, 天津 300450;5. 國(guó)防科技大學(xué) 第六十三研究所, 江蘇 南京 210007)

        隨著多媒體、互聯(lián)網(wǎng)和大數(shù)據(jù)等技術(shù)的迅速發(fā)展,文本、圖像等不同模態(tài)的數(shù)據(jù)迅速涌現(xiàn)[1]。不同模態(tài)的數(shù)據(jù)結(jié)合在一起,顯示出較單模態(tài)數(shù)據(jù)更加豐富的自然和社會(huì)屬性[2]。而近年來(lái)機(jī)器學(xué)習(xí)等技術(shù)的發(fā)展使得綜合利用多模態(tài)數(shù)據(jù)成為可能,特別是得益于深度學(xué)習(xí)技術(shù)的發(fā)展,跨模態(tài)檢索[3]、視覺(jué)問(wèn)答[4]、跨模態(tài)推理[5]等多模態(tài)應(yīng)用取得了巨大的進(jìn)步。

        跨模態(tài)檢索旨在發(fā)現(xiàn)不同模態(tài)(除少數(shù)工作,如文獻(xiàn)[6]涉及兩種以上模態(tài)的數(shù)據(jù),大部分研究都聚焦于文本和圖像兩種模態(tài))數(shù)據(jù)對(duì)象間的相似關(guān)系,例如通過(guò)文本描述檢索具有相似語(yǔ)義的圖像,或通過(guò)圖像檢索具有相似語(yǔ)義的文本[7]。由于不同模態(tài)數(shù)據(jù)的表征是異構(gòu)的,其相似度難以直接計(jì)算,通常需要將文本、圖像等數(shù)據(jù)映射到目標(biāo)表示空間或一個(gè)公共表示空間中[2-3]。現(xiàn)有研究通過(guò)典型相關(guān)分析[7-11]、主題模型[12-14]、稀疏表示[15-16]等方法實(shí)現(xiàn)跨模態(tài)映射,而近年來(lái)基于深度學(xué)習(xí)的方法[6, 17-22]由于其優(yōu)異的性能成了主流。

        盡管以上方法各不相同,但其中采用的映射函數(shù)形式幾乎是線性變換或深度神經(jīng)網(wǎng)絡(luò),并通過(guò)相應(yīng)的損失函數(shù)學(xué)習(xí)其具體參數(shù)。其中,最常見(jiàn)的損失函數(shù)是最大邊界損失[17, 23],此外還有對(duì)抗型損失[24]、最大似然估計(jì)損失[25]等。這些損失函數(shù)的目的是使跨模態(tài)映射函數(shù)能夠同時(shí)保持對(duì)象的模態(tài)內(nèi)和模態(tài)間近鄰關(guān)系。然而實(shí)際中由于訓(xùn)練數(shù)據(jù)不足等原因,并不能保證學(xué)習(xí)到的映射函數(shù)可以完全跨越模態(tài)間的障礙。Collell和Moens[26]對(duì)線性變換和深度神經(jīng)網(wǎng)絡(luò)的跨模態(tài)映射能力進(jìn)行測(cè)試,發(fā)現(xiàn)其對(duì)模態(tài)內(nèi)近鄰關(guān)系的保持較好,而對(duì)模態(tài)間近鄰關(guān)系的保持存在缺陷。

        在此基礎(chǔ)上,本文發(fā)現(xiàn)常見(jiàn)跨模態(tài)函數(shù)存在“相似性漂移”問(wèn)題——映射函數(shù)對(duì)模態(tài)間近鄰關(guān)系的保持能力與鄰域的大小相關(guān),在較小的鄰域內(nèi)近鄰結(jié)構(gòu)與真實(shí)近鄰保持一致;而當(dāng)鄰域變大時(shí),映射函數(shù)的近鄰保持能力迅速降低?!跋嗨菩云啤眴?wèn)題的存在會(huì)增大跨模態(tài)檢索中誤匹配的概率,降低其準(zhǔn)確性。為了降低其影響,本文提出了一種基于“鄰域傳播”的匹配策略——通過(guò)樣本的模態(tài)內(nèi)近鄰替代它自身,在映射空間中的較小鄰域中進(jìn)行跨模態(tài)相似樣本的匹配。

        本文首先介紹常見(jiàn)的跨模態(tài)映射函數(shù),并引出其“相似性漂移”問(wèn)題;然后,提出基于“鄰域傳播”的匹配策略,在不改變跨模態(tài)映射函數(shù)的條件下,降低“相似性漂移”問(wèn)題對(duì)跨模態(tài)檢索精度的影響;最后,通過(guò)在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)分析,對(duì)“相似性漂移”問(wèn)題的存在性以及匹配策略的有效性進(jìn)行驗(yàn)證。

        1 映射函數(shù)與“相似性漂移”問(wèn)題

        跨模態(tài)檢索任務(wù)是找到待查詢對(duì)象xi∈X在目標(biāo)集合的跨模態(tài)近鄰yi∈Y,為計(jì)算任意跨模態(tài)對(duì)象間的相似度,可以通過(guò)映射函數(shù)f:X→Y或g:Y→X將源對(duì)象映射到目標(biāo)對(duì)象的表示空間[7]。構(gòu)建跨模態(tài)映射函數(shù)的過(guò)程中,通常需要f和g能夠同時(shí)保持對(duì)象的模態(tài)內(nèi)近鄰關(guān)系和模態(tài)間近鄰關(guān)系。以f為例,為了在目標(biāo)空間中保持模態(tài)間近鄰關(guān)系,對(duì)任意xi∈X和yi∈Y,映射f需要滿足:

        (1)

        式(1)表示如果不同模態(tài)的樣本xi和yi相似,則通過(guò)f將xi映射到Y(jié)中后,f(xi)和yi的距離應(yīng)小于δ。

        同時(shí),為了保持模態(tài)內(nèi)對(duì)象的近鄰關(guān)系,映射f還需要保持X的模態(tài)內(nèi)近鄰關(guān)系:

        (2)

        式(2)表示如果同模態(tài)對(duì)象在原始表示空間中距離較小,在映射后它們的距離仍然要保持足夠?。环粗?,如果同模態(tài)對(duì)象在原始表示空間中差異較大,在映射后它們的距離仍然要保持足夠大。由式(2)可以進(jìn)一步導(dǎo)出:

        (3)

        式(3)說(shuō)明為了保持模態(tài)內(nèi)關(guān)系,f必須為L(zhǎng)ipschitz連續(xù)的,其中KX> 0為L(zhǎng)ipschitz常數(shù)?,F(xiàn)有研究中最常用的線性變換

        f(x)=W0x+b0

        (4)

        以及深度神經(jīng)網(wǎng)絡(luò)

        f(x)=W1σ(W0x+b0)+b1

        (5)

        都滿足上述條件。其中,W0和W1為線性映射矩陣,b0和b1為偏置,σ為非線性映射函數(shù)。為了使映射f能保持對(duì)象間的近鄰關(guān)系,實(shí)際中經(jīng)常通過(guò)最小化最大邊界損失(max-margin loss)[17]來(lái)學(xué)習(xí)f:

        (6)

        其中:θ為邊界;x,y為相似的樣本對(duì);x′,y為不相似樣本對(duì)。

        盡管深度神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的學(xué)習(xí)能力,但是因?yàn)橛?xùn)練數(shù)據(jù)不足等原因,想要在跨模態(tài)映射中“完美”地保持模態(tài)內(nèi)近鄰關(guān)系和模態(tài)間近鄰關(guān)系并非容易。Collell和Moens[26]通過(guò)在不同多模態(tài)數(shù)據(jù)集上的實(shí)驗(yàn)證明,盡管現(xiàn)有方法都致力于在跨模態(tài)映射中保持樣本的近鄰關(guān)系,但是最終學(xué)習(xí)到的映射函數(shù)并不能很好地保持樣本的模態(tài)間近鄰關(guān)系:主流的線性變換和深度神經(jīng)網(wǎng)絡(luò)更傾向于保持模態(tài)內(nèi)近鄰關(guān)系,而對(duì)模態(tài)間近鄰關(guān)系的保持較差。因此,相似的跨模態(tài)樣本經(jīng)過(guò)映射后不一定保持靠近,而不相似的跨模態(tài)樣本卻可能接近,從而導(dǎo)致檢索的準(zhǔn)確率下降。

        Collell和Moens[26]提出平均近鄰覆蓋率(mean Nearest Neighbor Overlap,mNNO)來(lái)度量跨模態(tài)映射對(duì)近鄰關(guān)系的保持能力,給定兩個(gè)一一配對(duì)的對(duì)象集合V和Z,mNNO定義為:

        (7)

        其中,索引相同的vi∈V及zi∈Z為匹配的對(duì)象,N為數(shù)據(jù)集V和Z的對(duì)象總數(shù),NNK(vi)和NNK(zi)分別為vi和zi的K近鄰對(duì)象索引集合。mNNO通過(guò)計(jì)算映射前后對(duì)象的平均K近鄰結(jié)構(gòu)覆蓋率來(lái)度量映射f對(duì)近鄰結(jié)構(gòu)的保持能力,mNNO(X,f(X))表示模態(tài)內(nèi)近鄰覆蓋率,mNNO(Y,f(X))表示模態(tài)間近鄰覆蓋率。mNNO越高,則通過(guò)f進(jìn)行映射后,匹配的準(zhǔn)確率也會(huì)越高。

        mNNO對(duì)不同粒度(由K值體現(xiàn))的近鄰覆蓋率取平均值,從整體上度量跨模態(tài)映射對(duì)近鄰關(guān)系的保持能力,而本文發(fā)現(xiàn)在不同的K值下,映射函數(shù)的模態(tài)間近鄰保持能力是變化的:當(dāng)K較小時(shí),樣本在映射空間中的跨模態(tài)近鄰和真實(shí)近鄰的覆蓋率較高;隨著K變大,跨模態(tài)近鄰覆蓋率迅速下降。本文將這種映射函數(shù)對(duì)模態(tài)間近鄰關(guān)系的保持能力隨鄰域變化的現(xiàn)象稱為“相似性漂移”,如圖1所示。

        圖1 相似性漂移問(wèn)題示意Fig.1 Illustration of similarity drifting

        圖1中展示的是xi在映射空間Y中的近鄰結(jié)構(gòu),其中圓點(diǎn)表示xi同模態(tài)近鄰在Y中的象,方形表示其跨模態(tài)近鄰,實(shí)心表示真匹配,空心表示誤匹配。由于映射函數(shù)的“相似性漂移”問(wèn)題,在映射空間中的同模態(tài)近鄰大部分為真匹配;而跨模態(tài)近鄰中誤匹配較多。此外,圖1中隨著鄰域δ的增大,發(fā)生誤匹配的概率逐漸變大。這是由于對(duì)象間的相似性經(jīng)過(guò)跨模態(tài)映射f后難以完全保持,并且其失真程度隨著相似性判定的粒度增長(zhǎng)(也就是鄰域的擴(kuò)大)而迅速升高。

        跨模態(tài)映射函數(shù)的“相似性漂移”問(wèn)題顯然會(huì)增大誤匹配發(fā)生的概率,并降低跨模態(tài)檢索的準(zhǔn)確性。

        2 基于鄰域傳播的匹配方法

        由于跨模態(tài)映射函數(shù)的“相似性漂移”問(wèn)題,映射空間中樣本的模態(tài)間近鄰關(guān)系難以保持。而相對(duì)模態(tài)間近鄰關(guān)系,包括線性變換和深度神經(jīng)網(wǎng)絡(luò)在內(nèi)的映射函數(shù)都可以較好地保持樣本的模態(tài)內(nèi)近鄰關(guān)系。此外,映射函數(shù)對(duì)模態(tài)間近鄰結(jié)構(gòu)的保持能力是隨著鄰域的增大而降低的,當(dāng)鄰域較小時(shí),映射函數(shù)可以較好地保持模態(tài)間的近鄰關(guān)系。因此,可以借助樣本xi同模態(tài)近鄰在映射空間的象,在其較小鄰域中進(jìn)行近鄰匹配,進(jìn)而降低“相似性漂移”造成的影響,得到更加準(zhǔn)確的匹配結(jié)果。綜合上述討論,本節(jié)提出一種基于“鄰域傳播”的匹配方法,其基本思想如圖2所示。

        圖2 基于鄰域傳播的匹配示意Fig.2 Illustration of neighbor-propagation matching

        不同于傳統(tǒng)方法直接通過(guò)f將xi映射到Y(jié)空間中后再進(jìn)行相似度匹配,圖2為了尋找樣本xi的跨模態(tài)相似樣本,首先通過(guò)給定的閾值τ在表征空間X中篩選同模態(tài)相似樣本;然后利用f將這些樣本投影到Y(jié)空間中,并在Y空間中這些樣本的鄰域內(nèi)進(jìn)行近鄰匹配,選擇每個(gè)樣本的最近鄰作為各自的跨模態(tài)相似樣本;最后將上述結(jié)果求并集,得到樣本xi的所有跨模態(tài)相似樣本。上述過(guò)程可以形式化為:

        (8)

        其中,yl∈Y為目標(biāo)項(xiàng)集中第l項(xiàng),s為相似度函數(shù)(本文中使用余弦相似度)。模態(tài)內(nèi)相似度閾值τ決定了匹配的粒度,本文中由用戶根據(jù)其對(duì)準(zhǔn)確率、召回率的偏好,以及數(shù)據(jù)的分布來(lái)決定。詳細(xì)步驟見(jiàn)算法1。

        算法1 鄰域傳播匹配

        首先,利用現(xiàn)有方法學(xué)習(xí)跨模態(tài)映射函數(shù)f(例如,通過(guò)式(6)中的最大邊界損失學(xué)習(xí)式(5)中的深度神經(jīng)網(wǎng)絡(luò)作為映射函數(shù)f);然后對(duì)每個(gè)待查詢對(duì)象qi,篩選所有相似度大于閾值τ的模態(tài)內(nèi)近鄰qj(j≠i),并利用學(xué)習(xí)到的函數(shù)f將其映射到目標(biāo)空間中后,選擇T中與qj的相似度最高的tj作為查詢對(duì)象的匹配對(duì)象,并將(qi,tj)加入匹配結(jié)果集合中。

        設(shè)|Q|=n,|T|=m不考慮步驟1中跨模態(tài)映射學(xué)習(xí)的復(fù)雜度,上述算法的復(fù)雜度為O(n2m)。其中,查詢集中共有n個(gè)待查詢項(xiàng);對(duì)每個(gè)待查詢項(xiàng),根據(jù)閾值τ過(guò)濾其近鄰的復(fù)雜度為n-1,相似度高于閾值的最多為n-1個(gè),而查詢每個(gè)近鄰在目標(biāo)項(xiàng)集中的最近鄰復(fù)雜度為m,則整個(gè)算法的復(fù)雜度為O(n×(n-1)×m)=O(n2m)。

        3 實(shí)驗(yàn)分析

        為了驗(yàn)證“相似性漂移”問(wèn)題以及基于鄰域傳播的匹配策略,本節(jié)在真實(shí)數(shù)據(jù)集上對(duì)二者進(jìn)行了實(shí)驗(yàn)分析。

        3.1 數(shù)據(jù)集和實(shí)驗(yàn)設(shè)置

        數(shù)據(jù)集及特征提取: IAPR TC-12[27],Wikipedia[7],訓(xùn)練集和測(cè)試集按照4 ∶1的比例劃分。其中,圖像的特征通過(guò)預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型VGG[28]提取,而文本的特征通過(guò)雙向門限循環(huán)單元網(wǎng)絡(luò)(Bi-directional Gated Recurrent Unit,Bi-GRU)[29]提取。

        跨模態(tài)映射:分別通過(guò)式(4)中的線性變換[21](記為L(zhǎng)inear),及式(5)中的前饋神經(jīng)網(wǎng)絡(luò)完成。與文獻(xiàn)[26]一樣,W0和W1的初始參數(shù)產(chǎn)生自均勻分布[-1,1],b0和b1初始化為0,非線性映射σ采用分別采用ReLU[20]、TanH[30]、Sigmoid[23]三種激活函數(shù),網(wǎng)絡(luò)的深度為五層。

        實(shí)驗(yàn)中主要驗(yàn)證兩個(gè)問(wèn)題:

        1)“相似性漂移”問(wèn)題驗(yàn)證:利用線性變換和深度神經(jīng)網(wǎng)絡(luò)對(duì)不同數(shù)據(jù)集上的文本和圖像數(shù)據(jù)進(jìn)行跨模態(tài)映射,通過(guò)計(jì)算不同鄰域的平均最近鄰覆蓋率[26],分析跨模態(tài)映射對(duì)模態(tài)間關(guān)系保持能力和相似性粒度之間的關(guān)系,驗(yàn)證“相似性漂移”問(wèn)題的存在。

        2)“文本-圖像”匹配方法驗(yàn)證:對(duì)相似性匹配方法在文本和圖像的雙向匹配任務(wù)中的表現(xiàn)進(jìn)行比較,驗(yàn)證鄰域傳播匹配的有效性。其中,直接通過(guò)對(duì)象自身相似度閾值進(jìn)行匹配的方法記為TH,本文提出的鄰域傳播匹配方法記為NP。

        通過(guò)線性變換和深度神經(jīng)網(wǎng)絡(luò)進(jìn)行跨模態(tài)映射,然后通過(guò)余弦相似度執(zhí)行文本到圖像以及圖像到文本的相似度計(jì)算和匹配,并通過(guò)準(zhǔn)確率(Precision)、召回率(Recall)指標(biāo)進(jìn)行對(duì)比:

        (9)

        (10)

        其中,TP指正匹配對(duì)象的數(shù)量,F(xiàn)P指誤匹配對(duì)象的數(shù)量,F(xiàn)N指未匹配到的正確對(duì)象數(shù)量。此外,為了更加直觀地體現(xiàn)方法間的性能差異,還計(jì)算了曲線的AUC(area under curve)值,也就是曲線與坐標(biāo)軸圍成的面積。

        3.2 最近鄰覆蓋率測(cè)試

        本節(jié)的實(shí)驗(yàn)中,分別測(cè)試在給定不同最近鄰參數(shù)K的條件下,線性變換(記為L(zhǎng)inear)和深度神經(jīng)網(wǎng)絡(luò)(同文獻(xiàn)[26],激活函數(shù)使用ReLU,記為NN)在跨模態(tài)映射中對(duì)模態(tài)內(nèi)關(guān)系(記為f(X),X)和模態(tài)間關(guān)系(記為f(X),Y)的保持能力,包括文本到圖像(記為I2T)以及圖像到文本(記為T2I)兩個(gè)方向,以余弦距離(記為Cos)和歐式距離(記為Euc)為相似性度量。兩個(gè)數(shù)據(jù)集上的平均最近鄰覆蓋率測(cè)試結(jié)果如圖3~6所示。

        (a) I2T_linear_Cos (b) I2T_NN_Cos

        圖3所示為Wikipedia數(shù)據(jù)集中圖像-文本的平均近鄰覆蓋率,經(jīng)過(guò)兩種跨模態(tài)映射后,圖像模態(tài)內(nèi)對(duì)象近鄰結(jié)構(gòu)覆蓋率較高,而圖像到文本的跨模態(tài)近鄰覆蓋率較低。此外,模態(tài)內(nèi)近鄰和模態(tài)間近鄰的覆蓋率隨著K的增大,呈現(xiàn)降低的趨勢(shì)。

        (a) T2I_linear_Cos (b) T2I_NN_Cos

        圖4所示為Wikipedia數(shù)據(jù)集上文本-圖像的平均近鄰覆蓋率結(jié)果。跨模態(tài)映射對(duì)Wikipedia數(shù)據(jù)集的文本數(shù)據(jù)的模態(tài)內(nèi)近鄰結(jié)構(gòu)保持能力更高(高于圖像數(shù)據(jù)約0.2)。此外,當(dāng)K=1時(shí),該數(shù)據(jù)集的模態(tài)內(nèi)和模態(tài)間的近鄰覆蓋率同樣保持最高,而隨著K的增大,模態(tài)間平均近鄰覆蓋率仍然隨之降低,但模態(tài)內(nèi)近鄰覆蓋率在降低之后有輕微回升。

        (a) I2T_linear_Cos (b) I2T_NN_Cos

        圖5為IAPR TC-12數(shù)據(jù)集中圖像-文本的平均近鄰覆蓋率,可以發(fā)現(xiàn),通過(guò)線性變換或者神經(jīng)網(wǎng)絡(luò)將圖像數(shù)據(jù)映射到共同空間中后,無(wú)論使用余弦距離還是歐式距離,兩種跨模態(tài)映射對(duì)模態(tài)內(nèi)關(guān)系的保持能力要高于對(duì)模態(tài)間關(guān)系的保持能力。并且,無(wú)論對(duì)圖像到圖像的模態(tài)內(nèi)保持,還是圖像到文本的模態(tài)間保持,其平均覆蓋率當(dāng)K=1時(shí)最大,而隨著K的增長(zhǎng),很快下降到一個(gè)穩(wěn)定的值。

        (a) T2I_linear_Cos (b) T2I_NN_Cos

        在圖6的IAPR TC-12數(shù)據(jù)集上文本-圖像的平均近鄰覆蓋率測(cè)試中,線性變換和深度神經(jīng)網(wǎng)絡(luò)同樣傾向于保持模態(tài)內(nèi)近鄰關(guān)系,但是二者的差距較小。此外,當(dāng)K為1時(shí),兩種跨模態(tài)映射函數(shù)的近鄰保持能力仍最高,并且當(dāng)K>1時(shí)迅速下降達(dá)到較低水平。

        3.3 跨模態(tài)匹配驗(yàn)證

        在IAPR TC-12和Wikipedia兩個(gè)數(shù)據(jù)集上執(zhí)行雙向(圖像到文本,記為I2T;圖像到文本,記為T2I)匹配,其準(zhǔn)確率-召回率曲線如圖7~10所示。

        (a) Lin (b) Sigmoid

        圖7為IAPR TC-12數(shù)據(jù)集的圖像-文本匹配結(jié)果,其中基于鄰域傳播的匹配方法在線性變換以及Sigmoid和TanH作為激活函數(shù)的深度神經(jīng)網(wǎng)絡(luò)中均取得了更高的準(zhǔn)確率,而在以ReLU作為激活函數(shù)的神經(jīng)網(wǎng)絡(luò)中準(zhǔn)確率較低,但仍然高于通過(guò)閾值直接匹配的方法。

        (a) Lin (b) Sigmoid

        圖8為IAPR TC-12數(shù)據(jù)集的文本-圖像匹配結(jié)果,在線性變換和以TanH、Sigmoid為激活函數(shù)的深度神經(jīng)網(wǎng)絡(luò)中,基于鄰域傳播的匹配方法取得了更高的準(zhǔn)確率,其AUC值遠(yuǎn)高于直接通過(guò)閾值進(jìn)行匹配的方法;而在采用ReLU的深度神經(jīng)網(wǎng)絡(luò)中,兩種匹配方法近似,其AUC值都較低。

        (a) Lin (b) Sigmoid

        圖9 為Wikipedia數(shù)據(jù)集圖像-文本匹配結(jié)果,其中基于鄰域傳播的匹配方法表現(xiàn)不佳,在四種跨模態(tài)映射函數(shù)中其準(zhǔn)確率始終低于基于閾值的匹配方法。

        (a) Lin (b) Sigmoid

        圖10中,基于鄰域傳播的匹配方法在Wikipedia數(shù)據(jù)集文本-圖像匹配任務(wù)中,準(zhǔn)確性遠(yuǎn)遠(yuǎn)超過(guò)了基準(zhǔn)方法。其AUC值高出基于閾值匹配的方法約0.45。

        為驗(yàn)證基于鄰域傳播的匹配方法在部分情況下失效的原因,實(shí)驗(yàn)還通過(guò)計(jì)算樣本與其近鄰之間的距離,對(duì)數(shù)據(jù)集中文本和圖像數(shù)據(jù)樣本的近鄰結(jié)構(gòu)進(jìn)行分析。其中,樣本與其近鄰的距離通過(guò)平均K近鄰距離(mean K Nearest Neighbor Distance,mKNND)進(jìn)行度量,其定義如下:

        (11)

        其中,NNj(xi)表示xi的第j近鄰,d表示距離(實(shí)驗(yàn)中采用余弦距離)。

        圖11 (a)中,Wikipedia數(shù)據(jù)集圖像數(shù)據(jù)的平均K近鄰距離明顯高于IAPRTC-12數(shù)據(jù)集,并且隨著K的增大而增大。而在圖11 (b)中,兩個(gè)數(shù)據(jù)集的文本數(shù)據(jù)平均K近鄰距離明顯低于圖像數(shù)據(jù),其中Wikipedia數(shù)據(jù)集的平均K近鄰距離更低并且隨著K的增大增長(zhǎng)較慢。根據(jù)圖11的結(jié)果,可以推斷圖 9中基于鄰域傳播的匹配方法失效的原因之一是Wikipedia數(shù)據(jù)集的圖像樣本間差別較大,在鄰域傳播的過(guò)程中誤差增大,導(dǎo)致匹配失效。此外,兩個(gè)數(shù)據(jù)集上文本數(shù)據(jù)的近鄰結(jié)構(gòu)更加緊湊,這也是文本-圖像匹配準(zhǔn)確度高于圖像-文本匹配的主要原因。

        (a) 圖像(a) Image

        通過(guò)上述實(shí)驗(yàn)可以說(shuō)明,盡管基于鄰域傳播的匹配方法在特殊情況下會(huì)失效,但是在大部分條件下都能有效地提升跨模態(tài)匹配的準(zhǔn)確率,特別是當(dāng)模態(tài)內(nèi)和模態(tài)間近鄰保持能力差別較大時(shí)。因此,本文提出的基于鄰域傳播的匹配方法對(duì)提升跨模態(tài)檢索準(zhǔn)確率具有重要意義。

        4 結(jié)論

        現(xiàn)有跨模態(tài)檢索問(wèn)題的研究中,通常通過(guò)深度神經(jīng)網(wǎng)絡(luò)或線性變換對(duì)不同模態(tài)的文本和圖像數(shù)據(jù)進(jìn)行跨模態(tài)映射,在此基礎(chǔ)上進(jìn)行相似度計(jì)算。而本文發(fā)現(xiàn)跨模態(tài)映射函數(shù)對(duì)近鄰關(guān)系保持能力隨著相似性判定的粒度增大而衰減,即存在“相似性漂移”問(wèn)題。該問(wèn)題導(dǎo)致誤匹配的概率上升,進(jìn)而降低檢索的準(zhǔn)確性。

        為降低相似性漂移問(wèn)題的影響,本文提出基于鄰域傳播的匹配方法,利用同模態(tài)近鄰樣本來(lái)發(fā)現(xiàn)待匹配對(duì)象的跨模態(tài)近鄰。通過(guò)實(shí)驗(yàn)驗(yàn)證可以證明,該匹配方法對(duì)降低“相似性漂移”問(wèn)題的影響,提高跨模態(tài)檢索的準(zhǔn)確率具有明顯效果。盡管其有效性受到模態(tài)內(nèi)近鄰結(jié)構(gòu)的影響,但是這不影響其具有重要參考意義。在未來(lái)的工作中,可以通過(guò)與普通的匹配方法結(jié)合來(lái)克服其局限性。例如設(shè)定一個(gè)閾值,當(dāng)查詢樣本和其模態(tài)內(nèi)近鄰的距離小于閾值時(shí)采取鄰域傳播的匹配方法,當(dāng)距離大于閾值時(shí)仍然通過(guò)該樣本自身來(lái)進(jìn)行匹配。

        猜你喜歡
        覆蓋率鄰域相似性
        一類上三角算子矩陣的相似性與酉相似性
        民政部等16部門:到2025年村級(jí)綜合服務(wù)設(shè)施覆蓋率超80%
        我國(guó)全面實(shí)施種業(yè)振興行動(dòng) 農(nóng)作物良種覆蓋率超過(guò)96%
        淺析當(dāng)代中西方繪畫的相似性
        稀疏圖平方圖的染色數(shù)上界
        基于鄰域競(jìng)賽的多目標(biāo)優(yōu)化算法
        關(guān)于-型鄰域空間
        低滲透黏土中氯離子彌散作用離心模擬相似性
        基于噴丸隨機(jī)模型的表面覆蓋率計(jì)算方法
        基于覆蓋率驅(qū)動(dòng)的高性能DSP指令集驗(yàn)證方法
        按摩少妇高潮在线一区| 亚洲精品国产一二三区| 97一期涩涩97片久久久久久久| 少妇激情一区二区三区视频| 久久久久亚洲av无码专区导航| 999久久66久6只有精品| 国产91九色视频在线播放| 久久综合另类激情人妖| 无码国产精品一区二区av| 男女啪啪无遮挡免费网站| 国产aⅴ夜夜欢一区二区三区| 久久熟女乱一区二区三区四区| 免费人妻精品一区二区三区| 激情综合五月| 无码国产伦一区二区三区视频| 国产午夜亚洲精品理论片不卡| 99在线视频精品费观看视| 日韩熟女一区二区三区 | 永久无码在线观看| 亚洲综合精品在线观看中文字幕 | 欧美成人aaa片一区国产精品| 中文字幕日韩一区二区三区不卡| 国产一级淫片免费大片| 青青草99久久精品国产综合| 日韩精品一区二区三区四区视频| 国产一品二品三区在线观看| 免费观看成人欧美www色| 日本50岁丰满熟妇xxxx| 国产视频最新| 国产高清不卡二区三区在线观看 | 亚洲五月婷婷久久综合| 国产日本精品一区二区| 中文字幕无码乱人伦| 中国丰满熟妇xxxx性| 日韩精品国产自在欧美| 日本一区二区午夜视频| 一个色综合中文字幕人妻激情视频 | 亚洲成色在线综合网站| 日本女优一区二区在线免费观看| 中文字幕在线乱码亚洲| 在线看片免费人成视频电影|