摘 要: "隨著深度學(xué)習(xí)方法的不斷發(fā)展,跨模態(tài)哈希檢索技術(shù)也取得了長足的進(jìn)步。但是,目前的跨模態(tài)哈希檢索方法通?;趦煞N假設(shè):a)相似文本描述的圖像內(nèi)容也相似;b)相同類別的圖像有著較好的全局相似性。但是,真實數(shù)據(jù)集中的數(shù)據(jù)往往不能滿足以上兩種假設(shè),導(dǎo)致了跨模態(tài)哈希檢索模型性能的降低。針對以上兩個問題,提出了一種基于文本引導(dǎo)對抗哈希的跨模態(tài)檢索方法(text-guided adversarial hashing for cross-modal retrieval,TAH),此方法在構(gòu)建的網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上,將文本哈希碼作為訓(xùn)練圖像網(wǎng)絡(luò)的基礎(chǔ),并將圖像的局部特征與全局特征結(jié)合用于表示圖像內(nèi)容。此外,還針對性地提出了文本模態(tài)內(nèi)全局一致性損失、模態(tài)間局部與全局一致性損失和分類對抗損失用于訓(xùn)練跨模態(tài)網(wǎng)絡(luò)。實驗證明,TAH可以在三個數(shù)據(jù)集中取得良好的檢索性能。
關(guān)鍵詞: "文本特征; 圖像局部與全局特征; 跨模態(tài)檢索; 哈希碼
中圖分類號: "TP391 """文獻(xiàn)標(biāo)志碼: A
文章編號: "1001-3695(2022)02-054-0628-05
doi:10.19734/j.issn.1001-3695.2021.07.0222
Text-guided adversarial hashing for cross-modal retrieval
Zhu Jie
(Dept.of Information Management, National Police University for Criminal Justice, Baoding Hebei 071000, China)
Abstract: "With the development of deep learning,cross-modal hashing retrieval methods have made considerable progress.However,current cross-modal hashing retrieval methods are usually based on two hypotheses,a similar pair of texts can have similar images,the images with the same category are globally similar to each other.However,the data in the real-world data set often fails to meet the above two hypotheses,which leads to the decrease of retrieval performance.This paper proposed a TAH.TAH used the text hash code to train the image network,and used the combination of the local and global image features to represent the images.In addition,it proposed the text intra-modality global consistency loss,inter-modality local,global consistency loss and adversarial classification loss to train the cross-modal network.Experiments show that TAH can achieve satisfactory retrieval performance in three data sets.
Key words: "text feature; image local and global feature; cross-modal retrieval; hash codes
0 引言
近些年,隨著互聯(lián)網(wǎng)中多媒體數(shù)據(jù)的爆炸式增長,跨模態(tài)檢索逐漸成為了人工智能領(lǐng)域的熱點(diǎn)問題之一。與單一模態(tài)的檢索任務(wù)不同,在跨模態(tài)檢索中,查詢數(shù)據(jù)與被檢索數(shù)據(jù)屬于不同模態(tài),因此,跨模態(tài)檢索的關(guān)鍵在于打破不同模態(tài)數(shù)據(jù)之間的語義鴻溝,從而將不同模態(tài)的數(shù)據(jù)映射到相同的特征空間中。目前,大部分跨模態(tài)檢索方法以近似最近鄰搜索方法為基礎(chǔ),通過計算不同模態(tài)數(shù)據(jù)特征的相似性來進(jìn)行排序,但是,這些方法會導(dǎo)致存儲數(shù)據(jù)量過大和檢索效率低的問題??缒B(tài)哈希檢索的出現(xiàn)解決了以上兩個問題,跨模態(tài)哈希檢索首先將不同模態(tài)數(shù)據(jù)映射為相同特征空間內(nèi)的哈希碼,然后通過哈希碼之間的異或操作計算數(shù)據(jù)之間的相似性,并按照相似性對檢索結(jié)果進(jìn)行排序。哈希碼的存儲與異或計算方式大大降低了數(shù)據(jù)存儲的空間需求并提高了檢索速度,因此,跨模態(tài)哈希檢索受到了人們越來越多的關(guān)注。隨著深度學(xué)習(xí)的不斷發(fā)展,通過構(gòu)建深度網(wǎng)絡(luò)與損失函數(shù),用于學(xué)習(xí)深度跨模態(tài)哈希碼的方法逐漸成為主流[1~3]。與大多數(shù)跨模態(tài)檢索方法相同,本文的研究只針對圖像與文本兩種模態(tài)的數(shù)據(jù)展開。
Jiang等人[4]提出了一種將特征學(xué)習(xí)與哈希學(xué)習(xí)融為一體的深度跨模態(tài)哈希(deep cross-modal hashing,DCMH)方法,這種方法利用負(fù)對數(shù)似然來計算不同模態(tài)數(shù)據(jù)的全局特征一致性。Yang等人[5]在DCMH方法基礎(chǔ)上,融入了模態(tài)內(nèi)數(shù)據(jù)的全局特征一致性,從而提出了一種成對關(guān)系引導(dǎo)的深度哈希方法(pairwise relationship guided deep hashing,PRDH)。Wang等人[6]提出了一種基于深度關(guān)系相似性的跨模態(tài)檢索方法(deep relational similarity learning,DRSL),這種方法通過計算不同模態(tài)數(shù)據(jù)的全局成對相似性來訓(xùn)練深度網(wǎng)絡(luò)。為了去除圖像和文本特征中不相匹配的內(nèi)容,一些研究將對抗學(xué)習(xí)的方法與注意力機(jī)制相結(jié)合,將圖像和文本表示劃分為相關(guān)特征與不相關(guān)特征,并利用不同模態(tài)的相關(guān)特征相似性進(jìn)行檢索。Zhang等人[7]提出了一種基于注意力機(jī)制的對抗哈希網(wǎng)絡(luò),并通過構(gòu)造的對抗檢索損失用于訓(xùn)練跨模態(tài)網(wǎng)絡(luò)。Xie等人[8]提出了一種多任務(wù)一致性保持對抗哈希方法(multi-task consistency-preserving adversarial hashing for cross-modal retrieval,CPAH),該方法通過注意力機(jī)制分離出圖像和文本的相關(guān)信息,然后通過多任務(wù)對抗學(xué)習(xí)的方法訓(xùn)練跨模態(tài)網(wǎng)絡(luò)。
目前常見的跨模態(tài)哈希檢索方法大多基于兩個假設(shè),即相似的文本描述的圖像內(nèi)容也相似,通過圖像網(wǎng)絡(luò)提取出的相同類別的圖像特征有著較強(qiáng)的全局相似性。但是,在真實世界的數(shù)據(jù)中,往往不能滿足以上兩種假設(shè)。圖1(a)中兩幅圖像對應(yīng)的文本相似,但是圖像從視覺角度卻相似性較低。圖1(b)中的兩幅圖像都屬于男孩類別,但是兩幅圖像的內(nèi)容只能部分匹配。
為了解決此問題,本文提出了一種基于文本引導(dǎo)對抗哈希的跨模態(tài)檢索方法(TAH),此方法以文本特征作為引導(dǎo),將圖像的局部特征與全局特征嵌入到文本特征空間中,用于獲得較好的跨模態(tài)哈希碼,從而提高檢索性能。
1 跨模態(tài)檢索問題描述
給定一個包含 n 個樣例的跨模態(tài)數(shù)據(jù)集 O={o i}n i=1 ,每一個樣例可以表示為 o i={v i,t i,l i},其中v i、t i和l i分別代表第i個樣例的圖像模態(tài)、文本模態(tài)和類標(biāo)簽,其中,l i=[l i1,l i2,…,l ic],如果第i個樣例屬于第j個類別,則l ij=1,否則l ij=0,c為類標(biāo)簽的數(shù)量。此外,為了衡量不同樣例之間的相似性,構(gòu)造了一個相似性矩陣 S ,如果o i與o j至少包含一個相同的類標(biāo)簽,則S ij=1,否則S ij=0 ??缒B(tài)哈希方法希望將圖像和文本特征映射到相同的哈??臻g中,從而使生成的跨模態(tài)哈希碼具有語義一致性。
2 文本引導(dǎo)對抗哈希的生成
TAH的提出是基于真實數(shù)據(jù)中的兩個發(fā)現(xiàn):a)文本具有高層語義信息,即相似的文本具有相似的語義信息,但是由于圖像模態(tài)數(shù)據(jù)的不確定性特點(diǎn),導(dǎo)致文本相似的圖像數(shù)據(jù)未必相似;b)相同類別的圖像未必一定保持全局特征一致性,也有可能保持局部一致性。
因此,TAH將文本作為引導(dǎo)跨模態(tài)哈希碼生成的基礎(chǔ),利用圖像的局部信息、圖像的全局信息和文本的全局信息之間的對應(yīng)關(guān)系,生成跨模態(tài)哈希碼。網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,TAH的網(wǎng)絡(luò)結(jié)構(gòu)由兩部分構(gòu)成,即圖像網(wǎng)絡(luò)和文本網(wǎng)絡(luò),分別用于提取圖像和文本的哈希碼。
2.1 網(wǎng)絡(luò)結(jié)構(gòu)
在圖像網(wǎng)絡(luò)方面,本文采用了與DCMH相同的網(wǎng)絡(luò)結(jié)構(gòu)用于提取圖像的全局特征,其中包括了五個卷積層(conv1~conv5)與兩個全連接層(fc6,fc7),這七層的網(wǎng)絡(luò)結(jié)構(gòu)與CNN-F[9]一致,fc7層用于輸出圖像的全局特征, fc11層用于輸出圖像的全局特征哈希碼。此外,本文采用了一種極大激活卷積(maximum activations of convolutions,MAC)[10]的方法用于提取卷積特征,這種方法首先從conv5層提取特征映射,然后將不同特征映射的最大響應(yīng)值連接,作為圖像的卷積特征,這種特征可以較好地反映對象內(nèi)容。 卷積特征經(jīng)過兩個全連接層(fc8和fc9)之后生成圖像的局部特征,其中,fc8和fc9層的維度分別為2 635和512。然后通過fc10層生成圖像的局部特征哈希碼。將圖像的全局特征哈希碼與局部特征哈希碼連接,輸入全連接層fc12,可以得到融合圖像全局和局部特征的全局—局部哈希碼。fc13層用于對圖像的全局—局部哈希碼進(jìn)行分類。
在文本網(wǎng)絡(luò)方面,本文用詞袋模型(bag of words,BoW)將文本表示為向量,作為網(wǎng)絡(luò)輸入,然后通過兩個全連接層(fc1和fc2)用于提取文本的全局特征,其中,fc1和fc2層的維度分別為8 192和5 138。fc3層將文本全局特征映射為全局特征哈希碼,fc4層作為分類層用于對文本的全局特征哈希碼進(jìn)行分類。
在整個網(wǎng)絡(luò)中,生成哈希碼的哈希層(f10、f11、f12和f3)激活函數(shù)為tanh,分類層(f13和f4)的激活函數(shù)為sigmoid,其他層的激活函數(shù)均為ReLU。
2.2 損失函數(shù)構(gòu)建
下面將介紹TAH的算法細(xì)節(jié)。在訓(xùn)練階段,TAH使用提出的文本模態(tài)內(nèi)全局一致性損失、模態(tài)間局部與全局一致性損失和分類對抗損失用于更新網(wǎng)絡(luò)參數(shù),并生成更好的跨模態(tài)哈希碼。
2.2.1 文本模態(tài)內(nèi)全局一致性損失
為了使兩個內(nèi)容相似的文本被映射到相同的哈??臻g后具有較強(qiáng)的相似性,提出了一種文本模態(tài)內(nèi)全局一致性損失,如式(1)所示。
J tg=J pair( H t1, H t2)+‖ B t1- H t1‖2 F+‖ B t2- H t2‖2 F ""(1)
其中: H t1∈"Euclid Math TwoRAp
K×r; H t2∈"Euclid Math TwoRAp
K×r;r 代表輸入的文本對數(shù); B t1 =sign( H t1), B t2= sign( H t2), B t1和 B t2分別代表輸入文本對后生成的K位二進(jìn)制碼矩陣; H t1 *i與 H t2 *i代表第i 組文本對輸入文本網(wǎng)絡(luò)后所生成的文本哈希碼。式(1)中第一項希望使類別相同的文本特征保持一致,具體如式(2)所示,即為文本哈希碼相似性的負(fù)對數(shù)似然,似然函數(shù)如式(3)所示。而式(1)中的第二項和第三項希望使生成的文本哈希碼與對應(yīng)的二進(jìn)制碼盡量相似。
J pair( X,Y )=-∑ n i,j=1 (S ijΘ ij- log(1+e Θ ij)) ""(2)
Θ ij= 1 2 "X T "*i Y "*j,其中 X ∈"Euclid Math TwoRAp
K×r且 Y ∈"Euclid Math TwoRAp
K×r 。
p(S ij| X "*i, Y "*j)= "σ(Θ ij) S ij=1
1-σ(Θ ij) S ij=0 """"(3)
2.2.2 模態(tài)間局部與全局一致性損失
在跨模態(tài)檢索中,兩個相似文本對應(yīng)的圖像往往內(nèi)容不同,導(dǎo)致無法準(zhǔn)確實現(xiàn)圖像哈希碼的模態(tài)內(nèi)相似性度量。但是通常情況下,圖像與對應(yīng)文本之間有著全局或者局部的對應(yīng)關(guān)系。將文本作為引導(dǎo)信息,利用文本內(nèi)容能夠?qū)?yīng)圖像的局部信息或全局信息的特點(diǎn),提出一種模態(tài)間局部與全局一致性損失,如式(4)所示。
J gl=J pair( H t, H vg)+J pair( H t, H vl)+
‖ B vg- H vg‖2 F+‖ B vl- H vl‖2 F ""(4)
其中: H t∈"Euclid Math TwoRAp
K×m 代表文本的哈希碼; H vg∈"Euclid Math TwoRAp
K×m和 H vl∈"Euclid Math TwoRAp
K×m 分別代表文本對應(yīng)圖像的全局和局部哈希碼; B vg= sign( H vg)和 B vl= sign( H vl) 為圖像的全局和局部二進(jìn)制碼; m 為輸入的圖像—文本對的數(shù)量。式(4)中的前兩項希望使圖像的全局哈希碼和局部哈希碼都與文本哈希碼相似,即將文本信息作為引導(dǎo),實現(xiàn)文本哈希碼與圖像的全局和局部哈希碼同時匹配。第三項和第四項希望使生成的圖像全局與圖像局部哈希碼逼近對應(yīng)的二進(jìn)制碼。
2.2.3 分類對抗損失
由于類別相同的圖像在全局和局部特征之間存在差異性,所以難于構(gòu)造圖像的全局和局部類別一致性衡量標(biāo)準(zhǔn)。但是,圖像的全局哈希碼 H vg和局部哈希碼 H vl 擁有相同的類標(biāo)簽,兩者融合后生成的全局—局部哈希碼可以更好地表示圖像類別。受到生成式對抗網(wǎng)絡(luò)的啟發(fā),TAH提出了一種基于對抗的哈希網(wǎng)絡(luò)訓(xùn)練方法。
如圖2所示,TAH通過對抗的方式訓(xùn)練圖像特征生成模塊 G I 和圖像哈希模塊 D I 。對于圖像集 v ,通過 G I 可以生成圖像全局特征 F vg 和局部特征 F vl,即{ F vg, F vl}=G I(v),D I將 F vg和 F vl映射為全局特征哈希碼 H vg和局部特征哈希碼 H vl,接下來,將 H vg和 H vl進(jìn)行連接,通過全連接層映射為全局—局部哈希碼 H vgl,即{ H vg, H vl, H vgl}=D I( F vg, F vl) "。
圖像的分類對抗損失定義如式(5)所示。在訓(xùn)練的過程中需要基于以下兩條準(zhǔn)則。首先, D I希望 H vgl 可以用于準(zhǔn)確地判斷類別,因此需要最小化式(5)。其次, G I 希望發(fā)現(xiàn)更多的不能使 H vgl 準(zhǔn)確分類的圖像,因此需要最大化式(5)。
J vc=‖ L vc- L ‖2 F ""(5)
其中: L vc代表利用 H vgl進(jìn)行分類的結(jié)果; L 代表圖像的真實類別。
與圖像網(wǎng)絡(luò)的對抗性訓(xùn)練方式相似,文本網(wǎng)絡(luò)由文本特征生成模塊 G T 和文本哈希模塊 D T 組成,對于文本集 t , G T 可以生成文本特征 F t,即{ F t}=G T(t),D t將 F t 映射為文本特征哈希碼 H t,即{ H t}=D T( F t) 。文本的分類對抗損失函數(shù)如式(6)所示。
J tc=‖ L tc- L ‖2 F ""(6)
其中: L tc代表利用 H t 進(jìn)行分類的結(jié)果。其對抗方式與圖像網(wǎng)絡(luò)相同。
最終,TAH的整體目標(biāo)函數(shù)構(gòu)造如下:
J=J tg+J gl+J c ""(7)
其中: J c=J vc+J tc 。
2.3 網(wǎng)絡(luò)參數(shù)訓(xùn)練
為了生成跨模態(tài)哈希碼,TAH通過BP算法與迭代優(yōu)化的方式訓(xùn)練提出跨模態(tài)網(wǎng)絡(luò),如式(8)所示。
(θv G,θv D,θt G,θt D)= arg min "J tg(θt G,θt D)+ J gl(θv G,θv D,θt G,θt D)+J vc(θv G,θv D)+J tc(θt G,θt D)
θv G= arg max "J vc(θv G,θv D) θt G= arg max "J tc(θt G,θt D) ""(8)
在訓(xùn)練階段,本文首先優(yōu)化 J tg+J tc ,用于更新 G T的參數(shù)θt G 和 D T 的參數(shù) θt D 。然后,在固定 θt G 和 θt D 的前提下,將文本哈希碼作為引導(dǎo),通過優(yōu)化 J gl+J vc ,用于更新 G I 的參數(shù) θv G 和 D I 參數(shù) θv D 。
3 實驗
在這部分內(nèi)容中,本文將TAH方法與眾多優(yōu)秀的算法在MIRFLICKR-25K[11]、IAPR TC-12[12]和NUS-WIDE[13]三個數(shù)據(jù)集中的檢索性能進(jìn)行了比較。
3.1 數(shù)據(jù)集
MIRFLICKR-25K數(shù)據(jù)集中包含25 000幅從Flicker網(wǎng)站上收集到的圖像,每一幅圖像都有對應(yīng)的文本描述,這些圖像和分本對共分為24個類別。為了與其他算法進(jìn)行比對,本文將文本表示為維度為1 386的詞袋模型BoW向量,作為文本網(wǎng)絡(luò)的輸入。
IAPR TC-12包含了屬于255個類別的2 000個圖像—文本對,每一幅圖像由三種不同的語言進(jìn)行描述。本文只采用了英文的描述文本。文本的BoW向量維度為2 912。
NUS-WIDE數(shù)據(jù)集包含了269 648個圖像—文本對,其中的圖像由現(xiàn)實世界的拍照獲得。每一個圖像—文本對可以屬于一個或者多個類別。實驗中,本文采用包含21個最常見類別的195 834幅圖像用于訓(xùn)練和測試。文本在輸入階段被表示為1 000維的BoW向量。
3.2 實驗設(shè)置與衡量標(biāo)準(zhǔn)
實驗過程中,將上述數(shù)據(jù)集中的數(shù)據(jù)分為查詢集合、檢索集合和訓(xùn)練集合三部分。檢索過程中,以查詢集合中包含的圖像—文本對為基礎(chǔ),對圖像集中除查詢集合以外的數(shù)據(jù)(檢索集合)進(jìn)行檢索。此外,算法從檢索集合中提取出一部分?jǐn)?shù)據(jù)作為訓(xùn)練集合,用于訓(xùn)練跨模態(tài)網(wǎng)絡(luò)。在實驗中,MIRFLICKR-25K和IAPR TC-12數(shù)據(jù)集的查詢集合樣本數(shù)量為2 000,訓(xùn)練集合樣本數(shù)量為10 000。而NUS-WIDE數(shù)據(jù)集中的查詢集合樣本數(shù)量為2 100,訓(xùn)練集合樣本數(shù)量為10 500。在訓(xùn)練過程中,批的大小被設(shè)置為64。此外,本文采用常用的兩種性能衡量標(biāo)準(zhǔn)用于衡量算法的性能,即平均精度均值(mean average precision, MAP)和精準(zhǔn)率—召回率曲線(precision-recall curve,PR)。
3.3 檢索性能比較
本文將TAH與六種優(yōu)秀的跨模態(tài)哈希檢索方法進(jìn)行了比較,這些算法分別為CCA[14]、SePH[15]、DCMH、SSAH[16]、MDCH[17]和DSSAH[18]。表1為TAH與以上六種方法在哈希碼長度為16位、32位和64位情況下的MAP值比較,其中“I→T”代表查詢集合為圖像模態(tài),而檢索集合為文本模態(tài)。與此相反的是“T→I”表示查詢集合為文本模態(tài),而檢索集合為圖像模態(tài)。從MAP值的比對結(jié)果中可以發(fā)現(xiàn),TAH在不同哈希碼長度的情況下,在所有圖像庫中均能得到最好的檢索效果。與其他五種采用深度學(xué)習(xí)的方式提取特征的方法不同,CCA和SePH采用人工設(shè)計的特征用于表示圖像,因此,CCA和SePH的檢索性能低于其他方法。DCMH可以使不同模態(tài)內(nèi)部的特征保持語義一致性,但是沒有考慮到相同類別的圖像未必?fù)碛邢嗨铺卣鞯膯栴},而TAH則充分考慮到了圖像的這個特性,利用文本作為引導(dǎo),生成了更好的跨模態(tài)哈希碼,因此,TAH比DCMH的MAP高出6%左右。SSAH在DCMH的基礎(chǔ)上,利用標(biāo)簽信息和設(shè)計的對抗性網(wǎng)絡(luò),得到了較好的檢索性能,但是,SSAH仍然沒有考慮到相同類別圖像間的差異性,因此,性能仍然低于TAH。注意力機(jī)制是最常見的一類用于發(fā)現(xiàn)不同模態(tài)內(nèi)重要特征的方法,MDCH利用注意力機(jī)制、模態(tài)間損失和模態(tài)內(nèi)損失用于訓(xùn)練跨模態(tài)網(wǎng)絡(luò),但是與TAH相比,沒有考慮不同模態(tài)數(shù)據(jù)的局部信息,因此,檢索性能低于TAH。與DCMH、SSAH和MDCH方法不同,DSSAH方法考慮到同類別圖像之間的差異性,利用對抗性機(jī)制和模態(tài)間的語義一致性生成了除TAH之外最好的MAP值。
為了驗證TAH的有效性,本文將Vgg16[19]和Vgg19[19]代替TAH中用于提取圖像特征的CNN-F網(wǎng)絡(luò),實驗結(jié)果如表2所示。通過對比可以發(fā)現(xiàn),TAH_Vgg19可以取得最好的檢索效果,比TAH的MAP值高出約0.3%,而TAH_Vgg16的MAP最低。實驗結(jié)果說明,在TAH的網(wǎng)絡(luò)框架下,采用不同的網(wǎng)絡(luò)結(jié)構(gòu)會對檢索結(jié)果產(chǎn)生影響。
本文提出了三種損失即文本模態(tài)內(nèi)全局一致性損失 J tg 、模態(tài)間局部與全局一致性損失 J gl 和對抗分類損失 J c ,在表3中本文分析了使用三種不同損失的組合對于TAH方法的MAP值影響。需要說明的是,TAH的設(shè)計初衷為將文本特征作為引導(dǎo),用于訓(xùn)練跨模態(tài)網(wǎng)絡(luò),因此在表3中列舉的所有情況下,都需使用 J tg 。需要注意的是,表3中的 J tg+J gl+J c 即為文本提出的TAH方法。通過比對可以發(fā)現(xiàn),當(dāng)采用的損失函數(shù)為 J tg+J c 或者 J tg+J gl 時的MAP值都低于 J tg+J gl+J c ,說明 J tg 、 J gl 和 J c 都對訓(xùn)練跨模態(tài)網(wǎng)絡(luò)起到了積極的作用。此外,采用損失函數(shù)為 J tg+J gl 時的MAP值要高于 J tg+J c 的情況,說明TAH在訓(xùn)練過程中, J gl 的作用要大于 J c 。最后,本文嘗試通過給損失賦權(quán)重的方式,用于提高M(jìn)AP值,即將損失設(shè)定為 w 1J tg+w 2J gl+w 3J c ,其中, w 1 、 w 2 和 w 3 分別代表三種損失的權(quán)重參數(shù),本文采用了坐標(biāo)下降法用于調(diào)試出最優(yōu)的參數(shù), 即將三個參數(shù)的枚舉范圍設(shè)置在{0.1,0.2,…,1},每兩個相鄰取值之間的差為0.1,并且在更新的過程中設(shè)置約束,始終保持 w 1+w 2+w 3=1 ,且 w 2gt;w 3 。迭代優(yōu)化的最大輪數(shù)為1 000。通過優(yōu)化發(fā)現(xiàn),當(dāng) w 1=0.7、w 2=0.2、w 3=0.1 的時候可以得到最優(yōu)的MAP值。
在圖3中,本文比較了TAH與不同算法在MIRFLICKR-25K、IAPR TC-12和NUS-WIDE數(shù)據(jù)集的PR曲線,其中,(a)~(c)為 圖像到文本的查詢,而(d)~(f)為文本到圖像的查詢。可以發(fā)現(xiàn),隨著召回率的不斷增加,所有算法的準(zhǔn)確率也在不斷降低。此外, TAH在不同召回率情況下均能獲得最好的檢索性能。
此外,本文在MIRFLICKR-25K數(shù)據(jù)集中隨機(jī)挑選了四組跨模態(tài)檢索的查詢以及前五的查詢結(jié)果,如圖4所示。其中前兩組為文本查詢圖像。通過文本的內(nèi)容可以發(fā)現(xiàn),兩組文本分別與baby和flower相關(guān),檢索到的圖像也包括相關(guān)內(nèi)容。與此類似,后兩組的圖像與food和people相關(guān),對應(yīng)檢索到的文本也都包含類似的詞匯。此外,通過圖4還可以發(fā)現(xiàn),文本檢索到的圖像對于背景信息有較強(qiáng)的魯棒性,如某些花朵圖像有著較多的背景內(nèi)容,如藍(lán)天、白云和草,但是這些背景信息并沒有影響檢索的準(zhǔn)確性,其原因在于TAH方法中,局部特征的生成基礎(chǔ)為卷積特征,而卷積特征能夠較好地突出圖像中的對象內(nèi)容,花的內(nèi)容因此得到了突出。
4 結(jié)束語
本文提出了一種TAH方法用于生成更加合理的跨模態(tài)哈希碼。與以往的跨模態(tài)哈希方法不同,TAH將圖像特征映射到文本的特征空間中,并將圖像的局部特征、全局特征與對抗性機(jī)制相結(jié)合,用于保證圖像的類似相似性。實驗證明,TAH在三個數(shù)據(jù)集中的檢索性能要優(yōu)于六種優(yōu)秀的跨模態(tài)哈希檢索方法。在未來的研究中,將研究文本的全局和局部特征與圖像之間的對應(yīng)關(guān)系,用于進(jìn)一步提高跨模態(tài)哈希模型的檢索性能。
參考文獻(xiàn):
[1] "嚴(yán)雙詠,劉長紅,江愛文,等. 語義耦合相關(guān)的判別式跨模態(tài)哈希學(xué)習(xí)算法[J].計算機(jī)學(xué)報,2019, 42 (1):164-175. (Yan Shuangyong,Liu Changhong,Jiang Aiwen, et al .Discriminative cross-modal hashing with coupled semantic correlation[J]. Chinese Journal of Computers, 2019, 42 (1):164-175.)
[2] 房小兆,唐寶動,韓娜,等.相似度保持跨模態(tài)哈希檢索[J].小型微型計算機(jī)系統(tǒng),2021, 42 (2):256-263. (Fang Xiaozhao,Tang Baodong,Han Na, et al .Similarity preserving hashing for cross-modal retrieval[J]. Journal of Chinese Mini-Micro Computer Systems, 2021, 42 (2):256-263.)
[3] Deng Cheng,Chen Zhaojia,Liu Xianglong, et al .Triplet-based deep hashing network for cross-modal retrieval[J]. IEEE Trans on Image Processing, 2018, 27 (8):3270-3278.
[4] Jiang Qingyuan,Li Wujun.Deep cross-modal hashing[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2017:3232-3240.
[5] Yang Erkun,Deng Cheng,Liu Wei, et al .Pairwise relationship guided deep hashing for cross-modal retrieval[C]//Proc of AAAI Conference on Artificial Intelligence.Piscataway,NJ:IEEE Press,2017:1618-1625.
[6] Wang Xu,Hu Peng,Zhen Liangli, et al .DRSL:deep relational simila-rity learning for cross-modal retrieval[J]. Information Sciences, 2021, 546 :298-311.
[7] Zhang Xi,Lai Hanjiang,F(xiàn)eng Jiashi.Attention-aware deep adversarial hashing for cross-modal retrieval[C]//Proc of European Conference on Computer Vision.Piscataway,NJ:IEEE Press,2018:591-606.
[8] Xie De,Deng Cheng,Li Chao, et al .Multi-task consistency-preserving adversarial hashing for cross-modal retrieval[J]. IEEE Trans on Image Processing, 2020, 29 :3626-3637.
[9] Chatfield K,Simonyan K,Vedaldi A, et al .Return of the devil in the details:delving deep into convolutional nets[C] //Proc of British Machine Vision Conference.Piscataway,NJ:IEEE Press,2014:1-13.
[10] Tolias G,Sicre R.Particular object retrieval with integral max-pooling of CNN activations[EB/OL].(2015-11-18)[2016-02-24].https://arXiv.org/abs/1511.05879v1.
[11] Huiskes M J,Lew M S.The MIR Flickr retrieval evaluation[C]//Proc of the 1st ACM International Conference on Multimedia Information Retrieval.Piscataway,NJ:IEEE Press,2008:39-43.
[12] Escalante H J,Hernández C A,Gonzalez J A, et al .The segmented and annotated IAPR TC-12 benchmark[J]. Computer Vision and Image Understanding, 2010, 114 (4):419-428.
[13] Chua T S,Tang Jinhui,Hong Richang, et al .NUS-WIDE:a real-world Web image database from National University of Singapore[C]//Proc of International Conference on Image and Video Retrieval.Piscataway,NJ:IEEE Press,2009:48.
[14] Hotelling H.Relations between two sets of variates[M]//Breakthroughs in Statistics.New York:Springer,1992:162-190.
[15] Lin Zijia,Ding Guiguang,Hu Mingqing, et al .Semantics-preserving hashing for cross-view retrieval[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:3864-3872.
[16] Li Chao,Deng Cheng,Li Ning, et al .Self-supervised adversarial hashing networks for cross-modal retrieval[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:4242-4251.
[17] Lin Qiubin,Cao Wenming,He Zhiquan, et al .Mask cross-modal hashing networks[J]. IEEE Trans on Multimedia ,2020, 23 :550-558.
[18] Qiang Haopeng,Wan Yuan,Xiang Lun, et al .Deep semantic similarity adversarial hashing for cross-modal retrieval[J]. Neurocomputing, 2020, 400 :24-33.
[19] Simonyan K,Zisserman A.Very deep convolutional networks for largescale image recognition[C]//Proc of International Conference on Learning Representations.Piscataway,NJ:IEEE Press,2015:1-14.