朱 杰,白弘煜,張仲羽,謝博鋆,張俊三
1.中央司法警官學(xué)院信息管理系,河北保定071000
2.河北大學(xué)數(shù)學(xué)與信息科學(xué)學(xué)院,河北保定071002
3.中國(guó)石油大學(xué)(華東)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山東青島266580
近年來(lái),互聯(lián)網(wǎng)中圖像、文本等多種模態(tài)的數(shù)據(jù)量急劇增長(zhǎng),多模態(tài)數(shù)據(jù)之間的交互也應(yīng)運(yùn)而生??缒B(tài)檢索已經(jīng)成為人工智能領(lǐng)域的一個(gè)熱門(mén)課題,其目的是為了確定來(lái)自不同模態(tài)的數(shù)據(jù)是否指向相同內(nèi)容。在跨模態(tài)檢索過(guò)程中,一種模態(tài)的數(shù)據(jù)會(huì)映射到另一種模態(tài)去檢索,但是,由于不同模態(tài)的數(shù)據(jù)分布在不同的特征空間上,因此多模態(tài)檢索成為了一項(xiàng)非常有挑戰(zhàn)性的任務(wù)。
基于哈希的多模態(tài)數(shù)據(jù)表示因其快速、有效性受到了信息檢索領(lǐng)域的廣泛青睞。目前的多模態(tài)哈希主要分為多源哈希[1-2]和跨模態(tài)哈希[3-4],其中多源哈希致力于綜合數(shù)據(jù)的不同模態(tài)產(chǎn)生哈希碼。與多源哈希不同,跨模態(tài)哈希在檢索中提供的數(shù)據(jù)源通常只有一種(如文本),而需要檢索其他模態(tài)中對(duì)應(yīng)的數(shù)據(jù)(如圖像)。在解決實(shí)際問(wèn)題的過(guò)程中發(fā)現(xiàn),大部分情況下無(wú)法提供樣例的全部模態(tài)數(shù)據(jù),因此跨模態(tài)檢索就顯得尤為重要??缒B(tài)檢索成敗的關(guān)鍵在于能否將不同模態(tài)的數(shù)據(jù)映射到相同的特征空間,從而避免語(yǔ)義鴻溝的問(wèn)題。
傳統(tǒng)的方法嘗試?yán)萌斯ぬ卣鲗⒉挥媚B(tài)的數(shù)據(jù)映射到相同的空間,如:集體矩陣分解哈希(collective matrix factorization Hashing,CMFH)[5]、語(yǔ)義相關(guān)性最大化(semantic correlation maximization,SCM)[6]與跨視角哈希(cross view Hashing,CVH)[7]。
近些年深度學(xué)習(xí)不斷發(fā)展,并且被廣泛應(yīng)用于計(jì)算機(jī)視覺(jué)領(lǐng)域,如:圖像分類(lèi)[8-9]、圖像分割[10-11]、人臉識(shí)別[12]與圖像檢索[13-14]。越來(lái)越多的研究表明深度神經(jīng)網(wǎng)絡(luò)在特征表示方面有很好的性能,因此被廣泛應(yīng)用于跨模態(tài)檢索。
跨模態(tài)深度哈希檢索方法將不同模態(tài)的數(shù)據(jù)通過(guò)深度網(wǎng)絡(luò)映射為一系列的二進(jìn)制碼,并通過(guò)漢明距離衡量數(shù)據(jù)相似性。融合相似性哈希法(fusion similarity Hashing,F(xiàn)SH)[15]采用了一種無(wú)向非對(duì)稱(chēng)圖的方式將多模態(tài)的特征進(jìn)行加工,用于生成魯棒性較強(qiáng)的哈希碼。相關(guān)自編碼哈希法(correlation autoencoder Hashing,CAH)[16]通過(guò)最大化特征相關(guān)性和相似標(biāo)簽所傳達(dá)的語(yǔ)義相關(guān)性,用于生成非線(xiàn)性深度自哈希碼。三元組損失也被應(yīng)用于跨模態(tài)網(wǎng)絡(luò)的學(xué)習(xí)中,三元組深度哈希(triplet-based deep Hashing,TDH)[17]使用三元組標(biāo)簽來(lái)描述不同模態(tài)實(shí)例之間的關(guān)系,從而捕獲跨模態(tài)實(shí)例之間更一般的語(yǔ)義關(guān)聯(lián)性。哈希方法的本質(zhì)在于生成二值化的哈希碼,離散潛在影響模型(discrete latent factor model,DLFH)[18]基于離散潛因子模型,學(xué)習(xí)跨模態(tài)哈希二進(jìn)制哈希碼,用于交叉模態(tài)相似度搜索。為了去掉不必要的信息,從而提高跨模態(tài)檢索精度,注意力機(jī)制被應(yīng)用于跨模態(tài)檢索,堆疊注意力網(wǎng)絡(luò)(stacked attention networks,SANs)[19]采取了多個(gè)步驟,將注意力逐步集中在相關(guān)區(qū)域,從而為圖文問(wèn)答任務(wù)提供了更好的解答。Sharma 等[20]提出了一種基于注意力的動(dòng)作識(shí)別模型,該模型使用具有長(zhǎng)短期記憶(long short-term memory,LSTM)單元的遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNNs)來(lái)獲取時(shí)間和空間信息。Noh 等[21]提出了一種注意力模型,該模型采用加權(quán)平均池化的方式生成基于注意力的圖像特征表示。
深度跨模態(tài)哈希(deep cross modal Hashing,DCMH)[4]提出了一種基于深度神經(jīng)網(wǎng)絡(luò)的端到端的學(xué)習(xí)框架,算法將特征學(xué)習(xí)與哈希碼學(xué)習(xí)統(tǒng)一到相同的框架中用于跨模態(tài)檢索。隨后出現(xiàn)了DCMH 算法的一系列變種,成對(duì)關(guān)系深度哈希(pairwise relationship guided deep Hashing,PRDH)[22]在DCMH 的基礎(chǔ)上,通過(guò)降低二進(jìn)制碼之間的關(guān)聯(lián)性,提高了跨模態(tài)檢索性能。深度有監(jiān)督跨模態(tài)檢索方法(deep supervised cross-modal retrieval,DSCMR)[23]在DCMH的基礎(chǔ)上,提出了一種有判別力的損失函數(shù),使生成的網(wǎng)絡(luò)能夠更好地生成跨模態(tài)特征。但是這些方法提取出的圖像特征為全局特征,無(wú)法突出圖像中的對(duì)象內(nèi)容即語(yǔ)義內(nèi)容,這導(dǎo)致以上方法無(wú)法真正實(shí)現(xiàn)語(yǔ)義上的跨模態(tài)。
為了解決此類(lèi)問(wèn)題,本文提出了一種基于對(duì)象特征的深度哈希(object feature based deep Hashing,OFBDH)跨模態(tài)檢索方法。與大多數(shù)跨模態(tài)檢索方法不同,本文將深度圖像特征、深度文本特征和深度對(duì)象特征進(jìn)行融合,用于訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),從而生成更加優(yōu)秀的跨模態(tài)哈希碼。
本文算法只關(guān)注于圖像和文本兩種模態(tài)的跨模態(tài)檢索。假設(shè)每個(gè)訓(xùn)練樣本都具有圖像和文本兩種模態(tài),分別用代表,其中n代表樣本數(shù)量。S為樣本之間的相似性矩陣,如果第i個(gè)樣本與第j個(gè)樣本擁有至少一個(gè)相同的類(lèi)標(biāo),則認(rèn)為Sij=1,否則Sij=0。圖像和文本的跨模態(tài)哈希檢索模型的本質(zhì)在于,學(xué)習(xí)圖像哈希函數(shù)h(I)(x)和文本哈希函數(shù)h(T)(y),從而使得h(I)(xi)與h(T)(yi)的表達(dá)盡量一致。
本文提出的OFBDH 學(xué)習(xí)框架如圖1 所示,它是一個(gè)端到端的學(xué)習(xí)框架,此框架由三部分組成:圖像特征學(xué)習(xí)部分,用于學(xué)習(xí)深度圖像特征;對(duì)象特征學(xué)習(xí)部分,用于提取卷積特征并加工輸出深度對(duì)象特征;文本特征學(xué)習(xí)部分,用于學(xué)習(xí)深度文本特征。
在圖像特征學(xué)習(xí)部分,對(duì)應(yīng)的深度神經(jīng)網(wǎng)絡(luò)由8個(gè)層次組成,其中包括5個(gè)卷積層(Conv1~Conv5)和3個(gè)全連接層(fc6~fc8),網(wǎng)絡(luò)的前7 層與卷積神經(jīng)網(wǎng)絡(luò)融合(convolutional neural network fusion,CNN-F)網(wǎng)絡(luò)完全相同,第8層用于輸出學(xué)習(xí)到的深度圖像特征。fc6 和fc7 每一層都含有4 096 個(gè)節(jié)點(diǎn)且均使用ReLU作為激活函數(shù),fc8 則使用恒等函數(shù)作為激活函數(shù)。
在圖像特征學(xué)習(xí)部分,數(shù)據(jù)來(lái)源為圖像模態(tài)Conv5 層的卷積特征,經(jīng)過(guò)兩個(gè)全連接層fc1 和fc2 之后生成深度對(duì)象特征表示。其中fc1 層包含256×K個(gè)節(jié)點(diǎn),K代表標(biāo)簽的數(shù)量。fc2 層包含512 個(gè)節(jié)點(diǎn),且均使用ReLU 作為激活函數(shù)。
Fig.1 Architecture of OFBDH圖1 OFBDH 網(wǎng)絡(luò)結(jié)構(gòu)
文本特征學(xué)習(xí)部分,使用詞袋(bag of words,BoW)模型來(lái)對(duì)文本進(jìn)行表示,從而作為神經(jīng)網(wǎng)絡(luò)的輸入,fc4 與fc5 為兩個(gè)全連接層,用于輸出深度文本特征。其中,fc4 層使用ReLU 作為激活函數(shù),fc5 層使用的激活函數(shù)為恒等函數(shù)。
這部分內(nèi)容首先介紹了利用卷積層特征映射生成有判別力的MAC 特征的過(guò)程,然后分析了跨模態(tài)損失的構(gòu)造,最后分析了深度網(wǎng)絡(luò)的學(xué)習(xí)過(guò)程。
以每一批次(batch)中的輸入圖像為研究對(duì)象,通過(guò)分析不同維度卷積特征之間的關(guān)系,生成有判別力的卷積特征表示。假設(shè)每一個(gè)批次包含的標(biāo)簽集合為L(zhǎng)={l1,l2,…,lj,…,lK},其中K代表標(biāo)簽的數(shù)量。在每一批次中存在m幅圖像,每幅圖像都含有一個(gè)或多個(gè)標(biāo)簽。之前的研究普遍認(rèn)為極大激活卷積(maximum activations of convolutions,MAC)特征[24]能夠更好地突出對(duì)象內(nèi)容。MAC 特征生成的基礎(chǔ)為最后一個(gè)卷積層提取出的一系列特征映射,每一個(gè)特征映射中提取一個(gè)最大值,組成的向量即為圖像的MAC 特征。對(duì)于任意圖像i,從圖1 中的Conv5 層提取特征映射,并生成MAC 特征pi。由于特征映射之間存在依賴(lài)關(guān)系,因此MAC 特征不同維度之間也存在相互依賴(lài)的關(guān)系。為了解決以上問(wèn)題,本文首先提出了一種有判別力的MAC 特征。
若圖像i中存在任意標(biāo)簽lj,則將此標(biāo)簽在圖像i中的向量表示為,否則,qij中的所有元素均設(shè)置為0。其中ni為圖像i的標(biāo)簽數(shù)量。每一批次中任一標(biāo)簽的表示由本批次內(nèi)各圖像針對(duì)此標(biāo)簽的向量表示共同表示,進(jìn)而得到每一批次中標(biāo)簽的向量表示QL={ql1,ql2,…,qlj,…,qlK}。
其中,mj為本批次內(nèi)存在標(biāo)簽lj的圖像數(shù)量。
方差較大維度的特征有較好的判別性,標(biāo)簽lj在不同維度的方差表示如式(2)所示,其中V={v1,v2,…,vC},vk代表第k個(gè)維度的方差,C為特征的總維度。
在特征選擇的過(guò)程中,針對(duì)所有標(biāo)簽,首先按照方差大小對(duì)不同維度進(jìn)行排序,然后選擇方差最大的前N個(gè)維度作為此標(biāo)簽最有判別力的特征維度,在標(biāo)簽表示的時(shí)候這些維度的特征保持原值,其他C-N個(gè)維度的特征則設(shè)置為0。為了獲得不同標(biāo)簽的有判別力特征集合,本文算法設(shè)計(jì)了如下目標(biāo)函數(shù)用于求解N,目標(biāo)函數(shù)如下:
對(duì)于任意圖像i,其有判別力MAC 特征用QLi=表示,其維度為256×K。如果圖像i包含標(biāo)簽lj,則為pi保留了標(biāo)簽lj的N個(gè)維度后生成的有判別力的特征;反之,如果圖像i不包含標(biāo)簽lj,則中的每個(gè)元素均設(shè)為0。
最后,將有判別力的MAC 特征作為圖像特征學(xué)習(xí)部分的數(shù)據(jù)輸入,因此MAC 特征的維度與fc1 層的維度相同。
OFBDH 用f1(xi;θx)∈?c表示圖像模態(tài)的深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的深度圖像特征,用f2(zi;θz)∈?c表示對(duì)象模態(tài)的深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的深度對(duì)象特征,用f3(yi;θy)∈?c表示文本模態(tài)的深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的深度文本特征。其中,θx、θy和θz分別表示圖像模態(tài)、文本模態(tài)和對(duì)象模態(tài)的深度神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù),c為生成的特征維度。
跨模態(tài)損失[4,25]可以作為不同模態(tài)數(shù)據(jù)的橋梁,用于訓(xùn)練跨模態(tài)深度神經(jīng)網(wǎng)絡(luò),構(gòu)造了如下跨模態(tài)損失函數(shù):
式中,F(xiàn)∈?c×n和G∈?c×n分別代表生成的深度圖像特征和深度文本特征,B∈{-1,+1}c×n代表三種模態(tài)數(shù)據(jù)生成的統(tǒng)一的哈希碼。n為批的大小,γ和η為超參數(shù),論文中的值均為1。1 為全1 向量。
本節(jié)將介紹OFBDH 如何對(duì)θx、θy、θz以及B進(jìn)行學(xué)習(xí)。在學(xué)習(xí)的過(guò)程中,采用迭代優(yōu)化的方法依次將4 個(gè)參數(shù)中的3 個(gè)進(jìn)行固定,從而學(xué)習(xí)剩余的1項(xiàng),以下為參數(shù)的具體學(xué)習(xí)過(guò)程。
3.3.1 θx 的學(xué)習(xí)
在θy、θz和B固定的前提下,采用隨機(jī)梯度下降與反向傳播算法學(xué)習(xí)圖像模態(tài)的參數(shù)θx。對(duì)于每個(gè)隨機(jī)樣本xi,給出以下梯度計(jì)算方式:
3.3.2 θy 的學(xué)習(xí)
與θx的學(xué)習(xí)方法類(lèi)似,在θx、θz和B固定的前提下,可以利用隨機(jī)梯度下降與反向傳播算法學(xué)習(xí)文本模態(tài)參數(shù)θy。對(duì)于每個(gè)隨機(jī)樣本yj,有如下梯度計(jì)算公式:
3.3.3 θz 的學(xué)習(xí)
與更新θx和θy所使用的方法一樣,對(duì)于每個(gè)隨機(jī)樣本zi,有如下梯度計(jì)算公式:
3.3.4 B 的學(xué)習(xí)
在θx、θy和θz的前提下,可以將式(4)中的問(wèn)題重新描述為:
其中,V=γ(F+G+P)。B可以最終表示為如下公式:
其中,sign(·) 代表元素的sign 函數(shù),如果a≥0,則sign(a)=1,否則sign(a)=-1。
在跨模態(tài)檢索的過(guò)程中,對(duì)于圖像和文本模態(tài)的數(shù)據(jù),需要通過(guò)對(duì)應(yīng)模態(tài)的網(wǎng)絡(luò)生成哈希碼。給定圖像xi,生成的哈希碼如式(11)所示,對(duì)于任意文本yi,則用式(12)的方式生成哈希碼。
為了驗(yàn)證OFBDH 的效果,分別在3 個(gè)數(shù)據(jù)集MIRFLICKR-25K、IAPR TC-12 和NUS-WIDE 上進(jìn)行了實(shí)驗(yàn)。
MIRFLICKR-25K[26]數(shù)據(jù)集由25 000 張圖像組成,每一幅圖像都含有一個(gè)或多個(gè)文本標(biāo)簽,這些標(biāo)簽共分為24 類(lèi),所有數(shù)據(jù)來(lái)源于Flick 網(wǎng)站。與大部分跨模態(tài)檢索算法相同,本文只選擇至少包含20 個(gè)文本標(biāo)簽的樣本用于實(shí)驗(yàn),這樣就構(gòu)成了20 015 個(gè)圖像-文本對(duì)。每一對(duì)樣本的文本標(biāo)簽由1 386 維詞袋向量表示。
IAPR TC-12[27]數(shù)據(jù)集含有20 000 個(gè)圖像-文本對(duì),這些圖像文本對(duì)使用255 個(gè)標(biāo)簽進(jìn)行注釋?zhuān)谋緲?biāo)簽由2 912 維詞袋向量表示。
NUS-WIDE[28]數(shù)據(jù)集包含來(lái)自Flickr 網(wǎng)站的269 648 張圖像,每張圖像都含有至少1 個(gè)文本標(biāo)簽,這些文本標(biāo)簽與對(duì)應(yīng)的圖像構(gòu)成圖像-文本對(duì),這些樣本分為81 類(lèi)。選用樣本數(shù)量最多的10 類(lèi)進(jìn)行實(shí)驗(yàn)。文本標(biāo)簽則由1 000 維詞袋向量表示。
在MIRFLICKR-25K 數(shù)據(jù)集和IAPR TC-12 數(shù)據(jù)集中,本文隨機(jī)選取2 000 個(gè)樣本作為測(cè)試對(duì)象,其余作為檢索對(duì)象,從檢索對(duì)象中隨機(jī)選取10 000 個(gè)樣本用于訓(xùn)練。在NUS-WIDE 數(shù)據(jù)集中,本文選取2 100個(gè)樣本作為測(cè)試對(duì)象,其余作為檢索對(duì)象,并且從檢索對(duì)象中選取10 500 個(gè)樣本用于訓(xùn)練。
為了與DCMH 進(jìn)行比較,本文采用了與DCMH相同的參數(shù),即γ=η=1。在進(jìn)行圖像模態(tài)的網(wǎng)絡(luò)訓(xùn)練時(shí),使用CNN-F[29]作為圖像模態(tài)的神經(jīng)網(wǎng)絡(luò)架構(gòu)基礎(chǔ)。而文本模態(tài)則將BoW 向量作為網(wǎng)絡(luò)輸入。在實(shí)驗(yàn)過(guò)程中,將批大小設(shè)置為64。實(shí)驗(yàn)性能評(píng)估方面,本文采用平均精度均值(mean average precision,MAP)和精度-召回曲線(xiàn)(precision-recall curve)這兩種評(píng)估指標(biāo)對(duì)算法的有效性進(jìn)行評(píng)估。所有的實(shí)驗(yàn)均運(yùn)行10 次,并取平均值作為最終結(jié)果。
本文與6 種優(yōu)秀的跨模態(tài)哈希檢索算法進(jìn)行比較,這6 種算法分別是DCMH[4]、SDCH(semantic deep cross-modal Hashing)[30]、AADAH(attention-aware deep adversarial Hashing)[31]、DLFH[18]、SCM[6]和CCA(canonical correlation analysis)[32]。其中,CCA、SCM 與DLFH算法采用人工特征如SIFT(scale-invariant feature transform)[33]等作為圖像特征,其他算法均采用深度神經(jīng)網(wǎng)絡(luò)作為特征提取的手段。
表1 展示了不同算法在3 個(gè)數(shù)據(jù)集上的MAP 比對(duì)。表中I→T 表示查詢(xún)?yōu)閳D像模態(tài)數(shù)據(jù),而檢索數(shù)據(jù)集為文本模態(tài)數(shù)據(jù)。
與之相反,T→I 表示查詢(xún)?yōu)槲谋灸B(tài)數(shù)據(jù),而檢索數(shù)據(jù)集為圖像模態(tài)數(shù)據(jù)。從表1 中可以看出OFBDH 比其余6 種算法的檢索性能更好。CCA 和SCM 將標(biāo)簽信息融入到了文本、圖像表示中,但采用的圖像特征為人工特征,因此在眾多算法中MAP 值較低。DLFH 的優(yōu)勢(shì)在于可以為多模態(tài)數(shù)據(jù)直接生成哈希碼,減少了哈希過(guò)程中的特征損失,因此在NUS-WIDE 數(shù)據(jù)集上取得了最好的MAP,但是,由于此算法采用底層特征對(duì)圖像進(jìn)行表示,因此在數(shù)據(jù)集MIRFLICKR-25K 和IAPR TC-12 中難于獲得較好的效果。
OFBDH 的研究基礎(chǔ)為DCMH,由于OFBDH 在DCMH 基礎(chǔ)上加入了對(duì)象特征的學(xué)習(xí),使學(xué)習(xí)到的哈希碼能夠更加突出對(duì)象內(nèi)容,因此OFBDH 在3 個(gè)數(shù)據(jù)集下比DCMH 獲得了更好的MAP 值。與本文的工作類(lèi)似,AADAH 嘗試通過(guò)卷積特征發(fā)現(xiàn)對(duì)象內(nèi)容,但是AADAH 將圖像和文本特征分別區(qū)分為顯著特征(對(duì)象特征)和非顯著特征(背景特征),并沒(méi)有生成圖像和文本的全局表示。而OFBDH 既考慮了全局特征,又考慮了對(duì)象特征,因此MAP 值仍然高于AADAH。SDCH 將類(lèi)標(biāo)信息用于改進(jìn)深度特征的質(zhì)量,并采用多種損失函數(shù)用于更新網(wǎng)絡(luò),因此能夠生成第二好的MAP,但由于此方法考慮的依然是全局信息,因此OFBDH 的MAP 值在3 個(gè)數(shù)據(jù)庫(kù)中比SDCH 高出2 個(gè)百分點(diǎn)、2 個(gè)百分點(diǎn)和3 個(gè)百分點(diǎn)。
Table 1 MAP value comparison of different algorithms in database表1 不同算法在數(shù)據(jù)庫(kù)中的MAP 值比對(duì)
Fig.2 PR curves with code length 16 bit圖2 哈希長(zhǎng)度為16 bit時(shí)的PR 曲線(xiàn)
此外,隨著哈希碼長(zhǎng)度的增長(zhǎng),大部分算法的MAP 值在增加。這個(gè)現(xiàn)象的原因有兩點(diǎn):首先,更長(zhǎng)的哈希碼使得圖像、對(duì)象和文本特征能夠更好地匹配;其次,更長(zhǎng)的哈希碼能夠保存更多信息,這是因?yàn)楦L(zhǎng)的哈希碼能夠保存更多的細(xì)節(jié)信息,更利于圖像的精準(zhǔn)檢索。表1 中,通常情況下I→T 的檢索性結(jié)果低于T→I,這是因?yàn)橄鄬?duì)于圖像,文本能夠包含更高級(jí)的語(yǔ)義信息,能夠更好地刻畫(huà)圖像內(nèi)容,因此,T→I可以取得更好的結(jié)果。
圖2 為哈希碼為16 bit 前提下,不同算法在3 個(gè)數(shù)據(jù)集上的PR 曲線(xiàn)。從圖中可以發(fā)現(xiàn)OFBDH 的檢索結(jié)果仍然優(yōu)于其他算法。
γ和η的取值對(duì)于檢索結(jié)果有著重要影響,受DCMH 啟發(fā),本文在0.01 ≤γ≤2 和0.01 ≤η≤2 的范圍內(nèi)調(diào)整結(jié)果,發(fā)現(xiàn)當(dāng)γ和η的取值均為1 的時(shí)候能夠得到最好的檢索效果。由于卷積特征可以用于生成深度對(duì)象特征,在實(shí)驗(yàn)的過(guò)程中,嘗試用深度對(duì)象特征取代深度圖像特征,即不考慮深度圖像特征與深度文本特征之間的關(guān)系。實(shí)驗(yàn)結(jié)果表明,此方法比OFBDH 的MAP 值小了4 個(gè)百分點(diǎn)左右。因此,代表全局信息的圖像特征和代表內(nèi)容信息的對(duì)象特征對(duì)于跨模態(tài)檢索性能都有重要的影響。
為了進(jìn)一步驗(yàn)證卷積神經(jīng)網(wǎng)絡(luò)在跨模態(tài)檢索中的作用,本文采用AlexNet[34]與VGG19[35]代替CNNF,稱(chēng)這兩種算法分別為OFBDH_ALE 和OFBDH_VGG,MAP 值比對(duì)如表2 所示。通過(guò)此表可以發(fā)現(xiàn),當(dāng)采用不同的卷積神經(jīng)網(wǎng)絡(luò)的時(shí)候會(huì)產(chǎn)生不同的結(jié)果,并且OFBDH_VGG 的MAP 在3 個(gè)數(shù)據(jù)庫(kù)中比OFBDH 分別高出約2 個(gè)百分點(diǎn)。
本文提出了一種基于對(duì)象特征的深度哈希跨模態(tài)檢索方法,該方法通過(guò)卷積特征生成圖像表示,并且將深度圖像表示、深度對(duì)象表示與深度文本表示有機(jī)地結(jié)合起來(lái)用于跨模態(tài)網(wǎng)絡(luò)的訓(xùn)練。在三個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,OFBDH 有著優(yōu)于其他算法的檢索性能。在未來(lái)的工作中,將研究如何將文本信息進(jìn)行有效提取,從而與對(duì)象特征進(jìn)行精準(zhǔn)匹配。
Table 2 Comparison of MAP when using different CNN表2 采用不同卷積神經(jīng)網(wǎng)絡(luò)的MAP 值比對(duì)