亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多模態(tài)注意力機(jī)制的跨模態(tài)哈希網(wǎng)絡(luò)

        2022-10-17 11:10:16吳吉祥李偉霄
        關(guān)鍵詞:哈希注意力檢索

        吳吉祥,魯 芹,李偉霄

        1.齊魯工業(yè)大學(xué)(山東省科學(xué)院)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,濟(jì)南 250000

        2.中移動(dòng)信息技術(shù)有限公司 內(nèi)審部,北京 100000

        隨著多媒體時(shí)代的誕生,圖像、文本、音頻、視頻等[1-5]多模態(tài)數(shù)據(jù)信息量以爆炸式的速度急劇增長(zhǎng),使得人們對(duì)不同模態(tài)的檢索需求不斷提高。本文在調(diào)研中發(fā)現(xiàn)跨模態(tài)檢索更是受到人們的廣泛關(guān)注。為此,本文選擇圖像和文本這兩個(gè)模態(tài)來(lái)實(shí)現(xiàn)它們之間的互相檢索??缒B(tài)檢索就是利用某一種模態(tài)數(shù)據(jù)類型作為查詢來(lái)檢索出與其具有相似語(yǔ)義的另一種模態(tài)數(shù)據(jù)類型的內(nèi)容。尤其是對(duì)于圖像和文本之間的互檢索,可以通過(guò)此檢索方式來(lái)解決人們的日常生活和工作上的需求。比如,工作中想要識(shí)別出一張圖片所表達(dá)的內(nèi)容,或者用文字來(lái)查找想要搜尋的一張圖片等等。因此,研究跨模態(tài)檢索技術(shù)是一項(xiàng)很有意義的課題。為了解決這些問(wèn)題,研究選取了散列方法,因?yàn)樗哂薪档痛鎯?chǔ)成本和加快檢索速度的優(yōu)點(diǎn)。哈希方法是將模態(tài)數(shù)據(jù)從高維表示空間投射到低維漢明空間,在這個(gè)空間中,語(yǔ)義上相似的跨模態(tài)實(shí)例具有更相似的緊湊二進(jìn)制碼。

        隨著深度學(xué)習(xí)在各個(gè)領(lǐng)域的發(fā)展[6-8],多項(xiàng)研究表明通過(guò)深度學(xué)習(xí)提取的特征表示比傳統(tǒng)的淺層學(xué)習(xí)方法具有更強(qiáng)的表達(dá)能力。在當(dāng)前先進(jìn)的方法[9-11]中,選用兩個(gè)相似的結(jié)構(gòu)分支分別對(duì)圖像數(shù)據(jù)和文本數(shù)據(jù)進(jìn)行深度特征的提取,然后對(duì)提取出來(lái)的兩種不同模態(tài)的特征映射到同一個(gè)空間中,從而計(jì)算出不同模態(tài)之間的相似性。雖然這種方法已經(jīng)取得了一定的進(jìn)展,但是在使用深度學(xué)習(xí)架構(gòu)進(jìn)行跨模態(tài)檢索的過(guò)程中仍然存在一些問(wèn)題。這種深層次的特征提取出來(lái)的只是模態(tài)的全局特征信息,不足以表達(dá)模態(tài)的局部關(guān)鍵特征信息,無(wú)法挖掘不同模態(tài)間的語(yǔ)義關(guān)聯(lián),進(jìn)而會(huì)影響檢索的精度和準(zhǔn)確性。除此之外,在一些廣泛使用的數(shù)據(jù)集上進(jìn)行檢索時(shí),由于數(shù)據(jù)信息量太大而且計(jì)算量也過(guò)高,最終導(dǎo)致檢索的速度大大降低。

        針對(duì)以上跨模態(tài)檢索的精度不足和速度較慢等問(wèn)題,本文結(jié)合注意力機(jī)制和哈希方法提出了一種新的跨模態(tài)檢索方法-基于多模態(tài)注意力機(jī)制的跨模態(tài)哈希網(wǎng)絡(luò)(HX_MAN)。主要貢獻(xiàn)如下:

        (1)利用深度學(xué)習(xí)在ImageNet上預(yù)訓(xùn)練好的ResNet-152網(wǎng)絡(luò)來(lái)提取圖像的特征。除此之外,在此基礎(chǔ)上繼續(xù)提取出細(xì)粒度的圖像上下文特征,并且利用GRU來(lái)進(jìn)一步提取圖像的空間位置信息特征,最終將這兩個(gè)細(xì)粒度的特征結(jié)合起來(lái)作為圖像的全局特征。對(duì)于文本特征,通過(guò)雙向LSTM來(lái)提取特征,利用它的長(zhǎng)短期記憶功能來(lái)解決梯度爆炸問(wèn)題,并在一定程度上保留模態(tài)內(nèi)的語(yǔ)義一致性,提高相似性度量的計(jì)算。

        (2)設(shè)計(jì)了一個(gè)多模態(tài)交互門來(lái)進(jìn)行圖像和文本模態(tài)之間的細(xì)微交互,以此來(lái)挖掘不同模態(tài)之間的語(yǔ)義關(guān)聯(lián)特征,平衡它們之間的信息量和語(yǔ)義互補(bǔ)性。并輸入到注意力機(jī)制中來(lái)捕捉圖像或文本模態(tài)的局部關(guān)鍵信息特征,然后將帶有注意的特征輸入哈希函數(shù)分別得到圖像或文本的二進(jìn)制哈希碼表示。在檢索時(shí),將待查詢的任一種模態(tài)輸入以上訓(xùn)練過(guò)程來(lái)得到這個(gè)模態(tài)的哈希碼,并計(jì)算該哈希碼與檢索庫(kù)中哈希碼的漢明距離,最后根據(jù)距離大小按順序輸出檢索結(jié)果。

        (3)在NUS-WIDE數(shù)據(jù)集,MIR-Flickr25K數(shù)據(jù)集和IAPRTC-12數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)表明,新提出的HX_MAN模型的mAP值與現(xiàn)有的跨模態(tài)檢索方法相比在一定程度上有所提高,由此也驗(yàn)證了本文所提出的方法在檢索精確度上的優(yōu)越性。

        1 相關(guān)工作

        1.1 跨模態(tài)哈希

        跨模態(tài)哈希方法[12]將圖像或文本模態(tài)特征中一些不易被發(fā)現(xiàn)的信息挖掘出來(lái),以此來(lái)學(xué)習(xí)它們的哈希變換,并將這些數(shù)據(jù)信息投影到一個(gè)由哈希碼組成的二值空間,然后在這個(gè)二值空間中度量其相似性并實(shí)現(xiàn)它們之間的相互檢索。Ding等[13]提出了集合矩陣分解哈希算法(collective matrix factorization Hashing,CMFH)。CMFH假設(shè)不同模態(tài)的同一個(gè)樣本生成相同的哈希碼,并在共享的潛在語(yǔ)義空間中學(xué)習(xí)不同模態(tài)的哈希碼。Zhang等[14]提出語(yǔ)義相關(guān)性最大化(semantic correlation maximization,SCM)模型,提出將語(yǔ)義標(biāo)簽無(wú)縫地集成到大規(guī)模數(shù)據(jù)建模的哈希學(xué)習(xí)過(guò)程中。Wang等[15]提出了語(yǔ)義主題多模態(tài)哈希(semantic topic multimodal Hashing,STMH),通過(guò)魯棒性分解圖像矩陣以獲得文本的多個(gè)語(yǔ)義主題和圖像概念,然后將學(xué)習(xí)到的多峰語(yǔ)義特征通過(guò)它們的相關(guān)性轉(zhuǎn)換為一個(gè)公共子空間,從而生成哈希碼。為了捕獲更復(fù)雜的數(shù)據(jù)結(jié)構(gòu),Lin等[16]提出了語(yǔ)義保留哈希(semantics-preserving Hashing,SePH),將訓(xùn)練數(shù)據(jù)的語(yǔ)義親和力轉(zhuǎn)換為概率分布,通過(guò)最小化KL散度(Kullback-Leibler divergence)將其與漢明空間中待學(xué)習(xí)的哈希碼進(jìn)行近似。利用上述這些哈希方法可以在檢索中達(dá)到一些顯著的性能,但是這些方法大多依賴由淺層架構(gòu)提取的手工特性,不能在一定程度上區(qū)分模態(tài)間的底層關(guān)鍵特征,從而會(huì)影響到最終二進(jìn)制碼的正確表示。

        與以上的淺層學(xué)習(xí)方法相比,深度學(xué)習(xí)的方法不僅提高了哈希碼的準(zhǔn)確率,在檢索的精度和準(zhǔn)確性方面也所有提升。Jiang等[17]提出深度跨模態(tài)哈希(deep crossmodal Hashing,DCMH),將特征的提取和獲得哈希碼的過(guò)程放在同一個(gè)架構(gòu)中來(lái)訓(xùn)練,從而形成了一個(gè)端到端的學(xué)習(xí)架構(gòu),直接通過(guò)離散優(yōu)化來(lái)生成二進(jìn)制編碼,大大提高了準(zhǔn)確率。Lin等[18]提出語(yǔ)義深度跨模態(tài)哈希(semantic deep cross-modal Hashing,SDCH)方法。利用語(yǔ)義標(biāo)簽分支來(lái)改進(jìn)特征學(xué)習(xí)部分,并且利用哈希碼學(xué)習(xí)分支來(lái)保持漢明空間中不同模態(tài)之間哈希碼的一致性,以此來(lái)保留不同模態(tài)數(shù)據(jù)信息的不變性。

        1.2 注意力機(jī)制

        注意力機(jī)制是受到人類識(shí)別系統(tǒng)的啟發(fā),它的目的是將注意力鎖定在相關(guān)的特定部分,而不是無(wú)關(guān)緊要的地方。它首先被應(yīng)用于自然語(yǔ)言處理(NLP)[19]領(lǐng)域中,之后將文本注意力機(jī)制成功應(yīng)用于機(jī)器翻譯[20]、句子表示[21]和問(wèn)答系統(tǒng)[22]等任務(wù)中,并在處理長(zhǎng)期依賴關(guān)系方面取得了非常顯著的效果。后來(lái)注意力機(jī)制也被應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域,視覺注意機(jī)制被廣泛應(yīng)用于圖像分類[23-24]、圖像生成[25]、目標(biāo)檢測(cè)[26]、視覺問(wèn)答[27-28]等場(chǎng)景,以此來(lái)將圖像部分的小塊區(qū)域逐步地選取出來(lái),從而提取出圖像的關(guān)鍵信息,將需要處理的數(shù)據(jù)量不斷降低。

        隨著注意力機(jī)制的提出,許多學(xué)者開始將注意力機(jī)制引入并應(yīng)用到跨模態(tài)圖像檢索中。Cao等[29]提出跨注意力網(wǎng)絡(luò),利用并行注意網(wǎng)絡(luò)來(lái)獨(dú)立學(xué)習(xí)圖像和配方中組件的注意權(quán)重。Peng等[30]提出一種雙監(jiān)督注意力網(wǎng)絡(luò),使用跨模態(tài)注意塊來(lái)有效編碼豐富且相關(guān)的特征,以此來(lái)學(xué)習(xí)緊湊的哈希碼。

        上述方法表明注意力感知能夠檢測(cè)多模態(tài)數(shù)據(jù)的關(guān)鍵信息區(qū)域,有助于識(shí)別不同模態(tài)數(shù)據(jù)之間的內(nèi)容相似性。注意交互模塊利用了注意機(jī)制提取不同模態(tài)數(shù)據(jù)的交互特征和底層細(xì)節(jié)特征。

        2 模型的建立

        本章主要介紹了本文提出的基于多模態(tài)注意力機(jī)制的跨模態(tài)哈希網(wǎng)絡(luò)模型建立的實(shí)現(xiàn)細(xì)節(jié)。HX_MAN模型如圖1所示,主要包括訓(xùn)練模塊和檢索模塊兩個(gè)部分。其中訓(xùn)練模塊主要包括以下部分:提取圖像特征以及文本特征;利用多模態(tài)注意力機(jī)制來(lái)對(duì)圖像模態(tài)的特征和文本模態(tài)的特征進(jìn)行細(xì)微的交互,提取出圖像和文本模態(tài)內(nèi)部更為精煉的關(guān)鍵特征信息;最后學(xué)習(xí)這兩種模態(tài)的哈希表示。而在檢索模塊中,將需要查詢的圖像模態(tài)或者文本模態(tài)輸入到訓(xùn)練模塊中,得到圖像或文本的二進(jìn)制哈希碼。然后將它們輸入到查詢檢索庫(kù)中,通過(guò)漢明距離公式來(lái)計(jì)算該哈希碼與檢索庫(kù)中哈希碼的值,最后根據(jù)漢明距離值得大小順序從小到大依次輸出檢索結(jié)果,得到需要的圖像或文本列表。

        圖1 HX_MAN的模型結(jié)構(gòu)圖Fig.1 Model structure diagram of HX_MAN

        2.1 訓(xùn)練模塊

        在訓(xùn)練模塊中,本文利用深度學(xué)習(xí)強(qiáng)大的特征提取能力來(lái)提取圖像和文本模態(tài)的全局粗粒度特征,又通過(guò)多模態(tài)注意力機(jī)制來(lái)對(duì)不同的模態(tài)進(jìn)行細(xì)微的交互,以此來(lái)搜索圖像與文本特征之間在底層上的細(xì)粒度關(guān)聯(lián),然后關(guān)注這些細(xì)粒度特征的局部信息,從而能夠在一定程度上解決不同模態(tài)之間的語(yǔ)義不相關(guān)的問(wèn)題,并從深層次的網(wǎng)絡(luò)中表達(dá)出模態(tài)的特征信息。

        2.1.1 特征的提取和表示

        在這一部分的圖像和文本特征提取中,選取了經(jīng)過(guò)預(yù)訓(xùn)練的CNN來(lái)提取圖像特征,而對(duì)于文本特征的提取,采用了循環(huán)神經(jīng)網(wǎng)絡(luò)中的Bi-LSTM來(lái)提取文本的特征。

        (1)圖像表示。使用在ImageNet[31]上預(yù)訓(xùn)練的ResNet-152[32]用于圖像特征提取。將其維度通過(guò)預(yù)處理調(diào)整為448×448,調(diào)整完之后把它們輸入到CNN中。在此步驟中,采用了一個(gè)通用的CNN框架用于調(diào)節(jié)其中的主要參數(shù)以獲取更好的粗粒度特征,首先從概率上權(quán)衡了粗粒度特征在池化層上的判別性與不變性,并在CNN中選擇合適的卷積范圍和池化參數(shù),然后通過(guò)分析池化域內(nèi)特征的稀疏度選擇平均池化方法以獲取具有更好可分離性的粗粒度池化特征,在提取粗粒度特征過(guò)程中,由于直接使用了平均池化的提取方式,其作用可以直接替代全連接層。因?yàn)樵诒疚牡奶卣魈崛∧P瓦^(guò)程中不使用全連接層,模型的檢準(zhǔn)率并沒有降低,而模型的大小卻極大地減少。因此,做了一些改變,將最后的全連接去除掉。為了獲得不同區(qū)域的特征向量,將最終的平均池化層之前的ResNet-152特征圖作為圖像的粗粒度特征I∈R7×7×2048。其中M=2 048表示圖像區(qū)域的個(gè)數(shù),圖像中的第i個(gè)區(qū)域用7×7維的特征向量Ii(i∈[1,M])表示。在得到圖像的粗粒度特征之后,將2 048個(gè)區(qū)域的特征按照順序逐步輸入到本文模型中。為了描述的方便性,用一組描述符{I1,I2,…,IM}來(lái)表示這些輸入圖像。為了得到更深層次的特征信息,并以此來(lái)表達(dá)圖像的上文下信息,提取了圖像的全局上下文特征I(g),該特征已被驗(yàn)證可以有效地建模局部特征表示上的豐富上下文信息。具體來(lái)說(shuō),通過(guò)給定的粗粒度特征向量{I1,I2,…,IM}來(lái)表示輸入圖像中所有M個(gè)區(qū)域的特征,計(jì)算出圖像的全局上下文特征:

        其中,tanh()是一個(gè)激活函數(shù),用來(lái)對(duì)特征向量做一次非線性映射,將特征投射到一個(gè)公共子空間中,P(0)是一個(gè)權(quán)重矩陣,通過(guò)這個(gè)矩陣可以將圖像特征向量和文本特征向量嵌入到同一個(gè)公共空間中。

        有時(shí)候,在視覺上看到的效果可能和圖像的潛在表達(dá)信息有些誤差,導(dǎo)致人們的判斷錯(cuò)誤,出現(xiàn)這種問(wèn)題的原因是忽略了圖像的空間位置信息[33]。如圖2所示,左邊兩幅圖像一眼看上去都有“汽車”和“男人”這兩個(gè)相同的角色,但是它們所要表達(dá)的信息完全不同。

        圖2 視覺-空間位置信息和語(yǔ)義互補(bǔ)的重要性比較圖Fig.2 Comparison of importance of visual-spatial location information and semantic complementarity

        如果僅僅使用上面提到的粗粒度特征,就很難把這兩幅圖像區(qū)別出來(lái),因?yàn)槠骄鼗僮鲗?dǎo)致空間位置的丟失。相反,可以很容易地根據(jù)平面位置來(lái)區(qū)分兩幅圖像,由此可以說(shuō)明空間位置信息對(duì)于全局信息是有效的互補(bǔ)。為此本文選擇通過(guò)GRU來(lái)進(jìn)一步剖析圖像的空間位置信息,從而能夠更好地在視覺上辨別出兩幅圖像。GRU作為一種特殊類型的循環(huán)神經(jīng)網(wǎng)絡(luò),它的參數(shù)少而且計(jì)算效率也非常高,能夠?qū)D像粗粒度特征之間的空間位置信息進(jìn)行建模。具體來(lái)說(shuō),對(duì)于得到的圖像特征{I1,I2,…,IM},首先根據(jù)空間順序?qū)⑺鼈兘M織起來(lái),然后將它們按照區(qū)域順序輸入到GRU中用于輸出它們之間的位置特征。這個(gè)過(guò)程可用公式(2)來(lái)定義:

        最后,將圖像的兩個(gè)重要的特征信息I(g)和I(d)通過(guò)相加的方式將它們的特征信息總結(jié)在一起,這樣就得到了最終圖像的全局特征向量I(0):

        (2)文本表示。對(duì)于文本的特征表示方面,使用雙向LSTMs作為特征提取器來(lái)生成文本的粗粒度特征。假設(shè)文本輸入用{w1,w2,…,wL}表示,將其中每個(gè)單詞首先用word2vec模型進(jìn)行向量化表示,以此來(lái)表征每個(gè)單詞在表中的索引。將各個(gè)單詞向量通過(guò)eL=PwL嵌入到向量空間中,其中P是嵌入矩陣。最后將這些向量按空間順序排列好并輸入到雙向LSTMs中。此過(guò)程可由公式(4)來(lái)表示:

        對(duì)于文本模態(tài)的深層次特征提取方面,在提取文本的粗粒度特征時(shí),每個(gè)片段都繼承了上一時(shí)刻的順序信息。所以不用像圖像特征的提取方式那樣分別提取兩種重要的特征信息,只使用均值池化來(lái)把文本的粗粒度特征生成文本的全局特征T(0),其中T(0)對(duì)文本模態(tài)的所有句子中的第i個(gè)單詞的上下文語(yǔ)義進(jìn)行編碼:

        2.1.2 多模態(tài)注意力模塊

        在之前的大部分檢索方法[34]中,它們只是將不同模態(tài)的全局特征信息訓(xùn)練出來(lái),然后將這些特征信息通過(guò)數(shù)學(xué)方法投影到一個(gè)共同的空間中來(lái)度量每個(gè)圖像區(qū)域和單詞之間的相似度。這種方法雖然能在一定程度上度量出它們的相似度,但是這些全局特征信息不僅消耗計(jì)算資源多而且不能將模態(tài)的關(guān)鍵信息表現(xiàn)出來(lái),更不能在底層挖掘出它們之間的深度關(guān)系,從而降低了檢索的精度。

        在接下來(lái)很長(zhǎng)的一段時(shí)間內(nèi),當(dāng)多模態(tài)領(lǐng)域的研究發(fā)展停滯不前時(shí),學(xué)者們提出了注意力機(jī)制[35]并被廣泛應(yīng)用到各個(gè)領(lǐng)域。受到前者的啟發(fā),對(duì)已有的方法進(jìn)行了創(chuàng)新和改進(jìn)并且提出了一種新的注意力機(jī)制。注意力機(jī)制在各個(gè)領(lǐng)域都有很多的貢獻(xiàn),正如看到它的表面意思,“注意”的目的是為了尋找出哪一部分最需要被重視。利用這種方法的局部信息提取能力,可以很容易地將模態(tài)內(nèi)的關(guān)鍵信息展現(xiàn)出來(lái),從而能夠更好地剖析不同模態(tài)內(nèi)部之間的特征信息匹配度。

        雖然上述方法在一定程度上能夠增加圖像和句子的局部關(guān)鍵信息量[36],并且其性能比其他那些不利用此方法的模型更優(yōu)。但是這種方法只是將圖像或文本模態(tài)各自的關(guān)鍵區(qū)域部分挖掘出來(lái),并沒有完成異構(gòu)數(shù)據(jù)間的交互,所以在捕捉不同模態(tài)之間的語(yǔ)義關(guān)聯(lián)方面還存在一定的問(wèn)題。如圖2所示,右邊兩幅圖像的語(yǔ)言描述在語(yǔ)義上非常接近,但是在視覺觀察上還是很難將這兩幅圖像區(qū)分開來(lái)。其中的原因是只關(guān)注了文本模態(tài)的關(guān)鍵信息,卻沒有考慮到視覺部分與文本之間的語(yǔ)義互補(bǔ)性。

        針對(duì)以上問(wèn)題,在借助注意力機(jī)制之前增加了多模態(tài)交互門來(lái)將圖像和文本模態(tài)進(jìn)行交互,利用不同模態(tài)之間存在的語(yǔ)義互補(bǔ)性來(lái)增強(qiáng)圖像和文本的表示能力。這個(gè)交互門能夠?qū)⒓?xì)粒度的圖像特征與詞匯的抽象表征進(jìn)行細(xì)微的融合,并且能夠通過(guò)它們之間的交互使得不同的模態(tài)語(yǔ)義互補(bǔ),從而挖掘出它們之間的底層關(guān)聯(lián)關(guān)系,提高檢索的精度。

        在最初的實(shí)驗(yàn)設(shè)計(jì)階段,本文認(rèn)為將圖像和文本特征進(jìn)行交互的最簡(jiǎn)單方式就是直接將它們相加。但是,隨著實(shí)驗(yàn)的進(jìn)行,發(fā)現(xiàn)這種直接相加的方式在實(shí)踐中可能會(huì)導(dǎo)致相對(duì)較差的性能。這可能是因?yàn)閳D像上下文特征和文本上下文特征在訓(xùn)練階段使用的提取方法不一樣。如果以這種簡(jiǎn)單的方式來(lái)將它們?nèi)诤?,在此過(guò)程中可能會(huì)有某種模態(tài)的有意義的部分信息被其他的模態(tài)所遮蓋。針對(duì)這種模態(tài)信息被遮蓋的問(wèn)題,為了將這兩個(gè)來(lái)自不同模態(tài)的特征進(jìn)行底層的交互,設(shè)計(jì)了交互門來(lái)將圖像特征和文本特征實(shí)現(xiàn)語(yǔ)義互補(bǔ)。

        具體來(lái)說(shuō),如圖1所示,將圖像和文本的上下文特征向量I(0)和T(0)輸入到語(yǔ)義互補(bǔ)的交互門中,以進(jìn)行它們之間的交互。這個(gè)過(guò)程可由公式(6)表示:

        其中,UI和UT是可以降維的矩陣,α是防止圖像和文本上下文特征進(jìn)行融合過(guò)程中信息量丟失的參數(shù)。最后通過(guò)sigmoid激活函數(shù)σ來(lái)將交互過(guò)程中的每個(gè)特征再次減小到[0,1]。o(I)和o(T)分別表示由多模態(tài)交互門輸出得到的更為精煉的特征向量。為了方便起見,分別把它們稱為多模態(tài)圖像上下文特征和文本上下文特征。

        在將圖像和文本特征進(jìn)行底層的交互并且通過(guò)語(yǔ)義互補(bǔ)性來(lái)獲得它們之間的語(yǔ)義關(guān)聯(lián)之后,可以借助注意力機(jī)制來(lái)捕捉和檢測(cè)圖像或文本模態(tài)內(nèi)的局部關(guān)鍵信息。注意力機(jī)制被提出來(lái)是為了能夠在學(xué)習(xí)之后捕捉到所需要的東西,把那些不重要的信息區(qū)域直接無(wú)視掉,它一般在學(xué)習(xí)得到結(jié)果之后以概率圖或者概率特征向量輸出。設(shè)計(jì)多模態(tài)注意力[37]的目的是獨(dú)立利用具有語(yǔ)義互補(bǔ)性的多模態(tài)圖像或文本上下文特征的數(shù)據(jù)信息來(lái)探索多個(gè)圖像區(qū)域或單詞之間的細(xì)粒度關(guān)聯(lián)關(guān)系。此過(guò)程是通過(guò)計(jì)算圖像區(qū)域或文本局部特征的凸組合來(lái)實(shí)現(xiàn)的。

        具體來(lái)說(shuō),對(duì)于圖像的多模態(tài)注意力模塊,如圖1所示,將得到的圖像特征向量{I1,I2,…,IM}和多模態(tài)圖像上下文特征o(I)作為查詢輸入到圖像的多模態(tài)注意力函數(shù)fatt(·,·)中來(lái)計(jì)算得到每個(gè)圖像區(qū)域的注意力權(quán)重αI,m。圖像的多模態(tài)注意力函數(shù)fatt(·,·)采用兩層前饋感知器,并通過(guò)softmax函數(shù)來(lái)保證整個(gè)過(guò)程中的權(quán)重不會(huì)失衡。在注意力模塊的權(quán)重計(jì)算中,引入AdamW優(yōu)化器(adaptive moment weight decay optimizer),以此來(lái)更新注意力模型的網(wǎng)絡(luò)參數(shù),使其逼近或達(dá)到最優(yōu)值,從而最小化模型的損失,還能在一定程度上提高模型訓(xùn)練的速度。具體而言,注意力權(quán)重αI,m的計(jì)算過(guò)程可由公式(7)來(lái)定義:

        其中,wI、wI,q和wI,h是感知器的參數(shù),bI、bI,q和bI,h是感知器的偏置項(xiàng),hI,m表示圖像多模態(tài)注意力函數(shù)中時(shí)間步長(zhǎng)為m處的隱藏狀態(tài),tanh()是一個(gè)激活函數(shù)。在得到每個(gè)圖像區(qū)域的注意力權(quán)重之后,就可以通過(guò)加權(quán)平均來(lái)計(jì)算帶有注意的圖像特征表示向量I(1):

        與圖像的多模態(tài)注意力模塊設(shè)置的目的一樣,就是為了將文本句子中的詞匯通過(guò)注意力機(jī)制來(lái)表示出抽象的高級(jí)表征,從而提取出帶有多模態(tài)注意的上下文語(yǔ)義特征。注意力權(quán)重αT,l也是由兩層前饋感知器和softmax函數(shù)組成的軟注意模塊得到的,文本的多模態(tài)上下文特征向量T(1)可由以下公式來(lái)定義:

        其中,wT、wT,q和wT,h分別是感知器的參數(shù),bT、bT,q和bT,h是感知器的偏置項(xiàng),hT,l表示多模態(tài)文本注意在時(shí)間步長(zhǎng)l處的隱藏狀態(tài)。與圖像的多模態(tài)注意力模塊不同的是,文本的多模態(tài)注意力已經(jīng)不需要在加權(quán)平均后添加嵌入層,因?yàn)槲谋咎卣鱷T1,T2,…,TL}已經(jīng)存在于公共空間中,并通過(guò)端到端方式進(jìn)行訓(xùn)練。

        2.1.3 哈希層模塊

        在哈希模塊中,分別將帶有多模態(tài)注意的圖像特征I(1)和文本特征T(1)輸入到哈希層中,通過(guò)學(xué)習(xí)哈希函數(shù)得到不同模態(tài)特征的二進(jìn)制表示。在哈希層中,tanh的激活函數(shù)使得每個(gè)神經(jīng)元的輸出在-1到1之間,閾值為0的sign函數(shù)再將其轉(zhuǎn)換成二進(jìn)制編碼。編碼值為1代表神經(jīng)元的輸出大于或等于0;編碼值為0,代表輸出小于0。圖像和文本的哈希函數(shù)分別如公式(10)和公式(11)所示:

        其中,w(I)和w(T)分別是圖像或文本模態(tài)的網(wǎng)絡(luò)參數(shù),b(I)和b(T)是感知器的偏置項(xiàng),HI和HT分別為圖像和文本的哈希表示。

        2.2 檢索模塊

        在以上的訓(xùn)練模塊中,利用深度學(xué)習(xí)的底層特征挖掘能力和注意力機(jī)制捕捉局部關(guān)鍵特征信息的優(yōu)勢(shì)將圖像模態(tài)或文本模態(tài)的特征通過(guò)哈希函數(shù)得到了它們各自的二進(jìn)制哈希碼表示。于是在進(jìn)行跨模態(tài)檢索時(shí),將任意一個(gè)模態(tài)的樣本作為查詢對(duì)象,可以檢索到與之相似的另一個(gè)不同模態(tài)的樣本。具體來(lái)說(shuō),如圖1所示,對(duì)于圖像查詢,用戶將待查詢的圖像輸入到訓(xùn)練模塊來(lái)將圖像特征轉(zhuǎn)化為訓(xùn)練好的二進(jìn)制哈希碼的形式,并將訓(xùn)練好的哈希碼輸入到待檢索的查詢庫(kù)中,計(jì)算該哈希碼與檢索庫(kù)中哈希碼的漢明距離,依據(jù)漢明距離的大小順序從小到大依次輸出前k個(gè)檢索結(jié)果;相似地,對(duì)于文本查詢來(lái)說(shuō),用戶將文本數(shù)據(jù)作為查詢對(duì)象,通過(guò)訓(xùn)練模塊中端到端的網(wǎng)絡(luò)框架來(lái)得到文本模態(tài)的哈希碼,然后計(jì)算與待檢索數(shù)據(jù)庫(kù)中哈希碼之間的漢明距離并排序,最終輸出檢索到的前k個(gè)圖片。

        2.3 方法比較

        考慮到近期的跨模態(tài)檢索任務(wù)中大家都將注意力機(jī)制引入到其中來(lái),為此,本節(jié)將新提出的HX_MAN模型與已有的先進(jìn)模型進(jìn)行比較并且說(shuō)明它們的區(qū)別。

        對(duì)于模態(tài)內(nèi)部的注意機(jī)制而言,本文的HX_MAN模型與自我注意嵌入(SAE)[38]有些相似,但是SAE只是關(guān)注全局圖像特征來(lái)計(jì)算,而本文模型利用了圖像的空間位置特征,同時(shí)對(duì)模態(tài)的全局語(yǔ)義信息和順序信息進(jìn)行編碼,從而能夠?qū)⒛B(tài)內(nèi)部的特征重點(diǎn)提取出來(lái)。除此之外,本文的HX_MAN模型與其他引入注意力機(jī)制[9]的方法相比,多了一種交互門來(lái)將不同模態(tài)的特征進(jìn)行細(xì)微的交互,以此來(lái)挖掘不同模態(tài)之間的語(yǔ)義關(guān)聯(lián)特征,平衡它們之間的信息量和語(yǔ)義互補(bǔ)性。最重要的是,本文方法在引入注意力機(jī)制并且確保檢索的精確度的同時(shí),還引入了哈希方法來(lái)保證檢索的速度,從而能夠讓檢索更加高效。

        3 實(shí)驗(yàn)結(jié)果與分析

        在本章中,將在三個(gè)廣泛使用的數(shù)據(jù)集上對(duì)提出的HX_MAN方法進(jìn)行評(píng)估,并且將此方法與當(dāng)前先進(jìn)的幾種方法利用兩種評(píng)估指標(biāo)進(jìn)行比較和分析。

        3.1 數(shù)據(jù)集及評(píng)估指標(biāo)

        (1)數(shù)據(jù)集

        NUS-WIDE數(shù)據(jù)集[39]是由一個(gè)媒體搜索實(shí)驗(yàn)室創(chuàng)建的大型網(wǎng)絡(luò)圖像數(shù)據(jù)集。數(shù)據(jù)集包含在Flickr網(wǎng)站上搜集到的260 648張圖像和5 018個(gè)不同的類標(biāo)簽。每幅圖像都有其相對(duì)應(yīng)的文本標(biāo)注并且構(gòu)成圖像-文本對(duì)。這些對(duì)圖像進(jìn)行描述的文本是用戶在上傳圖像時(shí)對(duì)其用單詞連貫起來(lái)的一組句子。本文基于這個(gè)數(shù)據(jù)集中的20類最常用標(biāo)簽的194 600個(gè)圖像-文本對(duì)進(jìn)行了基準(zhǔn)方法的分析,每對(duì)數(shù)據(jù)的文本都表示為一個(gè)1 000維的bag-of-words(BOW)向量。如果圖像和文本有其中一個(gè)相同概念的標(biāo)簽,則認(rèn)為它們之間是相似的,否則認(rèn)為它們不相似。

        MIR-Flickr25K數(shù)據(jù)集[40]包含從Flickr網(wǎng)站上收集的25 000張多標(biāo)簽圖像,24個(gè)人工標(biāo)注的類別標(biāo)簽。本文的實(shí)驗(yàn)數(shù)據(jù)選取至少有20個(gè)文本標(biāo)記的圖像-文本對(duì),一共得到了20 015對(duì)數(shù)據(jù),每對(duì)數(shù)據(jù)都用24類標(biāo)簽中的一個(gè)來(lái)標(biāo)記。每對(duì)數(shù)據(jù)的文本都表示為1 386維的BOW向量。如果圖像和文本有相同的標(biāo)簽,則認(rèn)為它們之間是相似的,否則認(rèn)為它們不相似。

        IAPR TC-12[41]數(shù)據(jù)集包含20 000張圖像,每幅圖像都有一個(gè)文本標(biāo)題。圖像-文本對(duì)被標(biāo)記為255個(gè)標(biāo)簽。對(duì)于文本形態(tài),采用2 912維詞袋向量表示文本特征。如果圖像和文本有相同的標(biāo)簽,則認(rèn)為它們之間是相似的,否則認(rèn)為它們不相似。

        在數(shù)據(jù)集的拆分方面,將MIR-Flickr25K數(shù)據(jù)集和IAPR TC-12數(shù)據(jù)集中隨機(jī)選擇的2 500對(duì)數(shù)據(jù)作為查詢集,剩下的數(shù)據(jù)對(duì)作為檢索集。此外,將隨機(jī)抽取的10 000對(duì)檢索集作為它們的訓(xùn)練集。對(duì)于NUS-WIDE數(shù)據(jù)集,隨機(jī)選取數(shù)據(jù)集的1%作為查詢集,剩下的作為檢索集。此外,從檢索集中隨機(jī)抽取10 500對(duì)作為訓(xùn)練集。

        (2)評(píng)估指標(biāo)

        為了驗(yàn)證本文所提出的HX_MAN模型在跨模態(tài)檢索任務(wù)中的性能,選用了兩種廣泛使用的評(píng)估指標(biāo):平均準(zhǔn)確率均值(mean average precision,mAP)和精確率召回率(precision-recall,PR)曲線。

        mAP是一種標(biāo)準(zhǔn)的用來(lái)衡量漢明排名準(zhǔn)確度的評(píng)價(jià)指標(biāo),mAP值的計(jì)算公式如公式(12)所示:

        其中,|Q|表示查詢數(shù)據(jù)集Q的大小,q表示給定的一個(gè)查詢,AP表示均值準(zhǔn)確度(average precision):

        其中,M表示q在查詢數(shù)據(jù)中真實(shí)近鄰的個(gè)數(shù),n表示數(shù)據(jù)的總量,Pq(i)表示前i個(gè)被檢索到的實(shí)例的精度,δ(i)是一個(gè)指示函數(shù),當(dāng)δ(i)=1時(shí),表示第i個(gè)實(shí)例與被檢索的實(shí)例是相關(guān)的,而δ(i)=0時(shí)則表示不相關(guān)。

        而PR曲線是以精確率和召回率這兩個(gè)變量做出的曲線,被廣泛用于評(píng)估哈希檢索的性能。

        3.2 基準(zhǔn)方法分析

        在實(shí)驗(yàn)的最后,用本文提出的HX_MAN模型與幾種現(xiàn)有的跨模態(tài)檢索方法利用mAP和PR曲線兩種指標(biāo)進(jìn)行了對(duì)比,以此來(lái)驗(yàn)證本文提出的模型的性能。為了能夠達(dá)到所預(yù)期的結(jié)果,不僅與基于哈希算法的模型進(jìn)行了比較,還與典型關(guān)聯(lián)分析[42]和基于子空間學(xué)習(xí)的方法[43]進(jìn)行了比較。其中基于哈希算法的模型中,不僅包括基于淺層結(jié)構(gòu)的方法(CMFH[13]、SCM[14]、STMH[15]、SePH[16]),而且還有兩種基于深層結(jié)構(gòu)的方法(DCMH[17]和SDCH[18])。

        3.2.1 實(shí)驗(yàn)對(duì)比方法

        (1)mAP值的對(duì)比

        在NUS-WIDE數(shù)據(jù)集、MIR-Flickr25K數(shù)據(jù)集和IAPR TC-12數(shù)據(jù)集上對(duì)比了編碼長(zhǎng)度為16位、32位和64位的每個(gè)模型方法的mAP值。對(duì)比數(shù)據(jù)如表1所示。其中,“圖像→文本”表示查詢數(shù)據(jù)為圖像模態(tài),檢索數(shù)據(jù)為文本模態(tài);而“文本→圖像”則表示查詢數(shù)據(jù)為文本模態(tài),檢索數(shù)據(jù)為圖像模態(tài)。

        表1 HX_MAN模型與其他模型的mAP值對(duì)比數(shù)據(jù)Table 1 Comparison of mAP values between HX_MAN model and other models

        根據(jù)表中的對(duì)比數(shù)據(jù)可以看出,基于深度學(xué)習(xí)的算法的性能明顯優(yōu)于傳統(tǒng)的算法,而在基于哈希算法的模型中,基于深層結(jié)構(gòu)的方法性能也略優(yōu)于基于淺層結(jié)構(gòu)的方法。

        (2)PR曲線的對(duì)比

        如圖3所示,在三個(gè)廣泛使用的數(shù)據(jù)集上使用編碼長(zhǎng)度為16位的哈希碼進(jìn)行實(shí)驗(yàn)的對(duì)比。給定任意的漢明半徑,可以計(jì)算出精確率和召回率的值。將漢明半徑在0~16之間進(jìn)行改變,可以得到PR曲線。PR曲線位置越高,其檢索性能就越好。(3)檢索速度對(duì)比

        圖3 三個(gè)數(shù)據(jù)集上的PR曲線圖Fig.3 PR graphs over three datasets

        除了驗(yàn)證本模型的準(zhǔn)確率之外,還對(duì)不同模型的平均檢索速度進(jìn)行了計(jì)算和對(duì)比。具體來(lái)說(shuō),對(duì)不同模型的檢索時(shí)間進(jìn)行累加求均值的方式來(lái)計(jì)算出每個(gè)模型的平均檢索時(shí)間,以此來(lái)驗(yàn)證模型的檢索速率。在NUS-WIDE數(shù)據(jù)集上使用編碼長(zhǎng)度16位的哈希碼對(duì)JFSSL、SDCH和HX_MAN進(jìn)行實(shí)驗(yàn)的對(duì)比,一共檢索了30次,每個(gè)模型的平均檢索時(shí)間如表2所示。由表2可以看出,本文的模型相較于傳統(tǒng)方法時(shí)間明顯降低。而相較于基于哈希方法的模型,本文的模型在檢索速度方面也略有提升,這也驗(yàn)證了引入AdamW優(yōu)化器的優(yōu)勢(shì),其可以在訓(xùn)練模型參數(shù)的時(shí)候提升訓(xùn)練速度,繼而對(duì)整個(gè)模型的檢索性能產(chǎn)生影響,在一定程度上提升整個(gè)模型的速率。

        表2 HX_MAN模型與其他模型的檢索時(shí)間對(duì)比Table 2 Comparison of retrieval time between HX_MAN model and other models

        通過(guò)以上三種評(píng)估指標(biāo)的數(shù)據(jù)可以看出,本文提出的模型在提升檢索的性能方面取得了很好的有效性。這是因?yàn)楸疚哪P统浞挚紤]了圖像和文本模態(tài)數(shù)據(jù)之間的細(xì)微交互,使得兩種模態(tài)之間的語(yǔ)義特征信息緊密關(guān)聯(lián)起來(lái),而其他基于哈希算法的模型在改進(jìn)特征學(xué)習(xí)部分僅針對(duì)單個(gè)模態(tài)。比如SDCH和STMH模型只考慮的是文本模態(tài)的標(biāo)簽信息和潛在的語(yǔ)義信息,這樣不能很好地平衡不同模態(tài)之間的信息量,從而會(huì)影響檢索的性能。同時(shí)也在一定程度上說(shuō)明了圖像和文本模態(tài)通過(guò)交互門和多模態(tài)注意力機(jī)制的交互作用能夠更好地將特征信息關(guān)聯(lián)在一起,而且由深度學(xué)習(xí)提取的深層次特征也大大提高了跨模態(tài)檢索的精確度,由此也說(shuō)明了本文所提出的模型在跨模態(tài)檢索方面取得了一定的進(jìn)展。

        3.2.2 模型配置

        在本文實(shí)驗(yàn)中,為了獲取豐富的特征信息,對(duì)整個(gè)模型的超參數(shù)進(jìn)行設(shè)置。

        (1)圖像特征

        首先需要對(duì)輸入數(shù)據(jù)進(jìn)行預(yù)處理操作,圖片數(shù)據(jù)的預(yù)處理主要對(duì)圖片的大小進(jìn)行裁剪為448×448的尺寸;數(shù)據(jù)預(yù)處理完成以后,將數(shù)據(jù)輸入到ImageNet上預(yù)訓(xùn)練的ResNet-152網(wǎng)絡(luò)模型來(lái)提取。將提取到的特征按順序逐步輸入到GRU中。網(wǎng)絡(luò)中的所有參數(shù)使用均值為0、標(biāo)準(zhǔn)差為0.01的高斯函數(shù)隨機(jī)初始化。模型采用反向梯度訓(xùn)練下降算法Adam(adaptive moment estimation)優(yōu)化器來(lái)訓(xùn)練網(wǎng)絡(luò),其中momentum=0.9,batch值為64,總epoch為100,學(xué)習(xí)率為0.005,每20次迭代后學(xué)習(xí)率變?yōu)楫?dāng)前值的1/10。

        (2)文本特征

        文本數(shù)據(jù)的預(yù)處理先將文本分詞,再將文本中一些不常用的詞和停用詞去掉,最后利用word2vec模型對(duì)預(yù)處理的文本進(jìn)行向量化。其中詞向量的維度size=100,詞向量上下文最大距離window=5,隨機(jī)梯度下降法中迭代的最大次數(shù)設(shè)置為100。將預(yù)訓(xùn)練的詞向量初始化為詞嵌入矩陣,利用詞嵌入矩陣將輸入的數(shù)據(jù)中的詞轉(zhuǎn)換為詞向量,維度[batch_size,sequence_length,embedding_size]。網(wǎng)絡(luò)中的所有參數(shù)使用均值為0、標(biāo)準(zhǔn)差為0.01的高斯函數(shù)隨機(jī)初始化。模型采用Adam優(yōu)化器來(lái)訓(xùn)練網(wǎng)絡(luò),其中momentum=0.9,batch_size值為256,總epoch為100,學(xué)習(xí)率為0.000 1,每10次迭代后學(xué)習(xí)率變?yōu)楫?dāng)前值的1/10。

        (3)優(yōu)化器

        將上述圖像和文本特征輸入到注意力模塊來(lái)計(jì)算權(quán)重,采用AdamW優(yōu)化器來(lái)對(duì)注意力權(quán)重進(jìn)行更新,其中該優(yōu)化器公式為:

        其中,參數(shù)設(shè)置為lr=0.001,β1=0.9,β2=0.999,ε=10-8,λ即為權(quán)重衰減因子,本文設(shè)置為0.005/0.01。

        3.3 消融實(shí)驗(yàn)

        本研究將MIR-Flickr25K數(shù)據(jù)集中隨機(jī)抽取的10 000對(duì)數(shù)據(jù)作為訓(xùn)練集,剩下的作為測(cè)試集進(jìn)行實(shí)驗(yàn)。為了驗(yàn)證本研究所提出的模型的有效性,對(duì)模型自身進(jìn)行消融分析。

        在消融實(shí)驗(yàn)中,保持對(duì)應(yīng)參數(shù)不變的情況下,通過(guò)刪除或替換本研究模型中的某個(gè)模塊進(jìn)行消融研究。在MIR-Flickr25K數(shù)據(jù)集上進(jìn)行了去除GRU模塊只保留圖像的粗粒度特征,去除交互門直接將圖像或文本特征輸入到注意力機(jī)制中,將AdamW優(yōu)化器替換成SGD優(yōu)化器實(shí)驗(yàn),其他參數(shù)設(shè)置保持不變。表3為在MIRFlickr25K數(shù)據(jù)集上進(jìn)行的消融研究。

        通過(guò)表3中各消融實(shí)驗(yàn)的結(jié)果可以看出,根據(jù)空間位置輸入到GRU中來(lái)提取圖像的空間位置信息,能夠有效地互補(bǔ)圖像的全局特征信息,以防丟失圖像的潛在表達(dá)信息。而模型中最重要的交互門模塊能夠?qū)煞N模態(tài)的信息在底層交互,并通過(guò)語(yǔ)義互補(bǔ)來(lái)獲得它們之間的語(yǔ)義關(guān)聯(lián),從而可以有效地彌補(bǔ)兩種模態(tài)在訓(xùn)練過(guò)程中的部分有意義的信息被遮蓋的問(wèn)題。在將優(yōu)化器替換成SGD優(yōu)化器的過(guò)程中,可以很明顯地看出AdamW優(yōu)化器的改善性,而且其收斂速度也較SGD優(yōu)化器快。綜上可以看出,本文模型中每個(gè)模塊的引入都有其獨(dú)特的優(yōu)勢(shì),從而能夠在一定程度上促進(jìn)整個(gè)模型的有效性。

        表3 HX_MAN模型的消融實(shí)驗(yàn)Table 3 Ablation experiments of HX_MAN model

        3.4 可視化展示

        本節(jié)將展示本文設(shè)計(jì)的跨模態(tài)檢索系統(tǒng)頁(yè)面,并且將檢索結(jié)果與DCMH方法和SDCH方法進(jìn)行比較分析。

        如圖4所示,本文的跨模態(tài)檢索系統(tǒng)頁(yè)面主要分為兩部分:圖像檢索文本、文本檢索圖像。對(duì)于圖像檢索文本部分,將需要查詢的圖像上傳到系統(tǒng)中,系統(tǒng)將圖像在本文設(shè)計(jì)的方法中一步步地進(jìn)行,從而檢索出與圖像內(nèi)容具有語(yǔ)義相似性的圖像描述,并且以文本的形式輸出相似度最高的前幾種,最后呈現(xiàn)到客戶眼前。文本檢索圖像部分與其相似,就是將需要查詢的文本內(nèi)容上傳至系統(tǒng)中,然后輸出前幾張與文本內(nèi)容最為相似的圖像。

        圖4 跨模態(tài)檢索系統(tǒng)頁(yè)面展示Fig.4 Display of cross-modal retrieval system page

        除此之外,從MIR-Flickr25K數(shù)據(jù)集的測(cè)試集中隨機(jī)選取了3個(gè)文本描述來(lái)與DCMH方法和SDCH方法進(jìn)行比較分析。如圖5所示,將3種模型用各自的方法輸出檢索結(jié)果并選取最好的結(jié)果來(lái)進(jìn)行比較。在第一個(gè)文本描述中,DCMH方法輸出的圖像中的“狗”是“趴著的”。在第二個(gè)文本描述中,SDCH方法輸出的圖像中的“狗”的動(dòng)作不是“站著的”。在第三個(gè)描述中同樣是這種問(wèn)題。從比較中可以看出,本文方法在利用深度學(xué)習(xí)提取了位置特征信息之后,在文本描述中生成了更準(zhǔn)確、清晰的視覺信息的圖像,這也在一定程度上說(shuō)明了本文方法在確保速度的基礎(chǔ)上提高了檢索的準(zhǔn)確度。

        圖5 HX_MAN與其他方法的比較Fig.5 Comparison of HX_MAN with other methods

        雖然此方法在精度和速度方面較其他方法有所提升,但是并沒有想象中的那么完美,在輸出結(jié)果中還存在一點(diǎn)小誤差。如圖6所示,其中左邊的可視化結(jié)果為全部正確的5個(gè)原描述;右邊所示的可視化結(jié)果中第5句檢索錯(cuò)誤,但是對(duì)于這種描述也有一定的合理性,因?yàn)閳D片的現(xiàn)實(shí)背景只要合理怎么形容都可以。

        圖6 檢索案例可視化Fig.6 Retrieval case visualization

        4 總結(jié)

        本文提出了一種新的基于注意力機(jī)制與哈希方法的跨模態(tài)檢索模型,也就是基于多模態(tài)注意力機(jī)制的跨模態(tài)哈希網(wǎng)絡(luò)(HX_MAN)。具體來(lái)說(shuō),利用深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征提取能力來(lái)提取圖像模態(tài)和文本模態(tài)的特征,相較于其他先進(jìn)的檢索模型,本文模型引入的注意力機(jī)制能夠更精確地捕捉不同模態(tài)內(nèi)的局部特征信息,而且將圖像和文本特征進(jìn)行底層的交互并捕捉到了兩種模態(tài)之間的語(yǔ)義關(guān)聯(lián),從而在一定程度上提高了檢索的精度。在最后的實(shí)驗(yàn)證明,本文提出的模型與其他現(xiàn)有的方法相比,可以有效解決現(xiàn)有跨模態(tài)檢索算法粒度粗、精度低等問(wèn)題,為跨模態(tài)檢索新技術(shù)提供了參考。在未來(lái)的工作中,會(huì)將這種方法應(yīng)用到其他規(guī)模的多模態(tài)數(shù)據(jù)中來(lái)探索更多的信息,從而設(shè)計(jì)出一個(gè)更高效的網(wǎng)絡(luò)架構(gòu)來(lái)為多模態(tài)領(lǐng)域的發(fā)展做出自己的貢獻(xiàn)。

        猜你喜歡
        哈希注意力檢索
        讓注意力“飛”回來(lái)
        2019年第4-6期便捷檢索目錄
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        A Beautiful Way Of Looking At Things
        專利檢索中“語(yǔ)義”的表現(xiàn)
        專利代理(2016年1期)2016-05-17 06:14:36
        基于OpenCV與均值哈希算法的人臉相似識(shí)別系統(tǒng)
        基于維度分解的哈希多維快速流分類算法
        基于同態(tài)哈希函數(shù)的云數(shù)據(jù)完整性驗(yàn)證算法
        一種基于Bigram二級(jí)哈希的中文索引結(jié)構(gòu)
        國(guó)際標(biāo)準(zhǔn)檢索
        亚洲一区二区在线观看免费视频| 无码Av在线一区二区三区| 日韩av在线不卡一区二区三区| 亚洲综合久久精品少妇av | 亚洲色AV天天天天天天| 九一精品少妇一区二区三区| 性欧美长视频免费观看不卡| 一区二区三区国产亚洲网站| 91精品国产免费久久久久久青草| 国产精品高清一区二区三区人妖| 午夜福利理论片在线观看播放| 中文亚洲欧美日韩无线码| 美女裸体无遮挡免费视频的网站 | 国产精品美女久久久久久大全| 精品久久一区二区av| av网站免费线看精品| 亚洲中文字幕无码爆乳| 久久中国国产Av秘 入口| 久久精品国产精品亚洲艾| 日日噜噜夜夜狠狠va视频v| 亚洲粉嫩高潮的18p| 一区二区三区国产高潮| 中文字幕乱码亚洲一区二区三区| 热久久美女精品天天吊色| 午夜AV地址发布| 亚洲一本之道高清在线观看| 一区二区三区字幕中文| 欧美精品中文字幕亚洲专区| 久久精品国产亚洲av大全相关| 九一精品少妇一区二区三区| 亚洲乱亚洲乱妇无码麻豆| 亚洲欧美日韩在线观看一区二区三区| 男人的av天堂狠狠操| 国产av剧情一区二区三区| 国产精品无码av天天爽| 国产精品三级在线专区1| 国产一区二区在线免费视频观看| 国内女人喷潮完整视频| 国产美女精品aⅴ在线| 亚洲视频观看一区二区| 国产freesexvideos中国麻豆 |