亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        自適應混合注意力深度跨模態(tài)哈希

        2022-12-18 08:10:38柳興華曹桂濤林秋斌曹文明
        計算機應用 2022年12期
        關(guān)鍵詞:哈希注意力檢索

        柳興華,曹桂濤,林秋斌,曹文明*

        (1.深圳大學 電子與信息工程學院,廣東 深圳 518060;2.廣東省多媒體信息服務工程技術(shù)研究中心(深圳大學),廣東 深圳 518060;3.華東師范大學 軟件工程學院,上海 200062)

        0 引言

        隨著信息技術(shù)和多媒體技術(shù)的快速發(fā)展,人們在社交媒體上以不同的方式分享著自己的日常生活,導致多媒體數(shù)據(jù)(如文本、圖像等)急劇增長。在如此大量的多媒體數(shù)據(jù)面前,用戶迫切希望使用其中一種模態(tài)數(shù)據(jù)作為索引來檢索得到其他與之相關(guān)的其他模態(tài)數(shù)據(jù)。為了實現(xiàn)這一需求,研究人員提出很多跨模態(tài)檢索方法,利用模態(tài)間的相關(guān)性來進行建模,于是,跨模態(tài)檢索問題就可以轉(zhuǎn)化為數(shù)據(jù)模態(tài)間的相似性查詢。由于不同模態(tài)數(shù)據(jù)間存在結(jié)構(gòu)性差異導致它們存在較大的語義鴻溝,因此,跨模態(tài)檢索方案的關(guān)鍵在于能否有效捕獲模態(tài)間潛在的語義關(guān)聯(lián)并盡可能縮小語義鴻溝。

        早期的檢索方法將所有模態(tài)數(shù)據(jù)都映射到一個子空間中,然后在其中衡量其相似度,如近似最近鄰搜索(Approximate Nearest Neighbor,ANN)[1];然而,隨著數(shù)據(jù)維度和規(guī)模的飛速增長,傳統(tǒng)跨模態(tài)方法由于高額的存儲和時間消耗已經(jīng)不能滿足用戶的需求,因此,迫切需要開發(fā)新的方法來實現(xiàn)快速高效的檢索??缒B(tài)哈希方法因檢索速度快、存儲開銷低而備受關(guān)注。該方法旨在將原始數(shù)據(jù)復雜的高維特征信息轉(zhuǎn)換成簡單的低維二進制哈希碼,從而實現(xiàn)數(shù)據(jù)降維、壓縮存儲和加速檢索。哈希檢索是利用哈希碼的相似度來衡量原始模態(tài)的相似度,哈希碼越相似對應的原始模態(tài)數(shù)據(jù)也越相似。

        隨著深度學習算法的不斷進步,其強大的學習能力能夠獲得更復雜、更準確的哈希函數(shù),因此,越來越多的研究人員將跨模態(tài)哈希方法與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合來深入探索模態(tài)間潛在的語義關(guān)聯(lián)信息。迄今為止,提出了很多基于深度學習的跨模態(tài)哈希方法,雖然在跨模態(tài)檢索方面取得重大進展,但這些方法無法從提取的特征信息中分辨出哪些信息是重要的,哪些是不重要的;另外,還有些方法只是利用標簽信息簡單地將模態(tài)間的關(guān)系劃分為相似和不相似,而沒有充分利用標簽信息深入挖掘模態(tài)間的關(guān)聯(lián)信息。

        為了解決上述問題,本文提出自適應混合注意力深度跨模態(tài)哈希檢索(Adaptive Hybrid Attention Hashing for deep cross-modal retrieval,AHAH)模型。本文主要工作包括:

        1)設(shè)計了一種新的自適應混合注意力模型,將通道注意力和空間注意力有機結(jié)合起來。首先自主學習通道和空間注意力對應的權(quán)重值,該權(quán)重會根據(jù)每次迭代進行更新;然后根據(jù)權(quán)重將它們重組,構(gòu)成自適應可變權(quán)重的混合注意力模型。

        2)定義了一種新的相似度計算方法來衡量模態(tài)間的相似性。傳統(tǒng)方法認為兩個模態(tài)只要有一個共享標簽就判斷它們相似,這樣做容易造成較大的誤差。本文根據(jù)兩樣本所含標簽計算出共有標簽所占的比例來細化其相似度。

        3)在4個常用的數(shù)據(jù)集上進行了廣泛的實驗,實驗結(jié)果表明本文所提方法的檢索結(jié)果均高于對比的最先進的幾種方法;同時,消融實驗和效率分析也證明了本文方法的有效性。

        1 相關(guān)工作

        迄今為止,研究人員提出了很多關(guān)于跨模態(tài)檢索的方法。根據(jù)在檢索任務中提取特征的方法可將跨模態(tài)哈希方法分為傳統(tǒng)方法和深度跨模態(tài)方法。

        傳統(tǒng)跨模態(tài)方法是基于手工提取的方式獲取各個模態(tài)的淺層特征信息來學習哈希碼。根據(jù)在檢索過程中是否使用標簽信息又可將其分為無監(jiān)督和有監(jiān)督方法。無監(jiān)督哈希方法通過學習和總結(jié)數(shù)據(jù)的分布情況和空間結(jié)構(gòu)來探索模態(tài)間的相似性。如模態(tài)間哈希(Inter-Media Hashing,IMH)[2]將各個模態(tài)數(shù)據(jù)映射到漢明空間中,然后使用位運算來進行快速檢索;但該方法需要兩兩計算樣本間的相似性,時間消耗較大。集體矩陣分解哈希(Collective Matrix Factorization Hashing,CMFH)[3]通過分解實例的不同的潛在因子來得到統(tǒng)一的哈希碼。潛在語義稀疏哈希(Latent Semantic Sparse Hashing,LSSH)[4]利用稀疏編碼和矩陣分解分別獲得各模態(tài)的特征結(jié)構(gòu),并將其映射到同一空間中進行哈希檢索。與無監(jiān)督哈希方法相比,有監(jiān)督哈希方法可以充分利用標簽信息得到更豐富的語義關(guān)聯(lián)信息,在實際的檢索任務中取得更優(yōu)異的成績。典型的監(jiān)督哈希方法如語義保持哈希(Semantics-Preserving Hashing,SePH)[5]將訓練得到的二進制碼和關(guān)聯(lián)矩陣轉(zhuǎn)化成對應的概率分布并使用K-L散度來提升哈希碼的學習;雖然該方法在檢索效果上取得了不錯的提升,但其模型復雜需要消耗大量的時間和存儲空間。最大語義相關(guān)性(Semantic Correlation Maximization,SCM)哈希[6]將標簽信息融入到模態(tài)間的相似度計算,并通過線性變換來優(yōu)化語義相似度計算;但該方法的量化損失較大,對檢索準確率造成重大影響。廣義語義保留哈希(Generalized Semantic Preserving Hashing,GSPH)方法[7]利用標簽信息構(gòu)造相似矩陣并通過將非凸問題最小化來保持相似性,然后通過核邏輯回歸來指導生成對應哈希碼。監(jiān)督一致性特定哈希(Supervised Consistent and Specific Hashing,SCSH)[8]通過分解映射矩陣和將語義標簽回歸到哈希碼來提高哈希碼的質(zhì)量和加快學習速度。上述提及的傳統(tǒng)方法由于特征處理比較簡單,無法深度挖掘模態(tài)間的相關(guān)性,而且計算繁瑣導致時間消耗較大,最終導致檢索效率和結(jié)果無法達到滿意的結(jié)果,制約了其發(fā)展,無法滿足大規(guī)模數(shù)據(jù)檢索任務的要求。

        近年來,由于深度學習的快速發(fā)展及其在特征提取方面的優(yōu)異表現(xiàn),許多基于深度學習的跨模態(tài)哈希方法被提出。與傳統(tǒng)哈希方法相比,深度跨模態(tài)哈希方法依賴于深度神經(jīng)網(wǎng)絡(luò)進行更復雜和更準確的特征學習。如深度跨模態(tài)哈希(Deep Cross-Modal Hashing,DCMH)[9]將哈希檢索構(gòu)造成一個端到端的框架,為后續(xù)的研究打下了基礎(chǔ)。成對關(guān)系深度哈希(Pairwise Relationship Deep Hashing,PRDH)[10]在深度跨模態(tài)哈希的基礎(chǔ)上通過引入相關(guān)約束來增強哈希碼的區(qū)分能力,同時考慮模態(tài)間的相似性和哈希碼冗余問題;但該方法步驟較多、時間復雜度高,不適合推廣。語義深度跨模態(tài)哈希(Semantic Deep Cross-modal Hashing,SDCH)[11]利用語義標簽分支和哈希哈希分支來提高特征學習的質(zhì)量,從而提升檢索性能。語義排名結(jié)構(gòu)保持(Semantic Ranking Structure Preserving,SRSP)哈希[12]通過最小化標簽間的依賴關(guān)系來獲取更豐富的語義信息,并約束相對排名來促進相關(guān)學習。自監(jiān)督對抗哈希(Self-Supervised Adversarial Hashing,SSAH)方法[13]首次將對抗學習引入跨模態(tài)哈希檢索領(lǐng)域中,并取得了很好的檢索效果;但對抗學習對噪聲敏感,導致穩(wěn)定性較差。多級相關(guān)對抗哈希(Multi-Level Correlation Adversarial Hashing,MLCAH)方法[14]構(gòu)造對抗性標簽一致性注意機制,并將多級相關(guān)信息融和生成哈希碼;雖然該方法有效提升了檢索結(jié)果,但仍然無法有效克服噪聲對對抗網(wǎng)絡(luò)的影響。多標簽語義保留哈希(Multi-Label Semantics Preserving Hashing,MLSPH)方法[15]利用樣本多標簽構(gòu)造語義相似度矩陣,并通過記憶庫機制來保持相似性約束。文獻[16]中提出通過構(gòu)建多級語義指導分類器并使之指導哈希函數(shù)的學習。文獻[17]中引入知識蒸餾的思想并通過離散循環(huán)坐標下降法更新哈希碼。雖然依靠深度神經(jīng)網(wǎng)絡(luò)能有效提升檢索結(jié)果,但如何從提取的特征信息中分辨出重要的信息仍然是亟待解決的問題。

        注意力機制是人類獨有的信息處理機制。當人們在查看一張圖片時,先會快速掃描圖像來劃分目標區(qū)域并確定主要和次要目標;然后根據(jù)相應的注意力級別來依次理解圖像。受人類視覺系統(tǒng)的啟發(fā),研究人員提出各種類型的注意力網(wǎng)絡(luò),在特征信息中提取過程中快速分辨出重要信息來提高計算機視覺技術(shù)處理信息的效率和準確率。注意力機制是通過深度神經(jīng)網(wǎng)絡(luò)學習得到一組權(quán)重系數(shù),然后利用動態(tài)加權(quán)來增強相關(guān)目標區(qū)域信息并弱化不相關(guān)區(qū)域的信息,即去偽存真。根據(jù)注意力網(wǎng)絡(luò)關(guān)注區(qū)域不同,可將其大致分為通道注意力、空間注意力和自注意力。通道注意力是通過探索特征圖通道之間的相關(guān)性來進行學習,得到各個通道的相對重要程度并生成對應的權(quán)重系數(shù),典型的代表有:SENet(Squeezeand-Excitation Network)[18]、SKNet(Selective Kernel Network)[19]??臻g注意力的目的在于提高關(guān)鍵目標區(qū)域的特征表示,通過生成每個位置的權(quán)重來實現(xiàn)強化感興趣的目標區(qū)域和弱化不感興趣的區(qū)域,典型的代表如CBAM(Convolutional Block Attention Module)[20]。自注意力是通過使用內(nèi)部特征信息進行學習,減少對外部信息的依賴,典型代表 如CCNet(Criss-Cross Network)[21]、DANet(Dual Attention Network)[22]。

        本文受注意力機制的啟發(fā),結(jié)合通道注意力和空間注意力各自的優(yōu)點將它們結(jié)合起來取長補短實現(xiàn)一個自適應權(quán)重的混合注意力模型,以此來提升獲取特征信息的質(zhì)量進而提升檢索的準確率。

        2 自適應混合注意力深度跨模態(tài)哈希

        2.1 符號與問題定義

        本文中,矩陣范數(shù)和符號函數(shù)分別由‖X‖F(xiàn)和sign(·)表示,sign(·)的定義如下所示:

        2.2 本文模型結(jié)構(gòu)

        本文提出的自適應混合注意力深度哈希檢索模型的結(jié)構(gòu)包含特征處理和哈希學習兩部分,如圖1 所示。為了能夠從提取的特征信息中分辨出重要的有關(guān)信息和不相關(guān)的信息來達到數(shù)據(jù)增強的效果,首先通過自主學習通道和空間注意力分支對應的權(quán)重值(該權(quán)重會根據(jù)每次迭代進行更新);然后根據(jù)權(quán)重將它們重組,構(gòu)成自適應可變權(quán)重的混合注意力模型;其次,通過統(tǒng)計分析的方式充分利用標簽信息來更精確地表示樣本間的相似度,減少不必要的誤差。通過混合注意力模塊處理后能有效提升所獲特征信息的質(zhì)量,進而能生成更好的哈希碼;同時利用標簽信息更精確的表示相似度來減少誤差。兩者共同作用有效提升了檢索結(jié)果。

        圖1 自適應混合注意力深度哈希檢索模型的結(jié)構(gòu)Fig.1 Structure of adaptive hybrid attention hashing for deep cross-modal retrieval model

        2.2.1 特征處理部分

        所提模型的特征提取網(wǎng)絡(luò)分為圖像和文本兩部分。本文使用VGG-19(Visual Geometry Group,VGG)網(wǎng)絡(luò)作為圖像特征提取網(wǎng)絡(luò)的基礎(chǔ)模型,通過對其進行修改來實現(xiàn)特征提取和哈希學習。考慮到深度神經(jīng)網(wǎng)絡(luò)在訓練過程中會產(chǎn)生大量冗余信息和消耗大量訓練時間,本文模型中使用其預訓練網(wǎng)絡(luò)來替代。首先,刪除VGG-19 網(wǎng)絡(luò)的最后一層并凍結(jié)前16 層的訓練權(quán)重;其次,在第16 和17 層之間添加混合注意力網(wǎng)絡(luò)來捕捉重要特征信息;最后,使用VGG-19 網(wǎng)絡(luò)的兩個預訓練的全連接層作為哈希碼的學習網(wǎng)絡(luò)和利用一個全連接層生成指定長度的哈希碼。

        對于文本特征提取部分,本文模型采用特定的全連接網(wǎng)絡(luò)構(gòu)成:前兩層分別設(shè)置2 048 和4 096 個節(jié)點,激活函數(shù)使用ReLU(Rectified Linear Unit)函數(shù);最后一層設(shè)置l個節(jié)點,使用tanh 函數(shù)作為其激活函數(shù)并生成設(shè)定長度的哈希碼。

        通道注意力通過探索特征圖中不同通道之間的相關(guān)性來獲取每個通道的相對重要性;空間注意力旨在探索不同區(qū)域的相對重要性。為了同時獲得通道注意力和空間注意力的優(yōu)勢,本文提出了自適應混合注意力模型,網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。對于給定的輸入特征Fmap∈RC*H*W,在通道注意力分支,首先對輸入特征進行全局平均池化,然后連接兩個全連層處理,最后通過批量歸一化(Batch Normalization,BN)層得到通道注意力掩碼Mc=BN(W1(W0*AvgPool(Fmap) +b0) +b1) ∈RC*H*W;對于空間注意力分支,通過4 層卷積進行處理后經(jīng)批量歸一化輸出得到空間注意力掩碼:

        圖2 混合注意力模型的網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of hybrid attention model

        其中Conv1×1表示1 × 1 卷積。最后,通過學習的權(quán)重將二者有機結(jié)合得到混合注意力模型的掩碼,公式如下所示:

        其中:σ(·)表示可變的閾值;α、β表示學習得到的可變權(quán)重,每次迭代均進行更新直到找到最優(yōu)值。于是可以得到經(jīng)混合注意力模型處理后的特征圖,如式(6)所示:

        2.2.2 哈希學習部分

        為了精確探索模態(tài)間的相關(guān)性,必須最小化模態(tài)間語義相似項之間的距離和最大化不相似項之間的距離;因此,本文實驗中使用了余弦三元組損失函數(shù)。對于圖像檢索文本,首先,構(gòu)造三元組,其中表示圖像樣本,表示與圖像相關(guān)的正樣本,表示與圖像相關(guān)的負樣本。于是可以得出圖像檢索文本的三元組損失函數(shù)為:

        其中:α為邊界參數(shù)。

        類似地,可以得到文本檢索圖像的三元組損失函數(shù),如下所示:

        因此,可以得到圖像檢索文本模態(tài)的目標函數(shù),定義如下:

        結(jié)合以上兩個網(wǎng)絡(luò)分支的目標函數(shù)可得總目標函數(shù)為:

        2.2.3 迭代過程

        在本文實驗中采用的是交替迭代的策略來優(yōu)化目標函數(shù)。每次迭代時,只優(yōu)化其中一個網(wǎng)絡(luò),固定另一網(wǎng)絡(luò)保持不變。算法1 總結(jié)了本文方法的迭代過程。

        算法1 自適應混合注意力深度哈希檢索算法。

        3 實驗與結(jié)果分析

        3.1 數(shù)據(jù)集

        1)MIRFLICKR-25K。該數(shù)據(jù)集包含25 000 對圖像文本對,每個實例由24 類語義標簽中的一個或多個進行標注。文本由1 386 維詞袋向量表示。

        2)NUS-WIDE。該數(shù)據(jù)集包含269 468 對圖像文本對,每個實例由81 類語義標簽進行標注。文本模態(tài)由1 000 維詞袋向量表示。

        3)MSCOCO。該數(shù)據(jù)集包含120 000 對圖像文本對,每個實例由81 類標簽中的一個或幾個進行標注。文本模態(tài)由2 000 維詞袋向量表示。

        4)IAPR TC-12。該數(shù)據(jù)集包含20 000 對圖像文本對,每個實例有225 類標簽中的一個或多個進行標注。文本模態(tài)經(jīng)處理后由2 912 維的詞袋向量表示。

        為了對比的公平性,本文根據(jù)MLCAH 和MLSPH 的實驗配置來確定訓練集、檢索集和索引集。實驗配置見表1。

        表1 實驗數(shù)據(jù)集詳細配置Tab.1 Detailed configuration of experimental datasets

        3.2 實驗環(huán)境與參數(shù)

        本文實驗在一臺配備有8 個GPU 的NVIDIA GTX 2080 Ti GPU 的服務器上完成。在實驗中,設(shè)置迭代次數(shù)為50,訓練批次大小為64,并將初始的學習率設(shè)定為10×10-5,在達到設(shè)定的迭代次數(shù)后學習率開始按算法遞減?;旌献⒁饬δP偷臋?quán)重α、β均初始化為1,后續(xù)根據(jù)每次訓練情況進行自主迭代更新,直到找到最佳權(quán)重。為了排除偶然性,最終的實驗結(jié)果取5 次實驗結(jié)果的平均值。

        3.3 評價標準

        漢明排序和哈希查找是廣泛使用的哈希檢索評價標準。本文采用漢明排序協(xié)議來評估所提方法,并使用平均精確度均值(mean Average Precision,mAP)來評價漢明排序;此外,本文還使用了準確率-召回率(Precision-Recall,PR)曲線來進一步衡量所提方法的性能,PR 曲線與兩個坐標軸共同圍成的面積越大,則表示對應方法的性能越好。

        3.4 實驗結(jié)果與分析

        表2 給出了在4 個公共數(shù)據(jù)集(MIRFLICKR-25K、NUSWIDE、MSCOCO 和IAPR TC-12)上哈希 碼長度 為16 bit、32 bit 和64 bit 時與其他跨模態(tài)檢索算法的mAP 對比結(jié)果。其中包 括SePH[5]、SCM[6]、GSPH[7]、DCMH[9]、SSAH[13]、MLCAH[14]、MLSPH[15]。本文中的實驗數(shù)據(jù)除MLSPH 方法外均從原文中引用。由于MLSPH 方法公開代碼不全且數(shù)據(jù)處理方式不同,因此在MSCOCO 和IAPR TC-12 數(shù)據(jù)集上按照本文的配置對其進行復現(xiàn)。從實驗結(jié)果可以看出,本文所提方法的實驗結(jié)果均好于其他對比的方法,即可證明本文所提方法的有效性。另外,基于深度學習的方法的檢索結(jié)果明顯好于基于淺層網(wǎng)絡(luò)的方法,表明深度神經(jīng)網(wǎng)絡(luò)的優(yōu)越性。

        表2 在4個公共數(shù)據(jù)集上各方法的mAP對比Tab.2 mAP comparison of each algorithm on four public datasets

        在MIRFLICKR-25K、NUS-WIDE、MSCOCO和IAPR TC-12數(shù)據(jù)集上,本文所提方法與除本文方法外排名最好的方法相比,在圖像檢索文本任務中,哈希碼長度為16 bit、32 bit、64 bit時分別提升了(1.6%、0.98%、0.23%)、(2.6%、3.3%、2.8)、(5.3%、9.7%、12.3%)和(1.2%、3.9%、6.9%);在文本檢索圖像的任務中分別平均提升了(2.9%、1.7%、1.9%)、(0.88%、1.1%、1.3%)、(8.4%、11.1%、9.6%)和(3.1%、7.1%、9.5%)。實驗結(jié)果表明本文所提自適應混合注意力模型和相似度測量方法的有效性。通過自適應混合注意力模型能有效分辨出重要的特征信息來提升獲取特征的質(zhì)量,進而生成更具辨別性的哈希碼,從而實現(xiàn)檢索性能的提升。此外通過對標簽信息的探索,更精確地表示樣本間的相似性,減小了不必要的誤差,對提升檢索性能有著重要的貢獻。通過上述步驟,可以充分挖掘模態(tài)間的相關(guān)性,有效彌合模態(tài)間的語義差距,進而提高了檢索的準確率。

        圖3 中給出了所提方法在3 個數(shù)據(jù)集上的PR 曲線。以哈希碼長度為16 bit 為例,PR 曲線與兩坐標軸所圍面積越大表明其性能越好。由圖3 可以得出以下結(jié)論:

        圖3 3個公共數(shù)據(jù)集上哈希碼長度為16 bit時的PR曲線Fig.3 PR curves with hash code length of 16 bit on three public datasets

        1)本文方 法在數(shù)據(jù)集NUS-WIDE(NUS)和MSCOCO(COCO)上的表現(xiàn)要比數(shù)據(jù)集MIRFLICKR-25K(MIR)上好,表明本文方法更適用于大規(guī)模的數(shù)據(jù)集。

        2)從PR 曲線圖上來看,本文方法對應的曲線高于其他對比方法,表明本文方法的總體性能要優(yōu)于其他對比方法,這得益于本文方法能有效提高所獲特征的質(zhì)量和利用標簽信息構(gòu)建更準確的相似矩陣來減小不必要的誤差,從而提升檢索性能。

        為了進一步確認本文方法的有效性,設(shè)計了訓練效率分析實驗。探索了本文方法和MLSPH 在MIIRFLICKR-25K 數(shù)據(jù)集上、哈希碼長度為16 bit 時的平均準確率均值(mAP)和訓練損失與迭代次數(shù)的變化。如圖4 和圖5 所示。

        圖4 mAP和訓練次數(shù)的關(guān)系Fig.4 Relationship between mAP and the number of training

        圖5 訓練損失與訓練次數(shù)的關(guān)系Fig.5 Relationship between training loss and the number of training

        相較于MLSPH,本文方法(AHAH)的mAP 能在較少的訓練次數(shù)上升到最高水平并保持穩(wěn)定;此外,從損失變化曲線圖上可以看出本文方法的損失能很快下降收斂并保持在穩(wěn)定值附近,振幅穩(wěn)定。綜上可證明本文方法的訓練效率優(yōu)于其他對比方法。

        3.5 消融實驗

        3.5.1 混合注意力模型消融實驗

        為了證明所提自適應混合注意力模型的有效性,本文基于MIRFLICKR-25K 數(shù)據(jù)集設(shè)計了對比實驗,實驗中分別為只使用通道注意力、只使用空間注意力和使用混合注意力模型。實驗結(jié)果如表3 所示。

        表3 注意力網(wǎng)絡(luò)mAP實驗結(jié)果對比Tab.3 Comparison of mAP experimental results of attention networks

        由以上對比實驗可以看出使用應混合注意力方法的實驗結(jié)果明顯好于單獨使用的情況,表明使用混合注意力網(wǎng)絡(luò)能有效提升檢索結(jié)果。

        3.5.2 AHAH方法消融實驗

        為了驗證所提方法的有效性,本文還設(shè)計了兩組消融實驗進行檢驗。消融實驗包括:1)AHAH-1,在原有實驗基礎(chǔ)上移除混合注意力網(wǎng)絡(luò),其他配置保持不變進行實驗;2)AHAH-2,在原有實驗基礎(chǔ)上移除本文所提相似度度量方法使用普通的進行替代。消融實驗結(jié)果如表4 所示,可以看出本文所提的自適應混合注意力模型和相似度度量方法可以很好地提升檢索精度。

        表4 AHAH消融實驗mAP結(jié)果Tab.4 mAP results of ablation experiments of AHAH

        4 結(jié)語

        針對現(xiàn)有哈希方法在特征學習過程中無法區(qū)分各區(qū)域特征信息的重要程度和不能充分利用標簽信息來深度挖掘模態(tài)間相關(guān)性的問題,本文提出了自適應混合注意力深度哈希檢索模型。具體地,首先,本文提出自適應混合注意力網(wǎng)絡(luò)來增強特征圖中相關(guān)目標區(qū)域并弱化不相關(guān)區(qū)域的信息,提升了獲取特征信息的質(zhì)量進而提升檢索精度。其次,本文通過利用標簽信息探索模態(tài)間的相關(guān)性來進一步提升檢索性能。在4 個常用數(shù)據(jù)集上進行了對比實驗和消融實驗,與幾種先進的跨模態(tài)檢索算法相比,實驗結(jié)果表明了本文方法的有效性。目前的工作只是基于圖像和文本模態(tài)之間的檢索,在接下來的研究中將探索視頻-文本、圖像-視頻等多種模態(tài)之間的相互檢索。

        猜你喜歡
        哈希注意力檢索
        讓注意力“飛”回來
        2019年第4-6期便捷檢索目錄
        “揚眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        專利檢索中“語義”的表現(xiàn)
        專利代理(2016年1期)2016-05-17 06:14:36
        基于OpenCV與均值哈希算法的人臉相似識別系統(tǒng)
        基于維度分解的哈希多維快速流分類算法
        計算機工程(2015年8期)2015-07-03 12:20:04
        基于同態(tài)哈希函數(shù)的云數(shù)據(jù)完整性驗證算法
        計算機工程(2014年6期)2014-02-28 01:25:40
        一種基于Bigram二級哈希的中文索引結(jié)構(gòu)
        國際標準檢索
        欧美激情视频一区二区三区免费 | 波多野结衣免费一区视频| 亚洲精品中文字幕观看| 国产女主播福利一区在线观看| av新型国产在线资源| 日本妇人成熟免费2020| 无人区一码二码三码四码区| 真人二十三式性视频(动)| 亚洲AV乱码毛片在线播放| 日韩男女av中文字幕| 久久狼精品一区二区三区| 337p日本欧洲亚洲大胆| 无码手机线免费观看| 久久中文字幕久久久久| 中文字幕久区久久中文字幕| 亚洲av成熟国产一区二区| 成人无码av一区二区| 亚洲色欲色欲www在线播放| 久久青青草原国产精品最新片| 亚洲一区二区一区二区免费视频 | 亚洲精品久久久久一区二区| 欧美成人片在线观看| 欧美a视频在线观看| 国产精品一区二区三区色| 国产三级精品三级在线专区| 日韩人妻少妇一区二区三区| 亚洲av无码潮喷在线观看| 久久精品国产亚洲Av无码偷窍| 久久精品亚洲国产成人av| h视频在线播放观看视频| 人妻少妇精品视频专区| 国产麻无矿码直接观看| 国内精品九九久久精品小草| 激情五月开心五月啪啪| 成人国成人国产suv| 欧美日韩亚洲tv不卡久久| 69av视频在线| 国产精品女丝袜白丝袜美腿| 欧美性受xxxx黑人猛交| 亚洲欧美激情精品一区二区| 免费一级国产大片|