亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        深度非對(duì)稱(chēng)離散跨模態(tài)哈希方法

        2022-08-24 06:30:16王曉雨王展青熊威
        計(jì)算機(jī)應(yīng)用 2022年8期
        關(guān)鍵詞:哈希非對(duì)稱(chēng)實(shí)例

        王曉雨,王展青,熊威

        (武漢理工大學(xué)理學(xué)院,武漢 430070)

        0 引言

        隨著大數(shù)據(jù)時(shí)代的到來(lái),互聯(lián)網(wǎng)出現(xiàn)了越來(lái)越多不同的模態(tài)數(shù)據(jù),如圖像、文本、視頻和音頻等;同時(shí),人們對(duì)信息檢索的需求也越來(lái)越多元化,不再局限于單一模態(tài)的數(shù)據(jù)檢索[1-2]??缒B(tài)檢索[3-4]憑借可以使用一種模態(tài)數(shù)據(jù)作為查詢(xún)對(duì)象來(lái)獲取另一模態(tài)中與之語(yǔ)義相似數(shù)據(jù)的優(yōu)勢(shì),引起了人們的廣泛關(guān)注。然而,不同模態(tài)數(shù)據(jù)的表示方式存在差異,導(dǎo)致它們之間存在異構(gòu)鴻溝,使得跨模態(tài)檢索難以返回正確的結(jié)果[5]。如何縮小異構(gòu)鴻溝,挖掘跨模態(tài)數(shù)據(jù)之間的語(yǔ)義關(guān)聯(lián),是一個(gè)極具挑戰(zhàn)性的問(wèn)題。

        現(xiàn)實(shí)世界的多媒體數(shù)據(jù)體量大且復(fù)雜,給人們帶來(lái)高品質(zhì)視聽(tīng)體驗(yàn)的同時(shí),也給跨模態(tài)檢索帶來(lái)很大的困難。由于哈希技術(shù)在存儲(chǔ)和搜索大規(guī)模數(shù)據(jù)時(shí)的優(yōu)越性,跨模態(tài)哈希方法[6-9]隨之產(chǎn)生,該方法可以在保留原始數(shù)據(jù)的語(yǔ)義相似性信息和語(yǔ)義相關(guān)結(jié)構(gòu)的情況下,將實(shí)值數(shù)據(jù)編碼成緊湊的二進(jìn)制碼。然而,基于哈希方法的手工特征與哈希碼學(xué)習(xí)是相互獨(dú)立的,導(dǎo)致檢索性能不佳。隨著深度學(xué)習(xí)的發(fā)展,深度神經(jīng)網(wǎng)絡(luò)被廣泛用于特征學(xué)習(xí)。與早期的哈希方法相比,深度跨模態(tài)哈希方法[10-12]把模態(tài)特征和哈希函數(shù)放在端對(duì)端框架中共同學(xué)習(xí),解決了手工特征和哈希碼學(xué)習(xí)不兼容的問(wèn)題,使學(xué)習(xí)的哈希碼更加高效。

        大多數(shù)深度跨模態(tài)哈希方法以對(duì)稱(chēng)的方式學(xué)習(xí)哈希碼,即查詢(xún)實(shí)例和數(shù)據(jù)庫(kù)實(shí)例的哈希碼用同一種方式學(xué)習(xí),訓(xùn)練過(guò)程非常耗時(shí)。為便于訓(xùn)練,它們一般選擇小數(shù)據(jù)集或從整個(gè)數(shù)據(jù)集中抽取部分?jǐn)?shù)據(jù)作為訓(xùn)練集學(xué)習(xí)哈希碼,使得數(shù)據(jù)中的監(jiān)督信息在訓(xùn)練過(guò)程中難以充分利用,學(xué)習(xí)的哈希碼泛化能力不強(qiáng)。為實(shí)現(xiàn)快速檢索,Jiang 等[13]提出了一個(gè)適用于圖像檢索的非對(duì)稱(chēng)深度監(jiān)督哈希(Asymmetric Deep Supervised Hashing,ADSH),以非對(duì)稱(chēng)的方式學(xué)習(xí)查詢(xún)圖像和數(shù)據(jù)庫(kù)圖像的哈希碼,利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)查詢(xún)圖像的哈希碼,而數(shù)據(jù)庫(kù)圖像的哈希碼則通過(guò)求解目標(biāo)函數(shù)直接學(xué)習(xí),在3 個(gè)自然圖像數(shù)據(jù)集上均取得了較高的檢索精度。受單模態(tài)非對(duì)稱(chēng)哈希的啟發(fā),研究者開(kāi)展了基于非對(duì)稱(chēng)哈希的跨模態(tài)檢索研究[14-15]。哈希碼學(xué)習(xí)本質(zhì)上是一個(gè)離散學(xué)習(xí)問(wèn)題,一種常見(jiàn)的優(yōu)化策略是將離散問(wèn)題放松為連續(xù)問(wèn)題,但該方法不僅量化誤差大且導(dǎo)致哈希碼次優(yōu)[16]。

        鑒于上述問(wèn)題,本文提出了深度非對(duì)稱(chēng)離散跨模態(tài)哈希(Deep Asymmetric Discrete Cross-modal Hashing,DADCH)方法。

        本文主要工作如下:

        1)DADCH 利用深度神經(jīng)網(wǎng)絡(luò)與字典學(xué)習(xí),構(gòu)造了非對(duì)稱(chēng)學(xué)習(xí)框架,采取不同的方式學(xué)習(xí)查詢(xún)實(shí)例和數(shù)據(jù)庫(kù)實(shí)例的哈希碼。對(duì)于查詢(xún)實(shí)例,通過(guò)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)哈希碼;對(duì)于數(shù)據(jù)庫(kù)實(shí)例,利用字典學(xué)習(xí)為每個(gè)實(shí)例生成相應(yīng)的稀疏表示,并將其映射為哈希碼。通過(guò)構(gòu)造二者的非對(duì)稱(chēng)內(nèi)積來(lái)保留原始數(shù)據(jù)的語(yǔ)義相似信息。

        2)采用離散優(yōu)化策略。所提出的損失函數(shù)可以在不放松哈希碼離散約束的情況下進(jìn)行優(yōu)化,有效降低哈希碼二值化的量化誤差。

        3)為充分挖掘數(shù)據(jù)的語(yǔ)義信息,通過(guò)標(biāo)簽預(yù)測(cè)及語(yǔ)義信息嵌入,使學(xué)習(xí)到的哈希碼更具判別性。

        1 相關(guān)工作

        現(xiàn)有的跨模態(tài)哈希方法可根據(jù)訓(xùn)練過(guò)程中有無(wú)標(biāo)簽信息的參與,大致分為無(wú)監(jiān)督跨模態(tài)哈希和監(jiān)督跨模態(tài)哈希兩類(lèi)。

        無(wú)監(jiān)督跨模態(tài)哈希方法在訓(xùn)練過(guò)程中不使用任何數(shù)據(jù)標(biāo)簽,通過(guò)學(xué)習(xí)不同模態(tài)數(shù)據(jù)從特征空間到漢明空間的映射得到哈希函數(shù)。集體矩陣分解哈希(Collective Matrix Factorization Hashing,CMFH)[17]采用集體矩陣分解技術(shù)從原始數(shù)據(jù)中學(xué)習(xí)不同模態(tài)的共同潛在語(yǔ)義表示,以學(xué)習(xí)哈希碼。融合相似性哈希(Fusion Similarity Hashing,F(xiàn)SH)[18]提出將多模態(tài)的融合相似性保存到公共的漢明空間中。基于字典學(xué)習(xí)的跨模態(tài)哈希(Dictionary Learning Cross-Modal Hashing,DLCMH)[19]利用字典學(xué)習(xí)生成每個(gè)實(shí)例的稀疏表示,然后將其投影到共同的潛在空間中進(jìn)行哈希碼學(xué)習(xí)。深度二進(jìn)制重構(gòu)跨模態(tài)哈希(Deep Binary Reconstruction for Cross-modal Hashing,DBRC)[20]使用了一個(gè)新的激活函數(shù)ATanh,可以在無(wú)監(jiān)督的方式下直接學(xué)習(xí)二進(jìn)制哈希碼。深度語(yǔ)義對(duì)齊哈希(Deep Semantic-Alignment Hashing,DSAH)[21]設(shè)計(jì)了一個(gè)語(yǔ)義對(duì)齊損失函數(shù),將特征相似性與哈希碼相似性對(duì)齊,并通過(guò)自編碼器實(shí)現(xiàn)不同模態(tài)特征與哈希碼之間的重構(gòu)。

        監(jiān)督跨模態(tài)哈希方法通常將數(shù)據(jù)標(biāo)簽作為監(jiān)督信息,以挖掘不同模態(tài)數(shù)據(jù)之間的語(yǔ)義關(guān)聯(lián),學(xué)習(xí)更具語(yǔ)義信息的哈希碼。語(yǔ)義相關(guān)最大化(Semantic Correlation Maximization,SCM)[8]將標(biāo)簽信息集成到哈希學(xué)習(xí)過(guò)程中,避免了成對(duì)相似性矩陣的復(fù)雜計(jì)算。監(jiān)督矩陣分解哈希(Supervised Matrix Factorization Hashing,SMFH)[22]通過(guò)基于矩陣分解的圖拉普拉斯正則項(xiàng)引入監(jiān)督信息,以保留模態(tài)內(nèi)和模態(tài)間的相似性。離散潛在因子哈希(Discrete Latent Factor Hashing,DLFH)[23]提出了一個(gè)離散潛在因子模型,可以無(wú)需放松約束條件直接學(xué)習(xí)二進(jìn)制哈希碼,有效地保持了哈希碼之間的成對(duì)相似性?;谧值鋵W(xué)習(xí)的監(jiān)督離散哈希(Dictionary Learning based Supervised Discrete Hashing,DLSDH)[24]利用字典學(xué)習(xí)為實(shí)例生成稀疏表示,然后學(xué)習(xí)實(shí)例從字典空間到低維漢明空間的投影,采用兩步哈希方法學(xué)習(xí)哈希碼。深度跨模態(tài)哈希(Deep Cross-Modal Hashing,DCMH)[25]設(shè)計(jì)了一個(gè)端對(duì)端的深度神經(jīng)網(wǎng)絡(luò)框架,首次將特征學(xué)習(xí)和哈希碼學(xué)習(xí)結(jié)合在一起。自監(jiān)督對(duì)抗哈希(Self-Supervised Adversarial Hashing,SSAH)[26]以自監(jiān)督的方式,利用對(duì)抗網(wǎng)絡(luò)來(lái)學(xué)習(xí)不同模態(tài)的哈希碼,并構(gòu)造語(yǔ)義網(wǎng)絡(luò),以多標(biāo)簽標(biāo)注的形式挖掘數(shù)據(jù)的高級(jí)語(yǔ)義信息。深度語(yǔ)義保留序數(shù)哈希(Deep Semantic-Preserving Ordinal Hashing,DSPOH)[27]通過(guò)保持模態(tài)間相似性和模態(tài)內(nèi)標(biāo)簽信息來(lái)學(xué)習(xí)基于排序的哈希函數(shù)。

        2 深度非對(duì)稱(chēng)離散跨模態(tài)哈希

        2.1 符號(hào)和問(wèn)題定義

        本文使用粗體大寫(xiě)字母表示矩陣,粗體小寫(xiě)字母表示向量。Wij表示矩陣W的第i行第j列的元素,Wi*表示矩陣W的第i行,W*j表示矩陣W的第j列;WT表示矩陣W的轉(zhuǎn)置;I表示單位矩陣。

        本文主要研究圖像模態(tài)和文本模態(tài)之間的跨模態(tài)檢索。訓(xùn)練集O由N個(gè)樣本組成,且每個(gè)樣本都有兩個(gè)模態(tài)的特征和標(biāo)簽信息,記為。其中,表示圖像模態(tài),表示文本模態(tài)。從訓(xùn)練集O中隨機(jī)抽取m個(gè)實(shí)例,作為查詢(xún)實(shí)例Φ=OΩ(Ω={i1,i2,…,im},m?N)。Ψ=OΓ表示數(shù)據(jù)庫(kù)實(shí)例,其中,Γ={j1,j2,…,jn}(n=N-m)。令L∈{0,1}N×c表示標(biāo)簽矩陣,c是標(biāo)簽類(lèi)別的個(gè)數(shù)。S∈{0,1}N×N是語(yǔ)義相似度矩陣:若xi與yj存在相同的類(lèi)別標(biāo)簽,則Sij=1;否則,Sij=0??缒B(tài)哈希主要任務(wù)是學(xué)習(xí)兩個(gè)模態(tài)的二進(jìn)制哈希碼:Bx∈{-1,+1}r,By∈{-1,+1}r,r是哈希碼的長(zhǎng)度。當(dāng)Sij=1時(shí),相似實(shí)例的哈希碼之間的漢明距離盡可能??;當(dāng)Sij=0時(shí),不相似實(shí)例的哈希碼之間的漢明距離盡可能大。

        2.2 模型框架

        DADCH 的模型框架如圖1 所示,包括兩個(gè)深度神經(jīng)網(wǎng)絡(luò)分支和兩個(gè)字典學(xué)習(xí)分支,分別用于提取數(shù)據(jù)的高級(jí)語(yǔ)義特征和稀疏表示。

        圖1 深度非對(duì)稱(chēng)離散跨模態(tài)哈??蚣蹻ig.1 Framework of deep asymmetric discrete cross-modal hashing

        圖1 中圖像網(wǎng)絡(luò)采用ImageNet 數(shù)據(jù)集上預(yù)訓(xùn)練的CNNF(Convolutional Neural Network-Fast)[28]。原始的CNN-F 由5個(gè)卷積層(conv1~conv5)和3 個(gè)全連接層(fc6~fc8)組成。網(wǎng)絡(luò)的前7 層與CNN-F 完全相同,均使用線(xiàn)性整流函數(shù)(Rectified Linear Unit,ReLU)作為激活函數(shù)。本文將fc8 層替換為含有r+c個(gè)隱藏節(jié)點(diǎn)的全連接層,并將其分成兩部分:一個(gè)是含有r個(gè)隱藏節(jié)點(diǎn)的哈希層,使用tanh 函數(shù)作為激活函數(shù),生成標(biāo)簽;另一個(gè)是含有c個(gè)隱藏節(jié)點(diǎn)的標(biāo)簽層,使用sigmoid 函數(shù)作為激活函數(shù),生成哈希碼。具體的圖像網(wǎng)絡(luò)參數(shù)配置如表1 所示。

        表1 圖像網(wǎng)絡(luò)的參數(shù)配置Tab.1 Parameter configuration of image network

        其中,k表示卷積核大?。╧ernel);s表示步長(zhǎng)(stride);pad 表示是否填充,0 表示對(duì)圖像矩陣零填充,1 表示在圖像矩陣外填充1 圈,2 表示在圖像矩陣外填充2 圈;LRN 表示局部響應(yīng)歸一化(Local Response Normalization);pool 表示池化過(guò)程,×2 pool 表示步長(zhǎng)為2 的最大池化;Max pooling 表示最大池化;4 096 和512 表示全連接層的節(jié)點(diǎn)數(shù)量。

        圖1 中文本網(wǎng)絡(luò)采用一個(gè)3 層全連接層的神經(jīng)網(wǎng)絡(luò)。文本網(wǎng)絡(luò)的輸入是由詞袋(Bag of Words,BoW)模型提取到的文本特征。網(wǎng)絡(luò)的前2 層(fc1、fc2)均使用ReLU 作為激活函數(shù),最后1 層(fc3)與圖像網(wǎng)絡(luò)的fc8 層相同,哈希層和標(biāo)簽層分別使用tanh 函數(shù)和sigmoid 函數(shù)作為激活函數(shù)。具體的文本網(wǎng)絡(luò)參數(shù)配置如表2 所示。

        表2 文本網(wǎng)絡(luò)的參數(shù)配置Tab.2 Parameter configuration of text network

        2.3 深度非對(duì)稱(chēng)跨模態(tài)哈希

        1)非對(duì)稱(chēng)學(xué)習(xí)框架。

        DADCH 將神經(jīng)網(wǎng)絡(luò)與字典學(xué)習(xí)相結(jié)合,構(gòu)造了非對(duì)稱(chēng)學(xué)習(xí)框架。該框架可以通過(guò)不同方式學(xué)習(xí)查詢(xún)實(shí)例和數(shù)據(jù)庫(kù)實(shí)例的哈希碼,有效保留了模態(tài)內(nèi)和模態(tài)間的語(yǔ)義相關(guān)性。由于查詢(xún)實(shí)例的數(shù)量遠(yuǎn)遠(yuǎn)小于數(shù)據(jù)庫(kù)實(shí)例的數(shù)量,可以使更多的數(shù)據(jù)參與訓(xùn)練,數(shù)據(jù)集中的監(jiān)督信息得以充分利用。

        字典學(xué)習(xí)本質(zhì)上是一種對(duì)高維數(shù)據(jù)降維的方法[29]。字典學(xué)習(xí)為原始高維數(shù)據(jù)學(xué)習(xí)合適的字典,以及相應(yīng)的稀疏表示。一般可表示為:

        在跨模態(tài)檢索任務(wù)中,字典學(xué)習(xí)為數(shù)據(jù)庫(kù)實(shí)例Ψ中的圖像模態(tài)和文本模態(tài)的手工特征矩陣學(xué)習(xí)相應(yīng)的字典及稀疏表示,生成的稀疏表示在低維空間中依然能夠保持原始數(shù)據(jù)之間的相似性。然后利用線(xiàn)性映射將稀疏表示映射為哈希碼,確保語(yǔ)義相似的數(shù)據(jù)學(xué)習(xí)到的哈希碼是相同的。因此,損失可取為:

        在圖像網(wǎng)絡(luò)和文本網(wǎng)絡(luò)中,對(duì)于第i個(gè)實(shí)例,圖像模態(tài)和文本模態(tài)的哈希碼為:

        其中:F和G分別表示圖像網(wǎng)絡(luò)和文本網(wǎng)絡(luò);U∈[-1,+1]m×r和V∈[-1,+1]m×r是由神經(jīng)網(wǎng)絡(luò)生成的關(guān)于查詢(xún)實(shí)例Φ中圖像模態(tài)和文本模態(tài)的哈希碼;θx和θy分別是圖像網(wǎng)絡(luò)和文本網(wǎng)絡(luò)的參數(shù)。

        2)非對(duì)稱(chēng)損失。

        為了使學(xué)習(xí)到的哈希碼能夠最大限度保留查詢(xún)實(shí)例和數(shù)據(jù)庫(kù)實(shí)例之間相似性,應(yīng)該盡量減少查詢(xún)實(shí)例和數(shù)據(jù)庫(kù)實(shí)例哈希碼的內(nèi)積與語(yǔ)義相似度矩陣之間的損失。通過(guò)構(gòu)造查詢(xún)實(shí)例與數(shù)據(jù)庫(kù)實(shí)例哈希碼之間的非對(duì)稱(chēng)內(nèi)積,將監(jiān)督信息和哈希碼學(xué)習(xí)集成到統(tǒng)一的學(xué)習(xí)框架中,有效保留了原始數(shù)據(jù)中的相似信息。當(dāng)使用查詢(xún)實(shí)例Φ中的圖像模態(tài)檢索數(shù)據(jù)庫(kù)實(shí)例Ψ中的文本模態(tài)時(shí),圖像模態(tài)的哈希碼不僅要保留與Ψ中文本模態(tài)的哈希碼相似性,也要與Φ中文本模態(tài)的哈希碼保持相似。因此,損失可取為:

        同樣地,當(dāng)使用Φ中的文本模態(tài)查詢(xún)?chǔ)分袌D像模態(tài)時(shí),損失可取為:

        其中:α是超參數(shù)。

        因此,非對(duì)稱(chēng)損失為:

        3)量化損失。

        跨模態(tài)哈希的目的是將多模態(tài)數(shù)據(jù)的特征向量編碼成二進(jìn)制哈希碼,以減少存儲(chǔ)空間,實(shí)現(xiàn)模態(tài)間的快速檢索。由于哈希碼U和V是由圖像網(wǎng)絡(luò)和文本網(wǎng)絡(luò)生成的連續(xù)實(shí)值,在計(jì)算過(guò)程中需要將其轉(zhuǎn)化為二進(jìn)制碼。為降低量化誤差,使神經(jīng)網(wǎng)絡(luò)的輸出與查詢(xún)實(shí)例的二進(jìn)制碼BΩ盡可能一致,其損失可取為:

        4)標(biāo)簽預(yù)測(cè)與語(yǔ)義信息嵌入。

        學(xué)習(xí)具有判別性的哈希碼對(duì)檢索性能的提升十分重要。為充分挖掘數(shù)據(jù)的語(yǔ)義信息,使生成的哈希碼更具判別性,DADCH 在圖像網(wǎng)絡(luò)和文本網(wǎng)絡(luò)的最后一層增加了標(biāo)簽層,使之能夠生成與真實(shí)標(biāo)簽維度相同的預(yù)測(cè)標(biāo)簽。標(biāo)簽預(yù)測(cè)損失可取為:

        其中:LΩ是查詢(xún)實(shí)例的標(biāo)簽矩陣;Lx和Ly是圖像網(wǎng)絡(luò)和文本網(wǎng)絡(luò)的預(yù)測(cè)標(biāo)簽。

        為進(jìn)一步增強(qiáng)哈希碼的判別性,受一些自編碼方法[30-31]的啟發(fā),本文通過(guò)線(xiàn)性映射將標(biāo)簽信息嵌入到哈希碼中。具體地,將語(yǔ)義標(biāo)簽矩陣L投影到二進(jìn)制碼矩陣B中,使得LP≈B。其中:P是投影矩陣。因此,損失可取為:

        由此可得DADCH 的目標(biāo)函數(shù)為:

        其中:β、γ、η是超參數(shù)。

        3 模型優(yōu)化算法

        本章將詳細(xì)介紹DADCH 的優(yōu)化算法。雖然目標(biāo)函數(shù)式(10)是非凸函數(shù),但是當(dāng)其他參數(shù)固定時(shí),對(duì)于每個(gè)參數(shù)又是凸函數(shù)。因此,本文采用隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)算法[32]和交替學(xué)習(xí)策略學(xué)習(xí)參數(shù)θx、θy、Dx、Dy、Ax、Ay、Wx、Wy、B、P。即在每次迭代中,只學(xué)習(xí)一個(gè)參數(shù),其他參數(shù)固定。

        3.1 參數(shù)學(xué)習(xí)

        1)θ的學(xué)習(xí)。

        當(dāng)θy、Dx、Dy、Ax、Ay、Wx、Wy、B、P固定時(shí),式(10)可簡(jiǎn)化為:

        利用隨機(jī)梯度下降和反向傳播(Back Propagation,BP)算法來(lái)學(xué)習(xí)θx。

        當(dāng)θx、Dx、Dy、Ax、Ay、Wx、Wy、B、P固定時(shí),式(10)可簡(jiǎn)化為:

        同樣地,利用隨機(jī)梯度下降和反向傳播算法來(lái)學(xué)習(xí)θy。

        2)D的學(xué)習(xí)。

        當(dāng)θx、θy、Dy、Ax、Ay、Wx、Wy、B、P固定時(shí),式(10)可簡(jiǎn)化為:

        顯然,式(13)是一個(gè)關(guān)于Dx的二次約束二次規(guī)劃問(wèn)題(Quadratically Constrained Quadratic Program,QCQP),可利用拉格朗日對(duì)偶性進(jìn)行求解。

        當(dāng)θx、θy、Dx、Ax、Ay、Wx、Wy、B、P固定時(shí),式(10)可簡(jiǎn)化為:

        同樣地,利用拉格朗日對(duì)偶性學(xué)習(xí)Dy。

        3)A的學(xué)習(xí)。

        當(dāng)θx、θy、Dx、Dy、Ay、Wx、Wy、B、P固定時(shí),式(10)可簡(jiǎn)化為:

        5)B的學(xué)習(xí)。

        本文采用離散循環(huán)坐標(biāo)下降(Discrete Cyclic Coordinate descent,DCC)法[33]學(xué)習(xí)B,此過(guò)程無(wú)需松弛哈希碼的離散約束,可避免較大的量化誤差。

        當(dāng)θx、θy、Dx、Dy、Ax、Ay、Wx、Wy、P固定時(shí),式(10)可簡(jiǎn)化為:

        由于BΩ和BΓ是查詢(xún)實(shí)例和數(shù)據(jù)庫(kù)實(shí)例的二進(jìn)制碼,對(duì)式(23)的求解可轉(zhuǎn)化為對(duì)式(24)和式(25)的求解:

        3.2 樣本外擴(kuò)展

        在檢索過(guò)程中,對(duì)于不在查詢(xún)實(shí)例中的圖像數(shù)據(jù)xq,可通過(guò)正向傳播來(lái)學(xué)習(xí)哈希碼:

        同樣地,對(duì)于不在查詢(xún)實(shí)例中的文本數(shù)據(jù)yq,其哈希碼為:

        4 實(shí)驗(yàn)與結(jié)果分析

        為驗(yàn)證DADCH 的有效性,本文在3 個(gè)廣泛使用的跨模態(tài)數(shù)據(jù)集IAPR-TC12[34]、MIRFLICKR-25K[35]和NUS-WIDE[36]上進(jìn)行了實(shí)驗(yàn),并將其與近年來(lái)先進(jìn)的跨模態(tài)檢索方法進(jìn)行比較與分析。

        4.1 實(shí)驗(yàn)設(shè)置

        1)參數(shù)設(shè)置。

        實(shí)驗(yàn)設(shè)置超參數(shù)α=100,β=200,γ=300,η=100,λ1=λ2=0.01。由于圖像和文本是成對(duì)出現(xiàn)的,設(shè)置字典Dx、Dy的大小K1=K2=128。此外,不同大小的字典也同樣適用于本方法。圖像模態(tài)網(wǎng)絡(luò)的學(xué)習(xí)率為[10-9,10-5.5],文本模態(tài)網(wǎng)絡(luò)的學(xué)習(xí)率為[10-9,10-4.5]。本文實(shí)驗(yàn)數(shù)據(jù)取3 次實(shí)驗(yàn)結(jié)果的平均值。

        2)數(shù)據(jù)集。

        IAPR-TC12:該數(shù)據(jù)集由20 000 個(gè)圖像文本對(duì)組成。每對(duì)樣本使用255 個(gè)標(biāo)簽進(jìn)行注釋。該數(shù)據(jù)集與DCMH[25]中一致,對(duì)于每個(gè)實(shí)例,圖像數(shù)據(jù)是512 維的手工特征向量,文本數(shù)據(jù)是2 912 維的詞袋向量。

        MIRFLICKR-25K:該數(shù)據(jù)集由從Flickr 網(wǎng)站收集的25 000 個(gè)圖像組成。本文選擇至少包含20 個(gè)標(biāo)簽的圖像文本對(duì)進(jìn)行實(shí)驗(yàn)。對(duì)于每個(gè)實(shí)例,圖像數(shù)據(jù)是一個(gè)512 維的手工特征向量,文本數(shù)據(jù)是一個(gè)1 386 維的詞袋向量。

        NUS-WIDE:該數(shù)據(jù)集由包含269 648 張圖像的公共網(wǎng)絡(luò)圖像組成。數(shù)據(jù)集中有81 個(gè)概念標(biāo)簽,每個(gè)實(shí)例有一個(gè)或多個(gè)標(biāo)簽。本文使用21 個(gè)最常見(jiàn)概念的195 834 個(gè)圖像文本對(duì)進(jìn)行實(shí)驗(yàn)。對(duì)于每個(gè)實(shí)例,圖像數(shù)據(jù)是一個(gè)500 維視覺(jué)詞袋(Bag of View Word,BoVW)向量,文本數(shù)據(jù)是一個(gè)1 000維的詞袋向量。

        對(duì)于上述3 個(gè)數(shù)據(jù)集,本文隨機(jī)抽取2 000 個(gè)實(shí)例作為測(cè)試集,剩余實(shí)例作為訓(xùn)練集和檢索集,并從訓(xùn)練集中隨機(jī)抽取3 000 個(gè)實(shí)例作為查詢(xún)實(shí)例,剩余的訓(xùn)練集實(shí)例作為數(shù)據(jù)庫(kù)實(shí)例。

        4.2 評(píng)估標(biāo)準(zhǔn)

        為驗(yàn)證本文方法在跨模態(tài)檢索任務(wù)中的性能,采用兩種廣泛使用的檢索評(píng)估標(biāo)準(zhǔn):漢明排序和哈希查找。漢明排序根據(jù)檢索集中的數(shù)據(jù)與給定查詢(xún)數(shù)據(jù)之間的漢明距離按遞增順序排序;哈希查找是返回查詢(xún)數(shù)據(jù)的某個(gè)漢明半徑內(nèi)的所有數(shù)據(jù)。

        平均精度均值(mean Average Precision,mAP)[37]是平均精度的平均值,是漢明排序中廣泛使用的度量指標(biāo)。定義如下:

        其中:m是查詢(xún)數(shù)據(jù)的個(gè)數(shù);AP(xi)是查詢(xún)數(shù)據(jù)xi的平均精度。

        精度召回率曲線(xiàn)(PR-curve)[38]是廣泛用于評(píng)估哈希查找準(zhǔn)確性的指標(biāo)。PR 曲線(xiàn)以召回率(recall)為自變量,精度(precision)為因變量。精度和召回率的定義如下:

        其中:TP(True Positives)表示檢索的相關(guān)數(shù)據(jù)個(gè)數(shù);FP(False Positives)表示檢索的不相關(guān)數(shù)據(jù)個(gè)數(shù);FN(False Negatives)表示未檢索的不相關(guān)數(shù)據(jù)個(gè)數(shù)。

        4.3 實(shí)驗(yàn)結(jié)果對(duì)比分析

        本文選取7 個(gè)先進(jìn)的跨模態(tài)檢索方法與DADCH 進(jìn)行對(duì)比,分別為:跨視圖哈希(Cross-View Hashing,CVH)[7]、語(yǔ)義主題多模態(tài)哈希STMH(Semantic Topic Multimodal Hashing for cross-media retrieval)[6]、SCM[8]、語(yǔ)義保留哈希(Semantics-Preserving Hashing,SePH)[9]、DCMH[25]、注意力感知深度對(duì)抗哈希(Attention-aware Deep Adversarial Hashing,ADAH)[11]和SSAH[26]。其中,前4 個(gè)方法是基于淺層框架的,后3 個(gè)是基于深度學(xué)習(xí)的。

        4.3.1 mAP及PR曲線(xiàn)對(duì)比

        表3 是所有方法在不同數(shù)據(jù)集上的mAP 結(jié)果,其中I→T表示圖像檢索文本,T→I 表示文本檢索圖像,哈希碼長(zhǎng)度分別設(shè)置為16、32 和64 bit,粗體字表示最優(yōu)結(jié)果。

        從表3 可看出:在所有檢索任務(wù)中,深度方法都顯著優(yōu)于非深度方法。在MIRFLICKR-25K 數(shù)據(jù)集上,圖像檢索文本時(shí),DADCH 與非深度方法(SePH)相比,mAP 提高17%~18%,表明神經(jīng)網(wǎng)絡(luò)提取的深度特征包含更豐富的語(yǔ)義信息,使學(xué)習(xí)的哈希碼更高效;與深度監(jiān)督哈希方法(SSAH)相比,mAP 提高6%~7%,說(shuō)明非對(duì)稱(chēng)學(xué)習(xí)框架能充分利用數(shù)據(jù)的監(jiān)督信息,在跨模態(tài)檢索中有一定的優(yōu)越性。具體地,在IAPR-TC12、MIRFLICKR-25K 和NUS-WIDE 數(shù)據(jù)集上,哈希碼長(zhǎng)度為64 bit 時(shí),DADCH 的mAP(I→T)比SSAH 分別提高了11.6、5.2、14.7 個(gè)百分點(diǎn),這是因?yàn)镈ADCH 以離散的非對(duì)稱(chēng)框架學(xué)習(xí)查詢(xún)實(shí)例和數(shù)據(jù)庫(kù)實(shí)例的哈希碼,可以更深入地挖掘數(shù)據(jù)的語(yǔ)義信息,降低量化誤差,從而獲得出色的檢索性能。與IAPR-TC12 和NUS-WIDE 數(shù)據(jù)集相比,DADCH在MIRFLICKR-25K 數(shù)據(jù)集上的效果更顯著。當(dāng)哈希碼長(zhǎng)度為64 bit 時(shí),DADCH 的mAP 分別為0.852(I→T)和0.857(T→I),這是因?yàn)镸IRFLICKR-25K 數(shù)據(jù)集更復(fù)雜,每個(gè)圖像包含的對(duì)象更多,標(biāo)簽也更多。此外,大多數(shù)方法在文本檢索圖像任務(wù)中的mAP 比圖像檢索文本任務(wù)中的結(jié)果好,說(shuō)明文本模態(tài)能更好地描述圖像文本對(duì)的內(nèi)容。

        表3 不同方法的mAP對(duì)比Tab.3 mAP comparison of different methods

        圖2 展示了上述方法在不同數(shù)據(jù)集上哈希碼長(zhǎng)度為32 bit 的精度-召回率曲線(xiàn)。結(jié)果顯示,在所有跨模態(tài)檢索任務(wù)中,本文方法PR 曲線(xiàn)下方的面積始終大于近年來(lái)的先進(jìn)方法,進(jìn)一步驗(yàn)證了DADCH 的檢索性能優(yōu)于其他方法。

        圖2 各方法的PR曲線(xiàn)對(duì)比(哈希碼長(zhǎng)度=32 bit)Fig.2 Comparison of PR curves of different methods(length of Hash code=32 bit)

        4.3.2 參數(shù)敏感度分析

        為研究超參數(shù)對(duì)方法檢索精度的影響,本文設(shè)計(jì)了參數(shù)敏感度分析實(shí)驗(yàn)。實(shí)驗(yàn)設(shè)置參數(shù)α,β,γ,η∈[1,1 000],λ1,λ2∈[0.01,100],在實(shí)驗(yàn)過(guò)程中固定其他參數(shù)不變,只改變其中一個(gè)參數(shù)值。圖3 展示了不同參數(shù)值在MIRFLICKR-25K 數(shù)據(jù)集上哈希碼長(zhǎng)度為32 bit 的mAP 變化曲線(xiàn)。從圖3可看出各參數(shù)對(duì)本文方法是不敏感的。當(dāng)參數(shù)α和β∈[1,100]時(shí),mAP 略有波動(dòng);但在[100,1 000]范圍內(nèi),對(duì)其影響并不大。并且參數(shù)γ、η和λ1、λ2分別在[1,1 000]和[0.01,100]檢索性能最優(yōu)。因此,在實(shí)驗(yàn)中設(shè)置參數(shù)α=100,β=200,γ=300,η=100,λ1=λ2=0.01。

        圖3 各參數(shù)的敏感度分析(哈希碼長(zhǎng)度=32 bit)Fig.3 Sensitivity analysis of parameters(length of Hash code=32 bit)

        4.3.3 時(shí)間復(fù)雜度分析

        為評(píng)估本文方法的效率,實(shí)驗(yàn)選取深度監(jiān)督對(duì)稱(chēng)哈希方法DCMH 和SSAH 作為比較對(duì)象,比較了3 種方法在MIRFLICKR-25K 數(shù)據(jù)集上哈希碼長(zhǎng)度為16 bit 的訓(xùn)練時(shí)間。實(shí)驗(yàn)中,DCMH 和SSAH 使用整個(gè)數(shù)據(jù)集用于神經(jīng)網(wǎng)絡(luò)訓(xùn)練。圖4 展示了它們的訓(xùn)練時(shí)間曲線(xiàn),x軸為訓(xùn)練時(shí)間,y軸為mAP。觀察結(jié)果顯示,當(dāng)使用整個(gè)數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí),DCMH 和SSAH 收斂時(shí)間需要超過(guò)6 h。當(dāng)訓(xùn)練時(shí)間相同時(shí),DADCH 的mAP 比DCMH、SSAH 都要高。DADCH 的訓(xùn)練時(shí)間短的原因主要有:首先,由于深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練比較耗時(shí),當(dāng)數(shù)據(jù)集全部用于訓(xùn)練時(shí),傳統(tǒng)的深度監(jiān)督對(duì)稱(chēng)哈希方法的時(shí)間復(fù)雜度至少為O(n2)。其次,DADCH 采用非對(duì)稱(chēng)學(xué)習(xí)框架,僅使用一小部分?jǐn)?shù)據(jù)進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練,而剩余數(shù)據(jù)利用字典學(xué)習(xí)學(xué)習(xí),使其在較短時(shí)間內(nèi)也能達(dá)到比較高的精度。

        圖4 MIRFLICKR-25K數(shù)據(jù)集上的訓(xùn)練時(shí)間對(duì)比(哈希碼長(zhǎng)度=16 bit)Fig.4 Training time comparison on MIRFLICKR-25K dataset(length of Hash code=16 bit)

        4.3.4 樣本適應(yīng)度分析

        本文在MIRFLICKR-25K 和NUS-WIDE 數(shù)據(jù)集上,研究了訓(xùn)練樣本大小對(duì)方法檢索性能的影響。實(shí)驗(yàn)設(shè)置哈希碼長(zhǎng)度為32 bit,樣本大小為2 500、5 000、7 500 和10 000,并記錄DADCH 的mAP 值。特別地,當(dāng)樣本大小為2 500 時(shí),設(shè)置查詢(xún)實(shí)例大小為800,測(cè)試集大小為500。圖5 展示了在兩個(gè)數(shù)據(jù)集下mAP 隨樣本大小變化的曲線(xiàn),易知DADCH 在樣本數(shù)量較少的情況下,也能取得較高的mAP,并且隨著訓(xùn)練樣本數(shù)據(jù)的增加,mAP 呈上升趨勢(shì)。

        圖5 mAP在不同樣本大小下的變化(哈希碼長(zhǎng)度=32 bit)Fig.5 mAP varying with sample size(length of Hash code=32 bit)

        4.3.5 變體實(shí)驗(yàn)分析

        為進(jìn)一步驗(yàn)證本文方法的有效性,實(shí)驗(yàn)設(shè)計(jì)了DADCH的一些變體。DADCH-Ⅰ采用對(duì)稱(chēng)框架來(lái)代替非對(duì)稱(chēng)學(xué)習(xí)框架;DADCH-Ⅱ去掉標(biāo)簽層,不考慮標(biāo)簽預(yù)測(cè);DADCH-Ⅲ去掉數(shù)據(jù)標(biāo)簽到哈希碼的線(xiàn)性映射,不考慮語(yǔ)義信息嵌入。實(shí)驗(yàn)在MIRFLICKR-25K 和NUS-WIDE 數(shù)據(jù)集上進(jìn)行,設(shè)置哈希碼長(zhǎng)度為32 bit,表4 記錄了每個(gè)變體的mAP。實(shí)驗(yàn)結(jié)果表明,DADCH 的3 個(gè)變體對(duì)其mAP 都有影響。其中,DADCH-Ⅰ對(duì)mAP 的影響最大,說(shuō)明了非對(duì)稱(chēng)學(xué)習(xí)框架對(duì)DADCH 檢索性能的提升有顯著作用。

        表4 DADCH變體的mAP對(duì)比Tab.4 mAP comparison of DADCH variants

        5 結(jié)語(yǔ)

        本文提出了深度非對(duì)稱(chēng)離散跨模態(tài)哈希方法DADCH。該方法利用神經(jīng)網(wǎng)絡(luò)和字典學(xué)習(xí)相結(jié)合的非對(duì)稱(chēng)學(xué)習(xí)框架,采用不同的方式學(xué)習(xí)查詢(xún)實(shí)例和數(shù)據(jù)庫(kù)實(shí)例的哈希碼,不僅縮短了訓(xùn)練時(shí)間,而且能有效利用數(shù)據(jù)的監(jiān)督信息,使學(xué)習(xí)的哈希碼能最大限度保留來(lái)自不同模態(tài)數(shù)據(jù)的語(yǔ)義相關(guān)性;并利用離散優(yōu)化算法對(duì)哈希碼矩陣進(jìn)行逐列優(yōu)化,有效降低了哈希碼的量化誤差。為增強(qiáng)哈希碼的判別性,采用標(biāo)簽預(yù)測(cè)與語(yǔ)義信息嵌入來(lái)挖掘語(yǔ)義信息。在IAPR-TC12、MIRFLICKR-25K 和NUS-WIDE 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,與近年來(lái)7 個(gè)先進(jìn)的跨模態(tài)哈希方法相比,本文方法的檢索性能更好。其中,在MIRFLICKR-25K 數(shù)據(jù)集上,文本檢索圖像任務(wù)的mAP 可達(dá)0.857。然而,本文在利用標(biāo)簽度量不同模態(tài)樣本之間的相似度時(shí),忽略了多標(biāo)簽數(shù)據(jù)之間的語(yǔ)義信息,導(dǎo)致部分語(yǔ)義相似性信息丟失。在未來(lái)的工作中,將更深入地挖掘多標(biāo)簽數(shù)據(jù)的語(yǔ)義信息,使相似度的度量更加精確。

        猜你喜歡
        哈希非對(duì)稱(chēng)實(shí)例
        非對(duì)稱(chēng)Orlicz差體
        點(diǎn)數(shù)不超過(guò)20的旗傳遞非對(duì)稱(chēng)2-設(shè)計(jì)
        基于OpenCV與均值哈希算法的人臉相似識(shí)別系統(tǒng)
        基于維度分解的哈希多維快速流分類(lèi)算法
        非對(duì)稱(chēng)負(fù)載下矩陣變換器改進(jìn)型PI重復(fù)控制
        完形填空Ⅱ
        完形填空Ⅰ
        基于同態(tài)哈希函數(shù)的云數(shù)據(jù)完整性驗(yàn)證算法
        一種基于Bigram二級(jí)哈希的中文索引結(jié)構(gòu)
        “非對(duì)稱(chēng)作戰(zhàn)”的提出及其啟示
        軍事歷史(1999年1期)1999-08-20 08:36:14
        东京热人妻系列无码专区| 国产小车还是日产的好| 视频一区二区免费在线观看| 亚洲中文字幕久久精品品| 亚洲一区 日韩精品 中文字幕| 青青操国产在线| 日本福利视频免费久久久| 一区二区三区国产高清视频| 精品亚洲成a人片在线观看 | 亚洲熟妇色xxxxx欧美老妇| 午夜av福利亚洲写真集| 中出人妻希奇杰卡西av| 亚洲av日韩综合一区在线观看 | 亚洲视频在线观看一区二区三区| 久久99国产精品久久99果冻传媒| 免费无码肉片在线观看| 国产一级片内射在线视频| 国产自拍视频在线观看免费| 久久久久久曰本av免费免费| 91免费播放日韩一区二天天综合福利电影 | 一区二区三区乱码专区| 久久精品国产亚洲av网站| 亚洲av无码专区亚洲av桃| 看全色黄大色大片免费久久久| 99久久免费看精品国产一| 48沈阳熟女高潮嗷嗷叫| 午夜精品一区二区三区无码不卡 | 久久久亚洲经典视频| 少妇高潮呻吟求饶视频网站| 99精品视频69v精品视频| 99久久精品国产成人综合| 久久精品国产亚洲AV高清wy| 在线观看中文字幕二区| 亚洲色成人网站www永久四虎| 久久久久欧洲AV成人无码国产| 青青草视频网站免费看| 欧美丰满熟妇xxxx性ppx人交| 国产极品久久久久极品| 人妖熟女少妇人妖少妇| 免费在线观看av不卡网站| 人妻暴雨中被强制侵犯在线|