深度非對(duì)稱(chēng)離散跨模態(tài)哈希方法

2022-08-24 06:30:16王曉雨王展青熊威

計(jì)算機(jī)應(yīng)用 2022年8期

王曉雨，王展青，熊威

（武漢理工大學(xué)理學(xué)院，武漢 430070）

0 引言

隨著大數(shù)據(jù)時(shí)代的到來(lái)，互聯(lián)網(wǎng)出現(xiàn)了越來(lái)越多不同的模態(tài)數(shù)據(jù)，如圖像、文本、視頻和音頻等；同時(shí)，人們對(duì)信息檢索的需求也越來(lái)越多元化，不再局限于單一模態(tài)的數(shù)據(jù)檢索［1-2］?？缒B(tài)檢索［3-4］憑借可以使用一種模態(tài)數(shù)據(jù)作為查詢(xún)對(duì)象來(lái)獲取另一模態(tài)中與之語(yǔ)義相似數(shù)據(jù)的優(yōu)勢(shì)，引起了人們的廣泛關(guān)注。然而，不同模態(tài)數(shù)據(jù)的表示方式存在差異，導(dǎo)致它們之間存在異構(gòu)鴻溝，使得跨模態(tài)檢索難以返回正確的結(jié)果［5］。如何縮小異構(gòu)鴻溝，挖掘跨模態(tài)數(shù)據(jù)之間的語(yǔ)義關(guān)聯(lián)，是一個(gè)極具挑戰(zhàn)性的問(wèn)題。

現(xiàn)實(shí)世界的多媒體數(shù)據(jù)體量大且復(fù)雜，給人們帶來(lái)高品質(zhì)視聽(tīng)體驗(yàn)的同時(shí)，也給跨模態(tài)檢索帶來(lái)很大的困難。由于哈希技術(shù)在存儲(chǔ)和搜索大規(guī)模數(shù)據(jù)時(shí)的優(yōu)越性，跨模態(tài)哈希方法［6-9］隨之產(chǎn)生，該方法可以在保留原始數(shù)據(jù)的語(yǔ)義相似性信息和語(yǔ)義相關(guān)結(jié)構(gòu)的情況下，將實(shí)值數(shù)據(jù)編碼成緊湊的二進(jìn)制碼。然而，基于哈希方法的手工特征與哈希碼學(xué)習(xí)是相互獨(dú)立的，導(dǎo)致檢索性能不佳。隨著深度學(xué)習(xí)的發(fā)展，深度神經(jīng)網(wǎng)絡(luò)被廣泛用于特征學(xué)習(xí)。與早期的哈希方法相比，深度跨模態(tài)哈希方法［10-12］把模態(tài)特征和哈希函數(shù)放在端對(duì)端框架中共同學(xué)習(xí)，解決了手工特征和哈希碼學(xué)習(xí)不兼容的問(wèn)題，使學(xué)習(xí)的哈希碼更加高效。

大多數(shù)深度跨模態(tài)哈希方法以對(duì)稱(chēng)的方式學(xué)習(xí)哈希碼，即查詢(xún)實(shí)例和數(shù)據(jù)庫(kù)實(shí)例的哈希碼用同一種方式學(xué)習(xí)，訓(xùn)練過(guò)程非常耗時(shí)。為便于訓(xùn)練，它們一般選擇小數(shù)據(jù)集或從整個(gè)數(shù)據(jù)集中抽取部分?jǐn)?shù)據(jù)作為訓(xùn)練集學(xué)習(xí)哈希碼，使得數(shù)據(jù)中的監(jiān)督信息在訓(xùn)練過(guò)程中難以充分利用，學(xué)習(xí)的哈希碼泛化能力不強(qiáng)。為實(shí)現(xiàn)快速檢索，Jiang 等［13］提出了一個(gè)適用于圖像檢索的非對(duì)稱(chēng)深度監(jiān)督哈希（Asymmetric Deep Supervised Hashing，ADSH），以非對(duì)稱(chēng)的方式學(xué)習(xí)查詢(xún)圖像和數(shù)據(jù)庫(kù)圖像的哈希碼，利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)查詢(xún)圖像的哈希碼，而數(shù)據(jù)庫(kù)圖像的哈希碼則通過(guò)求解目標(biāo)函數(shù)直接學(xué)習(xí)，在3 個(gè)自然圖像數(shù)據(jù)集上均取得了較高的檢索精度。受單模態(tài)非對(duì)稱(chēng)哈希的啟發(fā)，研究者開(kāi)展了基于非對(duì)稱(chēng)哈希的跨模態(tài)檢索研究［14-15］。哈希碼學(xué)習(xí)本質(zhì)上是一個(gè)離散學(xué)習(xí)問(wèn)題，一種常見(jiàn)的優(yōu)化策略是將離散問(wèn)題放松為連續(xù)問(wèn)題，但該方法不僅量化誤差大且導(dǎo)致哈希碼次優(yōu)［16］。

鑒于上述問(wèn)題，本文提出了深度非對(duì)稱(chēng)離散跨模態(tài)哈希（Deep Asymmetric Discrete Cross-modal Hashing，DADCH）方法。

本文主要工作如下：

1）DADCH 利用深度神經(jīng)網(wǎng)絡(luò)與字典學(xué)習(xí)，構(gòu)造了非對(duì)稱(chēng)學(xué)習(xí)框架，采取不同的方式學(xué)習(xí)查詢(xún)實(shí)例和數(shù)據(jù)庫(kù)實(shí)例的哈希碼。對(duì)于查詢(xún)實(shí)例，通過(guò)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)哈希碼；對(duì)于數(shù)據(jù)庫(kù)實(shí)例，利用字典學(xué)習(xí)為每個(gè)實(shí)例生成相應(yīng)的稀疏表示，并將其映射為哈希碼。通過(guò)構(gòu)造二者的非對(duì)稱(chēng)內(nèi)積來(lái)保留原始數(shù)據(jù)的語(yǔ)義相似信息。

2）采用離散優(yōu)化策略。所提出的損失函數(shù)可以在不放松哈希碼離散約束的情況下進(jìn)行優(yōu)化，有效降低哈希碼二值化的量化誤差。

3）為充分挖掘數(shù)據(jù)的語(yǔ)義信息，通過(guò)標(biāo)簽預(yù)測(cè)及語(yǔ)義信息嵌入，使學(xué)習(xí)到的哈希碼更具判別性。

1 相關(guān)工作

現(xiàn)有的跨模態(tài)哈希方法可根據(jù)訓(xùn)練過(guò)程中有無(wú)標(biāo)簽信息的參與，大致分為無(wú)監(jiān)督跨模態(tài)哈希和監(jiān)督跨模態(tài)哈希兩類(lèi)。

無(wú)監(jiān)督跨模態(tài)哈希方法在訓(xùn)練過(guò)程中不使用任何數(shù)據(jù)標(biāo)簽，通過(guò)學(xué)習(xí)不同模態(tài)數(shù)據(jù)從特征空間到漢明空間的映射得到哈希函數(shù)。集體矩陣分解哈希（Collective Matrix Factorization Hashing，CMFH）［17］采用集體矩陣分解技術(shù)從原始數(shù)據(jù)中學(xué)習(xí)不同模態(tài)的共同潛在語(yǔ)義表示，以學(xué)習(xí)哈希碼。融合相似性哈希（Fusion Similarity Hashing，F(xiàn)SH）［18］提出將多模態(tài)的融合相似性保存到公共的漢明空間中。基于字典學(xué)習(xí)的跨模態(tài)哈希（Dictionary Learning Cross-Modal Hashing，DLCMH）［19］利用字典學(xué)習(xí)生成每個(gè)實(shí)例的稀疏表示，然后將其投影到共同的潛在空間中進(jìn)行哈希碼學(xué)習(xí)。深度二進(jìn)制重構(gòu)跨模態(tài)哈希（Deep Binary Reconstruction for Cross-modal Hashing，DBRC）［20］使用了一個(gè)新的激活函數(shù)ATanh，可以在無(wú)監(jiān)督的方式下直接學(xué)習(xí)二進(jìn)制哈希碼。深度語(yǔ)義對(duì)齊哈希（Deep Semantic-Alignment Hashing，DSAH）［21］設(shè)計(jì)了一個(gè)語(yǔ)義對(duì)齊損失函數(shù)，將特征相似性與哈希碼相似性對(duì)齊，并通過(guò)自編碼器實(shí)現(xiàn)不同模態(tài)特征與哈希碼之間的重構(gòu)。

監(jiān)督跨模態(tài)哈希方法通常將數(shù)據(jù)標(biāo)簽作為監(jiān)督信息，以挖掘不同模態(tài)數(shù)據(jù)之間的語(yǔ)義關(guān)聯(lián)，學(xué)習(xí)更具語(yǔ)義信息的哈希碼。語(yǔ)義相關(guān)最大化（Semantic Correlation Maximization，SCM）［8］將標(biāo)簽信息集成到哈希學(xué)習(xí)過(guò)程中，避免了成對(duì)相似性矩陣的復(fù)雜計(jì)算。監(jiān)督矩陣分解哈希（Supervised Matrix Factorization Hashing，SMFH）［22］通過(guò)基于矩陣分解的圖拉普拉斯正則項(xiàng)引入監(jiān)督信息，以保留模態(tài)內(nèi)和模態(tài)間的相似性。離散潛在因子哈希（Discrete Latent Factor Hashing，DLFH）［23］提出了一個(gè)離散潛在因子模型，可以無(wú)需放松約束條件直接學(xué)習(xí)二進(jìn)制哈希碼，有效地保持了哈希碼之間的成對(duì)相似性?；谧值鋵W(xué)習(xí)的監(jiān)督離散哈希（Dictionary Learning based Supervised Discrete Hashing，DLSDH）［24］利用字典學(xué)習(xí)為實(shí)例生成稀疏表示，然后學(xué)習(xí)實(shí)例從字典空間到低維漢明空間的投影，采用兩步哈希方法學(xué)習(xí)哈希碼。深度跨模態(tài)哈希（Deep Cross-Modal Hashing，DCMH）［25］設(shè)計(jì)了一個(gè)端對(duì)端的深度神經(jīng)網(wǎng)絡(luò)框架，首次將特征學(xué)習(xí)和哈希碼學(xué)習(xí)結(jié)合在一起。自監(jiān)督對(duì)抗哈希（Self-Supervised Adversarial Hashing，SSAH）［26］以自監(jiān)督的方式，利用對(duì)抗網(wǎng)絡(luò)來(lái)學(xué)習(xí)不同模態(tài)的哈希碼，并構(gòu)造語(yǔ)義網(wǎng)絡(luò)，以多標(biāo)簽標(biāo)注的形式挖掘數(shù)據(jù)的高級(jí)語(yǔ)義信息。深度語(yǔ)義保留序數(shù)哈希（Deep Semantic-Preserving Ordinal Hashing，DSPOH）［27］通過(guò)保持模態(tài)間相似性和模態(tài)內(nèi)標(biāo)簽信息來(lái)學(xué)習(xí)基于排序的哈希函數(shù)。

2 深度非對(duì)稱(chēng)離散跨模態(tài)哈希

2.1 符號(hào)和問(wèn)題定義

本文使用粗體大寫(xiě)字母表示矩陣，粗體小寫(xiě)字母表示向量。Wij表示矩陣W的第i行第j列的元素，Wi*表示矩陣W的第i行，W*j表示矩陣W的第j列；WT表示矩陣W的轉(zhuǎn)置；I表示單位矩陣。

本文主要研究圖像模態(tài)和文本模態(tài)之間的跨模態(tài)檢索。訓(xùn)練集O由N個(gè)樣本組成，且每個(gè)樣本都有兩個(gè)模態(tài)的特征和標(biāo)簽信息，記為。其中，表示圖像模態(tài)，表示文本模態(tài)。從訓(xùn)練集O中隨機(jī)抽取m個(gè)實(shí)例，作為查詢(xún)實(shí)例Φ=OΩ(Ω={i1，i2，…，im}，m?N)。Ψ=OΓ表示數(shù)據(jù)庫(kù)實(shí)例，其中，Γ={j1，j2，…，jn}(n=N-m)。令L∈{0，1}N×c表示標(biāo)簽矩陣，c是標(biāo)簽類(lèi)別的個(gè)數(shù)。S∈{0，1}N×N是語(yǔ)義相似度矩陣：若xi與yj存在相同的類(lèi)別標(biāo)簽，則Sij=1；否則，Sij=0?？缒B(tài)哈希主要任務(wù)是學(xué)習(xí)兩個(gè)模態(tài)的二進(jìn)制哈希碼：Bx∈{-1，+1}r，By∈{-1，+1}r，r是哈希碼的長(zhǎng)度。當(dāng)Sij=1時(shí)，相似實(shí)例的哈希碼之間的漢明距離盡可能??；當(dāng)Sij=0時(shí)，不相似實(shí)例的哈希碼之間的漢明距離盡可能大。

2.2 模型框架

DADCH 的模型框架如圖1 所示，包括兩個(gè)深度神經(jīng)網(wǎng)絡(luò)分支和兩個(gè)字典學(xué)習(xí)分支，分別用于提取數(shù)據(jù)的高級(jí)語(yǔ)義特征和稀疏表示。

圖1 深度非對(duì)稱(chēng)離散跨模態(tài)哈?？蚣蹻ig.1 Framework of deep asymmetric discrete cross-modal hashing

圖1 中圖像網(wǎng)絡(luò)采用ImageNet 數(shù)據(jù)集上預(yù)訓(xùn)練的CNNF（Convolutional Neural Network-Fast）［28］。原始的CNN-F 由5個(gè)卷積層（conv1～conv5）和3 個(gè)全連接層（fc6～fc8）組成。網(wǎng)絡(luò)的前7 層與CNN-F 完全相同，均使用線(xiàn)性整流函數(shù)（Rectified Linear Unit，ReLU）作為激活函數(shù)。本文將fc8 層替換為含有r+c個(gè)隱藏節(jié)點(diǎn)的全連接層，并將其分成兩部分：一個(gè)是含有r個(gè)隱藏節(jié)點(diǎn)的哈希層，使用tanh 函數(shù)作為激活函數(shù)，生成標(biāo)簽；另一個(gè)是含有c個(gè)隱藏節(jié)點(diǎn)的標(biāo)簽層，使用sigmoid 函數(shù)作為激活函數(shù)，生成哈希碼。具體的圖像網(wǎng)絡(luò)參數(shù)配置如表1 所示。

表1 圖像網(wǎng)絡(luò)的參數(shù)配置Tab.1 Parameter configuration of image network

其中，k表示卷積核大?。╧ernel）；s表示步長(zhǎng)（stride）；pad 表示是否填充，0 表示對(duì)圖像矩陣零填充，1 表示在圖像矩陣外填充1 圈，2 表示在圖像矩陣外填充2 圈；LRN 表示局部響應(yīng)歸一化（Local Response Normalization）；pool 表示池化過(guò)程，×2 pool 表示步長(zhǎng)為2 的最大池化；Max pooling 表示最大池化；4 096 和512 表示全連接層的節(jié)點(diǎn)數(shù)量。

圖1 中文本網(wǎng)絡(luò)采用一個(gè)3 層全連接層的神經(jīng)網(wǎng)絡(luò)。文本網(wǎng)絡(luò)的輸入是由詞袋（Bag of Words，BoW）模型提取到的文本特征。網(wǎng)絡(luò)的前2 層（fc1、fc2）均使用ReLU 作為激活函數(shù)，最后1 層（fc3）與圖像網(wǎng)絡(luò)的fc8 層相同，哈希層和標(biāo)簽層分別使用tanh 函數(shù)和sigmoid 函數(shù)作為激活函數(shù)。具體的文本網(wǎng)絡(luò)參數(shù)配置如表2 所示。

表2 文本網(wǎng)絡(luò)的參數(shù)配置Tab.2 Parameter configuration of text network

2.3 深度非對(duì)稱(chēng)跨模態(tài)哈希

1）非對(duì)稱(chēng)學(xué)習(xí)框架。

DADCH 將神經(jīng)網(wǎng)絡(luò)與字典學(xué)習(xí)相結(jié)合，構(gòu)造了非對(duì)稱(chēng)學(xué)習(xí)框架。該框架可以通過(guò)不同方式學(xué)習(xí)查詢(xún)實(shí)例和數(shù)據(jù)庫(kù)實(shí)例的哈希碼，有效保留了模態(tài)內(nèi)和模態(tài)間的語(yǔ)義相關(guān)性。由于查詢(xún)實(shí)例的數(shù)量遠(yuǎn)遠(yuǎn)小于數(shù)據(jù)庫(kù)實(shí)例的數(shù)量，可以使更多的數(shù)據(jù)參與訓(xùn)練，數(shù)據(jù)集中的監(jiān)督信息得以充分利用。

字典學(xué)習(xí)本質(zhì)上是一種對(duì)高維數(shù)據(jù)降維的方法［29］。字典學(xué)習(xí)為原始高維數(shù)據(jù)學(xué)習(xí)合適的字典，以及相應(yīng)的稀疏表示。一般可表示為：

在跨模態(tài)檢索任務(wù)中，字典學(xué)習(xí)為數(shù)據(jù)庫(kù)實(shí)例Ψ中的圖像模態(tài)和文本模態(tài)的手工特征矩陣學(xué)習(xí)相應(yīng)的字典及稀疏表示，生成的稀疏表示在低維空間中依然能夠保持原始數(shù)據(jù)之間的相似性。然后利用線(xiàn)性映射將稀疏表示映射為哈希碼，確保語(yǔ)義相似的數(shù)據(jù)學(xué)習(xí)到的哈希碼是相同的。因此，損失可取為：

在圖像網(wǎng)絡(luò)和文本網(wǎng)絡(luò)中，對(duì)于第i個(gè)實(shí)例，圖像模態(tài)和文本模態(tài)的哈希碼為：

其中：F和G分別表示圖像網(wǎng)絡(luò)和文本網(wǎng)絡(luò)；U∈[-1，+1]m×r和V∈[-1，+1]m×r是由神經(jīng)網(wǎng)絡(luò)生成的關(guān)于查詢(xún)實(shí)例Φ中圖像模態(tài)和文本模態(tài)的哈希碼；θx和θy分別是圖像網(wǎng)絡(luò)和文本網(wǎng)絡(luò)的參數(shù)。

2）非對(duì)稱(chēng)損失。

為了使學(xué)習(xí)到的哈希碼能夠最大限度保留查詢(xún)實(shí)例和數(shù)據(jù)庫(kù)實(shí)例之間相似性，應(yīng)該盡量減少查詢(xún)實(shí)例和數(shù)據(jù)庫(kù)實(shí)例哈希碼的內(nèi)積與語(yǔ)義相似度矩陣之間的損失。通過(guò)構(gòu)造查詢(xún)實(shí)例與數(shù)據(jù)庫(kù)實(shí)例哈希碼之間的非對(duì)稱(chēng)內(nèi)積，將監(jiān)督信息和哈希碼學(xué)習(xí)集成到統(tǒng)一的學(xué)習(xí)框架中，有效保留了原始數(shù)據(jù)中的相似信息。當(dāng)使用查詢(xún)實(shí)例Φ中的圖像模態(tài)檢索數(shù)據(jù)庫(kù)實(shí)例Ψ中的文本模態(tài)時(shí)，圖像模態(tài)的哈希碼不僅要保留與Ψ中文本模態(tài)的哈希碼相似性，也要與Φ中文本模態(tài)的哈希碼保持相似。因此，損失可取為：

同樣地，當(dāng)使用Φ中的文本模態(tài)查詢(xún)?chǔ)分袌D像模態(tài)時(shí)，損失可取為：

其中：α是超參數(shù)。

因此，非對(duì)稱(chēng)損失為：

3）量化損失。

跨模態(tài)哈希的目的是將多模態(tài)數(shù)據(jù)的特征向量編碼成二進(jìn)制哈希碼，以減少存儲(chǔ)空間，實(shí)現(xiàn)模態(tài)間的快速檢索。由于哈希碼U和V是由圖像網(wǎng)絡(luò)和文本網(wǎng)絡(luò)生成的連續(xù)實(shí)值，在計(jì)算過(guò)程中需要將其轉(zhuǎn)化為二進(jìn)制碼。為降低量化誤差，使神經(jīng)網(wǎng)絡(luò)的輸出與查詢(xún)實(shí)例的二進(jìn)制碼BΩ盡可能一致，其損失可取為：

4）標(biāo)簽預(yù)測(cè)與語(yǔ)義信息嵌入。

學(xué)習(xí)具有判別性的哈希碼對(duì)檢索性能的提升十分重要。為充分挖掘數(shù)據(jù)的語(yǔ)義信息，使生成的哈希碼更具判別性，DADCH 在圖像網(wǎng)絡(luò)和文本網(wǎng)絡(luò)的最后一層增加了標(biāo)簽層，使之能夠生成與真實(shí)標(biāo)簽維度相同的預(yù)測(cè)標(biāo)簽。標(biāo)簽預(yù)測(cè)損失可取為：

其中：LΩ是查詢(xún)實(shí)例的標(biāo)簽矩陣；Lx和Ly是圖像網(wǎng)絡(luò)和文本網(wǎng)絡(luò)的預(yù)測(cè)標(biāo)簽。

為進(jìn)一步增強(qiáng)哈希碼的判別性，受一些自編碼方法［30-31］的啟發(fā)，本文通過(guò)線(xiàn)性映射將標(biāo)簽信息嵌入到哈希碼中。具體地，將語(yǔ)義標(biāo)簽矩陣L投影到二進(jìn)制碼矩陣B中，使得LP≈B。其中：P是投影矩陣。因此，損失可取為：

由此可得DADCH 的目標(biāo)函數(shù)為：

其中：β、γ、η是超參數(shù)。

3 模型優(yōu)化算法

本章將詳細(xì)介紹DADCH 的優(yōu)化算法。雖然目標(biāo)函數(shù)式（10）是非凸函數(shù)，但是當(dāng)其他參數(shù)固定時(shí)，對(duì)于每個(gè)參數(shù)又是凸函數(shù)。因此，本文采用隨機(jī)梯度下降（Stochastic Gradient Descent，SGD）算法［32］和交替學(xué)習(xí)策略學(xué)習(xí)參數(shù)θx、θy、Dx、Dy、Ax、Ay、Wx、Wy、B、P。即在每次迭代中，只學(xué)習(xí)一個(gè)參數(shù)，其他參數(shù)固定。

3.1 參數(shù)學(xué)習(xí)

1）θ的學(xué)習(xí)。

當(dāng)θy、Dx、Dy、Ax、Ay、Wx、Wy、B、P固定時(shí)，式（10）可簡(jiǎn)化為：

利用隨機(jī)梯度下降和反向傳播（Back Propagation，BP）算法來(lái)學(xué)習(xí)θx。

當(dāng)θx、Dx、Dy、Ax、Ay、Wx、Wy、B、P固定時(shí)，式（10）可簡(jiǎn)化為：

同樣地，利用隨機(jī)梯度下降和反向傳播算法來(lái)學(xué)習(xí)θy。

2）D的學(xué)習(xí)。

當(dāng)θx、θy、Dy、Ax、Ay、Wx、Wy、B、P固定時(shí)，式（10）可簡(jiǎn)化為：

顯然，式（13）是一個(gè)關(guān)于Dx的二次約束二次規(guī)劃問(wèn)題（Quadratically Constrained Quadratic Program，QCQP），可利用拉格朗日對(duì)偶性進(jìn)行求解。

當(dāng)θx、θy、Dx、Ax、Ay、Wx、Wy、B、P固定時(shí)，式（10）可簡(jiǎn)化為：

同樣地，利用拉格朗日對(duì)偶性學(xué)習(xí)Dy。

3）A的學(xué)習(xí)。

當(dāng)θx、θy、Dx、Dy、Ay、Wx、Wy、B、P固定時(shí)，式（10）可簡(jiǎn)化為：

5）B的學(xué)習(xí)。

本文采用離散循環(huán)坐標(biāo)下降（Discrete Cyclic Coordinate descent，DCC）法［33］學(xué)習(xí)B，此過(guò)程無(wú)需松弛哈希碼的離散約束，可避免較大的量化誤差。

當(dāng)θx、θy、Dx、Dy、Ax、Ay、Wx、Wy、P固定時(shí)，式（10）可簡(jiǎn)化為：

由于BΩ和BΓ是查詢(xún)實(shí)例和數(shù)據(jù)庫(kù)實(shí)例的二進(jìn)制碼，對(duì)式（23）的求解可轉(zhuǎn)化為對(duì)式（24）和式（25）的求解：

3.2 樣本外擴(kuò)展

在檢索過(guò)程中，對(duì)于不在查詢(xún)實(shí)例中的圖像數(shù)據(jù)xq，可通過(guò)正向傳播來(lái)學(xué)習(xí)哈希碼：

同樣地，對(duì)于不在查詢(xún)實(shí)例中的文本數(shù)據(jù)yq，其哈希碼為：

4 實(shí)驗(yàn)與結(jié)果分析

為驗(yàn)證DADCH 的有效性，本文在3 個(gè)廣泛使用的跨模態(tài)數(shù)據(jù)集IAPR-TC12［34］、MIRFLICKR-25K［35］和NUS-WIDE［36］上進(jìn)行了實(shí)驗(yàn)，并將其與近年來(lái)先進(jìn)的跨模態(tài)檢索方法進(jìn)行比較與分析。

4.1 實(shí)驗(yàn)設(shè)置

1）參數(shù)設(shè)置。

實(shí)驗(yàn)設(shè)置超參數(shù)α=100，β=200，γ=300，η=100，λ1=λ2=0.01。由于圖像和文本是成對(duì)出現(xiàn)的，設(shè)置字典Dx、Dy的大小K1=K2=128。此外，不同大小的字典也同樣適用于本方法。圖像模態(tài)網(wǎng)絡(luò)的學(xué)習(xí)率為[10-9，10-5.5]，文本模態(tài)網(wǎng)絡(luò)的學(xué)習(xí)率為[10-9，10-4.5]。本文實(shí)驗(yàn)數(shù)據(jù)取3 次實(shí)驗(yàn)結(jié)果的平均值。

2）數(shù)據(jù)集。

IAPR-TC12：該數(shù)據(jù)集由20 000 個(gè)圖像文本對(duì)組成。每對(duì)樣本使用255 個(gè)標(biāo)簽進(jìn)行注釋。該數(shù)據(jù)集與DCMH［25］中一致，對(duì)于每個(gè)實(shí)例，圖像數(shù)據(jù)是512 維的手工特征向量，文本數(shù)據(jù)是2 912 維的詞袋向量。

MIRFLICKR-25K：該數(shù)據(jù)集由從Flickr 網(wǎng)站收集的25 000 個(gè)圖像組成。本文選擇至少包含20 個(gè)標(biāo)簽的圖像文本對(duì)進(jìn)行實(shí)驗(yàn)。對(duì)于每個(gè)實(shí)例，圖像數(shù)據(jù)是一個(gè)512 維的手工特征向量，文本數(shù)據(jù)是一個(gè)1 386 維的詞袋向量。

NUS-WIDE：該數(shù)據(jù)集由包含269 648 張圖像的公共網(wǎng)絡(luò)圖像組成。數(shù)據(jù)集中有81 個(gè)概念標(biāo)簽，每個(gè)實(shí)例有一個(gè)或多個(gè)標(biāo)簽。本文使用21 個(gè)最常見(jiàn)概念的195 834 個(gè)圖像文本對(duì)進(jìn)行實(shí)驗(yàn)。對(duì)于每個(gè)實(shí)例，圖像數(shù)據(jù)是一個(gè)500 維視覺(jué)詞袋（Bag of View Word，BoVW）向量，文本數(shù)據(jù)是一個(gè)1 000維的詞袋向量。

對(duì)于上述3 個(gè)數(shù)據(jù)集，本文隨機(jī)抽取2 000 個(gè)實(shí)例作為測(cè)試集，剩余實(shí)例作為訓(xùn)練集和檢索集，并從訓(xùn)練集中隨機(jī)抽取3 000 個(gè)實(shí)例作為查詢(xún)實(shí)例，剩余的訓(xùn)練集實(shí)例作為數(shù)據(jù)庫(kù)實(shí)例。

4.2 評(píng)估標(biāo)準(zhǔn)

為驗(yàn)證本文方法在跨模態(tài)檢索任務(wù)中的性能，采用兩種廣泛使用的檢索評(píng)估標(biāo)準(zhǔn)：漢明排序和哈希查找。漢明排序根據(jù)檢索集中的數(shù)據(jù)與給定查詢(xún)數(shù)據(jù)之間的漢明距離按遞增順序排序；哈希查找是返回查詢(xún)數(shù)據(jù)的某個(gè)漢明半徑內(nèi)的所有數(shù)據(jù)。

平均精度均值（mean Average Precision，mAP）［37］是平均精度的平均值，是漢明排序中廣泛使用的度量指標(biāo)。定義如下：

其中：m是查詢(xún)數(shù)據(jù)的個(gè)數(shù)；AP(xi)是查詢(xún)數(shù)據(jù)xi的平均精度。

精度召回率曲線(xiàn)（PR-curve）［38］是廣泛用于評(píng)估哈希查找準(zhǔn)確性的指標(biāo)。PR 曲線(xiàn)以召回率（recall）為自變量，精度（precision）為因變量。精度和召回率的定義如下：

其中：TP（True Positives）表示檢索的相關(guān)數(shù)據(jù)個(gè)數(shù)；FP（False Positives）表示檢索的不相關(guān)數(shù)據(jù)個(gè)數(shù)；FN（False Negatives）表示未檢索的不相關(guān)數(shù)據(jù)個(gè)數(shù)。

4.3 實(shí)驗(yàn)結(jié)果對(duì)比分析

本文選取7 個(gè)先進(jìn)的跨模態(tài)檢索方法與DADCH 進(jìn)行對(duì)比，分別為：跨視圖哈希（Cross-View Hashing，CVH）［7］、語(yǔ)義主題多模態(tài)哈希STMH（Semantic Topic Multimodal Hashing for cross-media retrieval）［6］、SCM［8］、語(yǔ)義保留哈希（Semantics-Preserving Hashing，SePH）［9］、DCMH［25］、注意力感知深度對(duì)抗哈希（Attention-aware Deep Adversarial Hashing，ADAH）［11］和SSAH［26］。其中，前4 個(gè)方法是基于淺層框架的，后3 個(gè)是基于深度學(xué)習(xí)的。

4.3.1 mAP及PR曲線(xiàn)對(duì)比

表3 是所有方法在不同數(shù)據(jù)集上的mAP 結(jié)果，其中I→T表示圖像檢索文本，T→I 表示文本檢索圖像，哈希碼長(zhǎng)度分別設(shè)置為16、32 和64 bit，粗體字表示最優(yōu)結(jié)果。

從表3 可看出：在所有檢索任務(wù)中，深度方法都顯著優(yōu)于非深度方法。在MIRFLICKR-25K 數(shù)據(jù)集上，圖像檢索文本時(shí)，DADCH 與非深度方法（SePH）相比，mAP 提高17%～18%，表明神經(jīng)網(wǎng)絡(luò)提取的深度特征包含更豐富的語(yǔ)義信息，使學(xué)習(xí)的哈希碼更高效；與深度監(jiān)督哈希方法（SSAH）相比，mAP 提高6%～7%，說(shuō)明非對(duì)稱(chēng)學(xué)習(xí)框架能充分利用數(shù)據(jù)的監(jiān)督信息，在跨模態(tài)檢索中有一定的優(yōu)越性。具體地，在IAPR-TC12、MIRFLICKR-25K 和NUS-WIDE 數(shù)據(jù)集上，哈希碼長(zhǎng)度為64 bit 時(shí)，DADCH 的mAP（I→T）比SSAH 分別提高了11.6、5.2、14.7 個(gè)百分點(diǎn)，這是因?yàn)镈ADCH 以離散的非對(duì)稱(chēng)框架學(xué)習(xí)查詢(xún)實(shí)例和數(shù)據(jù)庫(kù)實(shí)例的哈希碼，可以更深入地挖掘數(shù)據(jù)的語(yǔ)義信息，降低量化誤差，從而獲得出色的檢索性能。與IAPR-TC12 和NUS-WIDE 數(shù)據(jù)集相比，DADCH在MIRFLICKR-25K 數(shù)據(jù)集上的效果更顯著。當(dāng)哈希碼長(zhǎng)度為64 bit 時(shí)，DADCH 的mAP 分別為0.852（I→T）和0.857（T→I），這是因?yàn)镸IRFLICKR-25K 數(shù)據(jù)集更復(fù)雜，每個(gè)圖像包含的對(duì)象更多，標(biāo)簽也更多。此外，大多數(shù)方法在文本檢索圖像任務(wù)中的mAP 比圖像檢索文本任務(wù)中的結(jié)果好，說(shuō)明文本模態(tài)能更好地描述圖像文本對(duì)的內(nèi)容。

表3 不同方法的mAP對(duì)比Tab.3 mAP comparison of different methods

圖2 展示了上述方法在不同數(shù)據(jù)集上哈希碼長(zhǎng)度為32 bit 的精度-召回率曲線(xiàn)。結(jié)果顯示，在所有跨模態(tài)檢索任務(wù)中，本文方法PR 曲線(xiàn)下方的面積始終大于近年來(lái)的先進(jìn)方法，進(jìn)一步驗(yàn)證了DADCH 的檢索性能優(yōu)于其他方法。

圖2 各方法的PR曲線(xiàn)對(duì)比（哈希碼長(zhǎng)度=32 bit）Fig.2 Comparison of PR curves of different methods（length of Hash code=32 bit）

4.3.2 參數(shù)敏感度分析

為研究超參數(shù)對(duì)方法檢索精度的影響，本文設(shè)計(jì)了參數(shù)敏感度分析實(shí)驗(yàn)。實(shí)驗(yàn)設(shè)置參數(shù)α，β，γ，η∈[1，1 000]，λ1，λ2∈[0.01，100]，在實(shí)驗(yàn)過(guò)程中固定其他參數(shù)不變，只改變其中一個(gè)參數(shù)值。圖3 展示了不同參數(shù)值在MIRFLICKR-25K 數(shù)據(jù)集上哈希碼長(zhǎng)度為32 bit 的mAP 變化曲線(xiàn)。從圖3可看出各參數(shù)對(duì)本文方法是不敏感的。當(dāng)參數(shù)α和β∈[1，100]時(shí)，mAP 略有波動(dòng)；但在[100，1 000]范圍內(nèi)，對(duì)其影響并不大。并且參數(shù)γ、η和λ1、λ2分別在[1，1 000]和[0.01，100]檢索性能最優(yōu)。因此，在實(shí)驗(yàn)中設(shè)置參數(shù)α=100，β=200，γ=300，η=100，λ1=λ2=0.01。

圖3 各參數(shù)的敏感度分析（哈希碼長(zhǎng)度=32 bit）Fig.3 Sensitivity analysis of parameters（length of Hash code=32 bit）

4.3.3 時(shí)間復(fù)雜度分析

為評(píng)估本文方法的效率，實(shí)驗(yàn)選取深度監(jiān)督對(duì)稱(chēng)哈希方法DCMH 和SSAH 作為比較對(duì)象，比較了3 種方法在MIRFLICKR-25K 數(shù)據(jù)集上哈希碼長(zhǎng)度為16 bit 的訓(xùn)練時(shí)間。實(shí)驗(yàn)中，DCMH 和SSAH 使用整個(gè)數(shù)據(jù)集用于神經(jīng)網(wǎng)絡(luò)訓(xùn)練。圖4 展示了它們的訓(xùn)練時(shí)間曲線(xiàn)，x軸為訓(xùn)練時(shí)間，y軸為mAP。觀察結(jié)果顯示，當(dāng)使用整個(gè)數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí)，DCMH 和SSAH 收斂時(shí)間需要超過(guò)6 h。當(dāng)訓(xùn)練時(shí)間相同時(shí)，DADCH 的mAP 比DCMH、SSAH 都要高。DADCH 的訓(xùn)練時(shí)間短的原因主要有：首先，由于深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練比較耗時(shí)，當(dāng)數(shù)據(jù)集全部用于訓(xùn)練時(shí)，傳統(tǒng)的深度監(jiān)督對(duì)稱(chēng)哈希方法的時(shí)間復(fù)雜度至少為O(n2)。其次，DADCH 采用非對(duì)稱(chēng)學(xué)習(xí)框架，僅使用一小部分?jǐn)?shù)據(jù)進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練，而剩余數(shù)據(jù)利用字典學(xué)習(xí)學(xué)習(xí)，使其在較短時(shí)間內(nèi)也能達(dá)到比較高的精度。

圖4 MIRFLICKR-25K數(shù)據(jù)集上的訓(xùn)練時(shí)間對(duì)比（哈希碼長(zhǎng)度=16 bit）Fig.4 Training time comparison on MIRFLICKR-25K dataset（length of Hash code=16 bit）

4.3.4 樣本適應(yīng)度分析

本文在MIRFLICKR-25K 和NUS-WIDE 數(shù)據(jù)集上，研究了訓(xùn)練樣本大小對(duì)方法檢索性能的影響。實(shí)驗(yàn)設(shè)置哈希碼長(zhǎng)度為32 bit，樣本大小為2 500、5 000、7 500 和10 000，并記錄DADCH 的mAP 值。特別地，當(dāng)樣本大小為2 500 時(shí)，設(shè)置查詢(xún)實(shí)例大小為800，測(cè)試集大小為500。圖5 展示了在兩個(gè)數(shù)據(jù)集下mAP 隨樣本大小變化的曲線(xiàn)，易知DADCH 在樣本數(shù)量較少的情況下，也能取得較高的mAP，并且隨著訓(xùn)練樣本數(shù)據(jù)的增加，mAP 呈上升趨勢(shì)。

圖5 mAP在不同樣本大小下的變化（哈希碼長(zhǎng)度=32 bit）Fig.5 mAP varying with sample size（length of Hash code=32 bit）

4.3.5 變體實(shí)驗(yàn)分析

為進(jìn)一步驗(yàn)證本文方法的有效性，實(shí)驗(yàn)設(shè)計(jì)了DADCH的一些變體。DADCH-Ⅰ采用對(duì)稱(chēng)框架來(lái)代替非對(duì)稱(chēng)學(xué)習(xí)框架；DADCH-Ⅱ去掉標(biāo)簽層，不考慮標(biāo)簽預(yù)測(cè)；DADCH-Ⅲ去掉數(shù)據(jù)標(biāo)簽到哈希碼的線(xiàn)性映射，不考慮語(yǔ)義信息嵌入。實(shí)驗(yàn)在MIRFLICKR-25K 和NUS-WIDE 數(shù)據(jù)集上進(jìn)行，設(shè)置哈希碼長(zhǎng)度為32 bit，表4 記錄了每個(gè)變體的mAP。實(shí)驗(yàn)結(jié)果表明，DADCH 的3 個(gè)變體對(duì)其mAP 都有影響。其中，DADCH-Ⅰ對(duì)mAP 的影響最大，說(shuō)明了非對(duì)稱(chēng)學(xué)習(xí)框架對(duì)DADCH 檢索性能的提升有顯著作用。

表4 DADCH變體的mAP對(duì)比Tab.4 mAP comparison of DADCH variants

5 結(jié)語(yǔ)

本文提出了深度非對(duì)稱(chēng)離散跨模態(tài)哈希方法DADCH。該方法利用神經(jīng)網(wǎng)絡(luò)和字典學(xué)習(xí)相結(jié)合的非對(duì)稱(chēng)學(xué)習(xí)框架，采用不同的方式學(xué)習(xí)查詢(xún)實(shí)例和數(shù)據(jù)庫(kù)實(shí)例的哈希碼，不僅縮短了訓(xùn)練時(shí)間，而且能有效利用數(shù)據(jù)的監(jiān)督信息，使學(xué)習(xí)的哈希碼能最大限度保留來(lái)自不同模態(tài)數(shù)據(jù)的語(yǔ)義相關(guān)性；并利用離散優(yōu)化算法對(duì)哈希碼矩陣進(jìn)行逐列優(yōu)化，有效降低了哈希碼的量化誤差。為增強(qiáng)哈希碼的判別性，采用標(biāo)簽預(yù)測(cè)與語(yǔ)義信息嵌入來(lái)挖掘語(yǔ)義信息。在IAPR-TC12、MIRFLICKR-25K 和NUS-WIDE 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，與近年來(lái)7 個(gè)先進(jìn)的跨模態(tài)哈希方法相比，本文方法的檢索性能更好。其中，在MIRFLICKR-25K 數(shù)據(jù)集上，文本檢索圖像任務(wù)的mAP 可達(dá)0.857。然而，本文在利用標(biāo)簽度量不同模態(tài)樣本之間的相似度時(shí)，忽略了多標(biāo)簽數(shù)據(jù)之間的語(yǔ)義信息，導(dǎo)致部分語(yǔ)義相似性信息丟失。在未來(lái)的工作中，將更深入地挖掘多標(biāo)簽數(shù)據(jù)的語(yǔ)義信息，使相似度的度量更加精確。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放