融合多尺度特征的深度哈希圖像檢索方法*

2018-12-25 08:52:06周書(shū)仁蔡碧野

計(jì)算機(jī)與生活 2018年12期

周書(shū)仁，謝盈+，蔡碧野

1.長(zhǎng)沙理工大學(xué) 綜合交通運(yùn)輸大數(shù)據(jù)智能處理湖南省重點(diǎn)實(shí)驗(yàn)室，長(zhǎng)沙 410114

2.長(zhǎng)沙理工大學(xué) 計(jì)算機(jī)與通信工程學(xué)院，長(zhǎng)沙 410114

1 引言

隨著互聯(lián)網(wǎng)中圖像數(shù)據(jù)的日漸增長(zhǎng)，如何快速且有效地檢索圖像這個(gè)問(wèn)題得到了廣泛關(guān)注。早期基于文本的圖像檢索技術(shù)（text-based image retrieval，TBIR）已不能適應(yīng)時(shí)代的發(fā)展，其后出現(xiàn)的基于內(nèi)容的圖像檢索技術(shù)（content-based image retrieval，CBIR）取得的研究成果顯著，其主要針對(duì)圖像的內(nèi)容如顏色、形狀和紋理等人工視覺(jué)特征[1]進(jìn)行特征提取。

然而，由于圖像數(shù)據(jù)庫(kù)的規(guī)模已然大幅增長(zhǎng)，在整個(gè)數(shù)據(jù)庫(kù)中進(jìn)行線性搜索需要大量的時(shí)間和存儲(chǔ)空間，“維數(shù)災(zāi)難”問(wèn)題在基于內(nèi)容的圖像檢索應(yīng)用中也時(shí)常出現(xiàn)。為了解決這些問(wèn)題，近年來(lái)，近似最近鄰搜索（approximate nearest neighbor，ANN）成為了研究熱點(diǎn)，哈希算法是最具代表性的方法之一。哈希算法將原始圖像映射為一串緊湊的二進(jìn)制編碼，圖像之間的相似度可以直接使用漢明距離進(jìn)行計(jì)算，有效地提高了檢索效率。因此，基于哈希算法的圖像檢索技術(shù)得到了廣泛的研究和應(yīng)用。

當(dāng)前主流的哈希算法首先抽取出圖像的高維實(shí)數(shù)特征向量（如顏色、形狀等），再通過(guò)哈希函數(shù)將特征向量轉(zhuǎn)換為一個(gè)固定長(zhǎng)度的二進(jìn)制編碼（Hash code），則每一幅圖像都可以用一串哈希編碼來(lái)進(jìn)行表示。與高維實(shí)數(shù)特征向量相比，哈希編碼大幅提高了計(jì)算速度，同時(shí)減少了檢索系統(tǒng)對(duì)存儲(chǔ)空間的需求。

隨著研究的深入，研究者們發(fā)現(xiàn)利用基于人工設(shè)計(jì)的視覺(jué)特征進(jìn)行圖像檢索時(shí)容易產(chǎn)生“語(yǔ)義鴻溝”，而大部分主流哈希算法的性能很大程度上取決于它們第一階段抽取的特征。因此，提升哈希算法性能的關(guān)鍵之一在于特征提取部分。

目前，由于卷積神經(jīng)網(wǎng)絡(luò)[2]（convolutional neural network，CNN）擁有強(qiáng)大的學(xué)習(xí)能力，研究者們開(kāi)始將其應(yīng)用于目標(biāo)檢測(cè)、圖像分類(lèi)等計(jì)算機(jī)視覺(jué)任務(wù)，取得了突破性的進(jìn)展。在這些任務(wù)中，CNN相當(dāng)于一個(gè)根據(jù)特定需求訓(xùn)練得出的特征提取器。其突破性的進(jìn)展表明：即使在圖像外觀相差較大的情況下，CNN依然能夠有效地捕捉圖像的潛在語(yǔ)義信息。

鑒于卷積神經(jīng)網(wǎng)絡(luò)在圖像處理領(lǐng)域的突出表現(xiàn)，本文提出了一種深度哈希算法，將其用于圖像檢索以獲得更好的性能。該方法的特點(diǎn)包括：（1）將特征學(xué)習(xí)和哈希學(xué)習(xí)兩部分融合在同一個(gè)框架中，實(shí)現(xiàn)了端到端的學(xué)習(xí)；（2）融合多尺度區(qū)域信息，構(gòu)建表達(dá)能力更強(qiáng)的特征表示，并減少了網(wǎng)絡(luò)參數(shù)；（3）引入多任務(wù)學(xué)習(xí)機(jī)制，結(jié)合圖像分類(lèi)信息和圖像間的相似度信息學(xué)習(xí)哈希函數(shù)，并且根據(jù)信息熵理論，保持哈希編碼的均勻分布，提升信息量。

2 相關(guān)工作

近年來(lái)，近似最近鄰搜索的發(fā)展十分迅速，而針對(duì)高維度海量數(shù)據(jù)下的最近鄰檢索問(wèn)題，哈希算法具有速度快、占用存儲(chǔ)空間少等優(yōu)勢(shì)，因此備受關(guān)注。

早期，研究者們主要對(duì)數(shù)據(jù)獨(dú)立型哈希算法（data-independent Hashing）進(jìn)行研究，這類(lèi)算法的哈希函數(shù)通常是隨機(jī)生成的，獨(dú)立于任何訓(xùn)練數(shù)據(jù)，其中最具有代表性的方法是局部敏感哈希算法（locality sensitive Hashing，LSH）[3]。LSH算法利用隨機(jī)投影生成哈希編碼，隨著哈希編碼位數(shù)的增加，二進(jìn)制編碼之間的漢明距離逐漸逼近它們?cè)谔卣骺臻g中的距離。然而，LSH算法往往需要較長(zhǎng)的編碼長(zhǎng)度才能達(dá)到較好的效果，因此這種算法對(duì)存儲(chǔ)空間的需求較大。

之后，為了克服數(shù)據(jù)獨(dú)立型算法的局限性，研究者們提出了數(shù)據(jù)依賴(lài)型哈希算法（data-dependent Hashing），即哈希學(xué)習(xí)算法（learning to Hash）。這種算法需要從訓(xùn)練集中學(xué)習(xí)哈希函數(shù)，因此不具備通用性，但哈希學(xué)習(xí)算法可以使得較短的二進(jìn)制編碼所達(dá)成的效果也很可觀。根據(jù)訓(xùn)練數(shù)據(jù)的不同形式，可以進(jìn)一步將其分為：有監(jiān)督哈希算法（supervised Hashing）、半監(jiān)督哈希算法（semi-supervised Hashing）和無(wú)監(jiān)督哈希算法（unsupervised Hashing）。

無(wú)監(jiān)督哈希算法使用未經(jīng)過(guò)標(biāo)注的訓(xùn)練數(shù)據(jù)構(gòu)造哈希編碼，其中包括譜哈希（spectral Hashing，SH）、迭代量化（iterative quantization，ITQ）等經(jīng)典哈希算法。SH算法[4]最小化圖像對(duì)之間的加權(quán)漢明距離，權(quán)值由兩兩圖像間的相似性決定。ITQ算法[5]通過(guò)最小化投影后的量化誤差來(lái)學(xué)習(xí)哈希函數(shù)，從而減少由實(shí)值特征空間與漢明空間之間的差異所引起的信息丟失。

有監(jiān)督哈希算法則充分利用監(jiān)督信息，如圖像的類(lèi)標(biāo)簽、成對(duì)相似度和相關(guān)相似度等，來(lái)學(xué)習(xí)緊湊的哈希編碼，從而獲得相比無(wú)監(jiān)督哈希算法更高的檢索精度。CCA-ITQ（iterative quantization-canonical correlation analysis）算法[5]是后續(xù)對(duì)于ITQ算法的一種延伸，將CCA和標(biāo)簽信息用于降維，然后通過(guò)最小化量化誤差實(shí)現(xiàn)二值化。最小化損失哈希（minimal loss Hashing，MLH）[6]利用基于相似度信息設(shè)計(jì)的損失函數(shù)進(jìn)行訓(xùn)練。上述方法均采用線性投影作為哈希函數(shù)，針對(duì)線性不可分的數(shù)據(jù)則束手無(wú)策。為了解決這個(gè)問(wèn)題，KSH（supervised Hashing with kernels）[7]和BRE（binary reconstructive embedding）[8]在核空間（kernel space）中學(xué)習(xí)保留相似性的哈希函數(shù)。

通過(guò)分析無(wú)監(jiān)督哈希算法和有監(jiān)督哈希算法的優(yōu)勢(shì)和劣勢(shì)，研究者們提出了半監(jiān)督哈希算法SSH（semi-supervised Hashing）[9]。該算法最小化成對(duì)標(biāo)注數(shù)據(jù)的經(jīng)驗(yàn)誤差并最大化哈希編碼的方差。之后，SSTH（semi-supervised tag Hashing）[10]以有監(jiān)督學(xué)習(xí)的方式構(gòu)造哈希編碼和類(lèi)別標(biāo)簽之間的關(guān)聯(lián)，并以無(wú)監(jiān)督學(xué)習(xí)的方式保留圖像之間的相似性。

2010年至2017年，ILSVRC競(jìng)賽的歷屆冠軍將圖像分類(lèi)的錯(cuò)誤率由28%降低到了2.251%。這期間出現(xiàn)了許多經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)模型，如AlexNet[2]、VGG[11]、ResNet[12]等。2015年，ResNet解決了網(wǎng)絡(luò)過(guò)深導(dǎo)致的梯度消失問(wèn)題之后，神經(jīng)網(wǎng)絡(luò)的層數(shù)得以大幅增加。而在2016年提出的ResNet的變體Res-NeXt[13]證明了增大“基數(shù)”比增大模型的寬度或深度效果更好。同年，在保證性能的前提下，DenseNet[14]實(shí)現(xiàn)了特征的重復(fù)利用，并且降低了存儲(chǔ)開(kāi)銷(xiāo)。而近期也有一些研究者聚焦于神經(jīng)網(wǎng)絡(luò)的壓縮問(wèn)題[15-16]，期望提高計(jì)算速度，減少能源消耗。

隨著深度學(xué)習(xí)的熱門(mén)，研究者們開(kāi)始將卷積神經(jīng)網(wǎng)絡(luò)與哈希算法相結(jié)合進(jìn)行研究[17-19]，相比人工抽取的特征結(jié)合哈希的方法，這種深度哈希方法可以捕捉圖像外觀劇烈變化下隱藏的語(yǔ)義信息，提升檢索精度。2009年，Hinton研究組提出了Semantic Hashing算法[17]。盡管這種算法結(jié)合了深度學(xué)習(xí)和哈希編碼，但是深度模型在其中只起到了提供一定的非線性表達(dá)能力的作用，網(wǎng)絡(luò)仍然是由基于人工抽取的特征作為輸入，并不算是真正意義上的深度哈希算法。2014年，潘炎研究組提出了CNNH（convolutional neural network Hashing）[18]。這種算法將哈希函數(shù)的學(xué)習(xí)過(guò)程分為了兩個(gè)階段，第一階段將成對(duì)圖像的相似度矩陣分解成基于標(biāo)簽的二進(jìn)制編碼，第二階段訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型擬合第一階段分解出的二進(jìn)制編碼。2015年，潘炎等人采用NIN網(wǎng)絡(luò)（network in network）基于三元組排序損失函數(shù)進(jìn)行訓(xùn)練，這種算法被稱(chēng)為NINH（NIN Hashing）[19]，其中提出了divide-and-encode模塊用來(lái)減少哈希編碼的信息冗余。相比CNNH算法而言，NINH算法是端到端的方法，特征學(xué)習(xí)部分可以與編碼部分相互作用。2016年，李武軍團(tuán)隊(duì)提出了DPSH（deep pairwisesupervised Hashing）算法[20]。該算法基于標(biāo)簽對(duì)進(jìn)行深度哈希學(xué)習(xí)，并通過(guò)減小量化損失提高準(zhǔn)確率；同年，DSH（deep supervised Hashing）算法[21]也利用了圖像對(duì)之間的相似性關(guān)系進(jìn)行模型訓(xùn)練，還衍生出一種在線的圖像對(duì)生成策略，提高了網(wǎng)絡(luò)的收斂速度。2017年，王瑞平等人提出的DPH（dual purpose Hashing）算法[22]在訓(xùn)練階段能同時(shí)保留圖像類(lèi)別和圖像屬性兩個(gè)層次的相似度；同年，DSDH（deep supervised discrete Hashing）算法[23]將最后一層網(wǎng)絡(luò)輸出直接限制為二值編碼以保留哈希編碼的離散特性。

通過(guò)結(jié)合深度學(xué)習(xí)和哈希編碼，上述算法在一定程度上已經(jīng)改善了檢索性能，但仍然存在其局限性。例如，NINH算法采用的三元組排序損失函數(shù)對(duì)訓(xùn)練樣本的選擇要求較高，而且其中的divide-andencode模塊不夠靈活；而DPSH、DSH等算法均只針對(duì)圖像對(duì)之間的相似度來(lái)設(shè)計(jì)損失函數(shù)，沒(méi)有充分利用樣本的標(biāo)簽信息。針對(duì)這些局限性，本文進(jìn)一步對(duì)深度哈希算法進(jìn)行了研究：一方面是將圖像的標(biāo)簽信息與圖像間的相似度信息充分利用以訓(xùn)練網(wǎng)絡(luò)，且避免了挑選訓(xùn)練樣本造成的工作量；而相比divide-and-encode模塊，本文的信息熵?fù)p失函數(shù)既能減少信息冗余，又不受哈希編碼長(zhǎng)度變化的限制。另一方面，本文針對(duì)池化方法進(jìn)行了改進(jìn)，構(gòu)建了表達(dá)能力更強(qiáng)的特征表示，并且大幅減少了模型參數(shù)，降低了訓(xùn)練過(guò)程的計(jì)算開(kāi)銷(xiāo)。

3 深度卷積哈希編碼

本文提出了一種如圖1所示的深度卷積網(wǎng)絡(luò)架構(gòu)，用于學(xué)習(xí)哈希函數(shù)。圖1分為上下兩欄，第一欄是訓(xùn)練網(wǎng)絡(luò)，第二欄是測(cè)試網(wǎng)絡(luò)。

訓(xùn)練網(wǎng)絡(luò)主要由三部分組成：（1）由多個(gè)卷積層構(gòu)成的卷積子網(wǎng)絡(luò)；（2）多尺度融合池化層（multiscale fusion pooling，MSFP）；（3）損失函數(shù)部分。訓(xùn)練過(guò)程中，網(wǎng)絡(luò)的輸入層要求以圖像對(duì)的形式輸入數(shù)據(jù)，成對(duì)的圖像數(shù)據(jù)經(jīng)由卷積子網(wǎng)絡(luò)提取特征，卷積子網(wǎng)絡(luò)的最后一個(gè)卷積層輸出若干特征圖（feature map）；然后，這些特征圖經(jīng)過(guò)多尺度融合池化層融合圖像多尺度的區(qū)域特征；最終，將區(qū)域融合特征送入全連接層（包括隱含層、哈希層和分類(lèi)層），分別計(jì)算分類(lèi)損失、對(duì)比損失和信息熵?fù)p失，學(xué)習(xí)模型參數(shù)。

Fig.1 General framework of deep convolutional Hash coding圖1 深度卷積哈希編碼的總體框架圖

測(cè)試網(wǎng)絡(luò)大體上與訓(xùn)練網(wǎng)絡(luò)一致，只是去除了分類(lèi)層和損失函數(shù)部分。查詢圖像輸入后，由哈希層輸出近似哈希碼，之后用符號(hào)函數(shù)將其量化為二進(jìn)制編碼。

3.1 卷積子網(wǎng)絡(luò)

2015年，何凱明團(tuán)隊(duì)提出的深度殘差網(wǎng)絡(luò)ResNet[12]在ILSVCR比賽中表現(xiàn)極佳，該網(wǎng)絡(luò)模型引入了殘差結(jié)構(gòu)（如圖2所示），有效地解決了網(wǎng)絡(luò)太深而引起的梯度消失的問(wèn)題。

Fig.2 Residual structure圖2 殘差結(jié)構(gòu)

ResNet不僅訓(xùn)練速度快，計(jì)算量小，模型參數(shù)少，還顯著提升了圖像分類(lèi)的準(zhǔn)確率。由于本文的算法思想是要同時(shí)利用圖像分類(lèi)信息和圖像間的相似度信息進(jìn)行模型的訓(xùn)練，因此考慮到ResNet在圖像分類(lèi)領(lǐng)域的優(yōu)越性，本文采用了ResNet-50作為提取圖像特征的卷積子網(wǎng)絡(luò)，訓(xùn)練過(guò)程中以圖像對(duì)作為網(wǎng)絡(luò)輸入，圖像對(duì)之間共享網(wǎng)絡(luò)權(quán)值。原始的ResNet-50在最后一個(gè)卷積層之后連接的是一個(gè)全局池化層和一個(gè)輸出節(jié)點(diǎn)數(shù)為1 000的全連接層，本文將這兩層去除，只保留前面部分作為特征提取器，并在其后增加適應(yīng)哈希算法需求的其他層（這些在第3.2節(jié)和3.3節(jié)進(jìn)行描述）。

3.2 多尺度融合池化

現(xiàn)實(shí)生活中，人們向圖像檢索系統(tǒng)輸入的圖片尺寸大小不一，而以往的卷積神經(jīng)網(wǎng)絡(luò)通常要求輸入固定大小的圖像，因此圖像需要經(jīng)過(guò)裁剪、縮放等操作以統(tǒng)一尺寸，而這些操作往往會(huì)造成一定程度的信息丟失。2014年，空間金字塔池化[24]（spatial Pyramid pooling，SPP）被提出來(lái)用于解決這個(gè)問(wèn)題。受到SPP池化的啟發(fā)，本文提出了多尺度融合池化。

如圖1所示，本文提出的框架中卷積子網(wǎng)絡(luò)之后緊跟著的是多尺度融合池化層MSFP，可提取圖像不同尺度區(qū)域的信息，具體結(jié)構(gòu)如圖3所示。

Fig.3 Schematic diagram of multi-scale fusion pooling圖3 多尺度融合池化示意圖

多尺度融合池化層首先將最后一個(gè)卷積層的輸出復(fù)制為3份，圖3中的3個(gè)四邊形框表示復(fù)制的3份卷積層輸出。然后，對(duì)于每一份卷積層輸出，分別按照尺度l=1,2,3均勻劃分區(qū)域（方形區(qū)域的邊長(zhǎng)由2 min(W,H)/(l+1)決定，圖3中采用了不同的虛線框示意劃分的區(qū)域），在按照不同尺度劃分的區(qū)域內(nèi)進(jìn)行最大池化操作。

假設(shè)最后一個(gè)卷積層輸出K個(gè)尺寸為W×H的特征圖X={Xi},i=1,2,…,K，某矩形區(qū)域R?[1,W]×[1,H]的特征向量由式（1）定義：

其中，gR,i=maxp∈RXi(p)，表示在第i個(gè)特征通道上區(qū)域R的最大值。

如圖3所示，在對(duì)每個(gè)特征圖分別進(jìn)行了不同尺度的最大池化之后，每種尺度會(huì)對(duì)應(yīng)產(chǎn)生若干個(gè)K維區(qū)域特征向量gR，將屬于同一尺度的每個(gè)區(qū)域向量簡(jiǎn)單相加整合為單列K維特征向量（該過(guò)程相當(dāng)于將同一尺度的所有區(qū)域進(jìn)行了交叉匹配）。最后，將不同尺度的向量串聯(lián)為一列3×K維的多尺度融合特征向量送入全連接層。

如圖4是多尺度融合池化層的一個(gè)具體結(jié)構(gòu)示例，圖中type表示池化方式，inputs是輸入該層特征圖的大小，kernel size是不同尺度方形區(qū)域的邊長(zhǎng)（即池化滑動(dòng)窗口的大小），stride是相鄰方形區(qū)域間的間隔（即池化滑動(dòng)窗口的步長(zhǎng)）。假設(shè)最后一個(gè)卷積層輸出512個(gè)尺寸為7×7的特征圖，則在MSFP層按照3種尺度分別進(jìn)行最大池化得到尺寸為1×1、2×2、3×3的特征圖，分別簡(jiǎn)單相加整合為3列長(zhǎng)度為512維的向量，最后串聯(lián)為一列3×512=1 536維的向量。

Fig.4 Structure example of MSFP圖4 MSFP結(jié)構(gòu)示例

卷積神經(jīng)網(wǎng)絡(luò)主要由輸入層、卷積層、池化層、全連接層和輸出層構(gòu)成。其中，全連接層的輸入維度必須是固定的，因此傳統(tǒng)的CNN網(wǎng)絡(luò)通常都要求事先對(duì)輸入圖像進(jìn)行裁剪、縮放等操作以限制其尺寸，這不可避免地會(huì)使得圖像在輸入網(wǎng)絡(luò)之前就已損失部分信息，有可能導(dǎo)致提取出的特征不可靠。而本文的多尺度融合池化方法固定輸出3×K維向量，在全連接層之前采用MSFP層保證了全連接層的輸入維度固定，因此不需要對(duì)輸入圖像的尺寸進(jìn)行限制，解決了輸入圖像經(jīng)過(guò)裁剪和縮放后造成的信息丟失問(wèn)題。

MSFP層劃分區(qū)域的方式也可以根據(jù)需要進(jìn)行變更，其主要優(yōu)點(diǎn)在于融合多種尺度的區(qū)域信息，輸出固定維度的向量，避免了輸入圖像尺寸的限制，同時(shí)相比SPP池化還大幅減少了網(wǎng)絡(luò)模型參數(shù)（SPP池化層輸出21×K維向量），有效地降低了計(jì)算量，并提高了檢索精度（實(shí)驗(yàn)部分進(jìn)行了對(duì)比）。

3.3 損失函數(shù)

如圖5所示，圖像i與圖像j相似，而其與圖像k不相似，它們之間具有相對(duì)相似性。為了使圖像的二進(jìn)制編碼具有區(qū)分度，訓(xùn)練出的卷積網(wǎng)絡(luò)模型就需要讓圖像的網(wǎng)絡(luò)輸出能保持這種相對(duì)相似性（即減小相似圖像(i,j)之間的距離Dji，并拉大不相似圖像(i,k)之間的距離Dki）。依據(jù)這個(gè)原則，研究者通常采用三元組排序損失函數(shù)[25]和對(duì)比損失函數(shù)[21]進(jìn)行模型的訓(xùn)練。利用三元組排序損失函數(shù)訓(xùn)練出的模型性能優(yōu)劣與否很大程度上取決于三元組樣本的選擇。假如三元組樣本構(gòu)造不當(dāng)，在訓(xùn)練階段會(huì)造成極大的干擾，使得網(wǎng)絡(luò)收斂緩慢。因此考慮到訓(xùn)練階段的穩(wěn)定性以及網(wǎng)絡(luò)的收斂速度，本文采用了對(duì)比損失函數(shù)[21]訓(xùn)練網(wǎng)絡(luò)。

Fig.5 Examples of relative similarity圖5 相對(duì)相似性示例

假設(shè)有N對(duì)訓(xùn)練圖像(Ii,1,Ii,2)，i=1,2,…,N，這些圖像對(duì)之間的相似度用yi表示（若相似，yi等于0，否則等于1），則目標(biāo)函數(shù)的構(gòu)造思路是盡可能地減小相似圖像間的距離并加大不相似圖像間的距離，即：

式（2）中，邊距參數(shù)m>0；bi是圖像的近似哈希碼；η是量化系數(shù)，控制量化誤差，使網(wǎng)絡(luò)輸出逼近-1和1；u是一個(gè)所有元素均等于1的列向量；‖?‖1表示1-范數(shù)。為了便于優(yōu)化，哈希碼間的漢明距離采用歐氏距離替代。

根據(jù)信息論[26]，任何信息都存在冗余，將其去除冗余后的平均信息量稱(chēng)為信息熵，當(dāng)信息保持均勻分布時(shí)，信息熵達(dá)到最大。根據(jù)這個(gè)理論，信息熵?fù)p失函數(shù)可以約束網(wǎng)絡(luò)的輸出：

其中，B是全部訓(xùn)練圖像的哈希編碼所構(gòu)成的矩陣，本文假設(shè)共有M個(gè)訓(xùn)練圖像，哈希碼長(zhǎng)度為q。式中的‖?‖F(xiàn)表示F-范數(shù)。信息熵?fù)p失函數(shù)在訓(xùn)練過(guò)程中會(huì)盡可能使得訓(xùn)練數(shù)據(jù)的二進(jìn)制編碼均勻分布以提升信息量（均勻分布的情況下，第i位哈希碼取值為-1的圖像數(shù)量會(huì)和取值為1的圖像數(shù)量相等）。NINH算法[19]中采用的divide-and-encode模塊也可以減少哈希編碼的信息冗余，但是模型需要隨著哈希碼長(zhǎng)度的變化進(jìn)行改動(dòng)，若是較長(zhǎng)的哈希碼，所需要分出的子塊就會(huì)很多，實(shí)現(xiàn)過(guò)程會(huì)較為復(fù)雜。相比之下，信息熵?fù)p失函數(shù)就可以免除這種困擾。

為了充分利用圖像的標(biāo)簽信息，本文參考多任務(wù)學(xué)習(xí)機(jī)制，還聯(lián)合了Softmax分類(lèi)損失函數(shù)Ls訓(xùn)練模型參數(shù)，使哈希編碼能更好地保留語(yǔ)義信息。因此，本文算法的整體損失函數(shù)L可以表示為：L=αLs+βLc+λLe，α、β和λ是權(quán)重系數(shù)。

如圖6所示，圖像對(duì)(Ii,1,Ii,2)經(jīng)過(guò)卷積子網(wǎng)絡(luò)和多尺度融合池化層提取特征后，圖像對(duì)的多尺度融合特征向量輸入隱含層fc1（節(jié)點(diǎn)數(shù)為500）和哈希層fc2（節(jié)點(diǎn)數(shù)等于哈希碼長(zhǎng)度q），由哈希層輸出中間特征向量，然后分為兩路：

（1）第一路將圖像對(duì)的中間特征向量作為近似哈希碼(bi,1,bi,2)輸入對(duì)比損失函數(shù)層和信息熵?fù)p失函數(shù)層。

（2）第二路將圖像對(duì)的中間特征向量輸入分類(lèi)層fc3（節(jié)點(diǎn)數(shù)等于圖像類(lèi)別個(gè)數(shù)），再進(jìn)入Softmax損失函數(shù)層計(jì)算分類(lèi)損失。

Fig.6 Schematic diagram of loss function part圖6 損失函數(shù)部分示意圖

3.4 哈希編碼的生成

如圖1中第二欄測(cè)試網(wǎng)絡(luò)所示，網(wǎng)絡(luò)經(jīng)過(guò)訓(xùn)練之后，給定一幅圖像xq輸入測(cè)試網(wǎng)絡(luò)，會(huì)依次通過(guò)卷積子網(wǎng)絡(luò)、多尺度融合池化層、隱含層以及哈希層，由哈希層fc2輸出近似哈希碼b(xq)，然后用符號(hào)函數(shù)計(jì)算最終的二值編碼：

式中，下標(biāo)i表示哈希編碼的第i個(gè)元素。

4 實(shí)驗(yàn)和分析

4.1 數(shù)據(jù)集

為了驗(yàn)證文中算法的有效性，本文分別在SVHN、CIFAR-10和NUS-WIDE等數(shù)據(jù)集上對(duì)哈希算法進(jìn)行了評(píng)估。

（1）SVHN

該數(shù)據(jù)集[27]中的圖像超過(guò)600 000幅，分為10個(gè)類(lèi)別，每個(gè)類(lèi)別代表一種數(shù)字（數(shù)字0～9）。本文算法以及其他用于評(píng)估的深度哈希算法直接將圖像作為輸入，其他傳統(tǒng)的哈希算法則與文獻(xiàn)[21]一樣利用GIST特征（維度d=512）表示圖像。

（2）CIFAR-10

該數(shù)據(jù)集[28]包含有60 000張大小為32×32的圖片，圖片分為10個(gè)類(lèi)別，每個(gè)類(lèi)別有6 000張圖片。該數(shù)據(jù)集與上述SVHN數(shù)據(jù)集的設(shè)置一致，直接將圖像作為深度哈希算法的輸入，而對(duì)于傳統(tǒng)哈希算法采用GIST特征輸入。

（3）NUS-WIDE

該數(shù)據(jù)集[29]有269 648張從Flickr收集的圖像，屬于多標(biāo)簽數(shù)據(jù)集，每一張圖像都與81個(gè)語(yǔ)義標(biāo)簽中的一個(gè)或者多個(gè)相關(guān)聯(lián)。與文獻(xiàn)[7]相同，本文只考慮與最常用的21個(gè)語(yǔ)義標(biāo)簽相關(guān)聯(lián)的圖像，每一個(gè)標(biāo)簽至少對(duì)應(yīng)5 000幅圖像，最終這個(gè)子集共有195 834幅圖像。對(duì)于深度哈希算法，該數(shù)據(jù)集的圖像直接作為輸入，而傳統(tǒng)的哈希算法采用官方提供的歸一化顏色矩特征（d=225）表示圖像[21]。

如圖7所示為3個(gè)數(shù)據(jù)集的典型樣本示例。SVHN數(shù)據(jù)集中的圖像是由自然場(chǎng)景圖像中的門(mén)牌號(hào)裁剪而來(lái)，雖然與MNIST數(shù)據(jù)集一樣是分為0～9這10類(lèi)數(shù)字，但是SVHN中的圖像背景復(fù)雜，易受光照影響，因此相比之下難度很大。CIFAR-10數(shù)據(jù)集與SVHN均屬于單標(biāo)簽數(shù)據(jù)集，且圖像尺寸均為32×32。但是不同于SVHN中圖像全是數(shù)字，CIFAR-10數(shù)據(jù)集的圖像是10類(lèi)不同的物體，如貓、狗、飛機(jī)等，數(shù)據(jù)中含有大量特征，相當(dāng)有挑戰(zhàn)性。而NUS-WIDE數(shù)據(jù)集中的圖像從網(wǎng)絡(luò)中收集得來(lái)，種類(lèi)豐富且具有多個(gè)標(biāo)簽，其復(fù)雜的圖像信息導(dǎo)致該數(shù)據(jù)集的檢索難度相當(dāng)大。

Fig.7 Samples of dataset圖7 數(shù)據(jù)集樣本示例

本文借鑒文獻(xiàn)[21]的數(shù)據(jù)集劃分方式，在數(shù)據(jù)集CIFAR-10上直接采用官方提供的訓(xùn)練集（50 000幅）和測(cè)試集（10 000幅）進(jìn)行實(shí)驗(yàn)；在數(shù)據(jù)集NUS-WIDE上隨機(jī)選擇10 000幅圖像作為測(cè)試集，其余的圖像作為訓(xùn)練集。而在數(shù)據(jù)集SVHN中從每一類(lèi)隨機(jī)選擇100幅圖像作為測(cè)試集，再?gòu)挠嘞碌膱D像中每一類(lèi)隨機(jī)選擇500幅圖像作為訓(xùn)練集。

4.2 實(shí)驗(yàn)設(shè)置與分析

本文算法基于開(kāi)源深度學(xué)習(xí)框架Caffe[30]實(shí)現(xiàn)，在訓(xùn)練時(shí)權(quán)重系數(shù)α、β和λ均取值為1，對(duì)比損失函數(shù)的邊距參數(shù)m取值為2q，量化系數(shù)η則取值為0.01。圖像間的相似度yi由圖像的標(biāo)簽信息決定：SVHN和CIFAR-10中的圖像若是標(biāo)簽一致則視為相似，不一致則視為不相似；而NUS-WIDE中的圖像關(guān)聯(lián)多個(gè)標(biāo)簽，若圖像間有至少一個(gè)標(biāo)簽一致，則認(rèn)為它們是相似的，否則視為不相似。

本文算法與一些主流的哈希算法進(jìn)行了性能比較：LSH[3]、ITQ[5]、KSH[7]、CNNH[18]、DSH[21]、DLBHC（deep learning of binary Hash codes）[31]。其中，為了快速且公平地評(píng)估本文算法，所有基于CNN的算法（CNNH、DSH、DLBHC）均采用了DSH算法[21]的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行實(shí)驗(yàn)評(píng)估。之后，使用此結(jié)構(gòu)的本文算法（即該結(jié)構(gòu)最后一個(gè)卷積層之后替換為MSFP和3個(gè)全連接層以及損失函數(shù)層）用Simple-Ours表示，以ResNet-50作為卷積子網(wǎng)絡(luò)的本文算法用Res-Ours表示。

評(píng)估標(biāo)準(zhǔn)采用了MAP（mean average precision）和PR曲線（precision-recall curve）。

表1和表2分別是在數(shù)據(jù)集SVHN和CIFAR-10上基于本文所提算法與其他主流算法計(jì)算出的不同長(zhǎng)度編碼的MAP值?？傮w來(lái)說(shuō)，基于卷積神經(jīng)網(wǎng)絡(luò)的哈希算法表現(xiàn)優(yōu)于傳統(tǒng)的基于人工抽取特征的哈希算法。從中可以看出，使用相同的網(wǎng)絡(luò)架構(gòu)，本文算法（即Simple-Ours）相比其他深度哈希算法，檢索精度已得以提升。為了更好地利用圖像分類(lèi)信息，本文基于分類(lèi)效果極佳的ResNet-50進(jìn)行了實(shí)驗(yàn)，表中Res-Ours的檢索精度明顯進(jìn)一步得到了提升。

Table 1 MAP of Hash codes with different lengths on SVHN by Hamming sorting表1 在SVHN上不同長(zhǎng)度哈希碼的漢明排序MAP

表3是在數(shù)據(jù)集NUS-WIDE上的實(shí)驗(yàn)結(jié)果，在該數(shù)據(jù)集上深度哈希算法依然總體優(yōu)于傳統(tǒng)的哈希算法，其中CNNH算法表現(xiàn)略差，是由于該算法同之后的深度哈希算法不同，不屬于端到端的學(xué)習(xí)，其哈希編碼的過(guò)程與卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程是相互獨(dú)立的，因此這兩個(gè)階段不能互相作用，也就沒(méi)有發(fā)揮出深度網(wǎng)絡(luò)的強(qiáng)大學(xué)習(xí)能力。而DSH算法和DLBHC算法沒(méi)有充分利用圖像的標(biāo)簽信息，也沒(méi)有考慮到哈希編碼的信息冗余問(wèn)題，因此檢索精度低于本文算法（Simple-Ours）。本文算法Res-Ours盡可能多地利用了圖像分類(lèi)信息，結(jié)合相似度信息，改善了檢索性能。

Table 2 MAP of Hash codes with different lengths on CIFAR-10 by Hamming sorting表2 在CIFAR-10上不同長(zhǎng)度哈希碼的漢明排序MAP

Table 3 MAP of Hash codes with different lengths on NUS-WIDE by Hamming sorting表3 在NUS-WIDE上不同長(zhǎng)度哈希碼的漢明排序MAP

Fig.8 PR curve at 48 bit encoding on SVHN圖8 在SVHN上48位編碼時(shí)的PR曲線

Fig.9 PR curve at 48 bit encoding on CIFAR-10圖9 在CIFAR-10上48位編碼時(shí)的PR曲線

如圖8至圖10所示是3個(gè)數(shù)據(jù)集上48位哈希碼時(shí)的PR曲線。從圖中可以看出，本文算法在該評(píng)估標(biāo)準(zhǔn)下依然具有其優(yōu)越性。本文實(shí)驗(yàn)選取的對(duì)比算法都具有代表性，可由實(shí)驗(yàn)數(shù)據(jù)分析得出：（1）有監(jiān)督哈希算法相比于無(wú)監(jiān)督哈希算法和數(shù)據(jù)獨(dú)立型哈希算法更有優(yōu)勢(shì)；（2）基于人工抽取特征的哈希算法由于其特征提取過(guò)程不夠靈活，無(wú)法自主學(xué)習(xí)表達(dá)能力強(qiáng)的圖像特征，因此總體不如深度哈希算法有效；（3）文中所提算法由于考慮到圖像分類(lèi)信息和圖像間的相似度信息可以共同作用于網(wǎng)絡(luò)訓(xùn)練，并結(jié)合了信息熵理論和多尺度融合池化方法，使得檢索性能相比當(dāng)前的深度哈希算法得到了進(jìn)一步改善。

Fig.10 PR curve at 48 bit encoding on NUS-WIDE圖10 在NUS-WIDE上48位編碼時(shí)的PR曲線

4.3 對(duì)比MSFP池化與SPP池化

為了證明本文提出的多尺度融合池化MSFP的有效性，在SVHN、CIFAR-10和NUS-WIDE數(shù)據(jù)集上將其與SPP池化進(jìn)行了對(duì)比（均采用ResNet-50作為卷積子網(wǎng)絡(luò)，除了最后一個(gè)池化層，其他網(wǎng)絡(luò)結(jié)構(gòu)和設(shè)置一致，如圖1所示）。表4～表6所示是實(shí)驗(yàn)對(duì)比的結(jié)果。由于NUS-WIDE數(shù)據(jù)集規(guī)模較大，為了減少耗時(shí)，采用了檢索返回的前5 000幅圖像作為整個(gè)結(jié)果計(jì)算MAP，這種評(píng)估標(biāo)準(zhǔn)常被使用[19]，記作MAP@top5k。

Table 4 MAP contrast of different pooling methods on SVHN表4 在SVHN上不同池化方法的MAP對(duì)比

從表4～表6的數(shù)據(jù)可以看出，MSFP池化在3個(gè)數(shù)據(jù)集上的檢索性能與SPP池化相差無(wú)幾，甚至略有提升。而從表7可以看出，基于MSFP池化訓(xùn)練得到的模型相比基于SPP池化訓(xùn)練得到的模型，由于參數(shù)減少，占用空間減小了約70 MB。

Table 5 MAP contrast of different pooling methods on CIFAR-10表5 在CIFAR-10上不同池化方法的MAP對(duì)比

Table 6 MAP@top5k contrast of different pooling methods on NUS-WIDE表6 在NUS-WIDE上不同池化方法的MAP@top5k對(duì)比

Table 7 Comparison of MSFP and SPP model sizes表7 訓(xùn)練出的MSFP和SPP模型大小對(duì)比

經(jīng)過(guò)對(duì)兩種池化方法的比較分析得出：SPP池化和MSFP池化都是基于多尺度思想提取區(qū)域特征，但SPP池化直接將不同尺度的特征串聯(lián)起來(lái)，而MSFP池化先將同一尺度的特征融合，再進(jìn)行不同尺度特征之間的串聯(lián)。與SPP池化相比，本文提出的MSFP池化明顯減少了模型參數(shù)，降低了訓(xùn)練過(guò)程的計(jì)算開(kāi)銷(xiāo)，但同時(shí)也保持了相應(yīng)的檢索精度。

5 結(jié)束語(yǔ)

本文提出了一種新的深度哈希算法，基于深度殘差網(wǎng)絡(luò)的強(qiáng)大學(xué)習(xí)能力，結(jié)合多種監(jiān)督信息訓(xùn)練網(wǎng)絡(luò)模型，并提出了多尺度融合池化方法。與主流的哈希算法相比，本文算法在實(shí)驗(yàn)中實(shí)現(xiàn)了最佳的檢索性能。此外，本文提出的多尺度融合池化方法不僅提升了檢索性能，還減少了模型參數(shù)，節(jié)省了模型占用空間。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放