霍璐
摘 要: 針對(duì)圖像檢索存在的問(wèn)題,如圖像存儲(chǔ)量大,圖像提取特征與人類(lèi)感知的語(yǔ)義鴻溝,圖像檢索時(shí)間長(zhǎng)等,提出了一種新的深度哈希方法。通過(guò)卷積神經(jīng)網(wǎng)絡(luò)融合局部特征與全局特征進(jìn)一步縮小了圖像的語(yǔ)義鴻溝,使得融合特征與編碼相互影響,相互調(diào)節(jié)。同時(shí)通過(guò)限定編碼位數(shù),使得圖像存儲(chǔ)量大大減少,檢索時(shí)間縮短。實(shí)驗(yàn)證明,該方法勝過(guò)之前提出的方法,使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行融合特征編碼是完全可行的。
關(guān)鍵詞: 圖像檢索; 卷積神經(jīng)網(wǎng)絡(luò); 圖像編碼; 哈希算法
中圖分類(lèi)號(hào):TP319 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-8228(2018)01-63-03
Image retrieving with convolutional neural network
Huo Lu
(College of Computer Science, Hangzhou Dianzi University, Hangzhou, Zhejiang 310018, China)
Abstract: Aiming at the existing problems of image retrieval, such as large image storage, the semantic gap between the extracted feature of image and human perception, long time of image retrieval etc., a new deep hashing method that learns the compact binary representation of images is proposed. The local features and global features are combined by convolutional neural network to narrow the image semantic gap and make the combined features interact with the coding. At the same time, by limiting the number of coded digits, the storage capacity of the image is greatly reduced and the retrieval time is shortened. Experiments show that the proposed method is better than the previous ones, and the convolution neural network is completely feasible for the fusion of feature coding.
Key words: image retrieval; convolutional neural network; image coding; hash method
0 引言
20世紀(jì)70年代時(shí)期,已經(jīng)出現(xiàn)圖像搜索的研究,主要是基于文本的圖像檢索技術(shù),使用一些特定的詞來(lái)描述圖像的特征,用戶通過(guò)進(jìn)入一層層的目錄找到自己想要的圖片。相似圖像搜索發(fā)展為對(duì)文本的相似語(yǔ)義搜索。圖像標(biāo)簽每次都需要人工手動(dòng)輸入,這可能會(huì)帶有一定的主觀性與不精確性。
到了20世紀(jì)90年代時(shí)期,開(kāi)始出現(xiàn)了基于內(nèi)容的圖像檢索技術(shù)。用戶將圖片進(jìn)行一定的預(yù)處理之后,通過(guò)提取一定的特征,與數(shù)據(jù)庫(kù)中已有的特征進(jìn)行比較,最終得出相似圖像搜索結(jié)果。
以下綜述用到的一些主要方法。
利用顏色特征低層語(yǔ)義圖像特征表示為直方圖[1],使用直方圖的圖像檢索技術(shù)是當(dāng)紋理特征等低層語(yǔ)義圖像特征提取出來(lái)之后建立直方圖,將檢索圖像的直方圖與圖像庫(kù)中已有的直方圖進(jìn)行比較。使用直方圖進(jìn)行圖像檢索,具有比較直觀、計(jì)算量較小等優(yōu)點(diǎn),其缺點(diǎn)在于,使用其進(jìn)行分類(lèi)準(zhǔn)確度較低,對(duì)位置變化和旋轉(zhuǎn)不敏感。
SIFT(Scale-invariant feature transform)[2],SURF(Speeded Up Robust Features)[3]等局部特征的提取,使用局部特征SIFT進(jìn)行圖像檢索是建立一些特征向量,通過(guò)比較與圖像庫(kù)中特征向量的距離,找到匹配的圖像。SIFT的優(yōu)點(diǎn)是即使改變旋轉(zhuǎn)角度,亮度,和拍攝視角都可以實(shí)現(xiàn)不錯(cuò)的檢測(cè)效果,但是SIFT的實(shí)時(shí)性不強(qiáng),對(duì)邊緣平滑的圖像和模糊圖像檢測(cè)的特征點(diǎn)較少。
關(guān)聯(lián)反饋[4],是用戶給出一張圖片,計(jì)算機(jī)通過(guò)默認(rèn)的特征度量,給出最初的搜索結(jié)果,用戶對(duì)搜索結(jié)果進(jìn)行評(píng)價(jià),確定其相關(guān)還是不相關(guān),之后再通過(guò)一些機(jī)器學(xué)習(xí)算法進(jìn)行更新,重新生成搜索結(jié)果,用戶再對(duì)其進(jìn)行評(píng)價(jià),如此循環(huán),直至用戶對(duì)相應(yīng)的搜索結(jié)果滿意。其優(yōu)點(diǎn)在于,根據(jù)用戶的反饋,可以提高匹配的準(zhǔn)確度。其缺點(diǎn)在于,算法效率不高且需要大量的反饋。
哈希算法在此處可分為數(shù)據(jù)依賴(lài)型哈希如SH[5](Spectral Hashing)、ITQ[6](iterative quantization)、HDML[7](hamming distance metric learning)、STH[8](Self-Taught Hashing)和數(shù)據(jù)獨(dú)立型哈希,如LSH[9](Locality-Sensitive Hashing)和其變種。哈希算法對(duì)每個(gè)圖像進(jìn)行哈希編碼,通過(guò)距離函數(shù)來(lái)比較圖像的相似度。其優(yōu)點(diǎn)在于搜索速度較快,所需的存儲(chǔ)空間較少,其缺點(diǎn)是輸出是一個(gè)二進(jìn)制序列,丟失了部分特征信息,可能相似搜索的準(zhǔn)確度會(huì)下降。
卷積神經(jīng)網(wǎng)絡(luò)所提取的深度特征和復(fù)雜的、需要進(jìn)行很大調(diào)整的現(xiàn)有方法相比,有很大優(yōu)勢(shì)。同時(shí),卷積神經(jīng)網(wǎng)絡(luò)中從不同層提取到的不同特征對(duì)檢索性能有著不同的影響。更加特別,從更深層提取到的特征能夠產(chǎn)生更加可信的相似度度量和更加豐富的圖像信息。從不同層結(jié)合的特征映射增加了輸入到比較靠后層之間的可變性并且提升了其檢索效率。endprint
1 相關(guān)內(nèi)容
早期的圖像特征提取幾乎均為人工手動(dòng)提取,具有一定的主觀性。卷積神經(jīng)網(wǎng)絡(luò)可認(rèn)為是一個(gè)自動(dòng)的圖像特征提取器,隨著卷積層的加深,視覺(jué)詞匯的復(fù)雜度也逐步提升,并具有一定的輪廓特征。利用這些特征進(jìn)行哈希編碼,使得語(yǔ)義相同的圖像具有相同或相似的哈希編碼序列,語(yǔ)義不同的圖像具有差異性較大的哈希編碼。且使用較短的哈希編碼來(lái)表示多個(gè)圖像的語(yǔ)義特征。通過(guò)一定的相似度度量函數(shù)來(lái)比較哈希編碼得出圖像是否相似。
傳統(tǒng)的監(jiān)督型哈希編碼一般包含兩個(gè)步驟:
①手工提取特征;
②進(jìn)行hash學(xué)習(xí)。
一般這兩個(gè)步驟被分為兩個(gè)獨(dú)立且互補(bǔ)相關(guān)的過(guò)程,其編碼的好壞不能反向影響提取的特征,其特征有可能也不適用于進(jìn)行哈希編碼,一般得到的編碼效果比較差。
基于此,我們?cè)诖颂幪岢龅母倪M(jìn)是:將特征提取與哈希編碼相融合,使其盡可能的相互影響,相互制約。
2 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像檢索
本文的網(wǎng)絡(luò)結(jié)構(gòu)是在caffenet的基礎(chǔ)上進(jìn)行修改,對(duì)于其他網(wǎng)絡(luò)結(jié)構(gòu)也是使用同樣的原則進(jìn)行修改。conv1,conv2,conv3,conv4,conv5為對(duì)應(yīng)的卷積層,pool1,pool2為對(duì)應(yīng)的pooling層,fc6,fc7,fc9,latent1,latent為對(duì)應(yīng)的全連接層。Fc9層神經(jīng)元個(gè)數(shù)對(duì)應(yīng)最后的分類(lèi)個(gè)數(shù)。latent層和latent1層的神經(jīng)元數(shù)為對(duì)應(yīng)的全局編碼個(gè)數(shù)和局部編碼個(gè)數(shù)。除latent,latent1層,其他層的激活函數(shù)均采用relu函數(shù)。局部特征取卷積神經(jīng)網(wǎng)絡(luò)較為中間的卷積層conv5。通過(guò)使用pooling和PCA我們實(shí)現(xiàn)了局部編碼。全局編碼我們?cè)诖颂幫ㄟ^(guò)隱層來(lái)實(shí)現(xiàn)圖像的特征編碼,其中,全局特征編碼直接對(duì)應(yīng)其分類(lèi)loss,需要學(xué)習(xí)的hash function通過(guò)一個(gè)隱層在CNN的圖像表示和分類(lèi)輸出之間。
ωg為f7層與latent層之間的權(quán)值,對(duì)于給定的圖像Ii,f7層對(duì)應(yīng)的輸出值為,的計(jì)算如公式⑴所示。
⑴
其中,為K1維向量(對(duì)應(yīng)全局編碼位數(shù)),為偏置值,σ(·)為激活函數(shù)。
對(duì)于給定的圖像Ii,conv5層對(duì)應(yīng)輸出值為,(x,y)代表對(duì)應(yīng)feature map中空間位置latent_1層的輸入的計(jì)算如公式⑵所示。
⑵
其中,之后經(jīng)過(guò)PCA降維至K2維向量。
特征融合層的輸出Oi如公式⑶所示。
⑶
其中,[,]表示兩向量進(jìn)行拼接。
3 實(shí)驗(yàn)部分
我們主要使用的數(shù)據(jù)集是cifar10,cifar10可以分為10類(lèi),其中包含了60,000張3232的彩色圖像,訓(xùn)練圖像為50,000張,測(cè)試圖像為10,000張。
DeCAFNET證明了在imagenet中訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)模型提取到的卷積特征應(yīng)用到不同的數(shù)據(jù)集上同樣可以起到很好的分類(lèi)效果,這種從大數(shù)據(jù)集上學(xué)習(xí)到的有效知識(shí)應(yīng)用到小數(shù)據(jù)集上的方法稱(chēng)之為遷移學(xué)習(xí),因此,我們可以使用imagenet中訓(xùn)練好的權(quán)重進(jìn)行微調(diào)。
將我們的方法與傳統(tǒng)的哈希方法進(jìn)行比較(LSH,ITQ,DSH,SpH和SH). 由于它們均使用手工提取的特征去產(chǎn)生壓縮編碼。其檢索性能將會(huì)被提取的特征影響。然而,在我們的方法中,特征提取和編碼可以相互影響。
如圖1,圖2所示,通過(guò)與傳統(tǒng)哈希編碼進(jìn)行對(duì)比,我們可以得出結(jié)論:本文提出的方法比傳統(tǒng)哈希編碼要好。我們可以看出我們的方法取得了很大的提高。
4 結(jié)束語(yǔ)
在本文中,我們提出了一種深度哈希模型。通過(guò)該模型,我們可以同時(shí)進(jìn)行特征融合和哈希編碼。通過(guò)卷積神經(jīng)網(wǎng)絡(luò),融合局部特征與全局特征,進(jìn)一步縮小了圖像的語(yǔ)義鴻溝,其計(jì)算復(fù)雜度和運(yùn)算所需的存儲(chǔ)量大大減小。同時(shí)通過(guò)限定編碼位數(shù),使得圖像存儲(chǔ)量大大減少,檢索時(shí)間縮短。
通過(guò)實(shí)驗(yàn)證明,我們的方法勝過(guò)之前提出的方法;同時(shí)也證明,使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行融合特征編碼是完全可行的。接下來(lái),我們將繼續(xù)研究融合特征編碼各部分之間的影響,并考慮將我們的模型使用在其他的應(yīng)用上。
參考文獻(xiàn)(References):
[1] Deng Y, Manjunath B S, Kenney C, et al. An efficient color
representation for image retrieval[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society,2001.10(1):140-147
[2] Lowe D G. Distinctive Image Features from
Scale-Invariant Keypoints[J].International Journal of Computer Vision,2004.60(2):91-110
[3] Bay H, Tuytelaars T, Gool L V. SURF: Speeded Up Robust
Features[J]. Computer Vision & Image Understanding,2006.110(3):404-417
[4] Rui Y, Huang T S, Ortega M, et al. Relevance feedback: a
power tool for interactive content-based image retrieval[J]. IEEE Transactions on Circuits & Systems for Video Technology,1998.3312(5):644-655
[5] Weiss Y, Torralba A, Fergus R. Spectral Hashing[C].
Conference on Neural Information Processing Systems, Vancouver,British Columbia, Canada, December. DBLP,2008:1753-1760
[6] Gong Y, Lazebnik S. Iterative quantization: A procrustean
approach to learning binary codes[C]//IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society,2013:817-824
[7] Norouzi M, Fleet D J, Salakhutdinov R. Hamming Distance
Metric Learning[C]// Neural Information Processing Systems,2012.
[8] Zhang D, Wang J, Cai D, et al. Self-taught hashing for fast
similarity search[C]//International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM,2010:18-25
[9] Indyk P. Approximate nearest neighbors: towards
removing the curse of dimensionality[J].Theory of Computing,2000.11:604-613endprint