楊紅菊,李堯
(1.山西大學 計算機與信息技術學院,山西 太原 030006;2.計算智能與中文信息處理教育部重點實驗室(山西大學),山西 太原 030006)
近些年,基于內容的圖像檢索技術在計算機視覺領域備受關注[1-3],很大程度上幫助和改善了人們的生活?;趦热莸膱D像檢索方法是基于給定的查詢實例,在數據庫中查找紋理和語義與之相似的實例。基于內容的圖像檢索方法分為兩個階段:特征提取和相似度計算。特征提取用于描述圖像局部紋理或整體的語義信息,相似度計算用于度量圖像特征之間的距離,其中特征提取在檢索領域扮演著重要角色。
傳統(tǒng)的圖像特征提取方法雖然取得了較好的進展,但并不能彌補電子設備所捕獲的特征和視覺神經所感知到的語義信息之間的差異,例如尺度不變特征轉換(Scale-Invariant Feature Transform,SIFT)[4],方向梯度直方圖(Histograms of oriented gradients,HOG)[5],局部二進制模式(Local Binary Pattern,LBP)[6]等。最近研究表明,由多個非線性映射層所組成的卷積網絡在圖像分類[7-8]、檢索[1-3]、物體檢測[9]等視覺相關領域取得了突破性的進展。不僅如此,基于深度模型的卷積網絡(convolution neural network, CNN)和循環(huán)網絡在語音識別[10-11]和自然語言領域[12-13]也有著廣泛的應用。
卷積網絡在圖像檢索領域有著廣泛的應用[7,14-17],主要可分為基于卷積層的特征和基于全連接層的特征表示。全連接層的特征使用一維向量進行編碼,Krizhevsky等[7]將全連接層的數值作為特征用以檢索任務,取得了突破性的進展。Babenko等[14]使用主成分分析將全連接層的特征從高維空間映射到相對較低的維度,提高了檢索性能。雖然降低特征維度有助于提高檢索效率,但這種兩段式的特征計算方法會丟失某些潛在的語義特征。受到文獻[14]工作的啟發(fā), Xia等[15]將圖像編碼為維度相對較低的二進制向量,但由于在數據預處理階段需要構造圖像之間的相似度矩陣,并不適合數據集相對較大的情況。Lin等[16]在倒數第二個全連接層后添加一個編碼層學習圖像的隱含特征,該層的激活值由閾值操作計算得到,提高了檢索的效率和精度。Yang 等[17]在二進制編碼層對網絡計算得到的數值特征添加相關的約束條件,使得編碼表達能力也有所提高。
最近的研究表明[18],全連接層的特征趨向于刻畫圖像全局的語義信息,卷積層對圖像的局部語義信息比較敏感。傳統(tǒng)的圖像檢索任務中,多使用全連接層的激活值作為特征進行相似度檢索,失去了對圖像局部信息的刻畫能力。因為對于自然的圖像,全局的語義輪廓信息并不能區(qū)分有些類別之間的區(qū)別:例如在區(qū)分“狗”和“長頸鹿”時,使用高層的語義特征從外形輪廓上就可以區(qū)分出類別之間的差距,而對于有些“狗”和“貓”的差異,需要從局部細節(jié)紋理上進行區(qū)分。Babenko等[19]將卷積層計算得到的三維特征圖,通過局部加權的方式編碼為一維的特征向量,用于圖像檢索任務。Ng等[20]提出使用VLAD聚合算法,將三維的特征圖聚合為一維的特征向量,進行編碼任務,提高了檢索的精確度。
文獻[19-20]的特征融合方法僅考慮到二維特征圖中的每個像素權重,并未考慮到每個維度的權重?;谠搯栴},本文提出了一種基于卷積層特征的融合方法(Spatial Weight Feature, SWF),將三維的特征圖編碼為一維的特征向量, 使用卷積層的特征去刻畫圖像的局部紋理信息,用于檢索任務。
近年來,基于深度模型的卷積網絡在計算機視覺領域取得了突破性的進展。CNN是由多個非線性映射層組成的網絡架構,主要包括卷積層,池化層以及全連接層,其中卷積層和全連接層之間需要學習對應的網絡參數。
CNN首先通過前向傳播計算輸入圖像的預測分類結果,使用對應的圖像標簽計算分類誤差,然后反向傳播誤差梯度更新網絡權重。卷積層是網絡的核心組成部分,主要使用卷積核提取圖像的局部細節(jié)紋理,顏色以及形狀等特征。卷積核的大小隨著網絡層次的加深逐漸減小,卷積核越小,提取圖像特征的能力越強。池化層用于對卷積層計算得到的特征圖進行下采樣操作,降低網絡模型的復雜度,對急劇變化的特征圖進行均衡化操作。全連接層用于將三維的特征圖編碼為一維的特征向量,將圖像的局部細節(jié)特征歸結為全局的語義信息。激活函數用于對卷積得到的特征圖進行非線性映射。網絡最后連接一個多分類器,使用輸入圖像對應的標簽和預測得到的結果計算對應的誤差梯度,用以更新網絡權重。經過若干次迭代計算之后,網絡的誤差趨于穩(wěn)定,分類精確變高。
卷積層計算得到的是三維的特征圖,并不能直接用于檢索任務,首先需要將三維的特征編碼為一維的描述算子?;谠搯栴},本文使用局部特征融合方法,將三維的特征圖編碼為一維特征向量用于相似度計算,同時保持特征的區(qū)分能力。
本文使用F∈R(K×W×H)表示卷積層計算得到的特征圖,K表示特征圖的個數,W和H分別代表每個特征圖的寬和高。由于每個特征圖代表圖像不同細節(jié)方面的紋理特征,可以將其編碼為對應的浮點數,最終得到一個K維的向量。式(1)中,f(x,y)表示特征圖坐標(x,y)上的激活值,Φ(k)(I)表示計算得到的一維向量中的特征值,具體表述如下:
(1)
公式(1)中,在對特征圖進行加權時,將每個像素值均視為等價的地位,權重均賦值為1。但是在人的視覺神經中,對于一幅圖像,并非是關注圖像的每個細節(jié),而是前景物體或者一些重要的區(qū)域?;谠搯栴},本文假設一幅圖像中,最重要的區(qū)域是中心區(qū)域,越向邊緣靠攏像素值的權重越低。使用α(x,y)∈R(W,H)代表特征圖中每個位置對應的權重,可以將上述公式(1)改為表達式(2):
(2)
每個像素值所對應的權重系數α(x,y)依賴于在整個特征圖中出現的位置,本文使用高斯核來計算每個像素值的權重,權重計算公式如式(3)所示,其中W和H分別表示特征圖的寬和高,σ設定為W的三分之一:
(3)
對于三維特征中的每個二維特征圖而言,也有與之對應的權重。本文使用β∈R(K)表示每個維度的權重。每個二維特征圖所對應的權重和該平面中激活值大于零的個數成正比,并且特征圖中激活數值總和N也應該被考慮在內,如表達式(5)所示:
β(k)=log(N/ξ(k))
(4)
(5)
其中ξ表示二維特征圖中激活值大于0的像素個數和總像素個數的比例。如果v>0則Ι[v]=1,否則Ι[v]=0。將每個特征圖的權重也考慮在特征編碼中,得到的特征如下式所示:
(6)
最終計算得到特征向量用Φ(I)∈RK表示。之后使用主成分分析和白化操作,對計算得到的特征向量進行處理。如下所示:
Φ(I)=diag(s1,s2,s3…sN)-1MΦ(I)
(7)
(8)
其中M∈RN×C將C維的特征向量編碼為N維向量。使用L2范數處理計算得到的向量,如式(8)所示。最終將三維的特征圖F∈RK×W×H編碼成為一維的特征向量Φ(I)∈RK,使用歐式距離來計算兩個特征之間的距離。
本文對提出的編碼方法在INRIA和Oxford數據集上進行評估。INRIA Holidays總計包含1 491張圖像,其中500張作為查詢實例。Oxford數據集包含5 062張圖像,55張查詢實例。使用VGG網絡提取圖像的卷積層特征,每個圖像均放縮到586×586大小作為網絡的輸入,從最后一個卷積層提取得到的特征圖大小為512×37×37。卷積網絡使用開源的神經網絡庫Caffe[21]實現。
將本文提出的SWF與傳統(tǒng)的聚合模型,如Avg Pooling, Fisher Vectors[22],Triangulation embedding[23]以及SPoc進行比較。上述所有的聚合方法最終均使用主成分分析將特征編碼到相對較低的維度。使用平均查準率(mean average precision,MAP)評估算法的查詢性能,實驗結果如表1所示。
表1 檢索平均查準率
從表1可以看出,相比較于其他的模型,基于SWF的聚合方法,在平均查準率上高于其他的聚合模型,這主要是因為對不同維度的特征賦予了合適的權重因子,去除了特征圖編碼中存在的不相關信息。在數據集Holidays上的平均查準率要高于Oxford,因為在Oxford上,每個圖像存在的噪點相對較多,并且對于每個建筑存在多個視角方面的實例。同時,本文對不同層的編碼結果也進行檢索效果評估,結果如表2所示。從中可以發(fā)現編碼長度在256維之后的檢索效果趨于穩(wěn)定,同時發(fā)現,第五個池化層計算得到的特征向量具有較強的編碼能力,在平均檢索精度上優(yōu)于其它層得到的結果。這是由于深層的特征更加趨向于刻畫圖像整體的輪廓,去除了局部細節(jié)有可能產生的噪音所導致的。
表2 不同長度的編碼特征平均查準率
為了進一步驗證算法的有效性,本文從Oxford上挑選出兩個圖像,對SWF和Sum pooling方法進行查詢結果的可視化,如圖1所示。從左到右,相似度依次遞減,用綠色方框框起來的表示查詢正確的圖像,黃色代表原圖像。發(fā)現基于SWF加權的特征編碼方法檢索到正確的圖像個數相對較多,并且查詢到的圖像中包含的建筑視角也大致相同。
Fig.1 Retrieval results in SWF aggregation method圖1 SWF檢索效果
為了進一步探究提出編碼方法的特性,本文對SWF的編碼方法計算得到的特征進行可視化,如圖2所示。可以看出,對于直接將每個維度對應的激活值相加得到的特征圖,存在較多的噪點,如Sum pooling。而SWF加權特征圖,去掉了不相關的圖像區(qū)域,突出了圖像中心區(qū)域中的建筑整體輪廓,去掉了邊緣中無關的信息,進而提高了特征的編碼能力。
Fig.2 Illustration of different feature aggregation methods圖2 不同特征融合方法示意圖
從上述的檢索平均精準度和檢索結果示意圖可以看出,本文所提出的特征融合方法較適合于將三維的特征圖編碼為一維特征向量,用于檢索任務,達到了相對較好的結果。從圖2的特征融合結果可以看出,對每個特征維度賦予相對應的權重,可以減小圖像中不相關區(qū)域的噪點,突出語義的整體輪廓。并且圖2中的高亮區(qū)域對應的物體和原圖像對應的實例區(qū)域幾乎重合,表明本文所提出的特征聚合方法,可以提取出自然圖像中對分類性能至關重要的區(qū)域,關注于圖像中最為感興趣的區(qū)域的特征編碼,而并非圖像的整個區(qū)域,進而提高了檢索效率。
基于深度卷積網絡,本文提出了一種基于特征加權的編碼方法,將三維的特征圖編碼為一維的特征向量用于檢索任務。在數據集Oxford和INRIA上均取得了相對較好的結果。雖然使用卷積層的特征在平均查準率上有所提升,但這種兩段式的編碼方法會降低圖像特征的表達能力,在后續(xù)的工作中將繼續(xù)探討如何將兩段式的編碼方法變?yōu)槎说蕉说奶卣魈崛】蚣?用于檢索任務,提高檢索效率。
[1] Jiang K,Que Q,Kulis B.Revisiting Kernelized Locality-sensitive Hashing for Improved Large-scale Image Retrieval[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.New York,USA:IEEE,2015:4933-4941.DOI:10.1109/CVPR.2015.7299127.
[2] Yan K,Wang Y,Liang D,etal.CNN vs.SIFT for Image Retrieval:Alternative or Complementary? [C]∥Proceedings of the 2016 ACM International Conference on Multimedia. New York, USA: ACM, 2016: 407-411.DOI:10.1145/2964284.2967252.
[3] Babenko A,Lempitsky V.Aggregating Local Deep Features for Image Retrieval[C]∥Proceedings of the IEEE International Conference on Computer Vision.New York,USA:IEEE,2015:1269-1277.DOI:10.1109/ICCV.2015.150.
[4] Ng P C,Henikoff S.SIFT:Predicting Amino Acid Changes That Affect Protein Function [J].NucleicAcidsResearch,2003,31(13):3812-3814.DOI:10.1093/nar/gkg509.
[5] Dalal N,Triggs B.Histograms of Oriented Gradients for Human Detection[C]∥Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition.New York,USA:IEEE,2005,1:886-893.DOI:10.1109/CVPR.2005.177.
[6] Ojala T,Pietik?inen M,M?enp?? T.Multiresolution Gray-Scale and Rotation Invariant Texture Classification with Local Binary Patterns[J].IEEETransactionsonPatternAnalysis&MachineIntelligence,2002,24(7):971-987.DOI:10.1109/TPAMI.2002.1017623.
[7] Krizhevsky A,Sutskever I,Hinton G E.ImageNet Classification with Deep Convolutional Neural Networks[C].Advances in Neural Information Processing Systems,2012,25(2):2012.DOI:10.1145/3065386.
[8] Szegedy C,Liu W,Jia Y,etal.Going Deeper with Convolutions[C]∥Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition.New York,USA:IEEE,2015:1-9.DOI:10.1109/CVPR.2015.7298594.
[9] Tsai Y H,Hamsici O C,Yang M H.Adaptive Region Pooling for Object Detection[C]∥Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition.New York,USA:IEEE,2015:731-739.DOI:10.1109/CVPR.2015.7298673.
[10] Graves A,Mohamed A,Hinton G.Speech Recognition with Deep Recurrent Neural Networks[C]∥ICASSP2013:Acoustics,speech and signal processing,2013 ieee international conference on. IEEE,2013:6645-6649.DOI:10.1109/ICASSP.2013.6638947.
[11] Graves A,Jaitly N,Mohamed A.Hybrid Speech Recognition with Deep Bidirectional LSTM[C]∥ASRU2013:Automatic Speech Recognition and Understanding,2013 IEEE Workshop on. IEEE,2013:273-278.DOI:10.1109/ASRU.2013.6707742.
[12] Tseng S Y,Chakravarthula S N,Baucom B,etal.Couples Behavior Modeling and Annotation Using Low-Resource LSTM Language Models[J].Interspeech,2016,2016:898-902.DOI:10.21437/Interspeech.2016-1186.
[13] Sutskever I,Vinyals O,Le Q V.Sequence to Sequence Learning with Neural Networks[C].AdvancesinNeuralInformationProcessingSystems,2014,4:3104-3112.
[14] Babenko A,Slesarev A,Chigorin A,etal.Neural Codes for Image Retrieval[C]∥European conference on computer vision. Springer International Publishing,2014:584-599.DOI:10.1007/978-3-319-10590-1_38.
[15] Xia R,Pan Y,Lai H,etal.Supervised Hashing for Image Retrieval Via Image Representation Learning[C]∥Proceedings of the Twenty-Eighth AAAI Conference on Artificial Intelligence. Menlo Park,CA:AAAI,2014:2156-2162.
[16] Lin K,Yang H F,Hsiao J H,etal.Deep Learning of Binary Hash Codes for Fast Image Retrieval[C]∥Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition.New York,USA:IEEE,2015:27-35.DOI:10.1109/CVPRW.2015.7301269.
[17] Yang H F,Lin K,Chen C S.Supervised Learning of Semantics-Preserving Hashing via Deep Neural Networks for Large-Scale Image Search[J].ComputerScience,2015.DOI:10.1109/TPAMI.2017.2666812.
[18] Lai H,Pan Y,Liu Y,etal.Simultaneous Feature Learning and Hash Coding with Deep Neural Networks[C]∥Proc of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition.New York,USA:IEEE,2015:3270-3278.DOI:10.1109/CVPR.2015.7298947.
[19] Ng Y H,Yang F,Davis L S.Exploiting Local Features from Deep Networks for Image Retrieval[C]∥Computer Vision and Pattern Recognition Workshops.IEEE,2015:53-61.DOI:10.1007/978-3-319-10590-1_53.
[20] Babenko A,Lempitsky V.Aggregating Deep Convolutional Features for Image Retrieval[J].ComputerScience,2015.DOI:10.1145/2647868.2654889.
[21] Jia Y,Shelhamer E,Donahue J,etal.Caffe:Convolutional Architecture for Fast Feature Embedding[C]∥Proceedings of the 22nd ACM international conference on Multimedia.ACM,2014:675-678.DOI:10.1109/CVPR.2007.383266.
[22] Perronnin F,Dance C.Fisher Kernels on Visual Vocabularies for Image Categorization[C]∥Computer Vision and Pattern Recognition,2007.CVPR′07.IEEE Conference on.IEEE,2007:1-8.DOI:10.1109/CVPR.2014.417.
[23] Jégou H,Zisserman A.Triangulation Embedding and Democratic Aggregation for Image Search[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2014:3310-3317.DOI:10.1109/ICCV.2015.150.