孫曉峰,彭天強
(1.河南工程學院 國際教育學院,河南 鄭州 451191;2.河南工程學院 計算機學院,河南 鄭州 451191)
一種基于全卷積網絡的目標檢索方法
孫曉峰1,彭天強2
(1.河南工程學院 國際教育學院,河南 鄭州 451191;2.河南工程學院 計算機學院,河南 鄭州 451191)
基于預訓練卷積神經網絡的圖像表示已成為一種新的圖像檢索方法,但這種圖像表示方法是對圖像整體特征的表示,無法適用于目標僅占被檢索圖像部分區(qū)域的檢索,故主要研究將深度全卷積網絡應用于實例目標較小、僅占被檢索圖像部分區(qū)域的檢索.首先,利用全卷積網絡對輸入圖像大小不受限制的優(yōu)勢,給定被檢索圖像,經過全卷積網絡得到該圖像的特征矩陣;其次,給定查詢目標圖像,利用全卷積神經網絡得到目標圖像的特征表示;最后,將目標特征與被檢索圖像的特征矩陣的每一個特征進行相似性比對,得到相似值和匹配最優(yōu)位置.實驗表明,本算法的檢索性能優(yōu)于現(xiàn)有算法.
全卷積網絡;目標檢索;特征矩陣;目標定位;多比例變換
隨著大數據時代的到來,互聯(lián)網圖像資源數量迅猛增長,這種爆炸式的增長激發(fā)研究人員提出有效的基于內容的圖像檢索系統(tǒng).近年來,深度學習在各種計算機視覺任務上都取得了重大突破.由于深度卷積神經網絡(convolutional neural networks,CNNs)強大的非線性表示能力能夠理解圖像更深層次的信息,它在目標檢測[1]、圖像分類[2-3]和圖像分割[4]等方面都表現(xiàn)出了良好的性能.將CNNs應用于圖像檢索的算法主要是在預訓練CNNs模型的基礎上,提取其中某一層的特征圖譜(feature map),對其進行編碼而得到適用于檢索任務的圖像特征.目前,基于預訓練CNNs模型的圖像檢索算法均是對圖像的整體表示算法,而無法有效完成目標僅占被檢索圖像部分區(qū)域的檢索.
本算法主要解決目標檢索問題,即給定查詢目標,從數據集中檢索出包含該目標的圖像并定位到目標區(qū)域.該算法具有非常廣泛的應用前景,比如以圖搜圖、商品搜索、車輛搜索,以及用于視頻監(jiān)控的可疑目標搜索.這種目標檢索問題類似于目標檢測算法,需要對圖像的多個位置進行評估并確定這些位置是否包含目標,而在目標檢測算法中,窮舉所有的目標候選區(qū)域,已經被端到端學習目標的位置和類別的算法代替.但在樣本數據相對較少或者無樣本數據的情況下,無法進行端到端的學習.同時,當目標區(qū)域只占被檢索圖像較小面積時,圖像的整體特征表示算法無法應用.本算法主要解決在這些情況下如何高效地檢索包含實例目標的圖像并返回包含目標的區(qū)域.一個簡單的思路是在不同尺度和比例的圖像上進行窗口滑動,每個窗口與查詢目標進行比較,以找到包含查詢目標的最優(yōu)位置,但這種方法需要計算每個滑動窗口的視覺特征表示,而全卷積網絡提供了一種有效的特征表示方法,只需要一次前向全卷積,就可以得到多個滑動窗口的特征表示.
基于預訓練CNNs模型的特征表示已廣泛應用于圖像檢索任務.文獻[5]首先提出了將全連接層的特征用于圖像檢索.文獻[6]將圖像的不同子區(qū)域全連接層特征進行組合表示,提高了檢索性能.文獻[7]指出相較于全連接層的輸出,卷積層的特征圖譜(feature map)更適用于圖像搜索.文獻[8]指出無序的編碼方法如VLAD,Fisher Vector的計算量通常比較大,提出了一種更加簡單且有效的編碼方法——Sum pooling,并通過實驗論證了該編碼方法檢索效果最優(yōu).文獻[9]指出由于全局的CNN特征缺少幾何不變性,提出了MOP-CNN (multi-scale orderless pooling)算法,將CNN特征與無序的VLAD編碼方法相結合,相比于一般的CNN全局特征有更好的分類和搜索效果.文獻[10]提出了一種新的卷積神經網絡架構NetVLAD,將VLAD方法嵌入CNN網絡,實現(xiàn)了端到端的學習.文獻[11]考慮了特征的平移不變性和尺度不變性,提出了一種新的特征表示方法MAC和R-MAC特征表示,且通過實驗證明R-MAC特征優(yōu)于MAC特征及Sum pooing方法.文獻[12]改進了R-MAC算法,將R-MAC的特征表示方法進行端到端的訓練,得到相應的圖像特征用于圖像檢索.以上這些算法均基于圖像的全局特征表示,適用于圖像的整體相似性檢索,而對于目標僅占圖像部分區(qū)域的檢索問題,以上這些方法均無法得到較好的結果.
將目標檢測的思想應用于圖像檢索,對數據庫中的每張圖像首先利用目標候選區(qū)域提取算法[13-15]提取可能的目標區(qū)域,然后將這些目標區(qū)域作為輸入圖像,利用預訓練網絡提取目標區(qū)域的CNN特征,最后計算每個目標區(qū)域與查詢目標的相似性值,將最大相似值作為查詢目標與該圖像的相似性值.然而,這種算法雖然可以完成中小目標的檢索問題,但是候選區(qū)域提取算法一般會提取1 000~2 000個目標區(qū)域,然后對這些目標區(qū)域分別提取CNN特征,這種算法會導致處理單張圖像的時間過長,檢索效率低.文獻[16]將Faster R-CNN的RPN得到的目標區(qū)域及相應的特征用于圖像檢索,若直接利用Fast R-CNN訓練得到的RPN表示目標區(qū)域,目標區(qū)域定位效果不好會導致檢索正確率低,該算法比較適合利用樣本數據進行有監(jiān)督的端到端微調,不適用于無監(jiān)督的目標區(qū)域特征表示.
全卷積網絡FCN(fully convolutional networks)作為一種新型的深度卷積架構,主要用于圖像分割[17]和目標檢測[18-20].FCN有兩大明顯的優(yōu)點:①可以接受任意大小的輸入圖像而不要求所有的訓練圖像和測試圖像具有同樣的尺寸;②經過一次卷積可以得到多個區(qū)域的特征,避免了分區(qū)域傳入CNN重復計算卷積的問題,故更加高效.給定查詢目標,需要在待檢索圖像上進行窗口滑動,將每個窗口與查詢目標進行比較以得到包含查詢目標的最優(yōu)位置,這需要計算每個窗口的特征表示.本算法利用FCN解決上述問題,經過一次全卷積就可以得到多個窗口的特征表示.實驗結果表明,基于FCN的目標檢索算法的性能優(yōu)于以上方法.
為了解決中小目標的檢索問題,提出了一種基于全卷積網絡的目標檢索算法.首先,構建全卷積神經網絡,對任意尺寸的圖像輸入該全卷積網絡,得到該圖像的特征表示或者特征矩陣表示,特征矩陣的每一個位置對應原圖像上的一個目標區(qū)域.然后,給定查詢目標圖像,利用全卷積神經網絡,得到目標圖像的特征表示.為了檢索到不同大小的目標,對數據庫中的圖像進行多尺度多比例變換,輸入全卷積神經網絡得到多個特征矩陣.最后,將查詢目標特征與數據庫圖像特征矩陣中每一個特征進行相似性比對,得到匹配最優(yōu)位置及相似值.
2.1基于全卷積網絡的特征表示
本算法利用全卷積網絡對圖像進行特征表示并用于目標檢索.這里的全卷積網絡架構如圖1所示.在訓練階段,該模型接受的輸入為圖像及其相應的標簽信息.該模型主要包括兩個部分:①全卷積神經網絡,用于學習圖像的特征或特征矩陣表示,該網絡不包含全連接層; ②損失層,softmax分類損失.首先,輸入圖像通過全卷積網絡得到圖像的特征表示,然后進入損失層,計算損失函數并優(yōu)化該損失函數學習得到模型參數.
圖1 全卷積網絡框架Fig.1 The scheme of the FCN algorithm
表1 全卷積網絡配置Tab.1 The configurations of FCN
全卷積網絡用于學習圖像的特征表示,以AlexNet模型結構為例,全卷積網絡的配置見表1.訓練網絡時,輸入圖像的大小為227×227.
全卷積神經網絡訓練完成后,給定輸入圖像,通過全卷積網絡可以得到圖像的特征向量或特征矩陣表示.對于實例目標圖像,將圖像進行縮放,使其大小與全卷積神經網絡模型的輸入尺寸保持一致,然后輸入全卷積網絡得到目標實例的特征向量.對于數據庫中的被檢索圖像,若其圖像尺寸小于全卷積神經網絡模型的輸入尺寸,將圖像進行縮放至與全卷積神經網絡的輸入尺寸一致,然后輸入全卷積網絡得到被檢索圖像的特征向量;若其圖像尺寸大于等于全卷積網絡的輸入尺寸,則保持原圖像尺寸不變,且原圖像尺寸大于全卷積神經網絡模型的輸入尺寸,則得到該輸入圖像的特征矩陣.特征矩陣每個位置上的特征是對原圖像上一個區(qū)域的描述,相鄰位置的特征對應原圖像上相鄰的區(qū)域.以AlexNet模型為例,給定輸入圖像的尺寸為300×250,得到圖像特征矩陣的大小為4×2,即共8個區(qū)域的特征,每個區(qū)域對應原圖的一個227×227區(qū)域,水平相鄰區(qū)域之間相差32個像素,垂直相鄰區(qū)域之間也相差32個像素,區(qū)域效果如圖2所示.
圖2 被檢索圖像的特征表示Fig.2 The feature representation for retrieval image
基于全卷積網絡得到的特征矩陣相當于在原圖像上取一定大小的窗口(如227×227),然后按照一定的步長(如32像素)進行窗口滑動.經過一次前向卷積,就可以得到這些區(qū)域的特征表示.這種固定窗口大小、固定步長的窗口滑動,會導致可能沒有一個區(qū)域剛好覆蓋查詢目標,從而導致不能準確檢索并定位到目標.例如在圖2中,得到的8個區(qū)域都不能剛好覆蓋籃球,即每個區(qū)域都包含了一部分背景.本算法對被檢索圖像進行多尺度變換以檢索到不同大小的目標.圖像的尺度可以選擇s為5.0,2.0,3.0等,當選擇s=2.0時,圖像被放大至原來的2倍.在新的尺度下得到的區(qū)域窗口大小為227×227,相當于原圖上區(qū)域窗口的大小為(227/s)×(227/s),如此可以根據目標大小選擇合適的尺度使窗口剛好覆蓋檢索目標,從而能夠正確檢索定位到目標區(qū)域.加上多尺度變換后,雖然可以檢索到不同大小的目標,但它的窗口區(qū)域只能是正方形區(qū)域,若目標不是一個方形的,可能無法得到較好的檢索結果.針對這個問題,可以考慮對被檢索圖像進行多比例變換,比例因子可以選擇,對圖像進行變換后,在新比例下區(qū)域窗口大小為227×227,相當于在原圖上區(qū)域窗口的大小為(227/s)×227,如此可以覆蓋縱向長的目標,類似地,對圖像進行r=1∶2變換后,可以覆蓋橫向長的目標.
圖3 全卷積網絡的目標檢索流程Fig.3 The flow chart of the object retrieval based on FCN
2.2目標檢索
基于全卷積神經網絡的目標檢索流程如圖3所示.
在離線階段,對數據庫中每張圖像進行多尺度、多比例縮放,然后輸入全卷積神經網絡,得到每張圖像在每個尺度與比例上的特征矩陣.為了在數據庫中檢索到不同大小的目標,對圖像進行多尺度變換,圖像尺度可以選擇s=0.5,1.0,1.5,2.0,2.5,3.0.為了在數據庫中檢索到不同形狀比例的目標,在每個尺度上進行多比例變換,可以選擇3個長寬比例因子r=1∶1,1∶2,2∶1.將圖像在每個尺度s上按照比例因子r縮放后,直接輸入全卷積網絡,卷積層conv7的特征矩陣為該尺度比例下的特征描述,特征矩陣中的每一個位置對應輸入圖像一個區(qū)域的特征描述.
在線檢索階段,給定待檢索圖像,將圖像進行縮放,使其大小與全卷積神經網絡模型的輸入尺寸保持一致,得到圖像的特征向量表示.給定數據庫中圖像在每個尺度與比例下的特征矩陣,將待檢索圖像的特征與該特征矩陣中每個位置的特征進行余弦距離計算,將距離的最大值作為該尺度上與待檢索圖像最匹配值,將每個尺度、每個比例下與待檢索圖像最匹配值的最大值作為該圖像與待檢索圖像的相似值,并保存相應的最匹配區(qū)域.然后,將相似值按照降序排列,得到與待檢索圖像最相似的TopN圖像列表及其最優(yōu)匹配位置.
3.1實驗設置
為驗證本算法的有效性,在Oxford5K[21]數據集上對本算法進行了評估.Oxford5數據集包括5 063幅圖像,其中55幅為標準的查詢圖像,每個目標選取5幅圖像,涵蓋了牛津大學11處標志性建筑.圖像庫共標注為4種可能的標簽,Good表示一幅包含清晰目標或建筑的圖片,OK表示不少于目標整體的25%部分可以清楚顯示,Bad表示沒有目標建筑出現(xiàn),Junk表示不高于目標整體25%的部分可以清楚顯現(xiàn)或者目標遮擋、變形嚴重.將僅包含目標的包圍盒區(qū)域作為查詢圖像.
將本算法的檢索性能與其他的圖像檢索方法比較,包括基于預訓練CNN的整體特征表示方法Spoc,Mac,Rmac算法,基于Selective Search目標檢測算法的SS+Fc7,以及基于Faster R-CNN特征表示的檢索算法,將該檢索算法記為Faster R-CNN.
Spoc,Mac,Rmac算法均采用預訓練Alexnet的conv5層的特征;基于通用目標檢測的算法SS+Fc7首先利用Selective Search算法得到目標候選區(qū)域,然后輸入預訓練Alexnet得到F7層的特征,用于表示目標區(qū)域;基于Faster R-CNN的目標檢索算法利用預訓練的目標檢測VGG-16得到RPN區(qū)域及每個區(qū)域的RPA特征.為了公平,本算法也采用Alexnet為基礎架構,在ImageNet數據集上訓練全卷積網絡,訓練完成后,采用conv7層的特征表示每個區(qū)域.
為了評估圖像檢索性能并與已有方法比較,本算法采用查準率均值(Mean Average Precision, MAP)對檢索性能進行評估.AP(Average Precision)為查準率-查全率曲線所包含的面積,相關的定義如下:
(1)
(2)
對于Oxford5K數據集,MAP為每組5幅查詢圖像AP的平均值.對于Logo數據集,在每個查詢目標檢索出的Top 100圖像集上計算AP值.
3.2在標準數據集Oxford5K上分析檢索性能
為了驗證本算法的有效性,將本算法與基于CNN編碼的整體特征表示方法Spoc,Mac,Rmac及基于目標檢測的算法SS+Fc7,F(xiàn)aster R-CNN在Oxford5K數據庫上對全部11個查詢目標的檢索準確度進行比較, MAP對比結果如表2所示.
表2 各算法在Oxford5k數據集上的MAP結果對比Tab.2 The MAP of different methods compared on Oxford5k
從表2可以看出,對于不同的查詢目標而言,Spoc,Mac和RMac方法的MAP值相近且RMac方法略高于Spoc和Mac方法,因為這3種方法均是對圖像整體特征的算法,而RMac方法在不同尺度上對區(qū)域進行劃分并分別對各區(qū)域進行整體表示,得到了更好的特征表示.基于目標檢測的算法SS+Fc7和Fast-RCNN與本算法的MAP值相近,而且比3種圖像的整體表示算法的MAP值高3%~5%,因為后面的3種算法均對圖像進行了區(qū)域劃分,分區(qū)域與查詢目標進行匹配,而不是將圖像作為整體與查詢目標進行匹配,故提高了目標檢索的準確度.
在Oxford5K數據集上,本算法與SS+Fc7算法、Faster R-CNN算法的MAP值相差不大,于是將這3種算法的查詢時間及區(qū)域定位效果進行比較,表3給出了3種方法在處理數據庫中兩種不同規(guī)格圖像的平均耗時對比.從表3可以看出,F(xiàn)ast-RCNN算法耗時最短,SS+Fc7算法耗時最長,本算法耗時略高于Faster R-CNN算法.Sel+Fc7算法首先對圖像進行劃分,得到可能包含目標的區(qū)域,然后分別輸入卷積神經網絡得到每個區(qū)域的特征表示,多次重復輸入卷積神經網絡導致耗時較長;Faster R-CNN算法將目標區(qū)域的獲得和區(qū)域特征的表示統(tǒng)一到一個框架中,只需要一次前向卷積網絡就可以得到多個區(qū)域的特征表示,提升了計算速度;本算法雖然也只需要一次前向全卷積網絡就可以得到多個區(qū)域的特征表示,但是為了適用于不同大小、不同形狀的目標,對圖像進行了多尺度、多比例變換,從而導致其耗時略高于Faster R-CNN算法.
表3 3種方法的耗時對比Tab.3 The time consumption of processing images for the three methods s
圖4給出了基于目標檢測的算法和本算法在Oxford5K數據庫上目標檢索及區(qū)域定位結果的部分樣例.不難看出,本算法的區(qū)域定位效果最優(yōu),SS+Fc7算法的區(qū)域定位效果不好,因為它利用目標候選區(qū)域提取算法SS提取圖像中非限定類別的目標,而Oxford5K數據集上的查詢目標只是整體目標的一部分,不是獨立的目標;Fast-RCNN算法的區(qū)域定位效果也不好,因為它直接利用預訓練的Fast-RCNN模型得到的RPN與預訓練的目標相關,需要利用相關目標數據進行端到端的訓練微調,才能得到較好的目標定位,文獻[16]也說明了該問題.
圖4 圖像檢索和目標定位樣例(左邊:查詢目標圖像;右邊:第1行為SS+Fc7算法定位結果,第2行為Faster R-CNN算法定位結果,第3行為本算法定位結果)Fig.4 Examples of image retrieval and object locations for query object
從在標準數據集Oxford5K上的實驗對比可以看出,本算法與基于CNN圖像整體表示算法相比,更適合于目標的檢索且能夠定位到目標區(qū)域.與基于目標檢測的檢索算法相比,耗時雖然略高于Fast-RCNN算法,但其MAP值與區(qū)域定位效果更優(yōu).
本研究提出了一種簡單有效的基于全卷積神經網絡的目標檢索方法,利用全卷積網絡對被檢索圖像進行特征矩陣表示,經過一次全卷積網絡就得到了多個區(qū)域的特征表示,并引入多尺度、多比例變換以檢索定位到不同大小的實例目標.實驗表明,與基于CNN的圖像整體表示算法相比,本算法得到了較高的MAP值;與基于目標檢測的算法相比,本算法的MAP值最高且得到了較優(yōu)的目標定位.
[1] REN S,HE K,GIRSHICK R,et al.Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks[C]∥International Conference on Neural Information Processing Systems,Canada:NISP Foundation,2015:91-99.
[2] KRIZHEVSKY A,SUTSKEVER I,HINTON G E.Image Net Classification with Deep Convolutional Neural Networks[C]∥Advances in Neural Information Processing Systems,US:NISP Foundation,2012:1097-1105.
[3] SIMONYAN K,ZISSERMAN A.Very Deep Convolutional Networks for Large-Scale Image Recognition[EB/OL].(2014-09-04)[2015-04-10].http:∥arxiv.org/abs/1409.1556.
[4] LONG J,SHELHAMER E,DARRELL T.Fully Convolutional Networks for Semantic Segmentation[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,Boston:IEEE,2015:3431-3440.
[5] BABENKO A,SLESAREV A,CHIGORIN A,et al.Neural Codes for Image Retrieval[C]∥European Conference on Computer Vision,Zurich:IEEE,2014:584-599.
[6] SHARIF R A,AZIZPOUR H,SULLIVAN J,et al.CNN Features off-the-shelf:an Astounding Baseline for Recognition[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,Columbus:IEEE,2014:806-813.
[7] NG Y H,YANG F,DAVIS L S.Exploiting Local Features from Deep Networks for Image Retrieval[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,Boston:IEEE,2015:53-61.
[8] BABENKO A,LEMPITSKY V.Aggregating Local Deep Features for Image Retrieval[C]∥Proceedings of the IEEE International Conference on Computer Vision,Santiago:IEEE,2015:1269-1277.
[9] GONG Y,WANG L,GUO R,et al.Multi-scale Orderless Pooling of Deep Convolutional Activation Features[C]∥European Conference on Computer Vision,Zurich:IEEE,2014:392-407.
[10]ARANDJELOVI R,GRONAT P,TORII A,et al.NetVLAD:CNN Architecture for Weakly Supervised Place Recognition[C]∥ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,Las Vegas:IEEE,2016:5297-5307.
[11]TOLIAS G,SICRE R,JEGOU H.Particular Object Retrieval with Integral Max-pooling of CNN Activations[EB/OL].(2015-11-18)[2016-02-24].https:∥arxiv.org/abs/1511.05879.
[12]GORDO A,ALMAZAN J,RECAUD J,et al.Deep Image Retrieval:Learning Global Representations for Image Search[C]∥ European Conference on Computer Vision,Netherlands:IEEE,2016:241-257.
[13]UIJLINGS J,VANDESANDE K,GEVERS T,et al.Selective search for object recognition[J].International Journal of Computer Vision,2013,104(2):154-171.
[14]ZITNICK C L,DOLLAR P.Edge Boxes:Locating Object Proposals from Edges[C]∥ European Conference on Computer Vision,Zurich:IEEE,2014:391-405.
[15]CHENG M M,ZHANG Z,LIN W Y,et al.BING:Binarized Normed Gradients for Objectness Estimation at 300 fps[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,Columbus:IEEE,2014:3286-3293.
[16]SALVADOR A,GIROINIETO X,MARQUES F,et al.Faster R-CNN Features for Instance Search[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,Las Vegas:IEEE,2016:394-401.
[17]NOH H,HONG S,HAN B.Learning Deconvolution Network for Semantic Segmentation[C]∥Proceedings of the IEEE International Conference on Computer Vision,Santiago:IEEE,2015:1520-1528.
[18]FARFADE S S,SABERIAN M J,LI L J.Multi-view Face Detection Using Deep Convolutional Neural Networks[C]∥Proceedings of the 5th ACM on International Conference on Multimedia Retrieval,Brisbane:ACM,2015:643-650.
[19]HUANG L,YANG Y,DENG Y,et al.DenseBox:Unifying Landmark Localization with End to End Object Detection[EB/OL].(2015-03-25)[2016-11-18].https:∥arxiv.org/abs/1509.04874.
[20]DAI J,HE K,SUN J.Instance-aware Semantic Segmentation Via Multi-task Network Cascades[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,Las Vegas:IEEE,2016:3150-3158.
[21]PHILBIN J,CHUM O,ISARD M,et al.Object Retrieval with Large Vocabularies and Fast Spatial Matching[C]∥IEEE Computer Society Conference on Computer Vision and Pattern Recognition,Minneapolis:IEEE,2007:1-8.
Fullyconvolutionalnetworksforinstancesearch
SUNXiaofeng1,PENGTianqiang2
(1.CollegeofInternationalEducation,HenanUniversityofEngineering,Zhengzhou451191,China; 2.CollegeofComputerScience,HenanUniversityofEngineering,Zhengzhou451191,China)
Image representations derived from pre-trained Convolutional Neural Networks (CNNs) have become the new state of the art in the task of image retrieval. But these methods are all based on image global representations and can’t be applied to the retrieval of query objects which only the part area of the retrieved images is occupied. This work explores the suitability for instance search for small query objects which only occupy part area of the retrieved images using fully convolutional networks. First, we take advantage of the fully convolutional networks without the restriction of the size of input image,and given retrieved image,feature matrix representations are derived by fully convolutional networks. Second, given the query object, the feature can also be derived by the fully convolutional networks. Finally, the feature of query object is matched with each feature of the feature matrix of the retrieved image, and we can get the similarity and optimal matching location. We further investigate the suitability of the multi-scale, multi-ratio transformation for different size of instance object. Experimental results on the benchmark dataset Oxford5k show that our method outperforms other state-of-the-art methods.
fully convolutional networks; object retrieval; feature matrix; object location; multi-ratio transformation
TP391.4
A
1674-330X(2017)03-0065-07
2017-03-11
國家自然科學基金(61301232)
孫曉峰(1981-),女,黑龍江雙城人,講師,研究方向為計算機應用及工程建模.