孫曉峰,彭天強(qiáng)
(1.河南工程學(xué)院 國際教育學(xué)院,河南 鄭州 451191;2.河南工程學(xué)院 計(jì)算機(jī)學(xué)院,河南 鄭州 451191)
一種基于全卷積網(wǎng)絡(luò)的目標(biāo)檢索方法
孫曉峰1,彭天強(qiáng)2
(1.河南工程學(xué)院 國際教育學(xué)院,河南 鄭州 451191;2.河南工程學(xué)院 計(jì)算機(jī)學(xué)院,河南 鄭州 451191)
基于預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的圖像表示已成為一種新的圖像檢索方法,但這種圖像表示方法是對圖像整體特征的表示,無法適用于目標(biāo)僅占被檢索圖像部分區(qū)域的檢索,故主要研究將深度全卷積網(wǎng)絡(luò)應(yīng)用于實(shí)例目標(biāo)較小、僅占被檢索圖像部分區(qū)域的檢索.首先,利用全卷積網(wǎng)絡(luò)對輸入圖像大小不受限制的優(yōu)勢,給定被檢索圖像,經(jīng)過全卷積網(wǎng)絡(luò)得到該圖像的特征矩陣;其次,給定查詢目標(biāo)圖像,利用全卷積神經(jīng)網(wǎng)絡(luò)得到目標(biāo)圖像的特征表示;最后,將目標(biāo)特征與被檢索圖像的特征矩陣的每一個(gè)特征進(jìn)行相似性比對,得到相似值和匹配最優(yōu)位置.實(shí)驗(yàn)表明,本算法的檢索性能優(yōu)于現(xiàn)有算法.
全卷積網(wǎng)絡(luò);目標(biāo)檢索;特征矩陣;目標(biāo)定位;多比例變換
隨著大數(shù)據(jù)時(shí)代的到來,互聯(lián)網(wǎng)圖像資源數(shù)量迅猛增長,這種爆炸式的增長激發(fā)研究人員提出有效的基于內(nèi)容的圖像檢索系統(tǒng).近年來,深度學(xué)習(xí)在各種計(jì)算機(jī)視覺任務(wù)上都取得了重大突破.由于深度卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNNs)強(qiáng)大的非線性表示能力能夠理解圖像更深層次的信息,它在目標(biāo)檢測[1]、圖像分類[2-3]和圖像分割[4]等方面都表現(xiàn)出了良好的性能.將CNNs應(yīng)用于圖像檢索的算法主要是在預(yù)訓(xùn)練CNNs模型的基礎(chǔ)上,提取其中某一層的特征圖譜(feature map),對其進(jìn)行編碼而得到適用于檢索任務(wù)的圖像特征.目前,基于預(yù)訓(xùn)練CNNs模型的圖像檢索算法均是對圖像的整體表示算法,而無法有效完成目標(biāo)僅占被檢索圖像部分區(qū)域的檢索.
本算法主要解決目標(biāo)檢索問題,即給定查詢目標(biāo),從數(shù)據(jù)集中檢索出包含該目標(biāo)的圖像并定位到目標(biāo)區(qū)域.該算法具有非常廣泛的應(yīng)用前景,比如以圖搜圖、商品搜索、車輛搜索,以及用于視頻監(jiān)控的可疑目標(biāo)搜索.這種目標(biāo)檢索問題類似于目標(biāo)檢測算法,需要對圖像的多個(gè)位置進(jìn)行評估并確定這些位置是否包含目標(biāo),而在目標(biāo)檢測算法中,窮舉所有的目標(biāo)候選區(qū)域,已經(jīng)被端到端學(xué)習(xí)目標(biāo)的位置和類別的算法代替.但在樣本數(shù)據(jù)相對較少或者無樣本數(shù)據(jù)的情況下,無法進(jìn)行端到端的學(xué)習(xí).同時(shí),當(dāng)目標(biāo)區(qū)域只占被檢索圖像較小面積時(shí),圖像的整體特征表示算法無法應(yīng)用.本算法主要解決在這些情況下如何高效地檢索包含實(shí)例目標(biāo)的圖像并返回包含目標(biāo)的區(qū)域.一個(gè)簡單的思路是在不同尺度和比例的圖像上進(jìn)行窗口滑動(dòng),每個(gè)窗口與查詢目標(biāo)進(jìn)行比較,以找到包含查詢目標(biāo)的最優(yōu)位置,但這種方法需要計(jì)算每個(gè)滑動(dòng)窗口的視覺特征表示,而全卷積網(wǎng)絡(luò)提供了一種有效的特征表示方法,只需要一次前向全卷積,就可以得到多個(gè)滑動(dòng)窗口的特征表示.
基于預(yù)訓(xùn)練CNNs模型的特征表示已廣泛應(yīng)用于圖像檢索任務(wù).文獻(xiàn)[5]首先提出了將全連接層的特征用于圖像檢索.文獻(xiàn)[6]將圖像的不同子區(qū)域全連接層特征進(jìn)行組合表示,提高了檢索性能.文獻(xiàn)[7]指出相較于全連接層的輸出,卷積層的特征圖譜(feature map)更適用于圖像搜索.文獻(xiàn)[8]指出無序的編碼方法如VLAD,Fisher Vector的計(jì)算量通常比較大,提出了一種更加簡單且有效的編碼方法——Sum pooling,并通過實(shí)驗(yàn)論證了該編碼方法檢索效果最優(yōu).文獻(xiàn)[9]指出由于全局的CNN特征缺少幾何不變性,提出了MOP-CNN (multi-scale orderless pooling)算法,將CNN特征與無序的VLAD編碼方法相結(jié)合,相比于一般的CNN全局特征有更好的分類和搜索效果.文獻(xiàn)[10]提出了一種新的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)NetVLAD,將VLAD方法嵌入CNN網(wǎng)絡(luò),實(shí)現(xiàn)了端到端的學(xué)習(xí).文獻(xiàn)[11]考慮了特征的平移不變性和尺度不變性,提出了一種新的特征表示方法MAC和R-MAC特征表示,且通過實(shí)驗(yàn)證明R-MAC特征優(yōu)于MAC特征及Sum pooing方法.文獻(xiàn)[12]改進(jìn)了R-MAC算法,將R-MAC的特征表示方法進(jìn)行端到端的訓(xùn)練,得到相應(yīng)的圖像特征用于圖像檢索.以上這些算法均基于圖像的全局特征表示,適用于圖像的整體相似性檢索,而對于目標(biāo)僅占圖像部分區(qū)域的檢索問題,以上這些方法均無法得到較好的結(jié)果.
將目標(biāo)檢測的思想應(yīng)用于圖像檢索,對數(shù)據(jù)庫中的每張圖像首先利用目標(biāo)候選區(qū)域提取算法[13-15]提取可能的目標(biāo)區(qū)域,然后將這些目標(biāo)區(qū)域作為輸入圖像,利用預(yù)訓(xùn)練網(wǎng)絡(luò)提取目標(biāo)區(qū)域的CNN特征,最后計(jì)算每個(gè)目標(biāo)區(qū)域與查詢目標(biāo)的相似性值,將最大相似值作為查詢目標(biāo)與該圖像的相似性值.然而,這種算法雖然可以完成中小目標(biāo)的檢索問題,但是候選區(qū)域提取算法一般會(huì)提取1 000~2 000個(gè)目標(biāo)區(qū)域,然后對這些目標(biāo)區(qū)域分別提取CNN特征,這種算法會(huì)導(dǎo)致處理單張圖像的時(shí)間過長,檢索效率低.文獻(xiàn)[16]將Faster R-CNN的RPN得到的目標(biāo)區(qū)域及相應(yīng)的特征用于圖像檢索,若直接利用Fast R-CNN訓(xùn)練得到的RPN表示目標(biāo)區(qū)域,目標(biāo)區(qū)域定位效果不好會(huì)導(dǎo)致檢索正確率低,該算法比較適合利用樣本數(shù)據(jù)進(jìn)行有監(jiān)督的端到端微調(diào),不適用于無監(jiān)督的目標(biāo)區(qū)域特征表示.
全卷積網(wǎng)絡(luò)FCN(fully convolutional networks)作為一種新型的深度卷積架構(gòu),主要用于圖像分割[17]和目標(biāo)檢測[18-20].FCN有兩大明顯的優(yōu)點(diǎn):①可以接受任意大小的輸入圖像而不要求所有的訓(xùn)練圖像和測試圖像具有同樣的尺寸;②經(jīng)過一次卷積可以得到多個(gè)區(qū)域的特征,避免了分區(qū)域傳入CNN重復(fù)計(jì)算卷積的問題,故更加高效.給定查詢目標(biāo),需要在待檢索圖像上進(jìn)行窗口滑動(dòng),將每個(gè)窗口與查詢目標(biāo)進(jìn)行比較以得到包含查詢目標(biāo)的最優(yōu)位置,這需要計(jì)算每個(gè)窗口的特征表示.本算法利用FCN解決上述問題,經(jīng)過一次全卷積就可以得到多個(gè)窗口的特征表示.實(shí)驗(yàn)結(jié)果表明,基于FCN的目標(biāo)檢索算法的性能優(yōu)于以上方法.
為了解決中小目標(biāo)的檢索問題,提出了一種基于全卷積網(wǎng)絡(luò)的目標(biāo)檢索算法.首先,構(gòu)建全卷積神經(jīng)網(wǎng)絡(luò),對任意尺寸的圖像輸入該全卷積網(wǎng)絡(luò),得到該圖像的特征表示或者特征矩陣表示,特征矩陣的每一個(gè)位置對應(yīng)原圖像上的一個(gè)目標(biāo)區(qū)域.然后,給定查詢目標(biāo)圖像,利用全卷積神經(jīng)網(wǎng)絡(luò),得到目標(biāo)圖像的特征表示.為了檢索到不同大小的目標(biāo),對數(shù)據(jù)庫中的圖像進(jìn)行多尺度多比例變換,輸入全卷積神經(jīng)網(wǎng)絡(luò)得到多個(gè)特征矩陣.最后,將查詢目標(biāo)特征與數(shù)據(jù)庫圖像特征矩陣中每一個(gè)特征進(jìn)行相似性比對,得到匹配最優(yōu)位置及相似值.
2.1基于全卷積網(wǎng)絡(luò)的特征表示
本算法利用全卷積網(wǎng)絡(luò)對圖像進(jìn)行特征表示并用于目標(biāo)檢索.這里的全卷積網(wǎng)絡(luò)架構(gòu)如圖1所示.在訓(xùn)練階段,該模型接受的輸入為圖像及其相應(yīng)的標(biāo)簽信息.該模型主要包括兩個(gè)部分:①全卷積神經(jīng)網(wǎng)絡(luò),用于學(xué)習(xí)圖像的特征或特征矩陣表示,該網(wǎng)絡(luò)不包含全連接層; ②損失層,softmax分類損失.首先,輸入圖像通過全卷積網(wǎng)絡(luò)得到圖像的特征表示,然后進(jìn)入損失層,計(jì)算損失函數(shù)并優(yōu)化該損失函數(shù)學(xué)習(xí)得到模型參數(shù).
圖1 全卷積網(wǎng)絡(luò)框架Fig.1 The scheme of the FCN algorithm
表1 全卷積網(wǎng)絡(luò)配置Tab.1 The configurations of FCN
全卷積網(wǎng)絡(luò)用于學(xué)習(xí)圖像的特征表示,以AlexNet模型結(jié)構(gòu)為例,全卷積網(wǎng)絡(luò)的配置見表1.訓(xùn)練網(wǎng)絡(luò)時(shí),輸入圖像的大小為227×227.
全卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練完成后,給定輸入圖像,通過全卷積網(wǎng)絡(luò)可以得到圖像的特征向量或特征矩陣表示.對于實(shí)例目標(biāo)圖像,將圖像進(jìn)行縮放,使其大小與全卷積神經(jīng)網(wǎng)絡(luò)模型的輸入尺寸保持一致,然后輸入全卷積網(wǎng)絡(luò)得到目標(biāo)實(shí)例的特征向量.對于數(shù)據(jù)庫中的被檢索圖像,若其圖像尺寸小于全卷積神經(jīng)網(wǎng)絡(luò)模型的輸入尺寸,將圖像進(jìn)行縮放至與全卷積神經(jīng)網(wǎng)絡(luò)的輸入尺寸一致,然后輸入全卷積網(wǎng)絡(luò)得到被檢索圖像的特征向量;若其圖像尺寸大于等于全卷積網(wǎng)絡(luò)的輸入尺寸,則保持原圖像尺寸不變,且原圖像尺寸大于全卷積神經(jīng)網(wǎng)絡(luò)模型的輸入尺寸,則得到該輸入圖像的特征矩陣.特征矩陣每個(gè)位置上的特征是對原圖像上一個(gè)區(qū)域的描述,相鄰位置的特征對應(yīng)原圖像上相鄰的區(qū)域.以AlexNet模型為例,給定輸入圖像的尺寸為300×250,得到圖像特征矩陣的大小為4×2,即共8個(gè)區(qū)域的特征,每個(gè)區(qū)域?qū)?yīng)原圖的一個(gè)227×227區(qū)域,水平相鄰區(qū)域之間相差32個(gè)像素,垂直相鄰區(qū)域之間也相差32個(gè)像素,區(qū)域效果如圖2所示.
圖2 被檢索圖像的特征表示Fig.2 The feature representation for retrieval image
基于全卷積網(wǎng)絡(luò)得到的特征矩陣相當(dāng)于在原圖像上取一定大小的窗口(如227×227),然后按照一定的步長(如32像素)進(jìn)行窗口滑動(dòng).經(jīng)過一次前向卷積,就可以得到這些區(qū)域的特征表示.這種固定窗口大小、固定步長的窗口滑動(dòng),會(huì)導(dǎo)致可能沒有一個(gè)區(qū)域剛好覆蓋查詢目標(biāo),從而導(dǎo)致不能準(zhǔn)確檢索并定位到目標(biāo).例如在圖2中,得到的8個(gè)區(qū)域都不能剛好覆蓋籃球,即每個(gè)區(qū)域都包含了一部分背景.本算法對被檢索圖像進(jìn)行多尺度變換以檢索到不同大小的目標(biāo).圖像的尺度可以選擇s為5.0,2.0,3.0等,當(dāng)選擇s=2.0時(shí),圖像被放大至原來的2倍.在新的尺度下得到的區(qū)域窗口大小為227×227,相當(dāng)于原圖上區(qū)域窗口的大小為(227/s)×(227/s),如此可以根據(jù)目標(biāo)大小選擇合適的尺度使窗口剛好覆蓋檢索目標(biāo),從而能夠正確檢索定位到目標(biāo)區(qū)域.加上多尺度變換后,雖然可以檢索到不同大小的目標(biāo),但它的窗口區(qū)域只能是正方形區(qū)域,若目標(biāo)不是一個(gè)方形的,可能無法得到較好的檢索結(jié)果.針對這個(gè)問題,可以考慮對被檢索圖像進(jìn)行多比例變換,比例因子可以選擇,對圖像進(jìn)行變換后,在新比例下區(qū)域窗口大小為227×227,相當(dāng)于在原圖上區(qū)域窗口的大小為(227/s)×227,如此可以覆蓋縱向長的目標(biāo),類似地,對圖像進(jìn)行r=1∶2變換后,可以覆蓋橫向長的目標(biāo).
圖3 全卷積網(wǎng)絡(luò)的目標(biāo)檢索流程Fig.3 The flow chart of the object retrieval based on FCN
2.2目標(biāo)檢索
基于全卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢索流程如圖3所示.
在離線階段,對數(shù)據(jù)庫中每張圖像進(jìn)行多尺度、多比例縮放,然后輸入全卷積神經(jīng)網(wǎng)絡(luò),得到每張圖像在每個(gè)尺度與比例上的特征矩陣.為了在數(shù)據(jù)庫中檢索到不同大小的目標(biāo),對圖像進(jìn)行多尺度變換,圖像尺度可以選擇s=0.5,1.0,1.5,2.0,2.5,3.0.為了在數(shù)據(jù)庫中檢索到不同形狀比例的目標(biāo),在每個(gè)尺度上進(jìn)行多比例變換,可以選擇3個(gè)長寬比例因子r=1∶1,1∶2,2∶1.將圖像在每個(gè)尺度s上按照比例因子r縮放后,直接輸入全卷積網(wǎng)絡(luò),卷積層conv7的特征矩陣為該尺度比例下的特征描述,特征矩陣中的每一個(gè)位置對應(yīng)輸入圖像一個(gè)區(qū)域的特征描述.
在線檢索階段,給定待檢索圖像,將圖像進(jìn)行縮放,使其大小與全卷積神經(jīng)網(wǎng)絡(luò)模型的輸入尺寸保持一致,得到圖像的特征向量表示.給定數(shù)據(jù)庫中圖像在每個(gè)尺度與比例下的特征矩陣,將待檢索圖像的特征與該特征矩陣中每個(gè)位置的特征進(jìn)行余弦距離計(jì)算,將距離的最大值作為該尺度上與待檢索圖像最匹配值,將每個(gè)尺度、每個(gè)比例下與待檢索圖像最匹配值的最大值作為該圖像與待檢索圖像的相似值,并保存相應(yīng)的最匹配區(qū)域.然后,將相似值按照降序排列,得到與待檢索圖像最相似的TopN圖像列表及其最優(yōu)匹配位置.
3.1實(shí)驗(yàn)設(shè)置
為驗(yàn)證本算法的有效性,在Oxford5K[21]數(shù)據(jù)集上對本算法進(jìn)行了評估.Oxford5數(shù)據(jù)集包括5 063幅圖像,其中55幅為標(biāo)準(zhǔn)的查詢圖像,每個(gè)目標(biāo)選取5幅圖像,涵蓋了牛津大學(xué)11處標(biāo)志性建筑.圖像庫共標(biāo)注為4種可能的標(biāo)簽,Good表示一幅包含清晰目標(biāo)或建筑的圖片,OK表示不少于目標(biāo)整體的25%部分可以清楚顯示,Bad表示沒有目標(biāo)建筑出現(xiàn),Junk表示不高于目標(biāo)整體25%的部分可以清楚顯現(xiàn)或者目標(biāo)遮擋、變形嚴(yán)重.將僅包含目標(biāo)的包圍盒區(qū)域作為查詢圖像.
將本算法的檢索性能與其他的圖像檢索方法比較,包括基于預(yù)訓(xùn)練CNN的整體特征表示方法Spoc,Mac,Rmac算法,基于Selective Search目標(biāo)檢測算法的SS+Fc7,以及基于Faster R-CNN特征表示的檢索算法,將該檢索算法記為Faster R-CNN.
Spoc,Mac,Rmac算法均采用預(yù)訓(xùn)練Alexnet的conv5層的特征;基于通用目標(biāo)檢測的算法SS+Fc7首先利用Selective Search算法得到目標(biāo)候選區(qū)域,然后輸入預(yù)訓(xùn)練Alexnet得到F7層的特征,用于表示目標(biāo)區(qū)域;基于Faster R-CNN的目標(biāo)檢索算法利用預(yù)訓(xùn)練的目標(biāo)檢測VGG-16得到RPN區(qū)域及每個(gè)區(qū)域的RPA特征.為了公平,本算法也采用Alexnet為基礎(chǔ)架構(gòu),在ImageNet數(shù)據(jù)集上訓(xùn)練全卷積網(wǎng)絡(luò),訓(xùn)練完成后,采用conv7層的特征表示每個(gè)區(qū)域.
為了評估圖像檢索性能并與已有方法比較,本算法采用查準(zhǔn)率均值(Mean Average Precision, MAP)對檢索性能進(jìn)行評估.AP(Average Precision)為查準(zhǔn)率-查全率曲線所包含的面積,相關(guān)的定義如下:
(1)
(2)
對于Oxford5K數(shù)據(jù)集,MAP為每組5幅查詢圖像AP的平均值.對于Logo數(shù)據(jù)集,在每個(gè)查詢目標(biāo)檢索出的Top 100圖像集上計(jì)算AP值.
3.2在標(biāo)準(zhǔn)數(shù)據(jù)集Oxford5K上分析檢索性能
為了驗(yàn)證本算法的有效性,將本算法與基于CNN編碼的整體特征表示方法Spoc,Mac,Rmac及基于目標(biāo)檢測的算法SS+Fc7,F(xiàn)aster R-CNN在Oxford5K數(shù)據(jù)庫上對全部11個(gè)查詢目標(biāo)的檢索準(zhǔn)確度進(jìn)行比較, MAP對比結(jié)果如表2所示.
表2 各算法在Oxford5k數(shù)據(jù)集上的MAP結(jié)果對比Tab.2 The MAP of different methods compared on Oxford5k
從表2可以看出,對于不同的查詢目標(biāo)而言,Spoc,Mac和RMac方法的MAP值相近且RMac方法略高于Spoc和Mac方法,因?yàn)檫@3種方法均是對圖像整體特征的算法,而RMac方法在不同尺度上對區(qū)域進(jìn)行劃分并分別對各區(qū)域進(jìn)行整體表示,得到了更好的特征表示.基于目標(biāo)檢測的算法SS+Fc7和Fast-RCNN與本算法的MAP值相近,而且比3種圖像的整體表示算法的MAP值高3%~5%,因?yàn)楹竺娴?種算法均對圖像進(jìn)行了區(qū)域劃分,分區(qū)域與查詢目標(biāo)進(jìn)行匹配,而不是將圖像作為整體與查詢目標(biāo)進(jìn)行匹配,故提高了目標(biāo)檢索的準(zhǔn)確度.
在Oxford5K數(shù)據(jù)集上,本算法與SS+Fc7算法、Faster R-CNN算法的MAP值相差不大,于是將這3種算法的查詢時(shí)間及區(qū)域定位效果進(jìn)行比較,表3給出了3種方法在處理數(shù)據(jù)庫中兩種不同規(guī)格圖像的平均耗時(shí)對比.從表3可以看出,F(xiàn)ast-RCNN算法耗時(shí)最短,SS+Fc7算法耗時(shí)最長,本算法耗時(shí)略高于Faster R-CNN算法.Sel+Fc7算法首先對圖像進(jìn)行劃分,得到可能包含目標(biāo)的區(qū)域,然后分別輸入卷積神經(jīng)網(wǎng)絡(luò)得到每個(gè)區(qū)域的特征表示,多次重復(fù)輸入卷積神經(jīng)網(wǎng)絡(luò)導(dǎo)致耗時(shí)較長;Faster R-CNN算法將目標(biāo)區(qū)域的獲得和區(qū)域特征的表示統(tǒng)一到一個(gè)框架中,只需要一次前向卷積網(wǎng)絡(luò)就可以得到多個(gè)區(qū)域的特征表示,提升了計(jì)算速度;本算法雖然也只需要一次前向全卷積網(wǎng)絡(luò)就可以得到多個(gè)區(qū)域的特征表示,但是為了適用于不同大小、不同形狀的目標(biāo),對圖像進(jìn)行了多尺度、多比例變換,從而導(dǎo)致其耗時(shí)略高于Faster R-CNN算法.
表3 3種方法的耗時(shí)對比Tab.3 The time consumption of processing images for the three methods s
圖4給出了基于目標(biāo)檢測的算法和本算法在Oxford5K數(shù)據(jù)庫上目標(biāo)檢索及區(qū)域定位結(jié)果的部分樣例.不難看出,本算法的區(qū)域定位效果最優(yōu),SS+Fc7算法的區(qū)域定位效果不好,因?yàn)樗媚繕?biāo)候選區(qū)域提取算法SS提取圖像中非限定類別的目標(biāo),而Oxford5K數(shù)據(jù)集上的查詢目標(biāo)只是整體目標(biāo)的一部分,不是獨(dú)立的目標(biāo);Fast-RCNN算法的區(qū)域定位效果也不好,因?yàn)樗苯永妙A(yù)訓(xùn)練的Fast-RCNN模型得到的RPN與預(yù)訓(xùn)練的目標(biāo)相關(guān),需要利用相關(guān)目標(biāo)數(shù)據(jù)進(jìn)行端到端的訓(xùn)練微調(diào),才能得到較好的目標(biāo)定位,文獻(xiàn)[16]也說明了該問題.
圖4 圖像檢索和目標(biāo)定位樣例(左邊:查詢目標(biāo)圖像;右邊:第1行為SS+Fc7算法定位結(jié)果,第2行為Faster R-CNN算法定位結(jié)果,第3行為本算法定位結(jié)果)Fig.4 Examples of image retrieval and object locations for query object
從在標(biāo)準(zhǔn)數(shù)據(jù)集Oxford5K上的實(shí)驗(yàn)對比可以看出,本算法與基于CNN圖像整體表示算法相比,更適合于目標(biāo)的檢索且能夠定位到目標(biāo)區(qū)域.與基于目標(biāo)檢測的檢索算法相比,耗時(shí)雖然略高于Fast-RCNN算法,但其MAP值與區(qū)域定位效果更優(yōu).
本研究提出了一種簡單有效的基于全卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢索方法,利用全卷積網(wǎng)絡(luò)對被檢索圖像進(jìn)行特征矩陣表示,經(jīng)過一次全卷積網(wǎng)絡(luò)就得到了多個(gè)區(qū)域的特征表示,并引入多尺度、多比例變換以檢索定位到不同大小的實(shí)例目標(biāo).實(shí)驗(yàn)表明,與基于CNN的圖像整體表示算法相比,本算法得到了較高的MAP值;與基于目標(biāo)檢測的算法相比,本算法的MAP值最高且得到了較優(yōu)的目標(biāo)定位.
[1] REN S,HE K,GIRSHICK R,et al.Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks[C]∥International Conference on Neural Information Processing Systems,Canada:NISP Foundation,2015:91-99.
[2] KRIZHEVSKY A,SUTSKEVER I,HINTON G E.Image Net Classification with Deep Convolutional Neural Networks[C]∥Advances in Neural Information Processing Systems,US:NISP Foundation,2012:1097-1105.
[3] SIMONYAN K,ZISSERMAN A.Very Deep Convolutional Networks for Large-Scale Image Recognition[EB/OL].(2014-09-04)[2015-04-10].http:∥arxiv.org/abs/1409.1556.
[4] LONG J,SHELHAMER E,DARRELL T.Fully Convolutional Networks for Semantic Segmentation[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,Boston:IEEE,2015:3431-3440.
[5] BABENKO A,SLESAREV A,CHIGORIN A,et al.Neural Codes for Image Retrieval[C]∥European Conference on Computer Vision,Zurich:IEEE,2014:584-599.
[6] SHARIF R A,AZIZPOUR H,SULLIVAN J,et al.CNN Features off-the-shelf:an Astounding Baseline for Recognition[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,Columbus:IEEE,2014:806-813.
[7] NG Y H,YANG F,DAVIS L S.Exploiting Local Features from Deep Networks for Image Retrieval[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,Boston:IEEE,2015:53-61.
[8] BABENKO A,LEMPITSKY V.Aggregating Local Deep Features for Image Retrieval[C]∥Proceedings of the IEEE International Conference on Computer Vision,Santiago:IEEE,2015:1269-1277.
[9] GONG Y,WANG L,GUO R,et al.Multi-scale Orderless Pooling of Deep Convolutional Activation Features[C]∥European Conference on Computer Vision,Zurich:IEEE,2014:392-407.
[10]ARANDJELOVI R,GRONAT P,TORII A,et al.NetVLAD:CNN Architecture for Weakly Supervised Place Recognition[C]∥ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,Las Vegas:IEEE,2016:5297-5307.
[11]TOLIAS G,SICRE R,JEGOU H.Particular Object Retrieval with Integral Max-pooling of CNN Activations[EB/OL].(2015-11-18)[2016-02-24].https:∥arxiv.org/abs/1511.05879.
[12]GORDO A,ALMAZAN J,RECAUD J,et al.Deep Image Retrieval:Learning Global Representations for Image Search[C]∥ European Conference on Computer Vision,Netherlands:IEEE,2016:241-257.
[13]UIJLINGS J,VANDESANDE K,GEVERS T,et al.Selective search for object recognition[J].International Journal of Computer Vision,2013,104(2):154-171.
[14]ZITNICK C L,DOLLAR P.Edge Boxes:Locating Object Proposals from Edges[C]∥ European Conference on Computer Vision,Zurich:IEEE,2014:391-405.
[15]CHENG M M,ZHANG Z,LIN W Y,et al.BING:Binarized Normed Gradients for Objectness Estimation at 300 fps[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,Columbus:IEEE,2014:3286-3293.
[16]SALVADOR A,GIROINIETO X,MARQUES F,et al.Faster R-CNN Features for Instance Search[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,Las Vegas:IEEE,2016:394-401.
[17]NOH H,HONG S,HAN B.Learning Deconvolution Network for Semantic Segmentation[C]∥Proceedings of the IEEE International Conference on Computer Vision,Santiago:IEEE,2015:1520-1528.
[18]FARFADE S S,SABERIAN M J,LI L J.Multi-view Face Detection Using Deep Convolutional Neural Networks[C]∥Proceedings of the 5th ACM on International Conference on Multimedia Retrieval,Brisbane:ACM,2015:643-650.
[19]HUANG L,YANG Y,DENG Y,et al.DenseBox:Unifying Landmark Localization with End to End Object Detection[EB/OL].(2015-03-25)[2016-11-18].https:∥arxiv.org/abs/1509.04874.
[20]DAI J,HE K,SUN J.Instance-aware Semantic Segmentation Via Multi-task Network Cascades[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,Las Vegas:IEEE,2016:3150-3158.
[21]PHILBIN J,CHUM O,ISARD M,et al.Object Retrieval with Large Vocabularies and Fast Spatial Matching[C]∥IEEE Computer Society Conference on Computer Vision and Pattern Recognition,Minneapolis:IEEE,2007:1-8.
Fullyconvolutionalnetworksforinstancesearch
SUNXiaofeng1,PENGTianqiang2
(1.CollegeofInternationalEducation,HenanUniversityofEngineering,Zhengzhou451191,China; 2.CollegeofComputerScience,HenanUniversityofEngineering,Zhengzhou451191,China)
Image representations derived from pre-trained Convolutional Neural Networks (CNNs) have become the new state of the art in the task of image retrieval. But these methods are all based on image global representations and can’t be applied to the retrieval of query objects which only the part area of the retrieved images is occupied. This work explores the suitability for instance search for small query objects which only occupy part area of the retrieved images using fully convolutional networks. First, we take advantage of the fully convolutional networks without the restriction of the size of input image,and given retrieved image,feature matrix representations are derived by fully convolutional networks. Second, given the query object, the feature can also be derived by the fully convolutional networks. Finally, the feature of query object is matched with each feature of the feature matrix of the retrieved image, and we can get the similarity and optimal matching location. We further investigate the suitability of the multi-scale, multi-ratio transformation for different size of instance object. Experimental results on the benchmark dataset Oxford5k show that our method outperforms other state-of-the-art methods.
fully convolutional networks; object retrieval; feature matrix; object location; multi-ratio transformation
TP391.4
A
1674-330X(2017)03-0065-07
2017-03-11
國家自然科學(xué)基金(61301232)
孫曉峰(1981-),女,黑龍江雙城人,講師,研究方向?yàn)橛?jì)算機(jī)應(yīng)用及工程建模.