張志柏,朱 敏,孫傳慶,牛 杰
(常州信息職業(yè)技術(shù)學院 電子與電氣工程學院,江蘇常州 213164)
?
基于類物體采樣方法的多類別物體識別
張志柏,朱 敏,孫傳慶,牛 杰
(常州信息職業(yè)技術(shù)學院 電子與電氣工程學院,江蘇常州 213164)
提出一種基于類物體區(qū)域檢測的BoW(Bag of Words)框架物體識別方法,采用改進的BING(Binarized Normed Gradients)算子檢測分割出圖像中的可能物體區(qū)域后,利用RootSIFT算子提取特征,送入后續(xù)BoW框架進行物體類別識別.將該方法應用于PASCAL VOC2007圖像集,試驗結(jié)果表明:相較于整幅圖像的特征計算,將特征提取與匹配限定在固定的可能物體區(qū)域的做法可以提高計算速度和識別效率.此外,該方法在VOC2007圖像集上達到了平均33.45%的識別準確率,優(yōu)于相關(guān)文獻算法.
類物體采樣; BoW模型; BING算子; 物體識別
目標物體識別一直是計算機視覺的重要課題.識別是跟蹤、計數(shù)、分類等應用的基礎(chǔ),在諸如人臉識別[1]、智能交通監(jiān)控[2]等領(lǐng)域有著較大的發(fā)展前景.
通常的目標識別方法都需要依賴圖像分割技術(shù),利用各種人工定義的分類器在一系列滑動窗口上進行特征匹配[3-5],此類方法往往計算量較大,因此出于實時性的考慮,后續(xù)的檢測系統(tǒng)一般會選擇弱特征及弱分類器以提升執(zhí)行效率.方法優(yōu)化的突破口主要集中在如何減少滑動窗口數(shù)量及提供分類器性能兩個方面[6-7].生物學研究[8]表明:人類在觀察場景時,第一步是檢測出視野中的所有可能物體,然后再去識別該物體的種類信息.受此啟發(fā),文獻[9]提出了類物體區(qū)域采樣的概念,它代表一個窗口包含物體可能性的大小.其算法設(shè)計思路主要是基于圖像中物體和背景各自的固有特征進行.物體對象性思想由于其可以減少圖像的搜索空間、加快處理速度等優(yōu)勢受到了很多研究的關(guān)注[10-11].
本文將類物體的思想引入到復雜場景下的物體識別應用中.首先利用類物體區(qū)域檢測算法標識出圖像中所有可能的物體區(qū)域;然后僅在上述標識區(qū)域中利用BoW模型進行物體類別判別;最后在公開圖像數(shù)據(jù)集上,與其他識別算法就執(zhí)行效率及準確性進行對比分析.試驗結(jié)果驗證了文中方法的有效性.
目標識別的通用框架是特征表述加分類器,利用滑動窗口技術(shù)設(shè)計固定或動態(tài)大小的窗口進行逐一匹配,這導致了識別算法的運算量較大,難以滿足實時判別的需求.
本文受文獻啟發(fā),將類物體采樣方法引入到多物體識別應用中.首先利用BING算法提取圖像中的可能物體區(qū)域;然后計算區(qū)域的SIFT類特征,并全部送入BoW模型進行判別[11].具體的算法流程結(jié)構(gòu)如圖1所示.
圖1 算法整體結(jié)構(gòu)框圖Fig.1 Block diagram of the overall structure
類物體概念的提出對于提升物體的識別應用有著積極意義.對于一幅N×N的圖像來說,傳統(tǒng)方法用到的滑動窗口可達N4的數(shù)量級之多.這樣對于檢測系統(tǒng)來說,為保障運行速度,只能選擇弱特征及弱分類器.若能快速識別出圖像中的可能物體區(qū)域,就可以在所有候選的窗口中過濾掉絕大部分,從而減少系統(tǒng)運算時間,甚至也可以采用性能更好的分類器,從而提升識別準確率.
文獻[11]提出一種BING算法來進行類物體區(qū)域的提取,其核心思想是在梯度空間圖上,無論物體是長的還是寬的,只要歸一化到一個相同的尺度上(8×8),物體與背景的梯度模式會十分有共性.這時用SVM(Support Vector Machine)分類器就能把物體和背景區(qū)分出來.算法最終在測試圖像集中達到了300 幀/s的速度,并且取得了良好的識別準確率.
本文在BING算法基礎(chǔ)上,加入圖像局部熵思想進行算法優(yōu)化.圖像熵是一種特征的統(tǒng)計形式,它反映了圖像中平均信息量的多少.一幅由直方圖表示圖片的內(nèi)容復雜度可以通過以下的熵值來進行體現(xiàn):
(1)
式中:Pv,Ri代表像素亮度V在區(qū)域Ri中的概率密度.一幅圖像不同區(qū)域的歸一化熵圖如圖2所示,可以看出物體和背景直方圖較為明顯的不同,其中圖像右側(cè)XY圖是圖像的局部統(tǒng)計直方圖,橫坐標是灰度值,縱坐標是歸一化的統(tǒng)計數(shù)值.通常物體所在區(qū)域的熵值會比較大,而背景則具有一致性的特點,因此可以引入圖像局部熵來優(yōu)化物體類別判別.文中修改了BING算法中對于窗口大小、分類器輸出分數(shù)以及最終窗口是否含有目標的模型.最終的類物體區(qū)域計算為
(2)
式中:01表示類物體區(qū)域的分數(shù);vi,ti分別是學習系數(shù)和偏置項;ΗRi是圖像熵值;α是圖像局部熵權(quán)重系數(shù),代表圖像局部熵所占權(quán)重大小,文中試驗取α=1.
圖2 物體和背景圖片局部熵對比Fig.2 Contrast of local entropy between the background and foreground region
近年來,BoW模型已被廣泛應用到現(xiàn)實的圖像分類中,取得了非常不錯的效果.模型的通常步驟可以分為特征提取、生成詞典、構(gòu)建歸一化直方圖三個步驟,其中特征算子常采用SIFT,SURF等尺度不變局部特征描述子.
常規(guī)的特征提取在整幅圖像上進行,僅僅單純利用匹配算法就可以直接在不同圖像上對這些特征進行匹配,以用于圖像的識別和分類.但是在整個圖像中提取特征進行匹配會消耗大量的計算資源,同時由于是從整幅圖像上進行考慮,因此對于真正需要識別的物體的特征的提取往往不夠細致.
本文在特征提取之前,首先利用BING方法進行可能目標區(qū)域的提取,然后直接在目標區(qū)域上進行特征提取,對于非目標區(qū)域不作考慮.特征提取示意圖如圖3所示.其中圖3(A)是原圖提取尺度不變特征示例,圖3(B~D)是類物體采樣方法后,進行特征提取的圖形.特征提取需要在不同尺度上進行計算,如果可以在圖像上將無關(guān)物體的背景區(qū)域移除,那么將減少大量的特征提取時間.同樣,在匹配階段,僅僅需要對于可能區(qū)域范圍進行識別,這將進一步節(jié)省時間,提高準確率.同時,類物體區(qū)域提取之后,我們還引入了圖像邊緣平滑操作以克服提取出的圖像邊緣強對比性對于結(jié)果的影響.文獻[12]提出一種利用極小數(shù)據(jù)空間來構(gòu)建特征的BRIEF算子,然而當圖像復雜時,算子性能下降明顯.另外,考慮到由于類物體采樣方法的引入,在保證實時性前提下,可以適當放寬圖像特征提取的運算時間,因此綜合考慮,本文采用一種RootSIFT算子[13]提取圖像特征.該算子利用Hellinger距離替代歐式距離以提供動態(tài)性能.
圖3 特征提取示意圖Fig.3 Block diagram of the feature extraction process
提取特征后,利用K-means方法進行聚類,根據(jù)碼本生成各物體圖像的直方圖,然后利用RBF(Radial Basis Function)SVM進行離線訓練,構(gòu)建待識別物體的支持向量機.
為了驗證文中算法性能,選擇公開的PASCAL VOC2007[14]數(shù)據(jù)庫圖像集進行測試.在其訓練集中共有9 963幅24 640個標注物體.圖像集總共包含人物、鳥類、貓、飛機、自行車等20類圖像.部分示例圖像如圖4所示.為了全面測試算法,我們從算法識別準確率、特征算子性能以及模型的泛化能力方面分別加以比較,所有試驗均在Inter i72.2 GHz處理器、8 G內(nèi)存的PC電腦上進行.
圖4 VOC2007圖像集示例Fig.4 VOC2007 example images
首先,對于BoW模型中特征算子的選擇,從快速性和準確性的角度出發(fā),對比了RootSIFT,SIFT以及BRIEF三類算子對于模型的影響.人工隨機挑選300幅自行車類別目標圖像進行測試,圖像中的物體標注圖像和隨機抽取的背景圖像用于模型訓練.表1為不同特征算子的模型識別準確率及特征運算時間對比結(jié)果.可以看出:RootSIFT特征取得了最高的41.6%的準確率;SIFT特征次之;BRIEF特征的準確率下降最為明顯,原因是類物體區(qū)域分割后依然存留著復雜背景信息.另一方面,BRIEF由于自身特性,運算時間僅為對比算子的1/40,因此對場景簡單、實時性要求高的場合具有一定的實用價值.
表1 不同特征算子的對比結(jié)果
其次,文中分別選取深度學習方法[15]、分層結(jié)構(gòu)學習方法[16]及DPM(Deformable Parts Model)[5]方法進行物體識別準確率指標比較.表2所示為這些方法的試驗對比結(jié)果.根據(jù)結(jié)果,在20類圖像中,本文方法有7類拿到最高的識別精度結(jié)果,平均準確率也達到了33.45%,處于領(lǐng)先水平.在所有方法中,本文方法使用常規(guī)的BoW模型框架,因此試驗結(jié)果充分驗證了引入類物體區(qū)域分割后對于識別結(jié)果性能提升的有效性.
表2 不同方法在VOC2007數(shù)據(jù)集上的準確率結(jié)果
此外,我們還對文中模型的泛化能力進行了測試.圖5所示BING_same和BING_different為訓練物體種類和測試物體種類相同和不同的情況.可以看出,在訓練好BING判別模型后,即使利用訓練集中未包含的物體類別進行測試,依然可以取得良好的識別效果.將該結(jié)果擴展到物體的識別應用中,當在類物體區(qū)域中未找到匹配時,可以認為發(fā)現(xiàn)新類別物體,進而利用特征點信息擴展訓練目標模型,從而提升算法的通用識別能力.
針對常規(guī)物體識別框架算法存在的問題,提出了一種基于類物體區(qū)域分割算法的BoW框架實時檢測方法.本文方法首先利用BING算子進行快速的類物體區(qū)域檢測,然后僅需要在可能的物體區(qū)域提取特征信息以供后續(xù)的BoW和SVM模型使用.將本文方法與同領(lǐng)域類似應用的先進算法在公開數(shù)據(jù)集上進行了算法比較,在保證實時性的前提下,本文算法的識別準確率能夠取得最優(yōu)的平均準確率.此外,文中框架的核心在于BING算法的準確性,雖然BING算子在數(shù)據(jù)集上可以達到300幀/s速度以及96.2%的準確率,但是其考量方式采用VOC的“檢測區(qū)域占真實面積比例大于50%”的標準顯得較為寬松,試驗中發(fā)現(xiàn)會出現(xiàn)類物體區(qū)域沒有包含全部物體的情況,未來的工作可以考慮加入諸如GIST[17]、V1S+[18]、顏色直方圖等特征,以進一步優(yōu)化BING算子及BoW模型性能.
圖5 BING2007圖像集示例Fig.5 BING2007 example images
[1] PARKHI O M,SIMONYAN K,VEDALDI A,et al.A compact and discriminative face track descriptor[C]//Proceedings of the Computer Vision and Pattern Recognition,Piscataway:IEEE,2014:1693-1700.
[2] HUANG S C,CHEN B H.Highly accurate moving object detection in variable bit rate video-based traffic monitoring systems[J].Neural Networks and Learning Systems,IEEE Transactions on,2013,24(12):1920-1931.
[3] FERNANDO B,FROMONT E,TUYTELAARS T.Effective use of frequent itemset mining for image classification[M].Berlin:Springer,2012:214-227.
[4] HEITZ G,KOLLER D.Learning spatial context:using stuff to find things[M].Berlin:Springer,2008:30-43.
[5] FELZENSZWALB P F,GIRSHICK R B,MCALLESTER D,et al.Object detection with discriminatively trained part-based models[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2010,32(9):1627-1645.
[6] UIJLINGS J R,VAN DE SANDE K E,GEVERS T,et al.Selective search for object recognition[J].International Journal of Computer Vision,2013,104(2):154-171.
[7] DOLL R P,APPEL R,BELONGIE S,et al.Fast feature pyramids for object detection[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2014,36(8):1532-1545.
[8] DESIMONE R,DUNCAN J.Neural mechanisms of selective visual attention[J].Annual Review of Neuroscience,1995,18(1):193-222.
[9] ALEXE B,DESELAERS T,FERRARI V.What is an object?[C]// Proceedings of the Computer Vision and Pattern Recognition,Piscataway:IEEE,2010:73-80.
[10] ALEXE B,DESELAERS T,FERRARI V.Measuring the objectness of image windows[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2012,34(11):2189-2202.
[11] CHENG M M,ZHANG Z,LIN W Y,et al.bING:Binarized normed gradients for objectness estimation at 300 fps[C]//Proceedings of the Computer Vision and Pattern Recognition,Piscataway:IEEE,2014:3286-3293.
[12] CALONDER M,LEPETIT V,STRECHA C,et al.Brief:binary robust independent elementary features[M].Computer Vision-ECCV 2010,Berlin:Springer,2010:778-92.
[13] ARANDJELOVIC R,ZISSERMAN A.Three things everyone should know to improve object retrieval[C]//Proceedings of the Computer Vision and Pattern Recognition,Piscataway:IEEE,2012:2911-2918.
[14] EWERINGHAM M,ESLAMI S M A,GOOL L V,et al.The Pascal,visual object classes challenge:a retrospective[J].International Journal of Computer Vision,2015,111(1):98-136.
[15] SZEGEDY C,TOSHEV A,ERHAN D.Deep neural networks for object detection[J].Advances in Neural Information Processing Systems,2013,26:2553-2561.
[16] ZHU L,CHEN Y,YUILLE A,et al.Latent hierarchical structural learning for object detection[C]//Proceedings of the Computer Vision and Pattern Recognition,Piscataway:IEEE,2010:1062-1069.
[17] OLIVA A,TORRALBA A.Modeling the shape of the scene:a holistic representation of the spatial envelope[J].International Journal of Computer Vision,2001,42(3):145-75.
[18] PINTO N,COX D D,DICARLO J J.Why is real-world visual object recognition hard?[J].PLoS Computational Biology,2008,4(1):27.
Objectness sampling based multiple-object recognition
ZHANG Zhibai, ZHU Min, SUN Chuanqing, NIU Jie
(School of Electrical and Electronic Engineering , Changzhou College of Information Technology , Changzhou 213164, Jiangsu, China)
In this study,an object recognition method for bag of words (BoW) framework is proposed via objectness measurement. Firstly,the object areas are detected and segmented using the improved binarized normed gradient (BING) operator.Then, the features are extracted by RootSIFT operator for object recognition.Finally,this method is employed for PASCAL VOC2007 image-set. Therefore,it is found from experimental results that,compared with the whole image feature computation,the computational speed and recognition efficiency are enhanced by feature extraction and matching limitation to possible object areas.In addition,the algorithm in this approach is proven better than those in other literatures with average recognition accuracy of 33.45% for VOC2007 image-set.
objectness measurement; BoW model; BING feature; object recognition
張志柏(1970-),男,副教授.E-mail:zhluluzh@yeah.net
TP 391.41
A
1672-5581(2017)01-0001-05