方 帥, 金 忍, 于 磊, 劉永進(jìn)
(1. 合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院,安徽 合肥 230009;2. 光電控制技術(shù)重點(diǎn)實(shí)驗(yàn)室,河南 洛陽 471009)
一種基于RGBD圖像的似物性采樣算法
方帥1,2, 金忍1, 于磊1, 劉永進(jìn)2
(1. 合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院,安徽 合肥 230009;2. 光電控制技術(shù)重點(diǎn)實(shí)驗(yàn)室,河南 洛陽 471009)
近年來,圖像的似物性采樣研究成為一個熱門的研究領(lǐng)域。似物性采樣是提取一幅圖像中可能成為任意目標(biāo)的窗口,用于減少目標(biāo)識別的搜索窗口。但目前有關(guān)似物性采樣的研究都是基于RGB圖像的,本文基于RGBD圖像的似物性采樣算法,結(jié)合了目前RGB圖像似物性采樣最好的方法,并利用D圖的深度似物性特征,提出了基于貝葉斯框架的RGBD圖像的似物性采樣方法。在NYU Depth數(shù)據(jù)集上實(shí)驗(yàn)證明了這些似物性描述方法的結(jié)合要比單獨(dú)使用任一種描述結(jié)果更優(yōu)。最后,與目前流行的基于RGB圖像的似物性采樣方法進(jìn)行了對比實(shí)驗(yàn),證明了深度圖的加入可以更好的優(yōu)化似物性采樣的結(jié)果。
似物性采樣;RGBD;目標(biāo)檢測;目標(biāo)識別
在目標(biāo)檢測和識別過程中,一些經(jīng)典的方法通常采用滑動窗口搜索算法[1-3],多尺度地滑動遍歷每一個窗口,對每個窗口都進(jìn)行一次檢測識別。這不僅需要耗費(fèi)大量的計(jì)算力(至少都在十萬窗口以上),而且還存在窗口精度的缺失(如步長和尺度不合適)。文獻(xiàn)[4]提出高效子窗口搜索算法,但需要已知類別模型。Alexe等[5]首先提出似物性采樣算法來定義圖像中可能是任意目標(biāo)的窗口,可顯著的減少搜索窗口[1-3],提高目標(biāo)檢測和識別的時間效率。似物性采樣算法在窗口評價上沒有類別模型的限制,如果已知類別分類器,則可以減少負(fù)樣本采樣窗口,用于弱監(jiān)督類別發(fā)現(xiàn)[6-7]、視頻目標(biāo)跟蹤、空間目標(biāo)學(xué)習(xí)[8]等。
目前有許多基于PASCAL VOC數(shù)據(jù)集的似物性采樣研究,最新的研究成果已經(jīng)在窗口覆蓋率為0.7時達(dá)到了87%的召回率,且單幅圖像的采樣只需要0.25 s。Alexe等[5]認(rèn)為一幅圖像中的目標(biāo)應(yīng)至少具有以下 3個特征之一:①有著良好的封閉輪廓;②和周圍區(qū)域有著不同的外貌特征;③在圖像中具有唯一性或顯著性?;谶@些特征定義了不同的似物性單元,在滑動搜索中通過這些單元優(yōu)化給出最終采樣窗口。Uijlings等[9]通過將圖像分割成許多小區(qū)域,并假設(shè)目標(biāo)和周圍區(qū)域的差異主要包括紋理、顏色、形狀、位置等,通過以上特征的區(qū)域相似度合并小區(qū)域從而得到不同的合并路徑,基于這些合并路徑進(jìn)行窗口采樣。Cheng等[10]基于人眼視覺的特點(diǎn),發(fā)現(xiàn)把目標(biāo)窗口采樣降到一個很小的尺度時會呈現(xiàn)一個近似的封閉輪廓,通過分類器訓(xùn)練得到模版,用CPU指令集進(jìn)行快速匹配,是目前最快的似物性采樣方法,但是卻損失了窗口覆蓋率。Zitnick和 Dollar[11]用一種快速結(jié)構(gòu)邊緣檢測算法檢測出圖像近似的結(jié)構(gòu)邊緣,并定義了目標(biāo)結(jié)構(gòu)邊緣似物性的規(guī)則,給采樣窗口打分并排序,以達(dá)到綜合精度、速度最好的結(jié)果。
近年來,RGBD傳感器慢慢進(jìn)入消費(fèi)領(lǐng)域,如微軟的Kinect、蘋果公司的PrimeSense、英特爾的RealSense、谷歌的Tango。RGBD傳感器使得人體姿勢估計(jì)[12-13]、本征圖像[14]、分割[15-16]、3D 建模[17-18]領(lǐng)域有了重大突破,有關(guān)RGBD圖像目標(biāo)識別的研究也逐漸熱門起來,Song和Xiao[19]提出了一種基于CAD模型訓(xùn)練的RGBD圖像目標(biāo)識別方法,但在預(yù)測階段也是采用了一種改進(jìn)的滑動窗口搜索算法。隨著 RGBD設(shè)備應(yīng)用的推廣,RGBD圖像似物性檢測有著巨大的需求。同時,深度線索的增加也將促進(jìn)似物性檢測的發(fā)展,能進(jìn)一步減少目標(biāo)識別的搜索窗口。
本文結(jié)合了在RGB圖像似物性采樣最好的方法[11],在RGBD圖像庫中對深度圖的似物性特征進(jìn)行提取,然后基于先驗(yàn)概率的模型將二者結(jié)合起來,在NYU Depth數(shù)據(jù)集上達(dá)到了很好的采樣效果。本文主要針對深度圖提出兩種似物性特征描述算子,有效發(fā)現(xiàn)深度圖上的似物性目標(biāo),利用RGB似物性特征和D似物性特性,實(shí)現(xiàn)基于貝葉斯模型的RGBD圖像似物性檢測,手動標(biāo)定了NYU Depth數(shù)據(jù)集中RGBD圖像的真實(shí)似物性目標(biāo)。
本文RGBD圖像的似物性采樣主要流程如下:①基于目標(biāo)結(jié)構(gòu)邊緣評分的方法[11]給出RGB圖像中似物性高分窗口,盡可能多的保留采樣窗口;②在這些窗口中,基于深度對照算子和深度變換對照算子計(jì)算窗口在深度圖上的得分,從而得到深度圖中的似物性高分窗口;③基于先驗(yàn)概率的貝葉斯框架,結(jié)合RGB和深度圖兩個特征的得分,給出窗口的最終評價標(biāo)準(zhǔn)。本文算法的整體框架如圖1所示。
圖1 基于RGBD的似物性采樣算法整體框架
1.1RGB圖像的似物性采樣
RGB似物性采樣主要依據(jù)圖像的結(jié)構(gòu)邊緣信息,假設(shè)一個好的窗口應(yīng)該正好包含一個封閉的結(jié)構(gòu)邊緣輪廓,通過窗口是否切斷結(jié)構(gòu)邊緣來給窗口評分,即:①定義窗口的邊緣得分,邊緣強(qiáng)度越大,目標(biāo)越顯著,其得分也越高,并對窗口內(nèi)邊緣得分進(jìn)行累加;②找到被窗口切斷的邊緣,按照邊緣的相關(guān)性,找出與切斷邊緣相關(guān)的邊緣,減少其得分;③滑動搜索每個窗口,得到似物性高分窗口的采樣。
利用一種基于學(xué)習(xí)的快速結(jié)構(gòu)邊緣檢測算法提取RGB圖像的結(jié)構(gòu)邊緣[20],定義邊緣圖中每一個像素p的邊緣權(quán)重為mp,邊緣方向?yàn)?θp。給定一個窗口b,對于其中每一個像素p∈b,要求mp>0.1,計(jì)算窗口邊界處的邊緣最大相關(guān)性。直接相連的邊緣有著較高的相關(guān)性;沒有直接相連的邊緣以及以較大曲率連接輪廓的邊緣,其相關(guān)性就較低了。為了加速計(jì)算的效率,首先把邊緣分為高相關(guān)性組,然后只計(jì)算組間的相關(guān)性。邊緣分組采用一種貪心算法在 8領(lǐng)域中尋找相似度最高的邊緣梯度方向,然后累加邊緣方向差異,在達(dá)到π/2的閾值后開始一個新的分組。最后,較小的分組將會合并到其相鄰的分組。
得到邊緣分組后,取出一個邊緣組 si∈S,計(jì)算兩個相鄰分組的相關(guān)性。如兩個分組 si和 sj的相似性依賴于平均位置 xi和xj,以及 θi和θj,則公式如下:
其中, θij是 xi和xj之間的夾角;γ是一個調(diào)節(jié)相似度敏感程度的閾值。
得到了邊緣分組以及其之間的相似性后,計(jì)算任意一個候選框b的得分。首先計(jì)算窗口內(nèi)邊緣強(qiáng)度之和,記作mi。然后為每個分組 si計(jì)算一個平均位置。
對于每一個分組si計(jì)算一個連續(xù)值,用來表示 si屬于窗口b的程度。定義 Sb為覆蓋窗口b邊界的邊緣分組,對于所有的si∈Sb和,wb(si)=0。剩下的邊緣組,用式(2)來計(jì)算wb(si):
如果沒有此種路徑存在,則定義wb(si)=1。式(2)找到了 si到邊緣的最高相關(guān)路徑并減去其權(quán)重,窗口得分為:
其中, bw和 bh是窗口的寬和長,用來懲罰大的窗口,不用面積來懲罰是防止出現(xiàn)過扁的窗口;K是一個系數(shù),本文取 1.5。最后,減去其子窗口的hb(bw/2,bh/2),因?yàn)檫@些得分對于似物性沒有貢獻(xiàn)。
1.2深度圖的似物性采樣
在深度圖中,本文提出兩種窗口似物性評分算子:深度對照算子和深度變化對照算子。圖 2(a)中紅色窗口中的目標(biāo)和周圍黃色區(qū)域有著深度的差異;圖2(b)中綠框的墻面背景和紅框中的目標(biāo)有著深度變化的差異。
圖2 深度對照和深度變化對照示例
1.2.1深度對照(depth contrast,DC)
深度對照主要是衡量一個窗口和其周圍區(qū)域的相似性。其周圍區(qū)域Surr(w,θDC)是以一個矩形框w在4個方向上以參數(shù) θDC擴(kuò)大的結(jié)果,所以有以下公式:
深度對照算子(DC)計(jì)算窗口和其周圍區(qū)域的深度直方圖h的卡方距離為:
深度對照能成為一個有效的似物性采樣單元,主要因?yàn)榇蟛糠帜繕?biāo)和背景有著深度上的差異,如在圖 2(a)中靠近座椅和桌子上的計(jì)算機(jī)等目標(biāo),與房間背景有著深度上的差異。與背景深度差異越明顯的目標(biāo),其在深度對照單元有著較高的得分。
1.2.2深度變化對照(gradient contrast,GC)
深度變化對照主要是衡量一個窗口和其周圍區(qū)域深度變化的相似性。和深度對照一樣,定義Surr(w,θGC)為窗口w的周圍區(qū)域。深度變化的計(jì)算,本文采用一種類似于快速SIFT特征計(jì)算里的方法[21],對深度圖的8個方向分別計(jì)算σ= 1的高斯微分,然后分別統(tǒng)計(jì)這8個方向的梯度直方圖,直方圖的大小為10維,最后得到了80維的深度變化特征。用卡方距離比較窗口和其周圍區(qū)域的深度變化直方圖 hg,則有:
深度變化對照能成為一個有效的似物性采樣單元,是因?yàn)樵谏疃染鶆蜃兓谋尘?如伸展的墻面)和其上的目標(biāo)有著深度變化的明顯差異。如圖2(b)中擋在墻面前的目標(biāo)和后面墻面有著明顯的深度變化差異。深度變化差異越大的目標(biāo),其在深度變化對照單元得分越高。
1.3深度圖似物性采樣的參數(shù)學(xué)習(xí)和計(jì)算加速
對于 θDC和 θGC的學(xué)習(xí),本文采用一種貝葉斯框架。以 θDC的學(xué)習(xí)為例,首先在一幅圖像中隨機(jī)選取100 000個窗口,覆蓋真實(shí)目標(biāo)的窗口記為正樣本W(wǎng)obj,其他的窗口則記為負(fù)樣本W(wǎng)bg。對于任意的θ,建立一個似然性模型,計(jì)算正樣本和負(fù)樣本。優(yōu)化θ*在分類目標(biāo)窗口和背景窗口時最大化目標(biāo)窗口的后驗(yàn)概率:
目標(biāo)和背景窗口的先驗(yàn)概率計(jì)算:
本文采用了積分圖來加速深度直方圖和深度變化直方圖的計(jì)算,對于直方圖的每一維計(jì)算并保存其積分圖:
在給定一個窗口w(x1,y1,x2,y2)后,直接通過式(9)得到直方圖每一維值:
在得到了RGB圖像和深度圖像的窗口似物性得分后,本文綜合考慮精度和計(jì)算效率,采用基于先驗(yàn)概率的樸素貝葉斯框架,最終給出 RGBD圖像的似物性目標(biāo)。
為了結(jié)合RGB的似物性采樣和深度圖的兩種似物性采樣,訓(xùn)練貝葉斯分類器來區(qū)分正負(fù)樣本。在一幅圖像中隨機(jī)提取100 000個采樣窗口,高覆蓋真實(shí)似物性窗口的設(shè)為正樣本W(wǎng)obj,其他設(shè)為負(fù)樣本W(wǎng)bg。
在樸素貝葉斯模型中,每個單元之間是相互獨(dú)立的,首先計(jì)算一些先驗(yàn)概率p(obj),p(bg),使用其出現(xiàn)的相對頻率。然后分別計(jì)算每個似物性單元的先驗(yàn)概率cue∈。在一幅測試圖像中,用式(10來計(jì)算窗口的目標(biāo)概率:{RGB,DC,GC}
實(shí)際中,對于一幅測試圖像,本文首先用RGB似物性采樣單元計(jì)算出10 000個采樣窗口,保證窗口的精度和目標(biāo)覆蓋度。然后計(jì)算出窗口的似物性得分,以此排序似物性目標(biāo)。
本文在NYU Depth Dataset[22]手動標(biāo)注了似物性目標(biāo)的真實(shí)值,并隨機(jī)選取了訓(xùn)練和測試圖像。在一個Intel core i5的處理器上,每幅RGB似物性采樣的耗時為 0.35 s,使用 3個單元的耗時為0.41 s(圖像分辨率為640×480)。
3.1不同的窗口數(shù)量極其精度
在得出了似物性采樣窗口及其窗口得分后,可以據(jù)此來排序,并根據(jù)應(yīng)用的需求選擇不同數(shù)量的采樣窗口。例如在識別項(xiàng)目中,應(yīng)盡可能多的選擇采樣窗口,保證識別的精度。在弱監(jiān)督類別發(fā)現(xiàn)的項(xiàng)目中,需要選擇少量的窗口,以保證目標(biāo)的似物性。在此,本文選擇了100、200、1 000窗口數(shù)量,進(jìn)行了實(shí)驗(yàn)(如圖3所示)。
表1為NYU Depth Dataset的整體實(shí)驗(yàn)數(shù)據(jù),分別列舉了 100、200、1 000采樣窗口,IoU為0.7(IoU參考文獻(xiàn)[11]),并同時統(tǒng)計(jì)了 Selective Search[9]、Rand. Prim's[23]、BING[10]、Edge boxes[11]在RGB圖像上的實(shí)驗(yàn)結(jié)果,作為對比實(shí)驗(yàn)。
圖3 不用數(shù)量的采樣窗口(青色窗口為真實(shí)目標(biāo),黃色窗口為似物性采樣目標(biāo))
表1 實(shí)驗(yàn)數(shù)據(jù)對比
與目前流行的基于RGB的似物性采樣方法對比,可以看出,深度信息的加入可以更好的優(yōu)化似物性采樣的結(jié)果。
3.2似物性采樣單元性能對比
本文采用了3個似物性采樣單元,其中包含兩個深度圖的似物性采樣單元和,Edge boxes[11]的RGB似物性單元,其相關(guān)性能統(tǒng)計(jì)如表2所示。3個似物性采樣單元的有效結(jié)合,對于召回率都有著顯著的提高。
表2 不同采樣單元組合的對比
本文提出一種基于RGBD圖像的似物性采樣方法,結(jié)合了目前RGB圖像似物性采樣最好的方法,并提出了2種基于深度圖的似物性采樣算子,用貝葉斯模型將其結(jié)合起來。在NYU Depth數(shù)據(jù)集上實(shí)驗(yàn)證明了這些方法的結(jié)合要比單獨(dú)使用任一種方法結(jié)果更優(yōu)。但是由于采用了簡單的基于先驗(yàn)概率的模型,對于深度信息的利用還不是很好。在后面的工作中會考慮更好模型以及更好的深度信息似物性采樣方法,獲得更優(yōu)的結(jié)果。
[1] Felzenszwalb P, Girshick R, McAllester D, et al. Object detection with discriminatively trained part based models [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(9): 1627-1645.
[2] Vedaldi A, Gulshan V, Varma V, et al. Multiple kernels for object detection [C]//International Conference on Computer Vision, 2009: 606-613.
[3] Harzallah H, Jurie F, Schmid C. Combining efficient object localization and image classification [C]// International Conference on Computer Vision, 2009: 237-244.
[4] Lampert C H, Blaschko M B, Hofmann T. Beyond sliding windows: object localization by efficient subwindow search [C]//Conference on Computer Visionand Pattern Recognition, 2008: 1897-1904.
[5] Alexe B, Deselaers T, Ferrari V. What is an object? [C]//Conference on Computer Vision and Pattern Recognition, 2010: 73-80.
[6] Khan I, Roth P M, Bischof H. Learning object detectors from weakly-labeled internet images [C]//OAGM Workshop, 2011: 53-61.
[7] Siva P, Tao X. Weakly supervised object detector learning with model drift detection [C]//International Conference on Computer Vision, 2011: 343-350.
[8] Prest A, Schmid C, Ferrari V. Weakly supervised learning of interactions between humans and objects [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(3): 601-614.
[9] Uijlings J R R, van de Sande K E A, Gevers T, et al. Selective search for object recognition [J]. International Journal of Computer Vision, 2013, 104(2): 154-171.
[10] Cheng M M, Zhang Z M, Lin W Y, et al. BING: binarized normed gradients for objectness estimation at 300fps [C]//Conference on Computer Vision and Pattern Recognition, 2014: 3286-3293.
[11] Zitnick C L, Dollar P. Edge boxes: locating object proposals from edges [C]//European Conference on Computer Vision, 2014: 391-405.
[12] Shotton J, Girshick R, Fitzgibbon A, et al. Efficient human pose estimation from single depth images [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(12): 2821-2840.
[13] Shotton J, Sharp T, Kipman A, et al. Real-time human pose recognition in parts from single depth images [J]. Communications of the ACM, 2013, 56(1): 116-124.
[14] Barron J T, Malik J. Intrinsic scene properties from a single RGB-D image [C]//Conference on Computer Vision and Pattern Recognition, 2013: 17-24.
[15] Silberman N, Hoiem D, Kohli P, et al. Indoor segmentation and support inference from rgbd images [C]//European Conference on Computer Vision, 2012: 746-760.
[16] Gupta S, Arbelaez P, Malik J. Perceptual organization and recognition of indoor scenes from RGB-D images [C]//Conference on Computer Vision and Pattern Recognition, 2013: 564-571.
[17] Izadi S, Kim D, Hilliges O, et al. Kinectfusion: real-time 3d reconstruction and interaction using a moving depth camera [C]//User Interface Software and Technology, 2011: 559-568.
[18] Li S R, Tao K L, Wang S Y, et al. 3D Reconstruction by kinect sensor: a brief review [J]. Computer-Aided Drafting, Desigh and Manufacturing, 2014, 1(1): 1-11.
[19] Song S R, Xiao J X. Sliding shapes for 3D object detection in depth images [C]//European Conference on Computer Vision, 2014: 634-651.
[20] Dollar P, Zitnick C L. Structured forests for fast edge detection [C]//International Conference on Computer Vision, 2013: 1841-1848.
[21] Liu C, Sharan L, Adelson E H, et al. Exploring features in a bayesian framework for material recognition [C]// Computer Vision and Pattern Recognition, 2010: 239-246.
[22] Silberman N, Fergus R. Indoor scene segmentation using a structured light sensor [C]//International Conference on Computer Vision, 2011: 601-608.
[23] Manen S, Guillaumin M, Van Gool L, et al. Prime object proposals with randomized prims algorithm [C]// International Conference on Computer Vision, 2013: 2536-2543.
Object Proposals from RGBD Images
Fang Shuai1,2,Jin Ren1,Yu Lei1,Liu Yongjin2
(1. College of Computer and Information, Hefei University of Technology, Hefei Anhui 230009, China; 2. Science and Technology on Electro-Optical Control Laboratory, Luoyang Henan 471009, China)
In recent years, object proposals has become a major research area. Object proposals define and train a measure of objectness generic over classes. But the current research about objectness is based on RGB image. We give a measure of objectness via RGBD images. It combines current state-of-the-art RGB objectness, and design two objectness cues based on depth image, then use a Bayesian framework to combine them. At NYU Depth dataset we demonstrate that the combined objectness measure performs better than any cue alone, and also outperforms traditional objectness based on RGB image. It′s proven that the addition of depth map can better optimize objectness.
object proposals; RGBD; object detection; object recognition
TP 391.4
A
2095-302X(2015)06-0931-06
2015-06-25;定稿日期:2015-07-21
國家自然科學(xué)基金資助項(xiàng)目(61175033,61075032);安徽省自然科學(xué)基金資助項(xiàng)目(1508085SMF222);光電控制技術(shù)重點(diǎn)實(shí)驗(yàn)室和航空科學(xué)基金聯(lián)合資助項(xiàng)目(201301P4007,201451P4007)
方帥(1978–),女,安徽壽縣人,教授,博士。主要研究方向?yàn)橛?jì)算機(jī)視覺、圖像復(fù)原。E-mail:fangshuai@163.com