劉 冰 羅 熊 劉華平 孫富春
(1北京科技大學(xué)計(jì)算機(jī)與通信工程學(xué)院,北京 100083)
(2材料領(lǐng)域知識(shí)工程北京市重點(diǎn)實(shí)驗(yàn)室,北京 100083)
(3清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系,北京 100084)
移動(dòng)機(jī)器人的場(chǎng)景定位技術(shù)是輔助機(jī)器人進(jìn)行精確定位與導(dǎo)航的有效方法之一.該技術(shù)主要涉及基于場(chǎng)景圖像組的特征提取和基于場(chǎng)景理解的圖像組匹配兩方面的工作[1-3].因環(huán)境的差異,機(jī)器人活動(dòng)范圍可分為室內(nèi)環(huán)境和室外環(huán)境兩類(lèi).與室外環(huán)境相比,室內(nèi)環(huán)境更加結(jié)構(gòu)化,但是不同場(chǎng)景間的差異性程度更小,導(dǎo)致視覺(jué)場(chǎng)景匹配的難度加大.同時(shí),室內(nèi)同一場(chǎng)景的局部性因素,比如圖像序列中只有某單一對(duì)象的圖像,會(huì)造成較大的匹配誤差,導(dǎo)致定位的失敗[4].現(xiàn)有定位算法比較復(fù)雜,匹配和識(shí)別的準(zhǔn)確率不夠理想,同時(shí)提取的信息來(lái)源比較單一.本文針對(duì)室內(nèi)場(chǎng)景的復(fù)雜環(huán)境,基于特征融合技術(shù),結(jié)合深度圖像特征和光學(xué)圖像特征,設(shè)計(jì)了機(jī)器人場(chǎng)景定位的視覺(jué)匹配算法,并應(yīng)用于移動(dòng)機(jī)器人的實(shí)時(shí)場(chǎng)景定位實(shí)驗(yàn)系統(tǒng)中,取得了滿(mǎn)意的應(yīng)用效果.
本文提出的基于視覺(jué)光學(xué)與深度特征融合的場(chǎng)景匹配算法,首先對(duì)Kinect攝像機(jī)采集到的光學(xué)圖像與其相應(yīng)的深度圖像信息進(jìn)行預(yù)處理,均勻采樣后分別對(duì)其進(jìn)行尺度不變特征變換(scale invariant feature transform,SIFT)的特征提取,然后將兩組特征進(jìn)行特征融合,并利用局部線性編碼(locality-constrained linear coding,LLC)算法進(jìn)行特征編碼,最后應(yīng)用支持向量機(jī) (support vector machine,SVM)的線性分類(lèi)器(本文實(shí)驗(yàn)中采用的是liblinear線性分類(lèi)器),對(duì)場(chǎng)景圖像進(jìn)行分類(lèi)和匹配,得到場(chǎng)景定位信息.算法流程如圖1所示.
在深度圖像的獲取方面,使用的深度成像傳感器主要分為兩類(lèi):主動(dòng)式和被動(dòng)式.主動(dòng)式是指向目標(biāo)發(fā)射能量束,如激光、電磁波和超聲波等.被動(dòng)式是指?jìng)鞲衅骼弥車(chē)沫h(huán)境進(jìn)行成像,形成具有深度信息的圖像.由于外界環(huán)境對(duì)被動(dòng)式的傳感器影響極大,并且對(duì)測(cè)量裝置的精度要求較高,因此其應(yīng)用范圍的局限性很大,而主動(dòng)式的傳感器不存在這些限制的不利影響,得到了廣泛的應(yīng)用[5-7].這里設(shè)計(jì)的算法實(shí)現(xiàn)過(guò)程中,主要使用Kinect傳感器,此類(lèi)主動(dòng)式深度傳感器來(lái)進(jìn)行圖像采集.
圖1 算法流程
深度圖像特征提取的目的是,提取出場(chǎng)景的三維幾何特征,建立場(chǎng)景的空間立體模型,然后通過(guò)視覺(jué)匹配算法的處理,完成系統(tǒng)的高級(jí)任務(wù)要求.
本文中采用均勻采樣的方式,對(duì)空間深度圖像進(jìn)行SIFT特征提?。?],具體方法如下:
1)對(duì)深度圖像進(jìn)行滑動(dòng)窗口取樣.將深度圖像進(jìn)行空間網(wǎng)格劃分,實(shí)驗(yàn)中網(wǎng)格的尺寸為16×16像素,采樣時(shí),滑動(dòng)窗口尺寸也為16×16像素,步長(zhǎng)為8像素.由于圖像中深度信息在一定范圍內(nèi)取值,因此圖像上每個(gè)網(wǎng)格窗口實(shí)際上對(duì)應(yīng)了空間坐標(biāo)系下的一系列深度不同的窗口,此時(shí)提取特征的過(guò)程是面向空間層次的.光學(xué)圖像對(duì)應(yīng)的深度圖像層次性如圖2所示.
2)在每個(gè)窗口圖像中提取局部SIFT特征.將窗口劃分為16×16個(gè)子窗口,然后在每個(gè)4×4像素的圖像小窗口中進(jìn)行梯度直方圖統(tǒng)計(jì),得到一個(gè)8維的特征描述符向量,這樣共得到4×4個(gè)描述符,即4×4×8維向量.此時(shí),每個(gè)窗口中可以提取到一個(gè)128維的特征向量.
圖2 光學(xué)圖像對(duì)應(yīng)深度圖像層次演示
3)對(duì)窗口特征進(jìn)行拼接.將每個(gè)滑動(dòng)窗口中提取到的反映深度信息的SIFT特征進(jìn)行拼接,得到整個(gè)樣本圖像的SIFT深度特征.當(dāng)圖像共劃分為N個(gè)滑動(dòng)窗口 (N大于網(wǎng)格數(shù))時(shí),整個(gè)樣本的SIFT深度特征為一個(gè)N×128維的特征向量,此即樣本均勻采樣后的特征描述符.
通過(guò)上述特征提取過(guò)程,完成了對(duì)深度圖像樣本的特征提取,此時(shí)的SIFT局部特征不僅僅反映了局部窗口的特征,還帶有深度意義,能夠通過(guò)此信息盡可能地剔除場(chǎng)景中動(dòng)態(tài)物體的干擾.
本文針對(duì)室內(nèi)場(chǎng)景因干擾性和局部性強(qiáng)的特點(diǎn),而導(dǎo)致匹配和識(shí)別準(zhǔn)確率不高的問(wèn)題,這里考慮將光學(xué)圖像特征和深度圖像特征融合匹配,以指導(dǎo)場(chǎng)景的識(shí)別與定位.
在完成前述的RGB光學(xué)特征提取和Depth深度特征提取之后,基于多特征融合技術(shù),將特征描述符按照一定的權(quán)值(本文實(shí)驗(yàn)中采用1∶1的比例關(guān)系)拼接,將這2種視覺(jué)特征有效結(jié)合,有效地避免了單一特征對(duì)圖像匹配和分類(lèi)的局限性,增強(qiáng)了算法的準(zhǔn)確高效性.
本文采用LLC算法進(jìn)行特征編碼.LLC實(shí)際上是對(duì)傳統(tǒng)的基于BoF(bag-of-features)的稀疏編碼空間金字塔算法的升級(jí)和改進(jìn)[9].它將局部特征用最接近的k個(gè)詞匯進(jìn)行線性表達(dá),其編碼誤差較BoF的量化編碼更小;同時(shí),它使用“最大值合并”(max pooling)方法,對(duì)于合并向量的每一維,取所有“局部表達(dá)”向量在這一維度上的最大值,作為合并向量在該維度上的值,即
式中,Sni是第n個(gè)特征的LLC編碼的第i個(gè)分量.此后,LLC使用線性SVM中的liblinear線性分類(lèi)器進(jìn)行分類(lèi),能夠取得比傳統(tǒng)的空間金字塔方法更好的分類(lèi)效果.同時(shí),線性分類(lèi)器的分類(lèi)效率受到詞匯量增大的影響,遠(yuǎn)小于非線性分類(lèi)器.
LLC的局部約束編碼方法,首先對(duì)每個(gè)局部特征向量,采用k近鄰算法,在詞庫(kù)中找到k個(gè)和它最接近的詞匯.然后計(jì)算該局部特征向量由這k個(gè)詞匯線性表達(dá)的系數(shù),作為它的LLC編碼.它利用距離制約把每個(gè)描述符投影到一個(gè)局部坐標(biāo)系中,然后通過(guò)投影坐標(biāo)來(lái)生成特征向量.
訓(xùn)練集借助于liblinear線性分類(lèi)器得到分類(lèi)模型后,測(cè)試的圖像通過(guò)分類(lèi)模型,可計(jì)算估計(jì)出該圖像所屬場(chǎng)景類(lèi)別,即完成匹配過(guò)程.
Kyushu數(shù)據(jù)庫(kù)是在日本九州大學(xué)的多個(gè)不同建筑里,通過(guò)安置在高125 cm的移動(dòng)機(jī)器人平臺(tái)上的Kinect傳感器,采集的場(chǎng)景數(shù)據(jù)庫(kù)[10].該數(shù)據(jù)庫(kù)包括RGB圖像和深度圖像2部分,共有五類(lèi)場(chǎng)景,分別是走廊、廚房、實(shí)驗(yàn)室、辦公室和自習(xí)室.每類(lèi)場(chǎng)景的光學(xué)圖像和深度圖像都來(lái)自不同的場(chǎng)所,這就增加了場(chǎng)景定位的難度.
Kyushu數(shù)據(jù)庫(kù)的每個(gè)類(lèi)別各個(gè)場(chǎng)景的深度圖像和光學(xué)圖像的示例,如圖3(a)所示,其中的數(shù)字表示各個(gè)子場(chǎng)景的圖像數(shù)量.
對(duì)Kyushu數(shù)據(jù)庫(kù)的光學(xué)圖像和深度圖像,基于SIFT特征進(jìn)行LLC編碼,運(yùn)用三層空間金字塔結(jié)構(gòu),采用RGB-D特征融合算法,結(jié)合SVM線性分類(lèi)器,實(shí)現(xiàn)了對(duì)場(chǎng)景圖像的較為準(zhǔn)確的分類(lèi).通過(guò)與基于單一特征(如RGB光學(xué)特征或Depth深度特征)的LLC算法實(shí)驗(yàn)對(duì)比,可以明顯地看到,RGB-D特征融合算法在場(chǎng)景分類(lèi)方面具有顯著的優(yōu)勢(shì).
圖3 Kyushu數(shù)據(jù)庫(kù)實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)中隨機(jī)選取10組子場(chǎng)景圖像作為測(cè)試數(shù)據(jù),并將各組的實(shí)驗(yàn)結(jié)果 (即測(cè)試集的分類(lèi)準(zhǔn)確率)取平均值,得到場(chǎng)景的平均分類(lèi)準(zhǔn)確率,如圖3(b)所示.在基于SIFT的RGB-D特征融合算法下,得到了高達(dá)89.1762%的平均準(zhǔn)確率,充分驗(yàn)證了此算法的可行性與高效性.
將此算法應(yīng)用于機(jī)器人實(shí)時(shí)場(chǎng)景定位系統(tǒng).首先,通過(guò)微軟的Kinect攝像機(jī)和PowerBot機(jī)器人搭建的平臺(tái),在清華大學(xué)FIT樓中采集數(shù)據(jù),生成數(shù)據(jù)庫(kù),它涵蓋了大樓中的眾多場(chǎng)景(見(jiàn)圖4).然后,共選取了1113對(duì)同步的光學(xué)和深度圖像作為訓(xùn)練集,測(cè)試實(shí)時(shí)輸入的圖像.FIT數(shù)據(jù)庫(kù)包括車(chē)庫(kù)、走廊、討論區(qū)、實(shí)驗(yàn)室、會(huì)議室五大類(lèi)場(chǎng)景,訓(xùn)練集與實(shí)時(shí)系統(tǒng)的2次采集過(guò)程相互獨(dú)立,確保訓(xùn)練集與測(cè)試集的圖像互不重復(fù),以此保證了實(shí)驗(yàn)結(jié)果的真實(shí)有效性.
圖4 FIT數(shù)據(jù)庫(kù)
實(shí)時(shí)系統(tǒng)輸入圖像中,加入了大量人、物等動(dòng)態(tài)和靜態(tài)干擾因素,從而增加了場(chǎng)景匹配和分類(lèi)的難度,進(jìn)一步考驗(yàn)了算法的魯棒性和高效性.通過(guò)實(shí)時(shí)系統(tǒng)的實(shí)驗(yàn)結(jié)果記錄得到,當(dāng)k最近鄰參數(shù)為25時(shí),由SIFT特征融合的場(chǎng)景匹配算法最高可以獲得96.8421%的高準(zhǔn)確率.不過(guò),當(dāng)k最近鄰參數(shù)過(guò)大時(shí),特征編碼就失去了意義,這里將其設(shè)定為5,此時(shí),基于單一光學(xué)特征僅能得到91.5789%的分類(lèi)準(zhǔn)確率,基于單一深度特征則得到85.8647%的分類(lèi)準(zhǔn)確率,而基于本文提出的融合算法,可得到高達(dá)96.0801%的分類(lèi)準(zhǔn)確率,提高了4.8%,由此驗(yàn)證了算法較高的魯棒性和較強(qiáng)的穩(wěn)定性.實(shí)驗(yàn)結(jié)果的比較如圖5所示.
圖5 FIT數(shù)據(jù)庫(kù)實(shí)驗(yàn)結(jié)果
本文基于計(jì)算機(jī)圖像處理、圖像特征匹配、場(chǎng)景定位等相關(guān)理論基礎(chǔ),提出了基于視覺(jué)光學(xué)與深度特征融合的場(chǎng)景定位方法,并應(yīng)用于機(jī)器人實(shí)時(shí)場(chǎng)景定位系統(tǒng)中,實(shí)驗(yàn)結(jié)果表明,獲得了96.0801%的較高分類(lèi)準(zhǔn)確率,充分驗(yàn)證了基于SIFT融合特征的場(chǎng)景定位算法的高效性和可靠性.
References)
[1]Siagian C,Itti L.Biologically inspired mobile robot vision localization [J].IEEE Transactions on Robotics,2009,25(4):861-873.
[2]Choi B S,Lee J J.Sensor network based localization algorithm using fusion sensor-agent for indoor service robot[J].IEEE Transactions on Consumer Electronics,2010,56(3):1457-1465.
[3]Rebai K,Azouaoui O,Achour N.Bio-inspired visual memory for robot cognitive map building and scene recognition[C]//Proceedings of IEEE/RSJ International Conference on Intelligent Robots and Systems.Vilamoura,Portugal,2012:2985-2990.
[4]Zou Y,Chen W,Wu X,et al.Indoor localization and 3D scene reconstruction for mobile robots using the Microsoft Kinect sensor[C]//Proceedings of the 10th IEEE International Conference on Industrial Informatics.Beijing,China,2012:1182-1187.
[5]Maslyuk L L,Ignatenko A,Zhirkov A,et al.Depth image-based representation and compression for static and animated 3-D objects[J].IEEE Transactions on Circuits and Systems for Video Technology,2004,14(7):1032-1045.
[6]Kim S Y,Cho J H,Koschan A,et al.3D video generation and service based on a TOF depth sensor in MPEG-4 multimedia framework[J].IEEE Transactions on Consumer Electronics,2010,56(3):1730-1738.
[7]Park S Y,Kim S D.Efficient depth compression based on partial surface for 3-D object represented by layered depth image [J].IEEE Signal Processing Letters,2010,17(10):839-842.
[8]Lowe D G.Distinctive image features from scale-invariant key points[J].International Journal of Computer Vision,2004,60(2):91-110.
[9]Wang J,Yang J,Yu K,et al.Locality-constrained linear coding for image classification[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.San Francisco,USA,2010:3360-3367.
[10]Mozos O M,Mizutani H,Kurazume R,et al.Categorization of indoor places using the Kinect sensor[J].Sensors,2012,12(5):6695-6711.