趙信宇,朱曉蕊,余錦全
(哈爾濱工業(yè)大學(xué),深圳 518055)
距離信息在物體識(shí)別、路徑規(guī)劃以及場(chǎng)景復(fù)原上都有著重要應(yīng)用。人類可以輕易地判斷出障礙物距離我們有多遠(yuǎn),但是對(duì)于笨拙機(jī)器人來(lái)說(shuō),這個(gè)任務(wù)就變得相當(dāng)艱巨了。隨著機(jī)器人導(dǎo)航在機(jī)器人應(yīng)用領(lǐng)域里變得越來(lái)越重要,深度檢測(cè)自然成為了研究的重點(diǎn)。在機(jī)器視覺領(lǐng)域,深度檢測(cè)可以通過攝像頭或者其他圖像處理的方法,一般常用的是立體視覺法。但是立體視覺會(huì)受限與攝像頭基線之間距離,還會(huì)受到亮度噪聲的影響,利用多個(gè)攝像頭將會(huì)花費(fèi)更多的成本。因此,我們考慮用一個(gè)攝像頭來(lái)完成深度檢測(cè)的任務(wù)。
目前,相關(guān)的研究主要有Michels、Saxena以及Y.Ng等人利用監(jiān)督訓(xùn)練法估計(jì)一維深度信息,從而實(shí)現(xiàn)小車在高速下的自主避障[1];Guo Hong和Lu Yi等人通過單一攝像頭拍攝一系列目標(biāo)物圖像來(lái)估計(jì)物體深度信息[2];Gini和Marchi等人在已知室內(nèi)環(huán)境的條件下,利用單個(gè)攝像頭實(shí)現(xiàn)小車的自主運(yùn)動(dòng)[3]。本文主要通過模型參數(shù)的訓(xùn)練,從而提取出單幅圖像的三維深度信息圖。
人類天生具有判斷物體距離的能力,我們往往可以根據(jù)物體的紋理特征的變化、紋理梯度的變化、物體完整性以及物體的模糊程度來(lái)估計(jì)他們的距離。例如,在我們的視覺感知里,同一個(gè)物體在不同的距離具有不同的大小以及不同的紋理變化,在不同的距離同一物體的清晰度也將發(fā)生變化。同時(shí),我們?cè)谂袛辔矬w遠(yuǎn)近的時(shí)候還要參考周圍環(huán)境的影響,例如,如果只看到一幅圖像中某一藍(lán)色區(qū)域,那么我們將很難判斷這塊區(qū)域到底是天空、海洋還是某一藍(lán)色物體的一部分。因此,我們將圖像的紋理變化、紋理梯度以及模糊度作為特征提取出來(lái),并參考圖像全部信息來(lái)建立并訓(xùn)練模型。
首先,我們將圖像劃分成很多的小塊,對(duì)應(yīng)于每一小塊,它具有獨(dú)立的深度信息以及相關(guān)深度信息,我們要做的是提取與這些信息相關(guān)的圖像特征。將圖像轉(zhuǎn)換到Y(jié)CbCr的顏色空間里,其中Y代表亮度層,Cb和Cr為兩個(gè)顏色層,很多紋理信息都包含在其亮度層里。
為了提取獨(dú)立深度特征,我們應(yīng)用Laws'masks[4]作為濾波器去處理圖像的Y層,從而得到紋理能量作為紋理變化的特征,應(yīng)用邊緣檢測(cè)濾波器得到圖像紋理梯度變化特征,而模糊度主要體現(xiàn)在顏色層上,因此應(yīng)用平均值濾波器處理Cb&Cr層來(lái)得到模糊度特征。我們將17個(gè)濾波器函數(shù)(9個(gè)Laws'masks、6個(gè)邊緣檢測(cè)濾波器以及兩個(gè)顏色層)Fn(x,y),n=1,2…17作用于圖像,可以得到圖像的獨(dú)立深度特征為:
對(duì)于圖像中每一個(gè)小塊,它的深度信息不僅與自身特征有關(guān),還與周圍鄰域的特征有關(guān),為了便于研究,我們將圖像分層,不同層里相同大小的塊包含著不同的全局信息。因此我們?cè)谔崛∧骋粔K的獨(dú)立特征時(shí),應(yīng)包括在不同層下的該塊及其四個(gè)鄰域的獨(dú)立深度特征。
對(duì)應(yīng)于某一塊i,我們計(jì)算它的直方圖,并用17個(gè)濾波器函數(shù)處理,從而得到它的特征yi,這一特征用來(lái)表征不同位置深度信息的相關(guān)性。因此,我們用yij=yi-yj作為相鄰塊之間的相關(guān)深度特征。如圖1所示:
圖1 圖像分層及絕對(duì)深度特征、相關(guān)深度特征示意圖
關(guān)于馬爾科夫隨機(jī)場(chǎng)的詳細(xì)介紹請(qǐng)參考文獻(xiàn)[5]。
利用馬爾科夫隨機(jī)場(chǎng)模型區(qū)建立不同塊之間的深度關(guān)系,為了得到不同層之間的關(guān)系,我們定義di(s):s=1,2,3代表不同層中某一塊i的深度值,其中di(s+1)=(1/5)ΣjeNs(i)∪(i)dj(s),Nj(s)為塊i的四個(gè)鄰域,表示高一層的深度值由低層深度值加權(quán)平均得到。我們建立高斯-馬爾科夫模型如下:
其中M是最底層圖像劃分的塊數(shù);xi是每一塊所對(duì)應(yīng)的獨(dú)立深度特征;θ和σ是模型參數(shù),由于大多數(shù)物體為垂直狀態(tài)分布,因此我們僅對(duì)不同行求不同的參數(shù);Z是歸一化參數(shù)。其中θ可通過最小二乘法求得,式(2)中第一項(xiàng)為單一塊的絕對(duì)深度預(yù)測(cè),第二項(xiàng)通過相鄰塊之間的關(guān)系對(duì)第一項(xiàng)進(jìn)行修正。如果σ為一固定常數(shù),則對(duì)于不通圖像其修正項(xiàng)對(duì)結(jié)果的影響將變得不準(zhǔn)確。因此我們令
σ2
1r=vrxi、σ22rs=urs|yijs|,對(duì)不同的行求出不同的參數(shù),從而使得模型更為符合實(shí)際。參數(shù)訓(xùn)練之后,利用最大后驗(yàn)概率法,對(duì)新圖像求式(2)最大時(shí)對(duì)應(yīng)的即可[6]。
我們采用LMS111激光掃描儀,配合相機(jī)采集圖像及相關(guān)深度信息圖,這些數(shù)據(jù)主要用于模型參數(shù)的訓(xùn)練。其中LMS111最大測(cè)量距離為20米,水平掃描角度為270度,工作時(shí)每隔0.5度采集一個(gè)數(shù)據(jù),工作頻率為50HZ,平均誤差為30mm。由于LMS111只能采集二維信息,因此我們?cè)O(shè)計(jì)一套支架,使得LMS111掃描平面可以在豎直方向連續(xù)采集,從而實(shí)現(xiàn)三維信息采集。整個(gè)采集系統(tǒng)如圖2所示。
圖2 激光掃描儀采集系統(tǒng)
如圖2所示,1為相機(jī),用于拍攝圖片;2為1:720減速箱,手柄每轉(zhuǎn)一周將提供0.5度轉(zhuǎn)角;3為聯(lián)軸器,連接減速箱與LMS支架;4為L(zhǎng)MS支架,將轉(zhuǎn)動(dòng)軸與掃描平面重合;5為L(zhǎng)MS掃描儀;6為整體支架;7為限位卡槽,控制轉(zhuǎn)角在-60到60度之間;8為軸承。采集圖像及其相關(guān)深度圖如圖3所示:
圖3 實(shí)物圖及相關(guān)深度圖
新圖像測(cè)試結(jié)果如圖4所示:
圖4 室內(nèi)室外新圖像測(cè)試結(jié)果
上圖為相機(jī)采集圖片,中圖為實(shí)際深度信息圖,下圖為測(cè)試圖。
圖5 室內(nèi)場(chǎng)景實(shí)際平均誤差分布圖
表1 不同環(huán)境下的平均誤差
誤差是以log10為底,比如誤差為0.1328,是指100.1928=1.3577,實(shí)際誤差為35.77%
由圖5可以看出,有較多的點(diǎn)誤差分布在0.1461~0.1761之間。由于室內(nèi)物體一般比較規(guī)則,且距離較近,因此具有較好的預(yù)測(cè)結(jié)果,而室外環(huán)境比較復(fù)雜,特別是一些不規(guī)則的物體,將很大程度到影響測(cè)試結(jié)果。
通過提取圖像特征,在高斯-馬爾科夫隨機(jī)場(chǎng)模型的基礎(chǔ)上,利用LMS激光掃描儀系統(tǒng)采集的圖像作為訓(xùn)練數(shù)據(jù),訓(xùn)練模型參數(shù)并應(yīng)用于提取新圖像深度信息,結(jié)果表明,該方法可以實(shí)現(xiàn)單幅圖像深度信息的提取,且誤差主要分布在某個(gè)區(qū)域,這為我們進(jìn)一步改善該算法打下了基礎(chǔ)。
[1] J.Michels,A.Saxena,and A.Y.Ng.High Speed Obstacle Avoidance Using Monocular Vision and Reinforcement Learning.In ICML,2005.
[2] H.Guo and Y.Lu.Depth Detection of Targets in a Monocular Image Sequence.18th Digital Avionic Systems Conference,1999.
[3] G.Gini and A.Marchi.Indoor Robot Navigation with Single Camera Vision.In PRIS,2002.
[4] E.R.Davies.Laws' texture energy in TEXTURE.In Machine vision:Theory,Algorithms,Practicalities 3th edition.2005.Pg 756-779.
[5] Gerhard,Winkler.Image.Analysis,Random Fields and Dynamic Monte Carlo Methods:A Mathematical Introduction.Springer-Verlag,1995.
[6] Ashutosh Saxena,Sung H.Chung,and Andrew Y.Ng.Learning depth from single monocular images.In NIPS 18,2006.