馮 春,吳小鋒,尹飛鴻,楊名利
(常州工學院 機械與車輛工程學院,江蘇 常州 213002)
基于局部特征匹配的雙焦單目立體視覺深度估計
馮 春,吳小鋒,尹飛鴻,楊名利
(常州工學院 機械與車輛工程學院,江蘇 常州 213002)
針對基于雙焦單目立體視覺的圖像焦距變化和相似圖像誤匹配率高的問題,提出利用局部特征描述子結(jié)合“兩步匹配法”進行圖像匹配。將局部特征描述子引入基于雙焦單目立體視覺系統(tǒng)中進行圖像匹配。提出“兩步匹配法”獲取特征點集合,即交換小焦距與大焦距圖像匹配順序獲取兩個特征點集合,求交運算得到新的集合,并計算深度值。實驗結(jié)果表明,SSURF(Simplified Speed-Up Robust Feature)匹配速度最快,獲取的深度值與理想的深度值誤差較小,從而驗證了將局部特征用于雙焦單目立體視覺進行圖像匹配從而完成深度估計是可行的。
雙焦成像;圖像匹配;局部特征;深度估計;SSURF
視覺是智能機器人[1]的標志之一,計算機視覺技術(shù)獲得了廣泛的關(guān)注和深入的研究。單目立體視覺是計算機視覺新興的一個重要分支,它只需要一臺攝像機或其他圖像采集設(shè)備對場景進行拍攝,以獲取場景的圖像信息。當前國內(nèi)外所采用的單目立體視覺算法大致分為以下三種:基于對焦的算法、基于離焦的算法和基于變焦的算法。基于雙焦的單目立體視覺[2]通過在兩次不同焦距下對目標物體進行成像,在這兩種情況下均可獲得不同大小但清晰的像,依據(jù)目標物上特征點與其對應像點及兩次成像的焦距之間的幾何關(guān)系得到目標物的三維信息,它可以劃分到基于變焦的單目立體視覺算法范疇。圖像匹配[3-5]是指對拍攝于不同時間,不同傳感器或不同視角的同一場景的兩幅或多幅圖像進行匹配、融合的法則。有關(guān)研究人員對圖像匹配進行了大量的研究并在此基礎(chǔ)上提出了許多匹配算法,如基于比值、面積、相位相關(guān)等算法[6-7]。但是這些算法要求圖像之間的焦距不能發(fā)生變化,不能存在尺度縮放,旋轉(zhuǎn),變形不能太明顯,光照、仿射變換受到限制。隨著基于特征匹配算法的出現(xiàn),可以用于具有不同特征圖像及圖像間變形嚴重的情況,而引入的尺度空間的特征檢測算法可以魯棒地完成位移較大的圖像之間的精確特征檢測及圖像匹配。目前國內(nèi)外特征匹配算法中比較成功的是局部描述子SIFT算法(Scale Invariant Feature Transform,尺度不變特征)及其相關(guān)的改進算法PCA-SIFT、SURF、SSURF。這些算法具有較好的匹配效果,能穩(wěn)定地提取特征點,對于圖像間發(fā)生平移、焦距改變、光照變化等情況均具有良好的匹配精度和魯棒性。
文中在研究基于雙焦成像算法及其精度分析和各種圖像匹配算法的基礎(chǔ)上,考慮到基于雙焦單目立體視覺拍攝的圖像是在不同焦距下獲取的,圖像的尺度變化是首要考慮的因素,提出利用局部描述子作為基于雙焦成像立體視覺系統(tǒng)的圖像匹配的特征描述,并在不同焦距下獲取同一場景下的圖像進行相關(guān)的特征提取及匹配的實驗。提出利用“兩步法”解決相似圖像誤匹配率高的問題,并完成深度信息的估計。
1.1 雙焦成像算法原理
雙焦成像算法的基本原理[2,8-9]是利用空間物點深度與其在不同焦距下所成像的矢量位移與相應焦距大小之間的幾何關(guān)系,在兩幅變焦圖像中獲取相應的匹配點及像矢量大小,再結(jié)合給定的焦距值從而得到三維空間目標物的特征點的深度信息。
假定攝像機模型為理想的針孔透視變換模型,圖1為該方法的幾何模型。
圖1 雙焦成像幾何模型
由圖1可知,對于空間中某靜止物體,當物鏡前后移動時通過相機能夠在兩次不同焦距情況下在相同位置的像平面形成兩幅清晰像。取相機坐標系為參考坐標系,取在較小焦距情況下相機的透鏡中心為原點,同時取相機的透鏡主軸為z軸。圖1中,R表示空間物點距離攝像機主光軸的大小,Z為原點到物點所在平面的距離值,即深度。f1,f2分別代表較小焦距值和較大焦距值,r1,r2表示對應焦距下的像點向量(亦可描述為圖像主點到像點的向量)大小。在理想的條件下,可以將像點向量的起點看作是圖像的中心點。依據(jù)圖1所示幾何模型的關(guān)系可以推導出深度Z的計算式。
(1)
其中,Δr=r2-r1,a=(f2-f1)/f1。
由式(1)可知,當雙焦相機的焦距f1,f2已知時,深度Z可由ar1/Δr唯一確定。
1.2 雙焦單目測距精度
對處于同一平面的空間物點來說,Δr與R呈正比,那么空間物點距離圖像中心越近,則其相應的Δr越小并且ar1與Δr之差與R亦呈線性關(guān)系。由此可知,對位于中心附近區(qū)域的空間物點,其所對應的像矢量的精度要求較高,計算得到的深度信息會有較大的誤差;對處于邊緣的空間物點,其所對應的像矢量精度要求較低,計算得到的深度信息誤差較小,且越遠離中心,誤差越小。除上述物點與光軸距離對測距精度的影響以外,劉紅波等重點論述了以下3種影響測距精度的原因[10]:
(1)雙焦單目算法通過改變攝像機的焦距從而得到不同的圖像,故在不同的焦距下均需對攝像機完成標定操作。因此,頻繁進行攝像機標定其獲得的精度對雙焦單目測距的精度影響很大。
(2)像點徑向視差Δr越小,則要求透鏡系統(tǒng)對應的深度分辨率就越高,那么測距誤差就越大。對處于同一平面的空間物點,在焦距確定的條件下,徑向視差Δr與深度呈反比,故在標定圖像的主點坐標時較小的標定誤差給最終的深度估計帶來比較大的誤差。
(3)當相機在獲取不同焦距下的兩幅圖像時,若出現(xiàn)偏移或者旋轉(zhuǎn),則像矢量r1,r2會產(chǎn)生偏差,這同樣會影響測距精度。
綜上可知,圖像主點的標定誤差是影響雙焦測距精度的主要原因之一,文中主要研究如何消除主點標定誤差對測距精度的影響問題。文獻[10]采用目標面積不變性避免對圖像主點的標定。但是,該方法中目標圖像面積測量的精度對雙焦測距的精度影響較大。目標面積受到照度變化的影響,焦距的變化會改變圖像的照度。因此,該圖像主點消除算法具有一定的局限性。文中提出一種簡化的圖像主點消除方法,利用雙像點矢量取代目標面積,同樣實現(xiàn)避免頻繁標定主點的問題。
假定垂直光軸的平面空間內(nèi)存在至少2個物點M、N,在小焦距下成像對應的像點為M1、N1,在理想狀態(tài)下,在大焦距下成像對應的像點為M0、N0。若相機變焦過程中圖像中心在像平面的投影存在側(cè)向偏移d,M、N所對應的像點為M2、N2。
(2)
此時,用雙像點矢量代替主點坐標的計算,消除圖像主點坐標標定所造成的誤差。實際應用時,在平面空間必然存在多個物點,可以利用最小二乘法進一步提高測距的精度。
圖2 M、N兩物點的雙焦成像圖
1.3 單目立體視覺系統(tǒng)分析
對于單目立體視覺系統(tǒng)來說,一般包括如下幾個部分:采集圖像,攝像機定標,特征提取,立體匹配,深度獲取及深度內(nèi)插。每一個環(huán)節(jié)都有相應的難點,都必須進行深入的研究才能最終獲取精度較高的深度圖。下面就雙焦成像的運動模型作簡要的分析[2]:假定兩幅圖像中對應點的坐標分別為(X1,Y1)和(X0,Y0),則兩幅圖像中對應點有如下關(guān)系:
(3)
兩個方向的旋轉(zhuǎn)量和沿z軸的平移很小,因此可以將上述模型簡化為如下的二維運動模型[3]:
(4)
其中,S為相機的變焦系數(shù)比;θ為相對于z軸的旋轉(zhuǎn)角度;(Δx,Δy)為不同焦距下圖像的平移向量。
因此在兩幅圖像中獲得N對特征匹配點對,從而利用上述方程可以建立方程組,采用最小二乘法的優(yōu)化方法完成4個參數(shù)的求解,用以估計深度信息以及完成深度圖的恢復和3D場景的重建。
前文提到單目立體視覺一般包括幾個組成部分,其中圖像匹配是深度估計和最終3D重建的關(guān)鍵環(huán)節(jié)[11],匹配的精度和實時性至關(guān)重要。文中首先采用基于SIFT[12]及其改進算法PCA-SIFT[13]和SURF特征匹配的算法進行圖像匹配的研究。進一步,針對單目雙焦立體視覺系統(tǒng)的特點,給出一種簡化的SURF算子(Simplified Speed-Up Robust Feature)。SURF可以描述為兩個階段:第一階段包括基于興趣點圓形鄰域內(nèi)信息固定的方向迭代;第二階段為對應所選擇的方向構(gòu)建一個正方形區(qū)域,并且以此提取SURF描述子。文中提出一種簡化的SURF描述子,對于圖像旋轉(zhuǎn)并非保持不變但是適合于圖像并無旋轉(zhuǎn)的情況,具有比SURF更快的計算速度和更好的實用性。在SURF算法中,為了保持圖像之間的旋轉(zhuǎn)不變性,主要通過如下的方向分配步驟[14]:
為了保持旋轉(zhuǎn)不變,提取的興趣點支持可重復的方向。因此,在興趣點周圍半徑為6s的圓形鄰域內(nèi)(其中s是檢測興趣點的尺度),首先計算在x和y方向的哈爾小波響應,它由當前的尺度s進行計算。因此,高尺度對應大尺寸的小波??梢栽俅卫梅e分圖像加速濾波。選取小波的邊長為4s,完成任意尺度下x或者y方向響應的計算僅需6次運算。一旦小波的響應需要通過興趣點中心的高斯(σ=2.5s)進行計算和加權(quán),則可以利用一個空間向量表示響應。此空間的水平響應沿著橫坐標的方向而垂直響應則沿著縱坐標的方向。主方向是由一個覆蓋π/3角度的滑動方向窗口內(nèi)所有的響應和進行計算的,在該滑動窗口內(nèi)的水平和垂直的響應求和則產(chǎn)生一個新的向量。最長的向量即為興趣點的方向。滑動窗口的尺寸是一個參數(shù),它可以用實驗方法選取。小尺寸對應單一的主小波響應,大尺寸則在向量長度上產(chǎn)生極大值。它們均導致了在興趣區(qū)域的一個不穩(wěn)定的方向。該步驟可以保證圖像的旋轉(zhuǎn)不變性。
然而,單目雙焦視覺條件下的圖像近似為無旋轉(zhuǎn)變換的理想條件,故能將此步驟精簡以簡化SURF算法,從而改善算法的運算效率,增強算子的實用性[2]。
實驗所用攝像機采用CanonPowerShotA2000IS型彩色數(shù)碼照相機和三角架等。用于圖像處理的臺式機的硬件配置為:CPU主頻2.20GHz,內(nèi)存2G。軟件整體的開發(fā)環(huán)境采用VisualStudio2010和Matlab7.1,圖像處理軟件采用OpenCV2.4.3。文中利用文獻[2]相同的手動攝像圖片完成實驗,CCD尺寸為1/2.3英寸,CCD面積約為5.56mm×4.17mm,選取的大小標稱焦距值分別為6.4mm和14.72mm,最大光圈F3.2/5.9。由于數(shù)碼相機的標稱焦距與35mm膠片相機的焦距之間存在一個折算倍率,而且深度估計是基于35mm膠片相機得出的,所以在估算深度時應考慮折算倍率的修正。采集圖像的大小為640×480像素,所拍攝的空間背景為墻面上的雙插座,距離相機鏡頭距離約為0.5m。
實驗中的雙插座圖像具有良好的相似性,若僅利用小焦距圖像作為參考圖像,大焦距圖像作為待匹配圖像進行匹配,則圖像的匹配正確性難以保證。故文中提出“兩步匹配法”,首先選取圖像1(小焦距)作為參考圖像,以圖像2(大焦距)圖像作為待匹配圖像獲取匹配特征點集;然后交換參考圖像與待匹配圖像順序獲取匹配特征點集;最后取前兩次匹配特征點的交集作為最后的匹配特征點集。部分實驗結(jié)果如圖3和圖4所示,相關(guān)數(shù)據(jù)如表1和表2所示。
圖3 PCA-SIFT特征匹配結(jié)果圖
接著選取由SSURF算子檢測的特征點坐標,在基于雙焦單目立體視覺系統(tǒng)下進行深度的運算估計。在利用SSURF算子檢測的特征點進行深度估計過程中,匹配點對的正確率是需要考慮的重要因素。以SSURF算子為例,當以圖像1(小焦距)作為參考圖像,以圖像2(大焦距)作為待匹配圖像所得的5對匹配點中,有4對匹配正確,正確率為0.8;當以圖像2作為參考圖像,以圖像1作為待匹配圖像所得的11對匹配點中,有5對匹配正確,匹配正確率為0.45;取兩次匹配點的交集作為深度估計的特征點集合4對匹配正確,匹配的正確率為1。隨后選擇多組圖像做了同樣的實驗,取其中3組匹配結(jié)果(如表3所示),證明了取兩次匹配點的交集可以保證匹配的正確率,但是一般情況會減少相應的匹配點集合的元素個數(shù)。
圖4 SSURF特征匹配結(jié)果圖
匹配點對數(shù)目(匹配順序)SIFTPCA-SIFTSURFSSURF匹配點對數(shù)(圖1與圖2)26895匹配點對數(shù)(圖2與圖1)142911
表2 基于各種局部描述子圖像匹配時間 s
表3 “兩步匹配法”獲取圖像匹配點對數(shù)目及正確率
最后選取第一組實驗兩次圖像匹配獲取的特征點交集,進行單目立體視覺系統(tǒng)深度的估計,以驗證局部描述子在基于雙焦單目立體視覺系統(tǒng)匹配中的有效性。將上述特征點交集代入方程(4),并利用攝像機標定獲取的攝像機內(nèi)部參數(shù)求得5個特征點對的深度值分別為:0.469 3m,0.522 4m,0.488 1m,0.507 84m,0.459 87m??紤]到影響雙焦測距精度的因素眾多,大量實驗表明文中算法的測距精度與文獻[6]相比精度相當或者更優(yōu),各物點的深度值差別不大,基本符合目標物到相機的距離0.5m的設(shè)置條件。
雙焦成像測距算法是在兩個不同焦距下獲取圖像并進行特征點匹配,再利用幾何關(guān)系計算空間物點的距離。然而,變焦意味著頻繁標定圖像主點坐標。為了避免這個問題,文中提出采用雙像點矢量代替單像點矢量,從而消除了圖像主點標定極易產(chǎn)生誤差的問題,最終的實驗結(jié)果驗證了該算法的有效性。
由于實驗圖像的目標物插座具有很好的相似性,實驗發(fā)現(xiàn)各種局部描述子下均存在誤匹配率比較高的情況。為了提高局部特征匹配的正確率,文中提出“兩步匹配法”,即首先利用小焦距圖像作為參考圖像,大焦距圖像作為待匹配圖像進行匹配獲取匹配點集,再交換參考圖像與待匹配圖像進行交運算獲取最終匹配點集。由表3可知,此方法可保證較低的誤匹配率。
基于雙焦單目立體視覺是在不同焦距下采集兩幅圖像,兩者基本不發(fā)生旋轉(zhuǎn)變化,結(jié)合對幾種局部描述子匹配的速度和獲取匹配點的數(shù)目以及誤匹配率結(jié)果,綜合表1和表2可知,SSURF是所研究的幾種描述子中最適合雙焦單目立體視覺系統(tǒng)圖像匹配的算法。
采用“兩步匹配法”利用SSURF算法獲取特征點集合進行目標物的深度估計,獲取的特征點對交集求取的深度值基本符合理想深度值,能夠反映出空間物點的深度情況,為后續(xù)的深度圖恢復和3D重建做了很好的論證。
綜上可知,采用局部特征描述子可以有效地解決基于雙焦單目立體視覺系統(tǒng)圖像匹配問題,完成深度估計。此單目立體視覺系統(tǒng)在移動機器人視覺導航、工業(yè)機器人手眼協(xié)調(diào)、醫(yī)學圖像分析、國防設(shè)備等領(lǐng)域有著廣闊的應用前景,但是目前的單目立體視覺技術(shù)研究較少,同時仍有許多難題亟待解決,如何進一步提高局部特征匹配算法的實時性是接下來努力的方向。
[1] 熊有倫,丁 漢,劉恩滄.機器人學[M].北京:機械工業(yè)出版社,1993.
[2] 馮 春,吳洪濤,喬 兵,等.基于改進形狀上下文的雙焦圖像深度估計[J].電子科技大學學報,2013,42(2):266-271.
[3] 石鴻雁,趙麗紅.改進混沌優(yōu)化算法在圖像匹配中的應用[J].沈陽工業(yè)大學學報,2008,30(6):684-687.
[4] 賈世杰,王鵬翔,姜海洋,等.基于SIFT的圖像匹配算法[J].大連交通大學學報,2010,31(4):17-21.
[5] 何 靜.基于形狀的圖像匹配算法研究[D].西安:西安理工大學,2014.
[6] 楊理踐,李 響,高松巍.排水管道視覺檢測成像技術(shù)[J].沈陽工業(yè)大學學報,2010,32(2):177-181.
[7] 杜立嬋,覃團發(fā),黎相成.基于單目雙焦及SIFT特征匹配的深度估計方法[J].電視技術(shù),2013,37(9):19-22.
[8] 王 劍,王元慶.基于雙焦成像的單眼立體視覺算法[J].機器人,2007,29(1):41-44.
[9] 徐姝姝,王元慶,張兆揚.新的單目立體視覺的視差圖的獲得方法[J].計算機應用,2011,31(2):341-343.
[10] 劉紅波,趙勛杰,彭 翔.基于雙焦成像的測距技術(shù)研究[J].激光與紅外,2010,40(10):1136-1140.
[11]StrechaC,BronsteinAM,BronsteinMM,etal.Improvedmatchingwithsmallerdescriptors[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2012,34(1):66-78.
[12]LoweDG.Distinctiveimagefeaturesfromscale-invariantkeypoints[J].InternationalJournalofComputerVision,2004,60(2):91-110.
[13]YanKE,SukthankarR.Amoredistinctiverepresentationforlocalimagedescriptors[C]//ProceedingsofIEEEinternationalconferenceoncomputervisionandpatternrecognition.WashingtonDC,USA:IEEE,2004:504-513.
[14]BayH,TuytelaarsT,GoolLV.SURF:speededuprobustfeatures[C]//ProceedingsofAsianconferenceoncomputervision.[s.l.]:[s.n.],2006:918-927.
Depth Estimation for Bifocal Monocular Stereo Vision Based on LocalImage Feature Descriptors Matching
FENG Chun,WU Xiao-feng,YIN Fei-hong,YANG Ming-li
(College of Mechanical and Vehicular Engineering,Changzhou Institute of Technology,Changzhou 213002,China)
Focused on the issue of the focal length change of image based on the bifocal monocular stereo vision and the high rate of false matching of similar image,the use of local feature descriptors and ‘Two-step Matching Method’ for image matching is proposed.Local feature descriptors are used to complete the image feature matching in the monocular stereo vision system and compared with each other.‘Two-step matching method’ is used to obtain the set of feature points,and two sets of feature points are obtained by changing the order of two images,the small focal length one and the large focal length one,and then a new set can be got by an intersection operation between the above two point sets,thereby the depth estimation computation could be completed by the new set.Experimental results show that the SSURF has the fastest matching rate,and the depth value obtained by the above method is approximately equivalent to the ideal depth value,so it verifies that the local feature descriptors used for image matching based on bifocal monocular stereo vision to compute the depth estimation is feasible.
bifocal imaging;image matching;local feature;depth estimation;SSURF
2015-09-29
2016-02-25
時間:2016-08-23
江蘇省自然科學基金青年項目(BK20140252);江蘇省高校自然科學研究面上資助項目(14KJB510003);江蘇省教育廳自然科學基金資助項目(13KJD460003)
馮 春(1981-),男,博士,講師,研究方向為機器人視覺及其應用。
http://www.cnki.net/kcms/detail/61.1450.TP.20160823.1343.036.html
TP391
A
1673-629X(2016)10-0055-05
10.3969/j.issn.1673-629X.2016.10.012