亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        單目視覺里程計研究綜述

        2018-04-08 05:46:24祝朝政吳春曉
        計算機工程與應用 2018年7期
        關鍵詞:單目位姿魯棒性

        祝朝政,何 明,楊 晟,吳春曉,劉 斌

        ZHU Chaozheng1,HE Ming1,YANG Sheng2,WU Chunxiao1,LIU Bin1

        1.中國人民解放軍陸軍工程大學 指揮控制工程學院,南京 211117

        2.河海大學 計算機與信息學院,南京 211100

        1.College of Command Control Engineer,Army Engineering University,Nanjing 211117,China

        2.College of Information and Computer,HoHai University,Nanjing 211110,China

        1 引言

        移動機器人進入未知環(huán)境進行定位和導航是自主化的重要的一步,因為未知環(huán)境的復雜性,所以研究僅依靠機器人自身的傳感器構建實時地圖并進行定位具有重要意義[1-2]。視覺傳感器是機器人上常見的一類傳感器,具有精確度高,成本低,且數(shù)據(jù)信息豐富等特點,因此利用視覺傳感器來定位成為研究熱點。視覺里程計(Visual Odometry,VO)這一概念[3]由Nister提出,指通過機器視覺技術,分析相關圖像序列來實時估計移動機器人的位姿(位置和姿態(tài))過程,能克服傳統(tǒng)里程計的不足,更加精準進行定位,并且可以運行在全球定位系統(tǒng)(Global Position System,GPS)無法覆蓋或失效的環(huán)境中,例如室內(nèi)環(huán)境、星際探索[3-4]等。

        鑒于視覺里程計的特點和優(yōu)勢,VO在火星探測器上得到了成功應用[4],也在公共安全、虛擬現(xiàn)實(Virtual Reality,VR)[5]、增強現(xiàn)實(Augmented Reality,AR)[6]等領域凸顯出其重要的應用價值。

        1.1  視覺SLAM和VO的區(qū)別與聯(lián)系

        基于視覺的即時定位與地圖構建(visual Simultaneous Location and Mapping,vSLAM)[7]有兩種主流方法:濾波的方法,使用基于概率分布進行視覺信息融合[8];非濾波的方法,選取關鍵幀進行全局優(yōu)化[9-10]。具體關于這兩種方法的評估詳見[11-12]。

        表1 經(jīng)典的VO研究成果

        vSLAM和VO兩者的區(qū)別在于,后者僅關注局部軌跡的一致性,而前者關注的是全局機器人軌跡的一致性。理解什么時候產(chǎn)生回環(huán)和有效集成新的約束到當前地圖是視覺SLAM主要研究問題。VO目標是增量式重建軌跡,可能只優(yōu)化前n個路徑的位姿,即基于窗口的捆綁調(diào)整。這個滑動窗口優(yōu)化在SLAM中只能是建立一個局部地圖。

        vSLAM和VO兩者的聯(lián)系在于,后者可以視為前者中的一個模塊,能增量式重建相機的運動軌跡,所以有些學者在研究中,將vSLAM視為VO展開研究。

        如表1所示,自2007年并行跟蹤與建圖(Parallel Tracking and Mapping,PTAM)之后,由于發(fā)現(xiàn)了稀疏矩陣結構特殊性,后端研究都已經(jīng)從EKF轉換到優(yōu)化的方式。同時,最近幾年里,單目和雙目相機都取得顯著的進展[13-17],大部分已經(jīng)具備了大范圍、室外環(huán)境的能力。

        2 VO形式化描述

        在k時刻,剛性機器人上的相機采集環(huán)境中運動圖像。如果是單目VO,在k時刻采集到的圖像集表示為I0:n={I0,I1,…,In}。如果是雙目VO,每個時刻都會有左右圖像產(chǎn)生,表示為Il,0:n={Il,0,Il,1,…,Il,n}和Ir,0:n={Ir,0,Ir,1,…,Ir,n},如圖1所示。

        圖1 VO問題的圖例

        假設相機坐標就是機器人的坐標。在立體視覺系統(tǒng)中,一般左相機為原點。

        兩個相機位姿在臨近時刻k,k-1形成一個剛性變換Tk,k-1∈R4×4,記為:

        其中,Rk,k-1是旋轉矩陣,tk,k-1是平移矩陣。集合T1:n={T1,0,T2,1,…,Tn,n-1}包含所有運動序列。最后,相機位姿集C0:n={C0,C1,…,Cn}在k時刻初始坐標。當前位姿Cn能通過計算所有變換Tk(k=1,2,…,n)之間的聯(lián)系得到,因此,Cn=Cn-1Tn,C0是k=0時刻的相機位姿。

        VO的主要工作就是計算從圖像Ik到圖像Ik-1相關變換Tk,然后集成所有的變換恢復出相機的全部軌跡C0:n。這意味著VO是一個位姿接著一個位姿,增量式重建軌跡。一個迭代優(yōu)化基于前m位姿可以執(zhí)行,之后可得到一個更準確的局部軌跡估計。

        迭代優(yōu)化通過基于前m幀最小化三維點在局部地圖中的重投影誤差(基于窗口的捆綁調(diào)整,因為它在m幀窗口上執(zhí)行)。局部地圖空間中3D點的深度值通過三角測量法進行估計,所以可構造一個最優(yōu)化問題,調(diào)整R、t使得對于所有的特征點zj,誤差二范數(shù)累計最小,得到:

        這就是最小化重投影誤差問題。實際操作中,在調(diào)整每個Xj,使得更符合每一次觀測Zj,也就是每個誤差項都盡量小。由于此原因,也稱為捆綁調(diào)整(Bundle Adjustment)。捆綁調(diào)整優(yōu)化原理如圖2所示。

        圖2 捆綁調(diào)整優(yōu)化原理(C表示相機當前幀位姿,T表示兩個相機之間位姿的變換,m表示相機總幀數(shù))

        3VO方法研究進展

        在過去十多年里,大范圍場景的VO[22,31]取得了巨大的成功。從VO實現(xiàn)方法上來分,主要分為基于特征點法和基于直接法,也有人提出基于混合的半直接跟蹤的方法,即兩種方法混合使用。

        3.1 基于特征點的方法

        對于特征點法[3,6,16,18,23,32-33],Nister是最早開展實時單目大場景VO相關工作[3]。稀疏特征點法的VO是當前的主流方法[32,34],它的基本思路是對于每幀新的圖像Ik(在立體相機中是一對圖像),前兩步是檢測和匹配2D特征點,通過與之前幀進行對比匹配。二維特征點的重投影從不同圖像幀提取共同的3D特征點,這就是圖像對應關系(大部分VO實現(xiàn)的時候都假設相機已經(jīng)校準)。第三步是計算時刻k-1和k之間的相對運動Tk。根據(jù)對應關系是三維或二維,有三種不同的方法,包括2D-2D,對極約束、P3P、ICP[35-38]等解決這個問題。相機位姿Ck是根據(jù)之前位姿變換Tk得到。除此之外,為了實現(xiàn)迭代優(yōu)化(捆綁調(diào)整)獲得更精確的局部軌跡估計,必須基于前m幀的深度估計構建局部地圖。如圖3是基于特征點法的VO系統(tǒng)的流程圖。

        圖3 基于特征點法的VO系統(tǒng)主要流程圖

        同時,注意由于存在噪聲,錯誤的測量方法,以及對數(shù)據(jù)的錯誤假設等原因導致在特征匹配過程中會有一些匹配的局外點。即使在異常值的情況下,進行魯棒估計是確保精確的運動估計的任務。由于局外點的比較分散性質(zhì),會使用隨機采樣一致性(RANSAC)來挑選最優(yōu)匹配,而非最小二乘匹配算法。

        VO研究的主要問題是如何根據(jù)圖像來估計相機運動。通常情況下由于灰度值極易受到光照、形變等影響,不同圖像間變化可能非常大,因此僅憑灰度值是不夠的,所以需要對圖像提取特征點。根據(jù)維基百科關于特征(計算機視覺)的定義,在計算機視覺和圖像處理中,特征是一組與計算任務有關的信息,計算任務取決于具體的應用。特征也可能是一般鄰域操作或者特征檢測應用到圖像的結果。特征在圖像中可能擁有特殊結構,例如角點、邊緣,或者區(qū)塊物體[39]。不過,一般更容易找出兩幅圖像中出現(xiàn)同一個角點,同一邊緣則稍微困難些,同一區(qū)塊則是最為困難的。所以,一種直觀的特征提取方式就是辨認尋找不同圖像角點,確定它們的對應關系。在這種情況下,角點就是所謂的特征。

        然而在實際情況中,單純的角點依然不能滿足需求。因此研究人員設計了許多更加穩(wěn)定的局部圖像特征,如SIFT[40]、SUFT[41]等。雖然SIFT和SUFT充分考慮了圖像變換過程中的各種問題,但是也帶來了較大的計算量,一般來說很難實時在CPU上計算。不過近幾年來,諸如ORB[42]、BRISK[43]等一些易于計算的特征提取/描述算法的流行,逐漸替代了之前追蹤效果不好的Harris角點或計算復雜的SIFT/SUFT,成為VO的首選。

        ORB由于融合了FAST和BRIEF各自的優(yōu)勢,使得其在尺度、旋轉、亮度等方面具有良好的特性。同時,該組合也非常高效,使得ORB特征是目前實時性最好的方案[16]。一般來說特征都是由關鍵點和描述子組成。其中,F(xiàn)AST角點提?。篛RB為了在描述子中增加旋轉不變性,在原版的FAST[44]基礎上,增加了特征點的主方向。新BRIEF描述子:對前一步提取的關鍵點周圍像素區(qū)域進行描述,由于在角點提取的時候增加了主方向,所以相對于原始的BRIEF[45]描述子,ORB的描述子具有較好的旋轉不變性。

        本文主要針對特征點提取三種主要方法進行比較,分別是SIFT、SURF以及ORB,這三種方法在OpenCV里面都已實現(xiàn)。如表2所示。

        表2 不同特征之間性能比較

        基于特征點的實時VO早期較為成功的就是Klein等人提出的單目VO框架——PTAM[19]。雖然它的性能不是十分完善,但它提供了一個完整通用的框架,將整個里程計的實現(xiàn)分為前端、后端,分別包括跟蹤和建圖過程的并行化。目前多數(shù)的VO框架都是基于它實現(xiàn)的,包括目前最穩(wěn)定的第二代基于ORB的即時定位與地圖構建(Simultaneous Location and Mapping based on ORB,ORB-SLAM2)[16]。同時它也是第一個使用非線性優(yōu)化的系統(tǒng),在此之前的傳統(tǒng)VO都是基于濾波器[18]實現(xiàn)。不過,它也存在場景小,缺乏全局重定位功能,導致實用性較差。

        由于光流法也具備跟蹤特征點的特性,并且相對其他特征點匹配的方法可以節(jié)省部分計算量,所以也有人提出基于光流的特征點法[46-47],雖然可以大幅提高VO的速度,但是要求相機運動較緩或者幀率較高。

        現(xiàn)有研究中實用性最好的基于特征的VO方法是ORB-SLAM2[16],它提出了一個更為完整的VO框架,如圖4所示。包括跟蹤、建圖和回環(huán)檢測三個線程。其中,跟蹤線程主要負責對新一幀圖像提取ORB[42]特征點,并粗略估計相機位姿。建圖線程主要是基于Bundle Adjustment對局部空間中的特征點與相機位姿的優(yōu)化,求解誤差更小的位姿與特征點的空間位姿。而回環(huán)檢測線程負責實現(xiàn)基于關鍵幀的回環(huán)檢測,可以有效消除累計誤差,同時還可以進行全局重定位。同時它還兼容單目、雙目和RGB-D相機等模式,這使它具有良好的泛用性。

        對于初始化方面,作者提出了一種自動的初始化地圖策略,同時計算單應矩陣(假設一個平面場景)[31]和本質(zhì)矩陣(假設非平面的場景)[32],根據(jù)啟發(fā)式的準則判斷屬于對應情況來初始化位姿。這也是文獻[16]最大的貢獻。ORB-SLAM與PTAM計算優(yōu)勢除了選取的ORB特征更加高效之外,還取了上一幀能觀測的地圖點進行匹配,而不是直接使用所有地圖點來匹配新的幀。

        3.2 基于直接跟蹤的方法

        特征點法一直是長期以來比較經(jīng)典的方法,不過其魯棒性主要建立于特征點的描述上。一方面越是增強魯棒性,增加特征點描述的復雜性,越會導致算法復雜度的大幅提高;另一方面,特征點沒法應用在特征點較弱的場景,例如墻面、天空等。所以基于像素灰度不變性假設估計相機運動的直接法在近年發(fā)展迅猛[20-21]。直接法從光流[48]發(fā)展而來,能夠在不提特征(或不計算特征描述)的情況下,通過最小化光度誤差(特征點法中最小化特征點的重投影誤差),來估計相機運動和像素的空間位置。可以有效地解決特征點法所面臨的問題。總的來說,根據(jù)空間點P多少情況,直接法又分為三類:稀疏直接法、半稠密的直接法和稠密直接法。

        早期直接的VO方法很少基于跟蹤和建圖框架,多數(shù)都是人工選擇關鍵點[49-51]。直到RGB-D相機的出現(xiàn),研究人員發(fā)現(xiàn)直接法對RGB-D相機[26],進而對單目相機[21-22]都是非常有效的手段。近期出現(xiàn)的一些直接法都是直接使用圖像像素點的灰度信息和幾何信息來構造誤差函數(shù),通過圖優(yōu)化求解最小化代價函數(shù),從而得到最優(yōu)相機位姿,且處理大規(guī)模地圖問題用位姿圖表示[21,52]。為了構建半稠密的三維環(huán)境地圖,Engel等人[22]提出了大尺度的直接單目即時定位與地圖構建(Large-Scale Direct monocular Simultaneous Location and Mapping,LSD-SLAM)算法,相比之前的直接的VO方法,該方法在估計高精度相機位姿的同時能夠創(chuàng)建大規(guī)模的三維環(huán)境地圖。由于單目VO存在尺度不確定性和尺度漂移問題,地圖直接由關鍵幀直接的Sim(3)變換組成,能夠準確地檢測尺度漂移,并且整個系統(tǒng)可在CPU上實時運行。與ORB-SLAM2類似,LSD-SLAM也采用位姿圖優(yōu)化,因此能形成閉環(huán)回路和處理大尺度場景。系統(tǒng)為每個新加入的關鍵幀在已有關鍵幀集合(地圖)中選取距離最近的關鍵幀位置。LSD-SLAM主要流程圖如圖5所示。

        DSO[21](Direct Sparse Odometry,直接稀疏里程計)也是由LSD-SLAM的作者Engel提出的,該方法不僅從魯棒性、精準度還是計算速度都遠遠超過之前的ORBSLAM和LSD-SLAM等方法的效果。因為采用新的深度估計機制滑動窗口優(yōu)化代替原來的卡爾曼濾波方法,所以在精度上有了十足的提高。另外,與LSD-SLAM相比,DTAM[25]引入直接法計算基于單目相機的實時稠密地圖。相機的位姿使用深度圖直接匹配整個圖像得到。然而,從單目視覺中計算稠密深度需要大量的計算力,通常是使用GPU并行運算,例如開源的REMODE[53]。因此,也有不少研究人員在這方面做了一些平衡誕生了能達到更快計算速度的方法,例如文獻[54]和文獻[20]。

        圖4 ORB-SLAM2框架結構圖

        圖5 LSD-SLAM的模塊流程圖

        3.3 基于混合的半直接跟蹤的方法

        雖然基于直接跟蹤的方法已經(jīng)非常流行,但是低速以及沒法保證最優(yōu)性和一致性也是限制直接法的問題所在。因此有人在基于特征的方法和基于直接跟蹤的方法兩者各自優(yōu)點的基礎上,提出了一種混合的半直接方法即半直接視覺里程計(Semi-direct Visual Odometry,SVO)[20],雖然SVO依舊是依賴于特征一致性,但是它的思路主要是還是通過直接法來獲取位姿,因此避免了特征匹配和外圍點處理,極大地縮短了計算時間,算法速度非常快。在嵌入式無人機平臺(ARM Cortex A9 1.6 GHz CPU)上可以做到55 f/s,而在普通筆記本上(Intel i7 2.8 GHz CPU)上可以高達300 f/s。

        深度估計是構建局部點云地圖的核心,SVO也是采用概率模型建圖。不過跟LSD-SLAM等方法不同的是,SVO的深度濾波是采用高斯分布和均勻分布的混合模型[55],而LSD-SLAM是基于高斯分布模型。首先使用直接法求解位姿進行匹配,其次使用了經(jīng)典的Lucas-Kanade光流法[48]匹配得到子像素精度,然后結合點云地圖計算最小化重投影誤差進行優(yōu)化。如圖6所示。

        圖6 SVO的模塊流程圖

        整個過程相較于傳統(tǒng)的特征點法,只有選擇關鍵幀時需要依靠特征,并且去掉了匹配描述子的計算,以及使用RANSAC去除局外點的步驟,所以更加高效。同時它相比于直接法不是對整幅圖像進行直接匹配從而獲得相機位姿,而是通過在整幅圖像中提取的圖像塊來進行位姿的獲取,這樣能夠增強算法的魯棒性。SVO最大貢獻就是在巧妙設計了三次優(yōu)化的方法(優(yōu)化灰度誤差,優(yōu)化特征點預測位置,優(yōu)化重投影誤差)來滿足精度問題的同時,也保持較為優(yōu)秀的計算速度。另外,其代碼結構較為簡潔,非常適合深入研究學習。后來Forster又證明了該方法可以拓展到多目相機系統(tǒng)[56],跟蹤邊緣,包括運動的先驗知識,同時也支持多種相機,例如魚眼相機和透視相機。不過在半直接法方面的研究,除了Forster最新的研究[56]之外,目前還未出現(xiàn)其他有大影響力的論文。

        3.4 優(yōu)缺點分析

        特征點法一直是長期以來比較經(jīng)典的方法,不過其魯棒性主要建立于特征點的描述上,一方面越是增強魯棒性,增加特征點描述的復雜性,也會導致算法復雜度的大幅提高;另一方面,特征點沒法應用在特征點較弱的場景,例如墻面上。直接法是近幾年比較新穎的方法,它可以適應于特征不夠明顯的場景下,例如走廊或者光滑的墻面上[57],具有較強魯棒性。由于跳過了特征描述和匹配的步驟,直接法,尤其是稀疏直接法,往往能夠在極快的速度下運行。它也適用于那些需要構建半稠密或者稠密的地圖的需求場景,這是特征點法是無法實現(xiàn)的。但是直接法也存在非凸性、單個像素沒有區(qū)分度和灰度不變性假設性太牽強等問題,因此其研究和應用仍然沒有特征點法成熟,目前只適合于運動較小,圖像整體亮度變化不大的情形。

        雖然基于特征點的VO[16,23]更為主流,但是從慕尼黑大學TUM組公布的實驗結果來看,直接法的VO[20-22]在近幾年也取得很大的突破,其中基于稀疏的直接法[21]已經(jīng)比稀疏的特征點法[16]具有更快更好的效果。直接方法使用了圖像上的所有信息,甚至是像素梯度很小的區(qū)域,因此即使在場景紋理很差,失焦,運動模糊的情況下的性能也優(yōu)于基于特征的方法。根據(jù)文獻[21]對基于直接跟蹤的方法和基于特征的方法進行的噪聲實驗對比,基于直接跟蹤的方法對幾何噪聲較為敏感,例如卷簾快門相機等;而基于特征的方法對光學噪聲更為敏感,例如模糊等。因此,在普通手機設備上(一般為卷簾快門相機),基于特征的方法效果可能更好;而在基于全局快門相機的機器人中,基于直接跟蹤的方法可能越來越流行。

        基于混合的半直接跟蹤的方法[20],由Forster最早提出,具有速度快,適合于地圖不確定性的模型,同時不受運動模型假設的影響的優(yōu)點;然而由于跟蹤的特征比較少,有些情況下可能會丟失。作者不僅發(fā)布了驚艷的實驗測試視頻,并開源了其代碼框架。雖然其開源的代碼效果魯棒性不是很好,不過由于代碼規(guī)范性較好,依舊很適合初學者進行閱讀。為了更好地對比了解當前各個方法的進展情況,本文分別選取了當前基于特征的方法、基于直接跟蹤的方法、基于混合的半直接跟蹤的方法法中最具代表性的方法進行實驗測試,結果分別如圖7所示。

        圖7 三類VO方法實現(xiàn)效果對比

        4 VO主要發(fā)展趨勢及研究熱點

        目前下表中所列的國內(nèi)外學術科研機構,對VO展開了不同側重的研究,如表3所示。

        雖然VO問題研究本質(zhì)上是增量地計算相機位姿問題,為上層應用提供自身的一個位姿估計[3],但是如何進一步提高精度、效率、魯棒性等問題一直是研究人員不懈的追求。圍繞著上述三個問題,目前已經(jīng)形成探索新型傳感器、多傳感器數(shù)據(jù)融合、應用機器學習、探究新的緩解特征依賴和降低計算復雜度等幾個方面入手的研究熱點。

        表3 國內(nèi)外前沿機構的研究方向

        4.1 探索新型傳感器

        隨著2010年微軟推出RGB-D相機Kinect的興起,它具有能夠實時獲取深度圖的特性,能夠簡化大量的計算,也逐漸成為一種稠密三維重建系統(tǒng)的實現(xiàn)方式[7,24,26-28,30],但是一方面由于其有效距離較短,另一方面容易受到外界光源的干擾無法在室外場景中使用,限制了它沒法真正解決VO問題。文獻[58]提出基于事件相機的VO算法,并且基于擴展卡爾曼濾波器與無結構的測量模型,集成了IMU作為數(shù)據(jù)融合的補充,以精確得到6自由度相機的位姿。未來隨著新型傳感器的出現(xiàn),勢必會引發(fā)一陣新的熱點。

        4.2 多傳感器數(shù)據(jù)融合

        對于很多移動機器人來說,IMU和視覺都是必備的傳感器,它們可以數(shù)據(jù)融合互補,滿足移動機器人系統(tǒng)的魯棒性和定位精度的需求。單目攝像頭和慣導融合[8-10,31,59]也是一個近幾年比較流行的一個趨勢,蘋果公司在WWDC 2017大會上推出的ARKit,主要就是基于EKF對單目相機和慣導數(shù)據(jù)融合的思路實現(xiàn),為開發(fā)者做室內(nèi)定位提供良好的基礎平臺支撐。后來又有人提出了用優(yōu)化關鍵幀[60]方式對多目相機和慣導數(shù)據(jù)進行融合的思路[9]。數(shù)據(jù)融合分為緊耦合和松耦合。一方面,有時候為了限制計算復雜度,許多工作遵循松耦合的原則。文獻[31]集成IMU作為獨立姿態(tài)和相關偏航測量加入到視覺的非線性優(yōu)化問題。相反,文獻[61]使用視覺位姿估計維護一個間接IMU的EKF。類似的松耦合算法還有文獻[62]和[63],相機的位姿估計使用非線性優(yōu)化集到了因子圖,包括慣導和GPS數(shù)據(jù)。另一方面,由于松耦合方法本質(zhì)上是忽略了不同傳感器內(nèi)部之間的相關性,所以緊耦合方法是將相機和IMU數(shù)據(jù)合并,將所有狀態(tài)都聯(lián)合估計成一個共同問題,因此需要考慮它們之間的相關性。文獻[9]將兩類方法進行對比,實驗表明這些傳感器內(nèi)部的相關性對于高精度的視覺慣導系統(tǒng)(VINS)是非常關鍵的,所以高精度視覺慣導系統(tǒng)都是采用緊耦合來實現(xiàn)。

        有學者嘗試多傳感器的融合,首先是楊紹武提出的多相機傳感器的融合[64],還有雙目立體視覺與慣導、速度等數(shù)據(jù)融合[65],其次是Akshay提出的基于點云特征的GPS-Lidar融合算法,在3D城市建模過程中能有效地降低的位置測量誤差[66]。

        4.3 應用機器學習

        神經(jīng)網(wǎng)絡等機器學習方法近年來在眾多領域中引起了廣泛的學術轟動,VO領域也不例外,在匹配跟蹤部分,文獻[67]提出了一種數(shù)據(jù)驅動模型(即3DMatch),通過自監(jiān)督的特征學習從現(xiàn)有的RGB-D重建結果中獲得局部空間塊的描述子,進而建立局部3D數(shù)據(jù)之間的對應關系。對于優(yōu)化匹配誤差,傳統(tǒng)的RANSAC可能被一種新的Highway Network架構替代,它基于多級加權殘差的跳層連接(Multilevel Weighted Residual Shortcuts)的方式,計算每個可能視差值的匹配誤差,并利用復合損失函數(shù)進行訓練,支持圖像塊的多級比較。在精細化步驟中可用于更好地檢測異常點。文獻[68]針對這種新架構應用立體匹配基準數(shù)據(jù)集進行實驗,結果也表明匹配置信度遠遠優(yōu)于現(xiàn)有算法。

        單目VO缺乏尺度信息一直是研究人員最為關注的問題,近期有德國研究人員Keisuke等人針對低紋理區(qū)域等單目VO恢復尺度容易失敗的情況,提出一種將CNN預測的深度信息與單目直接計算的深度信息進行融合的方法,實驗表明,它解決了單目VO的一個尺度信息丟失問題[69]。

        2016年Muller提出了基于光流(直接法)和深度學習的VO[70],光流的幀作為CNN的輸入,計算旋轉和平移,順序增量式的旋轉和平移構建相機運動軌跡地圖。實驗證明該方法比現(xiàn)有的VO系統(tǒng)具有更高的實時性。

        4.4 探究新的緩解特征依賴

        VO對場景特征的依賴,本質(zhì)上是由于使用了過于底層的局部特征(點特征),因此目前出現(xiàn)了不少研究提出了利用邊、平面[71]等更為高層的圖像信息來緩解特征依賴。理論上由于邊可以攜帶方向、長短、灰度值等信息,所以具備更為魯棒的特性,基于邊的特征在室內(nèi)場景(規(guī)則物品較多)應具有更好的魯棒性。文獻[72]提出了一種結合點與邊緣優(yōu)點的單目VO算法。該算法不僅在TUM提供的單目公開數(shù)據(jù)集[21]中表現(xiàn)優(yōu)異,而且在低紋理的環(huán)境中,可以大幅降低運動估計誤差。文獻[6]主要應用了圖模型和圖匹配機制對平面物體進行跟蹤,并且設計一種解決最優(yōu)解尋找問題的新策略,該策略能預測物體姿態(tài)和關鍵點匹配。

        4.5 降低計算復雜度

        目前基于RGB-D相機的實時恢復稠密場景已經(jīng)較為完善[7,24,26-28,30],近年來,由于AR應用研究的爆發(fā),較早的開始研究為AR提供基礎技術支撐的是谷歌的Sch?ps等人,他們提出基于TSDF來融合深度圖在Project Tango上實現(xiàn)的三維重建方法[74],其主要計算復雜度在于半稠密或稠密重建所需計算的深度估計點太多。所以目前多數(shù)的優(yōu)化手段大多集中在優(yōu)化深度估計步驟,例如DTAM[25]引入正則項對深度圖進行全局優(yōu)化,降低錯誤匹配概率。REMODE[53]則采用了深度濾波模型,不斷優(yōu)化每幀的深度測量更新概率模型的參數(shù)。上述方法雖然都能實時重建出稠密的三維點云地圖,但大多還都依賴于GPU的并行加速運算。因此,如何提高計算效率,降低計算復雜度,只用CPU即可恢復出基于單目的半稠密或稠密三維點云地圖,仍是未來一個熱門課題。

        5 結論

        本文從VO與視覺SLAM的對比分析入手,對VO問題進行形式化。隨后重點探究實現(xiàn)VO的各類方法的研究進展,實驗對比分析各自優(yōu)劣。最后結合國內(nèi)外一流的科研機構在研方向,總結今后發(fā)展研究熱點。目前多數(shù)研究人員只關注白天等視野較好的理想場景,但是場景變化(白天黑夜、四季變化等)問題在實際室內(nèi)外場景中很常見,如何讓VO系統(tǒng)在這樣的環(huán)境下依舊實現(xiàn)高魯棒性應是科研人員一個重要研究內(nèi)容。此外,為了達到實時效果,VO的計算復雜度也不能太高。

        未來也可以在以下領域展開新的應用研究:在消防領域,消防人員可以對大型室內(nèi)火災救援現(xiàn)場進行定位,并實時繪制出運動軌跡幫助救災人員標記已經(jīng)搜救完成的地方,將搜救工作效率最大化;在反恐領域中,針對突發(fā)事件中對警犬的行為特征進行檢測分析,以便實現(xiàn)在復雜人群中通過警犬對突發(fā)事件實現(xiàn)前方預警。將VO應用到該場景中,對警犬的位姿進行準確的定位,進而以一種低成本的方式提供預警功能。

        參考文獻:

        [1]Durrantwhyte H,Bailey T.Simultaneous localization and mapping:Part I[J].IEEE Robotics&Automation Magazine,2006,13(3):108-117.

        [2]Durrantwhyte H,Bailey T.Simultaneous localization and mapping:Part II[J].IEEE Robotics&Automation Magazine,2006,13(3):108-117.

        [3]Nister D,Naroditsky O,Bergen J.Visual odometry[C]//Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2004:652-659.

        [4]Matthies L,Maimone M,Johnson A,et al.Computer vision on mars[J].International Journal of Computer Vision,2007,75(1):67-92.

        [5]Malleson C,Gilbert A,Trumble M,et al.Real-time fullbody motion capture from video and IMUs[C]//Proceedings of International Conference on 3D Vision,2017.

        [6]Wang T,Ling H.Gracker:A graph-based planar object tracker[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2017,99.

        [7]Endres F,Hess J,Sturm J,et al.3-D mapping with an RGB-D camera[J].IEEE Transactions on Robotics,2017,30(1):177-187.

        [8]Bloesch M,Omari S,Hutter M,et al.Robust visual inertial odometry using a direct EKF-based approach[C]//Proceedings of International Conference on Intelligent Robots and Systems,2015:298-304.

        [9]Leutenegger S,Lynen S,Bosse M,et al.Keyframe-based visual-inertial odometry using nonlinear optimization[J].International Journal of Robotics Research,2015,34(3):314-334.

        [10]Qin T,Li P,Shen S.VINS-Mono:A robust and versatile monocular visual-inertial state estimator[J].arXiv:1708.03852v1,2017.

        [11]Strasdat H,Montiel J M M,Davison A J.Visual SLAM:Why filter?[J].Image&Vision Computing,2012,30(2):65-77.

        [12]Strasdat H,Montiel J M M,Davison A J.Real-time monocular SLAM:Why filter?[C]//Proceedings of IEEE International Conference on Robotics and Automation,2010:2657-2664.

        [13]Handa A,Chli M,Strasdat H,et al.Scalable active matching[C]//Proceedings of IEEE International Conference on Computer Vision and Pattern Recognition,2010:1546-1553.

        [14]Civera J,Grasa O G,Davison A J,et al.1-Point RANSAC for extended Kalman filtering:Application to real-time structure from motion and visual odometry[J].Journal of Field Robotics,2010,27(5):609-631.

        [15]Mei C,Sibley G,Cummins M,et al.RSLAM:A system for large-scale mapping in constant-time using stereo[J].International Journal of Computer Vision,2011,94(2):198-214.

        [16]Mur-Artal R,Tardós J D.ORB-SLAM2:An open-source SLAM system for monocular,stereo,and RGB-D cameras[J].IEEE Transactions on Robotics,2016,33(5):1255-1262.

        [17]高翔.視覺SLAM十四講[M].北京:電子工業(yè)出版社,2017.

        [18]Davison A J,Reid I D,Molton N D,et al.MonoSLAM:Real-time single camera SLAM[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2007,29(6):1052.

        [19]Klein G,Murray D.Parallel tracking and mapping for small AR workspaces[C]//Proc of IEEE&ACM Int Sympo on Mixed&Augmented Reality,2007:1-10.

        [20]Forster C,Pizzoli M,Scaramuzza D.SVO:Fast semidirect monocular visual odometry[C]//Proceedings of IEEE International Conference on Robotics and Automation,2014:15-22.

        [21]Engel J,Koltun V,Cremers D.Direct sparse odometry[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2017,40(3):611-625.

        [22]Engel J,Sch?ps T,Cremers D.LSD-SLAM:Large-scale direct monocular SLAM[C]//Proceedings of European Conference on Computer Vision,2014:834-849.

        [23]Mur-Artal R,Montiel J M M,Tardós J D.ORB-SLAM:A versatile and accurate monocular SLAM system[J].IEEE Transactions on Robotics,2015,31(5):1147-1163.

        [24]Labbé M,Michaud F.Online global loop closure detection for large-scale multi-session graph-based SLAM[C]//Proceedings of International Conference on Intelligent Robots and Systems,2014:2661-2666.

        [25]Newcombe R A,Lovegrove S J,Davison A J.DTAM:Dense tracking and mapping in real-time[C]//Proceedings of IEEE International Conference on Computer Vision,2011:2320-2327.

        [26]Kerl C,Sturm J,Cremers D.Dense visual SLAM for RGB-D cameras[C]//Proceedings of International Conference on Intelligent Robots and Systems,2014:2100-2106.

        [27]Whelan T,Salas-Moreno R F,Glocker B,et al.Elastic-Fusion:Real-time dense SLAM and light source estimation[J].International Journal of Robotics Research,2016,35(14):1697-1716.

        [28]Whelan T,Leutenegger S,Moreno R S,et al.Elastic-Fusion:Dense SLAM without a pose graph[J].International Journal of Robotics Research,2016,35(14):1-9.

        [29]Bloesch M,Burri M,Omari S,et al.Iterated extended Kalman filter based visual-inertial odometry using direct photometric feedback[J].International Journal of Robotics Research,2017,36(10):1053-1072.

        [30]Izadi S,Kim D,Hilliges O,et al.KinectFusion:Real-time 3D reconstruction and interaction using a moving depth camera[C]//Proceedings of ACM Symposium on User Interface Software and Technology,Santa Barbara,CA,USA,2011:559-568.

        [31]Konolige K,Agrawal M,Solà J.Large-scale visual odometry for rough terrain[C]//Proceedings of International Symposium on Robotics Research,November 26-29,2011:201-212.

        [32]Quijada S D,Zalama E,García-Bermejo J G,et al.Fast 6D odometry based on visual features and depth[M]//Intelligent Autonomous Systems 12.Berlin Heidelberg:Springer,2013:5-16.

        [33]Tang C,Wang O,Tan P.GlobalSLAM:Initializationrobust Monocular Visual SLAM[J].arXiv:1708.04814v1,2017.

        [34]Scaramuzza D,F(xiàn)raundorfer F.Visual Odometry[Tutorial][J].IEEE Robotics&Automation Magazine,2011,18(4):80-92.

        [35]Hartley R I.In defense of the eight-point algorithm[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,1997,19(6):580-593.

        [36]Besl P J,Mckay N D.A method for registration of 3-D shapes[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1992,14(2):239-256.

        [37]Penate-Sanchez A,Andrade-Cetto J,Moreno-Noguer F.Exhaustive linearization for robust camera pose and focal length estimation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(10):2387-2400.

        [38]Lepetit V,Moreno-Noguer F,F(xiàn)ua P.EPnP:An accurateO(n) solution to the PnP problem[J].International Journal of Computer Vision,2009,81(2):155-166.

        [39]Wikipedia.Feature(computer vision)[EB/OL].(2016-07-09)[2017-11-01].https://enwikipediaorg/wiki/Feature_(computer_vision).

        [40]Lowe D G.Distinctive Image features from scale-invariant key points[J].International Journal of Computer Vision,2004,60(2):91-110.

        [41]Bay H,Tuytelaars T,Gool L V.SURF:Speeded up robust features[C]//Proceedings of European Conference on Computer Vision,2006:404-417.

        [42]Rublee E,Rabaud V,Konolige K,et al.ORB:An efficient alternative to SIFT or SURF[C]//Proceedings of IEEE International Conference on Computer Vision,2012:2564-2571.

        [43]Leutenegger S,Chli M,Siegwart R Y.BRISK:Binary robust invariant scalable keypoints[C]//Proceedings of International Conference on Computer Vision,2011:2548-2555.

        [44]Rosten E,Drummond T.Machine learning for high-speed corner detection[C]//Proceedings of European Conference on Computer Vision,2006:430-443.

        [45]Calonder M,Lepetit V,Strecha C,et al.BRIEF:Binary robust independent elementary feature[C]//Proceedings of European Conference on Computer Vision,2010:778-792.

        [46]Kitt B,Geiger A,Lategahn H.Visual odometry based on stereo image sequences with RANSAC-based outlier rejection scheme[C]//Proceedings of Intelligent Vehicles Symposium,2010:486-492.

        [47]Geiger A,Ziegler J,Stiller C.StereoScan:Dense 3D reconstruction in real-time[C]//Proceedings of IEEE Intelligent Vehicles Symposium,2011:963-968.

        [48]Baker S,Matthews I.Lucas-Kanade 20 years on:A unifying framework[J].International Journal of Computer Vision,2004,56(3):221-255.

        [49]Favaro P,Jin H,Soatto S.A semi-direct approach to structure from motion[C]//Proceedings of International Conference on Image Analysis and Processing,2001:250-255.

        [50]Benhimane S,Malis E.Integration of Euclidean constraints in template based visual tracking of piecewise-planar scenes[C]//Proceedings of International Conference on Intelligent Robots and Systems,2007:1218-1223.

        [51]Silveira G,Malis E,Rives P.An efficient direct approach to visual SLAM[J].IEEE Transactions on Robotics,2008,24(5):969-979.

        [52]Gokhool T,Meilland M,Rives P,et al.A dense map building approach from spherical RGBD images[C]//Proceedings of International Conference on Computer Vision Theory and Applications,2014:656-663.

        [53]Pizzoli M,F(xiàn)orster C,Scaramuzza D.REMODE:Probabilistic,monocular dense reconstruction in real time[C]//ProceedingsofIEEEInternationalConferenceon Robotics and Automation,2014:2609-2616.

        [54]Engel J,Cremers D.Semi-dense visual odometry for a monocular camera[C]//Proceedings of IEEE International Conference on Computer Vision,2014:1449-1456.

        [55]Vogiatzis G,Hernández C.Video-based,real-time multiview stereo[J].Image&Vision Computing,2011,29(7):434-441.

        [56]Forster C,Zhang Z,Gassner M,et al.SVO:Semidirect visual odometry for monocular and multicamera systems[J].IEEE Transactions on Robotics,2017,33(2):249-265.

        [57]Lovegrove S,Davison A J,Iba?ez-Guzmán J.Accurate visual odometry from a rear parking camera[C]//Proceedings of Intelligent Vehicles Symposium,2011:788-793.

        [58]Zhu A Z,Atanasov N,Daniilidis K.Event-based visual inertial odometry[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,2017:5816-5824.

        [59]Lin Y,Gao F,Qin T,et al.Autonomous aerial navigation using monocular visual-inertial fusion[J].Journal of Field Robotics,2018,35(4):23-51.

        [60]Gui J,Gu D,Wang S,et al.A review of visual inertial odometry from filtering and optimization perspectives[J].Advanced Robotics,2015,29(20):1289-1301.

        [61]Weiss S,Achtelik M W,Lynen S,et al.Real-time onboard visual-inertial state estimation and self-calibration of MAVs in unknown environments[C]//Proceedings of IEEE International Conference on Robotics and Automation,2012:957-964.

        [62]Dellaert F,Ranganathan A,Kaess M.Fast 3D pose estimation with out-of-sequence measurements[[C]//Proceedings of IEEE International Conference on Intelligent Robots and Systems,2007:2486-2493.

        [63]Indelman V,Williams S,Kaess M,et al.Factor graph based incremental smoothing in inertial navigation systems[C]//Proceedings of International Conference on Information Fusion,2012:2154-2161.

        [64]Yang S,Scherer S A,Yi X,et al.Multi-camera visual SLAM for autonomous navigation of micro aerial vehicles[J].Robotics&Autonomous Systems,2017,93:116-134.

        [65]Usenko V,Engel J,Stückler J,et al.Direct visual-inertial odometry with stereo cameras[C]//Proceedings of IEEE International Conference on Robotics and Automation,2016:1885-1892.

        [66]Shetty A P.GPS-LiDAR sensor fusion aided by 3D city models for UAVs[Z].2017.

        [67]Zeng A,Song S,Niebner M,et al.3DMatch:Learning local geometric descriptors from RGB-D reconstructions[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,2017:199-208.

        [68]Shaked A,Wolf L.Improved stereo matching with constant highway networks and reflective confidence learning[C]//Proceedings of Conference on Computer Vision and Pattern Recognition,2016.

        [69]Tateno K,Tombari F,Laina I,et al.CNN-SLAM:Realtime dense monocular SLAM with learned depth prediction[C]//Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2017:6565-6574.

        [70]Muller P,Savakis A.Flowdometry:An optical flow and deep learning based approach to visual odometry[C]//Proceedings of Conference on Applications of Computer Vision,2017:624-631.

        [71]Gao X,Zhang T.Robust RGB-D simultaneous localization and mapping using planar point features[J].Robotics&Autonomous Systems,2015,72:1-14.

        [72]Yang S,Scherer S.Direct monocular odometry using points and lines[C]//Proceedings of Conference on IEEE International Conference on Robotics and Automation,2017:3871-3877.

        [73]Sch?ps T,Sattler T,H?ne C,et al.3D Modeling on the Go:Interactive 3D reconstruction of large-scale scenes on mobile devices[C]//Proceedings of Conference on International Conference on 3D Vision,2015:291-299.

        猜你喜歡
        單目位姿魯棒性
        荒漠綠洲區(qū)潛在生態(tài)網(wǎng)絡增邊優(yōu)化魯棒性分析
        基于確定性指標的弦支結構魯棒性評價
        中華建設(2019年7期)2019-08-27 00:50:18
        一種單目相機/三軸陀螺儀/里程計緊組合導航算法
        單目SLAM直線匹配增強平面發(fā)現(xiàn)方法
        基于共面直線迭代加權最小二乘的相機位姿估計
        基于CAD模型的單目六自由度位姿測量
        基于非支配解集的多模式裝備項目群調(diào)度魯棒性優(yōu)化
        非接觸移動供電系統(tǒng)不同補償拓撲下的魯棒性分析
        小型四旋翼飛行器位姿建模及其仿真
        基于單目立體視覺的三坐標在線識別技術研究
        国产国拍精品av在线观看按摩| 精品视频无码一区二区三区| 国模吧无码一区二区三区| 国产熟妇按摩3p高潮大叫| 黑人玩弄人妻中文在线| 国产精品毛片无遮挡高清| 日韩电影一区二区三区| 97福利视频| 中文字幕一区二区三区在线视频| 日本一区二区啪啪视频| 国产三级黄色大片在线免费看| 人禽杂交18禁网站免费| 国产成人精品a视频一区| 美女扒开内裤让男生桶| 国产成人亚洲精品电影| 按摩女内射少妇一二三区| 伊人精品成人久久综合97| 亚洲人成综合第一网站| 久久综合九色综合久99| 成人做爰69片免费看网站| 亚洲国产精品自产拍久久蜜AV| 日韩精品人妻中文字幕有码| 精品黄色国产一区二区| 国产精品一区二区三区卡| 麻豆精品久久久久久中文字幕无码| 国产一女三男3p免费视频| 亚洲精品成人专区在线观看| 国产精品久久久久亚洲| 免费人成网站在线播放| 亚洲天堂av三区四区不卡| 中文字幕无码毛片免费看| 中文字幕精品无码一区二区| 久久精品免视看国产明星 | 香港三级精品三级在线专区| 99热这里有免费国产精品| 北岛玲精品一区二区三区| 成人影院羞羞的视频免费观看| 亚洲天堂av三区四区不卡| 日本japanese少妇高清| 亚洲国产成a人v在线观看| 中文字幕亚洲精品综合|