亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

單目視覺慣性的同時定位與地圖構建綜述

2020-07-26 14:23:53瑚琦蔡文龍盧定凡姜敏

軟件導刊 2020年7期

瑚琦蔡文龍盧定凡姜敏

摘要：在機器人領域，同時定位與地圖構建（SLAM）是導航定位的關鍵技術。單目視覺傳感器由于結構簡單、成本低且能獲取豐富的視覺信息，被廣泛應用于SLAM。隨著無人機、AR設備以及自動駕駛汽車技術的快速發(fā)展，視覺慣性SLAM（VI-SLAM）技術得到了越來越多人的關注。針對VI-SLAM，從濾波與非線性優(yōu)化的角度出發(fā)，首先介紹相關算法理論框架，然后分析幾種具有代表性的單目VI-SLAM算法創(chuàng)新點及實現(xiàn)方案，并通過EuRoC MAV數(shù)據(jù)集評估各算法優(yōu)劣，最后結合深度學習與語義SLAM，對SLAM未來發(fā)展趨勢進行探討。

關鍵詞：視覺慣性SLAM;濾波;非線性優(yōu)化;深度學習

DOI：10. 11907/rjdk. 192271 開放科學（資源服務）標識碼（OSID）：

中圖分類號：TP301 文獻標識碼：A 文章編號：1672-7800（2020）007-0275-06

Survey on Monocular Visual Inertial SLAM Algorithms

HU Qi1，2，CAI Wen-long1，2，LU Ding-fan1，2，JIANG Min1，2

（1.School of Optical-Electrical and Computer Engineering， University of Shanghai for Science and Technology;

2.Shanghai Key Lab of Modern Optical System， Shanghai 200093， China）

Abstract：In the field of robotics， simultaneous localization and mapping （SLAM） is the key technology for navigation and positioning. Monocular vision sensors are widely used in SLAM due to their simple structure， low cost， and access to rich visual information. With the rapid development of drones， AR equipment and self-driving cars， visual inertial SLAM （VI-SLAM） technology has received more and more attention. For VI-SLAM， from the filtering-based and optimization-based perspective， the basic theory of algorithm implementation is introduced first. Secondly， the innovation points and implementation schemes of several representative monocular VI-SLAM algorithms are analyzed. Then， the advantages and disadvantages of each algorithm are evaluated through the EuRoC MAV dataset. Finally， combined with deep learning and semantic SLAM， the future development trend of SLAM is discussed.

Key Words：VI-SLAM; filter; nonlinear optimization; deep learning

0 引言

同時定位與地圖構建（Simultaneous Localization and Mapping，SLAM）是指搭載特定傳感器的主體在未知環(huán)境中移動，對自身進行定位并構建增量式地圖的技術[1]。根據(jù)傳感器的不同，分為激光SLAM和視覺SLAM。激光SLAM使用的激光雷達結構單一，且價格昂貴，一般需要結合其它傳感器才能有效工作?；谝曈X的同時定位與地圖構建（Vision-based Simultaneous Localization and Mapping，VSLAM）利用視覺傳感器獲取圖像數(shù)據(jù)，通過多視圖幾何對其進行處理，得到機器人位置。VSLAM有多種視覺傳感器方案，一般以RGB-D深度傳感器、雙目傳感器與單目傳感器為主。其中，單目傳感器在過去30多年中對SLAM的研究起到了重要的推動作用，MonoSLAM[2]是第一個實時單目VSLAM，LSD-SLAM[3]是直接法第一次成功應用于單目VSLAM，ORB-SLAM[4]是現(xiàn)有VSLAM中功能最完善、易用的。然而，隨著無人機、人工智能以及自動駕駛技術在機器人領域的快速發(fā)展，僅采用單一傳感器的VSLAM由于在動態(tài)環(huán)境下容易出現(xiàn)誤匹配問題而無法勝任復雜場景，于是VI-SLAM應運而生。視覺慣性SLAM（Visual-Inertial SLAM，VI-SLAM）是一種結合視覺傳感器和慣性測量單元（Inertial Measurement Unit，IMU）估計移動平臺位姿（位置和姿態(tài)）變化的技術，該技術主要分為濾波和非線性優(yōu)化兩種。本文重點研究單目VI-SLAM，首先系統(tǒng)分析幾種具有代表性的濾波VI-SLAM和非線性優(yōu)化VI-SLAM，然后通過實驗評估各算法性能，最后探討SLAM未來發(fā)展趨勢。

1 濾波法

濾波法在早期SLAM研究中占據(jù)主要地位，基于濾波的VI-SLAM一般使用EKF[5]。EKF在假設馬爾可夫性的前提下，通過維護狀態(tài)量均值和協(xié)方差確定最大后驗概率分布，從而解決非線性系統(tǒng)模型的估計問題。

1.1 EKF框架

基于EKF框架的VI-SLAM分為預測和更新兩部分。IMU能夠得到三軸加速度和三軸角速度，根據(jù)式（1）的運動方程，用上一時刻的狀態(tài)[xt-1]預測當前時刻的狀態(tài)[xt]。

其中，[ut]是已知的輸入變量，噪聲[ωt]滿足零均值的高斯分布[ωt～Ν（0，Rt）]，[Rt]為協(xié)方差，待估計的狀態(tài)變量[xt]是一個16維向量。

其中，[IWq]為從世界坐標系到IMU坐標系的四元數(shù)，[WpI]、[WvI]對應于世界坐標系的旋轉和速度，[bg]、[ba]分別為陀螺儀和加速度計的偏差（bias）。

由于受到噪聲干擾，隨著時間的增加，預測階段得到狀態(tài)變量的準確性會不斷下降，而視覺傳感器通過式（3）的觀測方程對預測結果進行更新，能夠有效減少誤差。

其中，[xt]為待優(yōu)化的狀態(tài)變量，觀測過程中的噪聲[vt]滿足零均值的高斯分布[vt～Ν（0，Qt）]，[Qt]為協(xié)方差。

完整的預測及更新過程如下：

（1）預測：

（2）更新：

其中，[F]、[H]為雅克比矩陣，[Pt]為后驗概率。

1.2 單目濾波VI-SLAM

視覺傳感器與IMU在進行數(shù)據(jù)融合時，按照將圖像特征信息加入狀態(tài)向量的方式分為松耦合和緊耦合。松耦合雖然運行速度快，但是無法糾正視覺測量引入的尺度漂移，在視覺定位困難的地方魯棒性不強;緊耦合是指將IMU狀態(tài)變量與相機狀態(tài)變量合并在一起，共同構建運動方程和觀測方程，然后進行狀態(tài)估計。緊耦合具有定位精度高、魯棒性強的優(yōu)點，因而被廣泛應用于單目濾波VI-SLAM中[6-9]。其中，MSCKF[8]、ROVIO[9]是當下最流行的。

1.2.1 MSCKF

MSCKF是一個基于多狀態(tài)EKF約束的VI-SLAM，該算法應用于谷歌Tango，至今尚未開源。傳統(tǒng)EKF-SLAM進行數(shù)據(jù)融合時，狀態(tài)向量保存當前圖像幀的位姿、速度及地圖點（Map Points），然后用IMU作預測，再通過視覺傳感器的觀測誤差進行更新。MSCKF預測過程與傳統(tǒng)EKF-SLAM相同，其創(chuàng)新點在于更新過程。在更新之前每接收到一幀圖像信息，便將狀態(tài)向量加入到按時間排序的滑動窗口中，只有當?shù)貓D點被多個圖像幀同時觀測到才進行更新。從2007年提出MSCKF至今，該算法因具有計算復雜度低及魯棒性強等優(yōu)點，被廣泛應用于智能手機、掃地機器人等小型化場景中。

1.2.2 ROVIO

ROVIO是蘇黎世大學Ethz ASL實驗室于2015年提出的基于EKF框架的單目VI-SLAM算法。該算法通過IMU預測狀態(tài)向量，利用視覺的光度誤差約束對狀態(tài)向量進行更新。ROVIO的獨到之處在于將地圖點的空間位置信息拆分成兩項，一項是由方向角和傾斜角組成的二維向量（bearing vector），另一項是逆深度（inverse depth）。這種構造方式使得獲取的數(shù)據(jù)在初始化階段不會產(chǎn)生延遲，從而能夠有效提高系統(tǒng)的魯棒性和精度。

當獲取到一組最新的加速度計數(shù)據(jù)和陀螺儀數(shù)據(jù)時，ROVIO通過卡爾曼預測對得到的數(shù)據(jù)進行處理?？柭A測（Kalman prediction）需要完成3項工作：一是預測當前時刻的狀態(tài)變量[x]，得到均值的先驗[x-]，使用多次迭代的EKF得到更準確的狀態(tài)向量[xiter]，并結合相機模型計算特征點在當前幀上的像素坐標[pi]，用于計算下一幀圖像的像素位置;二是預測協(xié)方差的先驗[p-]，并將[x-]和[p-]傳遞給視覺更新過程，當接收到一幀最新的圖像時，需要對狀態(tài)向量進行更新，并剔除異常點;三是更新Warping Matrix，用來校正不同視角下的圖像映射變化，得到第i個地圖點的[Di]在當前時刻的增量。最后通過地圖點[Di]和像素坐標[pi]得到當前幀的光度誤差[e]，通過多次迭代求解雅克比矩陣和誤差項，得到位姿的最優(yōu)估計。

2 非線性優(yōu)化

基于非線性優(yōu)化的VI-SLAM主要依靠多視圖幾何技術[10]對視覺傳感器采集的數(shù)據(jù)進行處理，而當相機因快速移動得不到清晰圖像時，可以利用IMU測得的數(shù)據(jù)作為先驗信息對整個系統(tǒng)進行校正。計算非線性優(yōu)化的單目VI-SLAM主要包括初始化、前端、后端和回環(huán)檢測4部分。

2.1 初始化

初始化主要為系統(tǒng)提供一個精確的尺度信息，而該尺度信息估計的好壞直接決定了SLAM能否正常運行。由于單目相機不能直接得到深度信息，所以估計出來的位移與周圍環(huán)境相差一個尺度，這種現(xiàn)象稱為單目的尺度不確定性（Scale Ambiguity）。針對這種問題有多種解決方法，VI-SLAM的解決思路是對IMU進行預積分[11]，利用運動學方程估計出相對運動距離，并通過非線性優(yōu)化求解出環(huán)境地圖的真實尺度，該方法由于精度高而被廣泛應用于單目VI-SLAM。其它方法如文獻[12]通過不同角度觀測環(huán)境中的同一點，利用三角測量的方法確定該點距離，但該方法對視差選取要求嚴格;文獻[13]提出逆深度（Inverse Depth）方法，將深度的倒數(shù)加入狀態(tài)變量中進行更新，該方法雖然能夠得到一個比較精確的結果，但會占用更多的計算資源;文獻[14]采用速度傳感器和GPS直接得到尺度信息的方案，但該方案不適用于室內(nèi)等場景。

2.2 前端

前端稱為視覺里程計，它根據(jù)相鄰圖像信息粗略估計出相機運動，給后端提供位姿初始值。其中，待估計的位姿[T∈SE（3）]包括旋轉矩陣[R]和平移向量[t]。

[T=Rt01，R∈SO（3），t∈R3] （6）

前端按是否需要提取特征，分為特征點法和直接法。特征點由關鍵點與描述子組成，關鍵點是特征點在圖像中的位置，描述子描述了該關鍵點周圍像素的位置。特征點法如圖1所示。

由圖1可知，特征點法利用式（7）的針孔相機投影模型將三維世界地圖點[pu]映射到二維圖像平面。

其中，[u0]、[v0]為主點坐標，[fu]、[fv]為焦距。當從兩幀連續(xù)的圖像之間得到匹配好的特征點時，通過八點法[15]求得位姿T。當?shù)玫教卣鼽c[u]與對應的深度[du]時，通過式（8）的反投影模型得到3D地圖點[pu]，用PNP求得位姿T。

直接法如圖2所示，直接法以第一幀圖像C1為參考，通過光度不變原理預測上一幀像素點P1在當前圖像幀C2的位置P2。當?shù)玫狡ヅ浜玫南袼攸c之后，采取與特征點相同的方式求取位姿。

直接法根據(jù)地圖點P的來源不同，分為稀疏直接法、半稠密直接法與稠密直接法3類。

（1）在稀疏直接法中，P來自稀疏關鍵點，一般使用幾百至上千個關鍵點，不計算描述子，同時假設關鍵點周圍像素是不變的。

（2）在半稠密直接法中，P來自部分像素，由于像素梯度為0的地圖點不會對運動估計有任何貢獻，因此只考慮帶有梯度的像素點，舍棄像素梯度不明顯的地方。

（3）在稠密直接法中，需要對所有地圖點P進行計算。

2.3 后端

由于位姿T在李群SE（3）下的奇異性，進行后端優(yōu)化需要將其轉換為李代數(shù)[se（3）]下的[ξ]。

式（10）表示以特征點為前端的代價函數(shù)，誤差項為重投影誤差，式（11）表示以直接法為前端的代價函數(shù)，誤差項為光度誤差。通過對式（10）、式（11）進一步構建最小二乘目標函數(shù)，使用高斯牛頓法或Levenberg-Marquardt法迭代估計位姿T的最優(yōu)解。

其中，[ei]是特征點[p1]、[p2]之間的光度誤差。

其中，[z]是測量值，[z]是估計值，[z]是兩者的重投影誤差。

2.4 回環(huán)檢測

雖然后端能夠估計最大后驗誤差，但其誤差會隨著時間一直疊加，使得整個SLAM估計結果的可靠性不斷降低，而回環(huán)檢測提供兩種思路解決該問題：一方面，由于累計誤差的影響，遞推得到的位姿差別很大，而回環(huán)檢測能夠提供當前數(shù)據(jù)與所有歷史數(shù)據(jù)的關聯(lián)，當系統(tǒng)兩次經(jīng)過同一位置時，可以認為這兩次的位姿相等，然后校正其它圖像幀的位姿，以此降低累計誤差的影響;另一方面，在視覺傳感器跟蹤地圖點丟失之后，還可以利用回環(huán)檢測進行重定位。因此，回環(huán)檢測能夠有效提高SLAM算法的精度和魯棒性。

2.5 非線性優(yōu)化VI-SLAM

在基于非線性優(yōu)化的VI-SLAM算法中，捆集調(diào)整（Bundle Adjustment，BA）[16]是極其重要的一部分。BA利用圖優(yōu)化技術，沿著目標函數(shù)梯度下降方向[Δx]對狀態(tài)向量的估計值進行優(yōu)化，使得整體誤差下降到一個極小值。在以上優(yōu)化過程中，關鍵在于如何通過求解線性增量方程[HΔx=g]得到[Δx]。由于BA需要計算大量特征點和位姿，因此對H矩陣直接求逆將十分耗費資源。主流處理方法是：利用H矩陣的稀疏性對當前圖像幀的無用信息進行邊緣化（Marginalization）處理，并通過滑動窗口（Sliding Window）減少累積誤差。

近年來，機器人領域出現(xiàn)了許多單目非線性優(yōu)化VI-SLAM算法[17-21]，其中，OKVIS[19]、VI-ORB[20]、VINS[21]是最常見的。

2.5.1 OKVIS

OKVIS是Leutenegger等提出的基于非線性優(yōu)化的VI-SLAM，其特點在于選擇關鍵幀及邊緣化準則。算法基本思想是盡可能保存當前關鍵幀的有用信息，對信息量少的圖像幀進行邊緣化，并保留其與關鍵幀之間的約束，進而通過兩幀圖像之間的特征匹配與IMU采樣數(shù)據(jù)積分估計相機位姿和地圖點。

2.5.2 VI-ORB

VI-ORB是在ORB-SLAM2[22]基礎上融合IMU的定位算法，其計算過程包括跟蹤（Tracking）、局部建圖（Local Mapping）和回環(huán)檢測（Loop Closing）3部分。與ORB-SLAM2相比，VI-ORB的主要特點在于局部地圖中優(yōu)化方式不一樣。整個局部地圖中需要優(yōu)化的狀態(tài)量包括固定的N幀圖像以及由N幀圖像共同觀測到的地圖點（Map Poings）。其中，ORB-SLAM2只優(yōu)化包含視覺誤差的關鍵幀，而VI-ORB根據(jù)局部地圖是否更新優(yōu)化視覺重投影誤差和IMU測量誤差，且存在以下兩種情況：

（1）當局部地圖進行更新時，首先構建整體優(yōu)化狀態(tài)向量，包括旋轉、平移速度、位移、加速度計偏置和陀螺儀偏置，然后通過視覺重投影誤差和IMU測量誤差優(yōu)化當前幀狀態(tài)向量，上一幀圖像的狀態(tài)量和地圖點不會進行優(yōu)化，而是作為約束項優(yōu)化當前幀狀態(tài)向量。

（2）當局部地圖沒有更新時，地圖點不會進行優(yōu)化，而是作為約束項優(yōu)化下一時刻的狀態(tài)量，將優(yōu)化結果作為先驗數(shù)據(jù)邊緣化當前時刻的狀態(tài)量。

2.5.3 VINS

VINS是香港科技大學沈劭劼團隊提出的單目實時VI-SLAM，是目前非常先進的單目VI-SLAM算法。VINS主要分為5部分：數(shù)據(jù)預處理、初始化、后端、回環(huán)檢測及全局位姿優(yōu)化。

（1）數(shù)據(jù)預處理與初始化為系統(tǒng)提供初始地圖和尺度信息。數(shù)據(jù)預處理包括對圖像和IMU的預處理。其中，在圖像處理層面，前端提取圖像Harris角點，利用金字塔光流跟蹤相鄰幀，通過RANSAC[23]去除奇異點，并通知后端進行處理;在IMU預處理層面，將IMU數(shù)據(jù)進行積分，得到當前時刻的位姿和速度，同時計算相鄰幀的預積分增量、預積分誤差的雅克比矩陣和協(xié)方差項。初始化利用SFM進行純視覺估計滑動窗口內(nèi)所有圖像幀的位姿及3D點逆深度，并與IMU預積分進行對齊，求解初始化參數(shù)。

（2）后端對狀態(tài)向量[χ]進行非線性優(yōu)化，為系統(tǒng)提供一個可靠的位姿估計。

其中，[xk]表示第k幀圖像時刻的IMU狀態(tài)，包括位置、速度、世界坐標系下的IMU方向以及IMU坐標系下的加速度計與陀螺儀偏移。n表示關鍵幀數(shù)目，m表示滑動窗口中的特征總數(shù)，λm是第m個特征的逆深度，[xbc]表示相機在IMU坐標系下的位姿。

后端通過最小化先驗誤差和所有觀測誤差的馬氏距離之和得到最大后驗估計，求解滑動窗口內(nèi)所有幀的狀態(tài)變量。

其中：

式（13）中第一項來自邊緣化后的先驗誤差，第二項來自IMU觀測誤差，第三項來自視覺誤差。

（3）回環(huán)檢測及全局位姿優(yōu)化為系統(tǒng)構建全局一致的軌跡和地圖。回環(huán)檢測使用BoW模型挑選回環(huán)候選圖像幀，通過匹配BRIEF描述子建立局部滑動窗口關鍵幀與回環(huán)候選圖像幀之間的聯(lián)系。當回環(huán)檢測成功后，對整個系統(tǒng)的運動軌跡進行全局位姿優(yōu)化。

3 算法評估

VI-SLAM已應用于眾多領域的狀態(tài)估計問題，為了與現(xiàn)有開源算法的效率和精度進行對比，挑選4種被廣泛使用的單目VI-SLAM算法OKVIS、ROVIO、VI-ORB、VINS進行實驗，通過對比均方根誤差（Root Mean Square Error，RMSE）評估各算法優(yōu)劣。該實驗在配置為Intel Xeon E5-2609 V2 × 4 @2.50 GHz 16 Gb RAM的計算機上運行，使用EuRoC MAV數(shù)據(jù)集[24]對上述單目VI-SLAM算法進行測試，測試結果通過evo工具（https：//github.com/MichaelGrupp/evo）進行評估。EuRoC MAV數(shù)據(jù)集分為Machine Hall（MH）、Vicon Room 1（V1）、Vicon Room 2（V2） 3個場景，共有11個序列，序列數(shù)字大小代表算法執(zhí)行難度。

對表1中各VI-SLAM算法實驗結果進行分析可以得到：

（1）OKVIS可以完成各序列的測試要求，總體精度與魯棒性能夠滿足實際需求。

（2）ROVIO沒有表現(xiàn)出很好的性能，其在運行過程中產(chǎn)生的RMSE平均值最大，相比其它算法，該算法的準確性和效率都有待提高。

（3）VI-ORB雖然在V2_03_diff序列中無法正常運行，但該算法在其它序列中表現(xiàn)出很好的精度與效率。

（4） VINS的性能是4種算法中最好的，該算法在運行過程中產(chǎn)生的RMSE平均值只有0.116 9m，但需要占用很高的計算資源。

4 發(fā)展趨勢

4.1 深度學習與SLAM

深度學習作為一種端到端的方法，可以應用于SLAM的前端和回環(huán)檢測?；谏疃葘W習的SLAM前端無需特征提取，使得整個計算過程更加簡潔、直觀[25]。Costante等[26]利用卷積神經(jīng)網(wǎng)絡學習圖像數(shù)據(jù)的最優(yōu)特征，在應對相機快速運動造成的圖像模糊問題中表現(xiàn)出很好的魯棒性?；丨h(huán)檢測本質(zhì)上是場景識別問題，傳統(tǒng)方法使用BoW模型進行回環(huán)檢測，而基于深度學習的SLAM通過神經(jīng)網(wǎng)絡學習圖像中的深層特征，因此具有更高的識別率[27]。Hou[28]利用caffe框架下的AlexNet模型進行特征提取，在光照變化明顯的環(huán)境下，使用深度學習的特征描述能夠迅速提取特征信息，并大幅提升精度。但目前深度學習只能應用于SLAM的某些子模塊，如何將深度學習技術應用于整個SLAM系統(tǒng)是未來發(fā)展的主要趨勢。

4.2 語義SLAM

語義SLAM是指SLAM在建圖過程中從幾何和內(nèi)容兩個層次感知世界，對地圖內(nèi)容進行抽象理解。Li等[29]利用DeepLab-v2中的CNN架構預測像素級的物體類別標簽，結合條件隨機場對生成的單目半稠密三維語義地圖進行正則化。地圖的語義生成與SLAM過程是相互促進的兩部分，語義可以幫助SLAM緩解特征依賴，獲得更高層次的感知，SLAM可以幫助語義在移動機器人場景下進行目標識別[30]。語義與SLAM的結合使得機器人能夠獲取更高層次的感知，從而能夠處理更復雜的任務。

5 結語

VI-SLAM是一種結合視覺傳感器與慣性測量單元估計移動平臺位置和姿態(tài)變化的技術，由于VI-SLAM使用的傳感器具有結構簡單、成本低的優(yōu)點，因此在定位和建圖領域有著廣泛應用，包括移動機器人、自動駕駛汽車、無人駕駛飛行器及自主水下航行器等。然而，VI-SLAM為了獲得較高的準確性與更強的魯棒性，需要耗費大量計算資源，從而限制了其在小型化和輕量化場景中的應用。因此，在未來的發(fā)展中，VI-SLAM需要在現(xiàn)有框架基礎上作進一步完善與拓展，為資源受限的系統(tǒng)提供一些有效策略以解決以上問題。

參考文獻：

[1] 周彥，李雅芳，王冬麗，等. 視覺同時定位與地圖創(chuàng)建綜述[J]. 智能系統(tǒng)學報，2018，13（1）：97-106.

[2] DAVISON A J，REID I D，MOLTON N D，et al. MonoSLAM：real-time single camera SLAM[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2007， 29（6）： 1052-1067.

[3] ENGEL J， SCH？PS T， CREMERS D. LSD-SLAM： large-scale direct monocular SLAM [C]. European Conference on Computer Vision. Springer， Cham， 2014： 834-849.

[4] MUR-ARTAL R，MONTIEL J M M， TARDOS J D. ORB-SLAM： a versatile and accurate monocular SLAM system [J].? IEEE Trans on Robotics， 2015， 31（5）： 1147-1163.

[5] BAILEY T，NIETO J，GUIVANT J，et al. Consistency of the EKF-SLAM algorithm [C]. Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems，2006： 3562-3568.

[6] LYNEN S，SATTLER T，BOSSE M， et al. Get out of my lab： large-scale， real-time visual-inertial localization [C]. Robotics： Science and Systems，2015.

[7] SCHNEIDER T， DYMCZYK M， FEHR M， et al. Maplab： an open framework for research in visual-inertial mapping and localization [J]. IEEE Robotics and Automation Letters，2018，3（3）：1418-1425.

[8] MOURIKIS A I，ROUMELIOTIS S I. A multi-state constraint Kalman filter for vision-aided inertial navigation [C]. Proceedings of IEEE International Conference on Robotics and Automation，2007：3565-3572.

[9] BLOESCH M，OMARI S，HUTTER M，et al. Robust visual inertial odometry using a direct EKF-based approach [C]. IEEE/RSJ International Conference on Intelligent Robots and Systems（IROS）. IEEE，2015： 298-304.

[10] HARTLEY R，ZISSERMAN A.Multiple view geometry in computer vision [M]. Cambridge： Cambridge University Press， 2004.

[11] FORSTER C，CARLONE L， Dellaert F， et al. IMU preintegration on manifold for? efficient visual-inertial maximum-a-posteriori estimation [C]. Robotics Science and Systems，2015.

[12] Davison A J. Real-time simultaneous localisation and mapping with a single camera[C]. IEEE International Conference on Computer Vision （ICCV），IEEE， 2003.

[13] MONTIEL J，CIVERA J，DAVISON A J. Unified inverse depth parametrization for monocular SLAM [C].? Robotics： Science and Systems， 2006.

[14] AGRAWAL M， KONOLIGE K. Real-time localization in outdoor environments using stereo vision and inexpensive GPS [C]. The 18th International Conference on Pattern Recognition （ICPR 06），2006.

[15] HARTLEY R I. In defense of the eight-point algorithm [J].? IEEE Trans on Pattern Analysis and Machine Intelligence， 1997， 19（6）： 580-593.

[16] TRIGGS B， MCLAUCHLAN P F， HARTLEY R I， et al. Bundle adjustment—a modern synthesis [C]. International Workshop on Vision Algorithms.Springer， Berlin， Heidelberg，1999：298-372.

[17] CONCHA A， LOIANNO G，KUMAR V，et al.Visual-inertial direct SLAM[C]. IEEE International Conference on Robotics and Automation （ICRA）. IEEE，2016：1331-1338.

[18] KEIVAN N，PATRON-PEREZ A，SIBLEY G. Asynchronous adaptive conditioning for visual-inertial SLAM [C]. Experimental Robotics. Springer， Cham， 2016： 309-321.

[19] LEUTENEGGER S，LYNEN S， BOSSE M，et al. Keyframe-based visual-inertial odometry using nonlinear optimization [J]. The International Journal of Robotics Research， 2015， 34（3）： 314-334.

[20] MURARTAL R， TARDOS J D. Visual-inertial monocular SLAM with map reuse [J].? International Conference on Robotics and Automation， 2017， 2（2）： 796-803.

[21] QIN T， LI P， SHEN S， et al. VINS-Mono： a robust and versatile monocular visual-inertial state estimator [J].? IEEE Trans on Robotics， 2018， 34（4）： 1004-1020.

[22] MURARTAL R，TARDOS J D.ORB-SLAM2：An open-source SLAM system for monocular，stereo，and RGB-D cameras [J]. IEEE Trans on Robotics，2017，33（5）：1255-1262.

[23] FISCHLER M A， BOLLES R C. Random sample consensus： a paradigm for model fitting with applications to image analysis and automated cartography [J].? Communications of The ACM， 1981， 24（6）： 381-395.

[24] BURRI M， NIKOLIC J， GOHL P， et al. The EuRoC micro aerial vehicle datasets [J].? The International Journal of Robotics Research， 2016， 35（10）： 1157-1163.

[25] 趙洋，劉國良，田國會，等. 基于深度學習的視覺SLAM綜述[J]. 機器人，2017，39（6）：889-896.

[26] COSTANTE G， MANCINI M， VALIGI P， et al. Exploring representation learning with CNNs for frame-to-frame ego-motion estimation [J].? IEEE Robotics and Automation Letters， 2015（1）： 18-25.

[27] 羅順心，張孫杰. 基于深度學習的回環(huán)檢測算法研究[J]. 計算機與數(shù)字工程，2019，47（3）：497-502.

[28] HOU Y， ZHANG H， ZHOU S. Convolutional neural network-based image representation for visual loop closure detection [C]. IEEE International Conference on Information and Automation. IEEE， 2015： 2238-2245.

[29] LI X， BELAROUSSI R. Semi-dense 3D semantic mapping from monocular slam[DB/OL].? https：//arxiv.org/pdf/1611.04144.pdf.

[30] 白云漢. 基于SLAM算法和深度神經(jīng)網(wǎng)絡的語義地圖構建研究[J]. 計算機應用與軟件，2018，35（1）：183-190.

（責任編輯：黃 ?。?/p>