亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

無人駕駛車輛視覺SLAM方法綜述

2020-07-02 03:39:38李希宇仲首任馬芳武

汽車文摘 2020年7期

關(guān)鍵詞：單目位姿深度

李希宇仲首任馬芳武

（吉林大學(xué) 汽車仿真與控制國家重點(diǎn)實(shí)驗(yàn)室，長春 130022）

主題詞：車輛工程視覺慣性SLAM 激光SLAM 多傳感器融合

縮略語

SLAM Simultaneous Localization And Mapping

VSLAM VisualSimultaneousLocalization And Mapping

TOF Time Of Flight

VO Visual Odometry

SIFT Scale-Invariant Feature Transform

SURF Speeded Up Robust Features

FAST Feature from Accelerated Segment Test

ORB Oriented FAST and Rotated BRIEF

EKF Extended Kalman Filter

PTAM Parallel Tracking And Mapping

SVO Semi-direct Visual Odometry

DSO Direct Sparse Odometry

IMU Inertial Measurement Unit

VIO Visual-Inertial Odometry

MSCKF Multi-State Constraint Kalman Filter

ROVIO Robust Visual Inertial Odometry

OKVIS Open Keyframe-based Visual-Inertial SLAM

GCN Geometric Correspondence Network

1 前言

隨著機(jī)器人與人工智能技術(shù)的快速發(fā)展，無人駕駛在很多行業(yè)中體現(xiàn)出了其巨大的應(yīng)用價(jià)值與發(fā)展?jié)摿?。同步定位與建圖(Simultaneous Localization And Mapping，SLAM)技術(shù)是無人駕駛的核心技術(shù)之一，在車輛定位與導(dǎo)航方面發(fā)揮著重大作用，成為當(dāng)前的研究熱點(diǎn)[1]。SLAM技術(shù)是指運(yùn)動主體根據(jù)傳感器獲取的信息，一邊確定自身位姿，一邊構(gòu)建環(huán)境地圖的過程，解決主體在未知環(huán)境下運(yùn)動時(shí)的定位與建圖問題[2]。根據(jù)傳感器的類型不同，SLAM主要分為激光SLAM和視覺SLAM兩大類，其中激光SLAM相較于視覺SLAM起步更早，在理論、技術(shù)和實(shí)際應(yīng)用上都相對成熟，但激光SLAM存在成本高及缺乏語義信息等問題，因此基于視覺傳感器的視覺同步定位與建圖(visual Simul?taneous Localization And Mapping，VSLAM)技術(shù)憑借其信息豐富，成本低廉等優(yōu)勢，成為SLAM領(lǐng)域的重要發(fā)展方向[3]。本文主要針對無人駕駛的視覺SLAM技術(shù)展開綜述，主要包括以下內(nèi)容：首先簡要概述視覺SLAM系統(tǒng)構(gòu)成及標(biāo)志性研究成果；其次展開討論視覺SLAM的研究熱點(diǎn)，包含基于多傳感器融合和深度學(xué)習(xí)的視覺SLAM技術(shù)；最后總結(jié)了目前視覺SLAM系統(tǒng)存在的問題并對未來發(fā)展進(jìn)行展望。

2 視覺SLAM系統(tǒng)概述

經(jīng)典的視覺SLAM系統(tǒng)包括傳感器數(shù)據(jù)讀取、前端、后端、回環(huán)檢測及建圖5大模塊（見圖1），其中前端負(fù)責(zé)通過追蹤幀間的圖像特征估計(jì)相機(jī)運(yùn)動和局部地圖，后端根據(jù)前端提供的初值進(jìn)行優(yōu)化，回環(huán)檢測也可以稱為閉環(huán)檢測，通過計(jì)算圖像相似性，識別已訪問過的場景，消除累計(jì)誤差，建圖環(huán)節(jié)是對周圍環(huán)境的描述[4]。

圖1 視覺SLAM系統(tǒng)框架

根據(jù)傳感器的類型不同，視覺SLAM可分為單目視覺SLAM、雙目視覺SLAM以及RGB-D視覺SLAM，此外還有魚眼相機(jī)等傳感器選擇。單目視覺SLAM具備成本低、布置簡單等優(yōu)點(diǎn)，相關(guān)研究成果最為豐富，但由于單目無法估計(jì)深度，單目視覺SLAM具有尺度不確定性，在無運(yùn)動或純旋轉(zhuǎn)狀況下無法獲取像素距離；相較于單目方法，雙目視覺SLAM則可在靜止?fàn)顩r下依靠雙目信息計(jì)算像素距離，在室外復(fù)雜場景下魯棒性更佳，但其深度量程受基線長度與圖像分辨率的限制，且計(jì)算量較大、配置與標(biāo)定復(fù)雜；與單、雙目相機(jī)不同，RGB-D相機(jī)能夠通紅外結(jié)構(gòu)光或TOF原理，直接獲取像素深度，避免復(fù)雜計(jì)算，但測量范圍窄、極容易收到日光干擾，因此不適用于無人駕駛等以室外工作為主的系統(tǒng)。

2.1 前端

前端又稱為視覺里程計(jì)(Visual Odometry，VO)，VO根據(jù)相鄰圖像的信息對相機(jī)運(yùn)動和特征方位進(jìn)行粗略估計(jì)，為后端優(yōu)化提供較好的初始值，VO的實(shí)現(xiàn)方法按照是否提取特征分為兩類：基于特征點(diǎn)檢測的特征點(diǎn)法和不檢測特征點(diǎn)的直接法，基于特征點(diǎn)法的VO系統(tǒng)運(yùn)行更加穩(wěn)定，對光照、動態(tài)物體相對不敏感[5]。

特征點(diǎn)的檢測是計(jì)算機(jī)視覺領(lǐng)域的重要組成部分，在視覺SLAM中，通過幀間特征提取與追蹤估算主體位姿是一種非常重要的位姿估計(jì)方法，因此，選取魯棒性和計(jì)算效率較高、尺度和旋轉(zhuǎn)不變性較好的特征提取方法，可以很大程度提升VO系統(tǒng)工作的可靠性與穩(wěn)定性[6]。1999年David Lowe等[7]發(fā)表尺度不變特征轉(zhuǎn)換(Scale-invariant feature transform，SIFT)算法，并于2004年進(jìn)行完善和發(fā)展，算法總體分為3步完成對圖像特征點(diǎn)的提取和描述。

（1）通過高斯差分金字塔構(gòu)造尺度空間并通過高斯微分函數(shù)來識別興趣點(diǎn)；

（2）對每個候選的位置確定位置和尺度，定位關(guān)鍵點(diǎn)；

（3）為關(guān)鍵點(diǎn)賦予指向特性，得到描述子。

SIFT特征對旋轉(zhuǎn)、縮放及光照變化保持良好的不變性，魯棒性好，但計(jì)算量大，不具備實(shí)時(shí)性。SURF(Speeded Up Robust Features)[8]是對SIFT的一種改進(jìn)，在保持SIFT算子優(yōu)良性能的基礎(chǔ)上解決SIFT計(jì)算量大、實(shí)時(shí)性差的缺點(diǎn)，主要在興趣點(diǎn)提取和特征向量描述方面進(jìn)行了改進(jìn)，使得計(jì)算速度得到一定的提升。無人駕駛技術(shù)對SLAM系統(tǒng)的實(shí)時(shí)性與精確度都提出了較高的要求，SIFT與SUFT算法由于計(jì)算速度較慢，在實(shí)時(shí)SLAM系統(tǒng)上的應(yīng)用具有較大的局限性，因此后續(xù)有很多在保證性能的基礎(chǔ)上更注重于計(jì)算速度的特征提取算法被提出。Edward等[9]在2006年提出FAST(Feature from Accelerated Segment Test)角點(diǎn)檢測方法，是一種基于模板和機(jī)器學(xué)習(xí)的局部角點(diǎn)檢測算法，同時(shí)具備較高的精確度與計(jì)算效率。FAST以待檢測像素點(diǎn)為圓心，當(dāng)定半徑圓周上的其他像素點(diǎn)與圓心像素點(diǎn)灰度差異足夠大時(shí)即認(rèn)為該點(diǎn)為角點(diǎn)。但由于FAST角點(diǎn)不具備方向與尺度信息，因此不具備旋轉(zhuǎn)和尺度不變性。Rublee等[10]在基于FAST角點(diǎn)和BRIEF描述子，提出ORB（Oriented FAST and Rotated BRIEF）算法，該算法首先對圖像構(gòu)建圖像金字塔，然后檢測FAST關(guān)鍵點(diǎn)并計(jì)算每一個關(guān)鍵點(diǎn)的特征向量。ORB的描述子采用計(jì)算速度很快的二進(jìn)制字符串特征BRIEF描述子[11]，因此ORB計(jì)算速度較快，具備特征檢測的實(shí)時(shí)性，與此同時(shí)，ORB受噪聲影響較小，具有良好的旋轉(zhuǎn)不變性和尺度不變性，可應(yīng)用于實(shí)時(shí)SLAM系統(tǒng)。

2.2 后端

后端接受視覺里程計(jì)估計(jì)的相機(jī)位姿和環(huán)境信息，并對這些信息進(jìn)行優(yōu)化，得到全局一致的運(yùn)動軌跡和環(huán)境地圖[12]。視覺SLAM系統(tǒng)的后端優(yōu)化主要有兩種實(shí)現(xiàn)方式：一種是以擴(kuò)展卡爾曼濾波（EKF）[13]為代表的濾波方法，另一種是以圖優(yōu)化為代表的非線性優(yōu)化方法[14]。

濾波方法主要是利用貝葉斯原理，根據(jù)上一時(shí)刻的系統(tǒng)狀態(tài)和運(yùn)動輸入估計(jì)當(dāng)前時(shí)刻的狀態(tài)及置信度，并根據(jù)當(dāng)前時(shí)刻的觀測數(shù)據(jù)與系統(tǒng)狀態(tài)，得到當(dāng)前系統(tǒng)狀態(tài)的最優(yōu)估計(jì)[15]?；跒V波的優(yōu)化方法在小空間內(nèi)的使用相對成功，但由于其存儲量隨狀態(tài)量平方增長的原因，在大型未知場景中的使用受到一定限制。基于濾波的方法包括擴(kuò)展卡爾曼濾波[13]、無跡卡爾曼濾波[16]和粒子濾波[17]等。

基于非線性優(yōu)化（圖優(yōu)化）方法的核心思想是：把后端優(yōu)化算法轉(zhuǎn)換成圖的一種形式，不同時(shí)刻的主體位姿和環(huán)境特征作為頂點(diǎn)，頂點(diǎn)間的約束關(guān)系用邊來表示[18]。建好圖之后，利用圖優(yōu)化算法對主體位姿和環(huán)境特征進(jìn)行求解，使得頂點(diǎn)上的待優(yōu)化狀態(tài)量更好地滿足對應(yīng)邊上的約束條件，優(yōu)化算法執(zhí)行結(jié)束之后，對應(yīng)的圖即是主體運(yùn)動軌跡和環(huán)境地圖。目前主流的視覺SLAM系統(tǒng)大多采用非線性優(yōu)化的方法。

2.3 回環(huán)檢測

回環(huán)檢測的任務(wù)是讓系統(tǒng)在回到原地時(shí)能夠根據(jù)傳感器信息識別當(dāng)前場景并判定該區(qū)域已訪問過，是消除SLAM系統(tǒng)累計(jì)誤差、保證運(yùn)動軌跡與環(huán)境地圖全局一致性的重要手段[19]。對于視覺SLAM，傳統(tǒng)回環(huán)檢測方法主要利用詞袋模型[20]，其實(shí)現(xiàn)方法為：對從圖像中提取的局部特征通過K均值聚類構(gòu)造一個包含K個詞匯的單詞表，根據(jù)單詞表中每個單詞的出現(xiàn)次數(shù)將圖像表示成為K維數(shù)值向量，用于場景差異性判斷，達(dá)到識別已訪問場景的目的。

2.4 建圖

建圖（Mapping）是SLAM的兩大目標(biāo)之一。在經(jīng)典的SLAM系統(tǒng)中，環(huán)境地圖是指智能主體在一段時(shí)間內(nèi)探索獲取的所有路標(biāo)點(diǎn)的集合，建圖過程即為通過前端檢測和后端優(yōu)化確定所有路標(biāo)點(diǎn)方位的過程。建圖主要服務(wù)于定位功能，并起到導(dǎo)航、避障和環(huán)境重建的作用。

3 視覺SLAM標(biāo)志性成果

3.1 基于特征點(diǎn)法的視覺SLAM

基于特征點(diǎn)法的視覺SLAM方法是指通過提取和匹配連續(xù)幀圖像的特征點(diǎn)來估計(jì)幀間的相機(jī)運(yùn)動和構(gòu)建環(huán)境地圖。

2007年Davison等[21]提出的MonoSLAM是第一個實(shí)時(shí)的單目視覺SLAM系統(tǒng)，MonoSLAM以EKF為后端，追蹤前端獲取的稀疏特征點(diǎn)，以相機(jī)位姿和路標(biāo)點(diǎn)方位作為狀態(tài)量，更新其均值和協(xié)方差。同年Klein等[22]提出的 PTAM(Parallel Tracking And Mapping)實(shí)現(xiàn)了跟蹤和建圖工作的并行化，首次區(qū)分出前端和后端并提出關(guān)鍵幀(Keyframes)機(jī)制，通過非線性優(yōu)化的方法，將關(guān)鍵圖像串聯(lián)起來優(yōu)化運(yùn)動軌跡和特征方位，后續(xù)許多視覺SLAM系統(tǒng)設(shè)計(jì)也采取了類似的方法。ORB-SLAM[23]是2015年被提出的比較完善的基于關(guān)鍵幀的單目SLAM方法，相較于PTAM的雙線程機(jī)制，該方法將整個系統(tǒng)分為追蹤、地圖創(chuàng)建和閉環(huán)檢測3個線程進(jìn)行處理，其特征的提取與匹配、地圖構(gòu)建與回環(huán)檢測的工作都是基于ORB特征，具備較高的精確度，并且可以實(shí)時(shí)運(yùn)行。后續(xù)發(fā)布ORB-SLAM2，開放了雙目相機(jī)與RGB-D相機(jī)的接口。

圖2 高速公路場景下ORB-SLAM2[23]雙目算法提取并跟蹤的特征點(diǎn)，其中綠色（淺色）表示特征點(diǎn)深度小于40倍的雙目基線，藍(lán)色（深色）表示特征點(diǎn)大于40倍的雙目基線

3.2 基于直接法的VSLAM

特征點(diǎn)法存在提取特征點(diǎn)與計(jì)算描述子耗時(shí)較長、忽略特征點(diǎn)以外的圖像信息等缺點(diǎn)，因此有研究者提出不再計(jì)算關(guān)鍵點(diǎn)和描述子，而是根據(jù)像素灰度變化直接估計(jì)相機(jī)運(yùn)動，即為直接法[5]。

DTAM[24]是2011年提出的基于直接法的單目SLAM方法，相較于提取稀疏特征的傳統(tǒng)SLAM，該方法提取每一個像素的逆深度并通過優(yōu)化的方式構(gòu)建稠密深度圖，用深度地圖通過直接圖像匹配來計(jì)算得到相機(jī)的位姿。Engel等[25]于2014年提出的LSD-SLAM是單目直接法在視覺SLAM上成功應(yīng)用的標(biāo)志性方法，該方法將針對像素進(jìn)行的直接法應(yīng)用于半稠密單目SLAM系統(tǒng)，相較于特征點(diǎn)法，對特征缺失區(qū)域敏感度較低，但對相機(jī)內(nèi)參和光照變化十分敏感，且在相機(jī)快速運(yùn)動時(shí)易丟失。此外Forster等[26]提出的SVO(Semi-direct Visual Odometry)采用稀疏直接法，也稱為半直接法：追蹤關(guān)鍵點(diǎn)，根據(jù)關(guān)鍵點(diǎn)周圍信息估計(jì)位姿。半直接法追蹤稀疏特征，既不計(jì)算描述子，也不處理稠密信息，因此SVO時(shí)間復(fù)雜度低，實(shí)時(shí)性較強(qiáng)。但SVO不具備后端優(yōu)化與回環(huán)檢測模塊，不具備建圖的功能，因此屬于視覺里程計(jì)而不能稱為完整的視覺SLAM系統(tǒng)。2016年慕尼黑工業(yè)大學(xué)提出的DSO[27]也采用了半直接法，在較快的運(yùn)算速度下保證較高的精度。

直接法具備計(jì)算速度快、對弱特征情況不敏感等優(yōu)點(diǎn)，但建立在灰度不變這一強(qiáng)假設(shè)下，因而對光照變化非常敏感，相反特征點(diǎn)法具備良好的不變特性，在實(shí)際工作中魯棒性更好[28]。表1總結(jié)了視覺SLAM框架中的主要算法。

表1 視覺SLAM代表性成果表

4 視覺SLAM研究熱點(diǎn)

4.1 基于多傳感器融合的視覺SLAM

單一使用攝像頭的純視覺SLAM不具備較強(qiáng)的魯棒性，在光照變化明顯、運(yùn)動劇烈和弱紋理等情況下極易發(fā)生跟蹤失效，造成定位與地圖構(gòu)建失敗。將不同的傳感器數(shù)據(jù)融合起來進(jìn)行互補(bǔ)，可使系統(tǒng)更加魯棒、精度更高，許多研究者嘗試將不同的傳感器融入VSLAM系統(tǒng)，其中典型的多傳感融合方式有相機(jī)+慣性測量單元(Inertial Measurement Unit，IMU)、相機(jī)+激光雷達(dá)等[29-30]。

4.1.1 視覺-慣性SLAM

基于純視覺的SLAM系統(tǒng)在魯棒性和穩(wěn)定性上面存在一定問題，在一定程度上制約了其在無人駕駛領(lǐng)域的廣泛應(yīng)用。慣性測量單元可以彌補(bǔ)視覺系統(tǒng)在弱紋理或光照變化等情況下特征點(diǎn)跟蹤失效的問題，而視覺又可以彌補(bǔ)慣性測量單元隨時(shí)間累計(jì)漂移的問題，視覺-慣性SLAM由于慣性測量單元與視覺的互補(bǔ)作用，在無人駕駛等領(lǐng)域具有良好的發(fā)展前景[31]。視覺慣性融合的主要方式就是將IMU信息與視覺前端信息相結(jié)合，即視覺慣性里程計(jì)(Visual-Inertial Odometry，VIO)。一般可將VIO系統(tǒng)分為基于濾波(Filter-based)和基于優(yōu)化(Optimization-based)兩大類。

在基于濾波器的VIO方法中，Mourikis等人[32]于2007年首次提出的多狀態(tài)約束下的卡爾曼濾波器（Multi-State Constraint Kalman Filter，MSCKF）是最早的較為成功的視覺-慣性導(dǎo)航系統(tǒng)之一，MSCKF在擴(kuò)展卡爾曼濾波器下融合了單目視覺與慣性信息，相較于純視覺里程計(jì)，MSCKF能適應(yīng)更劇烈的運(yùn)動和一定時(shí)間的紋理缺失等問題，具有更高的魯棒性。但Li等[33]在2013年指出了MSCKF在狀態(tài)估計(jì)過程中的不一致性，并提出MSCKF2.0，在精度、一致性和計(jì)算效率方面有較大提升。此外ROVIO(Robust Visual Iner?tial Odometry)[34]和MSCKF_VIO[35]也是近年來出色的基于濾波方法的VIO工作。

在基于優(yōu)化的VIO方法中，最為經(jīng)典的框架是OKVIS(Open Keyframe-based Visual-Inertial SLAM)[36]和 VINS-Mono[37]。Leutenegge等[36]提出的 OKVIS 通過IMU測量值預(yù)測對當(dāng)前狀態(tài)，空間點(diǎn)和二維圖像特征構(gòu)成重投影誤差，預(yù)測的IMU狀態(tài)量和優(yōu)化的參數(shù)構(gòu)成IMU誤差項(xiàng)，最后將重投影誤差與和IMU誤差項(xiàng)放在一起進(jìn)行優(yōu)化。秦通等[37]提出的VINS-Mono系統(tǒng)首先對視覺部分進(jìn)行初始化，然后估計(jì)陀螺儀的偏置、重力、尺度和速度，其次，將預(yù)積分后的慣性單元測量值和視覺測量值進(jìn)行融合，通過非線性優(yōu)化的方法得到高精度視覺慣性里程計(jì)，VINS-Mono具備與OK?VIS相當(dāng)?shù)亩ㄎ痪?，并具有更加完善和魯棒的初始化及回環(huán)檢測部分，在系統(tǒng)級別上優(yōu)于OKVIS。圖3為VINS-Mono系統(tǒng)框架圖。

圖3 VINS-Mono系統(tǒng)框架[37]

值得注意的是，雖然學(xué)界已經(jīng)認(rèn)為在純視覺SLAM中，基于優(yōu)化方法的方法效果要明顯優(yōu)于基于濾波的方法，但在視覺-慣性SLAM系統(tǒng)中，兩類方法在性能上目前還未發(fā)現(xiàn)明顯的優(yōu)劣之分。

4.1.2 視覺-激光SLAM

激光相對視覺存在一些優(yōu)點(diǎn)，比如不依賴于光照，可靠性好，且精度更高。而視覺傳感器可從環(huán)境中獲取大量紋理信息，擁有較強(qiáng)的場景辨識能力。因此在無人駕駛等領(lǐng)域，視覺與激光相融合的SLAM系統(tǒng)能夠提供更智能、更可靠的環(huán)境感知和狀態(tài)估計(jì)方案。

根據(jù)視覺與激光在SLAM系統(tǒng)中所起作用比重不同，可將視覺激光融合SLAM方案分為激光主導(dǎo)、視覺主導(dǎo)和視覺激光相互矯正3類。

（1）激光主導(dǎo)的主要方式包括利用視覺信息提升激光SLAM閉環(huán)檢測的準(zhǔn)確性，或者在位姿估計(jì)階段構(gòu)建激光特征的變換誤差和視覺重投影誤差聯(lián)合優(yōu)化函數(shù)提高位姿估計(jì)的魯棒性，例如Bai等[38]利用卷積神經(jīng)網(wǎng)絡(luò)提取特征實(shí)現(xiàn)回環(huán)檢測，并且通過設(shè)置匹配范圍有效避免了閉環(huán)場景誤匹配，通過特征壓縮的方法保證SLAM系統(tǒng)實(shí)時(shí)性。

（2）視覺主導(dǎo)的代表性工作是LIMO[39]，該方法將激光雷達(dá)獲取的空間點(diǎn)云投影在像平面上估計(jì)視覺特征的尺度，并將激光雷達(dá)恢復(fù)的視覺特征尺度與相機(jī)位姿估計(jì)得出的特征尺度構(gòu)建誤差項(xiàng)作為額外約束放入后端優(yōu)化過程。

（3）V-LOAM[40]是視覺激光相互矯正的經(jīng)典方法，該方法利用激光雷達(dá)掃描一圈的時(shí)間內(nèi)視覺里程計(jì)估計(jì)得到的相機(jī)位來姿矯正激光點(diǎn)云的運(yùn)動畸變，利用相鄰掃描矯正后的激光點(diǎn)云估計(jì)得出的相對位姿對視覺估計(jì)的位姿進(jìn)行矯正，把矯正后的點(diǎn)云映射到局部地圖中，用于后續(xù)的位姿優(yōu)化。目前，基于視覺激光融合的SLAM方法相比于視覺慣性融合研究成果和實(shí)際應(yīng)用較少，有待更進(jìn)一步的探索與研究。

4.2 基于深度學(xué)習(xí)的視覺SLAM

基于傳統(tǒng)方法的視覺SLAM仍存在一些問題，例如對光照變化敏感、在動態(tài)場景下效果不理想等[41]。近年來深度學(xué)習(xí)理論在計(jì)算機(jī)視覺等領(lǐng)域獲得較高的關(guān)注度，深度學(xué)習(xí)能夠在很大程度上幫助視覺系統(tǒng)提升視覺任務(wù)的準(zhǔn)確性和魯棒性[42-44]，因此很多SLAM領(lǐng)域的研究者提出將深度學(xué)習(xí)應(yīng)用于SLAM技術(shù)。

4.2.1 深度學(xué)習(xí)與深度估計(jì)

視覺SLAM需要獲取世界坐標(biāo)系中點(diǎn)的深度，傳統(tǒng)SLAM系統(tǒng)通常采用主動式的方法（結(jié)構(gòu)光測距等）直接獲取空間點(diǎn)深度或者通過被動式的方法（雙目測距、三角化估計(jì)和深度濾波器等）對深度進(jìn)行間接估計(jì)。相較于雙目視覺，單目視覺SLAM技術(shù)在大規(guī)模室外場景存在一些問題，例如其初始化尺度的估計(jì)、尺度漂移和閉環(huán)檢測等。部分研究者提出使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行單目視覺深度估計(jì)，2017年，Zhou等[45]提出一種無監(jiān)督的學(xué)習(xí)框架，可以從非結(jié)構(gòu)化視頻序列中進(jìn)行單目深度和運(yùn)動估計(jì)的任務(wù)。同年Godard等[46]提出了一種不需要基準(zhǔn)深度數(shù)據(jù)就能進(jìn)行單個圖像深度估計(jì)的卷積神經(jīng)網(wǎng)絡(luò)，執(zhí)行端到端的無監(jiān)督單目深度估計(jì)，并且通過損失函數(shù)保持網(wǎng)絡(luò)內(nèi)部左右深度的一致性。2018年Mahjourian等[47]提出了一種基于單目進(jìn)行深度無監(jiān)督學(xué)習(xí)和自我運(yùn)動的方法，該方法明確考慮場景的三維特征，維持連續(xù)幀之間三維點(diǎn)云的一致性。盡管很多基于深度學(xué)習(xí)的深度估計(jì)方法已被提出，但基于深度學(xué)習(xí)的深度估計(jì)方法存在如下問題：難以避免遮擋、重復(fù)紋理、物體邊緣等問題造成的錯誤估計(jì)、系統(tǒng)不具備完全的可解釋性等。此外，就目前而言，使用深度學(xué)習(xí)的深度估計(jì)方法相較于成熟的傳統(tǒng)雙目SLAM方法不具備明顯優(yōu)勢。

4.2.2 深度學(xué)習(xí)與特征提取

通過深度學(xué)習(xí)方法提取和學(xué)習(xí)圖像特征在計(jì)算機(jī)視覺領(lǐng)域已經(jīng)取得巨大成功，因此有學(xué)者提出可將深度學(xué)習(xí)與視覺SLAM系統(tǒng)的視覺前端相結(jié)合。DeT?one等[48]提出了一種使用2個卷積神經(jīng)網(wǎng)絡(luò)的點(diǎn)跟蹤系統(tǒng)，第1個網(wǎng)絡(luò)在單張圖像上提取均勻分布的二維特征點(diǎn)，第2個網(wǎng)絡(luò)根據(jù)第1個網(wǎng)絡(luò)輸出的點(diǎn)圖像對進(jìn)行運(yùn)動預(yù)測，該方法計(jì)算速度較快，同時(shí)對噪聲的抵抗能力也較強(qiáng)。2018年Tang等[49]提出GCN(Geomet?ric Correspondence Network)-SLAM，根據(jù)SLAM工作過程中前后兩幀圖像構(gòu)成的圖像對訓(xùn)練系統(tǒng)，并將前后兩幀之間的相對位姿加入到損失函數(shù)的設(shè)計(jì)中，獲得較好的實(shí)際效果。與人工設(shè)置的特征相比，深度學(xué)習(xí)提取的圖像特征更加抽象與高級，因此深度學(xué)習(xí)與視覺前端的結(jié)合具備很好的研究價(jià)值和發(fā)展前景。

4.2.3 語義SLAM

傳統(tǒng)SLAM方法基于對特征或像素的追蹤估計(jì)主體運(yùn)動及環(huán)境信息，語義級別較低，相比之下，融入物體識別、目標(biāo)檢測、語義分割等技術(shù)的語義SLAM增加了對于內(nèi)容的理解。美國賓夕法尼亞大學(xué)的Bowman等[50]在2017年提出一種融合尺度信息與語義信息的理論框架，利用目標(biāo)檢測，整合尺度信息和語義信息，用于位姿和地圖點(diǎn)的優(yōu)化。2018年Lianos等人提出VSO框架[51]，利用語義信息實(shí)現(xiàn)中期連續(xù)點(diǎn)跟蹤，該方法可以與已有的基于直接法或間接法的視覺里程計(jì)框架相結(jié)合，在無人駕駛場景下明顯降低平移誤差。同年香港科技大學(xué)沈邵劼團(tuán)隊(duì)提出了一種基于立體視覺的方法來跟蹤動態(tài)自主駕駛場景中的自我運(yùn)動和3D語義對象，取得較好的效果[52]，效果如圖4所示。語義SLAM相較于傳統(tǒng)SLAM方法具備很多優(yōu)點(diǎn)，但仍有一些問題需要提前被注意起來，比如在語義SLAM中，錯誤的數(shù)據(jù)關(guān)聯(lián)將引發(fā)更加嚴(yán)重的后果。

圖4 效果圖[52]：上方圖為主體運(yùn)動軌跡和檢測到的車輛，下方圖左1為特征匹配，左2為跟蹤截?cái)嘬囕v，右2為動態(tài)物體的3D稀疏特征恢復(fù)，右1為運(yùn)動一致性與朝向估計(jì)。

5 總結(jié)與展望

在過去的三十年里，視覺SLAM技術(shù)取得了重大的突破，能夠廣泛應(yīng)用無人駕駛、無人機(jī)等領(lǐng)域，并很好的完成感知與定位任務(wù)。需要指出當(dāng)前的視覺SLAM仍存在難以兼顧實(shí)時(shí)性與準(zhǔn)確性、魯棒性有待提升等問題，在室外動態(tài)復(fù)雜場景下的應(yīng)用還面臨著很大挑戰(zhàn)。隨著功能豐富的新型傳感器的出現(xiàn)和人工智能算法的飛速發(fā)展，視覺SLAM也不斷提高精度及魯棒性，向多傳感器融合和智能化的方向發(fā)展。