亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度學習的智能車輛視覺里程計技術發(fā)展綜述＊

2021-01-24 07:58:20陳濤范林坤李旭川郭叢帥

汽車技術 2021年1期

關鍵詞：位姿深度監(jiān)督

陳濤范林坤李旭川郭叢帥

（長安大學，西安 710064）

主題詞：視覺里程計深度學習智能車輛位置信息

1 前言

隨著車輛逐漸向自主化、無人化方向發(fā)展，車輛的位置信息成為其執(zhí)行決策時的重要參考因素。智能車的定位可分為絕對定位和相對定位，其中相對定位法主要包括慣性導航和里程計法，2種方法都不可避免地存在誤差累積且難以消除。慣性導航效果的優(yōu)劣受慣性測量單元（Inertial Measurement Unit，IMU）精度的影響較大，高精度IMU 的成本較高。隨著計算機視覺的發(fā)展，通過視覺采集到的信息不但可以滿足車輛定位的需求，而且可以進行車輛和行人的識別，同時，視覺傳感器成本較低、體積較小、布置方便，因此，視覺方案是同時考慮成本、穩(wěn)定性、精度和使用復雜度時的最佳方案。

視覺里程計（Visual Odometry，VO）是無接觸的位姿估計過程，根據(jù)單個或多個相機的輸入得到系統(tǒng)每一時刻之間的相對位姿，同時可以根據(jù)輸入的圖像序列恢復場景的空間結構。1980年，Moravec 等人首次提出從連續(xù)的圖像中估計相機位姿的思想[1]。Matthies 等人于1985年提出了經(jīng)典的視覺里程計框架[2]，該框架主要包括特征提取、匹配和幀間位姿估計，并一直作為視覺里程計的主要框架沿用至今，根據(jù)這一框架發(fā)展得到的VO 系統(tǒng)稱為基于模型的VO。根據(jù)圖像信息利用方式的不同，基于模型的VO 可以分為直接法VO 和特征法VO?，F(xiàn)有表現(xiàn)較好的VO 系統(tǒng)多是基于模型的[3]，但是這些VO 系統(tǒng)必須被準確標定，而且要運行在光照穩(wěn)定、紋理充足的環(huán)境中，同時，在大場景中的魯棒性較低，無法對場景信息進行語義理解，另外，單目VO因其尺度不確定性而無法得到車輛的真實運動尺度。

目前，深度學習在物體識別、分類、同步定位與地圖構建（Simultaneous Location and Mapping，SLAM）的回環(huán)檢測和語義分割等方面都取得了不錯的效果[4]。相較于人工設計特征，深度學習以端到端的方式從大量數(shù)據(jù)中學習特征，得到魯棒性更好、效率更高的特征，從而能夠有效解決基于模型的VO 在光照條件惡劣的情況下魯棒性低、回環(huán)檢測準確率低、動態(tài)場景中精度不高、無法對場景進行語義理解的問題，因此，基于深度學習的VO是VO系統(tǒng)的重要發(fā)展方向之一。

很多學者針對VO系統(tǒng)進行了綜述：李宇波等人綜述了VO的發(fā)展過程，將VO分為單目、雙目、多目，從魯棒性、實時性和精確性3個方面對VO進行分析[5]；Amani等人將當時的VO 系統(tǒng)進行分類，根據(jù)系統(tǒng)的輸入、輸出特性分析其特點[6]；Mohammad等人將VO與其他的定位方式進行比較，并將當時效果較好的VO 進行對比，分析了VO 的應用難點和存在的挑戰(zhàn)[7]；He 等人綜述了單目VO的發(fā)展現(xiàn)狀與代表性的VO系統(tǒng)[8]；李傳立等人將基于模型的VO分特征法和直接法進行了綜述[9]。但是這些綜述均面向基于模型的VO，而沒有考慮基于深度學習的VO。由于VO 是視覺同步定位與地圖構建（Visual Simultaneous Location and Mapping，VSLAM）的組成部分，一些基于深度學習的SLAM的綜述中會提到基于深度學習的VO[10-14]，但將重點集中于SLAM 系統(tǒng)，對基于深度學習的VO 的綜述不夠全面。本文針對有監(jiān)督、無監(jiān)督和模型法與學習結合的視覺里程計，主要從幀間運動估計、系統(tǒng)的實時性、魯棒性等方面對基于深度學習的智能車輛VO系統(tǒng)進行分析，綜述基于深度學習的智能車輛VO的發(fā)展現(xiàn)狀、現(xiàn)存的不足與發(fā)展趨勢，為基于深度學習的智能車輛VO和VSLAM前端的發(fā)展提供建議。

2 基于模型的VO

基于模型的VO 主要包括相機標定、圖像特征匹配、相機位姿估計，當考慮VO的全局位姿信息時，還包括相機位姿的全局優(yōu)化。如果將整幅圖像視為一個矩陣來考慮，不但增大了計算量，同時也很難準確估計相機位姿，因此一般考慮圖像的部分像素信息，并據(jù)此估計相機位姿。根據(jù)圖片像素信息的2種不同利用方式，將基于模型的VO 分為特征法VO 和直接法VO，圖1 所示為基于模型的車輛VO位姿估計過程，A0、A1分別為空間點A在I0、I1幀上的投影。

圖1 基于模型的車輛VO位姿估計

2.1 特征法VO

特征法VO首先在圖像中選取特征，這些特征在相機視角發(fā)生少量變化時保持不變，于是可以在各圖像中找到相同的點，在此基礎上對相機位姿進行估計。一組好的特征對位姿估計的最終表現(xiàn)至關重要，其中角點相較于邊緣和區(qū)塊更容易區(qū)分，是特征法VO 的研究重點。角點提取算法有很多，如Harris 角點、FAST 角點、GFTT 角點等[8]。為了增加角點的可重復性、可區(qū)別性、高效率和本地性，研究者設計了更多穩(wěn)定的圖像局部特征，最具代表性的有SIFT（Scale Invariant Feature Trans?form）、SURF（Speed-up Robust Features）、ORB（Oriented FAST and Rotated BRIEF）等[8]。

根據(jù)已經(jīng)匹配好的特征估計相機位姿時，由于相機類型和特征點不同，相機位姿估計算法也不相同。當相機為單目相機時，已知2D 的像素坐標，根據(jù)所有的2D匹配點使用對極幾何法計算相機的相對運動；當相機為雙目或深度相機時，已知特征點的3D坐標，通常用迭代最近點（Iterative Closest Point，ICP）算法估計相機位姿；當已知一些特征點在世界坐標系下的3D坐標和像素坐標時，常用PnP（Perspective-n-Point）、EPnP（Efficient Perspective-n-Point）、P3P（Perspective-Three-Point）算法。此外，為了使得到的位姿達到全局最優(yōu)，常用光束法平差（Bundle Adjustment，BA）算法或濾波算法對相機位姿進行全局優(yōu)化。

MonoSLAM 是由Davison 等發(fā)明的第一個成功應用單目攝像頭的純視覺SLAM 系統(tǒng)[15]，系統(tǒng)以擴展卡爾曼濾波為后端，追蹤前端是非常稀疏的特征點；PTAM（Parallel Tracking and Mapping）是首個以優(yōu)化為后端的SLAM系統(tǒng)，該系統(tǒng)首次區(qū)分出前、后端的概念，同樣引領了后期很多VSLAM 的設計[16]；Mur-Artal 等人提出的ORB-SLAM 是特征點法SLAM 的集大成者[17]，首次提出了基于ORB的BOW（Bag of Words）回環(huán)檢測方法。

特征點法VO 因其較強的魯棒性和較高的精確性成為目前主流的VO，但是特征的提取與描述子的計算耗時較多，使用特征時忽略了圖片的其他信息，VO的運行環(huán)境遇到特征缺失的情況時無法找到足夠的特征計算相機運動是特征法VO的主要缺點。

2.2 直接法VO

直接法VO是為了克服特征點法VO的不足而存在的，直接法根據(jù)像素的亮度信息估計相機運動，可以不尋找特征和描述子，既節(jié)省了計算時間，也避免了特征缺失的情況，只要場景中存在明暗變化，直接法就能工作。根據(jù)使用像素數(shù)量的多少，直接法分為稀疏、稠密和半稠密3種。與特征點法只能重構稀疏特征點相比，直接法還具有恢復稠密和半稠密結構的能力。

LSD-SLAM[18-19]是Engel 等為了構建半稠密三維地圖提出的算法，該算法采用直接法進行數(shù)據(jù)關聯(lián)，由深度估計、跟蹤和建圖3個線程組成。該方法對圖像點建立隨機深度圖，并在后續(xù)幀中對深度進行調整，直至收斂。該方法的初始化不需要多視圖幾何約束，不會陷入多視圖幾何退化的困境，但初始化過程需要多個關鍵幀深度圖才會收斂。直接稀疏里程計（Direct Sparse Odometry，DSO）[20]是直接法的拓展，其使用光度值誤差最小化幾何和光度學參數(shù)。DSO對圖像中有梯度、邊緣或亮度平滑變化的點均勻采樣以降低計算量，并且對光度學模型校正、曝光時間、透鏡光暈和非線性響應都進行了校準。為了提高速度、降低計算量，DSO 使用滑動窗口方法，對固定幀數(shù)的位姿進行優(yōu)化；DPPTAM（Dense Piecewise Planar Tracking and Mapping）[21]基于超像素對平面場景進行稠密重建，該方法對圖像中梯度明顯的點進行半稠密重建，然后對圖像中其他點進行超像素分割，通過最小化能量函數(shù)完成稠密重建。

此外，直接法的缺點也很明顯：完全依靠梯度搜索達到降低損失函數(shù)的目的，但圖像是強烈的非凸函數(shù)，這很容易使得優(yōu)化算法陷入局部最優(yōu)；單個像素的區(qū)分度不明顯；灰度不變性是個很強的假設，在很多情況下不會滿足。

基于模型的VO 已經(jīng)可以達到很好的效果。以ORBSLAM為代表的特征法VO和以DSO為代表的直接法VO都可以在特定環(huán)境下達到很高的精度，同時保證系統(tǒng)的實時性，但是在缺少特征、光照變化明顯、車載相機運動劇烈的惡劣環(huán)境中，這些系統(tǒng)的魯棒性很難得到保證。深度學習在計算機視覺領域的成功應用給了研究者們一些啟示，利用深度學習的方法可以從輸入圖像中自動提取特征，相較于人工設計的特征，其充分利用了圖像的信息。因此，通過提高對環(huán)境的學習能力來提高VO的魯棒性和精度是一條有效的解決途徑，并已經(jīng)成為現(xiàn)階段VO研究路線的一個重要分支。圖2所示為3種視覺里程計框架。

圖2 3種視覺里程計框架

3 基于深度學習的VO

基于深度學習的VO 以端到端的方式進行幀間位姿估計，輸入為圖像序列，輸出是圖像的相對位姿，包括位移和旋轉，位姿估計效果往往取決于網(wǎng)絡的架構和損失函數(shù)的形式。卷積神經(jīng)網(wǎng)絡（Convolution Neural Network，CNN）是位姿估計網(wǎng)絡中常用的網(wǎng)絡結構，主要由卷積層、池化層、全連接層組成，其中卷積層是CNN的核心，不同的卷積核從圖像中自動提取不同的特征，得到的特征可以更充分地代表圖像的信息。由于車載相機的位姿變化具有連續(xù)性，循環(huán)神經(jīng)網(wǎng)絡（Recurrent Neural Network，RNN）也已經(jīng)用于位姿估計網(wǎng)絡。RNN通過反饋循環(huán)來保持隱藏狀態(tài)的記憶，并對當前輸入與之前狀態(tài)間的依賴關系進行建模。訓練模型時根據(jù)訓練數(shù)據(jù)是否帶有標簽，可以將基于深度學習的VO分為有監(jiān)督的VO、無監(jiān)督的VO和半監(jiān)督學習的VO。

3.1 智能車數(shù)據(jù)集

基于學習的VO需要大量的數(shù)據(jù)對搭建的模型進行訓練。KITTI數(shù)據(jù)集由德國卡爾斯魯厄理工學院和豐田美國技術研究院聯(lián)合制作，是目前國際上最大的自動駕駛場景下的計算機視覺算法評測數(shù)據(jù)集，用于評測立體圖像（Stereo）、光流（Optical Flow）、視覺測距（Visual Odometry）、3D物體檢測（3D Object Detection）和3D跟蹤（3D Object Tracking）等計算機視覺技術在車載環(huán)境下的性能；Cityscapes 數(shù)據(jù)集采集了50個城市不同季節(jié)的街道車輛運行數(shù)據(jù)，目標是用于場景語義理解；Mapillary 數(shù)據(jù)集是由位于瑞典馬爾默的公司Mapillary AB開發(fā)的，用來分享含有地理標記照片的服務，其創(chuàng)建者希望利用眾包的方式將全世界（不僅是街道）以照片的形式存儲；Comma.ai’s Driving Dataset的目的是構建低成本的自動駕駛方案，目前主要應用場景是使用改裝手機來輔助自動駕駛，開源部分主要是行車記錄儀的數(shù)據(jù)；Apolloscape是百度的自動駕駛數(shù)據(jù)集，有很多復雜場景的道路。目前，智能車數(shù)據(jù)集以視頻和圖片為主，隨著越來越多公司的加入和眾包方式的應用，公開的數(shù)據(jù)集會越來越豐富。表1列舉了部分主要的智能車數(shù)據(jù)集。

表1 部分主要智能車數(shù)據(jù)集

3.2 有監(jiān)督學習的VO

A.Kendal 等人于2015 年提出的PoseNet 是早期利用深度學習進行位姿估計的典型代表[22]，PoseNet 網(wǎng)絡使用CNN 進行相機位姿估計，通過真實相機位姿的數(shù)據(jù)集進行訓練，其使用的損失函數(shù)為：

式中，x和q分別為CNN 估計的相機的三維坐標和旋轉四元數(shù)；分別為相機的真實三維坐標和旋轉四元數(shù)；λ為三維坐標和位姿損失函數(shù)的平衡因子。

經(jīng)過充分訓練后，PoseNet 的位姿估計精度與基于模型的VO相當。

為了確定位姿估計的不確定性，Kedall 等人在PoseNet 的基礎上進一步增加Dropout 層，提出了Bayesian PoseNet[23]，在這個網(wǎng)絡中平衡因子λ的選擇同樣至關重要，之后又在PoseNet 的基礎上提出了一種混合網(wǎng)絡[24]，這種網(wǎng)絡在訓練過程中可以自動調整平衡因子λ，不但使網(wǎng)絡的性能得到提升，而且可以得到網(wǎng)絡的不確定性。

Oliveira 等人構建了一個度量網(wǎng)絡，進行幀間位姿估計和拓撲網(wǎng)絡關系學習，對相機進行定位[25]。度量網(wǎng)絡將軌跡分割成有限的位置點的集合，利用CNN 來學習拓撲網(wǎng)絡間的關系，通過將該網(wǎng)絡與自定位網(wǎng)絡相結合，系統(tǒng)表現(xiàn)出了很好的定位特性。DeTone 等人提出的HomographNet用CNN來預測雙目圖像的單應性矩陣參數(shù)[26]，使用大量數(shù)據(jù)進行長時間訓練后，網(wǎng)絡的性能優(yōu)于基于ORB特征點估計的單應性矩陣參數(shù)算法。

2017年，Wang等人提出的DeepVO單目視覺測距系統(tǒng)[27]是有監(jiān)督學習VO 的里程碑成果，之后的很多研究是以此為基礎進行的。該系統(tǒng)中時間圖像序列通過長短期記憶網(wǎng)絡（Long Short-Term Memory，LSTM）模塊引入RCNN（Recurrent Convolution Neuro Network），以端到端的方式訓練RCNN估計攝像機的運動，網(wǎng)絡結構如圖3所示。試驗結果表明，該系統(tǒng)的精度和魯棒性在當時的VO中有很強的競爭力。同時，Wang等人在Costante等人的研究基礎上，通過改善DeepVO的網(wǎng)絡結構實現(xiàn)了估計系統(tǒng)不確定性的功能[28]。Melekhovetal等人在DeepVO的基礎上利用CNN提出了相機攝影預估系統(tǒng)[29]。Turan 等人提出了類似于DeepVO 的Deep EndoVO[30]，并將其應用于軟骨機器人領域[31]，取得了不錯的效果?；趯W習的方法總是存在泛化的問題，為了提高基于有監(jiān)督學習VO的泛化能力，Saputra等將課程學習（即通過增加數(shù)據(jù)復雜性來訓練模型）和幾何損失約束[32]加入到DeepVO中，知識提煉（即通過教一個較小的模型來壓縮大模型）也被應用到該框架中，以減少網(wǎng)絡參數(shù)的數(shù)量，使其更適合在移動設備上進行實時操作[33]。

圖3 DeepVO的網(wǎng)絡架構[27]

Ummenhofer 等人利用一系列編碼-解碼網(wǎng)絡提出了有監(jiān)督的DeMoN 系統(tǒng)[34]。該系統(tǒng)專門設計了迭代網(wǎng)絡，可以同時估計相機運動、圖像景深、場景平面和光流，但需要大量標記有相關標簽的數(shù)據(jù)進行訓練。Peretroukhin等人沒有直接使用深度神經(jīng)網(wǎng)絡預測相機的姿勢[35]，而是使用基于模型的幾何估計器進行位姿預測，提出了DPC-Net，然后使用CNN 進行預測位姿校正，也就是對提出的CNN進行訓練，從基于模型的估計器中學習位姿真實值與預測值之間的誤差，同時，該網(wǎng)絡也可以減少相機參數(shù)標定帶來的影響。

Costante 等人提出了一種CNN 體系結構，稱為LSVO[36]，該網(wǎng)絡將時間圖像對作為輸入，以端到端的形式進行訓練。LS-VO 由一個自動編碼器網(wǎng)絡組成，用于對光流的表示方式進行學習，用一個位姿估計網(wǎng)絡來預測攝像機的位姿，但是沒有解決尺度漂移的問題。為了解決這個問題，F(xiàn)rost 等人采用CNN 從連續(xù)的視頻幀中進行速度回歸[37]，通過將估計速度進一步集成到集束調整中，成功實現(xiàn)了尺度漂移校正。

對比以上研究可以發(fā)現(xiàn)，有監(jiān)督學習VO的基本思路為通過使用有標簽的數(shù)據(jù)集訓練神經(jīng)網(wǎng)絡，得到利用圖片信息映射相機的位姿變化信息的網(wǎng)絡結構，從而實現(xiàn)定位。得益于機器學習技術的發(fā)展和芯片計算能力的提高，這些端到端的學習方法可以直接從原始圖像中自動學習相機位姿變換，并且可以達到甚至超越基于模型的VO的效果。但是，有監(jiān)督學習的方法需要大量有標簽的數(shù)據(jù)來訓練網(wǎng)絡，而對數(shù)據(jù)集進行標注需要大量工作，這限制了其應用范圍。

3.3 無監(jiān)督學習的VO

基于無監(jiān)督學習的VO不需要對數(shù)據(jù)進行標注，具有更好的適應性和泛化能力，是一個重要的研究方向。

由于受到圖像仿射變換技術（Spatial Transformer）的啟發(fā)[38]，與VO 相關的無監(jiān)督深度學習方法主要集中在深度估計領域。Builtuponit 等人利用立體圖像對的左右光度約束提出了一種無監(jiān)督深度估計方法[39]，之后R.Garg 等人采用左右目的光度誤差作為損失函數(shù)，通過優(yōu)化左右視圖的仿射關系進一步對該算法進行優(yōu)化[40]。在此基礎上，Zhou等人利用單目圖片對網(wǎng)絡進行訓練，可以得到含有絕對尺度的相機運動[41]。這些是早期的通過無監(jiān)督方法估計相機運動的方法，展示出了無監(jiān)督方法在相機位姿估計中的潛力。

Zhou等人提出了一種無監(jiān)督深度學習的自我運動和深度估計系統(tǒng)[41]，試驗結果表明，系統(tǒng)性能與有監(jiān)督的方法相當。但是，由于使用的是單目相機，系統(tǒng)無法恢復運動的絕對尺度。為了解決這個問題，Li等人受無監(jiān)督深度估計方法的啟發(fā)[40-41]提出了一種無監(jiān)督學習的單目視覺測距系統(tǒng)UnDeepVO[42]，使用雙目圖像對進行訓練，如圖4 所示。UnDeepVO 在位姿預測和深度估計中表現(xiàn)出良好的性能，此外，它還可以恢復6 自由度姿勢和深度圖的絕對比例。Nguyen 等[43]也將類似的無監(jiān)督深度學習方法引入了單應性估計，并實現(xiàn)了不錯的效果。H.Zhan 等利用雙目圖片恢復運動的真實尺度，在相機基線已知時，在左右圖像對之間額外引入了光度誤差。完成訓練后，該網(wǎng)絡可以用單張圖像進行位姿估計，因此所用的測試集和訓練集是不同的[44]。最近的研究結果表明，圖像景深估計和相機位姿估計可以通過光度損失函數(shù)代替基于真值的損失函數(shù)，使用無監(jiān)督的方法進行學習。SfM-Learner[41]是第一個同時學習攝像機運動和深度估計的自我監(jiān)督方法，SCSfM-Learner[45]是在其結構基礎上提出的一種方法，它通過加強深度一致性來解決SfM-Learner 中的尺度問題，該幾何一致性損失會增強預測深度圖和重構深度圖之間的一致性。該框架將預測的深度圖轉換為3D 結構，并將其投影回深度圖以生成重建的深度圖，這樣深度預測便能夠在連續(xù)幀上保持尺度一致。

圖4 UnDeepVO網(wǎng)絡架構[42]

車輛運行過程中，VO采集到的場景往往是動態(tài)的，為VO的魯棒性帶來了挑戰(zhàn)。針對這個問題，GeoNet建模了剛性結構重建器和非剛性運動定位器，分別估計靜態(tài)場景結構和運動動態(tài)，將學習過程分為重建和定位2個子任務[46]。GANVO采用一種生成式對抗學習網(wǎng)絡來估計景深，并引入時間遞歸模塊進行位姿回歸[47]。Li等利用生成對抗網(wǎng)絡（Generative Adversarial Networks，GAN）生成更精確的深度圖和位姿[48]，并進一步優(yōu)化目標框架中的合成圖像，采用鑒別器評估合成圖像生成的質量，有助于生成的深度圖更加豐富和清晰。

對比分析以上研究可以看出，無監(jiān)督學習不需要提前標記數(shù)據(jù)集，相較于有監(jiān)督學習而言可以節(jié)省很多工作量。盡管無監(jiān)督的VO 在位姿估計精度上仍然不及有監(jiān)督的VO，但它在估計場景尺度和動態(tài)場景相機位姿估計問題上的表現(xiàn)優(yōu)于其他方案，另外，無監(jiān)督學習VO在網(wǎng)絡設計的可操作性和無標簽數(shù)據(jù)場景下的泛化能力方面也有一定的優(yōu)勢，而且無監(jiān)督學習的VO通過位姿變換后的圖像與實際圖像的差異進行訓練，比較符合人類的普遍認知習慣。隨著無監(jiān)督學習的網(wǎng)絡的性能不斷提高，無監(jiān)督的VO有可能成為提供位姿信息的最理想解決方案。圖5和圖6分別展示了無監(jiān)督學習的VO、有監(jiān)督學習的VO和基于模型的VO在KIITI數(shù)據(jù)集上的平移誤差和旋轉誤差。從圖5和圖6可以看出，有監(jiān)督學習的VO 的定位精度略優(yōu)于無監(jiān)督學習的VO，而基于模型的VO 的定位精度一直高于基于學習的VO的定位精度。表2 分有監(jiān)督學習和無監(jiān)督學習展示了幾種典型的基于深度學習的VO。

圖5 3種VO在KITTI數(shù)據(jù)集上的平移誤差

圖6 3種VO在KITTI數(shù)據(jù)集上的旋轉誤差

表2 典型的基于學習的VO

為了比較3種VO的實時性，在KITTI數(shù)據(jù)集中選擇試驗平臺為雙核2.5 GHz 和單核2.5 GHz 的試驗結果進行對比，如表3和表4所示。

從表3 和表4 可以看出，基于學習的VO 在實時性上明顯優(yōu)于基于模型的VO，主要原因是，雖然神經(jīng)網(wǎng)絡有大量參數(shù)需要計算，但其支持并行計算，可以用GPU實現(xiàn)運算加速，而基于模型的VO 有大量復雜的公式，計算速度很難提升。

3.4 模型法與深度學習相結合的VO

上述基于深度學習的方法的問題在于沒有顯式地考慮攝像機運動引入的多視圖幾何約束。針對這個問題，有學者提出了將基于學習的方法和基于模型的方法進行不同程度結合的技術，并取得了顯著的效果。CNN-SLAM[51]在直接法VO 系統(tǒng)中融合單視圖CNN 深度。CNN-SVO[49]在特征位置進行深度初始化，而CNN提供的深度可減少初始圖像中的不確定性。Yang[52]等人將深度預測融入DSO[20]中作為虛擬的立體測量值。Li 等人通過位姿圖對位姿估計進行優(yōu)化[53]。Zhan 等人利用CNN 對景深和相機位姿進行預測，構建了一個有效的單目VO 系統(tǒng)，但該系統(tǒng)無法恢復真實尺度。Yin等人將通過學習得到的深度估計值直接應用到基于模型的視覺里程計中，以恢復運動的真實尺度[54]。

表3 雙核2.5 GHz下3種VO的幀率幀/s

表4 單核2.5 GHz下3種VO的幀率幀/s

通過上述深度預測模型，將深度估計結果直接應用到基于模型的VO中能有效解決尺度問題。Barnes等人將深度學習得到的深度圖和掩膜模型加入到基于模型的VO 中以提高模型的動態(tài)場景處理能力[55]。Zhang 等人將學習到的深度估計和光流預測集成到傳統(tǒng)的視覺里程計模型中，達到了優(yōu)于其他模型的性能[3]。幾何算法往往在混合系統(tǒng)中為神經(jīng)網(wǎng)絡提供先驗信息，例如D3VO將深度、位姿和深度預測合并到直接法VO中，取得了不錯的效果[50]。

與僅依賴深度神經(jīng)網(wǎng)絡來估計位姿的端到端VO不同，混合VO將經(jīng)典幾何模型與深度學習框架結合在一起，基于成熟的幾何理論，使用深層神經(jīng)網(wǎng)絡替換幾何模型的各部分，以達到更好的效果?；谀Ｐ团c深度學習相結合的VO 的性能往往優(yōu)于端到端的VO，混合模型相較于一些基于模型的單目VO的性能更優(yōu)越，例如，視覺慣性測距（Visual-Inertial Odometry，VIO）系統(tǒng)D3VO擊敗了幾種常用的常規(guī)VO/VIO系統(tǒng)（DSO、ORBSLAM），因此混合VO也是一個重要的技術路線。

4 近年來研究熱點和發(fā)展趨勢

4.1 動態(tài)場景中的魯棒性優(yōu)化

在很多VO 算法中，場景被假設為靜態(tài)的，只能容忍很小一部分動態(tài)場景，場景中出現(xiàn)動態(tài)物體時多數(shù)會被系統(tǒng)作為異常值處理。場景不變假設在多數(shù)情況下不能滿足，如何使VO 系統(tǒng)可以準確、快速地處理動態(tài)場景是智能車輛VO技術發(fā)展中不可避免的問題。

目前，有很多提高VO在動態(tài)場景中性能的方案，主要面向2個問題：一是如何分辨場景中的動態(tài)物體和靜態(tài)物體；二是如何處理被動態(tài)物體遮擋的靜態(tài)場景。Leung和Medioni以地平面為基準進行車輛位姿估計[56]，提出的方法在動態(tài)環(huán)境中具有不錯的試驗結果，但是，由于該系統(tǒng)假設1個場景中只有1個主平面，很難將其應用于多個平面的環(huán)境中。Tan等通過將地圖特征投影到當前幀中檢測物體的外觀和結構，從而檢測場景中發(fā)生的變化[57]。Wangsiripitak和Murray通過跟蹤場景中已知的3D 對象來確定相鄰幀間的場景變化[58]。類似地，Riazuelo 等通過檢測和跟蹤行人來檢測行人的運動[59]。Li和Lee使用深度邊緣點來檢測運動物體，這些深度被賦予相關的權重，可以表明其屬于動態(tài)對象的概率[60]。

深度學習在動態(tài)物體檢測方面已經(jīng)達到了很好的效果，但如何很好地恢復被遮擋的靜態(tài)環(huán)境，為位姿估計提供更多的約束，仍需要不斷探索。

4.2 多傳感器融合

GPS和IMU是傳統(tǒng)的車輛定位裝置，在車輛上的應用已相對成熟，IMU與相機優(yōu)勢互補，GPS可以為VO提供絕對的位置信息，而且不同類型的傳感器會帶來不同的環(huán)境特征，因此，多傳感器融合的定位往往是智能車輛最終的應用方案。但是，不同傳感器體現(xiàn)環(huán)境信息的方式不同，如何在VO中充分利用每種傳感器一直是一個開放的問題。除基于常規(guī)最優(yōu)狀態(tài)估計的多傳感器融合外，在深度學習框架中進行傳感器融合和管理的優(yōu)勢越發(fā)明顯。很顯然，基于深度學習的方法可能會催生新的自適應多傳感器融合的VO。

Clark 等人結合DeepVO 得到的位姿估計結果和利用LSTM 得到的慣性傳感器讀數(shù)提出了基于深度學習的視覺與IMU 融合的VINet[61]，該網(wǎng)絡以端到端的方式訓練，可以達到優(yōu)于模型法的效果。Turan 等人利用同樣的思路通過結合視覺和磁傳感器預測相機6 自由度位姿[62]。Pillai 等人將GPS、IMU、相機和輪式里程計融合進行車輛位姿估計，利用神經(jīng)網(wǎng)絡處理不同相機產(chǎn)生的光流信息[63]。Li 等人提出的Recurrent-OctoMap 通過學習大量的3D 激光雷達數(shù)據(jù)能夠細化語義建圖，是一種融合語義特征的學習方法[64]。

4.3 場景語義理解

在智能車輛視覺里程計系統(tǒng)中，理解語義信息至關重要。利用深度學習得到的語義級對象在大規(guī)模復雜環(huán)境下的VO系統(tǒng)中發(fā)揮著重要作用，能夠了解對象屬性和對象間的相互關系將使機器人與人、機器人與環(huán)境之間取得更好的交互效果。此外，語義級對象可以提高位姿估計的準確性和魯棒性，同時，良好的位姿估計有利于場景語義分割。借助對場景的理解以提高VO 的效率和泛化能力是一個很好的探索領域。

5 結束語

本文分析了有監(jiān)督、無監(jiān)督和模型法與深度學習相結合的智能車輛視覺里程計技術發(fā)展路線，結合近年來的主要研究成果發(fā)現(xiàn)，基于學習的智能車輛VO主要是將VO 變?yōu)槎说蕉说南到y(tǒng)，使其輸入1 張或若干張圖片后直接輸出車輛的位姿。但是，通過深度學習的方法永遠存在泛化的問題，VO在特定的環(huán)境中訓練后，在其他環(huán)境的表現(xiàn)往往有所下降。另外，設計神經(jīng)網(wǎng)絡時將場景的語義信息考慮在內，加入多傳感器作為視覺信息的補充來提高基于深度學習的VO 的魯棒性和精度是一個可行的方案?；谏疃葘W習的方法作為一個很好的補充，雖然在車輛的位姿估計方面得到了一些結果，但是目前還不能取代基于模型的方法。