基于深度學(xué)習(xí)的視覺慣性里程計(jì)技術(shù)綜述

2023-03-10 00:10:26王文森黃鳳榮王旭劉慶璘羿博珩

計(jì)算機(jī)與生活 2023年3期

王文森，黃鳳榮+，王旭，劉慶璘，羿博珩

1.河北工業(yè)大學(xué) 機(jī)械工程學(xué)院，天津300401

2.中國(guó)人民解放軍93756 部隊(duì)

視覺慣性里程計(jì)（visual inertial odometry，VIO）[1-3]，又稱為視覺慣性導(dǎo)航系統(tǒng)，是由視覺和慣性傳感器構(gòu)成的組合導(dǎo)航系統(tǒng)。VIO 擁有自主性、實(shí)時(shí)性等特點(diǎn)，傳感器的優(yōu)勢(shì)互補(bǔ)使VIO 的導(dǎo)航精度明顯高于由單一傳感器組成的慣性導(dǎo)航系統(tǒng)或視覺里程計(jì)（visual odometry，VO），低成本、體積小的消費(fèi)級(jí)微機(jī)電慣性測(cè)量單元（micro electro mechanical systems inertial measurement unit，MEMS-IMU）和相機(jī)的使用更促進(jìn)其發(fā)展。VIO 研究的主要目的，就是充分利用視覺慣性的優(yōu)勢(shì)，實(shí)現(xiàn)系統(tǒng)的高精度6 自由度（degree of freedom，DoF）位置與姿態(tài)估計(jì)。

傳統(tǒng)的VIO 系統(tǒng)的基本框架如圖1 所示。其中，前端包括基于運(yùn)動(dòng)學(xué)模型的慣性預(yù)處理模塊和基于幾何學(xué)模型的視覺里程計(jì)，后端為基于濾波器或優(yōu)化器的狀態(tài)估計(jì)模塊。此外，為了進(jìn)一步提高導(dǎo)航精度，還可能會(huì)添加回環(huán)檢測(cè)等功能。傳統(tǒng)方法已經(jīng)展示了不錯(cuò)的性能[4-5]，但受到建模的局限和真實(shí)環(huán)境的復(fù)雜性使其仍然難以投入實(shí)際應(yīng)用中。近年來，深度學(xué)習(xí)[6-7]為VIO 的方法研究提供了新的思路。深度學(xué)習(xí)的方法相比傳統(tǒng)方法表現(xiàn)出了更強(qiáng)的魯棒性?；谏疃葘W(xué)習(xí)的VIO 相比傳統(tǒng)方法展現(xiàn)出的優(yōu)勢(shì)可以體現(xiàn)在以下方面：

圖1 基于幾何學(xué)與運(yùn)動(dòng)學(xué)模型VIO 的基本框架Fig.1 Framework of VIO based on geometric and kinematic model

（1）傳統(tǒng)方法基于復(fù)雜的幾何與運(yùn)動(dòng)學(xué)模型，而且現(xiàn)實(shí)中很難建立與真實(shí)應(yīng)用嚴(yán)格相符的數(shù)學(xué)模型，深度學(xué)習(xí)模型基于神經(jīng)網(wǎng)絡(luò)，可以通過自適應(yīng)訓(xùn)練實(shí)現(xiàn)高精度導(dǎo)航。

（2）由于受到IMU 的噪聲和偏差的影響，傳統(tǒng)方法一般僅對(duì)慣性數(shù)據(jù)進(jìn)行簡(jiǎn)單的預(yù)處理[8]，基于深度學(xué)習(xí)的方法使慣性特征也具有了量測(cè)的能力，可以使系統(tǒng)不再局限于來自單模態(tài)的量測(cè)特征。

（3）傳統(tǒng)方法提取圖像特征局限于特征點(diǎn)、線和平面等低級(jí)特征的提取方法[9]，深度學(xué)習(xí)可以學(xué)習(xí)潛在的高級(jí)特征，有利于實(shí)現(xiàn)復(fù)雜環(huán)境中的導(dǎo)航。

由此，隨著越來越多基于深度學(xué)習(xí)的VIO 的研究方法的出現(xiàn)，本文在對(duì)基于深度學(xué)習(xí)的視覺慣性里程計(jì)的發(fā)展歷史、研究現(xiàn)狀以及方法梳理的基礎(chǔ)上，從融合策略的角度分別對(duì)深度學(xué)習(xí)與傳統(tǒng)模型結(jié)合的方法和端到端的深度學(xué)習(xí)方法進(jìn)行了綜述，并分別從監(jiān)督學(xué)習(xí)和無監(jiān)督/自監(jiān)督學(xué)習(xí)方面介紹了網(wǎng)絡(luò)模型，同時(shí)分析并闡述了常用數(shù)據(jù)集、評(píng)價(jià)指標(biāo)和方法對(duì)比。最后，總結(jié)了當(dāng)前研究中亟待突破的問題并對(duì)未來的研究方向進(jìn)行了展望。

1 基于深度學(xué)習(xí)的VIO 系統(tǒng)融合策略

根據(jù)后端是否是以深度學(xué)習(xí)的方式實(shí)現(xiàn)融合，可以將VIO 系統(tǒng)按融合策略分為深度學(xué)習(xí)與傳統(tǒng)模型結(jié)合的融合和基于深度學(xué)習(xí)的端到端融合。同時(shí)，VIO 系統(tǒng)無疑是多模態(tài)的融合[10-11]，可分為數(shù)據(jù)級(jí)融合、特征級(jí)融合和決策級(jí)融合。特征級(jí)融合和決策級(jí)融合的方法都已經(jīng)實(shí)現(xiàn)，在VIO 中一般稱之為緊耦合和松耦合。以下將從融合策略概述現(xiàn)有的研究方法。

1.1 深度學(xué)習(xí)與傳統(tǒng)模型結(jié)合的融合

在傳統(tǒng)方法中，慣性狀態(tài)計(jì)算基于運(yùn)動(dòng)學(xué)模型，視覺狀態(tài)和特征點(diǎn)特征計(jì)算基于視覺幾何模型，最后采用濾波器或優(yōu)化器實(shí)現(xiàn)二者的特征融合。深度學(xué)習(xí)與傳統(tǒng)模型結(jié)合的方法完整保留了傳統(tǒng)模型的后端，但是在前端則基于深度學(xué)習(xí)設(shè)計(jì)了學(xué)習(xí)狀態(tài)的新模型。

早期的深度學(xué)習(xí)模型主要用于替換原有的前端傳統(tǒng)模型。Rambach等[12]設(shè)計(jì)了首個(gè)基于深度學(xué)習(xí)的監(jiān)督學(xué)習(xí)VIO 模型，模型結(jié)構(gòu)如圖2 所示。其慣性前端基于長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)（long short-term memory，LSTM）[6]學(xué)習(xí)位置和姿態(tài)，同時(shí)加入誤差檢測(cè)器可以實(shí)現(xiàn)慣性網(wǎng)絡(luò)和視覺前端的互相監(jiān)督，最后以卡爾曼濾波（Kalman filter，KF）作為后端實(shí)現(xiàn)了VIO 的松耦合。Li等[13]將基于卷積神經(jīng)網(wǎng)絡(luò)（convolutional neural networks，CNN）[6]的VO模型DeepVO[14]作為VIO 的視覺前端輸出相對(duì)位姿，再利用擴(kuò)展卡爾曼濾波器（extended Kalman filter，EKF）將視覺位姿預(yù)處理的慣性狀態(tài)進(jìn)行融合。余洪山等[15]基于改進(jìn)SuperPoint 網(wǎng)絡(luò)[16]檢測(cè)和描述特征點(diǎn)，有效抑制了異常特征點(diǎn)，加強(qiáng)了視覺前端的魯棒性，在后端則使用了VINS-Mono[17]的緊耦合融合框架進(jìn)行融合，實(shí)現(xiàn)了高精度導(dǎo)航。

圖2 文獻(xiàn)[12]的模型結(jié)構(gòu)Fig.2 Structure of Ref.[12]

其他方法則會(huì)利用深度學(xué)習(xí)在特征學(xué)習(xí)中的多樣性，在前端建立新的子模塊，擴(kuò)展了后端的特征向量，如行人導(dǎo)航方法RNIN-VIO[18]使用EKF 作為融合后端，在慣性前端的深度學(xué)習(xí)網(wǎng)絡(luò)中，利用人體運(yùn)動(dòng)的規(guī)律性，使用IMU 原始數(shù)據(jù)和濾波器中的姿態(tài)學(xué)習(xí)相對(duì)位移和其不確定度。最終，視覺特征、慣性狀態(tài)和網(wǎng)絡(luò)輸出的慣性特征通過濾波器實(shí)現(xiàn)了緊耦合。該方法增強(qiáng)了對(duì)慣性特征的利用，提高了系統(tǒng)魯棒性。系統(tǒng)也可以僅依靠慣性數(shù)據(jù)進(jìn)行較高精度的導(dǎo)航。Wang等[19]同樣以EKF 作為后端，其視覺前端建立了地標(biāo)識(shí)別模型，通過識(shí)別已知位置的地標(biāo)信息計(jì)算比例關(guān)系進(jìn)而實(shí)現(xiàn)位姿優(yōu)化，以緩解位置誤差累積的問題。Shan等[20]和Zuo等[21]基于MSCKF（multi-state constraint Kalman filter）[22]的融合框架，前者在前端建模了目標(biāo)物體的語(yǔ)義特征的網(wǎng)絡(luò)，系統(tǒng)在幾何和語(yǔ)義級(jí)別上理解周圍環(huán)境，以目標(biāo)物體產(chǎn)生的殘差約束視覺慣性的狀態(tài)，可以實(shí)現(xiàn)高精度定位和生成全局地圖；后者建模了深度估計(jì)網(wǎng)絡(luò)，將圖像深度作為特征向量以實(shí)現(xiàn)視覺慣性更緊密的耦合，系統(tǒng)在輸出位姿的同時(shí)還可以實(shí)時(shí)地提供密集稠密深度圖。以上方法通過建立額外的量測(cè)約束，使VIO 在一些特定應(yīng)用場(chǎng)景中擁有更強(qiáng)的魯棒性。

1.2 基于深度學(xué)習(xí)的端到端的融合

Clark等[23]提出了首個(gè)使用深度學(xué)習(xí)框架實(shí)現(xiàn)的端到端的監(jiān)督學(xué)習(xí)VIO 方法VINet，整體可微的CNN-LSTM 架構(gòu)使其可以實(shí)現(xiàn)端到端的訓(xùn)練，其中CNN-LSTM 架構(gòu)是由CNN、LSTM 網(wǎng)絡(luò)結(jié)合的網(wǎng)絡(luò)模型架構(gòu)。系統(tǒng)前端將視覺慣性特征轉(zhuǎn)化為高維特征表達(dá)，在后端將視覺特征、慣性特征和上時(shí)刻位姿拼接，最后基于LSTM 網(wǎng)絡(luò)和全連接層進(jìn)行特征融合并估計(jì)位姿。VINet 在應(yīng)對(duì)時(shí)間不同步、數(shù)據(jù)外參標(biāo)定不準(zhǔn)確和校準(zhǔn)誤差導(dǎo)致的發(fā)散時(shí)，相比傳統(tǒng)方法都表現(xiàn)出更強(qiáng)的魯棒性。但是其后端沒有明確特征選擇的建模，隱式的處理方法很難對(duì)靜態(tài)和動(dòng)態(tài)的特征實(shí)現(xiàn)有效和靈活的識(shí)別，在提取不同表示、不同分布的數(shù)據(jù)特征時(shí)并不穩(wěn)定。后續(xù)的研究為建模特征選擇過程，分別采用基于加法交互作用的方法[10,24-25]和基于乘法交互作用的方法[26-28]。對(duì)特征選擇進(jìn)行建模進(jìn)一步提高了系統(tǒng)的魯棒性，具體可以體現(xiàn)在應(yīng)對(duì)傳感器數(shù)據(jù)丟失、損壞，視覺慣性傳感器數(shù)據(jù)不同步等方面。不同于利用LSTM 網(wǎng)絡(luò)建模特征融合后端的方法，Aslan等[28]基于高斯過程回歸[29]實(shí)現(xiàn)了特征融合。這些方法的原理框圖如圖3 所示。

圖3 監(jiān)督學(xué)習(xí)VIO 的基本框架Fig.3 Basic framework for supervised VIO

為減少對(duì)數(shù)據(jù)集真值的依賴，無監(jiān)督和自監(jiān)督的方法[25,30-35]也被提出，其系統(tǒng)框架如圖4 所示。無監(jiān)督與自監(jiān)督學(xué)習(xí)的VIO 不直接使用數(shù)據(jù)集真值建立損失函數(shù)，而是基于重建的源圖像和目標(biāo)圖像的幾何約束[36]，建立無監(jiān)督損失項(xiàng)。無監(jiān)督VIO 中用于建立無監(jiān)督項(xiàng)的深度圖由外部提供，自監(jiān)督方法的重建圖像信息來自相機(jī)圖像序列，Almalioglu等[25]使用生成式對(duì)抗網(wǎng)絡(luò)（generative adversarial networks，GAN）和無監(jiān)督學(xué)習(xí)方法聯(lián)合實(shí)現(xiàn)姿態(tài)估計(jì)和生成深度圖，實(shí)現(xiàn)在未知陌生環(huán)境中的定位和建圖。Han等[34]利用立雙目圖像序列估計(jì)深度得到密集的三維點(diǎn)云，進(jìn)而得到三維光流和6 自由度姿態(tài)等三維幾何約束作為自監(jiān)督項(xiàng)。無監(jiān)督VIO 可以對(duì)有尺度軌跡做在線矯正，在面對(duì)新環(huán)境和惡劣環(huán)境時(shí)具有更強(qiáng)的適應(yīng)和泛化能力，同時(shí)受錯(cuò)誤校準(zhǔn)、數(shù)據(jù)不同步等因素影響相比傳統(tǒng)方法要低，有些方法[25,31-32]還可以在沒有已知傳感器外參和視覺慣性數(shù)據(jù)松散同步的情況下給出載體位姿信息。

圖4 無監(jiān)督VIO 的基本框架Fig.4 Basic framework of unsupervised VIO

2 深度學(xué)習(xí)VIO 系統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型

深度學(xué)習(xí)VIO 的網(wǎng)絡(luò)模型需依據(jù)是否在訓(xùn)練中使用了數(shù)據(jù)集提供的真值，可以分為監(jiān)督學(xué)習(xí)模型和無監(jiān)督/自監(jiān)督學(xué)習(xí)模型。

2.1 監(jiān)督學(xué)習(xí)模型

慣性前端網(wǎng)絡(luò)能夠利用低精度的IMU 信息提高整個(gè)系統(tǒng)的魯棒性和精度。Rambach等[12]建模的慣性網(wǎng)絡(luò)包括1 層LSTM 網(wǎng)絡(luò)和3 層全連接層，雖然網(wǎng)絡(luò)可以利用有限的數(shù)據(jù)得到不錯(cuò)的結(jié)果，卻存在比較嚴(yán)重的漂移。RNIN-VIO[18]建模的魯棒慣性網(wǎng)絡(luò)由ResNet18、3 層LSTM 網(wǎng)絡(luò)和兩個(gè)并行的全連接層組成。ResNet18 用于學(xué)習(xí)人體運(yùn)動(dòng)隱藏變量，LSTM 網(wǎng)絡(luò)將當(dāng)前的隱藏狀態(tài)與之前的隱藏狀態(tài)進(jìn)行融合，以估計(jì)運(yùn)動(dòng)的最佳當(dāng)前隱藏狀態(tài)。同時(shí)RNIN-VIO設(shè)計(jì)了兩種不同的損失函數(shù)用于保證每個(gè)窗口以及長(zhǎng)序列的訓(xùn)練精度。視覺前端的網(wǎng)絡(luò)可以提高系統(tǒng)在快速運(yùn)動(dòng)和無紋理場(chǎng)景等特殊環(huán)境中的魯棒性。Li等[13]的視覺網(wǎng)絡(luò)使用CNN 網(wǎng)絡(luò)提取視覺特征，將特征排列為時(shí)間序列，然后通過雙層LSTM 網(wǎng)絡(luò)輸出相機(jī)位姿和不確定度。

VINet[23]是首個(gè)基于深度學(xué)習(xí)的端到端方法，其模型框架如圖5 所示，其中慣性前端基于LSTM 網(wǎng)絡(luò)進(jìn)行建模，網(wǎng)絡(luò)每次將圖像兩幀之間的所有原始數(shù)據(jù)輸入，這樣保證了慣性特征的學(xué)習(xí)和前端視覺慣性特征的同步輸出。光流網(wǎng)絡(luò)可以利用圖像序列中像素在時(shí)間域上的變化以及相鄰幀之間的相關(guān)性來找到圖像的對(duì)應(yīng)關(guān)系，進(jìn)而獲得載體的運(yùn)動(dòng)信息。因此，視覺前端使用預(yù)訓(xùn)練的FlowNetCorr光流網(wǎng)絡(luò)[37-38]的前端卷積部分網(wǎng)絡(luò)以兩張連續(xù)的圖像作為輸入，經(jīng)過光流網(wǎng)絡(luò)內(nèi)CNN 網(wǎng)絡(luò)的多次特征提取后輸出高維的特征表達(dá)。VINet 的后端使用兩層的LSTM 網(wǎng)絡(luò)建模以實(shí)現(xiàn)特征融合。

圖5 VINet的模型結(jié)構(gòu)Fig.5 Model structure of VINet

在特征融合后端，為了進(jìn)一步提高特征融合網(wǎng)絡(luò)模型的可解釋性和提高系統(tǒng)魯棒性，Chen等[24]提出在視覺慣性特征向量拼接后分別使用具有確定性的軟融合和具有隨機(jī)性的強(qiáng)融合兩種具有可解釋性的融合模式，以加法交互作用的方式實(shí)現(xiàn)特征選擇的顯示建模。同時(shí)，這種方法還采用了輕量級(jí)的FlowNetSimple 網(wǎng)絡(luò)[37-38]以加快運(yùn)行速度。但是這種融合方式依然缺少視覺慣性特征之間的顯式聯(lián)系。為了進(jìn)一步提高模型的可解釋性和可學(xué)習(xí)性，Shinde等[26]基于多頭自注意力機(jī)制[39]建模了后端融合模型，以乘法交互作用的方式實(shí)現(xiàn)顯式融合。ATVIO[27]在特征選擇過程中根據(jù)SENet 網(wǎng)絡(luò)[40]構(gòu)建了注意力生成模塊，顯式地建模了特征之間的相關(guān)性，減少了異常數(shù)據(jù)對(duì)后端特征融合造成的影響。

在特征提取前端也需要準(zhǔn)確、高效的模型。早期的慣性網(wǎng)絡(luò)一般基于LSTM 網(wǎng)絡(luò)建模，然而LSTM網(wǎng)絡(luò)內(nèi)參數(shù)較多，訓(xùn)練時(shí)間較長(zhǎng)。CNN 網(wǎng)絡(luò)相比LSTM 網(wǎng)絡(luò)雖然不能補(bǔ)償傳感器間的時(shí)間偏差，但是其建模計(jì)算速度更快，網(wǎng)絡(luò)更穩(wěn)定和容易收斂[41]。隨著傳感器同步校準(zhǔn)精度的提高，基于CNN 的慣性前端網(wǎng)絡(luò)模型也可以發(fā)揮優(yōu)勢(shì)。ATVIO[27]使用了兩個(gè)并行的3 層CNN 網(wǎng)絡(luò)層分別學(xué)習(xí)IMU 中加速度和角速度中的特征。Aslan等[28]將平滑和去噪的IMU 數(shù)據(jù)使用預(yù)訓(xùn)練的Inception V3 網(wǎng)絡(luò)[42]學(xué)習(xí)慣性特征。在視覺前端，CNN 網(wǎng)絡(luò)無法記憶先前的圖像信息，為此ATVIO[27]使用ConvLSTM 網(wǎng)絡(luò)建模視覺前端，ConvLSTM 網(wǎng)絡(luò)是可以同時(shí)提取圖像時(shí)空相關(guān)特征的網(wǎng)絡(luò)，使視覺前端得以學(xué)習(xí)來自先前圖像特征的約束。此外，經(jīng)過合理初始化的視覺前端網(wǎng)絡(luò)相比未經(jīng)過訓(xùn)練的網(wǎng)絡(luò)模型具有更快的收斂速度，訓(xùn)練過程也更穩(wěn)定，因此特征級(jí)融合的方法一般會(huì)對(duì)前端視覺網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練。

端到端的監(jiān)督學(xué)習(xí)模型的損失函數(shù)θ可以使k時(shí)刻的真實(shí)位姿(pk,φk)與其估計(jì)的地面位姿之間的歐氏距離最小化以實(shí)現(xiàn)最優(yōu)結(jié)果[14,43-44]，一般以均方誤差（mean square error，MSE）計(jì)算，稱為MSE損失函數(shù)。部分?jǐn)?shù)據(jù)集的姿態(tài)真值以四元數(shù)的形式保存，但直接使用四元數(shù)計(jì)算損失會(huì)因其冗余的維數(shù)導(dǎo)致訓(xùn)練難度增加，同時(shí)浪費(fèi)了計(jì)算資源，因此一般會(huì)將四元數(shù)轉(zhuǎn)化為歐拉角使用。網(wǎng)絡(luò)模型復(fù)雜的深層結(jié)構(gòu)使MSE 損失函數(shù)在訓(xùn)練中仍受到諸多限制，模型子網(wǎng)絡(luò)的平均性能較差。于是Liu等[27]將自適應(yīng)損失函數(shù)[45]應(yīng)用于訓(xùn)練過程中，模型在訓(xùn)練過程中自適應(yīng)地調(diào)整參數(shù)，加快了網(wǎng)絡(luò)收斂，同時(shí)強(qiáng)化了對(duì)子網(wǎng)絡(luò)的訓(xùn)練，提升了網(wǎng)絡(luò)整體性能。監(jiān)督學(xué)習(xí)VIO 的損失函數(shù)定義為：

其中，β是用于平衡位置和姿態(tài)的比例因子。

2.2 無監(jiān)督/自監(jiān)督學(xué)習(xí)模型

無監(jiān)督和自監(jiān)督學(xué)習(xí)的VIO 需要通過在訓(xùn)練過程中建立約束模型以擺脫對(duì)數(shù)據(jù)集真值的依賴或應(yīng)對(duì)沒有真值的情況。在深度學(xué)習(xí)與傳統(tǒng)模型結(jié)合的方法中，由于難以提供真實(shí)的視覺特征，利用深度學(xué)習(xí)對(duì)特征點(diǎn)或其他特征進(jìn)行跟蹤匹配，或者實(shí)現(xiàn)深度預(yù)測(cè)等，往往需要用無監(jiān)督或自監(jiān)督學(xué)習(xí)解決。余洪山等[15]的改進(jìn)SuperPoint 網(wǎng)絡(luò)由輕量級(jí)的編碼層、特征點(diǎn)檢測(cè)層和描述符解碼層構(gòu)成，采用稀疏描述符損失函數(shù)進(jìn)行訓(xùn)練，但是網(wǎng)絡(luò)在訓(xùn)練前還需經(jīng)過預(yù)訓(xùn)練獲取合適的初始化參數(shù)，以保證后續(xù)網(wǎng)絡(luò)的正常收斂。CodeVIO[21]用于深度預(yù)測(cè)的網(wǎng)絡(luò)分為兩部分：一部分是修改過的編碼網(wǎng)絡(luò)，通過原始圖像和級(jí)聯(lián)稀疏深度圖預(yù)測(cè)稠密的深度圖及其不確定度；另一部分是變分自編碼器，通過對(duì)深度信息進(jìn)行編碼得到用于VIO 優(yōu)化的深度向量。

Shamwell等[31-32]提出了首個(gè)端到端的無監(jiān)督方法VIOLearner，模型結(jié)構(gòu)如圖6 所示。在IMU 固有參數(shù)和外部校準(zhǔn)參數(shù)未知的情況下，網(wǎng)絡(luò)首先學(xué)習(xí)IMU 狀態(tài)并生成原始軌跡，然后通過多尺度縮放圖像的投影誤差的修正，實(shí)現(xiàn)原始軌跡的在線校正。多尺度的縮放不僅有助于克服訓(xùn)練期間的梯度局部性，而且有助于在運(yùn)行時(shí)進(jìn)行在線誤差校正。Lindgren等[33]提出了Boom-VIO，系統(tǒng)包括一個(gè)學(xué)習(xí)相對(duì)位移的傳統(tǒng)模型、一個(gè)深度網(wǎng)絡(luò)和一個(gè)無監(jiān)督學(xué)習(xí)模型，無監(jiān)督學(xué)習(xí)模型基于VIOLearner。其在網(wǎng)絡(luò)訓(xùn)練過程中加入傳統(tǒng)模型的引導(dǎo)，并得到最終的訓(xùn)練軌跡。DeepVIO[34]通過直接結(jié)合二維光流特征和IMU 原始數(shù)據(jù)來提供絕對(duì)軌跡估計(jì)。系統(tǒng)包括一個(gè)學(xué)習(xí)視覺特征的CNN 光流網(wǎng)絡(luò)，一個(gè)學(xué)習(xí)慣性特征的LSTM網(wǎng)絡(luò)，一個(gè)用于融合的全連接網(wǎng)絡(luò)。此外，還有一個(gè)用于建立自監(jiān)督約束的模塊，能夠分別對(duì)視覺網(wǎng)絡(luò)、IMU 網(wǎng)絡(luò)和整體的網(wǎng)絡(luò)進(jìn)行訓(xùn)練，其模型結(jié)構(gòu)如圖7所示。SelfVIO[25]前端包括基于CNN 的慣性網(wǎng)絡(luò)、視覺網(wǎng)絡(luò)和深度學(xué)習(xí)網(wǎng)絡(luò)，后端由基于多頭自注意力機(jī)制的融合網(wǎng)絡(luò)和LSTM 網(wǎng)絡(luò)組成。其中，深度網(wǎng)絡(luò)學(xué)習(xí)輸出的單目深度圖，與網(wǎng)絡(luò)估計(jì)的位姿、源圖像共同實(shí)現(xiàn)圖像重建。UnVIO[35]同樣通過預(yù)測(cè)圖像深度建立無監(jiān)督約束。此外，UnVIO 在訓(xùn)練過程中采用了滑動(dòng)窗口優(yōu)化的策略，以克服長(zhǎng)期運(yùn)行中誤差累積和尺度模糊的問題。窗口內(nèi)部通過判斷光度一致性建立幾何約束，窗口之間利用三維幾何一致性和軌跡一致性建立約束，這有效緩解了誤差累積的問題。

圖6 VIOLearner的模型結(jié)構(gòu)Fig.6 Model structure of VIOLearner

圖7 DeepVIO 的模型結(jié)構(gòu)Fig.7 Model structure of DeepVIO

無監(jiān)督和自監(jiān)督損失可以利用圖像的時(shí)間或空間性質(zhì)構(gòu)造[31-32]，以表示一個(gè)訓(xùn)練的圖像序列，其中的某一幀It為目標(biāo)圖像，其余的作為源圖像，根據(jù)兩幀圖像間的光度差異可定義損失函數(shù)為：

其中，p是像素點(diǎn)坐標(biāo)值，是基于源圖像Is重建后的源圖像。

3 深度學(xué)習(xí)VIO 的數(shù)據(jù)優(yōu)化與評(píng)估

以上方法從學(xué)習(xí)方式、融合方式、方法特性、方法局限等方面匯總并整理至表1。除建立網(wǎng)絡(luò)模型外，模型的訓(xùn)練、優(yōu)化與評(píng)估方法也至關(guān)重要。深度學(xué)習(xí)VIO 模型的訓(xùn)練和測(cè)試需要使用數(shù)據(jù)集。模型優(yōu)化的最終要求是模型輸出的損失達(dá)到目標(biāo)值，這需要選擇合適的優(yōu)化器，并針對(duì)不同的融合策略和學(xué)習(xí)方式建立與之匹配的損失函數(shù)等，這里只展開介紹損失函數(shù)。評(píng)估方法可以用于對(duì)比系統(tǒng)因模型的改變，或面對(duì)不同的環(huán)境，或與不同方法的橫向?qū)Ρ戎袝r(shí)，表現(xiàn)出這些模型、方法的優(yōu)秀性能和存在的問題。因此，本章將對(duì)VIO 現(xiàn)有的公開數(shù)據(jù)集與評(píng)估方法進(jìn)行總結(jié)，同時(shí)比較部分方法的性能。

表1 基于深度學(xué)習(xí)的VIO 方法概覽Table 1 Overview of deep learning-based VIO methods

3.1 數(shù)據(jù)集

基于深度學(xué)習(xí)的VIO 網(wǎng)絡(luò)模型需要使用大量數(shù)據(jù)進(jìn)行訓(xùn)練以提高泛化能力和提高導(dǎo)航精度。網(wǎng)絡(luò)模型在訓(xùn)練測(cè)試過程中一般使用公共的數(shù)據(jù)集。公共數(shù)據(jù)集按采集數(shù)據(jù)的載體平臺(tái)分類可分為：駕駛類數(shù)據(jù)集KITTI（Odometry 序列）[46]、Malaga Urban[47]、UMich NCLT[48]、Zurich Urban[49]、Canoe[50]、CUHK-AHU[51]等；手持設(shè)備數(shù)據(jù)集TUM-VI[52]、PennCOSYVIO[53]、ADVIO[54]、CVG ZJU[55]、NEAR[56]、UMA-VI[57]、HAUD[58]等；微型飛行器（micro air vehicle，MAV）/無人駕駛飛機(jī)（unmanned aerial vehicle，UAV）等小型機(jī)器人數(shù)據(jù)集EuRoC MAV[59]、AQUALOC[60]、Blackbird UAV[61]等；虛擬系統(tǒng)采集的數(shù)據(jù)集WHU-RSVI[62]、VIODE[63]等。以上數(shù)據(jù)集的基本屬性可見表2。其中，KITTI、EuRoC MAV 是常用的公開數(shù)據(jù)集。

表2 VIO 數(shù)據(jù)集Table 2 VIO datasets

KITTI 數(shù)據(jù)集[46]由德國(guó)卡爾斯魯厄理工學(xué)院和豐田美國(guó)技術(shù)研究院聯(lián)合制作，是目前最大的自動(dòng)駕駛場(chǎng)景中的公開數(shù)據(jù)集。KITTI 包含市區(qū)、鄉(xiāng)村和高速公路等室外場(chǎng)景采集的22 個(gè)序列，其中11 個(gè)有真值。圖像采集自2 個(gè)灰度相機(jī)（FL2-14S3M-C）、2個(gè)彩色相機(jī)（FL2-14S3C-C），采集頻率為10 Hz，IMU采集頻率為100 Hz，真值來自高精度全球定位和慣性導(dǎo)航組成的組合系統(tǒng)OXTS RT 3003。

EuRoC MAV 數(shù)據(jù)集[59]是由蘇黎世聯(lián)邦理工學(xué)院制作的微型飛行器數(shù)據(jù)集，數(shù)據(jù)采集于一個(gè)工廠場(chǎng)景和兩個(gè)室內(nèi)場(chǎng)景。整個(gè)數(shù)據(jù)集包含從良好視覺條件下的緩慢飛行到運(yùn)動(dòng)模糊和光照差的動(dòng)態(tài)飛行共11 個(gè)序列。圖像采集使用雙目相機(jī)MT9V034，采集頻率為20 Hz，IMU使用ADIS16448，采集頻率為200 Hz，真值來自激光跟蹤系統(tǒng)或Vicon 動(dòng)捕系統(tǒng)。

3.2 評(píng)估方法與指標(biāo)

深度學(xué)習(xí)網(wǎng)絡(luò)通常是模塊化設(shè)計(jì)，可以使用消融實(shí)驗(yàn)[64]，即通過刪除、修改或替換某些模塊以判斷網(wǎng)絡(luò)行為和驗(yàn)證一些提出的方法的有效性。

評(píng)估VIO 最重要的指標(biāo)就是導(dǎo)航精度。在VIO方法的評(píng)估實(shí)驗(yàn)中，常用的度量標(biāo)準(zhǔn)包括：

（1）絕對(duì)軌跡誤差（absolute trajectory error，ATE）直接計(jì)算VIO 位姿的估計(jì)值與真實(shí)值之間的差值，可以直觀地反映算法的精度。首先將真實(shí)值與估計(jì)值的時(shí)間戳對(duì)齊，然后計(jì)算每對(duì)位姿之間的差值。一般使用均方根誤差（root mean square error，RMSE）統(tǒng)計(jì)ATE。

（2）相對(duì)位姿誤差（relative pose error，RPE）用于衡量運(yùn)動(dòng)軌跡中固定長(zhǎng)度或時(shí)間內(nèi)的局部準(zhǔn)確度。通過位姿真實(shí)值與估計(jì)值的實(shí)時(shí)比較，可以估計(jì)系統(tǒng)的漂移情況，一般使用RMSE 統(tǒng)計(jì)RPE。

（3）CPU/GPU 的負(fù)載、內(nèi)存的占用、計(jì)算速度等參數(shù)也是VIO 的評(píng)價(jià)指標(biāo)，VIO 不僅要實(shí)現(xiàn)高精度，也要綜合考慮應(yīng)用環(huán)境的成本和實(shí)現(xiàn)條件。

表3 比較了一些重要方法在公開數(shù)據(jù)集中的性能。評(píng)估指標(biāo)為KITTI 的09、10 兩個(gè)序列在長(zhǎng)度為100～800 m 的平均位移和角度的均方根誤差漂移trel（%）和rrel（（°）/hm）以及EuRoC 中Vicon 動(dòng)捕房間中的前5 個(gè)數(shù)據(jù)集的絕對(duì)軌跡誤差。此外表中還添加了經(jīng)典的傳統(tǒng)方法進(jìn)行對(duì)比，包括基于濾波的方法MSCKF[22]、S-MSCKF[65]和基于優(yōu)化的方法OKVIS[66]、VINS-Mono[17]。其中可以看到，在大部分的測(cè)試中深度學(xué)習(xí)方法具有更高的精度。同時(shí)，數(shù)據(jù)集不同可能會(huì)影響深度學(xué)習(xí)方法的結(jié)果，比如Li等[13]的方法在KITTI中具有很高的精度，然而在IMU 數(shù)據(jù)的偏差噪聲更大的EuRoC 精度較差。此外，在遇到光照改變、圖像模糊、相機(jī)運(yùn)動(dòng)過快、圖像和IMU 數(shù)據(jù)丟失等情況時(shí)，深度學(xué)習(xí)的方法表現(xiàn)出更強(qiáng)的魯棒性。

表3 基于深度學(xué)習(xí)的VIO 方法比較Table 3 Comparison of deep learning-based VIO methods

4 總結(jié)與展望

本文簡(jiǎn)述了深度學(xué)習(xí)VIO 的研究現(xiàn)狀，對(duì)研究方法進(jìn)行了梳理和概括，總結(jié)了基于深度學(xué)習(xí)的系統(tǒng)融合策略，分析了深度學(xué)習(xí)VIO 的模型結(jié)構(gòu)，并對(duì)可用于其數(shù)據(jù)集、損失函數(shù)以及評(píng)估模型的方法與指標(biāo)等進(jìn)行了介紹，以期望能對(duì)現(xiàn)有的方法進(jìn)行總結(jié)，以及對(duì)未來的發(fā)展方向提供一些參考。目前可以從兩方面總結(jié)現(xiàn)有方法的性能。

（1）從融合策略的方面來說。深度學(xué)習(xí)與傳統(tǒng)模型結(jié)合的方法利用網(wǎng)絡(luò)可以針對(duì)性地優(yōu)化子模型的性能，進(jìn)而提高系統(tǒng)的魯棒性；同時(shí)，系統(tǒng)內(nèi)部有明確意義的特征可以與其他系統(tǒng)進(jìn)行一定程度的相互融合。這類方法的局限是其限制了隱藏特征的表達(dá)，而且狀態(tài)量的增多會(huì)提高模型的復(fù)雜度，使計(jì)算量增加。端到端的方法對(duì)潛在特征挖掘的能力要高于與傳統(tǒng)模型結(jié)合的方法，但是復(fù)雜網(wǎng)絡(luò)的訓(xùn)練首先需要高性能的計(jì)算機(jī)；其次，網(wǎng)絡(luò)模型內(nèi)部的不可解釋性使得端到端的模型內(nèi)部的高維特征表達(dá)也使其內(nèi)部的特征難以利用，使系統(tǒng)功能僅局限于輸出位姿。

（2）從網(wǎng)絡(luò)模型的學(xué)習(xí)方式來說。監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)的模型都具有很強(qiáng)的魯棒性，在有挑戰(zhàn)性的視覺環(huán)境中相比傳統(tǒng)方法可以保持更高的導(dǎo)航精度。然而，這些模型需要大量數(shù)據(jù)進(jìn)行訓(xùn)練，同時(shí)它們都難以在與訓(xùn)練環(huán)境不同的場(chǎng)景中繼續(xù)保持高精度。監(jiān)督學(xué)習(xí)模型結(jié)構(gòu)更簡(jiǎn)單，訓(xùn)練更容易；無監(jiān)督因無監(jiān)督項(xiàng)的構(gòu)建使模型更為復(fù)雜，同時(shí)訓(xùn)練也相對(duì)困難。

深度學(xué)習(xí)與VIO 結(jié)合的研究正在快速發(fā)展，基于深度學(xué)習(xí)的VIO 的方法研究正不斷地有新的研究成果出現(xiàn)。同樣的，依然存在很多可以優(yōu)化和尚未解決的問題，需要繼續(xù)深入研究?；谝陨洗嬖诘膯栴}，未來開展基于深度學(xué)習(xí)的VIO 方法研究時(shí)可以從初始對(duì)準(zhǔn)、復(fù)雜環(huán)境導(dǎo)航、深度融合和多系統(tǒng)融合等方面著手，具體如下：

（1）初始對(duì)準(zhǔn)。初始對(duì)準(zhǔn)極大地影響后續(xù)位姿估計(jì)，初始化的不準(zhǔn)確將使后續(xù)位姿的回歸快速發(fā)散，初始化是VIO 運(yùn)行過程中非常重要的一步。VIO的初始對(duì)準(zhǔn)因系統(tǒng)初始位置的隨機(jī)性使其難以通過真實(shí)數(shù)據(jù)集進(jìn)行訓(xùn)練，可以使用無監(jiān)督學(xué)習(xí)的方式實(shí)現(xiàn)，在保證對(duì)準(zhǔn)精度和時(shí)間的情況下省略傳感器標(biāo)定、IMU 與相機(jī)校準(zhǔn)等的人工校準(zhǔn)行為。

（2）復(fù)雜環(huán)境導(dǎo)航?；谏疃葘W(xué)習(xí)的方法需要根據(jù)數(shù)據(jù)集進(jìn)行訓(xùn)練，在面對(duì)與訓(xùn)練數(shù)據(jù)不同的場(chǎng)景中，導(dǎo)航的精度會(huì)快速下降。因此，可以建立多場(chǎng)景的大型數(shù)據(jù)集，通過包含更多場(chǎng)景、更多運(yùn)動(dòng)模式的數(shù)據(jù)集提高模型的魯棒性，或者使用遷移學(xué)習(xí)等方法提高模型的泛化性。此外，在深度學(xué)習(xí)與傳統(tǒng)模型結(jié)合的方法中可以學(xué)習(xí)一些高級(jí)特征，比如利用語(yǔ)義信息實(shí)現(xiàn)語(yǔ)義層面的定位約束，提高系統(tǒng)的魯棒性和環(huán)境適應(yīng)性。

（3）深度融合。目前的端到端網(wǎng)絡(luò)模型對(duì)多模態(tài)特征的冗余性和差異性的理解依然有限。特征融合過程中引入新的深度學(xué)習(xí)方法可以進(jìn)一步提高融合深度。在基于濾波和優(yōu)化的VIO 方法中，深度學(xué)習(xí)使多模態(tài)特征的融合不再局限于后端的濾波器或優(yōu)化器，前端的融合可以增加系統(tǒng)的融合深度，提高系統(tǒng)的精度和魯棒性。

（4）多系統(tǒng)融合。系統(tǒng)間的協(xié)作與融合是一個(gè)趨勢(shì)，VIO 可以與其他導(dǎo)航傳感器結(jié)合以適應(yīng)某些特殊環(huán)境或運(yùn)動(dòng)行為。比如與藍(lán)牙、WiFi定位相結(jié)合實(shí)現(xiàn)行人或機(jī)器人的室內(nèi)導(dǎo)航，與全球定位系統(tǒng)（global positioning system，GPS）結(jié)合以提高遠(yuǎn)距離無人機(jī)導(dǎo)航的精度和自主性。也可以投入實(shí)際應(yīng)用中，以輸出位姿、深度地圖等作為輔助信號(hào)，實(shí)現(xiàn)系統(tǒng)的路徑規(guī)劃和自動(dòng)導(dǎo)航等研究。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放