楊斌超,續(xù)欣瑩,2,程 蘭,馮 洲
1.太原理工大學(xué) 電氣與動(dòng)力工程學(xué)院,太原 030024
2.先進(jìn)控制與裝備智能化山西省重點(diǎn)實(shí)驗(yàn)室,太原 030024
隨著自動(dòng)駕駛技術(shù)的研究取得卓越進(jìn)展,未來(lái)自動(dòng)駕駛將可以在更加復(fù)雜的環(huán)境中應(yīng)用,這對(duì)視覺(jué)里程計(jì)的精度和魯棒性提出了更高的要求。視覺(jué)里程計(jì)是通過(guò)分析相關(guān)的攝像機(jī)圖像來(lái)確定車(chē)輛的位置和方向的過(guò)程,被廣泛應(yīng)用于無(wú)人駕駛、機(jī)器人、虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)等[1],是一種性價(jià)比及可靠性較高的新興導(dǎo)航技術(shù)[2]。
傳統(tǒng)的視覺(jué)里程計(jì)[1,3]依賴(lài)人工設(shè)計(jì)的特征、不準(zhǔn)確的建模、環(huán)境動(dòng)力約束復(fù)雜等不足導(dǎo)致其在動(dòng)態(tài)目標(biāo)、光度變化等的環(huán)境條件下依然存在較多挑戰(zhàn)。
與利用物理模型或幾何理論創(chuàng)建人工設(shè)計(jì)的算法不同,基于深度學(xué)習(xí)的視覺(jué)里程計(jì)在預(yù)測(cè)位姿和深度等信息取得了積極進(jìn)展[4-5]。相對(duì)基于雷達(dá)、雙目相機(jī)的視覺(jué)里程計(jì),現(xiàn)有的基于單目相機(jī)的視覺(jué)里程計(jì)魯棒性較差,但在低成本和普適性上有著無(wú)法替代的優(yōu)勢(shì)。
近年來(lái),使用深度學(xué)習(xí)解決幀間位姿估計(jì)和回環(huán)檢測(cè)問(wèn)題取得不錯(cuò)的進(jìn)展[6-7]。與經(jīng)典的幀間估計(jì)提取特征點(diǎn)進(jìn)行匹配后計(jì)算位姿運(yùn)動(dòng)不同,基于深度學(xué)習(xí)的幀間估計(jì)提取的特征點(diǎn)更加稠密[8],并且無(wú)需利用圖像的幾何結(jié)構(gòu)、進(jìn)行特征搜索和匹配等復(fù)雜的操作。Li等人[9]在立體圖像上基于空間與時(shí)間一致性,利用視圖合成建立自監(jiān)督信號(hào),估計(jì)位姿和深度信息。由于自監(jiān)督的訓(xùn)練方式相對(duì)有監(jiān)督的訓(xùn)練方式不需要任何的人工標(biāo)記、更具泛化能力[10],本文采用自監(jiān)督的方式設(shè)計(jì)模型。
自監(jiān)督建立在光度一致性假設(shè)上,即只有當(dāng)場(chǎng)景幾何和相機(jī)姿態(tài)的中間預(yù)測(cè)與物理地面相一致時(shí),幾何視圖合成系統(tǒng)才能始終如一地運(yùn)行良好[11]。在實(shí)際道路環(huán)境中,動(dòng)態(tài)物體會(huì)對(duì)光度一致性假設(shè)造成破壞,從而導(dǎo)致深度和位姿的不準(zhǔn)確估計(jì)。為了解決這個(gè)問(wèn)題,GeoNet[12]通過(guò)強(qiáng)化幾何一致性損失,構(gòu)建剛性結(jié)構(gòu)重構(gòu)器和非剛性運(yùn)動(dòng)定位器來(lái)估計(jì)靜態(tài)場(chǎng)景結(jié)構(gòu)和運(yùn)動(dòng)動(dòng)力學(xué)。Ricco等人[13]使用遮罩去除不穩(wěn)定像素點(diǎn)。但上述方法并不能很好地解決移動(dòng)物體所帶來(lái)的光度投影扭曲。
語(yǔ)義信息可以幫助自監(jiān)督的光度誤差損失去除不確定的像素點(diǎn),而不是簡(jiǎn)單的遮罩。目前,視覺(jué)里程計(jì)與語(yǔ)義信息的融合通常是將語(yǔ)義信息作為單獨(dú)的任務(wù)或在建圖中引入語(yǔ)義映射,而未利用語(yǔ)義信息輔助構(gòu)建深度、位姿等幾何信息。
針對(duì)這類(lèi)移動(dòng)物體對(duì)光度一致性假設(shè)的破壞,本文提出一種基于道路環(huán)境動(dòng)態(tài)語(yǔ)義特征的單目視覺(jué)里程計(jì),簡(jiǎn)稱(chēng)為DS-VO(visual odometry with dynamic semantic),主要內(nèi)容如下:
(1)在語(yǔ)義分割網(wǎng)絡(luò)的基礎(chǔ)上,對(duì)道路環(huán)境下車(chē)輛的前景圖像處理得到動(dòng)態(tài)語(yǔ)義概率先驗(yàn)圖;設(shè)計(jì)語(yǔ)義概率解析網(wǎng)絡(luò),將得到的動(dòng)態(tài)語(yǔ)義概率先驗(yàn)圖作為先驗(yàn)信息,以空間仿射變換的形式影響深度估計(jì)網(wǎng)絡(luò)的中間特征層,使網(wǎng)絡(luò)學(xué)習(xí)到當(dāng)前環(huán)境下的動(dòng)態(tài)信息,提高深度估計(jì)與位姿估計(jì)的魯棒性。在測(cè)試中,只需一次前向傳播就可以得到動(dòng)態(tài)語(yǔ)義特征圖、深度圖和位姿向量。
(2)設(shè)計(jì)兩個(gè)獨(dú)立的全連接層,分別估計(jì)位姿向量中的旋轉(zhuǎn)向量和平移向量。降低大旋轉(zhuǎn)帶來(lái)的連續(xù)幀間交疊區(qū)域少而導(dǎo)致旋轉(zhuǎn)向量的預(yù)測(cè)誤差,同時(shí)避免相同的全連接層網(wǎng)絡(luò)對(duì)旋轉(zhuǎn)向量和平移向量擬合能力的差異問(wèn)題。在損失函數(shù)上,采用結(jié)構(gòu)相似度指標(biāo)(SSIM)和魯棒性較強(qiáng)的L1光度絕對(duì)誤差作為光度誤差的損失函數(shù),與二階梯度平滑損失一起構(gòu)成網(wǎng)絡(luò)的損失函數(shù)。
本文的DS-VO由位姿估計(jì)網(wǎng)絡(luò)和深度估計(jì)網(wǎng)絡(luò)構(gòu)成,并在網(wǎng)絡(luò)中加入語(yǔ)義概率解析網(wǎng)絡(luò),網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。輸入網(wǎng)絡(luò)的圖像為相鄰的多張連續(xù)彩色圖像序列,圖像分辨率為416×128,每3張連續(xù)幀為一個(gè)集合。每個(gè)集合以通道數(shù)為軸疊加為9通道的張量輸入位姿估計(jì)網(wǎng)絡(luò)中,集合的中間幀輸入深度估計(jì)網(wǎng)絡(luò)中,分別產(chǎn)生相鄰幀的6維位姿向量和深度。
編碼解碼器網(wǎng)絡(luò)結(jié)構(gòu)作為神經(jīng)網(wǎng)絡(luò)的一種類(lèi)型,其結(jié)構(gòu)可以保留圖像像素的空間信息。考慮到深度圖具有一定分辨率、邊緣信息復(fù)雜的特點(diǎn),本文的深度估計(jì)網(wǎng)絡(luò)基于編碼解碼結(jié)構(gòu),以恢復(fù)原圖像的完整深度信息。如圖1所示,通過(guò)輸入一張當(dāng)前車(chē)輛的前景圖像產(chǎn)生對(duì)應(yīng)四個(gè)尺度的稠密深度圖(灰色矩形)。其具體網(wǎng)絡(luò)結(jié)構(gòu)主要由7組卷積和反卷積組成,反卷積由Zeiler等人提出[14],與卷積一樣都是通過(guò)網(wǎng)絡(luò)的反向傳播進(jìn)行參數(shù)優(yōu)化。
圖1 DS-VO網(wǎng)絡(luò)設(shè)計(jì)Fig.1 Network structure of DS-VO
在道路環(huán)境下,存在大量動(dòng)態(tài)物體、不穩(wěn)定實(shí)例,這會(huì)對(duì)光度一致性假設(shè)條件構(gòu)成破壞,有研究使用掩碼或遮罩來(lái)對(duì)光度不穩(wěn)定的像素進(jìn)行弱化處理[15],也有研究直接處理光度誤差損失過(guò)大的像素點(diǎn)[11]。通過(guò)實(shí)驗(yàn),發(fā)現(xiàn)在像素層面的簡(jiǎn)單弱化不穩(wěn)定像素點(diǎn)光度或者簡(jiǎn)單強(qiáng)化穩(wěn)定像素點(diǎn)光度并不會(huì)達(dá)成很好的效果。本文借鑒Wang等人[16]的方法,提出語(yǔ)義概率解析網(wǎng)絡(luò)。在深度估計(jì)網(wǎng)絡(luò)的編碼解碼結(jié)構(gòu)中加入概率解析網(wǎng)絡(luò)(圖1黃色矩形),并融合上下文信息,其具體細(xì)節(jié)結(jié)構(gòu)如圖2所示,其中Semantics為語(yǔ)義概率先驗(yàn),由Deeplab[17]產(chǎn)生,Conv feature和Upconv feature分別為編碼和解碼結(jié)構(gòu)的特征層,Osem為語(yǔ)義概率解析網(wǎng)絡(luò)輸出特征層,即動(dòng)態(tài)語(yǔ)義概率先驗(yàn)信息:
圖2 語(yǔ)義概率解析網(wǎng)絡(luò)Fig.2 Semantic probability analysis network
式中,·為點(diǎn)乘計(jì)算,P為語(yǔ)義概率先驗(yàn),ν為語(yǔ)義概率解析網(wǎng)絡(luò),其輸入的通道數(shù)為語(yǔ)義類(lèi)別數(shù),輸出的通道數(shù)和上下文連接通道的特征圖通道數(shù)一致,φ,ω為輸入的特征圖F通過(guò)語(yǔ)義概率解析網(wǎng)絡(luò)產(chǎn)生的參數(shù)對(duì)。
位姿估計(jì)可以連續(xù)跟蹤車(chē)輛的運(yùn)動(dòng)并產(chǎn)生相對(duì)位姿,通過(guò)在已有的初始化條件下整合相對(duì)位姿重建車(chē)輛的全局運(yùn)動(dòng)軌跡?,F(xiàn)有的位姿估計(jì)網(wǎng)絡(luò)存在兩個(gè)主要問(wèn)題:第一,由于在道路環(huán)境下大旋轉(zhuǎn)會(huì)導(dǎo)致連續(xù)幀之間交疊區(qū)域過(guò)小,對(duì)光度一致性造成一定程度的破壞;并且旋轉(zhuǎn)向量的表示與平移向量表示相比,具有更高的非線性,相對(duì)訓(xùn)練難度較大。第二,位姿預(yù)測(cè)并非傳統(tǒng)意義上的圖像預(yù)測(cè),而是一種運(yùn)動(dòng)估計(jì),如何通過(guò)簡(jiǎn)單有效的網(wǎng)絡(luò)預(yù)測(cè)位姿向量達(dá)到較好的精度成為一個(gè)具有挑戰(zhàn)性的問(wèn)題。本文提出使用2個(gè)不同的全連接網(wǎng)絡(luò)(圖1的橙色矩形)分別處理位姿向量中的旋轉(zhuǎn)向量和平移向量,以避免相同的全連接層對(duì)旋轉(zhuǎn)向量和平移向量擬合能力的不同導(dǎo)致出現(xiàn)預(yù)測(cè)誤差,進(jìn)一步利用簡(jiǎn)單的網(wǎng)絡(luò)結(jié)構(gòu)提升位姿估計(jì)的能力,保證了位姿估計(jì)中不同類(lèi)型向量估計(jì)的準(zhǔn)確性。
位姿估計(jì)網(wǎng)絡(luò)包含:7層卷積層和2組3層全連接層,每個(gè)卷積層后皆有批歸一化層,避免梯度消失,每個(gè)全連接層后為ReLU(rectified linear unit)非線性激活函數(shù)和Dropout層。Dropout層防止網(wǎng)絡(luò)過(guò)擬合,而ReLU函數(shù)可以有效進(jìn)行梯度下降的反向傳播,減少參數(shù)量,避免梯度問(wèn)題。
為了能使網(wǎng)絡(luò)進(jìn)行自監(jiān)督訓(xùn)練,本文利用光度幾何一致性構(gòu)建損失函數(shù),通過(guò)損失函數(shù)的反向傳播進(jìn)行訓(xùn)練。光度幾何一致性表示幾何投影兩個(gè)連續(xù)的單目圖像中對(duì)應(yīng)像素點(diǎn)之間的約束,通過(guò)最小化光度誤差,使網(wǎng)絡(luò)以端到端的方式學(xué)習(xí)6維位姿向量和深度地圖。
一張圖像幀I輸入深度預(yù)測(cè)網(wǎng)絡(luò)產(chǎn)生相應(yīng)的深度圖D,相鄰的3個(gè)圖像幀序列輸入位姿預(yù)測(cè)網(wǎng)絡(luò)產(chǎn)生2個(gè)相鄰幀間的位姿變換[R|t],其中,R為旋轉(zhuǎn)向量,t為平移向量,兩者共同構(gòu)成位姿向量[R|t]。以相鄰的兩張圖像幀為例,光度誤差的損失來(lái)自于兩張相鄰的單目圖像,圖3展示了單個(gè)像素計(jì)算光度誤差的方式。這里,假設(shè)第一張圖像幀I1的一個(gè)像素點(diǎn)為p1,p1所對(duì)應(yīng)的在第二張圖像幀I2的一個(gè)像素點(diǎn)為p2,I1和I2之間的位姿向量為送入深度預(yù)測(cè)網(wǎng)絡(luò)得出的深度圖為D2,p2所對(duì)應(yīng)的深度為D2(p2),則可以通過(guò)p2估計(jì)出p1,公式如下:
圖3 光度誤差Fig.3 Photometric error
式中,K1和K2分別是圖像幀I1和I2對(duì)應(yīng)兩幅圖像的本征矩陣。通過(guò)估計(jì)得到的深度和位姿對(duì)每個(gè)像素點(diǎn)使用同樣的計(jì)算過(guò)程和相應(yīng)的空間轉(zhuǎn)移[18],可以通過(guò)圖像I2得到I1的投影圖像,將I1的投影圖像與I1作光度誤差比較,兩者越相似則表示估計(jì)得到的深度與位姿越準(zhǔn)確。
早期研究中,單目自監(jiān)督的深度估計(jì)主要依賴(lài)基于光度一致性計(jì)算光度誤差[15],然而直接計(jì)算光度誤差作為損失函數(shù)會(huì)導(dǎo)致深度估計(jì)網(wǎng)絡(luò)魯棒性較低。本文使用結(jié)構(gòu)相似性指標(biāo)(SSIM)作為損失函數(shù)的一部分[19],與L1光度絕對(duì)誤差一起作為單目光度誤差損失函數(shù),用來(lái)評(píng)估目標(biāo)圖像和投影生成圖像的相似度。SSIM在超分辨[20]、圖像去模糊[21]等都有應(yīng)用,SSIM越大,表明投影圖像與原圖像之間的差距越小,當(dāng)兩圖像完全相同時(shí),SSIM為1。L1損失函數(shù)為最小絕對(duì)值誤差,較L2損失函數(shù)相比魯棒性更強(qiáng)??梢缘玫交跓o(wú)監(jiān)督的單目光度誤差損失為:
式中,α是平衡系數(shù)[22],Ik為圖像序列中的一張圖像幀,為圖像幀Ik通過(guò)計(jì)算投影和雙線性插值后生成的圖像。
由于深度不連續(xù)性經(jīng)常出現(xiàn)在圖像的像素梯度中,為了去除不準(zhǔn)確的預(yù)測(cè)、解決深度和位姿估計(jì)中的梯度局部性問(wèn)題和消除低紋理區(qū)域?qū)W習(xí)深度的不連續(xù)性,本文在損失公式中引入深度平滑項(xiàng)[15]。深度平滑項(xiàng)對(duì)相鄰像素進(jìn)行梯度進(jìn)行計(jì)算,與光度誤差損失一起構(gòu)成網(wǎng)絡(luò)的損失函數(shù)。由于一階梯度平滑項(xiàng)會(huì)導(dǎo)致深度圖梯度趨于零,而深度圖具有連續(xù)性,其梯度期望為常值,所以本文采用二階梯度平滑項(xiàng),深度平滑項(xiàng)為預(yù)測(cè)深度圖的二階梯度的L1范數(shù),其公式如下:
式中,||為絕對(duì)值,β為深度平滑損失的權(quán)重,Dk是Ik所估計(jì)的深度圖,?為向量的微分計(jì)算,T為轉(zhuǎn)置。
在訓(xùn)練過(guò)程中,將單目圖像序列同時(shí)輸入深度估計(jì)網(wǎng)絡(luò)和位姿估計(jì)網(wǎng)絡(luò),利用卷積神經(jīng)網(wǎng)絡(luò)強(qiáng)大的建模能力預(yù)測(cè)位姿向量和深度圖,結(jié)合輸入的原始圖像、深度圖以及位姿向量,根據(jù)光度誤差計(jì)算,重建出下一幀圖像,并將重建的下一幀圖像與真實(shí)的下一幀圖像進(jìn)行對(duì)比,計(jì)算出損失。通過(guò)損失函數(shù)反向傳播到神經(jīng)網(wǎng)絡(luò),調(diào)整網(wǎng)絡(luò)參數(shù),改進(jìn)生成的結(jié)果,不斷重復(fù)該過(guò)程,直到重建誤差降到最小,神經(jīng)網(wǎng)絡(luò)趨于擬合。本文的網(wǎng)絡(luò)具體流程如圖4所示。
圖4 網(wǎng)絡(luò)流程圖Fig.4 Flow chart of network
實(shí)驗(yàn)使用KITTI數(shù)據(jù)集[23]、Cityscapes數(shù)據(jù)集[24]和PASCAL VOC 2012數(shù)據(jù)集[25],其中使用KITTI數(shù)據(jù)集的視頻圖像用于訓(xùn)練、深度預(yù)測(cè)的評(píng)估,KITTI Odometry數(shù)據(jù)集用于位姿預(yù)測(cè)的評(píng)估,Cityscapes、PASCAL VOC數(shù)據(jù)集用于語(yǔ)義先驗(yàn)產(chǎn)生網(wǎng)絡(luò)的訓(xùn)練。
KITTI數(shù)據(jù)集是目前國(guó)際上最大的自動(dòng)駕駛場(chǎng)景下的視覺(jué)算法評(píng)測(cè)數(shù)據(jù)集,包含市區(qū)、鄉(xiāng)村和高速公路等場(chǎng)景采集的真實(shí)圖像數(shù)據(jù),包括原始的輸入原圖像、雷達(dá)三維點(diǎn)云數(shù)據(jù)和相機(jī)運(yùn)動(dòng)軌跡。Cityscapes數(shù)據(jù)集包含了5 000張精細(xì)標(biāo)注的圖像,其中包含50個(gè)城市的不同背景,以及30類(lèi)涵蓋地面、建筑、交通標(biāo)志、自然、人和車(chē)輛等的物體標(biāo)注。PASCAL VOC數(shù)據(jù)集主要是針對(duì)視覺(jué)任務(wù)中監(jiān)督學(xué)習(xí)提供標(biāo)簽數(shù)據(jù),主要類(lèi)別為人、動(dòng)物、交通車(chē)輛等。
諸多的相關(guān)工作中都采用了Eigen劃分的單目深度估計(jì)數(shù)據(jù)集[26],這個(gè)測(cè)試數(shù)據(jù)由28個(gè)場(chǎng)景、697張圖片構(gòu)成,不包括訓(xùn)練圖片,為了方便與其他方法比較,本文也采用了這個(gè)數(shù)據(jù)集來(lái)評(píng)估深度預(yù)測(cè)效果。
系統(tǒng)工作站采用Nvidia Titan Xp GPU進(jìn)行訓(xùn)練,實(shí)驗(yàn)使用PyTorch深度學(xué)習(xí)框架。初始化Adam[27]優(yōu)化器參數(shù)β1=0.9,β2=0.999。最初按照經(jīng)驗(yàn)值設(shè)置學(xué)習(xí)率為0.001,此時(shí)模型難以收斂;改進(jìn)學(xué)習(xí)率為0.000 1,訓(xùn)練曲線振蕩較大,無(wú)法達(dá)到最優(yōu)值。經(jīng)過(guò)多次調(diào)整。最終選擇合適的學(xué)習(xí)率為0.000 2,批尺寸設(shè)置為4。訓(xùn)練迭代次數(shù)為20萬(wàn)次時(shí),模型趨于擬合。所有訓(xùn)練數(shù)據(jù)為單目圖像,沒(méi)有任何數(shù)據(jù)標(biāo)簽下自監(jiān)督訓(xùn)練。將訓(xùn)練的圖像大小調(diào)整為128×416,并進(jìn)行隨機(jī)縮放與裁剪以擴(kuò)充數(shù)據(jù)集。
通過(guò)對(duì)引入的語(yǔ)義概率解析網(wǎng)絡(luò)在不同網(wǎng)絡(luò)結(jié)構(gòu)上的訓(xùn)練結(jié)果對(duì)比驗(yàn)證網(wǎng)絡(luò)設(shè)計(jì)的合理性。為了直觀地評(píng)估消融實(shí)驗(yàn)的結(jié)果,給出了上述11個(gè)深度估計(jì)評(píng)價(jià)指標(biāo)對(duì)4個(gè)網(wǎng)絡(luò)的深度估計(jì)結(jié)果,以及絕對(duì)軌跡誤差(ATE)和相對(duì)軌跡誤差(RE)指標(biāo)[23]對(duì)4個(gè)網(wǎng)絡(luò)的位姿估計(jì)結(jié)果,如圖5所示。Base即位姿估計(jì)和深度估計(jì)網(wǎng)絡(luò)中未引入語(yǔ)義概率解析網(wǎng)絡(luò);Sem-en為在深度估計(jì)網(wǎng)絡(luò)中的編碼部分引入語(yǔ)義概率解析網(wǎng)絡(luò);Sem-de為在深度估計(jì)網(wǎng)絡(luò)中的解碼部分引入語(yǔ)義概率解析網(wǎng)絡(luò);Sem-all為在深度估計(jì)網(wǎng)絡(luò)中的編碼及解碼部分引入語(yǔ)義概率解析網(wǎng)絡(luò)??梢园l(fā)現(xiàn),在深度估計(jì)中,語(yǔ)義先驗(yàn)加入到深度估計(jì)網(wǎng)絡(luò)的解碼結(jié)構(gòu)帶來(lái)了較好的效果,同樣在位姿估計(jì)中,相較不引入語(yǔ)義先驗(yàn),在網(wǎng)絡(luò)中引入語(yǔ)義先驗(yàn)提升了位姿估計(jì)的精度。深度估計(jì)定量分析的評(píng)價(jià)指標(biāo)如下:
圖5 消融實(shí)驗(yàn)Fig.5 Ablation experiment
圖5中a1、a2、a3分別代表深度估計(jì)預(yù)測(cè)精度ζ,三個(gè)不同的閾值(1.25,1.252,1.253)。它統(tǒng)計(jì)像素的百分比預(yù)測(cè)的深度值與真實(shí)值之比小于閾值。預(yù)測(cè)的深度值與真實(shí)值之比小于閾值。越接近1,預(yù)測(cè)結(jié)果越好,評(píng)價(jià)指標(biāo)公式如下:
對(duì)于語(yǔ)義概率先驗(yàn)的產(chǎn)生網(wǎng)絡(luò),使用文獻(xiàn)[17]提出的語(yǔ)義分割網(wǎng)絡(luò),在PASCAL VOC數(shù)據(jù)集預(yù)訓(xùn)練后在Cityscapes數(shù)據(jù)集上精調(diào),語(yǔ)義概率先驗(yàn)的產(chǎn)生網(wǎng)絡(luò)產(chǎn)生8個(gè)動(dòng)態(tài)物體類(lèi)別概率,輸出的語(yǔ)義概率先驗(yàn)作為語(yǔ)義概率解析網(wǎng)絡(luò)的輸入,語(yǔ)義概率解析網(wǎng)絡(luò)輸出為動(dòng)態(tài)語(yǔ)義概率先驗(yàn)信息。如圖6所示,本文對(duì)語(yǔ)義先驗(yàn)產(chǎn)生網(wǎng)絡(luò)所產(chǎn)生的語(yǔ)義先驗(yàn)進(jìn)行了可視化,可以清晰地看到語(yǔ)義概率對(duì)于動(dòng)態(tài)物體的理解能力。
圖6 動(dòng)態(tài)語(yǔ)義概率先驗(yàn)可視化Fig.6 Dynamic semantic probability prior visualization
本文從測(cè)試場(chǎng)景中排除所有平均光流值小于1像素的靜態(tài)序列幀進(jìn)行訓(xùn)練。使用的數(shù)據(jù)一共有30 945個(gè)序列,其中23 982個(gè)序列用于訓(xùn)練,6 963個(gè)序列用于驗(yàn)證。首先進(jìn)行定量對(duì)比實(shí)驗(yàn),將本文方法與現(xiàn)有方法比較,深度估計(jì)的閾值精度如圖7所示,仍使用同圖5相同的深度估計(jì)預(yù)測(cè)精度ζ,深度估計(jì)對(duì)比結(jié)果如表1所示。
表1 深度估計(jì)量化結(jié)果對(duì)比Table 1 Comparison of depth estimation quantitative results
圖7 閾值精度評(píng)價(jià)指標(biāo)對(duì)比Fig.7 Comparison of threshold accuracy evaluation indicators
分析上述實(shí)驗(yàn)結(jié)果,與現(xiàn)有的有監(jiān)督方法[26,28]和無(wú)監(jiān)督方法[9,15,29]相比,本文方法在無(wú)深監(jiān)督信號(hào)的情況下,取得了更好的深度估計(jì)效果。為了直觀評(píng)估深度估計(jì)的結(jié)果,本文與文獻(xiàn)[15]的方法進(jìn)行對(duì)比,分別可視化本文引入和不引入語(yǔ)義先驗(yàn)的網(wǎng)絡(luò)的深度估計(jì)結(jié)果,并可視化深度真值,如圖8所示。可以發(fā)現(xiàn),相較于其他方法對(duì)于深度估計(jì)存在深度圖模糊、邊緣不清、深度不連續(xù)、不完整的現(xiàn)象,本文方法引入動(dòng)態(tài)物體語(yǔ)義先驗(yàn)后,深度估計(jì)可以準(zhǔn)確估計(jì)深度圖,有效改善深度圖不連續(xù)、模糊、空洞等現(xiàn)象,并且深度圖邊緣更加清晰。
圖8 深度估計(jì)結(jié)果對(duì)比Fig.8 Comparison of depth estimation results
為了量化評(píng)估位姿估計(jì)網(wǎng)絡(luò),使用KITTI odometry 09和10序列進(jìn)行測(cè)試,并與一些已經(jīng)提出的方法進(jìn)行比較,對(duì)比結(jié)果如表2所示,其中,第四行數(shù)據(jù)為數(shù)據(jù)集的里程計(jì)真值的平均值。與ORB-SLAM2等在長(zhǎng)期具有滑動(dòng)窗口優(yōu)化相比,由于本文所設(shè)計(jì)的視覺(jué)里程計(jì)是在短期的圖像序列片段進(jìn)行訓(xùn)練和測(cè)試,本文方法在短期評(píng)估上,即相對(duì)位姿的評(píng)估更具優(yōu)勢(shì)。與文獻(xiàn)[15]方法相比,本文方法在序列09上的絕對(duì)軌跡誤差指標(biāo)均值降低1%,標(biāo)準(zhǔn)差降低1.2%;與人工設(shè)計(jì)特征點(diǎn)的傳統(tǒng)算法[30]相比,本文方法也取得了相似或更優(yōu)的結(jié)果,因此本文方法有著更好的表現(xiàn)。
表2 絕對(duì)軌跡誤差(ATE)Table 2 Absolute trajectory error(ATE)
本文提出一種基于道路環(huán)境動(dòng)態(tài)語(yǔ)義特征的視覺(jué)里程計(jì)(DS-VO),通過(guò)神經(jīng)網(wǎng)絡(luò)模型直接將輸入原始數(shù)據(jù)和輸出目標(biāo)連接起來(lái),不再需要人工設(shè)計(jì)特征;分析了在視覺(jué)里程計(jì)中基于光度一致性的自監(jiān)督網(wǎng)絡(luò)存在的局限性,提出語(yǔ)義概率解析網(wǎng)絡(luò)為深度估計(jì)網(wǎng)絡(luò)提供動(dòng)態(tài)物體先驗(yàn),以增強(qiáng)自監(jiān)督網(wǎng)絡(luò)的魯棒性;針對(duì)平移和旋轉(zhuǎn)向量的網(wǎng)絡(luò)訓(xùn)練難度不一致,提出使用兩個(gè)獨(dú)立的全連接層分別估計(jì)平移和旋轉(zhuǎn)向量。實(shí)驗(yàn)結(jié)果表明,本文算法可以顯著提升深度估計(jì)與位姿估計(jì)的精度。