潘志豪 李靖華 李晚秋 盧楚文
北京理工大學珠海學院 廣東 珠海 519000
在視覺里程計設計中應用CNN,可通過創(chuàng)建具有仿生效果的視知覺機制,進行學習,在CNN層內,可共享卷積核參數(shù),層間稀疏連接,基于此特點,可以少量計算學習音頻或像素,效果穩(wěn)定,數(shù)據(jù)要求有限,無須另行特征工程支持,常被應用于計算機視覺(如識圖或識物等)和自然語言處理。
以CNN構建視覺里程計,預處理目標數(shù)據(jù)集,串聯(lián)圖片序列內的相鄰RGB圖片,單圖設置3個通道,獲取6通道張量,將其輸入到神經(jīng)網(wǎng)絡,提取特征,并在全連接層輸入特征,壓縮張量,使用KITTI數(shù)據(jù)集實驗比較。
(1)經(jīng)典幾何算法。經(jīng)典幾何算法應用時間較久,計算方式為幀間估算,可應用于方案設計。在應用之初,該算法是以系數(shù)特征跟蹤為計算基礎,相關研究者針對點特征提取方案,并設計與之相適應的算法,可進行角點處理、邊緣點處理以及區(qū)塊處理,提取相應特征?;谙嚓P特征,預測相機運動,了解ORB、SIFT以及SURF的狀態(tài)。在眾多方法中,較為經(jīng)典且可直接應用的即為LSD-SLAM。該方法得到諸多關注。ORB-SLAM為稀疏特征跟蹤式算法,魯棒性良好,精度較高[1]。
(2)深度學習。在該部分中,執(zhí)行“端-端”模式,開展大數(shù)量自動學習,進行數(shù)據(jù)推斷。采取監(jiān)督和無監(jiān)督兩種學習模式,前者有明確標簽,后者無明確標簽,使用聚類思想。有研究者基于CNN進行相機姿態(tài)估計,對CNN進行訓練,使其由RGB圖像轉化回歸,呈現(xiàn)相機姿態(tài),同時進行場景實驗,包括室內外兩種場景環(huán)境實驗。
(1)特征提取。在以CNN為基礎進行特征提取時,需要6個通道支持,且這些通道是以2個連續(xù)圖片進行串聯(lián)而成,然后實施特征提取。在卷積層,卷積核為3×3,池化核為2×2,串聯(lián)3×3卷積層2個,約等于5×5卷積層,3個3×3卷積層串聯(lián)后約等于7×7卷積層,但前者參數(shù)量僅為1/2后者參數(shù)量,可實現(xiàn)參數(shù)量降低,從大特征捕捉過渡至小特征捕捉。堆疊多個小規(guī)格卷積核,以其取代大卷積核,促進非線性激活函數(shù)增量,使特征學習能力提升。
(2)降維處理。將全連接層設置于卷積層后,可實現(xiàn)特征張量降維,進而實現(xiàn)6維度相機位姿的有效輸出。隱藏部分單元,進行圖片壓縮,進行6維表示,分析圖片相對位姿,獲取特征向量。在全連接層后,有非線性激活函數(shù)與之連接,形成整體網(wǎng)絡結構。
(3)損失函數(shù)處理。位移損失和旋轉損失以加權耦合作為結合方式,將臨近RGB圖片輸入,該圖片在公式中顯示為,根據(jù)相鄰圖片的相對位置,分析圖片姿態(tài),以其為標簽。其中姿態(tài)公式表示為。通過前向網(wǎng)絡傳輸,獲取預測姿態(tài),表示為。從而可知第i組樣本損失函數(shù)如下(公式1)。在該公式中,損失函數(shù)內,旋轉權重占比和函數(shù)位置占比因子表示為β。訓練M對樣本,獲取最優(yōu)參數(shù)(公式2)。
(1)特征提取處理。以ubuntu16.04系統(tǒng)作為操作系統(tǒng),顯卡型號為RTX2080ti,構建實驗平臺。使用pytorch開源框架。使用KITTI數(shù)據(jù)集,進行監(jiān)督學習。在數(shù)據(jù)集內獲取變換矩陣,轉化位姿,使其進行三維平移,表示為三維歐拉角,提升傳輸反向梯度的效率。利用數(shù)據(jù)集進行圖片均值計算,確定標準差,并實施歸一化處理,提取特征。
(2)訓練。訓練網(wǎng)絡,將訓練集中的數(shù)據(jù)進行0.2比例分割,驗證數(shù)據(jù)集。執(zhí)行Adam優(yōu)化算法,初始學習率參數(shù)設置為0.0005。降低batch梯度,Batchsize參數(shù)設置為16。網(wǎng)絡訓練的時間為epoch訓練5min/個,整體收斂網(wǎng)絡訓練誤差,驗證模型誤差,總計約130 epoch,共計26h左右。獲取訓練損失曲線并進行驗證。迭代次數(shù)遞進,損失隨之增加。分析函數(shù)曲線,可知訓練損失和驗證損失收斂良好,兩項收斂效果相近。
結合本次實驗分析視覺里程計設計中的卷積神經(jīng)網(wǎng)絡應用,可知在設計應用時,應優(yōu)化參數(shù),對經(jīng)典幾何算法進行性能補充,促進性能提升。利用試驗擴充原有數(shù)據(jù)集,確保相機可提升運動圖像的捕捉效果。在未來,可應用性能更優(yōu)越的視覺傳感器,提升天氣變化敏感度和光線敏感度,還應加強傳感器融合研究。在該領域,后端優(yōu)化研究有限,也應拓展以深度學習為基礎的整體過程研究,加強閉環(huán)檢測,在深度學習基礎上進行相機位姿性能增強研究,創(chuàng)造更多可能[2]。
如果一個設備想要提供3D效果的AR,顯然運動追蹤模塊是必備的。如果想讓虛擬物體和場景交互,或是想要掃描一個真實物體,那么(稠密)三維地圖可以提供場景的三維幾何信息。而定位(運動追蹤)和建圖(稀疏或者稠密地圖)構成了SLAM的核心功能。因此,SLAM可以說是AR中最基礎的模塊,屬于設備感知周邊環(huán)境的范疇。
綜上所述,本文分析了SLAM視覺里程計設計應用中卷積神經(jīng)網(wǎng)絡的應用原理與具體應用方式,通過串聯(lián),將原始RGM圖片傳輸至神經(jīng)網(wǎng)絡。通過實驗可知,訓練過程要點為設置科學參數(shù),進行參數(shù)調整,優(yōu)質收斂網(wǎng)絡,完善結果測試。利用優(yōu)質模型,使用優(yōu)化器,可提升訓練效果,精準估計位姿,為AR開發(fā)提供便利。