陳文峰 張學習 蔡述庭 熊曉明
技術應用
基于YOLO v3和傳感器融合的機器人定位建圖系統(tǒng)
陳文峰 張學習 蔡述庭 熊曉明
(廣東工業(yè)大學自動化學院,廣東 廣州 510006)
場景中的動態(tài)物體影響移動機器人定位算法的精度,使機器人無法建立蘊含場景信息的高精度地圖,降低定位建圖系統(tǒng)在復雜場景中的魯棒性。針對目前主流動態(tài)SLAM技術受限于系統(tǒng)需求和硬件性能,無法兼顧移動機器人定位精度和系統(tǒng)實時性的問題,提出一種基于YOLO v3和傳感器融合的機器人定位建圖系統(tǒng)。首先,建立融合編碼器和視覺傳感器的機器人運動模型,求解移動機器人位姿;然后,利用深度學習技術剔除復雜場景中的動態(tài)物體,并針對YOLO v3目標檢測網絡特點,采用多視圖幾何方法進行性能優(yōu)化;最后,經測試,本系統(tǒng)相比DS_SLAM具有更優(yōu)的軌跡精度,耗時更短。
傳感器融合;目標檢測;動態(tài)物體;定位;多視圖幾何
同步定位和地圖構建(Simultanous Localization and Mapping, SLAM)是一種利用傳感器獲取移動機器人在環(huán)境中的運動信息和構建未知場景地圖的技術[1],廣泛應用于機器人、未知領域(行星、空中、陸地、海洋等)探索、高風險地區(qū)搜索救援任務、虛擬現實和自動駕駛等領域[2]。
近年來,視覺SLAM(vSLAM)系統(tǒng)由于傳感器成本低廉、性能不俗,受到研究人員的廣泛關注。經典的vSLAM系統(tǒng)在理想室內靜態(tài)場景內,已經相當成熟。目前,動態(tài)場景下vSLAM系統(tǒng)的定位和建圖問題已成為國內外研究的熱點。采用多傳感器融合替換單一傳感器,常見的是融合IMU傳感器的SLAM系統(tǒng),如港科大團隊發(fā)布的VINS-Mono[3]和最新的ORB_SLAM3[4]都采用這種方案;融合深度學習方法的SLAM系統(tǒng)可解決動態(tài)物體對機器人建圖的干擾,如ClusterSLAM[5]利用K-means算法對像素點分簇,計算不同簇的運動模型,恢復物體運動;DS_SLAM采用語義分割方法分離圖像的前景和背景,利用幀間幾何一致性判斷前景是否為動態(tài)物體;KinectFusion[6]和Static Fusion[7]通過聚類對圖像像素點分簇,為每一簇構造獨立的運動模型,然后進行三維重建,并將三維重建的投影與采集圖像進行比對和優(yōu)化。
本文在已有研究成果的基礎上,采用深度相機和編碼器采集數據,通過非線性優(yōu)化的方式融合傳感器數據;利用YOLO v3網絡分離關鍵幀中的動態(tài)物體,通過幀間幾何一致性判別是否為動態(tài)物體;利用多視圖幾何重投影方法,減少目標檢測次數,提高目標檢測線程的性能。
2)圓弧模型,當機器人左右輪差速運動時,軌跡是是圓弧。假設機器人從點到點的軌跡是圓弧,圓心在圓弧的中垂線上,可得出和+1時刻位姿關系為
3)割線模型,圓弧模型計算較為復雜,實際中使用最多的是割線模型。假設機器人沿圓弧的割線方向移動,得到和+1時刻位姿關系為
其中編碼器誤差為
編碼器誤差協方差矩陣可由編碼器噪聲模型得到。
本文采用目標檢測方法,兼顧實時性和識別精度;采用YOLO v3目標檢測網絡,在開源COCO數據集進行訓練。COCO數據集是一個大型的、具有豐富場景的目標檢測和語義分割數據集,可提供80個類別的分類標簽。在傳統(tǒng)SLAM系統(tǒng)框架中增加目標檢測線程,YOLO v3網絡可處理圖片20張/s。Kinect深度相機幀率為20~30,如果對每一幀圖像都進行目標網絡檢測,目標檢測線程會成為系統(tǒng)性能瓶頸,因此,本文采取多視圖幾何法優(yōu)化目標網絡檢測。
動態(tài)像素主要通過2方面影響特征點法SLAM系統(tǒng)的軌跡精度:1)物體運動造成的特征點誤匹配影響求解位姿精度;2)大量動態(tài)特征點成功特征匹配,影響隨機抽樣一致性估算的位姿值。
將其重投影到每一個普通幀上,用投影四邊形框替代普通幀進行目標檢測,減少系統(tǒng)進行目標檢測的開銷,使系統(tǒng)滿足實時性要求。
理想情況下,投影點和基礎矩陣滿足對極約束:
實驗利用Turtlebot3機器人,配置為Intel E3 CPU,P2000 GPU和32 GB內存。本文SLAM系統(tǒng)搭建在ROS平臺,分為Tracking,Local Mapping,Loop Closing,Detecting線程。在DRE_SLAM團隊開源數據集上進行測試。數據集分為ST,LD和HD 3類,分別代表環(huán)境中物體運動為靜止、少量物體運動和大量物體運動。數據集提供RGBD相機和編碼器數據,并提供groundtruth值可對比系統(tǒng)運行結果和實際運動值的誤差。
本系統(tǒng)和DS_SLAM在HD,LD和ST 3個數據集下相機位姿誤差的均方根、均值和中值的對比表如表1所示。
表1 本系統(tǒng)與DS_SLAM軌跡誤差對比
由表1可看出:本系統(tǒng)在3個數據集下都具有更優(yōu)的軌跡精度。
本系統(tǒng)運行3個數據集平均每個線程耗費的時間如表2所示。
表2 本系統(tǒng)各線程耗時
由表2可知:目標檢測線程在新關鍵幀產生時工作,僅耗時55 ms,確保了系統(tǒng)實時性。普通幀個數是關鍵幀的20倍左右,沒有經過多視圖幾何優(yōu)化的目標檢測性能將降低近20倍,同時目標檢測網絡的效果可以覆蓋到每一個普通幀,在關鍵幀頻率較高情況下,有較好效果。普通幀目標檢測效果圖如圖2所示。
圖2 普通幀目標檢測效果圖
由圖2可看出:普通幀中的動態(tài)物體基本可被識別,運動幅度較大的物體出現識別不全的情況。
本文對動態(tài)場景下移動機器人定位問題進行討論,利用多傳感器融合解決了移動機器人在動態(tài)場景魯棒性降低的問題,給出編碼器和相機運動模型,分析2種傳感器模型誤差的來源,并利用非線性優(yōu)化最小化誤差的方式實現了傳感器融合。本文的SLAM系統(tǒng)融合深度學習中目標檢測網絡,進一步排除動態(tài)物體對幀間匹配和三維建圖的干擾;同時利用多視圖幾何法,將目標檢測的效果從關鍵幀投影到普通幀中,縮減了目標檢測線程的開銷。目前系統(tǒng)還存在缺陷,之后的研究工作將從2方面進行優(yōu)化:1)解決編碼器傳感器在打滑情況下,數據出現失真的問題;2)將關鍵幀目標檢測效果重投影到普通幀后,提高目標檢測的精度。
[1] CADENA C, CARLONE L , CARRILLO H, et al. Past, present, and future of simultaneous localization and mapping: toward the robust-perception age[J]. IEEE Transactions on Robotics, 2016,32(6):1309-1332.
[2] FUENTES-PACHECO J, RUIZ-ASCENCIO J, RENDóN-MANCHA J M. Visual simultaneous localization and mapping: a survey[J]. Artifcial Intelligence Review, 2015,43(1):55-81.
[3] Tong Q, Li P, Shen S. VINS-mono: a robust and versatile monocular visual-inertial state estimator[J]. IEEE Transactions on Robotics, 2017(99):1-17.
[4] Campos C , Elvira R , JJG Rodríguez, et al. ORB-SLAM3: an accurate open-source library for visual, visual-inertial and multi-map SLAM[J]. Under review,2020.
[5] HUANG J, YANG S , ZHAO Z , et al. ClusterSLAM: a SLAM backend for simultaneous rigid body clustering and motion estimation[C]// ICCV 2019, 2019.
[6] Newcombe Richard A, Shahram Izadi, Otmar Hilliges, et al. KinectFusion: real-time dense surface mapping and tracking[C]. IEEE International Symposium on Mixed & Augmented Reality IEEE, Basel, Switzerland, 2011.
[7] SCONA R, JAIMEZ M, PETILLOT Y R, et al. StaticFusion: background reconstruction for dense RGB-D SLAM in dynamic environments[C]. 2018 IEEE International Conference on Robotics and Automation (ICRA), Brisbane, QLD, Australia, 2018: 3849-3856.
Location and Mapping System Based on YOLO v3 and Sensor Fusion
Chen Wenfeng Zhang Xuexi Cai Shuting Xiong Xiaoming
(School of Automation, Guangdong University Of Technology, Guangzhou 510006, China)
The existing thermal wave detection technology for structural adhesive damage of glass curtain wall has some problems, such as large amount of thermal image sequence data, less effective information, low resolution and large noise. The thermal image sequence of glass curtain wall is completed by using data reconstruction of single column position, image reconstruction based on wavelet transform, image enhancement based on Wiener filter and thermal wave location based on damage area recognition rule Column processing and damage area identification. The experimental results show that: the wavelet transform technology using adaptive threshold coefficient can effectively reduce the noise components in the high-frequency components of the thermal image and retain the characteristics of the thermal image; Wiener filter uses 3 × 3 template to further smooth the image to ensure most of the important information in the thermal image; the recognition rate of the damage area is 93.7%.
sensor fusion; object detection; dynamic object; location; multi view geometry
TP830.1
A
1674-2605(2021)02-0007-06
10.3969/j.issn.1674-2605.2021.02.007
陳文峰,男,1996年生,碩士研究生,主要研究方向:移動機器人定位和建圖,機器視覺。
張學習(通信作者),男,副教授,碩士生導師,主要研究方向:控制理論與控制工程,智能機器人及信息處理技術。E-mail:zxxnet@gdut.edu.cn