亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        視覺即時定位與建圖算法綜述

        2025-02-28 00:00:00王華龍陳彥澤劉志成馬興錄
        計算機(jī)應(yīng)用研究 2025年2期
        關(guān)鍵詞:未來發(fā)展深度學(xué)習(xí)

        摘 要:視覺即時定位與建圖(visual simultaneous localization and mapping,VSLAM)技術(shù)利用視覺傳感器分析圖像信息,使機(jī)器人在未知環(huán)境中實(shí)現(xiàn)自主定位和實(shí)時三維地圖構(gòu)建,是機(jī)器人導(dǎo)航和自動駕駛等任務(wù)的關(guān)鍵。為了給研究人員提供有價值的參考,梳理了VSLAM的研究現(xiàn)狀和最新進(jìn)展。首先,深入探討了機(jī)器人視覺SLAM算法,根據(jù)不同的傳感器類型,概述了六種主流的視覺SLAM算法。對這些算法的基本原理進(jìn)行系統(tǒng)分析,并對其中的經(jīng)典算法進(jìn)行了精煉總結(jié)。進(jìn)一步地,將視覺SLAM算法分類為基于特征、基于直接法和基于學(xué)習(xí)的算法三大類,并詳細(xì)探討了各自的優(yōu)缺點(diǎn)。最后,展望了視覺SLAM技術(shù)未來的發(fā)展方向,重點(diǎn)關(guān)注了深度學(xué)習(xí)、多傳感器融合及實(shí)時性能優(yōu)化等關(guān)鍵研究領(lǐng)域。

        關(guān)鍵詞: 視覺SLAM; 特征法; 直接法; 深度學(xué)習(xí); 未來發(fā)展

        中圖分類號: TP242;TP391.41 文獻(xiàn)標(biāo)志碼: A 文章編號: 1001-3695(2025)02-001-0321-13

        doi: 10.19734/j.issn.1001-3695.2024.04.0210

        Survey of visual simultaneous localization and mapping algorithms

        Wang Hualong, Chen Yanze, Liu Zhicheng, Ma Xinglu

        (School of Information Science amp; Technology, Qingdao University of Science amp; Technology, Qingdao Shandong 266061, China)

        Abstract:VSLAM technology utilizes visual sensors to analyze image information, enabling robots to achieve autonomous localization and real-time 3D map construction in unknown environments. It is a critical component for tasks such as robot navigation and autonomous driving. To provide valuable references for researchers, this paper reviewed the current state and latest advancements in VSLAM. Firstly, it conducted an in-depth investigation of robot visual SLAM algorithms based on different sensor types, summarizing six major VSLAM algorithms. By systematically analyzing the fundamental principles of these algorithms, it provided concise summaries of classical algorithms. Furthermore, VSLAM algorithms were classified into three main categories: feature-based, direct-based, and learning-based, with detailed discussions of their respective advantages and disadvantages. Finally, it explored future directions for VSLAM technology, focusing on key research areas such as deep lear-ning, multi-sensor fusion, and real-time performance optimization.

        Key words:visual SLAM; feature extraction; direct method; deep learning; future development

        0 引言

        機(jī)器人在未知環(huán)境中實(shí)現(xiàn)自主導(dǎo)航,需要解決的關(guān)鍵問題是定位和建圖。為解決這一問題,視覺同時定位與建圖技術(shù)應(yīng)運(yùn)而生。視覺SLAM技術(shù)主要使用相機(jī)作為關(guān)鍵傳感器,通過處理獲取的圖像信息來實(shí)現(xiàn)定位和建圖。在視覺SLAM的早期研究中,學(xué)術(shù)界重點(diǎn)關(guān)注的是基于濾波和優(yōu)化技術(shù)的幾何導(dǎo)向算法。擴(kuò)展卡爾曼濾波(extended Kalman filter,EKF)和圖優(yōu)化方法曾是該領(lǐng)域內(nèi)研究的核心。這些傳統(tǒng)視覺SLAM技術(shù)依賴于精心設(shè)計的視覺特征提取以及復(fù)雜的幾何模型,其往往適用于紋理豐富、結(jié)構(gòu)清晰的環(huán)境。然而隨著深度學(xué)習(xí)技術(shù)的飛速進(jìn)步,基于神經(jīng)網(wǎng)絡(luò)的視覺SLAM方法逐漸成為研究前沿。因?yàn)榛谏窠?jīng)網(wǎng)絡(luò)的視覺SLAM方法能夠從數(shù)據(jù)中自動學(xué)習(xí)特征表示,進(jìn)而在復(fù)雜且多變的現(xiàn)實(shí)環(huán)境中提供更魯棒的性能。視覺SLAM 領(lǐng)域近年來取得了顯著的進(jìn)步,其中深度學(xué)習(xí)與傳統(tǒng)視覺SLAM方法的融合推動了這一領(lǐng)域的創(chuàng)新[1。傳統(tǒng)的視覺SLAM方法主要涉及特征提取、姿態(tài)估計和地圖構(gòu)建,深度學(xué)習(xí)技術(shù)的引入使這些任務(wù)的執(zhí)行變得更為準(zhǔn)確和高效,進(jìn)而提升了視覺SLAM的整體性能[2,3。

        在過去的幾十年里,視覺SLAM算法取得了長足的進(jìn)展,這類算法已成為計算機(jī)視覺和機(jī)器人技術(shù)領(lǐng)域的研究熱點(diǎn)之一[4。其中基于特征的視覺SLAM算法是常用的經(jīng)典方法,其代表算法有ORB-SLAM[5~7和PL-SVO[8等。這些算法的共同點(diǎn)為通過檢測圖像中的關(guān)鍵點(diǎn)來提取特征描述子,并通過特征匹配和三角化來進(jìn)行地圖的構(gòu)建和定位。這類算法的優(yōu)勢在于其實(shí)時性和魯棒性,并且已在許多領(lǐng)域得到了廣泛應(yīng)用?;谥苯拥囊曈XSLAM算法是近年來的研究熱點(diǎn),這類算法利用像素級別的圖像信息,通過優(yōu)化光度誤差來進(jìn)行地圖構(gòu)建和定位,其代表性算法有LSD-SLAM[9和DTAM[10等。這類算法均通過稠密光度匹配和優(yōu)化技術(shù)實(shí)現(xiàn)更精確的地圖構(gòu)建和定位,并且在紋理稀疏或運(yùn)動模糊的環(huán)境中表現(xiàn)更為出色。目前對于此類算法的研究重點(diǎn)關(guān)注于使用稀疏特征和優(yōu)化算法進(jìn)行視覺SLAM,例如文獻(xiàn)[9]提出了基于稀疏直接特征的SLAM算法LSD-SLAM,此算法通過對關(guān)鍵點(diǎn)進(jìn)行精確描述和匹配來估計相機(jī)位姿[11?;趯W(xué)習(xí)的方法在視覺SLAM領(lǐng)域的發(fā)展具有巨大潛力,深度學(xué)習(xí)技術(shù)特別是卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN),已被成功應(yīng)用于視覺SLAM中的各個環(huán)節(jié),如特征提取、深度估計以及相機(jī)位姿估計等。如文獻(xiàn)[12,13]提出了基于深度學(xué)習(xí)的端到端視覺SLAM算法,這些算法利用深度學(xué)習(xí)從大規(guī)模數(shù)據(jù)中學(xué)習(xí)特征表示和地圖結(jié)構(gòu),顯著提高了視覺SLAM算法的性能和魯棒性。

        1 視覺SLAM中使用的傳感器類型

        SLAM算法能夠利用其傳感器收集的數(shù)據(jù)來推斷當(dāng)前的位置、估計路徑,并繪制周圍環(huán)境的地圖[4。激光SLAM算法依賴于激光雷達(dá)的精準(zhǔn)測距,并且在弱光環(huán)境中表現(xiàn)出色,但激光雷達(dá)的成本高昂并且需要較高的算力。視覺SLAM算法主要依賴于視覺傳感器的精準(zhǔn)感知。在視覺SLAM領(lǐng)域,視覺傳感器的作用至關(guān)重要,因?yàn)橐曈X傳感器不僅提供了一種成本效益高的方式來捕獲環(huán)境數(shù)據(jù),還能呈現(xiàn)出豐富的環(huán)境細(xì)節(jié),但只使用視覺傳感器亦存在著局限性,特別是在光線不足的情況下,會遇到由于視覺信息不足導(dǎo)致的歧義問題。為克服這些問題并提升算法的性能,一個有效且通用的方法是將SLAM算法集成額外的傳感器,例如將慣性測量單元(inertial measurement unit,IMU)或激光雷達(dá)與相機(jī)結(jié)合使用,增加額外的傳感器可以極大地豐富有關(guān)相機(jī)定位和運(yùn)動狀態(tài)的信息。雖然SLAM算法常用的慣性傳感器是加速計和陀螺儀,它們能提供低延遲的連續(xù)運(yùn)動跟蹤,但普遍存在的問題是容易產(chǎn)生漂移,并且缺乏環(huán)境信息[14。除了結(jié)合上述兩種傳感器,還可以結(jié)合檢測深度的傳感器來增強(qiáng)其功能,深度傳感器與傳統(tǒng)相機(jī)結(jié)合使用時可以極大地改善運(yùn)動估計和定位精度。在實(shí)際應(yīng)用中通常有單目相機(jī)、雙目相機(jī)、RGB-D相機(jī)以及事件相機(jī)[15,16四種主要類型的視覺傳感器,每種類型對應(yīng)的算法都有其獨(dú)特的優(yōu)勢和局限性,在表1進(jìn)行了詳細(xì)比較和分析。為了更全面地理解各類VSLAM算法的能力和特點(diǎn),本章將深入探討根據(jù)所采用的攝像頭類型及集成傳感器的不同而劃分出六個核心類別,對這些類別進(jìn)行了分類,并闡述其工作原理、適用情況以及如何相互補(bǔ)充以強(qiáng)化整個SLAM算法。

        1.1 單目SLAM

        單目相機(jī)因其成本效益高和結(jié)構(gòu)簡單而廣受青睞,但在地圖構(gòu)建的過程中,準(zhǔn)確地估計三維空間中地標(biāo)的深度通常受到尺度模糊這一困擾[17。尤其是當(dāng)單目相機(jī)處于靜止?fàn)顟B(tài)或僅發(fā)生旋轉(zhuǎn)運(yùn)動時,這種尺度不確定性使得視覺SLAM系統(tǒng)難以獲取像素的深度信息,進(jìn)而會影響對場景動態(tài)和深度的準(zhǔn)確判斷。盡管單目方法存在著種種挑戰(zhàn),然而在只能使用單一相機(jī)或受限于預(yù)算和功率的情況下,單目SLAM算法仍是理想的選擇,特別是在上述的特定場景下,單目相機(jī)仍能為視覺定位和建圖提供可靠且有效的方案。典型的單目SLAM方法結(jié)構(gòu)如圖1所示,從中可以看出其組織架構(gòu)和工作流程。

        1.2 雙目SLAM

        雙目視覺SLAM算法通過配備兩個固定位置的攝像頭同步獲取圖像,利用獲取到的圖像來精確描繪出相機(jī)在三維空間的運(yùn)動路徑,并構(gòu)建出詳細(xì)的環(huán)境地圖。不同于單目算法,雙目算法即使在無運(yùn)動狀態(tài)下亦能通過左右攝像頭捕獲到的圖像差異測量出場景的深度信息。特別是在戶外場景中,雙目算法由于能獲取到更加穩(wěn)定和精確的深度數(shù)據(jù),在場景深度感知方面相比單目算法展現(xiàn)出了顯著的優(yōu)勢[18。不過雙目算法同樣存在著特有的挑戰(zhàn):a)為了保證深度信息的準(zhǔn)確性,必須對兩個攝像頭進(jìn)行精確的校準(zhǔn);b)由于需要處理兩倍于單目算法的圖像數(shù)據(jù),這對計算資源提出了更高的要求,從而會影響到系統(tǒng)處理圖像數(shù)據(jù)并實(shí)時反饋結(jié)果的能力[19。因此在實(shí)際應(yīng)用過程中,解決上述問題是提高雙目視覺SLAM算法性能的關(guān)鍵。圖2展示了一個標(biāo)準(zhǔn)雙目SLAM算法架構(gòu)。

        1.3 RGB-D SLAM

        RGB-D SLAM算法結(jié)合了RGB相機(jī)和深度傳感器(包括結(jié)構(gòu)光或飛行時間(time-of-flight, TOF)傳感器),以實(shí)現(xiàn)對像素深度信息的直接測量,從而簡化了場景深度的獲取過程[20。這種算法能提供精確的深度數(shù)據(jù),在室內(nèi)環(huán)境中的表現(xiàn)尤為出色,因此深受青睞。然而這種算法亦受限于自身存在的局限性,特別是在戶外的場景下,由于受到陽光干擾和測距范圍的限制,這會對建圖結(jié)果的穩(wěn)定性和準(zhǔn)確性產(chǎn)生不利的影響21。在復(fù)雜的環(huán)境中使用此算法時,場景復(fù)雜性、移動物體的速度和傳感器數(shù)據(jù)質(zhì)量都會影響其定位及建圖的效率。為了解決這些問題,研究者們開發(fā)了多種策略,包括使用多個傳感器、整合運(yùn)動模型以及識別和排除環(huán)境中的動態(tài)物體等,這些策略已被證明能有效降低動態(tài)環(huán)境對SLAM性能的負(fù)面影響,并提升了這類算法在實(shí)際應(yīng)用中的穩(wěn)定性和可靠性。典型的RGB-D SLAM方法結(jié)構(gòu)如圖3所示。

        1.4 事件相機(jī)SLAM

        與傳統(tǒng)相機(jī)固定頻率捕獲靜態(tài)幀不同,事件相機(jī)(亦稱為動態(tài)視覺傳感器,dynamic vision sensor,DVS)采用一種不同的方法,即異步監(jiān)測像素亮度的變化,并僅在這些變化發(fā)生時記錄數(shù)據(jù)。這種機(jī)制賦予了事件相機(jī)極高的時間分辨率,使其在捕獲高速移動的物體以及處理快速變化場景時展現(xiàn)出卓越的性能,并且事件相機(jī)能在低光照條件下保持較低的響應(yīng)延遲,確保了其在不同光照環(huán)境下的性能穩(wěn)定性[22。這些特性使得事件相機(jī)在動態(tài)且復(fù)雜的視覺任務(wù)中,尤其是那些對延遲和光照敏感的應(yīng)用場景中,成為了強(qiáng)有力的工具。在VSLAM算法中引入事件相機(jī)是一個創(chuàng)新且前沿的研究方向[23,事件相機(jī)能夠捕捉環(huán)境中的微小運(yùn)動變化,并基于這些數(shù)據(jù)估計相機(jī)的六自由度(6-DoF)姿態(tài),同時重構(gòu)出場景的三維結(jié)構(gòu)[24。相較于傳統(tǒng)的VSLAM,基于事件相機(jī)的VSLAM算法有著顯著的優(yōu)勢,這些優(yōu)勢包括更高的定位精度、對快速運(yùn)動的魯棒性、較低的延遲以及更低的功耗,然而事件相機(jī)在視覺信息捕獲方式上的創(chuàng)新帶來了需要解決的全新問題,尤其是如何有效處理其獨(dú)特的空時間輸出特性的問題。這是因?yàn)槭录鄼C(jī)并未像傳統(tǒng)相機(jī)那樣生成同步的密集型圖像,而是生成了異步且空間稀疏的事件數(shù)據(jù)。這使得原屬于圖像序列設(shè)計的傳統(tǒng)幀基礎(chǔ)算法并不能適用于處理事件數(shù)據(jù)[22。這在使用事件相機(jī)構(gòu)建SLAM算法時,提出了新的挑戰(zhàn)和機(jī)遇。目前在基于事件相機(jī)的SLAM領(lǐng)域,研究者們正致力于探索新的算法和方法,旨在提升整個系統(tǒng)的準(zhǔn)確性、魯棒性和效率。近年來已經(jīng)有多種算法被提出,圖4展示了典型基于事件相機(jī)SLAM算法結(jié)構(gòu)。

        1.5 多傳感器SLAM

        此類算法通過融合多種類型傳感器,估計相機(jī)軌跡并構(gòu)建環(huán)境的三維地圖。多傳感器集成的策略發(fā)揮了各自傳感器的優(yōu)勢,極大提高了SLAM算法在面對復(fù)雜情境的魯棒性,特別是在單一傳感器可能受限或提供的信息不全時。例如,DVL-SLAM[25將單目相機(jī)與激光雷達(dá)相結(jié)合,增強(qiáng)了定位與建圖的精度。文獻(xiàn)[26]提出的另一個系統(tǒng)則進(jìn)一步整合了單目相機(jī)、激光雷達(dá)以及IMU, 通過這些傳感器的互補(bǔ)作用,在處理現(xiàn)實(shí)世界的復(fù)雜情況時,能夠?qū)崿F(xiàn)更為健壯和精確的導(dǎo)航定位及建圖。圖5展示了典型多傳感器SLAM算法結(jié)構(gòu)。

        1.6 視覺-慣性SLAM

        在紋理稀少或視線被遮擋的環(huán)境中,相機(jī)跟蹤的性能會受到影響。此時IMU傳感器便顯得尤為關(guān)鍵,因?yàn)槠涮峁┝艘粋€有效的備選方案,有助于克服視覺跟蹤的難題。通過將視覺數(shù)據(jù)與IMU數(shù)據(jù)融合,形成的視覺-慣性SLAM算法能夠?qū)崟r且精確地計算相機(jī)的6-DOF姿態(tài)。這種數(shù)據(jù)融合的方法不僅可以增強(qiáng)SLAM算法對復(fù)雜環(huán)境的適應(yīng)能力,如在光照變化劇烈、場景缺乏特征或存在運(yùn)動模糊時,還顯著提升了系統(tǒng)的魯棒性和精確度[7。Ultimate SLAM便是采用這種方法的先進(jìn)算法之一[27,此算法融合了事件相機(jī)、單目相機(jī)以及IMU,即便在極端挑戰(zhàn)條件下亦能保持狀態(tài)估計的穩(wěn)定性。圖6展示了典型視覺-慣性SLAM算法結(jié)構(gòu)。

        2 視覺SLAM算法概述

        視覺SLAM算法的發(fā)展歷程中,可以明顯區(qū)分出幾種關(guān)鍵的技術(shù)路線:傳統(tǒng)的基于特征的算法、基于直接法的算法,以及近年來新興的基于學(xué)習(xí)的算法?;谔卣鞯乃惴ㄒ蕾囉趶膱D像中提取的穩(wěn)定特征點(diǎn)來估計運(yùn)動和重建環(huán)境;基于直接法的算法則直接利用圖像的像素強(qiáng)度信息來進(jìn)行同樣的任務(wù);基于學(xué)習(xí)的方法,特別是深度學(xué)習(xí)技術(shù)的應(yīng)用,正逐步改變這一領(lǐng)域,其能夠從大量數(shù)據(jù)中自動學(xué)習(xí)到有效的特征和模型。圖7詳細(xì)展示了這些視覺SLAM算法的分類體系。

        2.1 基于特征的算法

        基于特征的算法是視覺SLAM中核心的方法,此類算法的策略是通過提取和匹配圖像中的特征實(shí)現(xiàn)定位和地圖構(gòu)建,利用關(guān)鍵點(diǎn)和描述子確定相機(jī)的位姿,并建立幀間地圖。此類算法可進(jìn)一步細(xì)分為基于濾波、關(guān)鍵幀和圖優(yōu)化的算法,每種算法都有其獨(dú)特的優(yōu)勢和應(yīng)用場景?;跒V波的算法通過遞歸估計來融合新信息,適合處理噪聲和不確定性;基于關(guān)鍵幀的算法選取特定幀進(jìn)行處理,減少計算量,提高效率;基于圖優(yōu)化的算法構(gòu)建因子圖,通過非線性優(yōu)化求解最佳狀態(tài)估計,強(qiáng)調(diào)精度和一致性。

        2.1.1 基于濾波的算法

        基于濾波器的視覺SLAM算法是指那些利用遞歸濾波器對機(jī)器人的狀態(tài)(通常包括位置和方向)及其環(huán)境地圖進(jìn)行估計的方法。這類算法在每一時刻接收新的觀測數(shù)據(jù),并更新狀態(tài)估計,而不需要存儲歷史觀測數(shù)據(jù)。此類算法在計算上相對高效,尤其適合于處理在線及實(shí)時應(yīng)用。

        卡爾曼濾波器(Kalman filter,KF)[28是最早的遞歸狀態(tài)估計器之一,其假設(shè)系統(tǒng)動態(tài)和觀測都是線性的,并且噪聲是高斯分布的。KF通過預(yù)測和更新兩個關(guān)鍵步驟進(jìn)行狀態(tài)估計。然而由于大多數(shù)SLAM問題都涉及非線性的系統(tǒng)動態(tài)和觀測模型,所以需要使用拓展卡爾曼濾波器(extended Kalman filter,EKF)[29。EKF通過在當(dāng)前估計點(diǎn)附近線性化非線性函數(shù)來處理非線性問題,其算法具體如表2所示。

        EKF-SLAM[30是將EKF應(yīng)用于SLAM問題的算法。此研究將機(jī)器人的位姿和地圖特征整合到一個狀態(tài)向量中,并同時估計這兩者。EKF-SLAM在早期SLAM研究中是具有里程碑意義的工作。其創(chuàng)新地提出了一種框架,在此框架下可以同時估計機(jī)器人位姿和地圖特征,并能夠處理非線性動態(tài)和觀測模型。EKF-SLAM的優(yōu)點(diǎn)為適合在線處理,因?yàn)榇怂惴ú恍枰鎯吞幚碚麄€觀測歷史。并且作為一種基于概率的方法,EKF-SLAM有著堅(jiān)實(shí)的理論基礎(chǔ),可以估計狀態(tài)的不確定性。然而,EKF需要對非線性模型進(jìn)行線性化,這可能導(dǎo)致誤差,尤其是在高度非線性的系統(tǒng)中。隨著地圖特征數(shù)量的增加,EKF-SLAM的計算復(fù)雜性會顯著增長。在多特征環(huán)境中,正確關(guān)聯(lián)觀測和地圖特征是一個挑戰(zhàn)。由于線性化誤差的累積,EKF-SLAM可能難以維持長期一致性。

        雖然EKF-SLAM在早期SLAM發(fā)展中扮演了重要角色,并且為后續(xù)的研究提供了寶貴的理論和實(shí)踐經(jīng)驗(yàn),但由于其上述缺點(diǎn),在現(xiàn)代SLAM系統(tǒng)中已經(jīng)被其他方法(如基于關(guān)鍵幀和圖優(yōu)化的方法)所取代。這些更現(xiàn)代的方法能夠更好地處理非線性問題、數(shù)據(jù)關(guān)聯(lián)問題,并且更有效地維護(hù)長期一致性。盡管如此,EKF-SLAM仍然是理解和學(xué)習(xí)SLAM原理的重要起點(diǎn),并為機(jī)器人導(dǎo)航和自動駕駛等領(lǐng)域奠定了基礎(chǔ)。

        2.1.2 基于關(guān)鍵幀的算法

        基于關(guān)鍵幀的視覺SLAM算法是一種在視覺SLAM領(lǐng)域中廣泛使用的算法。這類算法的核心思想是從連續(xù)的視頻幀中選取出具有代表性的幀,即關(guān)鍵幀,并以此為基礎(chǔ)構(gòu)建地圖進(jìn)行定位。與處理每一幀相比,基于關(guān)鍵幀的方法可以顯著降低計算負(fù)擔(dān),提高系統(tǒng)的效率和可擴(kuò)展性。

        ORB-SLAM[5~7系列的算法就是經(jīng)典的基于關(guān)鍵幀和圖優(yōu)化的視覺SLAM算法。ORB-SLAM算法[5的原理為通過利用FAST(features from accelerated segment test)角點(diǎn)檢測和ORB(oriented FAST and rotated BRIEF)特征描述符,在初始化階段提取特征并初始化地圖,之后在跟蹤階段通過ORB特征匹配和RANSAC(random sample consensus)算法估計相機(jī)的運(yùn)動,最后在建圖階段使用稀疏的地圖點(diǎn)和相機(jī)位姿進(jìn)一步構(gòu)建地圖。ORB-SLAM算法的具體步驟如表3所示。

        ORB-SLAM算法雖然具有較好的實(shí)時性、魯棒性和精度,但在大規(guī)模場景、紋理較弱場景、動態(tài)場景和計算資源方面還存在一定的局限性。需要注意的是,ORB-SLAM系列算法經(jīng)歷了三代改進(jìn),即ORB-SLAM[5、ORB-SLAM2[6、ORB-SLAM3[7,在其算法發(fā)展過程中有一些重要的區(qū)別和改進(jìn)。ORB-SLAM2不僅繼承了ORB-SLAM基于單目相機(jī)的視覺SLAM能力,還引入了對雙目和RGB-D相機(jī)的支持,通過全局BA技術(shù)優(yōu)化了地圖的全局一致性,使得系統(tǒng)在面對低紋理環(huán)境和尺度估計問題時表現(xiàn)更加魯棒。而ORB-SLAM3則在ORB-SLAM2的基礎(chǔ)上進(jìn)行了進(jìn)一步的提升,擴(kuò)展了對多種相機(jī)模型的支持,如單目、雙目、RGB-D和魚眼鏡頭相機(jī),同時結(jié)合了慣性測量單位(IMU)數(shù)據(jù),這使得在特征較少的環(huán)境下,算法能提供更精準(zhǔn)的軌跡估計。此外,ORB-SLAM3還提高了純視覺模式下的初始化速度和可靠性,并且首次加入了對多地圖的支持與視覺慣性SLAM功能,使其在多種實(shí)際應(yīng)用場景中的適應(yīng)性和穩(wěn)定性更勝一籌。表4展示了ORB-SLAM、ORB-SLAM2和ORB-SLAM3三代算法的性能對比及其所支持的傳感器類型。

        這些算法在學(xué)術(shù)界和工業(yè)界都得到了廣泛的應(yīng)用與認(rèn)可。但隨著研究的深入,這些算法仍需不斷地針對特定應(yīng)用場景進(jìn)行優(yōu)化和改進(jìn),以解決動態(tài)環(huán)境處理、長期運(yùn)行穩(wěn)定性等問題。

        2.1.3 基于圖優(yōu)化的算法

        基于圖優(yōu)化的視覺SLAM算法是當(dāng)前SLAM領(lǐng)域的研究熱點(diǎn)之一,因其能夠提供高精度的地圖和位姿估計而受到廣泛關(guān)注。此類算法通常由前端特征提取與匹配和后端圖優(yōu)化兩大部分組成[31?;趫D優(yōu)化的視覺SLAM算法相比于基于濾波的方法,具有更高的全局一致性和精度,因?yàn)榇祟愃惴軌蛉挚紤]所有觀測并進(jìn)行非線性優(yōu)化。與基于關(guān)鍵幀的算法相比,圖優(yōu)化方法可以更有效地處理大規(guī)模環(huán)境和長時間序列數(shù)據(jù),通過回環(huán)檢測和圖重構(gòu)來糾正累積誤差,從而提供更加魯棒的定位和地圖構(gòu)建[32。

        圖優(yōu)化算法是一種在視覺SLAM算法的后端處理中使用的方法,其目的是構(gòu)建一個圖,其中節(jié)點(diǎn)代表機(jī)器人的姿態(tài)或地圖特征,邊代表這些姿態(tài)和特征之間的空間約束。目標(biāo)是找到一組姿態(tài)和地圖特征位置,使得這些約束的總誤差最小化。在圖優(yōu)化中,通常構(gòu)建一個因子圖,其中包含變量節(jié)點(diǎn)和因子節(jié)點(diǎn)。變量節(jié)點(diǎn)代表待估計的狀態(tài)(如機(jī)器人姿態(tài)、地圖特征位置),因子節(jié)點(diǎn)則代表觀測數(shù)據(jù)或先驗(yàn)知識所帶來的約束。圖8展示了一個用于VSLAM算法的簡化因子圖。

        圖優(yōu)化問題可以形式化為最小化以下目標(biāo)函數(shù):

        x2=∑ni=1‖fi(xi1,xi2,…,xim,zi)‖2Σi

        其中: fi是第i個因子節(jié)點(diǎn)對應(yīng)的誤差函數(shù),其衡量了當(dāng)前估計狀態(tài)與觀測數(shù)據(jù)zi之間的誤差;xij表示與第i個因子節(jié)點(diǎn)相連的第j個變量節(jié)點(diǎn);Σi是觀測噪聲協(xié)方差矩陣;‖·‖Σi表示在Σi定義下的馬氏距離。

        廣泛應(yīng)用于視覺SLAM領(lǐng)域的兩個關(guān)鍵的圖優(yōu)化算法是g2o和Ceres Solver。g2o提供了一種高效的圖優(yōu)化方式,支持自定義的頂點(diǎn)和邊,并配備多種線性求解器,但需良好的初始值以避免局部最優(yōu)。相比之下,Ceres Solver利用自動微分簡化了雅可比矩陣的計算,具有多種魯棒核函數(shù)和靈活的求解器選項(xiàng)。然而,兩者均可能在大規(guī)模問題上計算量大,且對初學(xué)者而言配置略顯復(fù)雜。ORB-SLAM2[28和ORB-SLAM3[29就是基于圖優(yōu)化和關(guān)鍵幀的代表性算法。在ORB-SLAM2和ORB-SLAM3中,后端使用了圖優(yōu)化方法來進(jìn)行位姿估計和地圖構(gòu)建,具體為利用g2o作為其優(yōu)化框架。在ORB-SLAM2中,g2o被用于局部和全局的優(yōu)化過程,在局部地圖構(gòu)建階段用于優(yōu)化最近的關(guān)鍵幀及其觀測到的地圖點(diǎn),而在回環(huán)檢測后,g2o負(fù)責(zé)全局位姿圖優(yōu)化,以糾正累積的漂移并提高地圖的全局一致性。這種優(yōu)化通常包括位姿節(jié)點(diǎn)和特征點(diǎn)節(jié)點(diǎn),并通過最小化重投影誤差來調(diào)整,從而達(dá)到對整個地圖精細(xì)校正的目的。

        ORB-SLAM2在ORB-SLAM的基礎(chǔ)上進(jìn)行了顯著的升級,增加了對雙目和RGB-D相機(jī)的支持,使系統(tǒng)無須額外傳感器即可獲得精確的深度和尺度信息。同時,ORB-SLAM2增強(qiáng)了地圖復(fù)用和重定位的能力,顯著提高了系統(tǒng)的靈活性和魯棒性。此外,ORB-SLAM2引入全局BA優(yōu)化使得地圖的構(gòu)建更加精準(zhǔn)和一致。然而,在資源受限的設(shè)備如嵌入式設(shè)備上,容易引發(fā)處理延遲,且對快速移動物體和光照變化的處理能力仍存在著局限性。ORB-SLAM3則是在ORB-SLAM2的基礎(chǔ)上進(jìn)一步發(fā)展,支持單目、雙目、RGB-D相機(jī)以及視覺-慣導(dǎo)融合(VIO)。ORB-SLAM3不僅繼承了ORB-SLAM2的所有優(yōu)點(diǎn),還通過引入IMU數(shù)據(jù),顯著提升了系統(tǒng)在動態(tài)環(huán)境和光照變化條件下的魯棒性和精度。ORB-SLAM3在局部和全局優(yōu)化過程中同樣使用g2o框架,通過聯(lián)合優(yōu)化位姿和IMU偏差,進(jìn)一步提高了位姿估計的精度和穩(wěn)定性。此外,ORB-SLAM3引入了ATLAS多地圖機(jī)制,能夠在不同環(huán)境下創(chuàng)建和管理多個獨(dú)立的地圖,并在需要時進(jìn)行地圖切換和融合,這一機(jī)制使得ORB-SLAM3在處理大規(guī)模環(huán)境和長時間運(yùn)行時表現(xiàn)出色,能有效減少累積誤差,進(jìn)而保持地圖的一致性和準(zhǔn)確性,圖9展示了ORB-SLAM3的具體結(jié)構(gòu)。

        基于圖優(yōu)化的視覺SLAM算法因能高效整合數(shù)據(jù)關(guān)聯(lián)和環(huán)境約束而在學(xué)術(shù)和工業(yè)界有著廣泛的應(yīng)用前景。這類算法能提供精確較高的地圖和定位,但仍面臨著實(shí)時性一般、在大規(guī)模場景下表現(xiàn)差以及無法避免局部最優(yōu)等問題,未來研究旨在開發(fā)更高效及魯棒的策略,進(jìn)一步提升算法的實(shí)用性。

        2.2 基于直接法的算法

        直接法是視覺SLAM領(lǐng)域的重要分支,直接使用圖像的像素強(qiáng)度信息進(jìn)行相機(jī)位姿估計和地圖構(gòu)建。相比特征法,直接法能更充分利用圖像信息,提供準(zhǔn)確和密集的建圖結(jié)果。通過像素級優(yōu)化,直接法在低紋理場景和光照變化等挑戰(zhàn)性場景中表現(xiàn)出了良好魯棒性,但直接法在計算復(fù)雜度和魯棒性之間存在權(quán)衡,需要進(jìn)一步研究和改進(jìn)以提高其性能和適用性[33。基于直接法的視覺SLAM算法根據(jù)建出地圖的稠密程度分為稀疏直接法、半稠密直接法和稠密直接法。

        2.2.1 稀疏直接法

        在視覺SLAM領(lǐng)域,稀疏直接法憑借其直接使用像素級圖像信息優(yōu)化相機(jī)位姿和地圖構(gòu)建流程的能力,在相機(jī)位姿估計和三維地圖重建中發(fā)揮著關(guān)鍵作用[34。此類算法避免了傳統(tǒng)特征提取和匹配的需求,大幅降低了計算量并提高了實(shí)時性。通過優(yōu)化圖像灰度誤差,結(jié)合灰度插值和畸變校正,稀疏直接視覺SLAM算法能夠在紋理稀少的場景中保持魯棒性,而非線性最小二乘方法如高斯牛頓法和Levenberg-Marquardt法,則用于通過迭代減少誤差,細(xì)化求解過程。在這一系列算法中,DSO[35和SVO[36是稀疏直接法的典范。

        DSO(direct sparse odometry)的核心在于利用相機(jī)采集的像素亮度信息直接進(jìn)行位姿追蹤和環(huán)境建圖,無須特征提取與匹配[32。該算法采用稀疏特征點(diǎn)結(jié)構(gòu)和圖優(yōu)化技術(shù),通過最小化像素灰度誤差,有效整合每個像素信息以恢復(fù)相機(jī)運(yùn)動和三維場景結(jié)構(gòu)。DSO在準(zhǔn)確性和運(yùn)算效率上都有顯著表現(xiàn),尤其在紋理較少或光照變化大的場景中的魯棒性優(yōu)于傳統(tǒng)特征點(diǎn)方法。DSO尤其適用于對位姿估計和環(huán)境建圖要求即時且精確的應(yīng)用,例如自動駕駛和增強(qiáng)現(xiàn)實(shí)等。盡管如此,在處理大規(guī)模和動態(tài)變化的場景時,其對計算資源的高要求會導(dǎo)致性能下降。

        SVO(semi-direct visual odometry)通過結(jié)合特征點(diǎn)跟蹤與像素強(qiáng)度差異的直接法,實(shí)現(xiàn)了較高效率和準(zhǔn)確性的位姿估計[31。SVO算法的關(guān)鍵技術(shù)在于其雙模式操作,提取的特征點(diǎn)與邊緣上的直接法結(jié)合,增強(qiáng)了對紋理較弱環(huán)境的適應(yīng)性。速度和魯棒性是SVO的一大亮點(diǎn),尤其在快速運(yùn)動環(huán)境下表現(xiàn)出色,使其非常適合無人機(jī)導(dǎo)航和動態(tài)物體捕捉等領(lǐng)域。雖然SVO在適應(yīng)快速動態(tài)場景上占優(yōu),但在處理尺度漂移及紋理缺失場景時還面臨著挑戰(zhàn)。

        近年來,隨著研究的深入,視覺SLAM領(lǐng)域涌現(xiàn)出了更多創(chuàng)新算法。例如DVL-SLAM[37結(jié)合了視覺信息和激光雷達(dá)的稀疏深度數(shù)據(jù),通過深度學(xué)習(xí)技術(shù)增強(qiáng)視覺SLAM中的深度感知能力,實(shí)現(xiàn)精準(zhǔn)的三維重建。該算法的核心創(chuàng)新是深度融合不同傳感器數(shù)據(jù),提供更為精確的深度估計以輔助視覺里程測量。在性能評估中,DVL-SLAM在確保3D地圖重建準(zhǔn)確性方面超過了其他方法,并且魯棒性在多傳感器的加持下得到了提升。其適用于深度信息特別關(guān)鍵的應(yīng)用,如自動駕駛和復(fù)雜的室外環(huán)境探索。盡管深度感知得到了顯著加強(qiáng),但算法也因此在復(fù)雜度和成本方面增加了一定的負(fù)擔(dān)。

        SM-SLAM[38和FAST-LIVO[39分別代表了視覺SLAM領(lǐng)域的兩大研究方向。SM-SLAM利用多圖形式提高了稀疏三維地圖重建的實(shí)時性,并為多種變化環(huán)境下的導(dǎo)航提供了更為精細(xì)的地圖層級表示。其技術(shù)創(chuàng)新在于有效整合多源數(shù)據(jù)和處理多個地圖層面,使該算法在動態(tài)環(huán)境下的位姿估計和地圖重建速度表現(xiàn)突出。此外,該算法特別適用于室內(nèi)導(dǎo)航和需要快速地更新三維地圖的場合。而FAST-LIVO作為一種新型的多傳感器融合SLAM系統(tǒng),通過緊密結(jié)合視覺、慣性和激光雷達(dá)數(shù)據(jù),高效地執(zhí)行位姿估計。系統(tǒng)的創(chuàng)新點(diǎn)在于其數(shù)據(jù)融合策略和排除異常數(shù)據(jù)的方法,特別是在視覺信息不足的條件下,依然能保持高魯棒性和精確度。FAST-LIVO尤其適用于自動駕駛定位和復(fù)雜城市環(huán)境中的自動化導(dǎo)航,盡管對于計算資源和成本的要求相對較高。具體稀疏直接算法對比如表5所示。

        隨著算法的演進(jìn)和跨領(lǐng)域技術(shù)的融合,視覺SLAM逐步成為了一個多元化和高度動態(tài)的研究領(lǐng)域。這些算法為未來的研究及應(yīng)用奠定了基礎(chǔ),諸如DSO和SVO這樣的經(jīng)典作品,以及DVL-SLAM、SM-SLAM和FAST-LIVO等新興算法,都不斷推動這一領(lǐng)域向著更高效、更精準(zhǔn)、更實(shí)用的方向發(fā)展。

        2.2.2 半稠密直接法

        在視覺SLAM的直接法中,半稠密直接法平衡了稀疏和稠密方法之間的精確度與計算成本,通過精選圖像中的部分像素為優(yōu)化關(guān)鍵點(diǎn),實(shí)現(xiàn)了計算效率和存儲需求的降低。這些關(guān)鍵點(diǎn)通?;趫D像梯度強(qiáng)度選取,并均勻分布于圖像中,保證了算法的精度和代表性。該方法通過最小化相機(jī)觀測與圖像灰度的差異,并結(jié)合非線性最小二乘法進(jìn)行優(yōu)化,同時考慮畸變校正和運(yùn)動估計,以優(yōu)化關(guān)鍵點(diǎn)位置和相機(jī)位姿。半稠密直接法的優(yōu)勢在于其實(shí)時性和對環(huán)境的豐富重建,但其性能和精度依賴于關(guān)鍵點(diǎn)的選擇和分布。LSD-SLAM(large-scale direct monocular SLAM)[9是基于半稠密直接法的視覺SLAM算法,旨在實(shí)現(xiàn)對大規(guī)模環(huán)境的實(shí)時定位和建圖。LSD-SLAM通過直接使用圖像像素值進(jìn)行特征提取和匹配,避免了傳統(tǒng)特征點(diǎn)方法中的特征提取和匹配的過程,從而實(shí)現(xiàn)了更高的魯棒性和準(zhǔn)確性。LSD-SLAM算法流程如表6所示。LSD-SLAM算法優(yōu)點(diǎn)在于直接利用像素值進(jìn)行特征提取和匹配,避免了傳統(tǒng)特征點(diǎn)法中的特征提取和匹配的過程,減少了計算量和存儲量,提高了實(shí)時性和魯棒性,然而LSD-SLAM算法對相機(jī)準(zhǔn)確標(biāo)定要求高,對圖像畸變和噪聲敏感,并且對初始位姿估計要求高。

        最近的研究工作,如文獻(xiàn)[40]進(jìn)一步強(qiáng)化了半稠密直接法在動態(tài)環(huán)境下的應(yīng)用。該研究基于密集光流技術(shù),為移動機(jī)器人實(shí)現(xiàn)了穩(wěn)健的半稠密三維SLAM,并通過結(jié)合密集光流與SLAM來提供對動態(tài)環(huán)境信息的魯棒狀態(tài)估計,特別適用于快速變化的室內(nèi)環(huán)境和機(jī)器人導(dǎo)航。盡管在動態(tài)適應(yīng)性和準(zhǔn)確度方面表現(xiàn)出色,但計算量較大,對實(shí)時性能提出了挑戰(zhàn)。文獻(xiàn)[41]中的DiT-SLAM通過隱式深度表示和緊耦合的圖優(yōu)化,進(jìn)一步提升了稠密視覺慣性SLAM的精度和效率。此研究在實(shí)時性能和復(fù)雜場景建圖的準(zhǔn)確性方面展現(xiàn)出優(yōu)勢,特別適合于自動化車輛導(dǎo)航等對精確空間定位和建模要求嚴(yán)格的應(yīng)用場景。然而,該算法對初始化和運(yùn)動估計的準(zhǔn)確性較為敏感。文獻(xiàn)[42]中介紹的semi-direct multimap SLAM算法,通過實(shí)時稀疏三維地圖重建技術(shù),結(jié)合多地圖系統(tǒng),提高了對多重地形和環(huán)境的適應(yīng)性。此算法在處理不同大小和復(fù)雜度的環(huán)境地圖方面表現(xiàn)出快速性能,特別適合于多機(jī)器人系統(tǒng)和大規(guī)模空間的即時映射。該系統(tǒng)通過更靈活的地圖管理,提升了環(huán)境適應(yīng)性,但在資源受限的設(shè)備上可能會遇到限制。這些算法的對比如表7所示。

        綜上,半稠密直接法視覺SLAM算法在實(shí)時性和精度上取得了平衡,無論是經(jīng)典算法如LSD-SLAM,還是新興算法,都在不斷推進(jìn)這一領(lǐng)域的發(fā)展。盡管存在一些挑戰(zhàn),但這些算法對于未來機(jī)器人導(dǎo)航和環(huán)境建模的應(yīng)用前景仍然充滿希望。

        2.2.3 稠密直接法

        在視覺SLAM領(lǐng)域,直接法中的稠密直接法采用像素級別的信息來執(zhí)行相機(jī)位姿估計與地圖構(gòu)建。相較于傳統(tǒng)特征提取與匹配依賴的方法,稠密直接法利用圖像各像素的強(qiáng)度值進(jìn)行位姿估計和地圖點(diǎn)優(yōu)化,從而產(chǎn)生細(xì)致且內(nèi)容豐富的地圖,盡管這增加了計算的復(fù)雜性[43。此類算法與稀疏直接法的顯著區(qū)別在于其考慮圖像的全部像素,將每一個像素都作為地圖的一部分進(jìn)行處理。DTAM(dense tracking and mapping)[43為稠密直接法的經(jīng)典算法,此算法用于處理包含動態(tài)變化和大規(guī)模場景的稠密直接法視覺SLAM算法。DTAM特點(diǎn)是對相機(jī)位姿與場景深度進(jìn)行聯(lián)合估計,以實(shí)時跟蹤及構(gòu)建相機(jī)軌跡和環(huán)境。其處理圖像像素的直接方式避免了傳統(tǒng)特征點(diǎn)提取和匹配的需求。通過不斷迭代跟蹤、場景更新和地圖融合的步驟,DTAM以像素級信息進(jìn)行跟蹤和建模,因此能夠適應(yīng)動態(tài)或紋理貧瘠的場景。然而,DTAM對于計算資源的需求較高,需要處理龐大的像素數(shù)據(jù),可能影響到算法的實(shí)時性。

        近年來,稠密直接法領(lǐng)域引入了一些具有創(chuàng)新性的算法與研究,如Mo等人[44提出的快速直接式雙目視覺SLAM,這項(xiàng)研究在實(shí)現(xiàn)對動態(tài)場景和大規(guī)模環(huán)境的視覺定位和建圖方面取得了突破。同樣值得關(guān)注的是,Concha等人[45提出的視覺-慣性直接SLAM,有效地結(jié)合視覺數(shù)據(jù)和慣性測量,以提高SLAM的性能和精度。這些研究不僅推進(jìn)了SLAM技術(shù)前沿,亦呈現(xiàn)了算法設(shè)計的新方向。

        2.3 基于學(xué)習(xí)的算法

        學(xué)習(xí)算法在視覺SLAM中起著重要作用,通過機(jī)器學(xué)習(xí)技術(shù)可以獲得更準(zhǔn)確和魯棒的相機(jī)位姿估計和地圖構(gòu)建模型。學(xué)習(xí)算法能夠自動提取和學(xué)習(xí)圖像特征表示,提高定位和重建的準(zhǔn)確性。數(shù)據(jù)驅(qū)動的學(xué)習(xí)方法可以增強(qiáng)算法對復(fù)雜環(huán)境、光照變化和遮擋等場景的適應(yīng)性?;趯W(xué)習(xí)的視覺SLAM算法包括深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。

        2.3.1 深度學(xué)習(xí)

        近年來,基于深度學(xué)習(xí)的視覺SLAM算法成為了一個研究熱點(diǎn)。這類方法通過采用深度神經(jīng)網(wǎng)絡(luò)自動化地學(xué)習(xí)特征表示和進(jìn)行模型建立,可顯著提升SLAM系統(tǒng)的性能及其魯棒性。

        在視覺SLAM研究領(lǐng)域,深度學(xué)習(xí)技術(shù)廣泛應(yīng)用于視覺里程計、深度估計、回環(huán)檢測和地圖優(yōu)化等任務(wù)。視覺里程計通過分析連續(xù)圖像序列中的視覺特征變化,利用深度學(xué)習(xí)模型學(xué)習(xí)圖像與相機(jī)運(yùn)動間的映射關(guān)系,能有效應(yīng)對光照變化、視角轉(zhuǎn)換及場景變動等因素,并提高運(yùn)動估計的準(zhǔn)確性與魯棒性。深度估計則從單目圖像或視頻序列中預(yù)測環(huán)境深度信息,無須依賴特定傳感器設(shè)備。深度學(xué)習(xí)驅(qū)動的回環(huán)檢測可減小累積誤差,保持地圖的全局一致性。深度學(xué)習(xí)還可用于地圖的拓?fù)浣Y(jié)構(gòu)和三維點(diǎn)云重建優(yōu)化,通過學(xué)習(xí)不同圖像間的相對位姿信息,進(jìn)一步提升地圖的幾何和拓?fù)錅?zhǔn)確性。

        1)視覺里程計 DeepVO[12算法是將深度學(xué)習(xí)應(yīng)用于視覺里程計的算法,同時亦是基于深度學(xué)習(xí)的視覺SLAM中一項(xiàng)里程碑式的工作。其創(chuàng)新在于利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)相結(jié)合的方法來提取圖像特征并進(jìn)行時序信息處理。并且與傳統(tǒng)的方法不同,DeepVO采用了端到端的學(xué)習(xí)方式,從原始圖像輸入到相機(jī)姿態(tài)輸出,全程由神經(jīng)網(wǎng)絡(luò)完成,提高了模型的自適應(yīng)性和精確度。DeepVO還使用長短期記憶網(wǎng)絡(luò)(LSTM)這樣的RNN,有效地捕獲了圖像序列中的時空關(guān)聯(lián)信息,更準(zhǔn)確地估計了相機(jī)軌跡。表8為DeepVO算法的具體流程。

        DeepVO通過端到端學(xué)習(xí)實(shí)現(xiàn)自動特征提取和運(yùn)動估計,其優(yōu)勢在于無須手工設(shè)計特征,能從圖像中自動提取高層次特征,減少人為干預(yù)。此外因?yàn)槔昧搜h(huán)神經(jīng)網(wǎng)絡(luò),DeepVO可充分利用時序信息,在無紋理區(qū)域和光照變化等復(fù)雜場景中保持較高的魯棒性。然而其對大量標(biāo)注數(shù)據(jù)的依賴和計算復(fù)雜度高是重要限制,難以在普通設(shè)備上實(shí)現(xiàn)實(shí)時處理。盡管借助CUDA和TPU硬件加速其實(shí)時性有所提升,但仍難以完全實(shí)現(xiàn)實(shí)時處理。DeepVO在軌跡估計精度方面表現(xiàn)出色,特別是在動態(tài)場景中具備穩(wěn)定性,但在面對未見過的新環(huán)境時,其泛化能力會有所不足。

        LIFT-SLAM[46是一種結(jié)合深度學(xué)習(xí)的創(chuàng)新算法,用于視覺SLAM中的視覺里程計特征提取。此算法通過LIFT模型實(shí)現(xiàn)高魯棒性和高辨識度的特征提取與匹配,并采用增量優(yōu)化,實(shí)現(xiàn)高精度定位和地圖構(gòu)建。LIFT模型由特征檢測、定向、描述和匹配四個模塊組成,利用端到端訓(xùn)練和多任務(wù)學(xué)習(xí),具備尺度、旋轉(zhuǎn)和光照變化的不變性。LIFT-SLAM的關(guān)鍵優(yōu)點(diǎn)在于減少手工調(diào)參、提高特征魯棒性和增量圖優(yōu)化效率。然而,其依賴大量標(biāo)注數(shù)據(jù)和高計算復(fù)雜度是首要缺點(diǎn),需借助GPU或FPGA加速滿足實(shí)時性要求。LIFT-SLAM在SLAM系統(tǒng)、圖像匹配與檢索及增強(qiáng)現(xiàn)實(shí)應(yīng)用中表現(xiàn)出色,顯著提升了精度和魯棒性,但數(shù)據(jù)需求大和計算復(fù)雜度高的問題仍需解決。

        文獻(xiàn)[47]提出了一種實(shí)時視覺SLAM算法,基于多任務(wù)特征提取網(wǎng)絡(luò)和自監(jiān)督特征點(diǎn)。其采用簡化的多任務(wù)CNN替代傳統(tǒng)特征提取器,提升了精度和穩(wěn)定性,通過自監(jiān)督訓(xùn)練特征點(diǎn),無須地面真實(shí)數(shù)據(jù),增強(qiáng)了特征點(diǎn)魯棒性。其創(chuàng)新包括簡化的多任務(wù)CNN架構(gòu)、新的損失函數(shù)設(shè)計和與ORB特征格式的二進(jìn)制描述子兼容性。其核心優(yōu)點(diǎn)在于高魯棒性和高移植性,并利用RGB-D攝像頭深度信息實(shí)現(xiàn)密集3D建圖,缺點(diǎn)是計算開銷大和實(shí)時性有待優(yōu)化。實(shí)驗(yàn)表明,該系統(tǒng)在GPU上達(dá)到10~14 frame/s,但每幀處理時間約是ORB-SLAM2的2.5倍。此算法在TUM RGB-D數(shù)據(jù)集上表現(xiàn)出高精度,在低紋理和非紋理場景中尤其優(yōu)異。

        SP-SLAM(SuperPoint-SLAM)[48則是結(jié)合深度學(xué)習(xí)用于視覺SLAM視覺里程計的另一創(chuàng)新算法。其核心在于利用Super-Point模型進(jìn)行特征提取和匹配,從而提升特征的魯棒性與精度。SuperPoint模型通過共享編碼器、特征檢測器和特征描述器實(shí)現(xiàn)特征點(diǎn)的高魯棒性和辨識度,并通過自監(jiān)督學(xué)習(xí)從圖像中自動提取高精度特征點(diǎn)和生成描述子。此設(shè)計減少了手工調(diào)參需求,提高了計算效率,但對計算資源需求較高,通常需借助GPU等硬件加速器以實(shí)現(xiàn)實(shí)時處理。并且該模型在處理圖像旋轉(zhuǎn)、縮放、視角和光照變化等復(fù)雜場景時表現(xiàn)出色,顯著提高了特征匹配的精度和魯棒性。雖然SP-SLAM有效結(jié)合了深度學(xué)習(xí)特征提取與傳統(tǒng)SLAM優(yōu)化技術(shù),實(shí)現(xiàn)了高精度的定位與地圖構(gòu)建,但對大量標(biāo)注數(shù)據(jù)的依賴和高計算復(fù)雜度是其關(guān)鍵缺點(diǎn)。硬件加速技術(shù)在一定程度上緩解了實(shí)時處理問題,但仍面臨實(shí)現(xiàn)全面實(shí)時性的挑戰(zhàn)。

        SL-SLAM(SuperPoint and LightGlue-SLAM)[49是一種混合視覺慣性SLAM算法,亦是通過深度學(xué)習(xí)實(shí)現(xiàn)了視覺里程計。該算法基于SuperPoint用于特征點(diǎn)提取和LightGlue用于特征點(diǎn)匹配。SL-SLAM的創(chuàng)新之處在于無預(yù)定義標(biāo)簽的深度特征提取與匹配、自適應(yīng)特征篩選,以及深度特征詞袋模型,提升了系統(tǒng)在復(fù)雜環(huán)境中的魯棒性與準(zhǔn)確性。其優(yōu)點(diǎn)包括在弱光、動態(tài)照明、弱紋理和嚴(yán)重抖動環(huán)境下保持高精度,多模式傳感器配置的高適應(yīng)性,以及通過ONNX Runtime減少計算資源需求,實(shí)現(xiàn)實(shí)時性能。然而,SL-SLAM同樣面臨高計算復(fù)雜度和對高質(zhì)量IMU數(shù)據(jù)依賴大的問題。其實(shí)驗(yàn)結(jié)果表明,SL-SLAM在EUROC和TUM VI等公共數(shù)據(jù)集上表現(xiàn)優(yōu)越,具備更高的定位精度和軌跡預(yù)測準(zhǔn)確性,且在光線變化劇烈、圖像模糊和快速運(yùn)動環(huán)境中依然保持高精度。

        文獻(xiàn)[50]提出了一種結(jié)合輕量級卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的視覺里程計算法,用于視覺同時定位與地圖構(gòu)建。該算法的結(jié)構(gòu)包括圖像序列輸入、CNN特征提取、RNN時間序列處理和姿態(tài)估計,其創(chuàng)新之處在于輕量級模型設(shè)計、結(jié)合CNN和RNN以提高姿態(tài)估計的準(zhǔn)確性和魯棒性,并利用自監(jiān)督學(xué)習(xí)減少對像素級地面真實(shí)值標(biāo)注的依賴。文獻(xiàn)[51]設(shè)計了另一種輕量化卷積神經(jīng)網(wǎng)絡(luò)的視覺里程計,專為無人機(jī)在復(fù)雜環(huán)境中的自定位和自主導(dǎo)航而設(shè)計。其結(jié)構(gòu)包括圖像序列輸入、四層卷積神經(jīng)網(wǎng)絡(luò)特征提取,以及特征匹配與姿態(tài)估計,創(chuàng)新在于高效特征提取、輕量級設(shè)計和自監(jiān)督學(xué)習(xí),在低照度和無紋理場景中表現(xiàn)出色。文獻(xiàn)[52]提出了一種集成語義分割和視覺里程計特征點(diǎn)檢測的輕量級多任務(wù)網(wǎng)絡(luò),其結(jié)構(gòu)包括圖像序列輸入、多任務(wù)網(wǎng)絡(luò)和輕量級卷積神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)端到端的動態(tài)數(shù)據(jù)去除和單目視覺里程計估計。創(chuàng)新點(diǎn)在于集成語義分割和VO特征點(diǎn)檢測,高效去除動態(tài)數(shù)據(jù),且輕量級設(shè)計適用于資源受限的嵌入式平臺。綜合來看,這些輕量化算法具備高準(zhǔn)確性、低計算成本和動態(tài)環(huán)境魯棒性,但同樣存在依賴運(yùn)動信息和模型復(fù)雜性增加的劣勢,適用于移動機(jī)器人導(dǎo)航、增強(qiáng)現(xiàn)實(shí)、自主無人機(jī)等需要高精度深度感知的應(yīng)用場景。表9展示了近年來深度學(xué)習(xí)在VSLAM視覺里程計中的應(yīng)用對比。

        綜上,文獻(xiàn)[12]的DeepVO算法通過結(jié)合CNN和RNN,實(shí)現(xiàn)了端到端的視覺里程計,顯著提高了軌跡估計的精度和魯棒性。文獻(xiàn)[46]的LIFT-SLAM利用LIFT模型進(jìn)行特征提取與匹配,采用增量優(yōu)化,具備高魯棒性和高效圖優(yōu)化能力。文獻(xiàn)[47]的多任務(wù)特征提取網(wǎng)絡(luò)通過自監(jiān)督學(xué)習(xí)和多任務(wù)CNN實(shí)現(xiàn)了高魯棒性和高移植性,但計算開銷較高。文獻(xiàn)[48]的SP-SLAM使用SuperPoint模型和自監(jiān)督學(xué)習(xí)提高了特征匹配的精度和魯棒性。文獻(xiàn)[49]的SL-SLAM基于SuperPoint和LightGlue特征提取和匹配,適應(yīng)性強(qiáng)但依賴高質(zhì)量IMU數(shù)據(jù)。文獻(xiàn)[50~52]提出的輕量級卷積神經(jīng)網(wǎng)絡(luò)結(jié)合RNN,通過自監(jiān)督學(xué)習(xí)和多任務(wù)網(wǎng)絡(luò),實(shí)現(xiàn)了高效、低計算成本的視覺里程計。

        2)回環(huán)檢測 文獻(xiàn)[53]提出了一種結(jié)合多尺度注意力與語義引導(dǎo)(MSA-SG)框架的深度學(xué)習(xí)回環(huán)檢測算法,利用EfficientNet-EA進(jìn)行特征提取,并結(jié)合EA層進(jìn)行特征聚合,使模型在復(fù)雜動態(tài)環(huán)境中具備高效回環(huán)檢測能力。其關(guān)鍵技術(shù)包括語義引導(dǎo)、多尺度注意力優(yōu)化、核主成分分析(KPCA)降維及改進(jìn)余弦相似性度量。其首要優(yōu)點(diǎn)在于高魯棒性和高精度,顯著提升回環(huán)檢測的準(zhǔn)確性,減少假陽性,提高整體地圖構(gòu)建精度。系統(tǒng)結(jié)合KPCA降維和EfficientNet-EA特征聚合,提高實(shí)時處理能力,在復(fù)雜動態(tài)環(huán)境中保持高效運(yùn)行。盡管計算開銷較高且依賴數(shù)據(jù)集,但實(shí)驗(yàn)驗(yàn)證表明,算法在City Center和New College數(shù)據(jù)集上的平均精度超過90%,在KITTI數(shù)據(jù)集測試中亦表現(xiàn)良好。MSA-SG框架能有效減少時間相鄰幀的誤匹配,提高SLAM算法的魯棒性。未來可通過優(yōu)化多模態(tài)信息融合技術(shù)和擴(kuò)展數(shù)據(jù)集范圍來進(jìn)一步提升性能。

        文獻(xiàn)[54]則是另一種將深度學(xué)習(xí)應(yīng)用于VSLAM回環(huán)檢測的創(chuàng)新算法,核心在于提出輕量級神經(jīng)網(wǎng)絡(luò)模型ECMobile-Net,提升SLAM系統(tǒng)性能。ECMobileNet結(jié)合高效通道注意力(ECA)機(jī)制和壓縮的MobileNet V2結(jié)構(gòu),從圖像中提取特征向量,通過比較圖像相似性實(shí)現(xiàn)環(huán)路閉合檢測。其創(chuàng)新在于提出輕量級神經(jīng)網(wǎng)絡(luò)模型,在保持高精度的同時顯著降低計算復(fù)雜度,并利用小型室內(nèi)數(shù)據(jù)集驗(yàn)證方法的有效性。結(jié)合ECA和MobileNet V2,其實(shí)現(xiàn)了高效環(huán)路閉合檢測,減少SLAM算法的累積誤差。并且實(shí)驗(yàn)結(jié)果表明,該系統(tǒng)在GPU加速下接近實(shí)時運(yùn)行,在TUM RGB-D數(shù)據(jù)集上的精度優(yōu)于現(xiàn)有方法,特別在高動態(tài)序列中表現(xiàn)突出。優(yōu)勢包括低計算資源需求、高精度和高魯棒性,但仍需改進(jìn)數(shù)據(jù)集依賴性和誤檢問題。

        文獻(xiàn)[55]通過融合多尺度深度特征來計算相似度,從而增加了特征類型的多樣性。該方法在計算相似度分?jǐn)?shù)時,根據(jù)圖像的光照變化對每個特征節(jié)點(diǎn)進(jìn)行加權(quán),這顯著增強(qiáng)了算法的魯棒性。不同于傳統(tǒng)基于單一圖像特征計算相似度的方法,文獻(xiàn)[56]將問題建模為堆疊自編碼器,通過自編碼器生成的相似度矩陣計算分?jǐn)?shù),從而展現(xiàn)出更強(qiáng)的全局感知能力。然而隨著圖像尺寸的增加,這種方法不可避免地帶來了較高的計算復(fù)雜度。

        Field++[57、ESA-VLAD[58和AttentionNetVLAD[59結(jié)合了各種網(wǎng)絡(luò)提取的全局和局部特征,從而進(jìn)一步優(yōu)化了圖像幀過濾效果。相比于只考慮全局特征的方法,這些方法展示了更強(qiáng)的泛化能力。此外,文獻(xiàn)[60]集成了自動編碼器和超級字典,并基于動態(tài)對象特征檢測進(jìn)行循環(huán)閉合。其余研究則集中于CNN特征的后處理[61和信息壓縮62,旨在減少每幀的處理時間。

        文獻(xiàn)[63]則是專注于回環(huán)檢測任務(wù)。其算法結(jié)構(gòu)包括圖像序列輸入、深度卷積神經(jīng)網(wǎng)絡(luò)特征提取、特征匹配與姿態(tài)估計以及回環(huán)檢測模塊,通過深度特征提取和端到端學(xué)習(xí)方法,提高了特征和姿態(tài)估計的精度,并通過融合回環(huán)檢測優(yōu)化了SLAM的整體性能。該系統(tǒng)具有高精度、自動化程度高和魯棒性強(qiáng)的優(yōu)勢,但亦存在計算復(fù)雜度高和依賴數(shù)據(jù)質(zhì)量的劣勢。適用于無人駕駛、機(jī)器人導(dǎo)航和增強(qiáng)現(xiàn)實(shí)等應(yīng)用場景,通過深度學(xué)習(xí)方法實(shí)現(xiàn)高效、精確的視覺SLAM,適用于需要高精度深度感知的多種場景。文獻(xiàn)[64]則是提出了另一種結(jié)合深度學(xué)習(xí)和魯棒估計的水下視覺SLAM算法,核心是設(shè)計了一種旨在減少錯誤回環(huán)的魯棒視覺回環(huán)檢測算法。該算法通過以下三步操作:a)利用易于訓(xùn)練的神經(jīng)網(wǎng)絡(luò)快速選擇可能閉合回環(huán)的圖像對;b)通過魯棒圖像匹配器仔細(xì)確認(rèn)或拒絕這些候選回環(huán);c)對確認(rèn)的回環(huán)進(jìn)行幾何一致性驗(yàn)證,拒絕不符合一致性的回環(huán),最終將接受的回環(huán)用于圖形SLAM算法。其創(chuàng)新之處在于提出三層過濾過程,確保后續(xù)圖優(yōu)化步驟中不存在錯誤回環(huán),解決因錯誤變換導(dǎo)致軌跡漂移的問題;且每步僅操作接受的回環(huán),從而減少問題維度并保持低計算需求,適合機(jī)器人任務(wù)期間的實(shí)時運(yùn)行。優(yōu)點(diǎn)包括高計算效率和強(qiáng)魯棒性,缺點(diǎn)在于依賴圖像質(zhì)量,需要大量訓(xùn)練數(shù)據(jù)。

        表10展示了近年來深度學(xué)習(xí)在VSLAM回環(huán)檢測中的應(yīng)用算法對比。

        這幾篇文獻(xiàn)提出的算法各具特色。文獻(xiàn)[53]提出的MSA-SG框架利用EfficientNet-EA結(jié)合多尺度注意力和語義引導(dǎo),實(shí)現(xiàn)了高效的回環(huán)檢測。文獻(xiàn)[54]的ECMobileNet通過ECA機(jī)制和MobileNet V2結(jié)構(gòu),在提升精度的同時降低了計算復(fù)雜度。文獻(xiàn)[55,56]分別通過融合多尺度深度特征和自編碼器增強(qiáng)了特征多樣性和全局感知能力,盡管計算復(fù)雜度較高。Field++[57、ESA-VLAD[58和AttentionNetVLAD[59等方法結(jié)合全局與局部特征優(yōu)化圖像幀過濾,表現(xiàn)出強(qiáng)泛化能力。文獻(xiàn)[63]專注于回環(huán)檢測,通過深度特征提取和端到端學(xué)習(xí)提高了SLAM性能。文獻(xiàn)[64]的水下視覺SLAM算法采用三層過濾過程,確?;丨h(huán)檢測的魯棒性和精度。這些算法在不同環(huán)境和應(yīng)用場景中有著各自的優(yōu)勢,如高精度、高魯棒性和高實(shí)時性,但同樣面臨計算資源需求和數(shù)據(jù)集依賴等挑戰(zhàn)。

        3)地圖優(yōu)化 文獻(xiàn)[65]提出了一種結(jié)合Mask R-CNN、Deepsort和ORB-SLAM2的多目標(biāo)定位和建圖算法。該算法利用Mask R-CNN提取2D語義信息,Deepsort進(jìn)行目標(biāo)跟蹤建立圖像間數(shù)據(jù)關(guān)聯(lián),最終通過ORB-SLAM2構(gòu)建稠密語義點(diǎn)云圖并優(yōu)化相機(jī)位姿。其創(chuàng)新在于結(jié)合目標(biāo)跟蹤與實(shí)例分割,提高了2D語義信息提取和數(shù)據(jù)關(guān)聯(lián)效率,并通過幾何計算點(diǎn)云質(zhì)心的歐氏距離進(jìn)行目標(biāo)重建。實(shí)驗(yàn)在TUM RGB-D數(shù)據(jù)集上的測試結(jié)果表明,該算法在動態(tài)場景中的精度優(yōu)于現(xiàn)有方法,提供了更高的定位精度和穩(wěn)定性。盡管具備實(shí)時處理能力,但計算資源需求高,并且實(shí)例分割中可能出現(xiàn)誤檢現(xiàn)象。

        文獻(xiàn)[66]提出了一種改進(jìn)自動駕駛環(huán)境語義信息利用的算法,結(jié)合Mask R-CNN和ORB-SLAM2,實(shí)現(xiàn)高精度3D模型重建。具體地,Mask R-CNN提取2D語義信息,結(jié)合ORB-SLAM2構(gòu)建3D語義地圖并優(yōu)化相機(jī)位姿。其創(chuàng)新在于結(jié)合實(shí)例分割與SLAM,提出對象導(dǎo)向的語義地圖構(gòu)建方法;利用語義信息進(jìn)行回環(huán)檢測,提高定位精度和魯棒性;通過幾何約束和對象關(guān)系識別移動對象,改進(jìn)3D點(diǎn)云分割和處理。實(shí)驗(yàn)結(jié)果顯示,該算法在TUM數(shù)據(jù)集上的精度高于現(xiàn)有方法,特別適用于高動態(tài)場景。盡管計算資源需求高,且在復(fù)雜場景中可能出現(xiàn)誤檢,但在實(shí)時性、魯棒性和環(huán)境理解方面表現(xiàn)出色。

        OVD-SLAM[67主要用于動態(tài)環(huán)境,基于ORB-SLAM3并集成YOLOv5進(jìn)行目標(biāo)檢測,結(jié)合深度信息和光流區(qū)分前景和背景,實(shí)現(xiàn)動態(tài)區(qū)域識別。算法利用語義信息和深度約束,無須預(yù)定義標(biāo)簽即可識別動態(tài)物體,并提出基于統(tǒng)計學(xué)的前景和背景分割方法。通過光流異常檢測動態(tài)點(diǎn),并在姿態(tài)優(yōu)化中為每個地圖點(diǎn)計算優(yōu)化權(quán)重,減少動態(tài)點(diǎn)對姿態(tài)估計的負(fù)面影響。重投影約束用于恢復(fù)動態(tài)物體上的靜態(tài)點(diǎn),支持非剛性運(yùn)動和低動態(tài)環(huán)境。實(shí)驗(yàn)表明,OVD-SLAM在TUM RGB-D和Bonn數(shù)據(jù)集上的絕對軌跡誤差和相對姿態(tài)誤差均優(yōu)于現(xiàn)有動態(tài)SLAM方法,特別是在高動態(tài)場景中表現(xiàn)出高精度和實(shí)時性。盡管需要高計算資源,但優(yōu)化后可實(shí)現(xiàn)接近實(shí)時性能,并適應(yīng)不同場景中的動態(tài)物體。

        文獻(xiàn)[68]提出了一種結(jié)合深度學(xué)習(xí)與RGB-D視覺SLAM技術(shù)的DLD-SLAM算法,以提高動態(tài)環(huán)境中的定位精度、穩(wěn)定性和效率。核心在于利用輕量級神經(jīng)網(wǎng)絡(luò)GCNv2-tiny替代傳統(tǒng)的ORB方法進(jìn)行特征點(diǎn)提取和匹配,從而提高特征提取和匹配的可靠性及位姿估計的準(zhǔn)確性。同時,語義分割線程采用基于GSConv網(wǎng)絡(luò)優(yōu)化的輕量級YOLOv5s目標(biāo)檢測算法,結(jié)合深度圖像確定潛在動態(tài)區(qū)域。該算法的創(chuàng)新包括基于GCNv2-tiny的特征點(diǎn)提取與匹配,提高系統(tǒng)效率和魯棒性;應(yīng)用GSConv模塊優(yōu)化YOLOv5s算法,提高計算效率;設(shè)計基于動態(tài)概率的特征點(diǎn)剔除策略,通過光流和語義標(biāo)簽精確識別并剔除動態(tài)特征點(diǎn)。實(shí)驗(yàn)表明,DLD-SLAM在TUM數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證了其在動態(tài)環(huán)境中的有效性,絕對軌跡誤差大幅降低,而計算效率大幅提高。該算法具有計算效率高、魯棒性強(qiáng)等優(yōu)點(diǎn),但在光照不足和復(fù)雜背景下可能影響特征提取效果,且需大量訓(xùn)練數(shù)據(jù)。

        文獻(xiàn)[69]提出了一種融合語義提示的多關(guān)鍵幀RGB-D密集VSLAM算法,通過集成Mask R-CNN進(jìn)行語義分割,并結(jié)合幾何殘差模型,在動態(tài)環(huán)境中提供高精度和高魯棒性的位姿估計。算法包括基于非參數(shù)統(tǒng)計模型的NC-VO前端、Mask R-CNN實(shí)例級分割、密集像素跟蹤與關(guān)鍵幀選擇,以及基于g2o框架的回環(huán)檢測與優(yōu)化。其創(chuàng)新在于語義引導(dǎo)的動態(tài)物體分割、基于動態(tài)分割的關(guān)鍵幀選擇策略和通過聚類殘差模型實(shí)現(xiàn)運(yùn)動估計。在復(fù)雜動態(tài)環(huán)境中,該算法表現(xiàn)出色,顯著減少了累積誤差,適用于各種混合動態(tài)場景。盡管依賴高質(zhì)量數(shù)據(jù)和計算資源,但通過前端加速和GPU支持,算法具備良好的實(shí)時性和較高的精度。

        文獻(xiàn)[70]則是通過改進(jìn)的輕量級神經(jīng)網(wǎng)絡(luò)ESPNetV2提升SLAM系統(tǒng)在動態(tài)場景中的性能。ESPNetV2結(jié)合幾何對應(yīng)網(wǎng)絡(luò)(GCNv2),用于高效的圖像語義分割,并通過改進(jìn)的運(yùn)動一致性檢測方法移除動態(tài)特征點(diǎn),保留靜態(tài)特征點(diǎn),增強(qiáng)系統(tǒng)穩(wěn)定性。其創(chuàng)新包括在保持高精度的同時顯著降低計算復(fù)雜度,改進(jìn)的運(yùn)動一致性檢測方法,以及基于深度學(xué)習(xí)的多線程處理機(jī)制。其實(shí)驗(yàn)表明,ESPNetV2在TUM動態(tài)數(shù)據(jù)集上的精度優(yōu)于現(xiàn)有傳統(tǒng)方法,特別是在高動態(tài)序列中表現(xiàn)突出。盡管該方法在特定數(shù)據(jù)集上效果良好,但在更大規(guī)?;虿煌愋偷臄?shù)據(jù)集上,其泛化能力和誤檢問題仍需進(jìn)一步驗(yàn)證和優(yōu)化。

        綜上,文獻(xiàn)[48]提出的算法結(jié)合了Mask R-CNN、Deepsort與ORB-SLAM2,通過目標(biāo)跟蹤與實(shí)例分割實(shí)現(xiàn)多目標(biāo)定位和建圖,盡管計算資源需求較高,但在動態(tài)場景中表現(xiàn)優(yōu)異。文獻(xiàn)[66]同樣結(jié)合了Mask R-CNN和ORB-SLAM2,改進(jìn)了環(huán)境語義信息的利用,通過實(shí)例分割和回環(huán)檢測提高了定位精度和魯棒性。文獻(xiàn)[67]的OVD-SLAM集成了YOLOv5和光流技術(shù),在高動態(tài)環(huán)境中實(shí)時識別動態(tài)物體,雖需高計算資源,但在實(shí)時性和精度方面表現(xiàn)出色。文獻(xiàn)[69]的多關(guān)鍵幀RGB-D密集SLAM系統(tǒng)通過語義分割和幾何殘差模型優(yōu)化位姿估計,但對高質(zhì)量數(shù)據(jù)和計算資源有較高依賴。文獻(xiàn)[70]的ESPNetV2在動態(tài)場景中的圖像語義分割和特征點(diǎn)提取方面表現(xiàn)優(yōu)異,盡管泛化能力和誤檢問題需要進(jìn)一步驗(yàn)證。

        4)深度估計 文獻(xiàn)[71]提出的VSLAM 算法是基于ResNet深度估計的單目SLAM算法,是一種創(chuàng)新的視覺SLAM算法,通過利用預(yù)訓(xùn)練的ResNet進(jìn)行編碼,并通過卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行解碼實(shí)現(xiàn)高效的深度估計,同時引入相似性濾波器對surfels進(jìn)行去噪,從而提升稠密地圖的質(zhì)量。該算法的核心創(chuàng)新在于利用遷移學(xué)習(xí)和少量訓(xùn)練參數(shù),實(shí)現(xiàn)了無須初始化的高精度深度估計,并通過相似性濾波器減少深度估計誤差的影響。盡管具有高魯棒性特征和高匹配精度的優(yōu)點(diǎn),但該系統(tǒng)對光照條件和計算資源的依賴較高,增加了計算復(fù)雜度,可能對實(shí)時性造成影響,為實(shí)現(xiàn)實(shí)時處理,通常需要借助GPU等硬件加速器。

        文獻(xiàn)[72]提出了一種無監(jiān)督單目深度估計框架,通過結(jié)合視覺和慣性測量數(shù)據(jù)(IMU)提升單目視覺SLAM性能。模型包含DepthNet用于深度圖預(yù)測,PoseNet提取運(yùn)動特征,IMFNet結(jié)合MSA和BiLSTM處理IMU數(shù)據(jù),AFNet自適應(yīng)融合視覺和慣性數(shù)據(jù)生成尺度一致的運(yùn)動軌跡,虛擬立體模型解決尺度不確定性問題。創(chuàng)新在于無監(jiān)督學(xué)習(xí)減少了對標(biāo)注數(shù)據(jù)的依賴,多模態(tài)數(shù)據(jù)融合提升了復(fù)雜環(huán)境下的魯棒性,虛擬立體模型提高了SLAM初始化和姿態(tài)估計的精度。其優(yōu)勢包括減少數(shù)據(jù)收集成本。適應(yīng)動態(tài)和光照變化環(huán)境,并提升SLAM算法性能。然而,該算法對IMU精度依賴大,且計算復(fù)雜度較高。文獻(xiàn)[73]提出了一種名為LeoVR的深度學(xué)習(xí)模型用于VSLAM中的深度估計。該模型采用學(xué)習(xí)嵌入的運(yùn)動感知優(yōu)化方案和運(yùn)動-光流指導(dǎo)的自監(jiān)督框架,通過因子圖優(yōu)化和跨模態(tài)特征融合,整合RGB圖像和LiDAR點(diǎn)云特征,利用跳躍連接恢復(fù)深度圖中的細(xì)節(jié)。自監(jiān)督框架通過相機(jī)運(yùn)動信息提取監(jiān)督信號,減少對像素級地面真實(shí)值標(biāo)注的依賴。其訓(xùn)練過程分為初始化和優(yōu)化階段,分別依賴因子圖的點(diǎn)因子和優(yōu)化后的深度圖進(jìn)行訓(xùn)練。創(chuàng)新點(diǎn)在于運(yùn)動感知優(yōu)化框架與自監(jiān)督學(xué)習(xí)方法,通過運(yùn)動-光流一致性約束提升深度估計的準(zhǔn)確性。優(yōu)點(diǎn)包括高準(zhǔn)確性、自監(jiān)督學(xué)習(xí)降低數(shù)據(jù)標(biāo)注成本及在挑戰(zhàn)性場景下的魯棒性,但計算復(fù)雜度高且依賴運(yùn)動信息。

        盡管基于深度學(xué)習(xí)的方法在VSLAM領(lǐng)域取得了一些突破,但仍面臨巨大的挑戰(zhàn)。深度學(xué)習(xí)方法需要大量標(biāo)注數(shù)據(jù)和計算資源,對VSLAM任務(wù)來說昂貴且耗時,且魯棒性在處理噪聲、動態(tài)場景和視角變化等復(fù)雜情況下有待提高??山忉屝院头夯芰σ嗍切枰芯康膯栴}。

        2.3.2 強(qiáng)化學(xué)習(xí)

        基于強(qiáng)化學(xué)習(xí)的視覺SLAM算法結(jié)合了強(qiáng)化學(xué)習(xí)與視覺SLAM,以優(yōu)化相機(jī)運(yùn)動、地圖構(gòu)建、路徑規(guī)劃和狀態(tài)估計。強(qiáng)化學(xué)習(xí)通過智能體與環(huán)境的交互,學(xué)習(xí)最優(yōu)行為策略。例如,在相機(jī)運(yùn)動優(yōu)化方面,強(qiáng)化學(xué)習(xí)可幫助優(yōu)化相機(jī)的軌跡,實(shí)現(xiàn)更準(zhǔn)確的定位和姿態(tài)估計;對于地圖構(gòu)建,強(qiáng)化學(xué)習(xí)優(yōu)化特征點(diǎn)和關(guān)鍵幀選擇,提高地圖的質(zhì)量和準(zhǔn)確性;對于路徑規(guī)劃則通過學(xué)習(xí)最佳航行策略,使智能體在復(fù)雜環(huán)境中高效移動,完成預(yù)設(shè)任務(wù);對于加強(qiáng)狀態(tài)估計,強(qiáng)化學(xué)習(xí)聯(lián)用傳統(tǒng)濾波器或優(yōu)化方法,提高系統(tǒng)定位和建圖精度。

        盡管基于強(qiáng)化學(xué)習(xí)的視覺SLAM算法有著不錯的優(yōu)勢,但其仍需要大量訓(xùn)練數(shù)據(jù)和計算資源,且目前這方面成熟的算法較少,并面臨著環(huán)境動態(tài)性和傳感器噪聲的挑戰(zhàn)。設(shè)計有效的獎勵函數(shù)、狀態(tài)表示和策略搜索算法是此領(lǐng)域的研究重點(diǎn)。通過不斷優(yōu)化這些算法,強(qiáng)化學(xué)習(xí)有望大幅提升視覺SLAM系統(tǒng)在復(fù)雜動態(tài)環(huán)境中的穩(wěn)定性和準(zhǔn)確性。

        3 視覺SLAM算法發(fā)展趨勢

        3.1 深度學(xué)習(xí)與視覺SLAM融合

        近年來,深度學(xué)習(xí)在計算機(jī)視覺領(lǐng)域取得了巨大的成功,包括目標(biāo)檢測、圖像分割和姿態(tài)估計等任務(wù)。將深度學(xué)習(xí)技術(shù)與視覺SLAM相結(jié)合,有望顯著提升視覺SLAM算法的魯棒性、精度和效率。目前,深度學(xué)習(xí)在解決視覺SLAM算法中的問題主要集中在以下三個方向:a)前端的自動特征提取,利用卷積神經(jīng)網(wǎng)絡(luò)自動提取具有高辨識度和穩(wěn)定性的圖像特征,減少對人工調(diào)優(yōu)的需求;b)深度估計,通過深度學(xué)習(xí)模型從單目圖像或視頻序列中預(yù)測深度信息,從而減少對雙目相機(jī)或激光雷達(dá)的依賴;c)增強(qiáng)魯棒性,利用改進(jìn)的循環(huán)神經(jīng)網(wǎng)絡(luò)或自注意力機(jī)制來學(xué)習(xí)圖像序列中的時空特征,提高系統(tǒng)在光照變化和視角變換情況下的穩(wěn)定性。未來,深度學(xué)習(xí)在視覺SLAM中的應(yīng)用將繼續(xù)擴(kuò)展,這一發(fā)展趨勢將推動視覺SLAM算法在更加復(fù)雜和動態(tài)的環(huán)境中實(shí)現(xiàn)更高的性能和穩(wěn)定性。

        3.2 多傳感器融合

        為提高視覺SLAM系統(tǒng)的穩(wěn)定性和魯棒性,多傳感器融合是一個關(guān)鍵的發(fā)展方向。通過將視覺傳感器與慣性測量單元(IMU)、激光雷達(dá)等多種傳感器結(jié)合,可以獲取更加豐富的環(huán)境信息,從而提高定位和地圖構(gòu)建的精度。目前,視覺SLAM算法在多傳感器融合方面的核心研究方向包括三點(diǎn):a)開發(fā)緊耦合的融合算法,在優(yōu)化過程中同時考慮不同傳感器的數(shù)據(jù),減少數(shù)據(jù)不一致帶來的誤差;b)利用深度學(xué)習(xí)模型動態(tài)調(diào)整傳感器數(shù)據(jù)的權(quán)重,以適應(yīng)不同環(huán)境和運(yùn)動狀態(tài);c)通過增加額外的傳感器,實(shí)現(xiàn)多模態(tài)感知,綜合利用視覺、激光雷達(dá)、IMU和聲吶等多種感知模式,加強(qiáng)系統(tǒng)在復(fù)雜環(huán)境中的表現(xiàn)。未來,多傳感器融合算法將繼續(xù)得到改進(jìn)和優(yōu)化,以更好地適應(yīng)各種復(fù)雜環(huán)境和應(yīng)用場景。

        3.3 實(shí)時性和效率的提升

        實(shí)時性是視覺SLAM算法在無人機(jī)導(dǎo)航、增強(qiáng)現(xiàn)實(shí)和自主駕駛等眾多應(yīng)用領(lǐng)域中的關(guān)鍵需求。為此,研究者們致力于改進(jìn)算法的效率,減少計算復(fù)雜度和內(nèi)存消耗。具體的發(fā)展方向主要有三個:a)輕量化,設(shè)計輕量級的深度學(xué)習(xí)模型和優(yōu)化算法,以降低計算和內(nèi)存需求,目前已有許多輕量化模型能夠替代VSLAM算法中的各個模塊,例如特征提取和回環(huán)檢測等;b)硬件加速,通過利用GPU、FPGA等硬件加速技術(shù),提高算法的實(shí)時處理能力;c)增量優(yōu)化,采用增量式的圖優(yōu)化方法,避免全局重優(yōu)化,減少計算開銷。未來,更高效的實(shí)時視覺SLAM算法和硬件加速技術(shù)將不斷涌現(xiàn),以滿足實(shí)際應(yīng)用中的需求。

        3.4 增強(qiáng)現(xiàn)實(shí)(AR)和虛擬現(xiàn)實(shí)(VR)應(yīng)用

        視覺SLAM在增強(qiáng)現(xiàn)實(shí)和虛擬現(xiàn)實(shí)領(lǐng)域具有巨大的潛力,通過結(jié)合視覺SLAM算法和虛擬現(xiàn)實(shí)技術(shù),可以實(shí)現(xiàn)更真實(shí)、交互性更強(qiáng)的虛擬體驗(yàn)。目前該方向的重點(diǎn)研究問題包括高精度定位、環(huán)境理解和實(shí)時渲染。高精度定位確保了虛擬對象與現(xiàn)實(shí)場景的準(zhǔn)確疊加,環(huán)境理解利用深度學(xué)習(xí)進(jìn)行場景識別和語義分割,增強(qiáng)系統(tǒng)對環(huán)境的感知和交互能力,而實(shí)時渲染則優(yōu)化了圖像處理和渲染算法,以確保虛擬場景的流暢性和高質(zhì)量呈現(xiàn)。未來,將出現(xiàn)更多基于視覺SLAM的增強(qiáng)現(xiàn)實(shí)和虛擬現(xiàn)實(shí)應(yīng)用,涵蓋游戲、培訓(xùn)、設(shè)計和遠(yuǎn)程協(xié)作等領(lǐng)域。

        3.5 自主導(dǎo)航和機(jī)器人技術(shù)

        視覺SLAM在自主導(dǎo)航和機(jī)器人技術(shù)中扮演著極為重要的角色,隨著機(jī)器人技術(shù)的快速發(fā)展,對視覺SLAM算法的需求也日益增加。目前,視覺SLAM算法在自主導(dǎo)航領(lǐng)域面臨的關(guān)鍵問題包括:a)動態(tài)環(huán)境的適應(yīng)問題,即開發(fā)能夠處理動態(tài)環(huán)境中物體運(yùn)動和遮擋的算法,以提高系統(tǒng)的魯棒性;b)路徑規(guī)劃與避障問題,即結(jié)合視覺SLAM與路徑規(guī)劃算法,實(shí)現(xiàn)自主導(dǎo)航和智能避障;c)室內(nèi)外無縫導(dǎo)航問題,即利用多傳感器融合和多模態(tài)感知,實(shí)現(xiàn)機(jī)器人在室內(nèi)外環(huán)境中的無縫導(dǎo)航。未來,視覺SLAM算法將繼續(xù)推動自主導(dǎo)航和機(jī)器人技術(shù)的發(fā)展,包括室內(nèi)導(dǎo)航、無人駕駛汽車和無人機(jī)等領(lǐng)域的應(yīng)用。

        4 結(jié)束語

        本文綜述了當(dāng)前視覺SLAM算法的研究現(xiàn)狀,揭示了在特征法、直接法和深度學(xué)習(xí)等方面的顯著進(jìn)展及其廣泛應(yīng)用。這些方法在環(huán)境建圖、定位和運(yùn)動估計等方面取得了一定程度的成功,但仍面臨提高魯棒性、實(shí)時性和大規(guī)模場景處理能力等挑戰(zhàn)。未來的研究應(yīng)集中在優(yōu)化算法效率和精度、引入語義信息和多模態(tài)感知,以及融合多種傳感器數(shù)據(jù)等方面。其中,深度學(xué)習(xí)最有可能顛覆該領(lǐng)域,以深度學(xué)習(xí)驅(qū)動的視覺SLAM不僅提供了更為數(shù)據(jù)驅(qū)動的解決方案,還拓展了對未來人工智能空間感知的理解與探索。隨著深度學(xué)習(xí)方法的可解釋性不斷提升,未來視覺SLAM算法有望大規(guī)模采用深度學(xué)習(xí),實(shí)現(xiàn)更智能、高效的空間感知和理解。希望本文能為視覺SLAM技術(shù)的發(fā)展提供有價值的參考,并激勵更多研究人員在這一領(lǐng)域繼續(xù)探索與創(chuàng)新。

        參考文獻(xiàn):

        [1]Mokssit S, Licea D B, Guermah B, et al. Deep learning techniques for visual SLAM: a survey[J]. IEEE Access, 2023, 11: 20026-20050.

        [2]Kendall A, Cipolla R. Geometric loss functions for camera pose regression with deep learning[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2017: 5974-5983.

        [3]Tateno K, Tombari F, Laina I, et al. CNN-SLAM: real-time dense monocular SLAM with learned depth prediction[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2017: 6243-6252.

        [4]Cadena C, Carlone L, Carrillo H, et al. Past, present, and future of simultaneous localization and mapping: toward the robust-perception age[J]. IEEE Trans on robotics, 2016, 32(6): 1309-1332.

        [5]Mur-Artal R, Montiel J M M, Tardos J D. ORB-SLAM: a versatile and accurate monocular SLAM system[J]. IEEE Trans on Robo-tics, 2015, 31(5): 1147-1163.

        [6]Mur-Artal R, Tardos J D, Montiel J M M. ORB-SLAM2: an open-source SLAM system for monocular, stereo, and RGB-D cameras [J]. IEEE Trans on Robotics, 2017, 33(5): 1255-1262.

        [7]Campos C, Elvira R, Rodríguez J J G, et al. ORB-SLAM3: an accurate open-source library for visual, visual-inertial, and multimap SLAM[J]. IEEE Trans on Robotics, 2021, 37(6): 1874-1890.

        [8]Gomez-Ojeda R, Briales J, Gonzalez-Jimenez J. PL-SVO: Semi-direct monocular visual odometry by combining points and line seg-ments[C]//Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway,NJ:IEEE Press, 2016: 4211-4216.

        [9]Engel J, Schps T, Cremers D. LSD-SLAM: large-scale direct monocular SLAM[C]//Proc of European Conference on Computer Vision. Berlin: Springer, 2014: 834-849.

        [10]Newcombe R A, Lovegrove S J, Davison A J. DTAM: dense tracking and mapping in real-time[C]//Proc of International Conference on Computer Vision. Piscataway,NJ:IEEE Press, 2011: 2320-2327.

        [11]Mollica G, Legittimo M, Dionigi A, et al. Integrating sparse lear-ning-based feature detectors into simultaneous localization and mapping—a benchmark study[J]. Sensors, 2023, 23(4): 2286.

        [12]Wang Sen, Clark R, Wen Hongkai, et al. DeepVo: towards end-to-end visual odometry with deep recurrent convolutional neural networks[C]//Proc of IEEE International Conference on Robotics and Automation. Piscataway,NJ:IEEE Press, 2017: 2043-2050.

        [13]Kuznietsov Y, Stuckler J, Leibe B. Semi-supervised deep learning for monocular depth map prediction[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2017: 6647-6655.

        [14]Cao Ke, Liu Ruiping, Wang Ze, et al. Tightly-coupled LiDAR-visual SLAM based on geometric features for mobile agents[C]//Proc of IEEE International Conference on Robotics and Biomimetics. Piscataway,NJ:IEEE Press, 2023: 1-8.

        [15]Delbrück T, Linares-Barranco B, Culurciello E, et al. Activity-driven, event-based vision sensors [C] // Proc of IEEE International Symposium on Circuits and Systems. 2010: 2426-2429.

        [16]Chen Weifeng, Shang Guangtao, Ji Aihong, et al. An overview on visual SLAM: from tradition to semantic[J]. Remote Sensing, 2022, 14(13): 3010.

        [17]Zhang Sen, Zhang Jing, Tao Dacheng. Towards scale consistent monocular visual odometry by learning from the virtual world [C] // Proc of International Conference on Robotics and Automation. 2022: 5601-5607.

        [18]Engel J, Styuckler J, Cremers D. Large-scale direct SLAM with stereo cameras[C]//Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway,NJ:IEEE Press, 2015: 1935-1942.

        [19]Cheng Jun, Zhang Liyan, Chen Qihong, et al. A review of visual SLAM methods for autonomous driving vehicles[J]. Engineering Applications of Artificial Intelligence, 2022, 114: 104992.

        [20]Alenyà G, Foix S, Torras C. Using ToF and RGBD cameras for 3D robot perception and manipulation in human environments[J]. Intelligent Service Robotics, 2014, 7(4): 211-220.

        [21]Jin Qiongyao, Liu Yungang, Man Yongchao, et al. Visual SLAM with RGB-D cameras[C]//Proc of Chinese Control Conference. Piscataway,NJ:IEEE Press, 2019: 4072-4077.

        [22]Gallego G, Delbryuck T, Orchard G, et al. Event-based vision: a survey[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2020, 44(1): 154-180.

        [23]Zuo YiFan, Yang Jiaqi, Chen Jiaben, et al. Devo: depth-event camera visual odometry in challenging conditions[C]//Proc of International Conference on Robotics and Automation. Piscataway,NJ:IEEE Press, 2022: 2179-2185.

        [24]Bryner S, Gallego G, Rebecq H, et al. Event-based, direct camera tracking from a photometric 3D map using nonlinear optimization[C]//Proc of International Conference on Robotics and Automation. Piscataway,NJ:IEEE Press, 2019: 325-331.

        [25]Shin Y S, Park Y S, Kim A. Direct visual slam using sparse depth for camera-LiDAR system [C] // Proc of IEEE International Confe-rence on Robotics and Automation. 2018: 5144-5151.

        [26]López E, García S, Barea R, et al. A multi-sensorial simultaneous localization and mapping (SLAM) system for low-cost micro aerial vehicles in GPS-denied environments[J]. Sensors, 2017, 17(4): 802.

        [27]Vidal A R, Rebecq H, Horstschaefer T, et al. Ultimate SLAM? Combining events, images, and IMU for robust visual SLAM in HDR and high-speed scenarios[J]. IEEE Robotics and Automation Letters, 2018, 3(2): 994-1001.

        [28]Simon D. Kalman filtering[J]. Embedded systems programming, 2001, 14(6): 72-79.

        [29]Kim Y, Bang H. Introduction to Kalman filter and its applications[J]. Introduction and Implementations of the Kalman Filter, 2018, 1: 1-16.

        [30]Bailey T, Nieto J, Guivant J, et al. Consistency of the EKF-SLAM algorithm[C]//Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway,NJ:IEEE Press, 2006: 3562-3568.

        [31]Yu Zhenzhong, Liang Qiang, Zhang Siqi, et al. A graph-based vi-sual SLAM system fusing multiple feature[C]//Proc of the 6th IEEE International Conference on Advanced Robotics and Mechatronics. Piscataway,NJ:IEEE Press, 2021: 777-784.

        [32]Saputra M R U, Lu C X, De Gusmao P P B, et al. Graph-based thermal-inertial SLAM with probabilistic neural networks[J]. IEEE Trans on Robotics, 2021, 38(3): 1875-1893.

        [33]Wang Jinke, Zuo Xingxing, Zhao Xiangrui, et al. Review of multi-source fusion SLAM: current status and challenges[J]. Journal of Image and Graphics, 2022, 27(2): 368-389.

        [34]葉俊強(qiáng),尤睿,于明鑫,等.基于稀疏直接法的特征增強(qiáng)視覺SLAM算法[J].儀器儀表學(xué)報,2023,44(6):205-212. (Ye Junqiang, You Rui, Yu Mingxin, et al. Feature enhanced visual SLAM algorithm based on sparse direct method [J]. Journal of Instrumentation, 2023,44(6): 205-212.)

        [35]Engel J, Koltun V, Cremers D. Direct sparse odometry[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2017, 40(3): 611-625.

        [36]Forster C, Pizzoli M, Scaramuzza D. SVO: Fast semi-direct monocular visual odometry[C]//Proc of IEEE International Conference on Robotics and Automation. Piscataway,NJ:IEEE Press, 2014: 15-22.

        [37]Shin Y S, Park Y S, Kim A. DVL-SLAM: sparse depth enhanced direct visual-LiDAR SLAM[J]. Autonomous Robots, 2020, 44(2): 115-130.

        [38]Xie Hongyu, Zhang Dong, Wang Jun, et al. Semi-direct multimap SLAM system for real-time sparse 3-D map reconstruction[J]. IEEE Trans on Instrumentation and Measurement, 2023, 72: 1-13.

        [39]Zheng Chunran, Zhu Qingyan, Xu Wei, et al. FAST-LIVO: fast and tightly-coupled sparse-direct lidar-inertial-visual odometry[C]//Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway,NJ:IEEE Press, 2022: 4003-4009.

        [40]Hu Bo, Luo Jingwei. A robust semi-direct 3D SLAM for mobile robot based on dense optical flow in dynamic scenes[J]. Biomimetics, 2023, 8(4): 371.

        [41]Zhao Mingle, Zhou Dingfu, Song Xibin, et al. DiT-SLAM: real-time Dense visual-inertial SLAM with implicit depth representation and tightly-coupled graph optimization[J]. Sensors, 2022, 22(9): 3389.

        [42]Xie Hongyu, Zhang Dong, Hu Xiaobo, et al. Autonomous multirobot navigation and cooperative mapping in partially unknown environments [J]. IEEE Trans on Instrumentation and Measurement, 2023, 72: 1-12.

        [43]吳葉蘭,謝宇忻,劉杰,等.基于半直接視覺里程計的SLAM稠密重建[J].中國科技論文,2022,17(3):305-310,318.(Wu Yelan, Xie Yuxin, Liu Jie, et al. SLAM dense reconstruction based on semi direct visual odometry [J]. Chinese Science and Technology Paper, 2022, 17(3): 305-310,318.)

        [44]Mo J, ISLAM M J, Sattar J. Fast direct stereo visual SLAM[J]. IEEE Robotics and Automation Letters, 2021, 7(2): 778-785.

        [45]Concha A, Loianno G, Kumar V, et al. Visual-inertial direct SLAM[C]//Proc of IEEE International Conference on Robotics and Automation. Piscataway,NJ:IEEE Press, 2016: 1331-1338.

        [46]Bruno H M S, Colombini E L. LIFT-SLAM: a deep-learning feature-based monocular visual SLAM method[J]. Neurocomputing, 2021, 455: 97-110.

        [47]Li Guangqiang, Yu Lei, Fei Shumin. A deep-learning real-time visual SLAM system based on multi-task feature extraction network and self-supervised feature points[J]. Measurement, 2021, 168: 108403.

        [48]Yin Zhenyu, Feng Dan, Fan Chao, et al. SP-VSLAM: monocular visual-SLAM algorithm based on SuperPoint network[C]//Proc of the 15th International Conference on Communication Software and Networks. Piscataway,NJ:IEEE Press, 2023: 456-459.

        [49]Xiao Zhang, Li Shuaixin. SL-SLAM: a robust visual-inertial SLAM based deep feature extraction and matching[EB/OL].(2024).https:// arxiv.org/abs/2405.03413.

        [50]Zhu Bihong, Yu Aihua, Hou Beiqing, et al. A novel visual SLAM based on multiple deep neural networks[J]. Applied Sciences, 2023, 13(17): 9630.

        [51]Yu Leijian, Yang Erfu, Yang Beiya, et al. A robust learned feature-based visual odometry system for UAV pose estimation in challenging indoor environments[J]. IEEE Trans on Instrumentation and Measurement, 2023, 72: 1-11.

        [52]Zhang Tiantian, Li Ni, Gong Guanghong, et al. CCVO: cascaded CNNs for fast monocular visual odometry towards the dynamic environment[J]. IEEE Robotics and Automation Letters, 2022, 8(5): 2938-2945.

        [53]Zhang Heng, Zhang Yihong, Liu Yanli, et al. SLAM loop closure detection algorithm based on MSA-SG[J]. Cluster Computing, 2024,27: 1-19.

        [54]Zhou Deyang, Luo Yazhe, Zhang Qinhan, et al. A lightweight neural network for loop closure detection in indoor visual SLAM[J]. International Journal of Computational Intelligence Systems, 2023, 16(1): 49.

        [55]Chen Baifan, Yuan Dian, Liu Chunfa, et al. Loop closure detection based on multi-scale deep feature fusion[J]. Applied Sciences, 2019, 9(6): 1120.

        [56]Gao Xiang, Zhang Tao. Unsupervised learning to detect loops using deep neural networks for visual SLAM system[J]. Autonomous Robots, 2017, 41: 1-18.

        [57]An Shan, Zhu Haogang, Wei Dong, et al. Fast and incremental loop closure detection with deep features and proximity graphs[J]. Journal of Field Robotics, 2022, 39(4): 473-493.

        [58]Xu Yan, Huang Jinni, Wang Jixiang, et al. ESA-VLAD: a lightweight network based on second-order attention and NetVLAD for loop closure detection[J]. IEEE Robotics and Automation Letters, 2021, 6(4): 6545-6552.

        [59]Zhang Kaining, Ma Jiayi, Jiang Junjun. Loop closure detection with reweighting NetVLAD and local motion and structure consensus[J]. IEEE/CAA Journal of Automatica Sinica, 2022, 9(6): 1087-1090.

        [60]Memon A R, Wang Hesheng, Hussain A. Loop closure detection using supervised and unsupervised deep neural networks for monocular SLAM systems[J]. Robotics and Autonomous Systems, 2020, 126: 103470.

        [61]Zhang Xiwu, Su Yan, Zhu Xinhua. Loop closure detection for visual SLAM systems using convolutional neural network[C]//Proc of the 23rd International Conference on Automation and Computing. Pisca-taway,NJ:IEEE Press, 2017: 1-6.

        [62]Wang Shuo, Lv Xudong, Liu Xiaomin, et al. Compressed holistic convnet representations for detecting loop closures in dynamic environments[J]. IEEE Access, 2020, 8: 60552-60574.

        [63]Liu Yang, Liang Yuxuan, Li Yuxia. SLAM loop detection algorithm based on deep neural network[C]//Proc of the 2nd International Conference on Networking, Communications and Information Techno-logy. Piscataway,NJ:IEEE Press, 2022: 1-5.

        [64]Burguera A, Bonin-Font F, Font E G, et al. Combining deep lear-ning and robust estimation for outlier-resilient underwater visual graph SLAM[J]. Journal of Marine Science and Engineering, 2022, 10(4): 511.

        [65]Sun Ying, Hu Jun, Yun Juntong, et al. Multi-objective location and mapping based on deep learning and visual SLAM[J]. Sensors, 2022, 22(19): 7576.

        [66]Huang Li, Zhu Zhe, Yun Juntong, et al. Semantic loopback detection method based on instance segmentation and visual SLAM in autonomous driving[J]. IEEE Trans on Intelligent Transportation Systems, 2023,25(3):3118-3127.

        [67]He Jiaming, Li Mingrui, Wang Yangyang, et al. OVD-SLAM: an online visual SLAM for dynamic environments[J]. IEEE Sensors Journal, 2023,23(12): 13210-13219.

        [68]Yu Han, Wang Qing, Yan Chao, et al. DLD-SLAM: RGB-D visual simultaneous localisation and mapping in indoor dynamic environments based on deep learning[J]. Remote Sensing, 2024, 16(2): 246.

        [69]Zhou Wugen, Peng Xiaodong, Li Yun, et al. Keyframe-based RGB-D dense visual SLAM fused semantic cues in dynamic scenes[J]. Machine Vision and Applications, 2024, 35(3): 47.

        [70]Shoukat M U, Yan Lirong, Deng Di, et al. Cognitive robotics: deep learning approaches for trajectory and motion control in complex environment[J]. Advanced Engineering Informatics, 2024, 60: 102370.

        [71]Li Zheng, Yu Lei, Pan Zihao. A monocular SLAM system based on ResNet depth estimation[J]. IEEE Sensors Journal, 2023,23(13):15106-15114.

        [72]Liu Feng, Huang Ming, Ge Hongyu, et al. Unsupervised monocular depth estimation for monocular visual SLAM systems[J]. IEEE Trans on Instrumentation and Measurement, 2023, 73:article No. 2502613.

        [73]Li Danyang, Xu Jingao, Yang Zheng, et al. LeoVR: motion-inspired visual-LiDAR fusion for environment depth estimation[J]. IEEE Trans on Mobile Computing, 2023,23(6): 7499-7516.

        [74]Zhang Dingnan, Peng Tao, Liu Ruixu, et al. Lightweight deep lear-ning algorithm for visual odometry[C]//Proc of IEEE National Aerospace and Electronics Conference. Piscataway,NJ:IEEE Press, 2023: 210-213.

        [75]李泳, 劉宏杰, 周永錄, 等. 室內(nèi)動態(tài)場景下基于語義關(guān)聯(lián)的視覺SLAM方法 [J]. 計算機(jī)應(yīng)用研究, 2024,41(8): 2528-2532. (Li Yong, Liu Hongjie, Zhou Yonglu, et al. Visual SLAM method based on semantic association in indoor dynamic scenes [J].Application Research of Computers, 2024,41(8):2528-2532.)

        [76]陳孟元, 韓朋朋, 劉金輝, 等. 動態(tài)遮擋場景下基于改進(jìn) Transformer 實(shí)例分割的 VSLAM 算法[J]. 電子學(xué)報, 2023, 51(7): 1812-1825.(Chen Mengyuan, Han Pengpeng, Liu Jinhui, et al. VSLAM algorithm based on improved Transformer instance segmentation in dynamic occlusion scenes [J]. Journal of Electronics, 2023, 51(7): 1812-1825.)

        [77]宋學(xué)佳,敖銀輝,王文杰. 復(fù)雜環(huán)境中的無人車多傳感器緊耦合SLAM方法[J]. 傳感技術(shù)學(xué)報,2023,36(9):1407-1416.(Song Xuejia, Ao Yinhui, Wang Wenjie. Multi sensor tightly coupled SLAM method for unmanned vehicles in complex environments [J]. Journal of Sensing Technology, 2023,36(9): 1407-1416.)

        [78]田瑞,張?jiān)浦?,楊凌昊,? 物體級語義視覺SLAM研究綜述[J]. 控制理論與應(yīng)用,2023,40(12):2160-2171. (Tian Rui, Zhang Yunzhou, Yang Linghao, et al. A review of research on object level semantic visual SLAM [J]. Control Theory and Applications, 2023,40(12): 2160-2171.)

        [79]徐韜,陳孟元,劉曉曉,等. 動態(tài)場景下基于注意力機(jī)制與幾何約束的VSLAM算法[J]. 傳感技術(shù)學(xué)報,2023,36(9):1395-1406. (Xu Tao, Chen Mengyuan, Liu Xiaoxiao, et al. VSLAM algorithm based on attention mechanism and geometric constraints in dynamic scenes[J].Journal of Sensing Technology,2023,36(9):1395-1406.)

        [80]王朋, 郝偉龍, 倪翠, 等. 視覺 SLAM 方法綜述[J]. 北京航空航天大學(xué)學(xué)報, 2022, 50(2): 359-367.(Wang Peng, Hao Weilong, Ni Cui, et al. Overview of visual SLAM methods [J]. Journal of Beihang University, 2022, 50(2): 359-367.)

        [81]王富強(qiáng),王強(qiáng),李敏,等. 基于動態(tài)分級的自適應(yīng)運(yùn)動目標(biāo)處理SLAM算法[J]. 計算機(jī)應(yīng)用研究,2023,40(8):2361-2366. (Wang Fuqiang, Wang Qiang, Li Min, et al. Adaptive moving target processing SLAM algorithm based on dynamic grading [J]. Application Research of Computer, 2023,40(8): 2361-2366.)

        [82]楊雪梅, 李帥永. 移動機(jī)器人視覺 SLAM 回環(huán)檢測原理, 現(xiàn)狀及趨勢[J]. 電子測量與儀器學(xué)報, 2022, 36(8): 1-12.(Yang Xuemei, Li Shuaiyong. The principle, current situation, and trend of SLAM loop detection for mobile robot vision [J]. Journal of Electronic Measurement and Instrumentation, 2022, 36(8): 1-12)

        [83]潘小鹍,劉浩敏,方銘,等. 基于語義概率預(yù)測的動態(tài)場景單目視覺SLAM[J]. 中國圖象圖形學(xué)報,2023,28(7):2151-2166. (Pan Xiaoqian, Liu Haomin, Fang Ming, et al. Dynamic scene monocular visual SLAM based on semantic probability prediction [J]. Chinese Journal of Image and Graphics, 2023,28(7): 2151-2166.)

        [84]伍曉東, 張松柏, 湯適榮, 等. 基于改進(jìn)關(guān)鍵幀選擇的ORB-SLAM3算法 [J]. 計算機(jī)應(yīng)用研究, 2023,40(5): 1428-1433. (Wu Xiaodong, Zhang Songbai, Tang Shirong, et al. Improved key-frame selection algorithm based on ORB-SLAM3 [J].Application Research of Computers, 2023,40(5): 1428-1433.)

        [85]李博,段中興. 室內(nèi)動態(tài)環(huán)境下基于深度學(xué)習(xí)的視覺里程計[J]. 小型微型計算機(jī)系統(tǒng),2023,44(1):49-55. (Li Bo, Duan Zhong-xing. Visual odometry based on deep learning in indoor dynamic environments [J]. Small Micro Computer Systems, 2023,44(1): 49-55.)

        [86]宋立忠,龔謝平,尹洋,等.基于深度學(xué)習(xí)的單目視覺里程計[J].海軍工程大學(xué)學(xué)報,2023,35(5):1-7.(Song Lizhong, Gong Xieping, Yin Yang, et al. A monocular visual odometry based on deep learning [J]. Journal of Naval Engineering University, 2023,35(5): 1-7.)

        [87]Maity S, Saha A, Bhowmick B. Edge SLAM: edge points based monocular visual SLAM[C]//Proc of IEEE International Conference on Computer VisionWorkshops. Piscataway,NJ:IEEE Press, 2017: 2408-2417.

        [88]Clark R, Wang Sen, Wen Hongkai, et al. VINet: visual-inertial odometry as a sequence-to-sequence learning problem[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2017.

        [89]Forster C, Carlone L, Dellaert F, et al. On-manifold preintegration for real-time visual-inertial odometry[J]. IEEE Trans on Robo-tics, 2016, 33(1): 1-21.

        [90]Mur-Artal R, Tardós J D. Fast relocalisation and loop closing in keyframe-based SLAM[C]//Proc of IEEE International Conference on Robotics and Automation. Piscataway,NJ:IEEE Press, 2014: 846-853.

        [91]Harbawee L A. Artificial intelligence tools for facial expression analysis[D]. Exeter:University of Exeter (United Kingdom), 2019.

        [92]Johnson M, Albizri A, Harfouche A, et al. Integrating human know-ledge into artificial intelligence for complex and ill-structured problems: informed artificial intelligence[J]. International Journal of Information Management, 2022, 64: 102479.

        [93]Lu Cunzhe, Qi Xiaogang, Ding Kai, et al. An improved FAST algorithm based on image edges for complex environment[J]. Sensors, 2022, 22(19): 7127.

        [94]Lin Xi, Huang Yewei, Sun Dingyi, et al. A robust keyframe-based visual SLAM for RGB-D cameras in challenging scenarios[J]. IEEE Access, 2023,11: 97239-97249.

        [95]Cheng Shuhong, Sun Changhe, Zhang Shijun, et al. SG-SLAM: a real-time RGB-D visual SLAM toward dynamic scenes with semantic and geometric information[J]. IEEE Trans on Instrumentation and Measurement 2022, 72: 1-12.

        [96]Wu Fang, Beltrame G. Direct sparse odometry with planes[J]. IEEE Robotics and Automation Letters, 2021, 7(1): 557-564.

        [97]Yang Nan, Stumberg L, Wang Rui, et al. D3VO: deep depth, deep pose and deep uncertainty for monocular visual odometry[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2020: 1281-1292.

        [98]Shan Tixiao, Englot B, Meyers D, et al. LIO-SAM: tightly-coupled lidar inertial odometry via smoothing and mapping[C]//Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway,NJ:IEEE Press, 2020: 5135-5142.

        猜你喜歡
        未來發(fā)展深度學(xué)習(xí)
        有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
        電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識別研究
        論慕課在高等教育中的發(fā)展現(xiàn)狀
        MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
        高校微課教學(xué)現(xiàn)狀及未來發(fā)展趨勢研究
        大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
        工業(yè)集中與廢棄物排放的關(guān)系
        論微電影廣告的營銷傳播及發(fā)展策略
        戲劇之家(2016年21期)2016-11-23 20:48:28
        網(wǎng)絡(luò)環(huán)境下古風(fēng)音樂的分析與展望
        東方教育(2016年17期)2016-11-23 10:56:29
        深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
        欧美男生射精高潮视频网站 | 男人深夜影院无码观看| 亚洲av免费看一区二区三区| 亚洲精品在线国产精品| 无码午夜成人1000部免费视频 | 又长又大又粗又硬3p免费视频| 亚洲综合久久久| 在线一区二区三区免费视频观看| 亚洲一二三区免费视频| 色avav色av爱avav亚洲色拍| 日本成人久久| 国产大全一区二区三区| 亚洲av天堂在线视频| 无套内射无矿码免费看黄| 国产丝袜精品不卡| 青青草在线公开免费视频| 噜噜综合亚洲av中文无码| 人人妻人人澡人人爽人人精品| 国产日韩三级| 精品在线观看一区二区视频| 久久久久国产综合av天堂| 91在线精品老司机免费播放| 日本精品人妻一区二区三区| 洲色熟女图激情另类图区| 久久水蜜桃亚洲av无码精品麻豆| 草草影院国产| 亚洲av调教捆绑一区二区三区| 久久久中日ab精品综合| 久久精品岛国av一区二区无码| 扒开非洲女人大荫蒂视频| 亚洲中文字幕久久精品品| 台湾佬自拍偷区亚洲综合| 97精品国产高清自在线看超| 国产老熟女伦老熟妇露脸| 国产精品理论片| 亚洲欧洲国产日产国码无码| 在线久草视频免费播放| 最近中文字幕国语免费| 亚洲国产精品一区二区久| 最新国产成人自拍视频| 亚洲av午夜成人片精品电影|