劉艷麗,尹慧君,張 恒+
(1.華東交通大學(xué) 信息工程學(xué)院,江西 南昌 330013;2.上海電機學(xué)院 電子信息學(xué)院,上海 201306)
傳統(tǒng)的粒子濾波算法[1-7]的局限性在于它們需要系統(tǒng)的概率模型,都是基于特定模型公式的算法,不能適應(yīng)比較復(fù)雜的環(huán)境。隨著深度學(xué)習(xí)的飛速發(fā)展,最近涌現(xiàn)了一系列新興技術(shù)將算法結(jié)構(gòu)集成到深度神經(jīng)網(wǎng)絡(luò)中,并以端到端的方式學(xué)習(xí)模型,逐步解決從數(shù)據(jù)中學(xué)習(xí)構(gòu)建概率系統(tǒng)模型的問題,從而規(guī)避了傳統(tǒng)模型學(xué)習(xí)的困難。Karkus等[8]引入一個粒子濾波網(wǎng)絡(luò)(PF-Net),它將系統(tǒng)模型和粒子濾波算法編碼在一個神經(jīng)網(wǎng)絡(luò)中,利用二維地圖、觀測圖像和里程計信息作為模型的輸入,并且允許端到端進行訓(xùn)練,解決了學(xué)習(xí)復(fù)雜概率系統(tǒng)模型的關(guān)鍵挑戰(zhàn)。當大多數(shù)粒子遠離真實狀態(tài)時,使用重采樣可以提高準確度,但當接近真實狀態(tài)的粒子被消除時,就會產(chǎn)生傷害,通常發(fā)生在學(xué)習(xí)的早期階段。
本文以粒子濾波網(wǎng)絡(luò)框架為基礎(chǔ),對粒子濾波算法進行重新設(shè)計,提出自適應(yīng)軟重采樣粒子濾波網(wǎng)絡(luò)(ASRPF-Net),其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。為了更好提取地圖信息和觀測信息,先利用空間轉(zhuǎn)換網(wǎng)絡(luò)得到局部地圖,再采用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)地圖信息和觀測信息,來提高粒子權(quán)重的準確性;通過結(jié)合粒子濾波標準技術(shù),提出自適應(yīng)軟重采樣方法,加入決策,使模型可以自己判斷是否需要進行重采樣,使用更少的粒子,緩解粒子消除現(xiàn)象,解決文獻[8]中在高度不確定性環(huán)境下可能需要大量粒子才能準確定位的問題,有利于提高預(yù)測的準確性和定位的魯棒性,并且在全局定位任務(wù)方面,有著更好的定位性能。
圖1 自適應(yīng)軟重采樣粒子濾波網(wǎng)絡(luò)(ASRPF-Net)
粒子濾波通過在狀態(tài)空間中尋找一組隨機樣本(粒子)來逼近概率密度函數(shù),用樣本的期望值代替積分運算獲得系統(tǒng)狀態(tài)的最小方差估計[9]。粒子濾波算法使用粒子集來表示概率,在任何能用狀態(tài)空間模型描述的非線性系統(tǒng)上都適用。粒子濾波算法的具體步驟如下:
(1)
歸一化
(2)
步驟5 輸出結(jié)果,輸出新的粒子集,以及后驗概率估計、狀態(tài)估計和方差估計
(3)
(4)
(5)
其中,δ(·) 表示狄拉克函數(shù)。
RNN稱為循環(huán)神經(jīng)網(wǎng)絡(luò)[10],RNN神經(jīng)網(wǎng)絡(luò)不僅具有前饋連接,而且具有內(nèi)部連接的反饋,從而起到“循環(huán)”的作用。正因為這種循環(huán)機制,讓RNN具備記憶功能,因此RNN非常適用于處理序列數(shù)據(jù)。RNN被廣泛用于語音識別[11]、機器翻譯[12]、目標跟蹤[13]、室內(nèi)定位[14]和導(dǎo)航[15]等領(lǐng)域。RNN網(wǎng)絡(luò)的圖模型如圖2所示。
圖2 RNN的圖模型
標準RNN通過維護一個確定性的潛在狀態(tài)處理序列預(yù)測,該狀態(tài)捕獲輸入歷史的足夠統(tǒng)計數(shù)據(jù),并在給定新輸入的情況下順序更新。具體來說,RNN使用從數(shù)據(jù)中學(xué)習(xí)到的確定性非線性函數(shù)來更新hk[16]。
本文的網(wǎng)絡(luò)框架類似于文獻[8]中的網(wǎng)絡(luò),我們利用RNN的強大近似能力,在網(wǎng)絡(luò)結(jié)構(gòu)中嵌入粒子濾波算法,構(gòu)建一個概率神經(jīng)網(wǎng)絡(luò)。ASRPF-Net模型以循環(huán)神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)框架進行設(shè)計,將粒子狀態(tài)作為循環(huán)神經(jīng)網(wǎng)絡(luò)的隱藏狀態(tài),其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。結(jié)合傳統(tǒng)的貝葉斯算法和神經(jīng)網(wǎng)絡(luò),在一個循環(huán)神經(jīng)網(wǎng)絡(luò)中編碼一個粒子濾波算法,以學(xué)習(xí)端到端的序列狀態(tài)估計的模型,同時將運動模型、觀測模型、空間轉(zhuǎn)換網(wǎng)絡(luò)模型和自適應(yīng)軟重采樣模型融合到一個RNN單元中。ASRPF-Net模型的具體結(jié)構(gòu)包含3個模塊(運動、觀測和自適應(yīng)軟重采樣模塊)。
(1)運動模塊:以當前時刻運動信息以及前一時刻粒子狀態(tài)作為輸入,獲得在當前時刻粒子的新狀態(tài)。
(2)觀測模塊:將當前時刻的粒子狀態(tài)、觀測信息和地圖作為輸入,通過利用空間轉(zhuǎn)換網(wǎng)絡(luò)模型獲得局部地圖,再用卷積神經(jīng)網(wǎng)絡(luò)對局部地圖信息和觀測圖像信息進行高效提取,為每一個粒子計算似然度,根據(jù)其似然度更新每個粒子權(quán)重。
(3)自適應(yīng)軟重采樣模塊:為了避免粒子退化和規(guī)避在RNN單元嵌入粒子濾波過程中梯度消失,加入決策,采用提出的自適應(yīng)軟重采樣方法,根據(jù)上述獲得的當前時刻粒子狀態(tài)和粒子權(quán)重,對粒子集進行處理,輸出新的粒子集。
該模型是完全可微的,算法和模型都被編碼到統(tǒng)一的網(wǎng)絡(luò)中表示,通過結(jié)合粒子濾波標準技術(shù),融合一種新的自適應(yīng)軟重采樣方法,得到自適應(yīng)軟重采樣粒子濾波網(wǎng)絡(luò)。ASRPF-Net模型以循環(huán)神經(jīng)網(wǎng)絡(luò)的形式實現(xiàn)粒子濾波算法,將神經(jīng)網(wǎng)絡(luò)作為可微分程序或計算圖模型,允許進行端到端的訓(xùn)練和學(xué)習(xí),如圖3所示。ASRPF-Net中的可微算法先驗是粒子濾波:信念的粒子表示,以及用于運動模型和觀測模型的貝葉斯更新。ASRPF-Net在計算圖中對粒子濾波進行編碼,運動模型和觀測模型是具有特定結(jié)構(gòu)的可訓(xùn)練神經(jīng)網(wǎng)絡(luò)。其中運動模型主要是采集機器人的動作,觀測模型主要基于地圖信息和機器人的觀測信息,然后利用粒子濾波算法更新狀態(tài)空間,達到與真實狀態(tài)最一致。
圖3 ASRPF-Net計算
粒子濾波器在接收到觀測數(shù)據(jù)后周期性地近似狀態(tài)的后驗分布,即使用粒子來表示系統(tǒng)的狀態(tài)信念b(h)。 該信念近似由一組粒子組成,即含有加權(quán)粒子的概率分布
(6)
(7)
(8)
第一步由式(7)可見,使用躍遷動力學(xué)來更新每個粒子。第二步由式(8)可見,將利用觀測信息來更新粒子權(quán)重。
我們的信念更新具有與標準粒子濾波器相似的結(jié)構(gòu),但是我們使用更豐富的函數(shù)來替換運動模型和觀測模型。ASRPF-Net模型通過運動變量uk、 觀測變量zk和地圖M更新先前的粒子信念bk-1, 以獲得當前的粒子信念bk。
圖4 ASRPF-Net觀測模型框架
圖5 CNN1模型結(jié)構(gòu)
圖6 CNN2模型結(jié)構(gòu)
為了避免粒子退化,即大多數(shù)粒子具有接近零的權(quán)重,粒子濾波器通常對粒子進行重采樣。然而重采樣是不可微的,這阻止了使用反向傳播來訓(xùn)練概率神經(jīng)網(wǎng)絡(luò),導(dǎo)致模型在訓(xùn)練過程中不能利用粒子變化的梯度信息。為了規(guī)避在RNN單元嵌入粒子濾波過程中梯度消失,我們采用文獻[8]中提出的軟重采樣策略,軟重采樣是一種基于重要性采樣的可微近似,為不可微重采樣步驟提供近似梯度。由于在文獻[8]中發(fā)現(xiàn)當大多數(shù)粒子遠離真實狀態(tài)時,使用重采樣可以提高準確度,但當接近真實狀態(tài)的粒子被消除時,就會產(chǎn)生傷害。本文通過結(jié)合粒子濾波標準技術(shù),采用自適應(yīng)重采樣原理,提出自適應(yīng)軟重采樣方法,加入決策機制,根據(jù)當前的有效粒子數(shù)目來判斷是否要執(zhí)行重采樣操作,其中判斷機制的有效粒子數(shù)Neff表示粒子的退化程度,Neff值越小,意味著退化現(xiàn)象越嚴重,需要進行重采樣操作。
計算判斷機制的有效采樣尺度Neff, 確定粒子退化程度。Neff如下定義
(9)
由式(9)中可以看出,粒子退化程度越嚴重,粒子權(quán)重的方差越大,使得Neff的值越小及樣本中符合條件的高權(quán)重粒子越少。因此,為避免出現(xiàn)高權(quán)重粒子占的比重過小的情況,算法需要對Neff設(shè)立相應(yīng)的閾值。我們設(shè)定有效樣本數(shù)Nthreshold=aNparticle作為閾值,其中Nparticle為粒子個數(shù), 0 (10) 若判斷為需要進行重采樣操作,ASRPF-Net模型采用軟重采樣方法(具體公式請參見文獻[8])。在本實驗中取α=0.5。 我們可以有最終粒子信念可以表示為 (11) 自適應(yīng)軟重采樣方法,通過實時計算有效粒子個數(shù)和評判粒子退化程度,保證只在有必要時ASRPF-Net才實施重采樣操作,有效減少重采樣次數(shù),改善頻繁重采樣所導(dǎo)致的樣本枯竭的影響,緩解粒子消除現(xiàn)象,提高算法的魯棒性。 算法1: ASRPF-Net總體算法框架 (1)fori=1 toNdo (5)ifNeff (7)end if (9)end for (10)returnbk 把該模型運用于機器人視覺定位,機器人在未知的室內(nèi)環(huán)境中進行導(dǎo)航。它需要通過車載攝像頭,里程計信息以及二維地面示意圖來確定自己的位置。通常用最小均方誤差來判定系統(tǒng)的優(yōu)劣,因此訓(xùn)練損失函數(shù) (12) 為驗證提出算法模型的性能,我們將用基于自適應(yīng)軟重采樣粒子濾波網(wǎng)絡(luò)模型對機器人定位進行實驗仿真,對比其它的網(wǎng)絡(luò)結(jié)構(gòu)模型來驗證可微算法先驗和端到端訓(xùn)練的優(yōu)勢。我們還研究當機器人的初始信念從圍繞其真實位姿分布到均勻分布整個空間時,設(shè)置不同粒子數(shù)目和不同初始信念,來對比在不同的不確定性水平下該模型的定位有效性,該模型還同時利用語義信息進行定位,針對語義地圖不同的標簽數(shù)據(jù),來比較該模型的定位有效性。為了進一步研究該模型的定位性能,我們在使用視覺信息和里程計信息的模擬三維迷宮中測試全局定位任務(wù)。 在House3D模擬器中進行仿真實驗,使用的是SUNCG數(shù)據(jù)集。該數(shù)據(jù)集是有大量人類設(shè)計、真實的住宅建筑數(shù)據(jù)。平均建筑面積為206平方米,房間的面積為37平方米。實驗所需的訓(xùn)練集和測試集的部分建筑圖片如圖7所示,它們是來自不同建筑的圖片。對于一個新的、未被看見過的和充滿家具的環(huán)境,通過學(xué)習(xí)復(fù)雜環(huán)境中的信息,機器人同時利用語義信息將三維世界的豐富視覺特征與示意性二維地圖相匹配,進行自身定位。對每個建筑的語義地圖進行標記,標記的模式如圖8所示,其中標記了門和房間。 圖7 部分訓(xùn)練集與測試集展示 圖8 標有門和房間類型的語義地圖 在DeepMind Lab的虛擬環(huán)境中進行實驗,通過讓模擬機器人在迷宮中行走來收集數(shù)據(jù),并將收集的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)。通過機器人隨機在迷宮中行走獲得的1000條軌跡,機器人每一步都通過相機獲得當前位置的圖像。對于每個迷宮,使用機器人在迷宮中的1000條運動軌跡進行訓(xùn)練。我們將使用其中的模擬環(huán)境Maze1進行實驗,對應(yīng)的先驗地圖和機器人所看到的圖像如圖9所示。 圖9 模擬環(huán)境Maze1 在對ASRPF-Net網(wǎng)絡(luò)進行整體訓(xùn)練時,訓(xùn)練集包括45 000組軌跡數(shù)據(jù)。軌跡是由機器人隨機產(chǎn)生的,通過向前移動(p=0.8)或者轉(zhuǎn)向(p=0.2)生成軌跡。其中,距離和轉(zhuǎn)彎角度的范圍分別是[20 cm,80 cm]和[15°,60°]。在訓(xùn)練過程中,我們設(shè)置每條軌跡的步長為24,粒子數(shù)目為30,學(xué)習(xí)率為0.0001,訓(xùn)練的反向傳播步長為4,生成的初始粒子的平移和旋轉(zhuǎn)的標準差為σt=0.3 m,σr=30°, 運動的平移和旋轉(zhuǎn)的標準差為σt=0 m,σr=0°。 在訓(xùn)練期間沒有進行重采樣操作,因為在訓(xùn)練過程中不需要短的軌跡和集中的初始信念。實驗中,我們的方法使用TensorFlow框架在Python中實現(xiàn),并在Nvidia GeForce GTX 1080ti的計算機上進行測試。 為了驗證ASRPF-Net模型在機器人定位的準確性,我們在47個以前未見過的建筑中的820條固定的軌跡上,將該模型與其它模型進行對比實驗,其它模型包括PF-Net[8]、直方圖濾波網(wǎng)絡(luò)和LSTM網(wǎng)絡(luò),在實驗中,我們還添加只使用里程計信息更新信念,不使用傳感器作為信息輸入的情況下的Odometry-NF模式。 為進一步分析ASRPF-Net模型的定位性能,在DeepMind Lab的導(dǎo)航環(huán)境下進行實驗,對于每一個迷宮,機器人以每秒鐘行走一步的速度被訓(xùn)練出1000條100步的軌跡。機器人每走一步都能獲取相應(yīng)的觀測圖像信息,里程計信息包含機器人行走的位置和方向的變化。獲得的機器人軌跡在訓(xùn)練時每20步使用Adam進行優(yōu)化并且使用dropout進行規(guī)范化,訓(xùn)練時我們設(shè)置學(xué)習(xí)率為0.0003。 針對機器人定位跟蹤,對比分析ASRPF-Net模型與其它模型的定位效果。實驗結(jié)果使用平均均方根誤差(RMSE)進行評估,RMSE值越小則定位越準確。各種模型方法均在使用RGB傳感器下的跟蹤實驗結(jié)果見表1。 表1 各模型的跟蹤RMSE/cm 從表1中,我們可以看出,與PF-Net、HF network和LSTM network模型相對比,ASRPF-Net模型的RMSE值是最小的,說明該模型在相同條件下機器人定位更加準確。從整體上來看,只使用里程計信息作為輸入的Odometry-NF模式定位效果是最差的,PF-Net的定位表現(xiàn)要好于HF network和LSTM network,但是定位效果與ASRPF-Net模型的相比還有一些差距。 為了進一步量化分析,對ASRPF-Net模型和其它模型的定位成功率進行比較。在定位任務(wù)中,根據(jù)定位成功的軌跡數(shù)占全部軌跡數(shù)中的比例,可以計算出算法定位結(jié)果的成功率。實驗結(jié)果使用100步長軌跡的定位成功率,如果軌跡的最后25步的估計誤差小于1 m,則定位成功。各種模型方法均使用σt=0.04 m,σr=5°下的定位的實驗結(jié)果如圖10所示。 圖10 各模型的定位成功率 由圖10我們可知,在定位任務(wù)中,HF network的定位準確度比較低,是因為該模型本身具有較大的缺陷,不能表示連續(xù)的狀態(tài)空間。LSTM network雖然可以充分學(xué)習(xí)數(shù)據(jù)中包含的相關(guān)性,但它缺乏一個確定的概率模型,所以其定位準確度只能達到大約20%,定位的效果較差,很難滿足現(xiàn)實需求,不能用于實際。Odometry-NF由于只將里程計信息作為輸入,該模型的定位準確度最低,定位效果較差。PF-Net的定位成功率都遠遠高于HF network、LSTM network以及Odometry-NF模型,但是ASRPF-Net模型的定位成功率是最高的,可見ASRPF-Net模型的定位效果是最優(yōu)的,表明基于概率模型的端到端可以提高模型的學(xué)習(xí)能力和魯棒性。 我們還考慮具有不同程度的不確定性的本地化,在定位任務(wù)中,初始信念在一個或者多個房間是一致的。因此,粒子數(shù)目和初始信念的不同也會影響模型的定位效果。初始信念設(shè)置為一個房間的初始信念一致(N=1)和兩個房間的初始信念一致(N=2)以及在所有房間的初始信念一致(N=ALL)3種參數(shù),粒子數(shù)目設(shè)置為500、1000、2000和3000,在初始化時設(shè)置不同的粒子數(shù)目,對比分析各模型的定位成功率,其中成功率同上述定位任務(wù)的成功率的計算方法一致,實驗結(jié)果如圖11所示。 圖11 不同初始信念和粒子數(shù)目的各模型定位成功率 從圖11我們可以看出,當我們把所有房間的初始信念設(shè)置為一致的時候定位成功率較低,定位效果最差,因為當所有房間的初始信念設(shè)置為一致時,機器人可能需要進行更多的判斷才能精準定位。在不同初始信念和粒子數(shù)目情況下,與PF-Net、HF network、LSTM network以及Odometry-NF模型相比,ASRPF-Net模型的定位成功率都是最高的。當粒子數(shù)目相同時,實驗結(jié)果表明當初始信念在一個房間內(nèi)一致時,甚至當在整個房間內(nèi)一致時,不確定性水平增加的ASRPF-Net模型也可以成功定位,并且其定位精度也是最高的。具體來說,當初始信念設(shè)置為N=1時,ASRPF-Net模型的定位成功率最高,當初始信念設(shè)置為N=ALL時,在初始不確定性較高的情況下,ASRPF-Net模型使用更少的粒子達到更好的定位效果。當初始信念設(shè)置相同時,我們看出隨著粒子數(shù)目的增加,定位的成功率也在不斷增加,因此粒子數(shù)目越多,定位的效果越佳。但是粒子數(shù)目增加,計算時間也會增大,可能會導(dǎo)致定位的時效性變差,所以選取適當?shù)牧W訑?shù)目,有利于達到定位的最好效果。 ASRPF-Net模型使用神經(jīng)網(wǎng)絡(luò)對機器人獲得的圖像進行學(xué)習(xí),雖然圖像中包含很多信息,但是因為輸入源信息比較單一,所以不適應(yīng)很多復(fù)雜的環(huán)境。因此,ASRPF-Net模型同時利用語義地圖和觀測圖像信息,使模型具有更多的輸入源信息。語義地圖包含建筑的一些基本信息,如房門的位置以及房間的類型。在實驗中按照如圖8所示的標記方式來標記SUNCG數(shù)據(jù)集中的語義地圖。對數(shù)據(jù)集中的語義地圖進行標記結(jié)果如圖12、圖13所示,圖12(a)和圖13(a)均為數(shù)據(jù)集中的建筑地圖,圖12(b)和圖13(b)均為只標記房門的地圖,圖12(c)和圖13(c)均為只標記房間的地圖,每個像素對應(yīng)于唯一的房間id,對于重疊的房間,較高的id會覆蓋較低的id,圖12(d)和圖13(d)均為標記房間id的地圖。 圖12 標記數(shù)據(jù)集中的語義地圖1 圖13 標記數(shù)據(jù)集中的語義地圖2 ASRPF-Net模型可以通過端到端訓(xùn)練,自然地學(xué)會使用語義地圖。為驗證這一點,我們用帶有門和房間類別的簡化語義地圖來訓(xùn)練概率神經(jīng)網(wǎng)絡(luò),將語義標簽編碼在輸入地圖的不同通道中:1個通道用于門,8個通道用于不同的房間類別。針對語義地圖不同的標簽數(shù)據(jù),對提出算法模型的定位有效性進行比較,如表2所示。 表2 不同標簽數(shù)據(jù)的定位成功率/% 在實驗中,先對語義地圖進行簡單的標記,再對模型進行訓(xùn)練。語義地圖的標記方式設(shè)置4種模式,包含無標記、只對房門做標記、只對房間做標記以及對房門和房間都做標記。從表2的實驗結(jié)果,我們可以得出當沒有對地圖進行標記時候,機器人的定位效果最差,當對房門和房間都做標記的地圖,機器人能夠獲取更多的信息,定位的成功率最高,定位的效果最優(yōu),表明利用簡單的語義地圖可以提高定位性能。同時為了更深入研究該模型和驗證改進算法的合理性和有效性,進一步做了消融實驗。我們在訓(xùn)練期間改變網(wǎng)絡(luò)的參數(shù)設(shè)置,增加重采樣,當訓(xùn)練增加初始不確定性和噪聲里程計,由于結(jié)合自適應(yīng)軟重采樣策略,只有當需要的時候才啟動重采樣,成功率從39%增加至45%。這也表明,使用重采樣可以提高準確度,與PF-Net加入軟重采樣成功率42%相比,ASRPF-Net通過采用自適應(yīng)軟重采樣方法,加入決策,能夠有效減少接近真實狀態(tài)的粒子被消除的現(xiàn)象,提高定位的成功率。 本文進一步使用ASRPF-Net模型對機器人進行全局定位,在DeepMind Lab中的模擬環(huán)境Maze1中的全局定位效果如圖14所示,測試軌跡每一個時間步長繪制一張圖。實驗中設(shè)置粒子數(shù)目為1000,并且使用RGB相機作為輸入。 從圖14實驗結(jié)果可以看出,圖14(a)在最初的時候,整個環(huán)境中都充滿粒子,其中使用圓形標記機器人的最初的位置,箭頭表示機器人的方向,圖14(a)~圖14(g)中同樣使用圓形標記機器人的位置。在圖14(b)~圖14(d)的定位過程中,隨著訓(xùn)練的進行,粒子逐漸接近真實狀態(tài),表明模型對機器人運動的預(yù)測越來越準確,并且從圖14(e)開始,模型預(yù)測的位置與機器人的實際位置非常接近。最后,從圖14(f)~圖14(g)中可以看出所有粒子都基本在同一位置。具體來說,我們在每個環(huán)境中使用1000個粒子進行預(yù)測,粒子顏色越深,則表明權(quán)重越大。開始訓(xùn)練時,每個粒子的權(quán)重都是一樣的,隨著模型的訓(xùn)練,與真實狀態(tài)差異很大的粒子將被去除,而更接近真實狀態(tài)的粒子會增大權(quán)重,這些粒子參與下一步的訓(xùn)練,有利于機器人下一步的預(yù)測。粒子權(quán)重的變化主要通過重采樣過程來實現(xiàn)的,我們采用自適應(yīng)軟重采樣,在訓(xùn)練中可以傳播梯度信息,使模型可以在下一次訓(xùn)練中使用這些信息,加快訓(xùn)練速度,并在有需要的時候啟動重采樣,使訓(xùn)練結(jié)果可以更快接近真實狀態(tài)。在模擬環(huán)境Maze1的定位效果如圖14(h)的定位效果,其中淺色表示機器人運動的實際路徑,深色表示模型對機器人運動的預(yù)測??梢?,在初始時刻,機器人定位的效果并不是很好,但是隨著模型訓(xùn)練的進行,粒子越來越接近真實狀態(tài),最后所有粒子都在同一處,ASRPF-Net模型的定位精度越來越高,最后的定位效果已經(jīng)基本接近機器人的實際位置。 圖14 ASRPF-Net模型在Maze1中的定位過程 我們集成算法推理和深度學(xué)習(xí)進行概率狀態(tài)估計,并加入決策,提出自適應(yīng)軟重采樣粒子濾波網(wǎng)絡(luò),通過計算有效粒子數(shù),使模型只在有需要的時候才啟動重采樣操作。模型采用軟重采樣,重采樣的粒子參與下一步訓(xùn)練。我們使用ASRPF-Net模型對數(shù)據(jù)進行訓(xùn)練,將該模型運用到機器人視覺定位,并且與粒子濾波網(wǎng)絡(luò)(PF-Net)模型和其它模型進行對比,實驗結(jié)果表明定位的RMSE和成功率都有所提升,在全局定位任務(wù)中,模型預(yù)測的位置與機器人的實際位置非常接近,說明ASRPF-Net模型在視覺定位中有效提高預(yù)測的準確性和定位的魯棒性,在機器人定位方面有著更好的性能。在未來,我們將進一步優(yōu)化該模型,以提高執(zhí)行效率和定位精度,從而使該模型能夠更好地應(yīng)用于機器人定位。4 實驗研究與分析
4.1 實驗數(shù)據(jù)集
4.2 實驗設(shè)置
4.3 實驗結(jié)果與分析
5 結(jié)束語