亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于改進(jìn)Q學(xué)習(xí)算法的導(dǎo)航認(rèn)知圖構(gòu)建

2020-07-01 07:26:42趙辰豪吳德偉

空軍工程大學(xué)學(xué)報(bào) 2020年2期

趙辰豪, 吳德偉, 何晶, 韓昆, 來(lái) 磊

(空軍工程大學(xué)信息與導(dǎo)航學(xué)院，西安，710077)

實(shí)現(xiàn)運(yùn)行體的自主“無(wú)人化”運(yùn)行是研究人員不斷追求的目標(biāo)，也是實(shí)現(xiàn)無(wú)人作戰(zhàn)系統(tǒng)的關(guān)鍵。運(yùn)行體的“無(wú)人化”離不開(kāi)自主導(dǎo)航技術(shù)，實(shí)現(xiàn)自主導(dǎo)航的方法有很多，目前主要分為2類(lèi)：基于人工系統(tǒng)模型的方法與基于自然系統(tǒng)模型的方法。基于人工模型的方法在較為簡(jiǎn)單的環(huán)境中，能夠一定程度上實(shí)現(xiàn)人工智能；當(dāng)環(huán)境變得復(fù)雜，人工模型將變得十分復(fù)雜，不能夠快速處理信息。而基于自然模型的方法主要通過(guò)模擬自然界中存在的智能系統(tǒng)模型。目前，經(jīng)過(guò)大量試驗(yàn)證明動(dòng)物大腦在認(rèn)知導(dǎo)航中起到不可替代的作用，其自身具有最完美、最有效的信息處理機(jī)制，這使得導(dǎo)航領(lǐng)域的研究者對(duì)大腦在導(dǎo)航方面的應(yīng)用產(chǎn)生了濃厚的興趣[1]。近些年，經(jīng)過(guò)大量驗(yàn)證與動(dòng)物導(dǎo)航相關(guān)的細(xì)胞有：位置細(xì)胞、網(wǎng)格細(xì)胞、頭朝向細(xì)胞、邊界細(xì)胞等。導(dǎo)航工作人員結(jié)合對(duì)大腦的研究成果提出了腦神經(jīng)科學(xué)啟發(fā)下的自主導(dǎo)航方法，該方法通過(guò)模擬大腦處理導(dǎo)航信息的機(jī)制，使得智能體呈現(xiàn)出一種具有探索、記憶、學(xué)習(xí)以及選擇等智能動(dòng)作的導(dǎo)航行為。

實(shí)現(xiàn)腦神經(jīng)科學(xué)啟發(fā)下的導(dǎo)航需要解決3個(gè)問(wèn)題：①實(shí)現(xiàn)模擬大腦的空間探索與表征；②采用類(lèi)腦機(jī)制構(gòu)建認(rèn)知圖；③在認(rèn)知圖上進(jìn)行路徑規(guī)劃。目前模擬大腦進(jìn)行空間探索與表征的研究已經(jīng)相對(duì)成熟；文獻(xiàn)[2]構(gòu)建前饋網(wǎng)絡(luò)，建立網(wǎng)格細(xì)胞到位置細(xì)胞的聯(lián)系，并使用傅里葉分析網(wǎng)格細(xì)胞到位置細(xì)胞的權(quán)值，最終使用位置細(xì)胞對(duì)空間進(jìn)行表征；文獻(xiàn)[3～4]采用Hebbian學(xué)習(xí)方法建立位置細(xì)胞與網(wǎng)格細(xì)胞的權(quán)值，從而使位置細(xì)胞具有空間的放電野。

“認(rèn)知圖”一詞，最早由Tolman[5]在研究大鼠如何探索路徑的試驗(yàn)中提出。類(lèi)腦機(jī)制下導(dǎo)航認(rèn)知圖構(gòu)建的研究國(guó)外已有一定理論基礎(chǔ)。文獻(xiàn)[6]將生物大腦放電過(guò)程與傳統(tǒng)SLAM結(jié)合成功實(shí)現(xiàn)水下智能體的定位與地圖創(chuàng)建。文獻(xiàn)[7]提出了基于多層目標(biāo)的導(dǎo)向的導(dǎo)航模型，將導(dǎo)航模型分為兩步：一是構(gòu)建空間表征(構(gòu)建認(rèn)知圖)；二是基于表征信息進(jìn)行導(dǎo)航。而國(guó)內(nèi)的研究相對(duì)較少，吳德偉團(tuán)隊(duì)[8]提出了一種多尺度網(wǎng)格細(xì)胞的路徑整合，完成了運(yùn)行體自主位置推算。于乃功團(tuán)隊(duì)[9]提出位置細(xì)胞到網(wǎng)格細(xì)胞的競(jìng)爭(zhēng)型神經(jīng)網(wǎng)絡(luò)模型，并生成位置細(xì)胞對(duì)空間進(jìn)行表征；唐華錦團(tuán)隊(duì)[10]提出采用類(lèi)腦神經(jīng)機(jī)制進(jìn)行定位，認(rèn)知圖構(gòu)建以及情景記憶，并對(duì)該過(guò)程進(jìn)行誤差校正；吳德偉團(tuán)隊(duì)[11]提出視覺(jué)位置細(xì)胞模型并利用其放電機(jī)理對(duì)空間進(jìn)行表征。目前，類(lèi)腦機(jī)制的導(dǎo)航認(rèn)知圖構(gòu)建的研究較少，國(guó)內(nèi)還沒(méi)有團(tuán)隊(duì)提出構(gòu)建認(rèn)知圖的系統(tǒng)方法，而已有的研究構(gòu)建的認(rèn)知圖存在以下問(wèn)題：構(gòu)建認(rèn)知圖的效率較低，認(rèn)知圖中面向目標(biāo)的方向誤差較大，圖中的信息準(zhǔn)確度不高。

針對(duì)上述問(wèn)題本文提出了一種基于改進(jìn)Q學(xué)習(xí)算法的導(dǎo)航認(rèn)知圖構(gòu)建方法(本文中認(rèn)知圖特指動(dòng)物出發(fā)覓食的過(guò)程，通過(guò)整合地理位置信息與面向目標(biāo)的方向信息產(chǎn)生位置細(xì)胞，并對(duì)空間進(jìn)行表征，最終生成基于目標(biāo)導(dǎo)向的向量地圖[12])。該方法明確了類(lèi)腦機(jī)制下認(rèn)知圖構(gòu)建過(guò)程，同時(shí)提高了構(gòu)建認(rèn)知圖的效率以及認(rèn)知圖內(nèi)面向目標(biāo)信息的精確度。同時(shí)，本文優(yōu)化了網(wǎng)格細(xì)胞到位置細(xì)胞的RBF映射網(wǎng)絡(luò)，提高了位置細(xì)胞對(duì)空間的表征能力。

1 模型

1.1 基于網(wǎng)格細(xì)胞與位置細(xì)胞的位置表征

對(duì)于空間表征主要解決的核心問(wèn)題是如何實(shí)現(xiàn)網(wǎng)格細(xì)胞到位置細(xì)胞的映射，目前實(shí)現(xiàn)網(wǎng)格細(xì)胞到位置細(xì)胞的轉(zhuǎn)換模型主要有：基于競(jìng)爭(zhēng)學(xué)習(xí)的轉(zhuǎn)換模型[13]，基于傅里葉分析的轉(zhuǎn)換模型[14]與基于ICA編碼的轉(zhuǎn)換模型[15]。本文提出采用RBF神經(jīng)網(wǎng)絡(luò)，建立網(wǎng)格細(xì)胞與位置細(xì)胞的映射關(guān)系。通過(guò)運(yùn)行體感知自身運(yùn)動(dòng)信息，輸入到網(wǎng)格細(xì)胞模型中得到網(wǎng)格細(xì)胞的放電率，再將網(wǎng)格細(xì)胞放電率作為RBF網(wǎng)絡(luò)的輸入，對(duì)RBF網(wǎng)絡(luò)進(jìn)行訓(xùn)練，建立網(wǎng)格細(xì)胞到位置細(xì)胞的轉(zhuǎn)換模型，最終使用位置細(xì)胞表征空間。

針對(duì)建立空間的位置細(xì)胞表征，給出具體方法，包括計(jì)算網(wǎng)格細(xì)胞的放電率，建立RBF神經(jīng)網(wǎng)絡(luò)映射，建立位置細(xì)胞的空間表征3個(gè)步驟。

步驟1計(jì)算網(wǎng)格細(xì)胞的放電率。

目前模擬網(wǎng)格細(xì)胞放電活動(dòng)的模型主要有：吸引子網(wǎng)絡(luò)模型[16-17]和振蕩干涉模型[18-19]。本文采用振蕩干涉模型對(duì)網(wǎng)格細(xì)胞進(jìn)行模擬，其放電率的計(jì)算公式為：

i=1,2,…,NAC

(1)

(2)

式中：ωi為網(wǎng)格細(xì)胞的網(wǎng)格方向。

步驟2建立RBF網(wǎng)絡(luò)映射。

RBF神經(jīng)網(wǎng)絡(luò)分為輸入層，隱含層與輸出層。其中輸入層到隱含層的變換是非線(xiàn)性的，隱含層到輸出層的變換為線(xiàn)性的。RBF網(wǎng)絡(luò)的輸出可以表示為：

(3)

由步驟1可得，運(yùn)行體位于r=[x,y]時(shí)，網(wǎng)格細(xì)胞的放電率表示為:

(4)

將網(wǎng)格細(xì)胞的放電率作為RBF網(wǎng)絡(luò)的輸入，位置細(xì)胞的理論放電率作為輸出，根據(jù)輸入輸出對(duì)RBF網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)，最終確定RBF網(wǎng)絡(luò)的參數(shù)，得到當(dāng)前位置處網(wǎng)格細(xì)胞到位置細(xì)胞的映射關(guān)系。

圖1 RBF-神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖

步驟3建立位置細(xì)胞的空間表征。

為了能夠生成新的位置細(xì)胞，設(shè)置位置細(xì)胞的放電閾值；當(dāng)已有位置細(xì)胞的放電率小于該閾值時(shí)，則執(zhí)行生成新的位置細(xì)胞。建立位置細(xì)胞的表征過(guò)程即為生成RBF神經(jīng)網(wǎng)絡(luò)群的過(guò)程。當(dāng)運(yùn)行體探索某一位置時(shí)，把該位置處網(wǎng)格細(xì)胞的放電率輸入RBF神經(jīng)網(wǎng)絡(luò)群，得到一組輸出值，將輸出值與放電閾值比較，當(dāng)輸出都小于放電閾值時(shí)，重復(fù)步驟2建立新的RBF神經(jīng)網(wǎng)絡(luò)。

圖2 RBF神經(jīng)網(wǎng)絡(luò)群示意圖

通過(guò)上述3個(gè)步驟，運(yùn)行體感知自身運(yùn)動(dòng)信息后，通過(guò)網(wǎng)格細(xì)胞到位置細(xì)胞的模型，得到位置細(xì)胞的放電情況，根據(jù)位置細(xì)胞放電情況確定是否生成新的RBF網(wǎng)絡(luò)與位置細(xì)胞，最終得到位置細(xì)胞的空間表征。

1.2 Q學(xué)習(xí)算法及改進(jìn)

Q學(xué)習(xí)算法[20]是一種經(jīng)典的強(qiáng)化學(xué)習(xí)方法。強(qiáng)化學(xué)習(xí)不同于傳統(tǒng)的監(jiān)督學(xué)習(xí)機(jī)制，主要采用試錯(cuò)的方法尋找最優(yōu)的行為策略。對(duì)于環(huán)境模型，Q學(xué)習(xí)算法不會(huì)進(jìn)行預(yù)判與估計(jì)，而是直接采用函數(shù)迭代的方法，通過(guò)對(duì)策略的選擇，獲得相應(yīng)的獎(jiǎng)懲值，對(duì)函數(shù)值進(jìn)行更新，在學(xué)習(xí)過(guò)程中逼近最優(yōu)的動(dòng)作序列，最終達(dá)到全局最優(yōu)。這個(gè)過(guò)程中使用的函數(shù)即為Q函數(shù)。Q函數(shù)的迭代過(guò)程為：

Q(s,a)=Q(s,a)+β[R(s,a)+

(5)

式中:Q(s,a)表示狀態(tài)s時(shí)執(zhí)行動(dòng)作a的Q值；β為學(xué)習(xí)率，β∈[0,1]；γ為折扣率，γ∈[0,1]；R(s,a)為狀態(tài)s時(shí)執(zhí)行動(dòng)作a的獎(jiǎng)勵(lì)值。

Q學(xué)習(xí)算法的過(guò)程可以概括為：

步驟1初始化Q表；

步驟2得到t時(shí)刻的狀態(tài)s，采用ε-貪婪策略選擇當(dāng)前狀態(tài)下的動(dòng)作即以概率選擇該狀態(tài)下最大Q值對(duì)應(yīng)的動(dòng)作，以概率1-隨機(jī)選擇動(dòng)作；

步驟3通過(guò)Q表以及獎(jiǎng)懲策略得到當(dāng)前狀態(tài)的Q值與回報(bào)值，代入式(5)中更新Q表，直到學(xué)習(xí)結(jié)束。

Q學(xué)習(xí)算法具有學(xué)習(xí)能力強(qiáng)以及效果較好的特點(diǎn)，但其還存在一定的問(wèn)題。由于Q表的設(shè)置狀態(tài)或動(dòng)作需要的都是離散空間，Q學(xué)習(xí)算法不能運(yùn)用到連續(xù)空間的學(xué)習(xí)。同時(shí)當(dāng)狀態(tài)空間或動(dòng)作空間中的元素過(guò)多時(shí)，Q表將變得十分龐大，對(duì)于Q表的查詢(xún)將變得十分困難。ε-貪婪策略是強(qiáng)化學(xué)習(xí)中比較普遍且有效的探索方法，但其缺點(diǎn)是在算法后期還會(huì)選擇非最優(yōu)策略為最優(yōu)策略，造成一些不必要的學(xué)習(xí)與資源浪費(fèi)。

針對(duì)上述的問(wèn)題，本文對(duì)傳統(tǒng)Q學(xué)習(xí)進(jìn)行改進(jìn)，引入Boltzmann分布，提出Boltzmann-選擇策略：

(6)

式中:P(s,a)表示在狀態(tài)s時(shí)選擇動(dòng)作a的概率;Q(s,a)表示在狀態(tài)s時(shí)選擇動(dòng)作a的Q值。

傳統(tǒng)Q學(xué)習(xí)算法中使用貪婪策略，在整個(gè)學(xué)習(xí)過(guò)程中隨著學(xué)習(xí)的深入選擇動(dòng)作的概率基本保持在不變。這一問(wèn)題導(dǎo)致在學(xué)習(xí)初期存在次優(yōu)動(dòng)作的Q值大于最優(yōu)動(dòng)作的Q值的現(xiàn)象，使得Q值不能夠準(zhǔn)確的表達(dá)動(dòng)作的優(yōu)劣性；當(dāng)學(xué)習(xí)后期由于較大的概率選擇非最優(yōu)動(dòng)作，因此導(dǎo)致學(xué)習(xí)值不準(zhǔn)確，學(xué)習(xí)結(jié)果收斂較慢，學(xué)習(xí)效果不好。當(dāng)概率值選擇不恰當(dāng)時(shí)，會(huì)使得整個(gè)探索過(guò)程不合理，造成資源浪費(fèi)。

改進(jìn)Q學(xué)習(xí)算法中使用的是Boltzmann選擇策略。根據(jù)式(6)可得，當(dāng)初始狀態(tài)的Q值都為0時(shí)，運(yùn)行體對(duì)各個(gè)動(dòng)作選擇的概率相等，從而使得前期的動(dòng)作選擇更加隨機(jī)，探索更加合理，對(duì)Q值的更新更準(zhǔn)確；當(dāng)學(xué)習(xí)進(jìn)行到一定階段時(shí)，由于各個(gè)動(dòng)作的回報(bào)值不同，因此Q值更新情況也不同；動(dòng)作的回報(bào)值越大，Q值越大；動(dòng)作回報(bào)值越小的，Q值越小。因此根據(jù)式(6)得，Q值越大，被選擇的概率就越大。因此隨著學(xué)習(xí)的深入，運(yùn)行體傾向選擇回報(bào)值高的動(dòng)作。

改進(jìn)Q學(xué)習(xí)算法對(duì)動(dòng)作的選擇概率是變化的，學(xué)習(xí)初期能夠隨機(jī)探索各個(gè)動(dòng)作，隨著學(xué)習(xí)過(guò)程的深入，回報(bào)值越大的動(dòng)作被選中的概率越大。這種動(dòng)態(tài)概率既能夠提高學(xué)習(xí)的合理性與有效性，又能夠提升算法的收斂速度，使學(xué)習(xí)更效率、更精確。

1.3 基于改進(jìn)Q學(xué)習(xí)算法的認(rèn)知圖構(gòu)建

本文中構(gòu)建的認(rèn)知圖的過(guò)程分為3個(gè)步驟：

步驟1創(chuàng)建狀態(tài)空間與動(dòng)作空間。

狀態(tài)空間：運(yùn)行體在空間探索過(guò)程中，生成一組位置細(xì)胞，將生成的位置細(xì)胞群設(shè)定為狀態(tài)空間，其中每一個(gè)位置細(xì)胞表示一個(gè)狀態(tài)。當(dāng)運(yùn)行體到達(dá)空間中的某一位置時(shí)，通過(guò)空間表征模型確定當(dāng)前狀態(tài)。

動(dòng)作空間：運(yùn)行體在探索空間的過(guò)程，能夠向各個(gè)方向運(yùn)動(dòng)。因此設(shè)定動(dòng)作空間時(shí)需要滿(mǎn)足運(yùn)行體運(yùn)動(dòng)的全方位性。將方向區(qū)間[0,2π]離散化，離散后的每個(gè)值表示相應(yīng)的動(dòng)作方向，組成動(dòng)作空間。以X軸正半軸為基準(zhǔn)，各個(gè)動(dòng)作方向分別表示為：

(7)

步驟2采用改進(jìn)Q學(xué)習(xí)算法建立狀態(tài)-動(dòng)作關(guān)系。

結(jié)合改進(jìn)Q學(xué)習(xí)算法運(yùn)行體對(duì)學(xué)習(xí)狀態(tài)-動(dòng)作過(guò)程如下：

首先，根據(jù)狀態(tài)空間與位置空間建立Q表，并對(duì)Q表初始化，Q表中主要記錄狀態(tài)與動(dòng)作的匹配程度；

其次，當(dāng)運(yùn)行體從起點(diǎn)出發(fā)后，根據(jù)位置細(xì)胞表征模型確定當(dāng)前狀態(tài)為st，根據(jù)改進(jìn)后Boltzmann-選擇策略選擇當(dāng)前狀態(tài)下的動(dòng)作方向φ。由當(dāng)前狀態(tài)與動(dòng)作得到下一狀態(tài)，此時(shí)根據(jù)Q學(xué)習(xí)算法的原理對(duì)Q表進(jìn)行更新如下：

Q(st,φ)=Q(st,φ)+α[rewards+

γmaxQ(st+1,:)-Q(st,φ)]

(8)

式中:Q(st,φ)表示當(dāng)處于狀態(tài)st時(shí)，選擇動(dòng)作φ對(duì)應(yīng)的Q值；maxQ(st+1,:)為狀態(tài)st+1時(shí)各個(gè)動(dòng)作中的最大Q值；α為學(xué)習(xí)率；γ為折扣率；rewards為獎(jiǎng)勵(lì)值，獎(jiǎng)勵(lì)值的多少取決與下一狀態(tài)，其設(shè)置為：

1)當(dāng)下一個(gè)狀態(tài)為目標(biāo)所在狀態(tài)時(shí)，rewards>0；

2)當(dāng)下一個(gè)狀態(tài)超出探索區(qū)域或者遇到障礙物時(shí)，rewards<0；

3)其他情況,rewards=0。

最后，當(dāng)運(yùn)行體運(yùn)動(dòng)狀態(tài)數(shù)超過(guò)設(shè)置值或運(yùn)行體發(fā)現(xiàn)目標(biāo)時(shí)，該輪學(xué)習(xí)自動(dòng)結(jié)束。啟動(dòng)下一輪學(xué)習(xí)，直到學(xué)習(xí)結(jié)束。

經(jīng)過(guò)學(xué)習(xí)后，運(yùn)行體能夠獲得最終的Q表。該表中Q(st,φ)表示狀態(tài)st與動(dòng)作φ的匹配關(guān)系，該值越大代表狀態(tài)st與動(dòng)作φ越匹配。

步驟3構(gòu)建認(rèn)知圖。

在構(gòu)建認(rèn)知圖時(shí)，將步驟2中最終得到的Q表作為各個(gè)動(dòng)作的權(quán)重，然后結(jié)合所對(duì)應(yīng)的動(dòng)作方向，直接使用重心估計(jì)原理計(jì)算各個(gè)狀態(tài)相對(duì)于目標(biāo)的方向信息，從而生成面向目標(biāo)的認(rèn)知圖。方向的計(jì)算方法如下：

(9)

2 仿真分析及討論

仿真環(huán)境設(shè)置如下：

1)空間大小為50 m×50 m，運(yùn)行體采用離散方式，以5 m/s的速度對(duì)空間進(jìn)行探索；

2)在空間探索過(guò)程中，將目標(biāo)探索生成的位置細(xì)胞設(shè)置為狀態(tài)空間中的元素，在學(xué)習(xí)過(guò)程中，通過(guò)比較狀態(tài)確定是否達(dá)到目標(biāo)；

3)獎(jiǎng)勵(lì)策略設(shè)置為：當(dāng)運(yùn)行體運(yùn)動(dòng)位置超出探索空間時(shí)，獎(jiǎng)勵(lì)值為-1；當(dāng)運(yùn)行體發(fā)現(xiàn)目標(biāo)時(shí)，獎(jiǎng)勵(lì)值為10；其余情況，獎(jiǎng)勵(lì)值為0；

4)網(wǎng)格細(xì)胞的參數(shù)設(shè)置：根據(jù)式(1)建立網(wǎng)格細(xì)胞，網(wǎng)格細(xì)胞總數(shù)為50，網(wǎng)格間距A為4，網(wǎng)格方向?yàn)?0°；

5)位置細(xì)胞的放電野設(shè)置：當(dāng)距離位置細(xì)胞中心距離在0～5 m之間時(shí)，位置細(xì)胞的放電率大于0.1，當(dāng)距離位置細(xì)胞中心距離大于5 m時(shí)，位置細(xì)胞的放電率小于0.1(位置細(xì)胞不放電)，從而位置細(xì)胞能夠感應(yīng)距離放電中心約5 m的范圍；

6)探索過(guò)程中位置細(xì)胞的放電閾值設(shè)置為0.1，當(dāng)已有位置細(xì)胞的放電率都小于0.1時(shí)，生成新的位置細(xì)胞；

7)Q學(xué)習(xí)的相關(guān)參數(shù)設(shè)置：學(xué)習(xí)率為0.1，折扣因子為0.1，認(rèn)知圖精度為8。

經(jīng)過(guò)仿真實(shí)驗(yàn)得到以下結(jié)果：圖3給出了不同間距網(wǎng)格細(xì)胞的放電情況(網(wǎng)格間距依次為：5,10,15)。仿真結(jié)果表明：改變網(wǎng)格間距，固定運(yùn)行體位置能夠得到不同的網(wǎng)格細(xì)胞放電情況。圖4給出了在不同位置處網(wǎng)格細(xì)胞的放電情況(位置坐標(biāo)依次為(5,15)，(15,25)，(25,35))。仿真結(jié)果表明：當(dāng)固定網(wǎng)格細(xì)胞間距，改變運(yùn)行體的位置，網(wǎng)格細(xì)胞的放電情況將發(fā)生改變。圖3，圖4證明在不同位置處網(wǎng)格細(xì)胞的放電情況不同，網(wǎng)格細(xì)胞的放電率能夠作為RBF網(wǎng)絡(luò)的有效輸入。

圖3 不同間距的網(wǎng)格細(xì)胞放電情況

圖4 不同位置處網(wǎng)格細(xì)胞的放電情況

圖5給出了RBF網(wǎng)絡(luò)訓(xùn)練得到的位置細(xì)胞放電率與空間位置的函數(shù)關(guān)系。圖中的函數(shù)關(guān)系表明，當(dāng)運(yùn)行體與位置細(xì)胞的中心點(diǎn)距離小于等于5 m時(shí)，位置細(xì)胞放電(當(dāng)且僅當(dāng)距離為0時(shí)，位置細(xì)胞的放電率達(dá)到峰值)；當(dāng)距離大于5 m之后，位置細(xì)胞不放電。

圖5 訓(xùn)練后RBF神經(jīng)網(wǎng)絡(luò)的函數(shù)圖像

圖6表示中心點(diǎn)為(35,40)的位置細(xì)胞的放電域。分析圖像可得距離位置細(xì)胞的中心點(diǎn)距離在5m之內(nèi)，位置細(xì)胞放電。該放電情況與圖5的訓(xùn)練結(jié)果相符。

圖7給出了運(yùn)行體經(jīng)過(guò)探索后生成的部分位置細(xì)胞的放電情況。位置細(xì)胞的放電野覆蓋了整個(gè)區(qū)域，當(dāng)運(yùn)行體在空間運(yùn)行時(shí)相應(yīng)的位置細(xì)胞將正常放電，因此能夠通過(guò)觀察位置細(xì)胞的放電率得到運(yùn)行體的位置。位置細(xì)胞仿真結(jié)果表明，改進(jìn)后的RBF網(wǎng)絡(luò)能夠訓(xùn)練得到位置細(xì)胞的放電函數(shù)，生成的位置細(xì)胞能夠覆蓋探索區(qū)域，并成功對(duì)空間進(jìn)行表征。

圖6 RBF神經(jīng)網(wǎng)絡(luò)映射后位置細(xì)胞的放電域

圖7 探索結(jié)束后生成位置細(xì)胞的放電情況

圖8給出了采用傳統(tǒng)Q學(xué)習(xí)算法(單個(gè)回合學(xué)習(xí)5 000次)構(gòu)建認(rèn)知圖的情況與采用改進(jìn)Q學(xué)習(xí)算法(單個(gè)回合學(xué)習(xí)1 000次)構(gòu)建認(rèn)知圖的情況。仿真結(jié)果表明：改進(jìn)后Q學(xué)習(xí)方法的效率更高，各個(gè)狀態(tài)的角度值更加接近真實(shí)值，構(gòu)建的認(rèn)知圖中的方向信息更加準(zhǔn)確。

圖8 不同算法構(gòu)建的認(rèn)知圖

圖9給出傳統(tǒng)Q學(xué)習(xí)算法與改進(jìn)Q學(xué)習(xí)算法在學(xué)習(xí)過(guò)程中部分狀態(tài)的學(xué)習(xí)值。圖9表明改進(jìn)Q學(xué)習(xí)算法比傳統(tǒng)Q學(xué)習(xí)算法的實(shí)際角度值收斂更快速；且在學(xué)習(xí)次數(shù)大于2 000之后，改進(jìn)Q學(xué)習(xí)算法的學(xué)習(xí)值更加接近實(shí)際值。

圖10給出了單個(gè)回合中學(xué)習(xí)次數(shù)與平均相對(duì)誤差的關(guān)系(平均相對(duì)誤差計(jì)算方法如下：以單個(gè)回合學(xué)習(xí)1 000次為例，運(yùn)行體進(jìn)行10個(gè)回合的學(xué)習(xí)，計(jì)算各個(gè)狀態(tài)平均相對(duì)誤差后，對(duì)各個(gè)狀態(tài)的平均誤差求和取平均，最后得到探索1 000次的平均相對(duì)誤差。)改進(jìn)Q學(xué)習(xí)算法學(xué)習(xí)的相對(duì)誤差一直小于傳統(tǒng)Q學(xué)習(xí)算法的相對(duì)誤差，且當(dāng)學(xué)習(xí)次數(shù)大于2 000次以后，傳統(tǒng)Q學(xué)習(xí)算法的相對(duì)誤差穩(wěn)定在20%，改進(jìn)Q學(xué)習(xí)算法的相對(duì)誤差基本穩(wěn)定在4%。仿真結(jié)果表明：引入Boltzmann分布對(duì)貪婪策略進(jìn)行改進(jìn)能夠提高Q學(xué)習(xí)的收斂速度，提升學(xué)習(xí)值的精確性。

圖11和圖12給出了傳統(tǒng)Q學(xué)習(xí)算法與改進(jìn)Q學(xué)習(xí)算法每回合的平均相對(duì)誤差，仿真實(shí)驗(yàn)中一共學(xué)習(xí)了100個(gè)回合(圖11單個(gè)回合學(xué)習(xí)次數(shù)為1 000次，圖12單個(gè)回合學(xué)習(xí)次數(shù)為2 000次)。圖11，圖12表明改進(jìn)Q學(xué)習(xí)算法學(xué)習(xí)值的平均相對(duì)誤差普遍小于傳統(tǒng)Q學(xué)習(xí)算法。

圖10 傳統(tǒng)Q學(xué)習(xí)算法與改進(jìn)Q學(xué)習(xí)算法的平均相對(duì)誤差

圖11 傳統(tǒng)Q學(xué)習(xí)算法與改進(jìn)Q學(xué)習(xí)算法每回合的平均相對(duì)誤差(單回合次數(shù)1 000次)

圖12 傳統(tǒng)Q學(xué)習(xí)算法與改進(jìn)Q學(xué)習(xí)算法每回合的平均相對(duì)誤差(單回合次數(shù)2 000次)

仿真結(jié)果表明：改進(jìn)后的Q學(xué)習(xí)算法相比于傳統(tǒng)Q學(xué)習(xí)算法學(xué)習(xí)效率更高，學(xué)習(xí)值更貼近真實(shí)值，學(xué)習(xí)結(jié)果更加準(zhǔn)確，構(gòu)建的認(rèn)知導(dǎo)航圖更加準(zhǔn)確。

3 結(jié)語(yǔ)

本文提出了類(lèi)腦機(jī)制的導(dǎo)航認(rèn)知圖構(gòu)建的系統(tǒng)方法，并對(duì)傳統(tǒng)Q學(xué)習(xí)算法進(jìn)行改進(jìn)。仿真結(jié)果表明，改進(jìn)后的Q學(xué)習(xí)算法能夠提升學(xué)習(xí)效率，從而提高了導(dǎo)航認(rèn)知圖構(gòu)建的效率與精度。但最終生成的導(dǎo)航認(rèn)知圖僅包含面向目標(biāo)的信息，缺少該位置處的環(huán)境信息以及狀態(tài)之間的連接關(guān)系。如何整合環(huán)境信息與位置信息生成位置細(xì)胞對(duì)空間進(jìn)行表征以及如何增加各個(gè)狀態(tài)之間的連接關(guān)系構(gòu)建認(rèn)知圖等問(wèn)題還有待繼續(xù)研究。