趙辰豪, 吳德偉, 何 晶, 韓 昆, 來(lái) 磊
(空軍工程大學(xué)信息與導(dǎo)航學(xué)院,西安,710077)
實(shí)現(xiàn)運(yùn)行體的自主“無(wú)人化”運(yùn)行是研究人員不斷追求的目標(biāo),也是實(shí)現(xiàn)無(wú)人作戰(zhàn)系統(tǒng)的關(guān)鍵。運(yùn)行體的“無(wú)人化”離不開(kāi)自主導(dǎo)航技術(shù),實(shí)現(xiàn)自主導(dǎo)航的方法有很多,目前主要分為2類(lèi):基于人工系統(tǒng)模型的方法與基于自然系統(tǒng)模型的方法。基于人工模型的方法在較為簡(jiǎn)單的環(huán)境中,能夠一定程度上實(shí)現(xiàn)人工智能;當(dāng)環(huán)境變得復(fù)雜,人工模型將變得十分復(fù)雜,不能夠快速處理信息。而基于自然模型的方法主要通過(guò)模擬自然界中存在的智能系統(tǒng)模型。目前,經(jīng)過(guò)大量試驗(yàn)證明動(dòng)物大腦在認(rèn)知導(dǎo)航中起到不可替代的作用,其自身具有最完美、最有效的信息處理機(jī)制,這使得導(dǎo)航領(lǐng)域的研究者對(duì)大腦在導(dǎo)航方面的應(yīng)用產(chǎn)生了濃厚的興趣[1]。近些年,經(jīng)過(guò)大量驗(yàn)證與動(dòng)物導(dǎo)航相關(guān)的細(xì)胞有:位置細(xì)胞、網(wǎng)格細(xì)胞、頭朝向細(xì)胞、邊界細(xì)胞等。導(dǎo)航工作人員結(jié)合對(duì)大腦的研究成果提出了腦神經(jīng)科學(xué)啟發(fā)下的自主導(dǎo)航方法,該方法通過(guò)模擬大腦處理導(dǎo)航信息的機(jī)制,使得智能體呈現(xiàn)出一種具有探索、記憶、學(xué)習(xí)以及選擇等智能動(dòng)作的導(dǎo)航行為。
實(shí)現(xiàn)腦神經(jīng)科學(xué)啟發(fā)下的導(dǎo)航需要解決3個(gè)問(wèn)題:①實(shí)現(xiàn)模擬大腦的空間探索與表征;②采用類(lèi)腦機(jī)制構(gòu)建認(rèn)知圖;③在認(rèn)知圖上進(jìn)行路徑規(guī)劃。目前模擬大腦進(jìn)行空間探索與表征的研究已經(jīng)相對(duì)成熟;文獻(xiàn)[2]構(gòu)建前饋網(wǎng)絡(luò),建立網(wǎng)格細(xì)胞到位置細(xì)胞的聯(lián)系,并使用傅里葉分析網(wǎng)格細(xì)胞到位置細(xì)胞的權(quán)值,最終使用位置細(xì)胞對(duì)空間進(jìn)行表征;文獻(xiàn)[3~4]采用Hebbian學(xué)習(xí)方法建立位置細(xì)胞與網(wǎng)格細(xì)胞的權(quán)值,從而使位置細(xì)胞具有空間的放電野。
“認(rèn)知圖”一詞,最早由Tolman[5]在研究大鼠如何探索路徑的試驗(yàn)中提出。類(lèi)腦機(jī)制下導(dǎo)航認(rèn)知圖構(gòu)建的研究國(guó)外已有一定理論基礎(chǔ)。文獻(xiàn)[6]將生物大腦放電過(guò)程與傳統(tǒng)SLAM結(jié)合成功實(shí)現(xiàn)水下智能體的定位與地圖創(chuàng)建。文獻(xiàn)[7]提出了基于多層目標(biāo)的導(dǎo)向的導(dǎo)航模型,將導(dǎo)航模型分為兩步:一是構(gòu)建空間表征(構(gòu)建認(rèn)知圖);二是基于表征信息進(jìn)行導(dǎo)航。而國(guó)內(nèi)的研究相對(duì)較少,吳德偉團(tuán)隊(duì)[8]提出了一種多尺度網(wǎng)格細(xì)胞的路徑整合,完成了運(yùn)行體自主位置推算。于乃功團(tuán)隊(duì)[9]提出位置細(xì)胞到網(wǎng)格細(xì)胞的競(jìng)爭(zhēng)型神經(jīng)網(wǎng)絡(luò)模型,并生成位置細(xì)胞對(duì)空間進(jìn)行表征;唐華錦團(tuán)隊(duì)[10]提出采用類(lèi)腦神經(jīng)機(jī)制進(jìn)行定位,認(rèn)知圖構(gòu)建以及情景記憶,并對(duì)該過(guò)程進(jìn)行誤差校正;吳德偉團(tuán)隊(duì)[11]提出視覺(jué)位置細(xì)胞模型并利用其放電機(jī)理對(duì)空間進(jìn)行表征。目前,類(lèi)腦機(jī)制的導(dǎo)航認(rèn)知圖構(gòu)建的研究較少,國(guó)內(nèi)還沒(méi)有團(tuán)隊(duì)提出構(gòu)建認(rèn)知圖的系統(tǒng)方法,而已有的研究構(gòu)建的認(rèn)知圖存在以下問(wèn)題:構(gòu)建認(rèn)知圖的效率較低,認(rèn)知圖中面向目標(biāo)的方向誤差較大,圖中的信息準(zhǔn)確度不高。
針對(duì)上述問(wèn)題本文提出了一種基于改進(jìn)Q學(xué)習(xí)算法的導(dǎo)航認(rèn)知圖構(gòu)建方法(本文中認(rèn)知圖特指動(dòng)物出發(fā)覓食的過(guò)程,通過(guò)整合地理位置信息與面向目標(biāo)的方向信息產(chǎn)生位置細(xì)胞,并對(duì)空間進(jìn)行表征,最終生成基于目標(biāo)導(dǎo)向的向量地圖[12])。該方法明確了類(lèi)腦機(jī)制下認(rèn)知圖構(gòu)建過(guò)程,同時(shí)提高了構(gòu)建認(rèn)知圖的效率以及認(rèn)知圖內(nèi)面向目標(biāo)信息的精確度。同時(shí),本文優(yōu)化了網(wǎng)格細(xì)胞到位置細(xì)胞的RBF映射網(wǎng)絡(luò),提高了位置細(xì)胞對(duì)空間的表征能力。
對(duì)于空間表征主要解決的核心問(wèn)題是如何實(shí)現(xiàn)網(wǎng)格細(xì)胞到位置細(xì)胞的映射,目前實(shí)現(xiàn)網(wǎng)格細(xì)胞到位置細(xì)胞的轉(zhuǎn)換模型主要有:基于競(jìng)爭(zhēng)學(xué)習(xí)的轉(zhuǎn)換模型[13],基于傅里葉分析的轉(zhuǎn)換模型[14]與基于ICA編碼的轉(zhuǎn)換模型[15]。本文提出采用RBF神經(jīng)網(wǎng)絡(luò),建立網(wǎng)格細(xì)胞與位置細(xì)胞的映射關(guān)系。通過(guò)運(yùn)行體感知自身運(yùn)動(dòng)信息,輸入到網(wǎng)格細(xì)胞模型中得到網(wǎng)格細(xì)胞的放電率,再將網(wǎng)格細(xì)胞放電率作為RBF網(wǎng)絡(luò)的輸入,對(duì)RBF網(wǎng)絡(luò)進(jìn)行訓(xùn)練,建立網(wǎng)格細(xì)胞到位置細(xì)胞的轉(zhuǎn)換模型,最終使用位置細(xì)胞表征空間。
針對(duì)建立空間的位置細(xì)胞表征,給出具體方法,包括計(jì)算網(wǎng)格細(xì)胞的放電率,建立RBF神經(jīng)網(wǎng)絡(luò)映射,建立位置細(xì)胞的空間表征3個(gè)步驟。
步驟1計(jì)算網(wǎng)格細(xì)胞的放電率。
目前模擬網(wǎng)格細(xì)胞放電活動(dòng)的模型主要有:吸引子網(wǎng)絡(luò)模型[16-17]和振蕩干涉模型[18-19]。本文采用振蕩干涉模型對(duì)網(wǎng)格細(xì)胞進(jìn)行模擬,其放電率的計(jì)算公式為:
i=1,2,…,NAC
(1)
(2)
式中:ωi為網(wǎng)格細(xì)胞的網(wǎng)格方向。
步驟2建立RBF網(wǎng)絡(luò)映射。
RBF神經(jīng)網(wǎng)絡(luò)分為輸入層,隱含層與輸出層。其中輸入層到隱含層的變換是非線(xiàn)性的,隱含層到輸出層的變換為線(xiàn)性的。RBF網(wǎng)絡(luò)的輸出可以表示為:
(3)
由步驟1可得,運(yùn)行體位于r=[x,y]時(shí),網(wǎng)格細(xì)胞的放電率表示為:
(4)
將網(wǎng)格細(xì)胞的放電率作為RBF網(wǎng)絡(luò)的輸入,位置細(xì)胞的理論放電率作為輸出,根據(jù)輸入輸出對(duì)RBF網(wǎng)絡(luò)進(jìn)行學(xué)習(xí),最終確定RBF網(wǎng)絡(luò)的參數(shù),得到當(dāng)前位置處網(wǎng)格細(xì)胞到位置細(xì)胞的映射關(guān)系。
圖1 RBF-神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
步驟3建立位置細(xì)胞的空間表征。
為了能夠生成新的位置細(xì)胞,設(shè)置位置細(xì)胞的放電閾值;當(dāng)已有位置細(xì)胞的放電率小于該閾值時(shí),則執(zhí)行生成新的位置細(xì)胞。建立位置細(xì)胞的表征過(guò)程即為生成RBF神經(jīng)網(wǎng)絡(luò)群的過(guò)程。當(dāng)運(yùn)行體探索某一位置時(shí),把該位置處網(wǎng)格細(xì)胞的放電率輸入RBF神經(jīng)網(wǎng)絡(luò)群,得到一組輸出值,將輸出值與放電閾值比較,當(dāng)輸出都小于放電閾值時(shí),重復(fù)步驟2建立新的RBF神經(jīng)網(wǎng)絡(luò)。
圖2 RBF神經(jīng)網(wǎng)絡(luò)群示意圖
通過(guò)上述3個(gè)步驟,運(yùn)行體感知自身運(yùn)動(dòng)信息后,通過(guò)網(wǎng)格細(xì)胞到位置細(xì)胞的模型,得到位置細(xì)胞的放電情況,根據(jù)位置細(xì)胞放電情況確定是否生成新的RBF網(wǎng)絡(luò)與位置細(xì)胞,最終得到位置細(xì)胞的空間表征。
Q學(xué)習(xí)算法[20]是一種經(jīng)典的強(qiáng)化學(xué)習(xí)方法。強(qiáng)化學(xué)習(xí)不同于傳統(tǒng)的監(jiān)督學(xué)習(xí)機(jī)制,主要采用試錯(cuò)的方法尋找最優(yōu)的行為策略。對(duì)于環(huán)境模型,Q學(xué)習(xí)算法不會(huì)進(jìn)行預(yù)判與估計(jì),而是直接采用函數(shù)迭代的方法,通過(guò)對(duì)策略的選擇,獲得相應(yīng)的獎(jiǎng)懲值,對(duì)函數(shù)值進(jìn)行更新,在學(xué)習(xí)過(guò)程中逼近最優(yōu)的動(dòng)作序列,最終達(dá)到全局最優(yōu)。這個(gè)過(guò)程中使用的函數(shù)即為Q函數(shù)。Q函數(shù)的迭代過(guò)程為:
Q(s,a)=Q(s,a)+β[R(s,a)+
(5)
式中:Q(s,a)表示狀態(tài)s時(shí)執(zhí)行動(dòng)作a的Q值;β為學(xué)習(xí)率,β∈[0,1];γ為折扣率,γ∈[0,1];R(s,a)為狀態(tài)s時(shí)執(zhí)行動(dòng)作a的獎(jiǎng)勵(lì)值。
Q學(xué)習(xí)算法的過(guò)程可以概括為:
步驟1初始化Q表;
步驟2得到t時(shí)刻的狀態(tài)s,采用ε-貪婪策略選擇當(dāng)前狀態(tài)下的動(dòng)作即以概率選擇該狀態(tài)下最大Q值對(duì)應(yīng)的動(dòng)作,以概率1-隨機(jī)選擇動(dòng)作;
步驟3通過(guò)Q表以及獎(jiǎng)懲策略得到當(dāng)前狀態(tài)的Q值與回報(bào)值,代入式(5)中更新Q表,直到學(xué)習(xí)結(jié)束。
Q學(xué)習(xí)算法具有學(xué)習(xí)能力強(qiáng)以及效果較好的特點(diǎn),但其還存在一定的問(wèn)題。由于Q表的設(shè)置狀態(tài)或動(dòng)作需要的都是離散空間,Q學(xué)習(xí)算法不能運(yùn)用到連續(xù)空間的學(xué)習(xí)。同時(shí)當(dāng)狀態(tài)空間或動(dòng)作空間中的元素過(guò)多時(shí),Q表將變得十分龐大,對(duì)于Q表的查詢(xún)將變得十分困難。ε-貪婪策略是強(qiáng)化學(xué)習(xí)中比較普遍且有效的探索方法,但其缺點(diǎn)是在算法后期還會(huì)選擇非最優(yōu)策略為最優(yōu)策略,造成一些不必要的學(xué)習(xí)與資源浪費(fèi)。
針對(duì)上述的問(wèn)題,本文對(duì)傳統(tǒng)Q學(xué)習(xí)進(jìn)行改進(jìn),引入Boltzmann分布,提出Boltzmann-選擇策略:
(6)
式中:P(s,a)表示在狀態(tài)s時(shí)選擇動(dòng)作a的概率;Q(s,a)表示在狀態(tài)s時(shí)選擇動(dòng)作a的Q值。
傳統(tǒng)Q學(xué)習(xí)算法中使用貪婪策略,在整個(gè)學(xué)習(xí)過(guò)程中隨著學(xué)習(xí)的深入選擇動(dòng)作的概率基本保持在不變。這一問(wèn)題導(dǎo)致在學(xué)習(xí)初期存在次優(yōu)動(dòng)作的Q值大于最優(yōu)動(dòng)作的Q值的現(xiàn)象,使得Q值不能夠準(zhǔn)確的表達(dá)動(dòng)作的優(yōu)劣性;當(dāng)學(xué)習(xí)后期由于較大的概率選擇非最優(yōu)動(dòng)作,因此導(dǎo)致學(xué)習(xí)值不準(zhǔn)確,學(xué)習(xí)結(jié)果收斂較慢,學(xué)習(xí)效果不好。當(dāng)概率值選擇不恰當(dāng)時(shí),會(huì)使得整個(gè)探索過(guò)程不合理,造成資源浪費(fèi)。
改進(jìn)Q學(xué)習(xí)算法中使用的是Boltzmann選擇策略。根據(jù)式(6)可得,當(dāng)初始狀態(tài)的Q值都為0時(shí),運(yùn)行體對(duì)各個(gè)動(dòng)作選擇的概率相等,從而使得前期的動(dòng)作選擇更加隨機(jī),探索更加合理,對(duì)Q值的更新更準(zhǔn)確;當(dāng)學(xué)習(xí)進(jìn)行到一定階段時(shí),由于各個(gè)動(dòng)作的回報(bào)值不同,因此Q值更新情況也不同;動(dòng)作的回報(bào)值越大,Q值越大;動(dòng)作回報(bào)值越小的,Q值越小。因此根據(jù)式(6)得,Q值越大,被選擇的概率就越大。因此隨著學(xué)習(xí)的深入,運(yùn)行體傾向選擇回報(bào)值高的動(dòng)作。
改進(jìn)Q學(xué)習(xí)算法對(duì)動(dòng)作的選擇概率是變化的,學(xué)習(xí)初期能夠隨機(jī)探索各個(gè)動(dòng)作,隨著學(xué)習(xí)過(guò)程的深入,回報(bào)值越大的動(dòng)作被選中的概率越大。這種動(dòng)態(tài)概率既能夠提高學(xué)習(xí)的合理性與有效性,又能夠提升算法的收斂速度,使學(xué)習(xí)更效率、更精確。
本文中構(gòu)建的認(rèn)知圖的過(guò)程分為3個(gè)步驟:
步驟1創(chuàng)建狀態(tài)空間與動(dòng)作空間。
狀態(tài)空間:運(yùn)行體在空間探索過(guò)程中,生成一組位置細(xì)胞,將生成的位置細(xì)胞群設(shè)定為狀態(tài)空間,其中每一個(gè)位置細(xì)胞表示一個(gè)狀態(tài)。當(dāng)運(yùn)行體到達(dá)空間中的某一位置時(shí),通過(guò)空間表征模型確定當(dāng)前狀態(tài)。
動(dòng)作空間:運(yùn)行體在探索空間的過(guò)程,能夠向各個(gè)方向運(yùn)動(dòng)。因此設(shè)定動(dòng)作空間時(shí)需要滿(mǎn)足運(yùn)行體運(yùn)動(dòng)的全方位性。將方向區(qū)間[0,2π]離散化,離散后的每個(gè)值表示相應(yīng)的動(dòng)作方向,組成動(dòng)作空間。以X軸正半軸為基準(zhǔn),各個(gè)動(dòng)作方向分別表示為:
(7)
步驟2采用改進(jìn)Q學(xué)習(xí)算法建立狀態(tài)-動(dòng)作關(guān)系。
結(jié)合改進(jìn)Q學(xué)習(xí)算法運(yùn)行體對(duì)學(xué)習(xí)狀態(tài)-動(dòng)作過(guò)程如下:
首先,根據(jù)狀態(tài)空間與位置空間建立Q表,并對(duì)Q表初始化,Q表中主要記錄狀態(tài)與動(dòng)作的匹配程度;
其次,當(dāng)運(yùn)行體從起點(diǎn)出發(fā)后,根據(jù)位置細(xì)胞表征模型確定當(dāng)前狀態(tài)為st,根據(jù)改進(jìn)后Boltzmann-選擇策略選擇當(dāng)前狀態(tài)下的動(dòng)作方向φ。由當(dāng)前狀態(tài)與動(dòng)作得到下一狀態(tài),此時(shí)根據(jù)Q學(xué)習(xí)算法的原理對(duì)Q表進(jìn)行更新如下:
Q(st,φ)=Q(st,φ)+α[rewards+
γmaxQ(st+1,:)-Q(st,φ)]
(8)
式中:Q(st,φ)表示當(dāng)處于狀態(tài)st時(shí),選擇動(dòng)作φ對(duì)應(yīng)的Q值;maxQ(st+1,:)為狀態(tài)st+1時(shí)各個(gè)動(dòng)作中的最大Q值;α為學(xué)習(xí)率;γ為折扣率;rewards為獎(jiǎng)勵(lì)值,獎(jiǎng)勵(lì)值的多少取決與下一狀態(tài),其設(shè)置為:
1)當(dāng)下一個(gè)狀態(tài)為目標(biāo)所在狀態(tài)時(shí),rewards>0;
2)當(dāng)下一個(gè)狀態(tài)超出探索區(qū)域或者遇到障礙物時(shí),rewards<0;
3)其他情況,rewards=0。
最后,當(dāng)運(yùn)行體運(yùn)動(dòng)狀態(tài)數(shù)超過(guò)設(shè)置值或運(yùn)行體發(fā)現(xiàn)目標(biāo)時(shí),該輪學(xué)習(xí)自動(dòng)結(jié)束。啟動(dòng)下一輪學(xué)習(xí),直到學(xué)習(xí)結(jié)束。
經(jīng)過(guò)學(xué)習(xí)后,運(yùn)行體能夠獲得最終的Q表。該表中Q(st,φ)表示狀態(tài)st與動(dòng)作φ的匹配關(guān)系,該值越大代表狀態(tài)st與動(dòng)作φ越匹配。
步驟3構(gòu)建認(rèn)知圖。
在構(gòu)建認(rèn)知圖時(shí),將步驟2中最終得到的Q表作為各個(gè)動(dòng)作的權(quán)重,然后結(jié)合所對(duì)應(yīng)的動(dòng)作方向,直接使用重心估計(jì)原理計(jì)算各個(gè)狀態(tài)相對(duì)于目標(biāo)的方向信息,從而生成面向目標(biāo)的認(rèn)知圖。方向的計(jì)算方法如下:
(9)
仿真環(huán)境設(shè)置如下:
1)空間大小為50 m×50 m,運(yùn)行體采用離散方式,以5 m/s的速度對(duì)空間進(jìn)行探索;
2)在空間探索過(guò)程中,將目標(biāo)探索生成的位置細(xì)胞設(shè)置為狀態(tài)空間中的元素,在學(xué)習(xí)過(guò)程中,通過(guò)比較狀態(tài)確定是否達(dá)到目標(biāo);
3)獎(jiǎng)勵(lì)策略設(shè)置為:當(dāng)運(yùn)行體運(yùn)動(dòng)位置超出探索空間時(shí),獎(jiǎng)勵(lì)值為-1;當(dāng)運(yùn)行體發(fā)現(xiàn)目標(biāo)時(shí),獎(jiǎng)勵(lì)值為10;其余情況,獎(jiǎng)勵(lì)值為0;
4)網(wǎng)格細(xì)胞的參數(shù)設(shè)置:根據(jù)式(1)建立網(wǎng)格細(xì)胞,網(wǎng)格細(xì)胞總數(shù)為50,網(wǎng)格間距A為4,網(wǎng)格方向?yàn)?0°;
5)位置細(xì)胞的放電野設(shè)置:當(dāng)距離位置細(xì)胞中心距離在0~5 m之間時(shí),位置細(xì)胞的放電率大于0.1,當(dāng)距離位置細(xì)胞中心距離大于5 m時(shí),位置細(xì)胞的放電率小于0.1(位置細(xì)胞不放電),從而位置細(xì)胞能夠感應(yīng)距離放電中心約5 m的范圍;
6)探索過(guò)程中位置細(xì)胞的放電閾值設(shè)置為0.1,當(dāng)已有位置細(xì)胞的放電率都小于0.1時(shí),生成新的位置細(xì)胞;
7)Q學(xué)習(xí)的相關(guān)參數(shù)設(shè)置:學(xué)習(xí)率為0.1,折扣因子為0.1,認(rèn)知圖精度為8。
經(jīng)過(guò)仿真實(shí)驗(yàn)得到以下結(jié)果:圖3給出了不同間距網(wǎng)格細(xì)胞的放電情況(網(wǎng)格間距依次為:5,10,15)。仿真結(jié)果表明:改變網(wǎng)格間距,固定運(yùn)行體位置能夠得到不同的網(wǎng)格細(xì)胞放電情況。圖4給出了在不同位置處網(wǎng)格細(xì)胞的放電情況(位置坐標(biāo)依次為(5,15),(15,25),(25,35))。仿真結(jié)果表明:當(dāng)固定網(wǎng)格細(xì)胞間距,改變運(yùn)行體的位置,網(wǎng)格細(xì)胞的放電情況將發(fā)生改變。圖3,圖4證明在不同位置處網(wǎng)格細(xì)胞的放電情況不同,網(wǎng)格細(xì)胞的放電率能夠作為RBF網(wǎng)絡(luò)的有效輸入。
圖3 不同間距的網(wǎng)格細(xì)胞放電情況
圖4 不同位置處網(wǎng)格細(xì)胞的放電情況
圖5給出了RBF網(wǎng)絡(luò)訓(xùn)練得到的位置細(xì)胞放電率與空間位置的函數(shù)關(guān)系。圖中的函數(shù)關(guān)系表明,當(dāng)運(yùn)行體與位置細(xì)胞的中心點(diǎn)距離小于等于5 m時(shí),位置細(xì)胞放電(當(dāng)且僅當(dāng)距離為0時(shí),位置細(xì)胞的放電率達(dá)到峰值);當(dāng)距離大于5 m之后,位置細(xì)胞不放電。
圖5 訓(xùn)練后RBF神經(jīng)網(wǎng)絡(luò)的函數(shù)圖像
圖6表示中心點(diǎn)為(35,40)的位置細(xì)胞的放電域。分析圖像可得距離位置細(xì)胞的中心點(diǎn)距離在5m之內(nèi),位置細(xì)胞放電。該放電情況與圖5的訓(xùn)練結(jié)果相符。
圖7給出了運(yùn)行體經(jīng)過(guò)探索后生成的部分位置細(xì)胞的放電情況。位置細(xì)胞的放電野覆蓋了整個(gè)區(qū)域,當(dāng)運(yùn)行體在空間運(yùn)行時(shí)相應(yīng)的位置細(xì)胞將正常放電,因此能夠通過(guò)觀察位置細(xì)胞的放電率得到運(yùn)行體的位置。位置細(xì)胞仿真結(jié)果表明,改進(jìn)后的RBF網(wǎng)絡(luò)能夠訓(xùn)練得到位置細(xì)胞的放電函數(shù),生成的位置細(xì)胞能夠覆蓋探索區(qū)域,并成功對(duì)空間進(jìn)行表征。
圖6 RBF神經(jīng)網(wǎng)絡(luò)映射后位置細(xì)胞的放電域
圖7 探索結(jié)束后生成位置細(xì)胞的放電情況
圖8給出了采用傳統(tǒng)Q學(xué)習(xí)算法(單個(gè)回合學(xué)習(xí)5 000次)構(gòu)建認(rèn)知圖的情況與采用改進(jìn)Q學(xué)習(xí)算法(單個(gè)回合學(xué)習(xí)1 000次)構(gòu)建認(rèn)知圖的情況。仿真結(jié)果表明:改進(jìn)后Q學(xué)習(xí)方法的效率更高,各個(gè)狀態(tài)的角度值更加接近真實(shí)值,構(gòu)建的認(rèn)知圖中的方向信息更加準(zhǔn)確。
圖8 不同算法構(gòu)建的認(rèn)知圖
圖9給出傳統(tǒng)Q學(xué)習(xí)算法與改進(jìn)Q學(xué)習(xí)算法在學(xué)習(xí)過(guò)程中部分狀態(tài)的學(xué)習(xí)值。圖9表明改進(jìn)Q學(xué)習(xí)算法比傳統(tǒng)Q學(xué)習(xí)算法的實(shí)際角度值收斂更快速;且在學(xué)習(xí)次數(shù)大于2 000之后,改進(jìn)Q學(xué)習(xí)算法的學(xué)習(xí)值更加接近實(shí)際值。
圖10給出了單個(gè)回合中學(xué)習(xí)次數(shù)與平均相對(duì)誤差的關(guān)系(平均相對(duì)誤差計(jì)算方法如下:以單個(gè)回合學(xué)習(xí)1 000次為例,運(yùn)行體進(jìn)行10個(gè)回合的學(xué)習(xí),計(jì)算各個(gè)狀態(tài)平均相對(duì)誤差后,對(duì)各個(gè)狀態(tài)的平均誤差求和取平均,最后得到探索1 000次的平均相對(duì)誤差。)改進(jìn)Q學(xué)習(xí)算法學(xué)習(xí)的相對(duì)誤差一直小于傳統(tǒng)Q學(xué)習(xí)算法的相對(duì)誤差,且當(dāng)學(xué)習(xí)次數(shù)大于2 000次以后,傳統(tǒng)Q學(xué)習(xí)算法的相對(duì)誤差穩(wěn)定在20%,改進(jìn)Q學(xué)習(xí)算法的相對(duì)誤差基本穩(wěn)定在4%。仿真結(jié)果表明:引入Boltzmann分布對(duì)貪婪策略進(jìn)行改進(jìn)能夠提高Q學(xué)習(xí)的收斂速度,提升學(xué)習(xí)值的精確性。
圖11和圖12給出了傳統(tǒng)Q學(xué)習(xí)算法與改進(jìn)Q學(xué)習(xí)算法每回合的平均相對(duì)誤差,仿真實(shí)驗(yàn)中一共學(xué)習(xí)了100個(gè)回合(圖11單個(gè)回合學(xué)習(xí)次數(shù)為1 000次,圖12單個(gè)回合學(xué)習(xí)次數(shù)為2 000次)。圖11,圖12表明改進(jìn)Q學(xué)習(xí)算法學(xué)習(xí)值的平均相對(duì)誤差普遍小于傳統(tǒng)Q學(xué)習(xí)算法。
圖10 傳統(tǒng)Q學(xué)習(xí)算法與改進(jìn)Q學(xué)習(xí)算法的平均相對(duì)誤差
圖11 傳統(tǒng)Q學(xué)習(xí)算法與改進(jìn)Q學(xué)習(xí)算法每回合的平均相對(duì)誤差(單回合次數(shù)1 000次)
圖12 傳統(tǒng)Q學(xué)習(xí)算法與改進(jìn)Q學(xué)習(xí)算法每回合的平均相對(duì)誤差(單回合次數(shù)2 000次)
仿真結(jié)果表明:改進(jìn)后的Q學(xué)習(xí)算法相比于傳統(tǒng)Q學(xué)習(xí)算法學(xué)習(xí)效率更高,學(xué)習(xí)值更貼近真實(shí)值,學(xué)習(xí)結(jié)果更加準(zhǔn)確,構(gòu)建的認(rèn)知導(dǎo)航圖更加準(zhǔn)確。
本文提出了類(lèi)腦機(jī)制的導(dǎo)航認(rèn)知圖構(gòu)建的系統(tǒng)方法,并對(duì)傳統(tǒng)Q學(xué)習(xí)算法進(jìn)行改進(jìn)。仿真結(jié)果表明,改進(jìn)后的Q學(xué)習(xí)算法能夠提升學(xué)習(xí)效率,從而提高了導(dǎo)航認(rèn)知圖構(gòu)建的效率與精度。但最終生成的導(dǎo)航認(rèn)知圖僅包含面向目標(biāo)的信息,缺少該位置處的環(huán)境信息以及狀態(tài)之間的連接關(guān)系。如何整合環(huán)境信息與位置信息生成位置細(xì)胞對(duì)空間進(jìn)行表征以及如何增加各個(gè)狀態(tài)之間的連接關(guān)系構(gòu)建認(rèn)知圖等問(wèn)題還有待繼續(xù)研究。