戴嘉偉,熊 智,晁麗君,楊 闖
(南京航空航天大學(xué)自動(dòng)化學(xué)院導(dǎo)航研究中心,南京 211106)
面向目標(biāo)導(dǎo)航是智能體自主執(zhí)行任務(wù)(如自主偵察與救援)的前提和基礎(chǔ)。隨著人工智能的迅猛發(fā)展,在自然或人為災(zāi)害后的惡劣環(huán)境中,智能體能夠代替人類最大限度地降低目標(biāo)搜尋等任務(wù)難度,并提高任務(wù)效率。由于智能體工作逐漸面向非結(jié)構(gòu)化和未知環(huán)境,如何快速準(zhǔn)確地搜索出一條由初始狀態(tài)到目標(biāo)狀態(tài)的安全路徑成為當(dāng)前智能體規(guī)劃的技術(shù)難點(diǎn),即面向目標(biāo)導(dǎo)航問(wèn)題。
1970年左右,研究人員就已經(jīng)開(kāi)始了對(duì)智能體面向目標(biāo)導(dǎo)航算法的研究[1]。傳統(tǒng)方法中,文獻(xiàn)[2]采用快速擴(kuò)展隨機(jī)樹(shù)(rapidly-exploring random tree,RRT)算法,對(duì)規(guī)劃航路點(diǎn)進(jìn)行無(wú)人機(jī)飛行動(dòng)力學(xué)約束和局部航路動(dòng)態(tài)規(guī)劃。RRT算法[3-4]無(wú)需對(duì)規(guī)劃空間進(jìn)行預(yù)先處理且概率完備,但在節(jié)點(diǎn)拓展時(shí)盲目性和隨機(jī)性大,缺乏較強(qiáng)的目的導(dǎo)向性。智能啟發(fā)式方法[5-6]是受自然規(guī)律啟迪而模仿出的算法,具備一定的自我學(xué)習(xí)、自我更新和記憶能力。文獻(xiàn)[7]采用自適應(yīng)學(xué)習(xí)粒子群算法,提出了一種基于協(xié)同進(jìn)化的粒子群算法以解決機(jī)器人路徑規(guī)劃問(wèn)題,更好地調(diào)整全局和局部搜索能力,解決了粒子群優(yōu)化的停滯問(wèn)題,但啟發(fā)式算法[8]在未知環(huán)境下往往會(huì)陷入局部最小問(wèn)題。除了傳統(tǒng)和啟發(fā)式方法之外,基于強(qiáng)化學(xué)習(xí)的規(guī)劃算法如時(shí)間差分模型等也被廣泛應(yīng)用于各種自治系統(tǒng)的路徑規(guī)劃[9],但在連續(xù)狀態(tài)空間中智能體會(huì)陷入維數(shù)災(zāi)難,收斂緩慢。此外,近年來(lái)基于深度強(qiáng)化學(xué)習(xí)的智能體導(dǎo)航方法解決了復(fù)雜目標(biāo)任務(wù)難以建模的問(wèn)題。文獻(xiàn)[10]提出了一種基于優(yōu)化深度Q網(wǎng)絡(luò)(deep Q-network, DQN)算法的全局路徑規(guī)劃模型,解決了傳統(tǒng)方法中路徑冗余問(wèn)題,但現(xiàn)實(shí)環(huán)境和模擬環(huán)境的差異性導(dǎo)致智能體可移植性差、計(jì)算量大,且訓(xùn)練過(guò)程復(fù)雜困難。這類基于傳統(tǒng)馮諾依曼計(jì)算結(jié)構(gòu)的規(guī)劃方法在面對(duì)復(fù)雜目標(biāo)導(dǎo)航問(wèn)題時(shí)具備離散狀態(tài)下的有效處理能力,但是其龐大的計(jì)算量導(dǎo)致計(jì)算效率低下及訓(xùn)練困難的問(wèn)題,同時(shí)缺少生理學(xué)結(jié)構(gòu)的研究,不具備生理學(xué)可解釋性,因而需要探索發(fā)展基于新型計(jì)算模型的,能適應(yīng)非結(jié)構(gòu)化、未知環(huán)境的面向目標(biāo)導(dǎo)航方式。
為解決現(xiàn)有面向目標(biāo)導(dǎo)航方法存在的問(wèn)題,本文提出了一種基于脈沖神經(jīng)網(wǎng)絡(luò)的智能體類腦面向目標(biāo)導(dǎo)航方法。根據(jù)生物大腦海馬體(hippocampus,HC)和腹側(cè)被蓋區(qū)(ventral tegmental area,VTA)到前額葉皮層(prefrontal cortex,PFC)中動(dòng)作細(xì)胞(action cell, AC)調(diào)節(jié)現(xiàn)象,采用基于脈沖響應(yīng)模型的脈沖時(shí)間依賴可塑性(spike-timing-depen-dent plasticity,STDP)學(xué)習(xí)規(guī)則,構(gòu)建了前額葉皮層環(huán)狀動(dòng)作細(xì)胞的脈沖神經(jīng)網(wǎng)絡(luò)模型,利用動(dòng)作細(xì)胞群脈沖放電現(xiàn)象表征智能體的運(yùn)動(dòng)方向和速度。本文所提模型能夠同時(shí)記憶陌生環(huán)境中的障礙物和目標(biāo)位置,通過(guò)動(dòng)作細(xì)胞決策實(shí)現(xiàn)智能體的面向目標(biāo)類腦導(dǎo)航功能,同時(shí)具備對(duì)于多種陌生環(huán)境下的面向目標(biāo)導(dǎo)航能力,具有一定的模型泛化能力。
生理學(xué)上的大腦導(dǎo)航關(guān)鍵區(qū)域結(jié)構(gòu)示意圖如圖1所示。1971年,J.O’Keefe等發(fā)現(xiàn)在海馬體中位置細(xì)胞(place cell, PC)存在著空間特定位置選擇性放電現(xiàn)象[11]。動(dòng)物在到達(dá)環(huán)境區(qū)域時(shí),位置細(xì)胞會(huì)記憶特定環(huán)境信息信標(biāo)點(diǎn),迅速生成并且形成穩(wěn)定的位置野[12-13],同時(shí)位置細(xì)胞群的放電活動(dòng)隨著動(dòng)物到達(dá)特定信標(biāo)點(diǎn)時(shí)顯著提高,進(jìn)而實(shí)現(xiàn)了對(duì)動(dòng)物當(dāng)前位置的編碼[14]能力。動(dòng)物導(dǎo)航以大腦海馬區(qū)中的大量位置細(xì)胞集群放電為基礎(chǔ),逐漸形成穩(wěn)定編碼空間環(huán)境認(rèn)知地圖[15]的位置野。但是單一海馬位置細(xì)胞對(duì)環(huán)境信息的表征能力并不能實(shí)現(xiàn)動(dòng)物導(dǎo)航過(guò)程中的行為決策,需要通過(guò)和前額葉皮層構(gòu)建特定的動(dòng)態(tài)突觸連接結(jié)構(gòu),形成大腦導(dǎo)航命令和控制中樞神經(jīng)網(wǎng)絡(luò)[16]。
圖1 面向目標(biāo)導(dǎo)航關(guān)鍵腦區(qū)Fig.1 Key brain regions for target-driven navigation
生物在環(huán)境探索過(guò)程中進(jìn)行目標(biāo)導(dǎo)航的流程如下:1)由視覺(jué)皮層或感覺(jué)皮層等接收處理環(huán)境狀態(tài)信息更新,向大腦腹側(cè)被蓋區(qū)傳遞環(huán)境獎(jiǎng)勵(lì)信號(hào);2)腹側(cè)被蓋區(qū)中的多巴胺能神經(jīng)元接收環(huán)境獎(jiǎng)勵(lì)信號(hào)生成獎(jiǎng)勵(lì)調(diào)節(jié)信息,海馬體位置細(xì)胞生成空間認(rèn)知信息實(shí)現(xiàn)位置信息編碼,兩者進(jìn)一步通過(guò)伏隔核(nucleus accumben,NA)神經(jīng)元形成前饋通路影響前額葉皮層動(dòng)作細(xì)胞;3)前額葉皮層動(dòng)作細(xì)胞激活依賴PC-AC前饋通路信號(hào)和AC橫向通路信號(hào),動(dòng)作細(xì)胞群集群放電影響丘腦(thalamus,Tha)確定生物運(yùn)動(dòng)方向;4)通過(guò)運(yùn)動(dòng)皮層確定運(yùn)動(dòng)輸出,更新智能體位置信息,最終完成面向目標(biāo)導(dǎo)航的過(guò)程。具體流程如圖2所示。
圖2 生物導(dǎo)航行為模型Fig.2 Model of biological navigation behavior
根據(jù)生物目標(biāo)導(dǎo)航行為模型,設(shè)計(jì)了如圖3所示的基于STDP獎(jiǎng)勵(lì)調(diào)節(jié)的類腦面向目標(biāo)導(dǎo)航算法流程,主要內(nèi)容為:1)構(gòu)建了海馬體位置細(xì)胞和前額葉皮層動(dòng)作細(xì)胞的脈沖神經(jīng)網(wǎng)絡(luò)模型,分別表征智能體位置空間和動(dòng)作空間信息;2)位置細(xì)胞采用前饋連接模型影響動(dòng)作細(xì)胞激活,動(dòng)作細(xì)胞群采用橫向競(jìng)爭(zhēng)模型輸出動(dòng)作細(xì)胞膜電位;3)根據(jù)動(dòng)作細(xì)胞放電率,設(shè)計(jì)了智能體動(dòng)作選擇函數(shù),同時(shí)基于脈沖神經(jīng)網(wǎng)絡(luò)權(quán)值更新方法,智能體接收到環(huán)境獎(jiǎng)勵(lì)調(diào)節(jié)信息后,采用STDP學(xué)習(xí)規(guī)則更新位置細(xì)胞到動(dòng)作細(xì)胞的前饋突觸權(quán)值。
圖3 基于STDP獎(jiǎng)勵(lì)調(diào)節(jié)的目標(biāo)導(dǎo)航算法流程Fig.3 Workflow of brain-inspired target-driven navigation algorithm based on STDP reward modulation
當(dāng)生物處在空間特定的范圍內(nèi)時(shí),海馬體內(nèi)某些錐體細(xì)胞會(huì)出現(xiàn)最大頻率放電現(xiàn)象[17-18],而在其他位置則很少甚至沒(méi)有放電現(xiàn)象,則該細(xì)胞被稱作位置細(xì)胞,其放電現(xiàn)象所對(duì)應(yīng)的環(huán)境生物活動(dòng)范圍則被稱為該細(xì)胞的位置野。只要環(huán)境處于長(zhǎng)期穩(wěn)定狀態(tài),位置細(xì)胞的位置野在環(huán)境中的大小、形狀、分布以及最大放電頻率都可以維持較長(zhǎng)時(shí)間的平穩(wěn)狀態(tài),這一特性說(shuō)明了位置細(xì)胞的位置表征能力具有良好的穩(wěn)定性[19]。
在面向目標(biāo)的導(dǎo)航任務(wù)需求下,根據(jù)大腦行為決策生理學(xué)依據(jù),位置細(xì)胞采用位置野信息密集編碼智能體所處的整體空間環(huán)境。假設(shè)智能體在t時(shí)刻的位置由笛卡爾坐標(biāo)系中的Pos(t)=(x(t),y(t))來(lái)表示,智能體當(dāng)前位置可由位置細(xì)胞群放電現(xiàn)象聯(lián)合編碼。假設(shè)在智能體所處空間環(huán)境中均勻分布著Npc=121個(gè)位置細(xì)胞,位置細(xì)胞的位置野半徑為σ=0.4 m,位置細(xì)胞的放電率ri可建模為一個(gè)非齊次泊松過(guò)程
ri(Pos(t))=
(1)
位置細(xì)胞放電率ri由智能體當(dāng)前位置(x,y)到位置細(xì)胞中心(xi,yi)的函數(shù)關(guān)系來(lái)表征,當(dāng)智能體恰好位于位置野中心(xi,yi)時(shí),位置細(xì)胞放電率最大,通過(guò)這種集群放電編碼方式,位置細(xì)胞即可表征整個(gè)空間環(huán)境。為了保證在保持導(dǎo)航精度的同時(shí)縮短計(jì)算時(shí)間,令λ=400 Hz,位置細(xì)胞的放電率會(huì)處在較高水平,并且放電率隨著相對(duì)距離的增大而逐漸減小。
由于位置細(xì)胞建模為泊松神經(jīng)元,則瞬時(shí)放電率為ri的位置細(xì)胞在t1~t2時(shí)間段內(nèi)產(chǎn)生n個(gè)脈沖序列的概率為
(2)
如圖4所示,位置細(xì)胞作為類腦面向目標(biāo)導(dǎo)航系統(tǒng)的輸入,通過(guò)加權(quán)系數(shù)wff投射到所有動(dòng)作細(xì)胞。這些前饋加權(quán)系數(shù)初始化為win,并且在最大權(quán)值wmax和最小權(quán)值wmin之間有界,這樣使得興奮性刺激和抑制性刺激均能通過(guò)位置細(xì)胞對(duì)動(dòng)作細(xì)胞產(chǎn)生影響,同時(shí)動(dòng)作細(xì)胞之間通過(guò)橫向權(quán)重wlc互相連接。根據(jù)神經(jīng)科學(xué)理論,神經(jīng)元在放電之后的短暫時(shí)間內(nèi)存在不應(yīng)期,即對(duì)輸入信號(hào)不響應(yīng)。為了在脈沖序列中模擬這個(gè)過(guò)程,在神經(jīng)元放電之后的不應(yīng)期內(nèi),將瞬時(shí)放電頻率置為0。在不應(yīng)期結(jié)束之后,瞬時(shí)放電頻率在限定時(shí)間內(nèi)逐漸回到原始值。t時(shí)刻動(dòng)作細(xì)胞j的膜電位為
圖4 位置細(xì)胞-動(dòng)作細(xì)胞模型Fig.4 Model of place cells to action cells
(3)
(4)
動(dòng)作細(xì)胞脈沖響應(yīng)處于隨機(jī)狀態(tài),動(dòng)作細(xì)胞放電率遵循依賴于動(dòng)作細(xì)胞j膜電位的非齊次泊松過(guò)程
(5)
定義動(dòng)作細(xì)胞j和k之間的橫向連通權(quán)重為
(6)
f(j,k)=(1-δjk)eφcos(θj-θk)
(7)
式中,θj=2jπ/Nac,Nac=40為動(dòng)作細(xì)胞個(gè)數(shù);Z為歸一化因子;w-=-300;w+=100;f(j,k)為動(dòng)作細(xì)胞(j,k)間橫向連接函數(shù)。橫向連接函數(shù)隨動(dòng)作選擇方向相似度單調(diào)遞增,δ為狄拉克函數(shù),φ=20為放電率調(diào)節(jié)因子。因此,當(dāng)存在神經(jīng)元同時(shí)處于相似的放電頻率時(shí),動(dòng)作細(xì)胞神經(jīng)元會(huì)處于興奮性刺激連接狀態(tài),否則處于相互抑制性狀態(tài),這保證了任意時(shí)間只會(huì)存在部分具有相似放電活動(dòng)的動(dòng)作細(xì)胞處于活躍狀態(tài),使得整體運(yùn)動(dòng)軌跡平滑且連續(xù)。
2.3.1 面向目標(biāo)類腦導(dǎo)航模型
在實(shí)驗(yàn)環(huán)境中,智能體位置信息由位置細(xì)胞編碼,而智能體運(yùn)動(dòng)方向和速度決策由動(dòng)作細(xì)胞決定。當(dāng)遇到障礙物,環(huán)境邊界或目標(biāo)點(diǎn)獲得獎(jiǎng)勵(lì)信號(hào)時(shí),智能體通過(guò)STDP獎(jiǎng)勵(lì)調(diào)節(jié)規(guī)則調(diào)節(jié)位置細(xì)胞和動(dòng)作細(xì)胞之間的前饋連接突觸權(quán)重。動(dòng)作細(xì)胞之間通過(guò)橫向連接互相影響,當(dāng)動(dòng)作細(xì)胞神經(jīng)元存在相似放電現(xiàn)象時(shí),動(dòng)作細(xì)胞神經(jīng)元會(huì)處于興奮性狀態(tài),否則處于抑制性狀態(tài)。因此,智能體運(yùn)動(dòng)決策依賴于動(dòng)作細(xì)胞,而動(dòng)作細(xì)胞的激活依賴于位置細(xì)胞的前饋連接和動(dòng)作細(xì)胞間的橫向連接。
動(dòng)作空間由脈沖神經(jīng)網(wǎng)絡(luò)建模的動(dòng)作細(xì)胞表示。不同的動(dòng)作細(xì)胞分別表示不同的運(yùn)動(dòng)方向,通過(guò)橫向連接確保細(xì)胞間互相競(jìng)爭(zhēng),實(shí)現(xiàn)勝者為王的局面。來(lái)自位置細(xì)胞前饋連接和來(lái)自動(dòng)作細(xì)胞橫向的競(jìng)爭(zhēng)連接共同作用,經(jīng)式(3)輸出動(dòng)作細(xì)胞膜電位,聯(lián)合決定動(dòng)作細(xì)胞脈沖響應(yīng),最后由脈沖響應(yīng)動(dòng)作細(xì)胞放電率決定每個(gè)時(shí)刻前進(jìn)的速度和方向。智能體的運(yùn)動(dòng)由動(dòng)作細(xì)胞決定,設(shè)速度參數(shù)a0=0.1 m,采用動(dòng)作細(xì)胞神經(jīng)元aj表示笛卡爾平面上不同的前進(jìn)策略
aj=a0(sin(θj), cos(θj))
(8)
智能體的動(dòng)作選擇過(guò)程根據(jù)動(dòng)作細(xì)胞神經(jīng)元放電率,由濾波脈沖序列Yj和核函數(shù)γ決定
(9)
(10)
在連續(xù)運(yùn)動(dòng)情況下,需要?jiǎng)幼骷?xì)胞在每個(gè)時(shí)刻t都即時(shí)輸出動(dòng)作選擇。每個(gè)動(dòng)作細(xì)胞j表示了方向aj,t時(shí)刻前額葉皮層動(dòng)作選擇過(guò)程中的動(dòng)作細(xì)胞放電率為ρj(t),決定了最優(yōu)的前進(jìn)方向a(t),a(t)為所有動(dòng)作神經(jīng)元決策方向的加權(quán)均值,如式(12)所示
ρj(t)=(Yj°γ)(t)
(11)
(12)
式中,Nac為動(dòng)作細(xì)胞數(shù)量;°表示映射的乘積,即(Yj°γ)(t)=Yj(γ(t))。在動(dòng)作細(xì)胞數(shù)目足夠多的情況下,該動(dòng)作決策機(jī)制使得智能體具備了任意方向的連續(xù)移動(dòng)能力,同時(shí)提高了導(dǎo)航定位和動(dòng)作選擇的準(zhǔn)確性。當(dāng)動(dòng)作a(t)確定之后,智能體的位置信息根據(jù)式(13)進(jìn)行更新
(13)
智能體根據(jù)t時(shí)刻動(dòng)作選擇a(t)移動(dòng),當(dāng)?shù)竭_(dá)訓(xùn)練邊界時(shí),通過(guò)指向邊界內(nèi)部的單位向量u(x(t))與抗拒距離d=0.01 m轉(zhuǎn)至訓(xùn)練區(qū)域內(nèi)部。為避免較大的邊界效應(yīng),邊界上的位置細(xì)胞和指向邊界外的動(dòng)作細(xì)胞間的前饋連接權(quán)重設(shè)置為0。
2.3.2 基于STDP獎(jiǎng)勵(lì)調(diào)節(jié)的突觸權(quán)值更新方法
興奮性和抑制性突觸的權(quán)值變化效率受到多種可塑性機(jī)制的影響,其中STDP建立在神經(jīng)元脈沖模式的相關(guān)性基礎(chǔ)上,是赫布可塑性的一種形式。STDP的確切形式會(huì)因?yàn)椴煌愋偷耐挥|形式而不同。在其最常見(jiàn)的形式中,突觸時(shí)間依賴的可塑性表明,突觸前脈沖發(fā)生后不久突觸后脈沖就發(fā)生(前-后模式,pre-post)會(huì)導(dǎo)致突觸權(quán)值的增加,即突觸的長(zhǎng)期增強(qiáng)(long-term potentiation,LTP),突觸權(quán)重的增加隨著兩次脈沖時(shí)間的不同呈指數(shù)衰減;反之,當(dāng)突觸前脈沖發(fā)生在突觸后脈沖之后(后-前模式,post-pre)會(huì)導(dǎo)致神經(jīng)元間突觸經(jīng)歷一個(gè)長(zhǎng)期抑制(long-term depression,LTD)。現(xiàn)在人們普遍認(rèn)為,記憶和學(xué)習(xí)與STDP密切相關(guān)[20-21]。在數(shù)學(xué)上,突觸強(qiáng)度的變化可以表示為
(14)
本文的學(xué)習(xí)模型考慮了突觸前和突觸后神經(jīng)元之間的多個(gè)脈沖相互作用。在非對(duì)稱形式學(xué)習(xí)規(guī)則中,STDP函數(shù)由式(15)中函數(shù)定義
(15)
如果Δt>0,即權(quán)值變化為正,則認(rèn)為發(fā)生了突觸的長(zhǎng)期增強(qiáng);另一方面,如果Δt<0,即發(fā)生了突觸的長(zhǎng)期抑制,那么突觸權(quán)重減小。A+和A-分別是定義LTP和LTD窗口大小的標(biāo)度常數(shù),τ+和τ-定義了2個(gè)窗口的衰減率,其中A+=0.1,A-=-0.15,τ+=τ-=20 ms。
STDP規(guī)則中,突觸的強(qiáng)度和突觸后脈沖的概率之間存在線性關(guān)系:權(quán)重越大,下一個(gè)神經(jīng)元就越有可能發(fā)生放電現(xiàn)象。因此,一旦突觸增強(qiáng),其后續(xù)增強(qiáng)的機(jī)會(huì)就會(huì)增加。然而,在生物學(xué)中,突觸權(quán)重不能任意增大。因此,本文將興奮性突觸的大小限制在0~3 mV之間,抑制性突觸的大小限制在0~1 mV之間。對(duì)于獎(jiǎng)勵(lì)調(diào)節(jié)STDP模型,在突觸ji上從神經(jīng)元i到神經(jīng)元j的權(quán)值變化wji可以寫(xiě)成
Δwji(t)=eji(t)d(t)
(16)
式中,eji表示t時(shí)刻從神經(jīng)元i到神經(jīng)元j的資格跡;d(t)為獎(jiǎng)賞函數(shù)。資格跡函數(shù)由以下函數(shù)給出
(17)
式中,stdp(tpost-tpre)為根據(jù)STDP學(xué)習(xí)規(guī)則變化的突觸權(quán)值;τc=10 ms是表征資格跡衰減率的時(shí)間常數(shù)。
在獲得獎(jiǎng)勵(lì)后,多巴胺(dopamine,DA)獎(jiǎng)勵(lì)函數(shù)d(t)會(huì)隨著時(shí)間的推移而增加,然后呈指數(shù)衰減到基礎(chǔ)水平
(18)
(19)
式中,DA(t)為多巴胺濃度(M);τd=0.2 s為DA時(shí)間常數(shù),確保突觸權(quán)重不會(huì)發(fā)生劇烈的跳變。圖5所示為本文資格跡追蹤影響下的突觸強(qiáng)度變化示意圖,pre-post脈沖對(duì)產(chǎn)生了興奮性刺激下的資格跡響應(yīng),并且在此期間使得受到多巴胺激勵(lì)的突觸強(qiáng)度增強(qiáng)。
圖5 突觸權(quán)值受資格跡影響示意圖Fig.5 Model of synaptic weights affected by the eligibility trace
為驗(yàn)證本文所提智能體類腦面向目標(biāo)導(dǎo)航算法的有效性,設(shè)計(jì)圖6所示單障礙4 m×4 m的正方形實(shí)驗(yàn)環(huán)境,進(jìn)行目標(biāo)導(dǎo)航實(shí)驗(yàn)驗(yàn)證,實(shí)時(shí)記錄并保存實(shí)驗(yàn)中動(dòng)作細(xì)胞放電率和突觸權(quán)重等相關(guān)參數(shù)。智能體的起點(diǎn)固定為環(huán)境邊界左下角(0,0),圓形目標(biāo)點(diǎn)半徑為0.25 m,正方形障礙物邊長(zhǎng)為0.5 m。在智能體對(duì)環(huán)境的逐步探索過(guò)程中,獲取環(huán)境反饋獎(jiǎng)勵(lì)信號(hào),至智能體到達(dá)未知目標(biāo)點(diǎn)或者最大探索時(shí)間結(jié)束時(shí),采用第2章中STDP權(quán)重更新方法優(yōu)化突觸權(quán)值。多次訓(xùn)練后,智能體能夠以較優(yōu)路徑到達(dá)未知目標(biāo)點(diǎn)。
(a) 1次實(shí)驗(yàn)
(b) 4次實(shí)驗(yàn)
(c) 8次實(shí)驗(yàn)
(d) 12次實(shí)驗(yàn)
(e) 16次實(shí)驗(yàn)
(f) 20次實(shí)驗(yàn)圖6 避障條件下的目標(biāo)導(dǎo)航軌跡Fig.6 Target navigation trajectory in obstacle conditions
當(dāng)訓(xùn)練開(kāi)始時(shí),智能體初始化前饋突觸和橫向突觸權(quán)重,并采用隨機(jī)策略對(duì)環(huán)境進(jìn)行探索,同時(shí)學(xué)習(xí)從起點(diǎn)到未知目標(biāo)點(diǎn)的導(dǎo)航方式。實(shí)驗(yàn)中將單次探索最大時(shí)間Tmax設(shè)置為50 s,智能體可以在Tmax的最大持續(xù)時(shí)間內(nèi)自由探索環(huán)境,如果在單次探索最大時(shí)間內(nèi)發(fā)現(xiàn)未知目標(biāo)并獲得獎(jiǎng)勵(lì),則一次探索提前終止,同時(shí)進(jìn)入神經(jīng)不應(yīng)期,300 ms后重新開(kāi)始新一輪探索。為了在脈沖序列中模擬這個(gè)過(guò)程,在神經(jīng)元放電之后的不應(yīng)期內(nèi),通過(guò)抑制所有位置細(xì)胞的活性,將瞬時(shí)放電頻率置為0。
在4 m×4 m的正方形測(cè)試環(huán)境中,智能體通過(guò)多次訓(xùn)練學(xué)習(xí),能夠在陌生環(huán)境中迅速找到目標(biāo)位置,并且實(shí)現(xiàn)從起始位置到目標(biāo)位置的局部導(dǎo)航任務(wù)。圖6所示為智能體在測(cè)試環(huán)境中不同訓(xùn)練次數(shù)下的目標(biāo)導(dǎo)航軌跡,圖6(a)~(f)分別為1次、4次、8次、12次、16次及20次實(shí)驗(yàn)的智能體路徑圖,圖7所示為對(duì)應(yīng)的動(dòng)作細(xì)胞導(dǎo)航策略圖,圖8所示為對(duì)應(yīng)的位置細(xì)胞前饋突觸平均權(quán)重圖。在前12輪實(shí)驗(yàn)中,智能體由于初步進(jìn)入陌生環(huán)境,尚未遍歷整個(gè)環(huán)境,對(duì)于環(huán)境探索的隨機(jī)策略導(dǎo)致了運(yùn)動(dòng)軌跡的隨機(jī)性,同時(shí)運(yùn)動(dòng)策略和突觸平均權(quán)重較為混亂,難以實(shí)現(xiàn)準(zhǔn)確穩(wěn)定的目標(biāo)導(dǎo)航。在約12次訓(xùn)練后,智能體已經(jīng)完成了隱藏目標(biāo)點(diǎn)的探索過(guò)程,在面對(duì)環(huán)境中心的障礙物時(shí),智能體運(yùn)動(dòng)策略已經(jīng)顯示出避讓趨勢(shì),且障礙附近和遠(yuǎn)離最優(yōu)路徑的突觸權(quán)值逐漸降低,此后實(shí)驗(yàn)中智能體具有了面向目標(biāo)導(dǎo)航的能力。在第20次實(shí)驗(yàn)時(shí),智能體已經(jīng)實(shí)現(xiàn)了在障礙環(huán)境中的無(wú)碰撞面向目標(biāo)導(dǎo)航任務(wù)。
圖7 運(yùn)動(dòng)策略Fig.7 Behavioral strategy
圖8 位置細(xì)胞前饋平均權(quán)重Fig.8 Average weight of place-cell feed-forward synapses
根據(jù)實(shí)驗(yàn)結(jié)果可以看出,經(jīng)過(guò)約12次訓(xùn)練之后,在沒(méi)有外在路標(biāo)參考情況下,智能體已經(jīng)初步具備向目標(biāo)點(diǎn)移動(dòng)的目標(biāo)導(dǎo)航能力,且靠近目標(biāo)位置的前饋突觸權(quán)值持續(xù)得到強(qiáng)化,表明智能體位置細(xì)胞-動(dòng)作細(xì)胞模型已經(jīng)記憶了障礙物和目標(biāo)點(diǎn)位置,智能體在路徑規(guī)劃中動(dòng)作細(xì)胞選擇模型動(dòng)作規(guī)劃能力不斷提高。經(jīng)過(guò)20次左右的訓(xùn)練,智能體已經(jīng)學(xué)會(huì)從起點(diǎn)以無(wú)碰撞路徑實(shí)現(xiàn)面向目標(biāo)的穩(wěn)定避障導(dǎo)航。
為進(jìn)一步驗(yàn)證本文提出的基于STDP學(xué)習(xí)規(guī)則的目標(biāo)導(dǎo)航方法的有效性和收斂性能,在相同的單障礙實(shí)驗(yàn)環(huán)境中,采用目標(biāo)導(dǎo)航算法中經(jīng)典強(qiáng)化學(xué)習(xí)方法Q-learning算法對(duì)智能體進(jìn)行路徑尋優(yōu)實(shí)驗(yàn)。對(duì)傳統(tǒng)Q-learning模型和STDP模型分別進(jìn)行10次80輪實(shí)驗(yàn),再求取平均規(guī)劃路徑長(zhǎng)度和平均規(guī)劃用時(shí),其中平均規(guī)劃路徑長(zhǎng)度40輪實(shí)驗(yàn)后均收斂,故截取前40輪實(shí)驗(yàn)結(jié)果。仿真實(shí)驗(yàn)結(jié)果如圖9和圖10所示。在更新地圖動(dòng)作細(xì)胞過(guò)程中,由于需要重復(fù)遍歷整體陌生環(huán)境,采用STDP模型的智能體在初始路徑規(guī)劃長(zhǎng)度上明顯大于傳統(tǒng)Q-learn-ing方法。而且,在后續(xù)得到目標(biāo)點(diǎn)獎(jiǎng)勵(lì)后,通過(guò)STDP學(xué)習(xí)規(guī)則和資格跡延遲獎(jiǎng)勵(lì),能夠有效加速規(guī)劃路徑長(zhǎng)度收斂,平均規(guī)劃路徑長(zhǎng)度縮短了15.9%,并且在算法規(guī)劃時(shí)間上,STDP模型對(duì)比傳統(tǒng)Q-learning方法具有明顯的優(yōu)勢(shì)。
圖9 平均規(guī)劃路徑長(zhǎng)度對(duì)比Fig.9 Comparison of average path-planning length
圖10 平均規(guī)劃用時(shí)對(duì)比Fig.10 Comparison of average path-planning time
為了研究STDP模型在復(fù)雜環(huán)境中的導(dǎo)航能力和環(huán)境適應(yīng)性,通過(guò)迷宮仿真環(huán)境進(jìn)行該問(wèn)題的探索驗(yàn)證。模擬仿真環(huán)境如圖11(a)迷宮環(huán)境所示,智能體從環(huán)境下方起點(diǎn)開(kāi)始,且能夠在迷宮中自由探索。本實(shí)驗(yàn)在目標(biāo)附近設(shè)置了黑色U 形障礙,在智能體對(duì)環(huán)境的逐步探索過(guò)程中,獲取環(huán)境反饋獎(jiǎng)勵(lì)信號(hào),至智能體到達(dá)未知目標(biāo)點(diǎn)或者最大探索時(shí)間結(jié)束時(shí),采用第2章中STDP權(quán)重更新方法優(yōu)化突觸權(quán)值,多次訓(xùn)練后,智能體能夠以較優(yōu)路徑到達(dá)未知目標(biāo)點(diǎn)。圖11(b)迷宮規(guī)劃軌跡使用不同顏色表示了智能體從實(shí)驗(yàn)次數(shù)1~75的運(yùn)行軌跡,仿真初始階段(藍(lán)線部分)學(xué)習(xí)如何避開(kāi)墻壁和障礙物,當(dāng)?shù)竭_(dá)一次目標(biāo)之后,后面的軌跡則會(huì)重復(fù)學(xué)習(xí)獎(jiǎng)勵(lì)高的軌跡,后續(xù)階段(紅色部分)表示智能體已學(xué)到的軌跡可以適應(yīng)面向目標(biāo)的迷宮環(huán)境導(dǎo)航。
(a) 迷宮環(huán)境
(b) 迷宮規(guī)劃軌跡
(c) 迷宮運(yùn)動(dòng)策略圖11 迷宮環(huán)境類腦目標(biāo)導(dǎo)航實(shí)驗(yàn)Fig.11 Brain-inspired target navigation experiment in maze
通過(guò)智能體中位置細(xì)胞到動(dòng)作細(xì)胞的前饋連接權(quán)重大小,可以深入了解在導(dǎo)航過(guò)程中學(xué)習(xí)到的權(quán)重分布,導(dǎo)航運(yùn)動(dòng)策略如圖11(c) 所示。圖中以不同顏色對(duì)智能體的權(quán)重強(qiáng)度進(jìn)行區(qū)分,藍(lán)色表示強(qiáng)度最低,紅色表示強(qiáng)度最高。在迷宮環(huán)境下的實(shí)驗(yàn)可以看出,智能體經(jīng)過(guò)對(duì)環(huán)境的任意探索,40次實(shí)驗(yàn)之后已經(jīng)學(xué)習(xí)到面向目標(biāo)導(dǎo)航的趨勢(shì),并學(xué)習(xí)到了適應(yīng)U形迷宮的導(dǎo)航策略;在變更驗(yàn)證環(huán)境后,本文提出的STDP模型也能夠適應(yīng)多種障礙環(huán)境下的面向目標(biāo)導(dǎo)航任務(wù),初步具備多環(huán)境下的泛化導(dǎo)航能力。
本文針對(duì)無(wú)先驗(yàn)知識(shí)空間中面向目標(biāo)導(dǎo)航問(wèn)題,主要工作如下:
1)根據(jù)動(dòng)物導(dǎo)航過(guò)程生理學(xué)依據(jù),構(gòu)建了基于脈沖神經(jīng)網(wǎng)絡(luò)的海馬體位置細(xì)胞和前額葉皮層動(dòng)作細(xì)胞的特征表示模型,提出了一種基于STDP學(xué)習(xí)規(guī)則的面向目標(biāo)類腦導(dǎo)航方法。
2)仿真實(shí)驗(yàn)表明,該模型能夠有效地學(xué)習(xí)連續(xù)空間中面向目標(biāo)位置的導(dǎo)航策略,實(shí)現(xiàn)障礙環(huán)境中穩(wěn)定的學(xué)習(xí)和導(dǎo)航活動(dòng)。本文所提出的類腦導(dǎo)航模型在單障礙環(huán)境中算法收斂性能優(yōu)于傳統(tǒng)Q-learning方法,平均路徑規(guī)劃長(zhǎng)度縮短了15.9%,平均路徑規(guī)劃用時(shí)為30 ms,具有明顯優(yōu)勢(shì)。迷宮環(huán)境中,本文模型在40次實(shí)驗(yàn)后也能適應(yīng)面向目標(biāo)導(dǎo)航任務(wù),對(duì)進(jìn)一步發(fā)展未知環(huán)境下智能體面向目標(biāo)導(dǎo)航方法具有較好的參考意義。