亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于STDP獎(jiǎng)勵(lì)調(diào)節(jié)的類腦面向目標(biāo)導(dǎo)航

        2023-04-24 02:30:36戴嘉偉晁麗君
        導(dǎo)航定位與授時(shí) 2023年2期
        關(guān)鍵詞:權(quán)值神經(jīng)元動(dòng)作

        戴嘉偉,熊 智,晁麗君,楊 闖

        (南京航空航天大學(xué)自動(dòng)化學(xué)院導(dǎo)航研究中心,南京 211106)

        0 引言

        面向目標(biāo)導(dǎo)航是智能體自主執(zhí)行任務(wù)(如自主偵察與救援)的前提和基礎(chǔ)。隨著人工智能的迅猛發(fā)展,在自然或人為災(zāi)害后的惡劣環(huán)境中,智能體能夠代替人類最大限度地降低目標(biāo)搜尋等任務(wù)難度,并提高任務(wù)效率。由于智能體工作逐漸面向非結(jié)構(gòu)化和未知環(huán)境,如何快速準(zhǔn)確地搜索出一條由初始狀態(tài)到目標(biāo)狀態(tài)的安全路徑成為當(dāng)前智能體規(guī)劃的技術(shù)難點(diǎn),即面向目標(biāo)導(dǎo)航問(wèn)題。

        1970年左右,研究人員就已經(jīng)開(kāi)始了對(duì)智能體面向目標(biāo)導(dǎo)航算法的研究[1]。傳統(tǒng)方法中,文獻(xiàn)[2]采用快速擴(kuò)展隨機(jī)樹(shù)(rapidly-exploring random tree,RRT)算法,對(duì)規(guī)劃航路點(diǎn)進(jìn)行無(wú)人機(jī)飛行動(dòng)力學(xué)約束和局部航路動(dòng)態(tài)規(guī)劃。RRT算法[3-4]無(wú)需對(duì)規(guī)劃空間進(jìn)行預(yù)先處理且概率完備,但在節(jié)點(diǎn)拓展時(shí)盲目性和隨機(jī)性大,缺乏較強(qiáng)的目的導(dǎo)向性。智能啟發(fā)式方法[5-6]是受自然規(guī)律啟迪而模仿出的算法,具備一定的自我學(xué)習(xí)、自我更新和記憶能力。文獻(xiàn)[7]采用自適應(yīng)學(xué)習(xí)粒子群算法,提出了一種基于協(xié)同進(jìn)化的粒子群算法以解決機(jī)器人路徑規(guī)劃問(wèn)題,更好地調(diào)整全局和局部搜索能力,解決了粒子群優(yōu)化的停滯問(wèn)題,但啟發(fā)式算法[8]在未知環(huán)境下往往會(huì)陷入局部最小問(wèn)題。除了傳統(tǒng)和啟發(fā)式方法之外,基于強(qiáng)化學(xué)習(xí)的規(guī)劃算法如時(shí)間差分模型等也被廣泛應(yīng)用于各種自治系統(tǒng)的路徑規(guī)劃[9],但在連續(xù)狀態(tài)空間中智能體會(huì)陷入維數(shù)災(zāi)難,收斂緩慢。此外,近年來(lái)基于深度強(qiáng)化學(xué)習(xí)的智能體導(dǎo)航方法解決了復(fù)雜目標(biāo)任務(wù)難以建模的問(wèn)題。文獻(xiàn)[10]提出了一種基于優(yōu)化深度Q網(wǎng)絡(luò)(deep Q-network, DQN)算法的全局路徑規(guī)劃模型,解決了傳統(tǒng)方法中路徑冗余問(wèn)題,但現(xiàn)實(shí)環(huán)境和模擬環(huán)境的差異性導(dǎo)致智能體可移植性差、計(jì)算量大,且訓(xùn)練過(guò)程復(fù)雜困難。這類基于傳統(tǒng)馮諾依曼計(jì)算結(jié)構(gòu)的規(guī)劃方法在面對(duì)復(fù)雜目標(biāo)導(dǎo)航問(wèn)題時(shí)具備離散狀態(tài)下的有效處理能力,但是其龐大的計(jì)算量導(dǎo)致計(jì)算效率低下及訓(xùn)練困難的問(wèn)題,同時(shí)缺少生理學(xué)結(jié)構(gòu)的研究,不具備生理學(xué)可解釋性,因而需要探索發(fā)展基于新型計(jì)算模型的,能適應(yīng)非結(jié)構(gòu)化、未知環(huán)境的面向目標(biāo)導(dǎo)航方式。

        為解決現(xiàn)有面向目標(biāo)導(dǎo)航方法存在的問(wèn)題,本文提出了一種基于脈沖神經(jīng)網(wǎng)絡(luò)的智能體類腦面向目標(biāo)導(dǎo)航方法。根據(jù)生物大腦海馬體(hippocampus,HC)和腹側(cè)被蓋區(qū)(ventral tegmental area,VTA)到前額葉皮層(prefrontal cortex,PFC)中動(dòng)作細(xì)胞(action cell, AC)調(diào)節(jié)現(xiàn)象,采用基于脈沖響應(yīng)模型的脈沖時(shí)間依賴可塑性(spike-timing-depen-dent plasticity,STDP)學(xué)習(xí)規(guī)則,構(gòu)建了前額葉皮層環(huán)狀動(dòng)作細(xì)胞的脈沖神經(jīng)網(wǎng)絡(luò)模型,利用動(dòng)作細(xì)胞群脈沖放電現(xiàn)象表征智能體的運(yùn)動(dòng)方向和速度。本文所提模型能夠同時(shí)記憶陌生環(huán)境中的障礙物和目標(biāo)位置,通過(guò)動(dòng)作細(xì)胞決策實(shí)現(xiàn)智能體的面向目標(biāo)類腦導(dǎo)航功能,同時(shí)具備對(duì)于多種陌生環(huán)境下的面向目標(biāo)導(dǎo)航能力,具有一定的模型泛化能力。

        1 動(dòng)物面向目標(biāo)導(dǎo)航機(jī)理

        生理學(xué)上的大腦導(dǎo)航關(guān)鍵區(qū)域結(jié)構(gòu)示意圖如圖1所示。1971年,J.O’Keefe等發(fā)現(xiàn)在海馬體中位置細(xì)胞(place cell, PC)存在著空間特定位置選擇性放電現(xiàn)象[11]。動(dòng)物在到達(dá)環(huán)境區(qū)域時(shí),位置細(xì)胞會(huì)記憶特定環(huán)境信息信標(biāo)點(diǎn),迅速生成并且形成穩(wěn)定的位置野[12-13],同時(shí)位置細(xì)胞群的放電活動(dòng)隨著動(dòng)物到達(dá)特定信標(biāo)點(diǎn)時(shí)顯著提高,進(jìn)而實(shí)現(xiàn)了對(duì)動(dòng)物當(dāng)前位置的編碼[14]能力。動(dòng)物導(dǎo)航以大腦海馬區(qū)中的大量位置細(xì)胞集群放電為基礎(chǔ),逐漸形成穩(wěn)定編碼空間環(huán)境認(rèn)知地圖[15]的位置野。但是單一海馬位置細(xì)胞對(duì)環(huán)境信息的表征能力并不能實(shí)現(xiàn)動(dòng)物導(dǎo)航過(guò)程中的行為決策,需要通過(guò)和前額葉皮層構(gòu)建特定的動(dòng)態(tài)突觸連接結(jié)構(gòu),形成大腦導(dǎo)航命令和控制中樞神經(jīng)網(wǎng)絡(luò)[16]。

        圖1 面向目標(biāo)導(dǎo)航關(guān)鍵腦區(qū)Fig.1 Key brain regions for target-driven navigation

        生物在環(huán)境探索過(guò)程中進(jìn)行目標(biāo)導(dǎo)航的流程如下:1)由視覺(jué)皮層或感覺(jué)皮層等接收處理環(huán)境狀態(tài)信息更新,向大腦腹側(cè)被蓋區(qū)傳遞環(huán)境獎(jiǎng)勵(lì)信號(hào);2)腹側(cè)被蓋區(qū)中的多巴胺能神經(jīng)元接收環(huán)境獎(jiǎng)勵(lì)信號(hào)生成獎(jiǎng)勵(lì)調(diào)節(jié)信息,海馬體位置細(xì)胞生成空間認(rèn)知信息實(shí)現(xiàn)位置信息編碼,兩者進(jìn)一步通過(guò)伏隔核(nucleus accumben,NA)神經(jīng)元形成前饋通路影響前額葉皮層動(dòng)作細(xì)胞;3)前額葉皮層動(dòng)作細(xì)胞激活依賴PC-AC前饋通路信號(hào)和AC橫向通路信號(hào),動(dòng)作細(xì)胞群集群放電影響丘腦(thalamus,Tha)確定生物運(yùn)動(dòng)方向;4)通過(guò)運(yùn)動(dòng)皮層確定運(yùn)動(dòng)輸出,更新智能體位置信息,最終完成面向目標(biāo)導(dǎo)航的過(guò)程。具體流程如圖2所示。

        圖2 生物導(dǎo)航行為模型Fig.2 Model of biological navigation behavior

        2 類腦目標(biāo)導(dǎo)航模型

        根據(jù)生物目標(biāo)導(dǎo)航行為模型,設(shè)計(jì)了如圖3所示的基于STDP獎(jiǎng)勵(lì)調(diào)節(jié)的類腦面向目標(biāo)導(dǎo)航算法流程,主要內(nèi)容為:1)構(gòu)建了海馬體位置細(xì)胞和前額葉皮層動(dòng)作細(xì)胞的脈沖神經(jīng)網(wǎng)絡(luò)模型,分別表征智能體位置空間和動(dòng)作空間信息;2)位置細(xì)胞采用前饋連接模型影響動(dòng)作細(xì)胞激活,動(dòng)作細(xì)胞群采用橫向競(jìng)爭(zhēng)模型輸出動(dòng)作細(xì)胞膜電位;3)根據(jù)動(dòng)作細(xì)胞放電率,設(shè)計(jì)了智能體動(dòng)作選擇函數(shù),同時(shí)基于脈沖神經(jīng)網(wǎng)絡(luò)權(quán)值更新方法,智能體接收到環(huán)境獎(jiǎng)勵(lì)調(diào)節(jié)信息后,采用STDP學(xué)習(xí)規(guī)則更新位置細(xì)胞到動(dòng)作細(xì)胞的前饋突觸權(quán)值。

        圖3 基于STDP獎(jiǎng)勵(lì)調(diào)節(jié)的目標(biāo)導(dǎo)航算法流程Fig.3 Workflow of brain-inspired target-driven navigation algorithm based on STDP reward modulation

        2.1 位置細(xì)胞建模

        當(dāng)生物處在空間特定的范圍內(nèi)時(shí),海馬體內(nèi)某些錐體細(xì)胞會(huì)出現(xiàn)最大頻率放電現(xiàn)象[17-18],而在其他位置則很少甚至沒(méi)有放電現(xiàn)象,則該細(xì)胞被稱作位置細(xì)胞,其放電現(xiàn)象所對(duì)應(yīng)的環(huán)境生物活動(dòng)范圍則被稱為該細(xì)胞的位置野。只要環(huán)境處于長(zhǎng)期穩(wěn)定狀態(tài),位置細(xì)胞的位置野在環(huán)境中的大小、形狀、分布以及最大放電頻率都可以維持較長(zhǎng)時(shí)間的平穩(wěn)狀態(tài),這一特性說(shuō)明了位置細(xì)胞的位置表征能力具有良好的穩(wěn)定性[19]。

        在面向目標(biāo)的導(dǎo)航任務(wù)需求下,根據(jù)大腦行為決策生理學(xué)依據(jù),位置細(xì)胞采用位置野信息密集編碼智能體所處的整體空間環(huán)境。假設(shè)智能體在t時(shí)刻的位置由笛卡爾坐標(biāo)系中的Pos(t)=(x(t),y(t))來(lái)表示,智能體當(dāng)前位置可由位置細(xì)胞群放電現(xiàn)象聯(lián)合編碼。假設(shè)在智能體所處空間環(huán)境中均勻分布著Npc=121個(gè)位置細(xì)胞,位置細(xì)胞的位置野半徑為σ=0.4 m,位置細(xì)胞的放電率ri可建模為一個(gè)非齊次泊松過(guò)程

        ri(Pos(t))=

        (1)

        位置細(xì)胞放電率ri由智能體當(dāng)前位置(x,y)到位置細(xì)胞中心(xi,yi)的函數(shù)關(guān)系來(lái)表征,當(dāng)智能體恰好位于位置野中心(xi,yi)時(shí),位置細(xì)胞放電率最大,通過(guò)這種集群放電編碼方式,位置細(xì)胞即可表征整個(gè)空間環(huán)境。為了保證在保持導(dǎo)航精度的同時(shí)縮短計(jì)算時(shí)間,令λ=400 Hz,位置細(xì)胞的放電率會(huì)處在較高水平,并且放電率隨著相對(duì)距離的增大而逐漸減小。

        由于位置細(xì)胞建模為泊松神經(jīng)元,則瞬時(shí)放電率為ri的位置細(xì)胞在t1~t2時(shí)間段內(nèi)產(chǎn)生n個(gè)脈沖序列的概率為

        (2)

        2.2 動(dòng)作細(xì)胞建模

        如圖4所示,位置細(xì)胞作為類腦面向目標(biāo)導(dǎo)航系統(tǒng)的輸入,通過(guò)加權(quán)系數(shù)wff投射到所有動(dòng)作細(xì)胞。這些前饋加權(quán)系數(shù)初始化為win,并且在最大權(quán)值wmax和最小權(quán)值wmin之間有界,這樣使得興奮性刺激和抑制性刺激均能通過(guò)位置細(xì)胞對(duì)動(dòng)作細(xì)胞產(chǎn)生影響,同時(shí)動(dòng)作細(xì)胞之間通過(guò)橫向權(quán)重wlc互相連接。根據(jù)神經(jīng)科學(xué)理論,神經(jīng)元在放電之后的短暫時(shí)間內(nèi)存在不應(yīng)期,即對(duì)輸入信號(hào)不響應(yīng)。為了在脈沖序列中模擬這個(gè)過(guò)程,在神經(jīng)元放電之后的不應(yīng)期內(nèi),將瞬時(shí)放電頻率置為0。在不應(yīng)期結(jié)束之后,瞬時(shí)放電頻率在限定時(shí)間內(nèi)逐漸回到原始值。t時(shí)刻動(dòng)作細(xì)胞j的膜電位為

        圖4 位置細(xì)胞-動(dòng)作細(xì)胞模型Fig.4 Model of place cells to action cells

        (3)

        (4)

        動(dòng)作細(xì)胞脈沖響應(yīng)處于隨機(jī)狀態(tài),動(dòng)作細(xì)胞放電率遵循依賴于動(dòng)作細(xì)胞j膜電位的非齊次泊松過(guò)程

        (5)

        定義動(dòng)作細(xì)胞j和k之間的橫向連通權(quán)重為

        (6)

        f(j,k)=(1-δjk)eφcos(θj-θk)

        (7)

        式中,θj=2jπ/Nac,Nac=40為動(dòng)作細(xì)胞個(gè)數(shù);Z為歸一化因子;w-=-300;w+=100;f(j,k)為動(dòng)作細(xì)胞(j,k)間橫向連接函數(shù)。橫向連接函數(shù)隨動(dòng)作選擇方向相似度單調(diào)遞增,δ為狄拉克函數(shù),φ=20為放電率調(diào)節(jié)因子。因此,當(dāng)存在神經(jīng)元同時(shí)處于相似的放電頻率時(shí),動(dòng)作細(xì)胞神經(jīng)元會(huì)處于興奮性刺激連接狀態(tài),否則處于相互抑制性狀態(tài),這保證了任意時(shí)間只會(huì)存在部分具有相似放電活動(dòng)的動(dòng)作細(xì)胞處于活躍狀態(tài),使得整體運(yùn)動(dòng)軌跡平滑且連續(xù)。

        2.3 基于STDP獎(jiǎng)勵(lì)調(diào)節(jié)的面向目標(biāo)類腦導(dǎo)航

        2.3.1 面向目標(biāo)類腦導(dǎo)航模型

        在實(shí)驗(yàn)環(huán)境中,智能體位置信息由位置細(xì)胞編碼,而智能體運(yùn)動(dòng)方向和速度決策由動(dòng)作細(xì)胞決定。當(dāng)遇到障礙物,環(huán)境邊界或目標(biāo)點(diǎn)獲得獎(jiǎng)勵(lì)信號(hào)時(shí),智能體通過(guò)STDP獎(jiǎng)勵(lì)調(diào)節(jié)規(guī)則調(diào)節(jié)位置細(xì)胞和動(dòng)作細(xì)胞之間的前饋連接突觸權(quán)重。動(dòng)作細(xì)胞之間通過(guò)橫向連接互相影響,當(dāng)動(dòng)作細(xì)胞神經(jīng)元存在相似放電現(xiàn)象時(shí),動(dòng)作細(xì)胞神經(jīng)元會(huì)處于興奮性狀態(tài),否則處于抑制性狀態(tài)。因此,智能體運(yùn)動(dòng)決策依賴于動(dòng)作細(xì)胞,而動(dòng)作細(xì)胞的激活依賴于位置細(xì)胞的前饋連接和動(dòng)作細(xì)胞間的橫向連接。

        動(dòng)作空間由脈沖神經(jīng)網(wǎng)絡(luò)建模的動(dòng)作細(xì)胞表示。不同的動(dòng)作細(xì)胞分別表示不同的運(yùn)動(dòng)方向,通過(guò)橫向連接確保細(xì)胞間互相競(jìng)爭(zhēng),實(shí)現(xiàn)勝者為王的局面。來(lái)自位置細(xì)胞前饋連接和來(lái)自動(dòng)作細(xì)胞橫向的競(jìng)爭(zhēng)連接共同作用,經(jīng)式(3)輸出動(dòng)作細(xì)胞膜電位,聯(lián)合決定動(dòng)作細(xì)胞脈沖響應(yīng),最后由脈沖響應(yīng)動(dòng)作細(xì)胞放電率決定每個(gè)時(shí)刻前進(jìn)的速度和方向。智能體的運(yùn)動(dòng)由動(dòng)作細(xì)胞決定,設(shè)速度參數(shù)a0=0.1 m,采用動(dòng)作細(xì)胞神經(jīng)元aj表示笛卡爾平面上不同的前進(jìn)策略

        aj=a0(sin(θj), cos(θj))

        (8)

        智能體的動(dòng)作選擇過(guò)程根據(jù)動(dòng)作細(xì)胞神經(jīng)元放電率,由濾波脈沖序列Yj和核函數(shù)γ決定

        (9)

        (10)

        在連續(xù)運(yùn)動(dòng)情況下,需要?jiǎng)幼骷?xì)胞在每個(gè)時(shí)刻t都即時(shí)輸出動(dòng)作選擇。每個(gè)動(dòng)作細(xì)胞j表示了方向aj,t時(shí)刻前額葉皮層動(dòng)作選擇過(guò)程中的動(dòng)作細(xì)胞放電率為ρj(t),決定了最優(yōu)的前進(jìn)方向a(t),a(t)為所有動(dòng)作神經(jīng)元決策方向的加權(quán)均值,如式(12)所示

        ρj(t)=(Yj°γ)(t)

        (11)

        (12)

        式中,Nac為動(dòng)作細(xì)胞數(shù)量;°表示映射的乘積,即(Yj°γ)(t)=Yj(γ(t))。在動(dòng)作細(xì)胞數(shù)目足夠多的情況下,該動(dòng)作決策機(jī)制使得智能體具備了任意方向的連續(xù)移動(dòng)能力,同時(shí)提高了導(dǎo)航定位和動(dòng)作選擇的準(zhǔn)確性。當(dāng)動(dòng)作a(t)確定之后,智能體的位置信息根據(jù)式(13)進(jìn)行更新

        (13)

        智能體根據(jù)t時(shí)刻動(dòng)作選擇a(t)移動(dòng),當(dāng)?shù)竭_(dá)訓(xùn)練邊界時(shí),通過(guò)指向邊界內(nèi)部的單位向量u(x(t))與抗拒距離d=0.01 m轉(zhuǎn)至訓(xùn)練區(qū)域內(nèi)部。為避免較大的邊界效應(yīng),邊界上的位置細(xì)胞和指向邊界外的動(dòng)作細(xì)胞間的前饋連接權(quán)重設(shè)置為0。

        2.3.2 基于STDP獎(jiǎng)勵(lì)調(diào)節(jié)的突觸權(quán)值更新方法

        興奮性和抑制性突觸的權(quán)值變化效率受到多種可塑性機(jī)制的影響,其中STDP建立在神經(jīng)元脈沖模式的相關(guān)性基礎(chǔ)上,是赫布可塑性的一種形式。STDP的確切形式會(huì)因?yàn)椴煌愋偷耐挥|形式而不同。在其最常見(jiàn)的形式中,突觸時(shí)間依賴的可塑性表明,突觸前脈沖發(fā)生后不久突觸后脈沖就發(fā)生(前-后模式,pre-post)會(huì)導(dǎo)致突觸權(quán)值的增加,即突觸的長(zhǎng)期增強(qiáng)(long-term potentiation,LTP),突觸權(quán)重的增加隨著兩次脈沖時(shí)間的不同呈指數(shù)衰減;反之,當(dāng)突觸前脈沖發(fā)生在突觸后脈沖之后(后-前模式,post-pre)會(huì)導(dǎo)致神經(jīng)元間突觸經(jīng)歷一個(gè)長(zhǎng)期抑制(long-term depression,LTD)。現(xiàn)在人們普遍認(rèn)為,記憶和學(xué)習(xí)與STDP密切相關(guān)[20-21]。在數(shù)學(xué)上,突觸強(qiáng)度的變化可以表示為

        (14)

        本文的學(xué)習(xí)模型考慮了突觸前和突觸后神經(jīng)元之間的多個(gè)脈沖相互作用。在非對(duì)稱形式學(xué)習(xí)規(guī)則中,STDP函數(shù)由式(15)中函數(shù)定義

        (15)

        如果Δt>0,即權(quán)值變化為正,則認(rèn)為發(fā)生了突觸的長(zhǎng)期增強(qiáng);另一方面,如果Δt<0,即發(fā)生了突觸的長(zhǎng)期抑制,那么突觸權(quán)重減小。A+和A-分別是定義LTP和LTD窗口大小的標(biāo)度常數(shù),τ+和τ-定義了2個(gè)窗口的衰減率,其中A+=0.1,A-=-0.15,τ+=τ-=20 ms。

        STDP規(guī)則中,突觸的強(qiáng)度和突觸后脈沖的概率之間存在線性關(guān)系:權(quán)重越大,下一個(gè)神經(jīng)元就越有可能發(fā)生放電現(xiàn)象。因此,一旦突觸增強(qiáng),其后續(xù)增強(qiáng)的機(jī)會(huì)就會(huì)增加。然而,在生物學(xué)中,突觸權(quán)重不能任意增大。因此,本文將興奮性突觸的大小限制在0~3 mV之間,抑制性突觸的大小限制在0~1 mV之間。對(duì)于獎(jiǎng)勵(lì)調(diào)節(jié)STDP模型,在突觸ji上從神經(jīng)元i到神經(jīng)元j的權(quán)值變化wji可以寫(xiě)成

        Δwji(t)=eji(t)d(t)

        (16)

        式中,eji表示t時(shí)刻從神經(jīng)元i到神經(jīng)元j的資格跡;d(t)為獎(jiǎng)賞函數(shù)。資格跡函數(shù)由以下函數(shù)給出

        (17)

        式中,stdp(tpost-tpre)為根據(jù)STDP學(xué)習(xí)規(guī)則變化的突觸權(quán)值;τc=10 ms是表征資格跡衰減率的時(shí)間常數(shù)。

        在獲得獎(jiǎng)勵(lì)后,多巴胺(dopamine,DA)獎(jiǎng)勵(lì)函數(shù)d(t)會(huì)隨著時(shí)間的推移而增加,然后呈指數(shù)衰減到基礎(chǔ)水平

        (18)

        (19)

        式中,DA(t)為多巴胺濃度(M);τd=0.2 s為DA時(shí)間常數(shù),確保突觸權(quán)重不會(huì)發(fā)生劇烈的跳變。圖5所示為本文資格跡追蹤影響下的突觸強(qiáng)度變化示意圖,pre-post脈沖對(duì)產(chǎn)生了興奮性刺激下的資格跡響應(yīng),并且在此期間使得受到多巴胺激勵(lì)的突觸強(qiáng)度增強(qiáng)。

        圖5 突觸權(quán)值受資格跡影響示意圖Fig.5 Model of synaptic weights affected by the eligibility trace

        3 仿真實(shí)驗(yàn)及結(jié)果分析

        為驗(yàn)證本文所提智能體類腦面向目標(biāo)導(dǎo)航算法的有效性,設(shè)計(jì)圖6所示單障礙4 m×4 m的正方形實(shí)驗(yàn)環(huán)境,進(jìn)行目標(biāo)導(dǎo)航實(shí)驗(yàn)驗(yàn)證,實(shí)時(shí)記錄并保存實(shí)驗(yàn)中動(dòng)作細(xì)胞放電率和突觸權(quán)重等相關(guān)參數(shù)。智能體的起點(diǎn)固定為環(huán)境邊界左下角(0,0),圓形目標(biāo)點(diǎn)半徑為0.25 m,正方形障礙物邊長(zhǎng)為0.5 m。在智能體對(duì)環(huán)境的逐步探索過(guò)程中,獲取環(huán)境反饋獎(jiǎng)勵(lì)信號(hào),至智能體到達(dá)未知目標(biāo)點(diǎn)或者最大探索時(shí)間結(jié)束時(shí),采用第2章中STDP權(quán)重更新方法優(yōu)化突觸權(quán)值。多次訓(xùn)練后,智能體能夠以較優(yōu)路徑到達(dá)未知目標(biāo)點(diǎn)。

        (a) 1次實(shí)驗(yàn)

        (b) 4次實(shí)驗(yàn)

        (c) 8次實(shí)驗(yàn)

        (d) 12次實(shí)驗(yàn)

        (e) 16次實(shí)驗(yàn)

        (f) 20次實(shí)驗(yàn)圖6 避障條件下的目標(biāo)導(dǎo)航軌跡Fig.6 Target navigation trajectory in obstacle conditions

        當(dāng)訓(xùn)練開(kāi)始時(shí),智能體初始化前饋突觸和橫向突觸權(quán)重,并采用隨機(jī)策略對(duì)環(huán)境進(jìn)行探索,同時(shí)學(xué)習(xí)從起點(diǎn)到未知目標(biāo)點(diǎn)的導(dǎo)航方式。實(shí)驗(yàn)中將單次探索最大時(shí)間Tmax設(shè)置為50 s,智能體可以在Tmax的最大持續(xù)時(shí)間內(nèi)自由探索環(huán)境,如果在單次探索最大時(shí)間內(nèi)發(fā)現(xiàn)未知目標(biāo)并獲得獎(jiǎng)勵(lì),則一次探索提前終止,同時(shí)進(jìn)入神經(jīng)不應(yīng)期,300 ms后重新開(kāi)始新一輪探索。為了在脈沖序列中模擬這個(gè)過(guò)程,在神經(jīng)元放電之后的不應(yīng)期內(nèi),通過(guò)抑制所有位置細(xì)胞的活性,將瞬時(shí)放電頻率置為0。

        在4 m×4 m的正方形測(cè)試環(huán)境中,智能體通過(guò)多次訓(xùn)練學(xué)習(xí),能夠在陌生環(huán)境中迅速找到目標(biāo)位置,并且實(shí)現(xiàn)從起始位置到目標(biāo)位置的局部導(dǎo)航任務(wù)。圖6所示為智能體在測(cè)試環(huán)境中不同訓(xùn)練次數(shù)下的目標(biāo)導(dǎo)航軌跡,圖6(a)~(f)分別為1次、4次、8次、12次、16次及20次實(shí)驗(yàn)的智能體路徑圖,圖7所示為對(duì)應(yīng)的動(dòng)作細(xì)胞導(dǎo)航策略圖,圖8所示為對(duì)應(yīng)的位置細(xì)胞前饋突觸平均權(quán)重圖。在前12輪實(shí)驗(yàn)中,智能體由于初步進(jìn)入陌生環(huán)境,尚未遍歷整個(gè)環(huán)境,對(duì)于環(huán)境探索的隨機(jī)策略導(dǎo)致了運(yùn)動(dòng)軌跡的隨機(jī)性,同時(shí)運(yùn)動(dòng)策略和突觸平均權(quán)重較為混亂,難以實(shí)現(xiàn)準(zhǔn)確穩(wěn)定的目標(biāo)導(dǎo)航。在約12次訓(xùn)練后,智能體已經(jīng)完成了隱藏目標(biāo)點(diǎn)的探索過(guò)程,在面對(duì)環(huán)境中心的障礙物時(shí),智能體運(yùn)動(dòng)策略已經(jīng)顯示出避讓趨勢(shì),且障礙附近和遠(yuǎn)離最優(yōu)路徑的突觸權(quán)值逐漸降低,此后實(shí)驗(yàn)中智能體具有了面向目標(biāo)導(dǎo)航的能力。在第20次實(shí)驗(yàn)時(shí),智能體已經(jīng)實(shí)現(xiàn)了在障礙環(huán)境中的無(wú)碰撞面向目標(biāo)導(dǎo)航任務(wù)。

        圖7 運(yùn)動(dòng)策略Fig.7 Behavioral strategy

        圖8 位置細(xì)胞前饋平均權(quán)重Fig.8 Average weight of place-cell feed-forward synapses

        根據(jù)實(shí)驗(yàn)結(jié)果可以看出,經(jīng)過(guò)約12次訓(xùn)練之后,在沒(méi)有外在路標(biāo)參考情況下,智能體已經(jīng)初步具備向目標(biāo)點(diǎn)移動(dòng)的目標(biāo)導(dǎo)航能力,且靠近目標(biāo)位置的前饋突觸權(quán)值持續(xù)得到強(qiáng)化,表明智能體位置細(xì)胞-動(dòng)作細(xì)胞模型已經(jīng)記憶了障礙物和目標(biāo)點(diǎn)位置,智能體在路徑規(guī)劃中動(dòng)作細(xì)胞選擇模型動(dòng)作規(guī)劃能力不斷提高。經(jīng)過(guò)20次左右的訓(xùn)練,智能體已經(jīng)學(xué)會(huì)從起點(diǎn)以無(wú)碰撞路徑實(shí)現(xiàn)面向目標(biāo)的穩(wěn)定避障導(dǎo)航。

        為進(jìn)一步驗(yàn)證本文提出的基于STDP學(xué)習(xí)規(guī)則的目標(biāo)導(dǎo)航方法的有效性和收斂性能,在相同的單障礙實(shí)驗(yàn)環(huán)境中,采用目標(biāo)導(dǎo)航算法中經(jīng)典強(qiáng)化學(xué)習(xí)方法Q-learning算法對(duì)智能體進(jìn)行路徑尋優(yōu)實(shí)驗(yàn)。對(duì)傳統(tǒng)Q-learning模型和STDP模型分別進(jìn)行10次80輪實(shí)驗(yàn),再求取平均規(guī)劃路徑長(zhǎng)度和平均規(guī)劃用時(shí),其中平均規(guī)劃路徑長(zhǎng)度40輪實(shí)驗(yàn)后均收斂,故截取前40輪實(shí)驗(yàn)結(jié)果。仿真實(shí)驗(yàn)結(jié)果如圖9和圖10所示。在更新地圖動(dòng)作細(xì)胞過(guò)程中,由于需要重復(fù)遍歷整體陌生環(huán)境,采用STDP模型的智能體在初始路徑規(guī)劃長(zhǎng)度上明顯大于傳統(tǒng)Q-learn-ing方法。而且,在后續(xù)得到目標(biāo)點(diǎn)獎(jiǎng)勵(lì)后,通過(guò)STDP學(xué)習(xí)規(guī)則和資格跡延遲獎(jiǎng)勵(lì),能夠有效加速規(guī)劃路徑長(zhǎng)度收斂,平均規(guī)劃路徑長(zhǎng)度縮短了15.9%,并且在算法規(guī)劃時(shí)間上,STDP模型對(duì)比傳統(tǒng)Q-learning方法具有明顯的優(yōu)勢(shì)。

        圖9 平均規(guī)劃路徑長(zhǎng)度對(duì)比Fig.9 Comparison of average path-planning length

        圖10 平均規(guī)劃用時(shí)對(duì)比Fig.10 Comparison of average path-planning time

        為了研究STDP模型在復(fù)雜環(huán)境中的導(dǎo)航能力和環(huán)境適應(yīng)性,通過(guò)迷宮仿真環(huán)境進(jìn)行該問(wèn)題的探索驗(yàn)證。模擬仿真環(huán)境如圖11(a)迷宮環(huán)境所示,智能體從環(huán)境下方起點(diǎn)開(kāi)始,且能夠在迷宮中自由探索。本實(shí)驗(yàn)在目標(biāo)附近設(shè)置了黑色U 形障礙,在智能體對(duì)環(huán)境的逐步探索過(guò)程中,獲取環(huán)境反饋獎(jiǎng)勵(lì)信號(hào),至智能體到達(dá)未知目標(biāo)點(diǎn)或者最大探索時(shí)間結(jié)束時(shí),采用第2章中STDP權(quán)重更新方法優(yōu)化突觸權(quán)值,多次訓(xùn)練后,智能體能夠以較優(yōu)路徑到達(dá)未知目標(biāo)點(diǎn)。圖11(b)迷宮規(guī)劃軌跡使用不同顏色表示了智能體從實(shí)驗(yàn)次數(shù)1~75的運(yùn)行軌跡,仿真初始階段(藍(lán)線部分)學(xué)習(xí)如何避開(kāi)墻壁和障礙物,當(dāng)?shù)竭_(dá)一次目標(biāo)之后,后面的軌跡則會(huì)重復(fù)學(xué)習(xí)獎(jiǎng)勵(lì)高的軌跡,后續(xù)階段(紅色部分)表示智能體已學(xué)到的軌跡可以適應(yīng)面向目標(biāo)的迷宮環(huán)境導(dǎo)航。

        (a) 迷宮環(huán)境

        (b) 迷宮規(guī)劃軌跡

        (c) 迷宮運(yùn)動(dòng)策略圖11 迷宮環(huán)境類腦目標(biāo)導(dǎo)航實(shí)驗(yàn)Fig.11 Brain-inspired target navigation experiment in maze

        通過(guò)智能體中位置細(xì)胞到動(dòng)作細(xì)胞的前饋連接權(quán)重大小,可以深入了解在導(dǎo)航過(guò)程中學(xué)習(xí)到的權(quán)重分布,導(dǎo)航運(yùn)動(dòng)策略如圖11(c) 所示。圖中以不同顏色對(duì)智能體的權(quán)重強(qiáng)度進(jìn)行區(qū)分,藍(lán)色表示強(qiáng)度最低,紅色表示強(qiáng)度最高。在迷宮環(huán)境下的實(shí)驗(yàn)可以看出,智能體經(jīng)過(guò)對(duì)環(huán)境的任意探索,40次實(shí)驗(yàn)之后已經(jīng)學(xué)習(xí)到面向目標(biāo)導(dǎo)航的趨勢(shì),并學(xué)習(xí)到了適應(yīng)U形迷宮的導(dǎo)航策略;在變更驗(yàn)證環(huán)境后,本文提出的STDP模型也能夠適應(yīng)多種障礙環(huán)境下的面向目標(biāo)導(dǎo)航任務(wù),初步具備多環(huán)境下的泛化導(dǎo)航能力。

        4 結(jié)論

        本文針對(duì)無(wú)先驗(yàn)知識(shí)空間中面向目標(biāo)導(dǎo)航問(wèn)題,主要工作如下:

        1)根據(jù)動(dòng)物導(dǎo)航過(guò)程生理學(xué)依據(jù),構(gòu)建了基于脈沖神經(jīng)網(wǎng)絡(luò)的海馬體位置細(xì)胞和前額葉皮層動(dòng)作細(xì)胞的特征表示模型,提出了一種基于STDP學(xué)習(xí)規(guī)則的面向目標(biāo)類腦導(dǎo)航方法。

        2)仿真實(shí)驗(yàn)表明,該模型能夠有效地學(xué)習(xí)連續(xù)空間中面向目標(biāo)位置的導(dǎo)航策略,實(shí)現(xiàn)障礙環(huán)境中穩(wěn)定的學(xué)習(xí)和導(dǎo)航活動(dòng)。本文所提出的類腦導(dǎo)航模型在單障礙環(huán)境中算法收斂性能優(yōu)于傳統(tǒng)Q-learning方法,平均路徑規(guī)劃長(zhǎng)度縮短了15.9%,平均路徑規(guī)劃用時(shí)為30 ms,具有明顯優(yōu)勢(shì)。迷宮環(huán)境中,本文模型在40次實(shí)驗(yàn)后也能適應(yīng)面向目標(biāo)導(dǎo)航任務(wù),對(duì)進(jìn)一步發(fā)展未知環(huán)境下智能體面向目標(biāo)導(dǎo)航方法具有較好的參考意義。

        猜你喜歡
        權(quán)值神經(jīng)元動(dòng)作
        一種融合時(shí)間權(quán)值和用戶行為序列的電影推薦模型
        《從光子到神經(jīng)元》書(shū)評(píng)
        自然雜志(2021年6期)2021-12-23 08:24:46
        CONTENTS
        躍動(dòng)的神經(jīng)元——波蘭Brain Embassy聯(lián)合辦公
        動(dòng)作描寫(xiě)要具體
        畫(huà)動(dòng)作
        基于權(quán)值動(dòng)量的RBM加速學(xué)習(xí)算法研究
        動(dòng)作描寫(xiě)不可少
        基于二次型單神經(jīng)元PID的MPPT控制
        非同一般的吃飯動(dòng)作
        久久久免费精品国产色夜| 国产精品亚洲成在人线| 色综合久久综合欧美综合图片| 国产AV高清精品久久| 久久99人妖视频国产| 国产欧美一区二区精品久久久 | 人人妻人人澡人人爽欧美精品 | 精品国产性色av网站| 中文字幕精品一区二区三区av| 尹人香蕉久久99天天拍| 国产人妻久久精品二区三区特黄| 日中文字幕在线| 白白白色视频在线观看播放| 国产亚洲成性色av人片在线观| 亚洲日韩一区二区三区| 国产一区二区牛影视| 亚洲中文字幕高清在线视频一区| 插插射啊爱视频日a级| 色哟哟网站在线观看| 亚洲成a人片在线观看导航| 久久久噜噜噜久久熟女| 无码熟妇人妻av在线影片最多| 一本大道久久香蕉成人网| 国产精品久久久久久久久久影院| 亚洲国产精品悠悠久久琪琪| 国模雨珍浓密毛大尺度150p| 中国精品久久精品三级| 国产肥熟女视频一区二区三区| 亚洲熟妇自偷自拍另类| 国产av无码专区亚洲awww| 久久精品国产亚洲一区二区| 亚洲丝袜美腿精品视频| 国产精品成人免费视频一区 | 99久久99久久久精品久久| av免费在线播放一区二区| 极品老师腿张开粉嫩小泬| 成人国产精品免费视频| 白白色发布永久免费观看视频| 国产伦一区二区三区色一情| 国产乱子伦农村叉叉叉| av中文字幕少妇人妻|