亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)Q學(xué)習(xí)算法的導(dǎo)航認(rèn)知圖構(gòu)建

        2020-07-01 07:26:42趙辰豪吳德偉
        關(guān)鍵詞:動(dòng)作模型

        趙辰豪, 吳德偉, 何 晶, 韓 昆, 來(lái) 磊

        (空軍工程大學(xué)信息與導(dǎo)航學(xué)院,西安,710077)

        實(shí)現(xiàn)運(yùn)行體的自主“無(wú)人化”運(yùn)行是研究人員不斷追求的目標(biāo),也是實(shí)現(xiàn)無(wú)人作戰(zhàn)系統(tǒng)的關(guān)鍵。運(yùn)行體的“無(wú)人化”離不開(kāi)自主導(dǎo)航技術(shù),實(shí)現(xiàn)自主導(dǎo)航的方法有很多,目前主要分為2類(lèi):基于人工系統(tǒng)模型的方法與基于自然系統(tǒng)模型的方法。基于人工模型的方法在較為簡(jiǎn)單的環(huán)境中,能夠一定程度上實(shí)現(xiàn)人工智能;當(dāng)環(huán)境變得復(fù)雜,人工模型將變得十分復(fù)雜,不能夠快速處理信息。而基于自然模型的方法主要通過(guò)模擬自然界中存在的智能系統(tǒng)模型。目前,經(jīng)過(guò)大量試驗(yàn)證明動(dòng)物大腦在認(rèn)知導(dǎo)航中起到不可替代的作用,其自身具有最完美、最有效的信息處理機(jī)制,這使得導(dǎo)航領(lǐng)域的研究者對(duì)大腦在導(dǎo)航方面的應(yīng)用產(chǎn)生了濃厚的興趣[1]。近些年,經(jīng)過(guò)大量驗(yàn)證與動(dòng)物導(dǎo)航相關(guān)的細(xì)胞有:位置細(xì)胞、網(wǎng)格細(xì)胞、頭朝向細(xì)胞、邊界細(xì)胞等。導(dǎo)航工作人員結(jié)合對(duì)大腦的研究成果提出了腦神經(jīng)科學(xué)啟發(fā)下的自主導(dǎo)航方法,該方法通過(guò)模擬大腦處理導(dǎo)航信息的機(jī)制,使得智能體呈現(xiàn)出一種具有探索、記憶、學(xué)習(xí)以及選擇等智能動(dòng)作的導(dǎo)航行為。

        實(shí)現(xiàn)腦神經(jīng)科學(xué)啟發(fā)下的導(dǎo)航需要解決3個(gè)問(wèn)題:①實(shí)現(xiàn)模擬大腦的空間探索與表征;②采用類(lèi)腦機(jī)制構(gòu)建認(rèn)知圖;③在認(rèn)知圖上進(jìn)行路徑規(guī)劃。目前模擬大腦進(jìn)行空間探索與表征的研究已經(jīng)相對(duì)成熟;文獻(xiàn)[2]構(gòu)建前饋網(wǎng)絡(luò),建立網(wǎng)格細(xì)胞到位置細(xì)胞的聯(lián)系,并使用傅里葉分析網(wǎng)格細(xì)胞到位置細(xì)胞的權(quán)值,最終使用位置細(xì)胞對(duì)空間進(jìn)行表征;文獻(xiàn)[3~4]采用Hebbian學(xué)習(xí)方法建立位置細(xì)胞與網(wǎng)格細(xì)胞的權(quán)值,從而使位置細(xì)胞具有空間的放電野。

        “認(rèn)知圖”一詞,最早由Tolman[5]在研究大鼠如何探索路徑的試驗(yàn)中提出。類(lèi)腦機(jī)制下導(dǎo)航認(rèn)知圖構(gòu)建的研究國(guó)外已有一定理論基礎(chǔ)。文獻(xiàn)[6]將生物大腦放電過(guò)程與傳統(tǒng)SLAM結(jié)合成功實(shí)現(xiàn)水下智能體的定位與地圖創(chuàng)建。文獻(xiàn)[7]提出了基于多層目標(biāo)的導(dǎo)向的導(dǎo)航模型,將導(dǎo)航模型分為兩步:一是構(gòu)建空間表征(構(gòu)建認(rèn)知圖);二是基于表征信息進(jìn)行導(dǎo)航。而國(guó)內(nèi)的研究相對(duì)較少,吳德偉團(tuán)隊(duì)[8]提出了一種多尺度網(wǎng)格細(xì)胞的路徑整合,完成了運(yùn)行體自主位置推算。于乃功團(tuán)隊(duì)[9]提出位置細(xì)胞到網(wǎng)格細(xì)胞的競(jìng)爭(zhēng)型神經(jīng)網(wǎng)絡(luò)模型,并生成位置細(xì)胞對(duì)空間進(jìn)行表征;唐華錦團(tuán)隊(duì)[10]提出采用類(lèi)腦神經(jīng)機(jī)制進(jìn)行定位,認(rèn)知圖構(gòu)建以及情景記憶,并對(duì)該過(guò)程進(jìn)行誤差校正;吳德偉團(tuán)隊(duì)[11]提出視覺(jué)位置細(xì)胞模型并利用其放電機(jī)理對(duì)空間進(jìn)行表征。目前,類(lèi)腦機(jī)制的導(dǎo)航認(rèn)知圖構(gòu)建的研究較少,國(guó)內(nèi)還沒(méi)有團(tuán)隊(duì)提出構(gòu)建認(rèn)知圖的系統(tǒng)方法,而已有的研究構(gòu)建的認(rèn)知圖存在以下問(wèn)題:構(gòu)建認(rèn)知圖的效率較低,認(rèn)知圖中面向目標(biāo)的方向誤差較大,圖中的信息準(zhǔn)確度不高。

        針對(duì)上述問(wèn)題本文提出了一種基于改進(jìn)Q學(xué)習(xí)算法的導(dǎo)航認(rèn)知圖構(gòu)建方法(本文中認(rèn)知圖特指動(dòng)物出發(fā)覓食的過(guò)程,通過(guò)整合地理位置信息與面向目標(biāo)的方向信息產(chǎn)生位置細(xì)胞,并對(duì)空間進(jìn)行表征,最終生成基于目標(biāo)導(dǎo)向的向量地圖[12])。該方法明確了類(lèi)腦機(jī)制下認(rèn)知圖構(gòu)建過(guò)程,同時(shí)提高了構(gòu)建認(rèn)知圖的效率以及認(rèn)知圖內(nèi)面向目標(biāo)信息的精確度。同時(shí),本文優(yōu)化了網(wǎng)格細(xì)胞到位置細(xì)胞的RBF映射網(wǎng)絡(luò),提高了位置細(xì)胞對(duì)空間的表征能力。

        1 模型

        1.1 基于網(wǎng)格細(xì)胞與位置細(xì)胞的位置表征

        對(duì)于空間表征主要解決的核心問(wèn)題是如何實(shí)現(xiàn)網(wǎng)格細(xì)胞到位置細(xì)胞的映射,目前實(shí)現(xiàn)網(wǎng)格細(xì)胞到位置細(xì)胞的轉(zhuǎn)換模型主要有:基于競(jìng)爭(zhēng)學(xué)習(xí)的轉(zhuǎn)換模型[13],基于傅里葉分析的轉(zhuǎn)換模型[14]與基于ICA編碼的轉(zhuǎn)換模型[15]。本文提出采用RBF神經(jīng)網(wǎng)絡(luò),建立網(wǎng)格細(xì)胞與位置細(xì)胞的映射關(guān)系。通過(guò)運(yùn)行體感知自身運(yùn)動(dòng)信息,輸入到網(wǎng)格細(xì)胞模型中得到網(wǎng)格細(xì)胞的放電率,再將網(wǎng)格細(xì)胞放電率作為RBF網(wǎng)絡(luò)的輸入,對(duì)RBF網(wǎng)絡(luò)進(jìn)行訓(xùn)練,建立網(wǎng)格細(xì)胞到位置細(xì)胞的轉(zhuǎn)換模型,最終使用位置細(xì)胞表征空間。

        針對(duì)建立空間的位置細(xì)胞表征,給出具體方法,包括計(jì)算網(wǎng)格細(xì)胞的放電率,建立RBF神經(jīng)網(wǎng)絡(luò)映射,建立位置細(xì)胞的空間表征3個(gè)步驟。

        步驟1計(jì)算網(wǎng)格細(xì)胞的放電率。

        目前模擬網(wǎng)格細(xì)胞放電活動(dòng)的模型主要有:吸引子網(wǎng)絡(luò)模型[16-17]和振蕩干涉模型[18-19]。本文采用振蕩干涉模型對(duì)網(wǎng)格細(xì)胞進(jìn)行模擬,其放電率的計(jì)算公式為:

        i=1,2,…,NAC

        (1)

        (2)

        式中:ωi為網(wǎng)格細(xì)胞的網(wǎng)格方向。

        步驟2建立RBF網(wǎng)絡(luò)映射。

        RBF神經(jīng)網(wǎng)絡(luò)分為輸入層,隱含層與輸出層。其中輸入層到隱含層的變換是非線(xiàn)性的,隱含層到輸出層的變換為線(xiàn)性的。RBF網(wǎng)絡(luò)的輸出可以表示為:

        (3)

        由步驟1可得,運(yùn)行體位于r=[x,y]時(shí),網(wǎng)格細(xì)胞的放電率表示為:

        (4)

        將網(wǎng)格細(xì)胞的放電率作為RBF網(wǎng)絡(luò)的輸入,位置細(xì)胞的理論放電率作為輸出,根據(jù)輸入輸出對(duì)RBF網(wǎng)絡(luò)進(jìn)行學(xué)習(xí),最終確定RBF網(wǎng)絡(luò)的參數(shù),得到當(dāng)前位置處網(wǎng)格細(xì)胞到位置細(xì)胞的映射關(guān)系。

        圖1 RBF-神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖

        步驟3建立位置細(xì)胞的空間表征。

        為了能夠生成新的位置細(xì)胞,設(shè)置位置細(xì)胞的放電閾值;當(dāng)已有位置細(xì)胞的放電率小于該閾值時(shí),則執(zhí)行生成新的位置細(xì)胞。建立位置細(xì)胞的表征過(guò)程即為生成RBF神經(jīng)網(wǎng)絡(luò)群的過(guò)程。當(dāng)運(yùn)行體探索某一位置時(shí),把該位置處網(wǎng)格細(xì)胞的放電率輸入RBF神經(jīng)網(wǎng)絡(luò)群,得到一組輸出值,將輸出值與放電閾值比較,當(dāng)輸出都小于放電閾值時(shí),重復(fù)步驟2建立新的RBF神經(jīng)網(wǎng)絡(luò)。

        圖2 RBF神經(jīng)網(wǎng)絡(luò)群示意圖

        通過(guò)上述3個(gè)步驟,運(yùn)行體感知自身運(yùn)動(dòng)信息后,通過(guò)網(wǎng)格細(xì)胞到位置細(xì)胞的模型,得到位置細(xì)胞的放電情況,根據(jù)位置細(xì)胞放電情況確定是否生成新的RBF網(wǎng)絡(luò)與位置細(xì)胞,最終得到位置細(xì)胞的空間表征。

        1.2 Q學(xué)習(xí)算法及改進(jìn)

        Q學(xué)習(xí)算法[20]是一種經(jīng)典的強(qiáng)化學(xué)習(xí)方法。強(qiáng)化學(xué)習(xí)不同于傳統(tǒng)的監(jiān)督學(xué)習(xí)機(jī)制,主要采用試錯(cuò)的方法尋找最優(yōu)的行為策略。對(duì)于環(huán)境模型,Q學(xué)習(xí)算法不會(huì)進(jìn)行預(yù)判與估計(jì),而是直接采用函數(shù)迭代的方法,通過(guò)對(duì)策略的選擇,獲得相應(yīng)的獎(jiǎng)懲值,對(duì)函數(shù)值進(jìn)行更新,在學(xué)習(xí)過(guò)程中逼近最優(yōu)的動(dòng)作序列,最終達(dá)到全局最優(yōu)。這個(gè)過(guò)程中使用的函數(shù)即為Q函數(shù)。Q函數(shù)的迭代過(guò)程為:

        Q(s,a)=Q(s,a)+β[R(s,a)+

        (5)

        式中:Q(s,a)表示狀態(tài)s時(shí)執(zhí)行動(dòng)作a的Q值;β為學(xué)習(xí)率,β∈[0,1];γ為折扣率,γ∈[0,1];R(s,a)為狀態(tài)s時(shí)執(zhí)行動(dòng)作a的獎(jiǎng)勵(lì)值。

        Q學(xué)習(xí)算法的過(guò)程可以概括為:

        步驟1初始化Q表;

        步驟2得到t時(shí)刻的狀態(tài)s,采用ε-貪婪策略選擇當(dāng)前狀態(tài)下的動(dòng)作即以概率選擇該狀態(tài)下最大Q值對(duì)應(yīng)的動(dòng)作,以概率1-隨機(jī)選擇動(dòng)作;

        步驟3通過(guò)Q表以及獎(jiǎng)懲策略得到當(dāng)前狀態(tài)的Q值與回報(bào)值,代入式(5)中更新Q表,直到學(xué)習(xí)結(jié)束。

        Q學(xué)習(xí)算法具有學(xué)習(xí)能力強(qiáng)以及效果較好的特點(diǎn),但其還存在一定的問(wèn)題。由于Q表的設(shè)置狀態(tài)或動(dòng)作需要的都是離散空間,Q學(xué)習(xí)算法不能運(yùn)用到連續(xù)空間的學(xué)習(xí)。同時(shí)當(dāng)狀態(tài)空間或動(dòng)作空間中的元素過(guò)多時(shí),Q表將變得十分龐大,對(duì)于Q表的查詢(xún)將變得十分困難。ε-貪婪策略是強(qiáng)化學(xué)習(xí)中比較普遍且有效的探索方法,但其缺點(diǎn)是在算法后期還會(huì)選擇非最優(yōu)策略為最優(yōu)策略,造成一些不必要的學(xué)習(xí)與資源浪費(fèi)。

        針對(duì)上述的問(wèn)題,本文對(duì)傳統(tǒng)Q學(xué)習(xí)進(jìn)行改進(jìn),引入Boltzmann分布,提出Boltzmann-選擇策略:

        (6)

        式中:P(s,a)表示在狀態(tài)s時(shí)選擇動(dòng)作a的概率;Q(s,a)表示在狀態(tài)s時(shí)選擇動(dòng)作a的Q值。

        傳統(tǒng)Q學(xué)習(xí)算法中使用貪婪策略,在整個(gè)學(xué)習(xí)過(guò)程中隨著學(xué)習(xí)的深入選擇動(dòng)作的概率基本保持在不變。這一問(wèn)題導(dǎo)致在學(xué)習(xí)初期存在次優(yōu)動(dòng)作的Q值大于最優(yōu)動(dòng)作的Q值的現(xiàn)象,使得Q值不能夠準(zhǔn)確的表達(dá)動(dòng)作的優(yōu)劣性;當(dāng)學(xué)習(xí)后期由于較大的概率選擇非最優(yōu)動(dòng)作,因此導(dǎo)致學(xué)習(xí)值不準(zhǔn)確,學(xué)習(xí)結(jié)果收斂較慢,學(xué)習(xí)效果不好。當(dāng)概率值選擇不恰當(dāng)時(shí),會(huì)使得整個(gè)探索過(guò)程不合理,造成資源浪費(fèi)。

        改進(jìn)Q學(xué)習(xí)算法中使用的是Boltzmann選擇策略。根據(jù)式(6)可得,當(dāng)初始狀態(tài)的Q值都為0時(shí),運(yùn)行體對(duì)各個(gè)動(dòng)作選擇的概率相等,從而使得前期的動(dòng)作選擇更加隨機(jī),探索更加合理,對(duì)Q值的更新更準(zhǔn)確;當(dāng)學(xué)習(xí)進(jìn)行到一定階段時(shí),由于各個(gè)動(dòng)作的回報(bào)值不同,因此Q值更新情況也不同;動(dòng)作的回報(bào)值越大,Q值越大;動(dòng)作回報(bào)值越小的,Q值越小。因此根據(jù)式(6)得,Q值越大,被選擇的概率就越大。因此隨著學(xué)習(xí)的深入,運(yùn)行體傾向選擇回報(bào)值高的動(dòng)作。

        改進(jìn)Q學(xué)習(xí)算法對(duì)動(dòng)作的選擇概率是變化的,學(xué)習(xí)初期能夠隨機(jī)探索各個(gè)動(dòng)作,隨著學(xué)習(xí)過(guò)程的深入,回報(bào)值越大的動(dòng)作被選中的概率越大。這種動(dòng)態(tài)概率既能夠提高學(xué)習(xí)的合理性與有效性,又能夠提升算法的收斂速度,使學(xué)習(xí)更效率、更精確。

        1.3 基于改進(jìn)Q學(xué)習(xí)算法的認(rèn)知圖構(gòu)建

        本文中構(gòu)建的認(rèn)知圖的過(guò)程分為3個(gè)步驟:

        步驟1創(chuàng)建狀態(tài)空間與動(dòng)作空間。

        狀態(tài)空間:運(yùn)行體在空間探索過(guò)程中,生成一組位置細(xì)胞,將生成的位置細(xì)胞群設(shè)定為狀態(tài)空間,其中每一個(gè)位置細(xì)胞表示一個(gè)狀態(tài)。當(dāng)運(yùn)行體到達(dá)空間中的某一位置時(shí),通過(guò)空間表征模型確定當(dāng)前狀態(tài)。

        動(dòng)作空間:運(yùn)行體在探索空間的過(guò)程,能夠向各個(gè)方向運(yùn)動(dòng)。因此設(shè)定動(dòng)作空間時(shí)需要滿(mǎn)足運(yùn)行體運(yùn)動(dòng)的全方位性。將方向區(qū)間[0,2π]離散化,離散后的每個(gè)值表示相應(yīng)的動(dòng)作方向,組成動(dòng)作空間。以X軸正半軸為基準(zhǔn),各個(gè)動(dòng)作方向分別表示為:

        (7)

        步驟2采用改進(jìn)Q學(xué)習(xí)算法建立狀態(tài)-動(dòng)作關(guān)系。

        結(jié)合改進(jìn)Q學(xué)習(xí)算法運(yùn)行體對(duì)學(xué)習(xí)狀態(tài)-動(dòng)作過(guò)程如下:

        首先,根據(jù)狀態(tài)空間與位置空間建立Q表,并對(duì)Q表初始化,Q表中主要記錄狀態(tài)與動(dòng)作的匹配程度;

        其次,當(dāng)運(yùn)行體從起點(diǎn)出發(fā)后,根據(jù)位置細(xì)胞表征模型確定當(dāng)前狀態(tài)為st,根據(jù)改進(jìn)后Boltzmann-選擇策略選擇當(dāng)前狀態(tài)下的動(dòng)作方向φ。由當(dāng)前狀態(tài)與動(dòng)作得到下一狀態(tài),此時(shí)根據(jù)Q學(xué)習(xí)算法的原理對(duì)Q表進(jìn)行更新如下:

        Q(st,φ)=Q(st,φ)+α[rewards+

        γmaxQ(st+1,:)-Q(st,φ)]

        (8)

        式中:Q(st,φ)表示當(dāng)處于狀態(tài)st時(shí),選擇動(dòng)作φ對(duì)應(yīng)的Q值;maxQ(st+1,:)為狀態(tài)st+1時(shí)各個(gè)動(dòng)作中的最大Q值;α為學(xué)習(xí)率;γ為折扣率;rewards為獎(jiǎng)勵(lì)值,獎(jiǎng)勵(lì)值的多少取決與下一狀態(tài),其設(shè)置為:

        1)當(dāng)下一個(gè)狀態(tài)為目標(biāo)所在狀態(tài)時(shí),rewards>0;

        2)當(dāng)下一個(gè)狀態(tài)超出探索區(qū)域或者遇到障礙物時(shí),rewards<0;

        3)其他情況,rewards=0。

        最后,當(dāng)運(yùn)行體運(yùn)動(dòng)狀態(tài)數(shù)超過(guò)設(shè)置值或運(yùn)行體發(fā)現(xiàn)目標(biāo)時(shí),該輪學(xué)習(xí)自動(dòng)結(jié)束。啟動(dòng)下一輪學(xué)習(xí),直到學(xué)習(xí)結(jié)束。

        經(jīng)過(guò)學(xué)習(xí)后,運(yùn)行體能夠獲得最終的Q表。該表中Q(st,φ)表示狀態(tài)st與動(dòng)作φ的匹配關(guān)系,該值越大代表狀態(tài)st與動(dòng)作φ越匹配。

        步驟3構(gòu)建認(rèn)知圖。

        在構(gòu)建認(rèn)知圖時(shí),將步驟2中最終得到的Q表作為各個(gè)動(dòng)作的權(quán)重,然后結(jié)合所對(duì)應(yīng)的動(dòng)作方向,直接使用重心估計(jì)原理計(jì)算各個(gè)狀態(tài)相對(duì)于目標(biāo)的方向信息,從而生成面向目標(biāo)的認(rèn)知圖。方向的計(jì)算方法如下:

        (9)

        2 仿真分析及討論

        仿真環(huán)境設(shè)置如下:

        1)空間大小為50 m×50 m,運(yùn)行體采用離散方式,以5 m/s的速度對(duì)空間進(jìn)行探索;

        2)在空間探索過(guò)程中,將目標(biāo)探索生成的位置細(xì)胞設(shè)置為狀態(tài)空間中的元素,在學(xué)習(xí)過(guò)程中,通過(guò)比較狀態(tài)確定是否達(dá)到目標(biāo);

        3)獎(jiǎng)勵(lì)策略設(shè)置為:當(dāng)運(yùn)行體運(yùn)動(dòng)位置超出探索空間時(shí),獎(jiǎng)勵(lì)值為-1;當(dāng)運(yùn)行體發(fā)現(xiàn)目標(biāo)時(shí),獎(jiǎng)勵(lì)值為10;其余情況,獎(jiǎng)勵(lì)值為0;

        4)網(wǎng)格細(xì)胞的參數(shù)設(shè)置:根據(jù)式(1)建立網(wǎng)格細(xì)胞,網(wǎng)格細(xì)胞總數(shù)為50,網(wǎng)格間距A為4,網(wǎng)格方向?yàn)?0°;

        5)位置細(xì)胞的放電野設(shè)置:當(dāng)距離位置細(xì)胞中心距離在0~5 m之間時(shí),位置細(xì)胞的放電率大于0.1,當(dāng)距離位置細(xì)胞中心距離大于5 m時(shí),位置細(xì)胞的放電率小于0.1(位置細(xì)胞不放電),從而位置細(xì)胞能夠感應(yīng)距離放電中心約5 m的范圍;

        6)探索過(guò)程中位置細(xì)胞的放電閾值設(shè)置為0.1,當(dāng)已有位置細(xì)胞的放電率都小于0.1時(shí),生成新的位置細(xì)胞;

        7)Q學(xué)習(xí)的相關(guān)參數(shù)設(shè)置:學(xué)習(xí)率為0.1,折扣因子為0.1,認(rèn)知圖精度為8。

        經(jīng)過(guò)仿真實(shí)驗(yàn)得到以下結(jié)果:圖3給出了不同間距網(wǎng)格細(xì)胞的放電情況(網(wǎng)格間距依次為:5,10,15)。仿真結(jié)果表明:改變網(wǎng)格間距,固定運(yùn)行體位置能夠得到不同的網(wǎng)格細(xì)胞放電情況。圖4給出了在不同位置處網(wǎng)格細(xì)胞的放電情況(位置坐標(biāo)依次為(5,15),(15,25),(25,35))。仿真結(jié)果表明:當(dāng)固定網(wǎng)格細(xì)胞間距,改變運(yùn)行體的位置,網(wǎng)格細(xì)胞的放電情況將發(fā)生改變。圖3,圖4證明在不同位置處網(wǎng)格細(xì)胞的放電情況不同,網(wǎng)格細(xì)胞的放電率能夠作為RBF網(wǎng)絡(luò)的有效輸入。

        圖3 不同間距的網(wǎng)格細(xì)胞放電情況

        圖4 不同位置處網(wǎng)格細(xì)胞的放電情況

        圖5給出了RBF網(wǎng)絡(luò)訓(xùn)練得到的位置細(xì)胞放電率與空間位置的函數(shù)關(guān)系。圖中的函數(shù)關(guān)系表明,當(dāng)運(yùn)行體與位置細(xì)胞的中心點(diǎn)距離小于等于5 m時(shí),位置細(xì)胞放電(當(dāng)且僅當(dāng)距離為0時(shí),位置細(xì)胞的放電率達(dá)到峰值);當(dāng)距離大于5 m之后,位置細(xì)胞不放電。

        圖5 訓(xùn)練后RBF神經(jīng)網(wǎng)絡(luò)的函數(shù)圖像

        圖6表示中心點(diǎn)為(35,40)的位置細(xì)胞的放電域。分析圖像可得距離位置細(xì)胞的中心點(diǎn)距離在5m之內(nèi),位置細(xì)胞放電。該放電情況與圖5的訓(xùn)練結(jié)果相符。

        圖7給出了運(yùn)行體經(jīng)過(guò)探索后生成的部分位置細(xì)胞的放電情況。位置細(xì)胞的放電野覆蓋了整個(gè)區(qū)域,當(dāng)運(yùn)行體在空間運(yùn)行時(shí)相應(yīng)的位置細(xì)胞將正常放電,因此能夠通過(guò)觀察位置細(xì)胞的放電率得到運(yùn)行體的位置。位置細(xì)胞仿真結(jié)果表明,改進(jìn)后的RBF網(wǎng)絡(luò)能夠訓(xùn)練得到位置細(xì)胞的放電函數(shù),生成的位置細(xì)胞能夠覆蓋探索區(qū)域,并成功對(duì)空間進(jìn)行表征。

        圖6 RBF神經(jīng)網(wǎng)絡(luò)映射后位置細(xì)胞的放電域

        圖7 探索結(jié)束后生成位置細(xì)胞的放電情況

        圖8給出了采用傳統(tǒng)Q學(xué)習(xí)算法(單個(gè)回合學(xué)習(xí)5 000次)構(gòu)建認(rèn)知圖的情況與采用改進(jìn)Q學(xué)習(xí)算法(單個(gè)回合學(xué)習(xí)1 000次)構(gòu)建認(rèn)知圖的情況。仿真結(jié)果表明:改進(jìn)后Q學(xué)習(xí)方法的效率更高,各個(gè)狀態(tài)的角度值更加接近真實(shí)值,構(gòu)建的認(rèn)知圖中的方向信息更加準(zhǔn)確。

        圖8 不同算法構(gòu)建的認(rèn)知圖

        圖9給出傳統(tǒng)Q學(xué)習(xí)算法與改進(jìn)Q學(xué)習(xí)算法在學(xué)習(xí)過(guò)程中部分狀態(tài)的學(xué)習(xí)值。圖9表明改進(jìn)Q學(xué)習(xí)算法比傳統(tǒng)Q學(xué)習(xí)算法的實(shí)際角度值收斂更快速;且在學(xué)習(xí)次數(shù)大于2 000之后,改進(jìn)Q學(xué)習(xí)算法的學(xué)習(xí)值更加接近實(shí)際值。

        圖10給出了單個(gè)回合中學(xué)習(xí)次數(shù)與平均相對(duì)誤差的關(guān)系(平均相對(duì)誤差計(jì)算方法如下:以單個(gè)回合學(xué)習(xí)1 000次為例,運(yùn)行體進(jìn)行10個(gè)回合的學(xué)習(xí),計(jì)算各個(gè)狀態(tài)平均相對(duì)誤差后,對(duì)各個(gè)狀態(tài)的平均誤差求和取平均,最后得到探索1 000次的平均相對(duì)誤差。)改進(jìn)Q學(xué)習(xí)算法學(xué)習(xí)的相對(duì)誤差一直小于傳統(tǒng)Q學(xué)習(xí)算法的相對(duì)誤差,且當(dāng)學(xué)習(xí)次數(shù)大于2 000次以后,傳統(tǒng)Q學(xué)習(xí)算法的相對(duì)誤差穩(wěn)定在20%,改進(jìn)Q學(xué)習(xí)算法的相對(duì)誤差基本穩(wěn)定在4%。仿真結(jié)果表明:引入Boltzmann分布對(duì)貪婪策略進(jìn)行改進(jìn)能夠提高Q學(xué)習(xí)的收斂速度,提升學(xué)習(xí)值的精確性。

        圖11和圖12給出了傳統(tǒng)Q學(xué)習(xí)算法與改進(jìn)Q學(xué)習(xí)算法每回合的平均相對(duì)誤差,仿真實(shí)驗(yàn)中一共學(xué)習(xí)了100個(gè)回合(圖11單個(gè)回合學(xué)習(xí)次數(shù)為1 000次,圖12單個(gè)回合學(xué)習(xí)次數(shù)為2 000次)。圖11,圖12表明改進(jìn)Q學(xué)習(xí)算法學(xué)習(xí)值的平均相對(duì)誤差普遍小于傳統(tǒng)Q學(xué)習(xí)算法。

        圖10 傳統(tǒng)Q學(xué)習(xí)算法與改進(jìn)Q學(xué)習(xí)算法的平均相對(duì)誤差

        圖11 傳統(tǒng)Q學(xué)習(xí)算法與改進(jìn)Q學(xué)習(xí)算法每回合的平均相對(duì)誤差(單回合次數(shù)1 000次)

        圖12 傳統(tǒng)Q學(xué)習(xí)算法與改進(jìn)Q學(xué)習(xí)算法每回合的平均相對(duì)誤差(單回合次數(shù)2 000次)

        仿真結(jié)果表明:改進(jìn)后的Q學(xué)習(xí)算法相比于傳統(tǒng)Q學(xué)習(xí)算法學(xué)習(xí)效率更高,學(xué)習(xí)值更貼近真實(shí)值,學(xué)習(xí)結(jié)果更加準(zhǔn)確,構(gòu)建的認(rèn)知導(dǎo)航圖更加準(zhǔn)確。

        3 結(jié)語(yǔ)

        本文提出了類(lèi)腦機(jī)制的導(dǎo)航認(rèn)知圖構(gòu)建的系統(tǒng)方法,并對(duì)傳統(tǒng)Q學(xué)習(xí)算法進(jìn)行改進(jìn)。仿真結(jié)果表明,改進(jìn)后的Q學(xué)習(xí)算法能夠提升學(xué)習(xí)效率,從而提高了導(dǎo)航認(rèn)知圖構(gòu)建的效率與精度。但最終生成的導(dǎo)航認(rèn)知圖僅包含面向目標(biāo)的信息,缺少該位置處的環(huán)境信息以及狀態(tài)之間的連接關(guān)系。如何整合環(huán)境信息與位置信息生成位置細(xì)胞對(duì)空間進(jìn)行表征以及如何增加各個(gè)狀態(tài)之間的連接關(guān)系構(gòu)建認(rèn)知圖等問(wèn)題還有待繼續(xù)研究。

        猜你喜歡
        動(dòng)作模型
        一半模型
        下一個(gè)動(dòng)作
        重要模型『一線(xiàn)三等角』
        重尾非線(xiàn)性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        動(dòng)作描寫(xiě)要具體
        畫(huà)動(dòng)作
        讓動(dòng)作“活”起來(lái)
        動(dòng)作描寫(xiě)不可少
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        国产久色在线拍揄自揄拍 | 囯产精品无码va一区二区| av毛片在线播放网址| 日本一区二区三区不卡在线| а√天堂8资源中文在线| 欧美大黑帍在线播放| 91精品国产91| 成人在线观看视频免费播放| 五月色丁香婷婷网蜜臀av| 欧洲一卡2卡三卡4卡免费网站| 91精品国产色综合久久不卡蜜| 日本熟妇免费一区二区三区| 国产乱人伦av在线麻豆a| 无码不卡av东京热毛片| 无码人妻系列不卡免费视频| 国产一区二区三区涩涩| 最近免费中文字幕中文高清6| 乱人伦中文无码视频在线观看 | 丁香婷婷色| 亚洲av色香蕉一区二区三区av| 中文字幕有码无码人妻av蜜桃| 欧美人与动牲交a欧美精品| 69av视频在线| 一区二区在线观看日本视频| 成人做受黄大片| 真正免费一级毛片在线播放 | av在线一区二区三区不卡| 一本加勒比hezyo无码专区| 少妇的肉体k8经典| 中文字幕一区二区三区在线视频| 亚洲国产中文字幕一区| 老少配老妇老熟女中文普通话| 国产精品久久综合桃花网| 国产特黄a三级三级三中国| 亚洲av高清在线观看一区二区| 国产主播一区二区三区在线观看| 不打码在线观看一区二区三区视频| 美女主播福利一区二区| 777午夜精品免费观看| 久久免费精品国产72精品剧情| 国产成人精品一区二区三区av|