亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)SARSA(λ)移動(dòng)機(jī)器人路徑規(guī)劃

        2019-04-02 10:08:06王志明
        關(guān)鍵詞:規(guī)劃動(dòng)作

        宋 宇, 王志明

        (長(zhǎng)春工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院, 吉林 長(zhǎng)春 130012)

        0 引 言

        由于具有廣泛的應(yīng)用場(chǎng)景,如機(jī)械臂運(yùn)動(dòng)規(guī)劃、機(jī)器人運(yùn)動(dòng)規(guī)劃等,近年來(lái),路徑規(guī)劃得到國(guó)內(nèi)外學(xué)者的關(guān)注,路徑規(guī)劃的相關(guān)算法被不斷提出。從蟻群算法[1]、A*算法、D*算法、RRT算法、PRM算法、人工勢(shì)場(chǎng)法[2]、優(yōu)化算法[3]到模糊邏輯算法、神經(jīng)網(wǎng)絡(luò)算法、強(qiáng)化學(xué)習(xí)算法[4]。其中人工勢(shì)場(chǎng)法在數(shù)學(xué)描述上簡(jiǎn)潔、美觀,且規(guī)劃出的路徑較安全、平滑,但存在目標(biāo)點(diǎn)不可達(dá)、障礙物附近抖動(dòng)的問(wèn)題。針對(duì)人工勢(shì)場(chǎng)法的不足,國(guó)內(nèi)外許多學(xué)者提出了改進(jìn)方法,如文獻(xiàn)[5]提出了扇區(qū)劃分后增加虛擬障礙物的方法,文獻(xiàn)[6]提出了預(yù)規(guī)劃路徑后增加虛擬質(zhì)點(diǎn)的方法,文獻(xiàn)[7]采用高斯組合隸屬函數(shù)建立引力點(diǎn)函數(shù),消除了極小值問(wèn)題。近年來(lái),基于強(qiáng)化學(xué)習(xí)算法[8-9]已經(jīng)被初步用于路徑規(guī)劃問(wèn)題中。SARSA(λ)算法是一種基于值函數(shù)的強(qiáng)化學(xué)習(xí)算法,如果直接將 SARSA(λ)應(yīng)用于路徑規(guī)劃,會(huì)使初次探索隨機(jī)性和撞墻概率較大,學(xué)習(xí)時(shí)間較長(zhǎng)。

        文中通過(guò)人工勢(shì)場(chǎng)法的合力引導(dǎo)機(jī)制減少了路徑搜索時(shí)間,首次探索時(shí)選擇勢(shì)場(chǎng)合力方向最大的概率最大,再次探索時(shí),Q值最大方向所占的比重增大。仿真實(shí)驗(yàn)表明,改進(jìn)算法改善了人工勢(shì)場(chǎng)法易陷入局部極值的現(xiàn)象。

        1 Khatib人工勢(shì)場(chǎng)法

        Khatib人工勢(shì)場(chǎng)法是通過(guò)計(jì)算合力機(jī)器人在一個(gè)虛擬勢(shì)場(chǎng)環(huán)境中受到的合力來(lái)決定機(jī)器人下一步的方向,目標(biāo)點(diǎn)在環(huán)境中任一點(diǎn)x產(chǎn)生的吸引力勢(shì)場(chǎng)值為:

        (1)

        式中:xd----目標(biāo)點(diǎn)坐標(biāo);

        kp----引力增益系數(shù)。

        如電場(chǎng)力等于電勢(shì)的負(fù)梯度一樣,引力為吸引力勢(shì)場(chǎng)的負(fù)梯度,方向由機(jī)器人指向目標(biāo)點(diǎn)。吸引力的大小為:

        Fatt(x)=-grad[Uxd(x)]=-kp(x-xd)(2)

        單個(gè)障礙物在環(huán)境中任一點(diǎn)x產(chǎn)生的排斥力勢(shì)場(chǎng)值為:

        (3)

        式中:xobs----目標(biāo)點(diǎn)坐標(biāo);

        ε----斥力增益系數(shù);

        ρ(x,xobs)----機(jī)器人與障礙物之間的距離。

        如電場(chǎng)力等于電勢(shì)的負(fù)梯度一樣,斥力為斥力勢(shì)場(chǎng)的負(fù)梯度,方向由障礙物指向機(jī)器人。機(jī)器人排斥力的大小為:

        (4)

        2 SARSA(λ)算法

        SARSA(λ)算法是一種基于值函數(shù)的強(qiáng)化學(xué)習(xí)算法,在強(qiáng)化學(xué)習(xí)中,狀態(tài)行為值函數(shù)的定義為:

        (5)

        γ----折扣因子。

        SARSA(λ)的Q值更新公式可以由式(5)得到,設(shè)狀態(tài)行為對(duì)(s,a)的當(dāng)前Q值估計(jì)值為Q(s,a),機(jī)器人在狀態(tài)s做出動(dòng)作a后得到獎(jiǎng)勵(lì)r以及到達(dá)下一個(gè)狀態(tài)s_,若用r+Q(s_,a_)去估計(jì)Q(s,a),分別給當(dāng)前估計(jì)值Q(s,a)與新的估計(jì)值r+Q(s_,a_)一定的概率置信度1-aa和aa,aa為一個(gè)0到1的數(shù),則

        Q(s,a)=(1-aa)*Q(s,a)+aa*(r+Q(s_,a_))(6)

        展開(kāi)得

        Q(s,a)=Q(s,a)+aa*(r+Q(s_,a_)-

        γ*Q(s,a))(7)

        為了記錄獲得獎(jiǎng)勵(lì)之前的所有狀態(tài)動(dòng)作對(duì),當(dāng)機(jī)器人獲得獎(jiǎng)勵(lì)或懲罰時(shí),所有已經(jīng)記錄的機(jī)器人經(jīng)歷過(guò)的狀態(tài)動(dòng)作對(duì)都一定程度更新Q值,引入資格跡矩陣E(s,a),得到SARSA(λ)的Q值更新公式為:

        Q(s,a)=Q(s,a)+aa*(r+Q(s_,a_)-γ*Q(s,a))*E(s,a)

        E(s,a)=γ*λ*E(s,a)(8)

        機(jī)器人在一個(gè)回合內(nèi)每走一步,之前步經(jīng)歷的資格跡衰減γ*λ倍。

        3 改進(jìn)算法

        若地圖大小為n*n,則初始化一個(gè)n*n行,8列的值全為k的Q表矩陣,k為一個(gè)大于0的正數(shù),機(jī)器人可移動(dòng)方向?yàn)樯?、下、左、右、上左、上右、下左、下?個(gè)方向,此矩陣每一行代表一個(gè)柵格的Q值信息。同時(shí)初始化一個(gè)n*n行,8列的值全為0的資格跡矩陣。

        3.1 選擇動(dòng)作

        機(jī)器人選擇下一個(gè)動(dòng)作時(shí),分別計(jì)算周?chē)?個(gè)鄰居格子的a值與q值,式(9)為由合力與Q表共同確定的轉(zhuǎn)移概率。其中的qi值是查詢(xún)Q表得到的,ai值的確定方法見(jiàn)4.2。機(jī)器人最終轉(zhuǎn)移概率由式(10)確定,即50%的概率轉(zhuǎn)移到由式(9)得到的P最大的柵格處,40%的概率轉(zhuǎn)移到q值最大的動(dòng)作所對(duì)應(yīng)的柵格處,10%的概率向周?chē)?個(gè)柵格方向隨機(jī)移動(dòng)一步。

        (9)

        3.2a值

        計(jì)算當(dāng)前點(diǎn)(即當(dāng)前位置)受到的合力大小與方向,將此合力在上、下、左、右、上左、上右、下左、下右8個(gè)方向上投影,得到8個(gè)分力,將這8個(gè)分力的大小(可正可負(fù))從小到大排序,ai為一個(gè)大小為1~8序號(hào)值,ai值越大,表示此方向合力越大,即機(jī)器人向此方向移動(dòng)的概率越大。

        3.3 獎(jiǎng)勵(lì)函數(shù)

        機(jī)器人第一次到達(dá)目標(biāo)點(diǎn)時(shí)獎(jiǎng)勵(lì)為R,記錄此次機(jī)器人經(jīng)過(guò)的總路徑長(zhǎng)度mindistance,以后每輪比較路徑長(zhǎng)度與此路徑長(zhǎng)度,若出現(xiàn)更小的路徑長(zhǎng)度,則更新最優(yōu)路徑長(zhǎng)度mindistance。從第2輪開(kāi)始的獎(jiǎng)勵(lì)規(guī)則由式(11)確定,其中的distance為本次從起點(diǎn)到終點(diǎn)的路徑長(zhǎng)度,其中的正負(fù)號(hào)由判斷語(yǔ)句決定,若distance小于mindistance取正號(hào),若distance大于mindistance取負(fù)號(hào)。dis為執(zhí)行a動(dòng)作前機(jī)器人到目標(biāo)點(diǎn)的距離,dis_為執(zhí)行a動(dòng)作后機(jī)器人到目標(biāo)點(diǎn)的距離。

        (11)

        3.4 Q值更新公式

        如前所述,傳統(tǒng)SARSA(λ)的Q(s,a)值是由當(dāng)前的Q(s,a)值與r+Q(s_,a_)的加權(quán)平均得到的,其中Q(s_,a_)是由機(jī)器人做出動(dòng)作a后到達(dá)位置s_,再次根據(jù)ε-greedy策略選擇動(dòng)作a_,查詢(xún)Q表得到的。為了充分利用之前探索過(guò)的信息,此處將Q(s_,a_)改為

        (12)

        式中:Q(s_,i)----機(jī)器人在位置s_,選擇動(dòng)作i(i為1個(gè)1~8的整數(shù),代表上、下、左、右、上左、上右、下左、下右)查詢(xún)Q表得到的值。

        即將式(8)改為:

        (13)

        式中:n----格子序號(hào)。

        分別計(jì)算s_周?chē)?個(gè)格子到目標(biāo)點(diǎn)的距離加機(jī)器人從s_到8個(gè)格子的移動(dòng)距離的和,將8個(gè)格子的對(duì)應(yīng)距離值從大到小排序,n為格子的距離值的序號(hào),即距離越小,n值越大,n為1~8的整數(shù)。

        4 仿 真

        文中在PyCharm2017.1.2環(huán)境下進(jìn)行了仿真實(shí)驗(yàn),學(xué)習(xí)率aa為0.01,折扣因子γ為0.9,資格跡衰減因子λ為0.9,其余參數(shù)的設(shè)置見(jiàn)表1。

        表1 參數(shù)設(shè)置

        4.1 人工勢(shì)場(chǎng)法目標(biāo)點(diǎn)不可達(dá)地圖環(huán)境

        在合力為0的柵格附近人工勢(shì)場(chǎng)法出現(xiàn)了在障礙物附近抖動(dòng)的情形,如圖1所示。

        SARSA(λ)算法路徑規(guī)劃結(jié)果和改進(jìn)算法路徑規(guī)劃結(jié)果分別如圖2和圖3所示。

        圖1 人工勢(shì)場(chǎng)法路徑 圖2 SARSA(λ)路徑 圖3 改進(jìn)算法路徑

        柵格地圖大小為20×20,起點(diǎn)為左下角方塊,終點(diǎn)為上方圓形,障礙物為黑色方塊。圖3中五角星為改進(jìn)算法100次迭代輸出的最優(yōu)路徑。傳統(tǒng)SARSA(λ)容易撞墻而無(wú)法在100回合內(nèi)找到目標(biāo)點(diǎn)(見(jiàn)圖2),五角星為傳統(tǒng)SARSA(λ)算法100次迭代中機(jī)器人所經(jīng)過(guò)的所有路徑點(diǎn)。

        4.2 人工勢(shì)場(chǎng)法目標(biāo)點(diǎn)可達(dá)地圖環(huán)境

        在人工勢(shì)場(chǎng)法與改進(jìn)算法都能找到目標(biāo)點(diǎn)的情況下,這里比較了直接應(yīng)用SARSA(λ)算法與改進(jìn)算法的從起點(diǎn)首次到達(dá)目標(biāo)點(diǎn)用時(shí),100次迭代內(nèi),成功到達(dá)目標(biāo)點(diǎn)的路徑的平均路徑長(zhǎng)度,100次迭代內(nèi),成功到達(dá)目標(biāo)點(diǎn)的路徑最短路徑長(zhǎng)度與從起點(diǎn)到達(dá)目標(biāo)點(diǎn)的平均用時(shí),相關(guān)指標(biāo)對(duì)比見(jiàn)表2。

        表2 算法結(jié)果對(duì)比

        SARSA(λ)算法100次迭代輸出最優(yōu)路徑如圖4所示。

        改進(jìn)算法100次迭代輸出最優(yōu)路徑如圖5所示。

        圖4 SARSA(λ)算法路徑圖

        圖5 改進(jìn)算法路徑圖

        5 結(jié) 語(yǔ)

        由于SARSA(λ)具有隨機(jī)性與記憶性,尋路過(guò)程中隨機(jī)掙脫極小值點(diǎn)的概率被增大。仿真實(shí)驗(yàn)表明,相比直接應(yīng)用SARSA(λ)于路徑規(guī)劃,勢(shì)場(chǎng)力的引入大幅減少了路徑規(guī)劃所用的時(shí)間,由于SARSA(λ)具有隨機(jī)性與記憶性,一方面克服了傳統(tǒng)人工勢(shì)場(chǎng)法的目標(biāo)點(diǎn)不可達(dá)的缺陷,另一方面增加了尋找到更優(yōu)路徑的概率。

        猜你喜歡
        規(guī)劃動(dòng)作
        下一個(gè)動(dòng)作
        發(fā)揮人大在五年規(guī)劃編制中的積極作用
        動(dòng)作描寫(xiě)要具體
        規(guī)劃引領(lǐng)把握未來(lái)
        快遞業(yè)十三五規(guī)劃發(fā)布
        商周刊(2017年5期)2017-08-22 03:35:26
        畫(huà)動(dòng)作
        讓動(dòng)作“活”起來(lái)
        動(dòng)作描寫(xiě)不可少
        多管齊下落實(shí)規(guī)劃
        十三五規(guī)劃
        華東科技(2016年10期)2016-11-11 06:17:41
        国产AV无码专区亚洲AV桃花庵| 国产精品卡一卡二卡三| 中文有码亚洲制服av片| 国产成人综合日韩精品无码| 国产乱子轮xxx农村| 狠狠色狠狠色综合| 18成人片黄网站www| 国产精品久久久久久麻豆一区| 小12箩利洗澡无码视频网站| 亚洲AVAv电影AV天堂18禁 | 91久久国产香蕉视频| 99视频在线精品免费观看6| 看av免费毛片手机播放| 日日躁夜夜躁狠狠躁超碰97| 欧美精品一级| 8090成人午夜精品无码| 久久婷婷综合色一区二区| 日本一区二区三区高清在线视频| 亚洲精品无码专区在线在线播放| 日韩人妻无码精品久久免费一| 无码久久精品国产亚洲av影片| 2020国产精品久久久久| 亚洲国产成人精品一区刚刚| 国产精品综合女同人妖| 亚洲精品中文字幕免费专区| 插我一区二区在线观看| 亚洲男人的天堂网站| 国产中文制服丝袜另类| 国产无遮挡又黄又爽无VIP| 亚洲视频在线免费观看一区二区| 熟女一区二区中文字幕| 国产日韩精品suv| 一个人看的视频www免费| 久久精品国产99国产精2020丨 | 国产高清国内精品福利99久久| 国产精品麻豆成人av| 国产一区二区三区四区在线视频| 美女脱了内裤露出奶头的视频| 99精品欧美一区二区三区| 男人天堂网在线视频| 中文字幕无码免费久久9|