亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于神經(jīng)網(wǎng)絡(luò)Q-learning算法的智能車路徑規(guī)劃*

        2019-03-14 03:36:48衛(wèi)玉梁靳伍銀
        火力與指揮控制 2019年2期
        關(guān)鍵詞:路障小車神經(jīng)網(wǎng)絡(luò)

        衛(wèi)玉梁,靳伍銀

        (蘭州理工大學(xué)機(jī)電工程學(xué)院,蘭州 730050)

        0 引言

        機(jī)器學(xué)習(xí)分為監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)以及強(qiáng)化學(xué)習(xí)3種,其中強(qiáng)化學(xué)習(xí)是以環(huán)境反饋為學(xué)習(xí)策略的機(jī)器學(xué)習(xí)方法[1-2]。蒙特卡羅算法、Q學(xué)習(xí)算法、模擬退火法、遺傳算法等都屬于強(qiáng)化學(xué)習(xí)[3];由Watikins提出的Q-learning算法是強(qiáng)化學(xué)習(xí)算法中應(yīng)用較為廣泛的一種,其特點(diǎn)是不依賴于環(huán)境的先驗(yàn)?zāi)P停?-5]。因此,Q強(qiáng)化學(xué)習(xí)算法是一種無(wú)模型的在線學(xué)習(xí)算法[6]。本文采用Q強(qiáng)化學(xué)習(xí)算法來(lái)解決智能小車在行走過(guò)程中,特別是在環(huán)境中設(shè)置除起點(diǎn)和目標(biāo)位置以外,還有其他路障時(shí)的路徑規(guī)劃和規(guī)避問(wèn)題。由于Q學(xué)習(xí)算法的量化過(guò)程會(huì)影響到最終的實(shí)驗(yàn)效果,從而采用RBF網(wǎng)絡(luò)對(duì)Q強(qiáng)化學(xué)習(xí)算法進(jìn)行優(yōu)化,提高Q學(xué)習(xí)算法效果,加強(qiáng)智能小車的自治導(dǎo)航能力。

        1 Q-learning算法原理

        Q學(xué)習(xí)算法是一種類似于動(dòng)態(tài)規(guī)劃的強(qiáng)化學(xué)習(xí)方法[7]??梢詾橹悄芟到y(tǒng)提供一種學(xué)習(xí)能力,通過(guò)這種能力可以使系統(tǒng)在馬爾科夫環(huán)境中利用經(jīng)歷的動(dòng)作序列選擇最優(yōu)動(dòng)作集,而且這種能力不依賴于馬爾科夫環(huán)境的模型[8]。所以Q-learning學(xué)習(xí)算法也是馬爾科夫決策過(guò)程MDP(Markov Decision Process)的另一種表達(dá)形式[9]。

        首先將小車路徑規(guī)劃問(wèn)題建模為有限的、離散的MDP,用數(shù)組{S,A,R,P}表示,其中 S 為小車的位置狀態(tài)空間,A為小車可用控制指令組成的動(dòng)作空間,R為對(duì)應(yīng)狀態(tài)的獎(jiǎng)賞回報(bào),P為狀態(tài)之間的轉(zhuǎn)移概率。

        圖1 強(qiáng)化學(xué)習(xí)框圖

        強(qiáng)化學(xué)習(xí)框圖如圖1所示,智能小車路徑規(guī)劃決策系統(tǒng)每步可在有限動(dòng)作集合中選取某一動(dòng)作,并將這個(gè)動(dòng)作作用于環(huán)境中,環(huán)境接受該動(dòng)作后狀態(tài)發(fā)生轉(zhuǎn)移,同時(shí)給出獎(jiǎng)賞R。例如,小車路徑規(guī)劃決策系統(tǒng)在t時(shí)刻選擇動(dòng)作at,環(huán)境接受這個(gè)動(dòng)作后由狀態(tài)st轉(zhuǎn)移到st+1。

        上述R及st+1的概率分布取決于at及st。環(huán)境狀態(tài)st以如下概率變化到st+1:

        定義表示狀態(tài)st的值函數(shù),用來(lái)從長(zhǎng)期的觀點(diǎn)確定并選擇最優(yōu)動(dòng)作,在策略π的作用下:

        式(3)表明策略π*能夠使值函數(shù)Vπ(s)取得最大值。

        定義動(dòng)作值函數(shù)Q如下:

        又根據(jù)式(3),可得:

        上式表明,在路徑規(guī)劃時(shí)僅需要對(duì)現(xiàn)在的狀態(tài)Q(s,a)的局部值不斷作出反應(yīng),就可以選擇出全局最優(yōu)的移動(dòng)策略。其迭代公式為:

        2 神經(jīng)網(wǎng)絡(luò)的Q-learning算法實(shí)現(xiàn)

        傳統(tǒng)Q學(xué)習(xí)算法的流程如圖2所示:隨機(jī)初始化 Q(s,a)值根據(jù)當(dāng)前 Q 和位置 st,使用一種策略,得到并進(jìn)行動(dòng)作at,到達(dá)新的位置st+1,獲得獎(jiǎng)勵(lì)R更新之前位置的Q值。當(dāng)達(dá)到目標(biāo)狀態(tài)時(shí),此次迭代過(guò)程結(jié)束。

        圖2 傳統(tǒng)Q學(xué)習(xí)算法的流程

        本文利用RBF網(wǎng)絡(luò)較強(qiáng)的函數(shù)逼近能力,實(shí)現(xiàn)Q-learning的動(dòng)作值函數(shù)Q進(jìn)行逼近,網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

        圖3 基于RBF的Q算法網(wǎng)絡(luò)結(jié)構(gòu)

        第2層為隱層,在這一層當(dāng)中,每一個(gè)節(jié)點(diǎn)采用P維高斯函數(shù),第K個(gè)RBF節(jié)點(diǎn)的表達(dá)式為:

        3 基于Q學(xué)習(xí)算法智能小車路徑規(guī)劃

        Q強(qiáng)化學(xué)習(xí)系統(tǒng)結(jié)構(gòu)如圖4所示,在圖4中,整個(gè)系統(tǒng)只有一個(gè)決策單元,這個(gè)單元承擔(dān)著馬爾科夫過(guò)程中的動(dòng)作獎(jiǎng)賞R的評(píng)價(jià)和動(dòng)作的選擇任務(wù)。

        圖4 Q強(qiáng)化學(xué)習(xí)系統(tǒng)結(jié)構(gòu)

        綜上所述,Q學(xué)習(xí)算法在對(duì)智能小車的路徑進(jìn)行規(guī)劃時(shí),不依賴于環(huán)境的初始環(huán)境,而是在動(dòng)態(tài)環(huán)境中實(shí)現(xiàn)其路徑的規(guī)劃。為了實(shí)施并且準(zhǔn)確獲取其所處的環(huán)境的動(dòng)態(tài)數(shù)據(jù)信息,判斷環(huán)境的實(shí)際狀況,在智能小車上配置有4個(gè)距離的傳感器,用于檢測(cè)智能小車與路障之間的距離等,然后通過(guò)數(shù)據(jù)采集電路將這4個(gè)傳感器獲得的位置等信息傳遞到核心芯片,由其計(jì)算所得的結(jié)果作為系統(tǒng)的輸入,即小車在每個(gè)S環(huán)境時(shí)可作出的動(dòng)作指令集合為向4個(gè)方向的移動(dòng),即A={上,下,左,右}系統(tǒng)工作流程如下:

        1)對(duì)工作環(huán)境st進(jìn)行觀測(cè);

        2)選定一個(gè)動(dòng)作a并執(zhí)行;

        3)對(duì)下一個(gè)環(huán)境st+1進(jìn)行觀測(cè);

        4)接收強(qiáng)化信息rt;

        5)調(diào)整Q值。

        4 仿真實(shí)驗(yàn)及結(jié)果分析

        4.1 基于Q-learning智能小車路徑規(guī)劃算法仿真GUI仿真系統(tǒng)

        為了驗(yàn)證本文所采用算法的有效性及相對(duì)于其他算法的優(yōu)越性,基于MATLAB平臺(tái)建立了Q-learning智能小車路徑規(guī)劃算法GUI仿真系統(tǒng),其界面如圖5所示。

        圖5 小車路徑規(guī)劃GUI仿真系統(tǒng)

        系統(tǒng)中主要包含了“顯示”和“設(shè)置”兩大塊,通過(guò)右邊的“設(shè)置”來(lái)定義仿真過(guò)程中的智能小車的起點(diǎn)、終點(diǎn)以及運(yùn)動(dòng)過(guò)程中的各種路障。在界面的任務(wù)欄上同時(shí)設(shè)置了系統(tǒng)簡(jiǎn)介以及保存結(jié)果兩個(gè)功能選項(xiàng)。

        4.2 仿真結(jié)果

        本文中在簡(jiǎn)單路障和復(fù)雜路障兩種環(huán)境下進(jìn)行仿真研究,同時(shí)加入基于勢(shì)場(chǎng)的Q學(xué)習(xí)算法作為比較,具體仿真結(jié)果如圖6和下頁(yè)圖7所示。

        1)簡(jiǎn)單路障下的路徑規(guī)劃效果

        圖6 簡(jiǎn)單路障下的路徑規(guī)劃效果

        2)復(fù)雜路障下的路徑規(guī)劃效果

        圖7 復(fù)雜路障下的路徑規(guī)劃效果

        上述仿真結(jié)果表明,本文所提出的算法能夠?qū)崿F(xiàn)智能小車行走過(guò)程中的全局路徑規(guī)劃,對(duì)在環(huán)境中設(shè)置有除起點(diǎn)和目標(biāo)位置以外的路徑規(guī)劃和路障規(guī)避問(wèn)題有著良好的表現(xiàn)。同時(shí)對(duì)于Q算法而言,本文所采用的基于神經(jīng)網(wǎng)絡(luò)Q-learning算法無(wú)論是在相對(duì)簡(jiǎn)單或是相對(duì)復(fù)雜的環(huán)境中,其效率均為最高,收斂速度也最快,其次是基于勢(shì)場(chǎng)的Q-learning算法,傳統(tǒng)的Q-learning算法收斂速度最慢、效果最差。

        5 結(jié)論

        本文針對(duì)智能小車行走過(guò)程中的全局路徑規(guī)劃和路障規(guī)避問(wèn)題,提出了一種基于神經(jīng)網(wǎng)絡(luò)Q強(qiáng)化學(xué)習(xí)算法。利用MATLAB開發(fā)了基于神經(jīng)網(wǎng)絡(luò)Q-learning強(qiáng)化學(xué)習(xí)算法智能小車全局路徑規(guī)劃和路障規(guī)避仿真平臺(tái),仿真結(jié)果表明:

        1)本文所提出的算法能夠?qū)崿F(xiàn)智能小車行走過(guò)程中的全局路徑規(guī)劃,對(duì)在環(huán)境中設(shè)置有除起點(diǎn)和目標(biāo)位置以外的路徑規(guī)劃和路障規(guī)避問(wèn)題有著良好的表現(xiàn)。

        2)基于RBF網(wǎng)絡(luò)逼近的Q-learning算法相對(duì)與其他兩種算法其效率最高,收斂速度最快,大大地提高路徑規(guī)劃的效果和收斂速度。

        3)基于Q學(xué)習(xí)算法的策略能使智能小車獲取自學(xué)習(xí)功能,增強(qiáng)了其自導(dǎo)航的能力。為移動(dòng)機(jī)器人、無(wú)人車等在貨物運(yùn)輸、智能駕駛以及軍事方面的應(yīng)用提供了一定的參考意義。

        猜你喜歡
        路障小車神經(jīng)網(wǎng)絡(luò)
        快樂(lè)語(yǔ)文(2020年36期)2021-01-14 01:10:32
        自制小車來(lái)比賽
        利用固體廢棄物制作交通路障可行性
        神經(jīng)網(wǎng)絡(luò)抑制無(wú)線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        劉老師想開小車
        文苑(2018年22期)2018-11-19 02:54:18
        兩輪自平衡小車的設(shè)計(jì)與實(shí)現(xiàn)
        電子制作(2018年8期)2018-06-26 06:43:02
        自動(dòng)駕駛汽車依然面臨多重路障
        紐約將裝永久路障防汽車襲擊
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
        復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
        欧洲一卡2卡三卡4卡免费网站 | 四虎影院在线观看| 国产在线看不卡一区二区| 大香蕉视频在线青青草| 精品人妻一区二区三区四区在线| 成熟丰满熟妇高潮xxxxx视频| 久久久久国产一级毛片高清版A | 国产精品黑丝高跟在线粉嫩 | 青青草视频网站免费观看| 国成成人av一区二区三区| 亚洲国产精品无码久久一区二区| 国产熟妇人妻精品一区二区动漫| 欧美高清视频一区| 一区二区激情偷拍老牛视频av| 亚洲性色av一区二区三区| 久久人人妻人人做人人爽| 亚洲公开免费在线视频| 国产黄色一区二区三区av| 亚洲欧美国产精品久久| 中文乱码人妻系列一区二区| 区一区一日本高清视频在线观看| 亚洲国产精品久久又爽av| 日夜啪啪一区二区三区| 久久精品国产亚洲不av麻豆| 高清成人在线视频播放| 大又大又粗又硬又爽少妇毛片| 亚洲中文字幕无码一区| 国产精品电影久久久久电影网 | 免费va国产高清不卡大片| 国产精品一区二区韩国av| 亚洲av综合av一区| 日韩无码视频淫乱| 一区二区三区在线免费av| 日本人妻少妇精品视频专区| 免费一区二区三区女优视频| 青青国产揄拍视频| 欧美亚洲午夜| 久久人妻精品免费二区| 全黄性性激高免费视频| 日日摸夜夜添夜夜添无码免费视频| 日本成人字幕在线不卡|