亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Q(λ)-learning的移動(dòng)機(jī)器人路徑規(guī)劃改進(jìn)探索方法

        2019-12-20 07:56:08趙亞川趙忠英張平陸
        自動(dòng)化與儀表 2019年11期
        關(guān)鍵詞:步數(shù)移動(dòng)機(jī)器人成功率

        王 健,趙亞川,趙忠英 ,張平陸

        (1.沈陽(yáng)新松機(jī)器人自動(dòng)化股份有限公司 特種機(jī)器人BG,沈陽(yáng) 110169.2.沈陽(yáng)科技學(xué)院 機(jī)械與交通工程系,沈陽(yáng) 110167)

        路徑規(guī)劃是移動(dòng)機(jī)器人導(dǎo)航的重要組成部分,其目標(biāo)是在復(fù)雜環(huán)境下能夠?qū)ふ乙粭l從起點(diǎn)到終點(diǎn)的無(wú)碰撞路徑。路徑規(guī)劃的優(yōu)劣直接影響移動(dòng)機(jī)器人的運(yùn)動(dòng)效率、機(jī)器損耗和工作效率?;趶?qiáng)化學(xué)習(xí)的智能移動(dòng)機(jī)器人的導(dǎo)航和避障正在成為一個(gè)重要的研究方向。與其它機(jī)器學(xué)習(xí)方法不同,增強(qiáng)學(xué)習(xí)方法無(wú)需監(jiān)督信號(hào),通過(guò)智能體與環(huán)境之間的信息交互進(jìn)行“試錯(cuò)”,以極大化評(píng)價(jià)反饋信號(hào)為目標(biāo),通過(guò)學(xué)習(xí)得到最優(yōu)或次優(yōu)的搜索策略。

        目前強(qiáng)化學(xué)習(xí)已經(jīng)引起國(guó)內(nèi)外機(jī)器學(xué)習(xí)領(lǐng)域?qū)W者的廣泛關(guān)注。文獻(xiàn)[1]所提出的基于獎(jiǎng)賞的強(qiáng)化學(xué)習(xí)方法具有較快的收斂速度;文獻(xiàn)[2]深入研究基于BP神經(jīng)網(wǎng)絡(luò)的Q-learning,實(shí)現(xiàn)移動(dòng)機(jī)器人環(huán)境下的自主導(dǎo)航;文獻(xiàn)[3]將強(qiáng)化學(xué)習(xí)方法用于機(jī)器人的任務(wù)規(guī)劃和調(diào)度;文獻(xiàn)[4]以神經(jīng)網(wǎng)絡(luò)擬合Q-learning中的Q函數(shù),再用經(jīng)驗(yàn)回放和目標(biāo)網(wǎng)絡(luò)方法改善Q-learning收斂穩(wěn)定性;文獻(xiàn)[5]基于模糊邏輯的路徑規(guī)劃方法,利用狀態(tài)空間與動(dòng)作空間映射關(guān)系,解決了人工勢(shì)場(chǎng)法容易陷入局部極小問(wèn)題。

        強(qiáng)化學(xué)習(xí)在未知環(huán)境下求解具有較少先驗(yàn)信息的問(wèn)題具有巨大優(yōu)勢(shì),是目前機(jī)器學(xué)習(xí)中富有挑戰(zhàn)性和廣泛應(yīng)用前景的研究領(lǐng)域之一[6-8]。

        在移動(dòng)機(jī)器人路徑規(guī)劃相關(guān)應(yīng)用中,傳統(tǒng)的基于Q(λ)-learning探索方法存在由于探索不平衡致使無(wú)法找到最優(yōu)解的問(wèn)題。故在此通過(guò)改進(jìn)探索方法,提出基于成功率動(dòng)態(tài)調(diào)整探索因子的探索方法。

        1 基于Q(λ)-learning的改進(jìn)探索方法

        Q-learning 是以狀態(tài)-動(dòng)作對(duì)應(yīng)的 Q(s,a)為估計(jì)函數(shù),逐漸減小相鄰狀態(tài)間Q值估計(jì)的差異達(dá)到收斂條件。更新公式為

        引入跡的思想,其更新公式為

        誤差項(xiàng)為

        更新動(dòng)作公式為

        解決探索利用平衡問(wèn)題常用的方法是ε-貪心策略。這種方法探索環(huán)境時(shí),隨著訓(xùn)練時(shí)間的增加而減小探索因子。搜索函數(shù)為

        式中:σ為0~1之間的隨機(jī)數(shù);ε為探索因子,為0~1之間的數(shù)。傳統(tǒng)調(diào)整探索因子的方法過(guò)多利用環(huán)境快速收斂到對(duì)應(yīng)解,但由于探索不夠充分,往往很難得到最優(yōu)解。在此,采用基于成功率的方法動(dòng)態(tài)調(diào)整探索因子ε,適時(shí)的鼓勵(lì)探索,使移動(dòng)機(jī)器人對(duì)環(huán)境探索的更加完全,找到更多解,從而找到最優(yōu)解。其算法流程如圖1所示。

        隨著訓(xùn)練次數(shù)的增加,移動(dòng)機(jī)器人找到目標(biāo)路徑成功率逐漸增加,此時(shí)判斷路徑解數(shù)量。當(dāng)?shù)陀谧钌俾窂浇鈹?shù)量時(shí),增大探索因子,以尋找更多解;當(dāng)高于最多路徑解時(shí),說(shuō)明移動(dòng)機(jī)器人對(duì)環(huán)境熟悉程度已經(jīng)很高,此時(shí)逐漸降低探索因子,直至降為0。

        圖1 動(dòng)態(tài)調(diào)整探索因子算法流程Fig.1 Dynamic exploring factor algorithm flow chart

        基于Q(λ)-learning的改進(jìn)探索方法,具體實(shí)現(xiàn)步驟如下:

        步驟1 初始化,并獲取當(dāng)前狀態(tài)s;

        步驟2 進(jìn)行第i次迭代計(jì)算,最大迭代次數(shù)為n,根據(jù)圖1所示流程更新探索因子ε;

        步驟3 生成隨機(jī)數(shù)σ,執(zhí)行搜索策略π(s),如式(5)所示;

        步驟4 執(zhí)行動(dòng)作a,得到獎(jiǎng)勵(lì)r,轉(zhuǎn)移到新?tīng)顟B(tài) s′;

        步驟5 根據(jù)s′是否為目標(biāo)狀態(tài)更新成功率Suc,并根據(jù)路徑解是否為新解,更新路徑解數(shù)量Path;

        步驟6 判斷s′是否為終止?fàn)顟B(tài),如果是則跳到步驟2進(jìn)行下一次迭代(i=i+1),如果不是則跳到步驟7;

        步驟7 根據(jù)式(3),計(jì)算誤差;

        步驟8 根據(jù)式(2),更新動(dòng)作狀態(tài)跡,并更新其他動(dòng)作狀態(tài)跡;

        步驟9 根據(jù)式(4),更新動(dòng)作值函數(shù);

        步驟10 s←s′,跳到步驟3搜索下一個(gè)狀態(tài)。

        2 仿真試驗(yàn)與結(jié)果分析

        通過(guò)仿真試驗(yàn)來(lái)驗(yàn)證改進(jìn)探索方法的有效性。試驗(yàn)環(huán)境采用10×10柵格地圖,如圖2所示。由圖可見(jiàn),以圖左上角為移動(dòng)機(jī)器人起點(diǎn),右下角為目標(biāo),移動(dòng)機(jī)器人無(wú)法穿越黑色柵格障礙物。

        圖2 10×10柵格地圖Fig.2 10×10 grid map

        移動(dòng)機(jī)器人動(dòng)作集A包括上移、下移、左移、右移4個(gè)動(dòng)作。狀態(tài)集用1~100表示,障礙物和目標(biāo)狀態(tài)為終止?fàn)顟B(tài)。當(dāng)移動(dòng)機(jī)器人移動(dòng)到終止?fàn)顟B(tài),本次訓(xùn)練循環(huán)結(jié)束,重新進(jìn)行下一次訓(xùn)練。

        將本文方法與典型的ε-decreasing探索方法進(jìn)行仿真對(duì)比試驗(yàn),驗(yàn)證該方法的有效性。ε-decreasing探索方法采用式(6)更新探索因子,即

        式中:Vinit為探索因子初始值;i為迭代學(xué)習(xí)次數(shù);S為步長(zhǎng)。

        Q(λ)-learning算法中幾個(gè)重要的參數(shù)會(huì)直接影響收斂速度。仿真試驗(yàn)中,折扣因子γ初始化為0.8,學(xué)習(xí)速率α初始化為0.05。在此,探索因子ε初始化為0.5,ε-decreasing方法初始化為1,最大探索步數(shù)初始化為100。當(dāng)搜索步數(shù)超過(guò)最大步數(shù)時(shí),仍未到達(dá)終止?fàn)顟B(tài),則認(rèn)為此次訓(xùn)練失敗,重新進(jìn)入下一次訓(xùn)練。

        獎(jiǎng)勵(lì)函數(shù)設(shè)置:當(dāng)移動(dòng)機(jī)器人到達(dá)目標(biāo)狀態(tài)時(shí)獎(jiǎng)勵(lì)1,當(dāng)碰到障礙物得到-1的懲罰,到達(dá)其余狀態(tài)時(shí)得到-0.05的懲罰,用于加快向目標(biāo)狀態(tài)移動(dòng)。

        ε-decreasing方法收斂曲線如圖3所示,約在訓(xùn)練13000次時(shí)收斂;基于成功率搜索方法收斂曲線如圖4所示,約在訓(xùn)練32000次時(shí)收斂。兩者收斂時(shí)間差別較大,是因?yàn)楫?dāng)ε-decreasing搜索方法找到一條最優(yōu)策略時(shí),有很大的幾率不去試探新的最優(yōu)策略,很快地達(dá)到收斂狀態(tài),本文方法會(huì)根據(jù)最優(yōu)解的搜索情況適當(dāng)增大探索因子,犧牲收斂時(shí)間來(lái)尋找更多最優(yōu)解。

        圖3 ε-decreasing方法收斂曲線Fig.3 Convergence curve based onε-decreasing search method

        圖4 基于成功率搜索方法收斂曲線Fig.4 Convergence curve based on success rate search method

        2種搜索方法訓(xùn)練完成的最優(yōu)策略分別如圖5和圖6所示。由圖5可見(jiàn),ε-decreasing搜索策略中,一些狀態(tài)并未得到最優(yōu)解(陰影表示),以圖5中狀態(tài)83和87為例,最優(yōu)解應(yīng)分別為向右和向下,由于訓(xùn)練過(guò)程中隨著探索因子不斷減小,不再進(jìn)行新的探索,因此并未得到最優(yōu)解。由圖6可見(jiàn),基于成功率的搜索策略,完全接近于最優(yōu)策略。

        圖5 基于ε-decreasing方法收斂策略Fig.5 Search strategy based onε-decreasing method

        圖6 基于成功率搜索方法收斂策略Fig.6 Search strategy based on success rate search method

        統(tǒng)計(jì)移動(dòng)機(jī)器人在地圖所有狀態(tài)下到達(dá)目標(biāo)狀態(tài)的平均步數(shù)見(jiàn)表1。其中,2號(hào)~5號(hào)試驗(yàn)為使用同樣的方法,另外生成的4個(gè)障礙物分布不同的柵格地圖,采用同樣的參數(shù)完成訓(xùn)練。

        表1 平均步數(shù)的對(duì)比Tab.1 Comparison of average step

        移動(dòng)機(jī)器人移動(dòng)的平均步數(shù)越少,說(shuō)明策略越優(yōu)。由表1可知,本文搜索策略在4次試驗(yàn)中,平均步數(shù)均明顯低于ε-decreasing策略。

        3 結(jié)語(yǔ)

        本文提出了一種基于成功率的探索方法,采用Q(λ)-learning算法對(duì)移動(dòng)機(jī)器人進(jìn)行路徑規(guī)劃,引入成功率的改進(jìn)搜索方法,解決了強(qiáng)化學(xué)習(xí)中存在的探索利用平衡問(wèn)題。最后通過(guò)仿真實(shí)驗(yàn)將改進(jìn)搜索方法與經(jīng)典ε-decreasing搜索方法作對(duì)比,驗(yàn)證了該方法的有效性。

        猜你喜歡
        步數(shù)移動(dòng)機(jī)器人成功率
        速度和步數(shù),哪個(gè)更重要
        移動(dòng)機(jī)器人自主動(dòng)態(tài)避障方法
        成功率超70%!一張冬棚賺40萬(wàn)~50萬(wàn)元,羅氏沼蝦今年將有多火?
        楚國(guó)的探索之旅
        奇妙博物館(2021年4期)2021-05-04 08:59:48
        如何提高試管嬰兒成功率
        微信運(yùn)動(dòng)步數(shù)識(shí)人指南
        小演奏家(2018年9期)2018-12-06 08:42:02
        如何提高試管嬰兒成功率
        基于Twincat的移動(dòng)機(jī)器人制孔系統(tǒng)
        研究發(fā)現(xiàn):面試排第四,成功率最高等4則
        海峽姐妹(2015年5期)2015-02-27 15:11:00
        極坐標(biāo)系下移動(dòng)機(jī)器人的點(diǎn)鎮(zhèn)定
        精品露脸熟女区一粉嫩av| 精品区2区3区4区产品乱码9| 天天弄天天模| 黄色网址国产| 日韩精品极品视频在线观看蜜桃| 麻豆国产成人av高清在线| 日本最新一区二区三区视频观看| 亚洲熟妇丰满多毛xxxx| 亚洲国产成人久久一区www| 久久精品爱国产免费久久| 久久免费看视频少妇高潮| 日韩欧美一区二区三区免费观看| 亚洲人成77777在线播放网站| 成人网站免费大全日韩国产| 国产精品美女AV免费观看| 国产女主播大秀在线观看| 一区二区视频在线观看地址| 国产精品久久久国产盗摄| 中国一级毛片在线观看| 2021国产成人精品国产| 亚洲一区二区不卡日韩| 三级国产高清在线观看| 成人亚洲一区二区三区在线| 亚洲日韩av无码中文字幕美国| 伊人久久成人成综合网222| 成人国产在线观看高清不卡| 一区二区三区手机看片日本韩国| 一二三区亚洲av偷拍| 欧美熟妇另类久久久久久不卡| 亚洲av无码潮喷在线观看| 妺妺窝人体色www聚色窝韩国| 国产亚洲亚洲精品视频| 一本一道久久精品综合| 欧美牲交a欧美牲交aⅴ免费真| 少妇内射高潮福利炮| 国产极品喷水视频| 99久久精品人妻少妇一| 欧美牲交a欧美牲交aⅴ| 久久久久久久女国产乱让韩| 在线毛片一区二区不卡视频| 蜜桃夜夜爽天天爽三区麻豆av|