亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進(jìn)Deep Q Network的路徑規(guī)劃算法

        2021-03-02 08:21:52山東交通學(xué)院信息科學(xué)與電氣工程學(xué)院人工智能學(xué)院張洪博
        電子世界 2021年24期
        關(guān)鍵詞:移動(dòng)機(jī)器人障礙物矩陣

        山東交通學(xué)院信息科學(xué)與電氣工程學(xué)院(人工智能學(xué)院) 張洪博

        隨著計(jì)算機(jī)技術(shù)、人工智能理論、即時(shí)定位與地圖構(gòu)建(Simultaneous Localization And Mapping,SLAM)等技術(shù)的不斷成熟與發(fā)展,機(jī)器人技術(shù)的研究已經(jīng)發(fā)展到一個(gè)嶄新的階段。路徑規(guī)劃作為機(jī)器人運(yùn)動(dòng)不可或缺的一部分,近些年國(guó)內(nèi)外專家對(duì)其研究的熱情持續(xù)高漲,它已經(jīng)成為移動(dòng)機(jī)器人趨向人工智能化階段的核心技術(shù)。路徑規(guī)劃的目的是讓機(jī)器人在規(guī)定的區(qū)域內(nèi)找到一條從起點(diǎn)到終點(diǎn)的無碰撞安全路徑,并讓這條路徑盡可能的短。機(jī)器人在運(yùn)動(dòng)過程中,能夠?qū)崟r(shí)模擬出所在的環(huán)境。通過控制自身運(yùn)動(dòng)狀態(tài),探測(cè)障礙物并計(jì)算安全路徑,最后成功到達(dá)任務(wù)地點(diǎn)。因此,一個(gè)性能良好的路徑規(guī)劃算法對(duì)移動(dòng)機(jī)器人非常重要。移動(dòng)機(jī)器人目前在許多領(lǐng)域都有著廣泛地應(yīng)用,比如家庭掃地、物流分揀等。尤其在一些環(huán)境比較惡劣的情況下,使用移動(dòng)機(jī)器人可以有效地避免對(duì)人身安全的危害。

        移動(dòng)機(jī)器人路徑規(guī)劃始于20世紀(jì)60年代末期,早期的迪杰斯特拉算法,后續(xù)的A*算法、人工勢(shì)場(chǎng)法、粒子群算法、RRT算法等都是經(jīng)典之作。但傳統(tǒng)的路徑規(guī)劃算法自身的收斂速度較慢、計(jì)算復(fù)雜度較高及適用性較差,所以將深度強(qiáng)化學(xué)習(xí)方法引入到路徑規(guī)劃中。DQN算法作為深度強(qiáng)化學(xué)習(xí)的一種,本文在其基礎(chǔ)上,改進(jìn)樣本訓(xùn)練方法,提高路徑規(guī)劃的效率、準(zhǔn)確性以及實(shí)時(shí)性。

        1 算法介紹

        1.1 DQN算法

        DQN算法作為深度強(qiáng)化學(xué)習(xí)的代表之一,不僅在Atari游戲中被測(cè)試出有很好的效果,在路徑規(guī)劃中也表現(xiàn)優(yōu)異。該算法在Qlearning算法的基礎(chǔ)上,結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)來擬合動(dòng)作值函數(shù)。通過經(jīng)驗(yàn)回放(Experience Replay)打破數(shù)據(jù)間的關(guān)聯(lián)性,從而解決數(shù)據(jù)的非靜態(tài)分布問題,并使用目標(biāo)網(wǎng)絡(luò)和當(dāng)前網(wǎng)絡(luò)共同解決模型穩(wěn)定性問題。相比較于其他模型,DQN具有較強(qiáng)的通用性,可用于解決不同類型的問題。DQN算法的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

        圖1中,DQN中存在兩個(gè)結(jié)構(gòu)完全相同但是參數(shù)卻不同的網(wǎng)絡(luò),即目標(biāo)網(wǎng)絡(luò)和當(dāng)前網(wǎng)絡(luò)。當(dāng)前網(wǎng)絡(luò)使用的是最新的參數(shù),而目標(biāo)網(wǎng)絡(luò)所用的參數(shù)是N步之前的。Q(s,a;θ)表示當(dāng)前網(wǎng)絡(luò)的輸出,用來評(píng)估當(dāng)前的狀態(tài)-動(dòng)作對(duì);Q(s′,a′;θ-)表示目標(biāo)網(wǎng)絡(luò)的輸出。根據(jù)公式(1)可以解出TargetQ,并根據(jù)公式(2)更新當(dāng)前網(wǎng)絡(luò)的參數(shù)。每經(jīng)過一定次數(shù)的迭代,將當(dāng)前網(wǎng)絡(luò)的參數(shù)復(fù)制給目標(biāo)網(wǎng)絡(luò)。這樣就完成了一次學(xué)習(xí)過程。

        圖1 DQN算法結(jié)構(gòu)圖

        1.2 本文算法

        DQN算法在進(jìn)行樣本數(shù)據(jù)采集的時(shí)候,沒有對(duì)樣本數(shù)據(jù)進(jìn)行優(yōu)良區(qū)分。在訓(xùn)練的時(shí)候,所有的樣本都有相同的概率被隨機(jī)抽取到。然而,每個(gè)樣本對(duì)訓(xùn)練的貢獻(xiàn)度是不一樣的。本文對(duì)原DQN算法進(jìn)行了改進(jìn),重點(diǎn)關(guān)注機(jī)器人當(dāng)前位置的相鄰位置,設(shè)計(jì)如圖2所示的矩陣,對(duì)訓(xùn)練樣本進(jìn)行相似度篩選。

        圖2 篩選矩陣

        首先對(duì)當(dāng)前點(diǎn)的周邊情況進(jìn)行計(jì)算,返回一個(gè)代表周邊障礙物情況的3×3矩陣,1代表障礙物,0代表空白,如圖3所示。

        圖3 障礙物矩陣

        對(duì)兩個(gè)矩陣進(jìn)行哈達(dá)馬積運(yùn)算,然后求和,由此得到一個(gè)數(shù)值。通過實(shí)驗(yàn)驗(yàn)證得到,當(dāng)表示周邊障礙物的矩陣改變時(shí),最后求出的結(jié)果也會(huì)改變,這說明設(shè)計(jì)的矩陣可以用來計(jì)算訓(xùn)練樣本的相似性。通過此方法,將相似度高的樣本數(shù)據(jù)剔除,減少冗余樣本,保留樣本的多樣性。

        2 實(shí)驗(yàn)過程

        2.1 實(shí)驗(yàn)設(shè)置

        本實(shí)驗(yàn)采用柵格地圖進(jìn)行仿真,其中柵格地圖的大小為25×25。在每一張測(cè)試地圖里設(shè)定起始點(diǎn)和目標(biāo)點(diǎn),然后隨機(jī)生成設(shè)定數(shù)量的障礙物。如圖4所示。

        圖4 仿真環(huán)境

        將每一張柵格地圖作為輸入輸送到神經(jīng)網(wǎng)絡(luò),分別利用DQN算法和改進(jìn)后的DQN算法進(jìn)行測(cè)試。如果能從起點(diǎn)走到終點(diǎn),并且不與障礙物發(fā)生碰撞,則把找到的路徑畫出。否則即為失敗,不顯示圖像。

        2.2 實(shí)驗(yàn)結(jié)果

        實(shí)驗(yàn)使用隨機(jī)生成的20張25×25的柵格地圖。藍(lán)色方塊代表當(dāng)前位置,綠色方塊代表終點(diǎn)位置,白色為可以通過的路徑。在地圖中隨機(jī)生成40個(gè)代表障礙物的黑色方塊,從起始點(diǎn)無碰撞走到目標(biāo)點(diǎn)即為成功。圖5和圖6分別為DQN算法的測(cè)試地圖和測(cè)試結(jié)果,圖7和圖8分別為改進(jìn)DQN算法的測(cè)試地圖和測(cè)試結(jié)果。

        圖7 改進(jìn)DQN算法的測(cè)試地圖

        圖8 改進(jìn)DQN算法的測(cè)試結(jié)果

        DQN算法的測(cè)試地圖如圖5所示。

        圖5 DQN算法的測(cè)試地圖

        DQN算法的測(cè)試結(jié)果如圖6所示。

        圖6 DQN算法的測(cè)試結(jié)果

        對(duì)DQN算法使用柵格地圖進(jìn)行測(cè)試,經(jīng)過訓(xùn)練,獲得了穩(wěn)定的路徑規(guī)劃能力。在20張測(cè)試地圖中,成功到達(dá)目標(biāo)點(diǎn)的有16張,成功率達(dá)到80%。

        改進(jìn)DQN算法的測(cè)試地圖如圖7所示。

        改進(jìn)DQN算法的測(cè)試結(jié)果如圖8所示。

        在實(shí)驗(yàn)中,DQN算法對(duì)路徑規(guī)劃的成功率達(dá)到了80%,改進(jìn)的DQN算法成功率更是達(dá)到95%。相比較而言,改進(jìn)后的DQN算法比原始DQN算法提高了15%的成功率,效果更好。

        結(jié)論:本文針對(duì)原DQN算法存在樣本訓(xùn)練效率低下,樣本冗余等問題,提出了一種改進(jìn)的DQN算法。本文算法通過使用設(shè)計(jì)的矩陣對(duì)數(shù)據(jù)樣本的訓(xùn)練方式進(jìn)行優(yōu)化,剔除相似度高的數(shù)據(jù)樣本,獲得高質(zhì)量的樣本數(shù)據(jù)。通過測(cè)試,本文算法提高了訓(xùn)練模型的準(zhǔn)確度,在規(guī)劃路徑方面有明顯地提升。

        猜你喜歡
        移動(dòng)機(jī)器人障礙物矩陣
        移動(dòng)機(jī)器人自主動(dòng)態(tài)避障方法
        高低翻越
        SelTrac?CBTC系統(tǒng)中非通信障礙物的設(shè)計(jì)和處理
        基于Twincat的移動(dòng)機(jī)器人制孔系統(tǒng)
        初等行變換與初等列變換并用求逆矩陣
        矩陣
        南都周刊(2015年4期)2015-09-10 07:22:44
        矩陣
        南都周刊(2015年3期)2015-09-10 07:22:44
        矩陣
        南都周刊(2015年1期)2015-09-10 07:22:44
        極坐標(biāo)系下移動(dòng)機(jī)器人的點(diǎn)鎮(zhèn)定
        基于引導(dǎo)角的非完整移動(dòng)機(jī)器人軌跡跟蹤控制
        欧美乱人伦人妻中文字幕| 中文字幕一区二区区免| 日本一区二区不卡在线| 日本精品少妇一区二区三区| 成人综合网亚洲伊人| 巨乳av夹蜜桃站台蜜桃机成人| 中文字幕视频一区懂色| 精品午夜福利在线观看| 欧洲人妻丰满av无码久久不卡| 精品九九视频| 亚洲女人毛茸茸的视频| 国产中文三级全黄| 亚洲精品无码久久久久sm| 九九精品国产99精品| 日本一区二区不卡在线| 麻豆tv入口在线看| 在线视频一区色| 99久久免费精品色老| 色婷婷色丁香久久婷婷| 成人h视频在线观看| 久久中文字幕日韩精品| 丝袜美腿在线观看视频| 丰满熟女高潮毛茸茸欧洲视频| 中文字幕av日韩精品一区二区| 蜜桃在线观看免费高清完整版| 日本免费一区二区三区影院 | 欧美亚洲日本在线| 亚洲综合免费在线视频| 亚洲av精二区三区日韩| 精品日韩欧美一区二区在线播放| 在线观看av国产自拍| 91国产自拍精品视频| 欧美人妻少妇精品久久黑人| 日韩成人免费一级毛片| 中文字幕色婷婷在线视频| 国产高清在线观看av片| 人妻aⅴ无码一区二区三区| 日韩精品一区二区亚洲av性色 | 久久本道久久综合一人| 日韩大片高清播放器大全| www插插插无码免费视频网站 |