亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于強(qiáng)化學(xué)習(xí)的ICRA RoboMaster AI策略研究

        2020-11-06 05:59:06陳明陽劉博茆意風(fēng)
        中阿科技論壇(中英阿文) 2020年9期
        關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò)機(jī)器人比賽

        陳明陽 劉博 茆意風(fēng)

        摘要:本文使用蒙特卡洛樹搜索(MCTS)算法代替?zhèn)鹘y(tǒng)Alpha-Beta搜索算法,采用改變其他對稱方面來訓(xùn)練非對稱情況下的策略,研究對比和分析,認(rèn)為確實可以找到一種通用的自我強(qiáng)化學(xué)習(xí)方法。

        關(guān)鍵詞:ICRA RoboMaster比賽;強(qiáng)化學(xué)習(xí);DQN;Actor-critic算法

        中圖分類號: TP181 ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識碼:A

        1 背景

        強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)是智能體(Agent)以“試錯”的方式進(jìn)行學(xué)習(xí),通過與環(huán)境進(jìn)行交互獲得的獎賞指導(dǎo)行為,目標(biāo)是使智能體獲得最大的獎賞,它被引入機(jī)器學(xué)習(xí)使其更接近于最初的目標(biāo)——人工智能,是人工神經(jīng)網(wǎng)絡(luò)研究的概念,比較晦澀難懂。因此,本文借助備受青年人歡迎的ICRA RoboMaster(以下簡稱ICRA比賽)訓(xùn)練研究強(qiáng)化學(xué)習(xí)的理論問題,把抽象問題具體化、簡單化。

        ICRA比賽的主題為“移動操控挑戰(zhàn)賽”,比賽主要考察移動機(jī)器人定位技術(shù)、物體抓取技術(shù)、目標(biāo)識別技術(shù),以及這些技術(shù)構(gòu)成系統(tǒng)的整體穩(wěn)定性等。通過以ICRA比賽為載體,建立研究強(qiáng)化學(xué)習(xí)的理論模型,利用研究訓(xùn)練和優(yōu)化機(jī)器人在比賽中的路徑和戰(zhàn)斗能力,實現(xiàn)驗證和優(yōu)化RL理論的目的。為了使計算機(jī)更加智能化,采用訓(xùn)練AlphaGo的方法,即使用兩個代理機(jī)器人互相戰(zhàn)斗,通過控制運(yùn)動軌跡和動作,更新優(yōu)化策略,實現(xiàn)機(jī)器人動作升級。首先設(shè)置一個超級敵人并訓(xùn)練機(jī)器人去擊敗它,然后也升級敵人,重新訓(xùn)練機(jī)器人去戰(zhàn)斗。通過這種不斷反復(fù)改進(jìn)和提升的方法,可以獲取更優(yōu)良的性能。

        采用Actor-critic算法,提出并分析一類基于隨機(jī)平穩(wěn)策略的馬爾可夫決策過程優(yōu)化算法,也是兩個時間尺度的算法,其中,Critic使用具有線性近似結(jié)構(gòu)的時域?qū)W習(xí),并且基于Critic提供的信息,在近似梯度方向上更新和優(yōu)化Actor動作。通過研究表明,Critic的特征能夠跨越由Actor的選擇所規(guī)定的子空間,提出收斂性和有待解決的問題策略。

        采用一個通用的強(qiáng)化學(xué)習(xí)算法,通過自我發(fā)揮和學(xué)習(xí),不斷優(yōu)化算法,即研究在AlphaGo中應(yīng)用的策略和AlphaZero的變化。由于AlphaZero不會增加訓(xùn)練數(shù)據(jù),也不會在MCTS期間變換板的位置。因此,使用蒙特卡洛樹搜索(MCTS)算法代替Alpha-Beta搜索算法,采用通過改變其他對稱方面來訓(xùn)練非對稱情況下的策略,找到一種通用的自我游戲強(qiáng)化學(xué)習(xí)方法。

        2 虛擬機(jī)器人環(huán)境——PyGame

        2.1 設(shè)置虛擬機(jī)器人環(huán)境——PyGame

        PyGame是一個基于Python的虛擬格斗游戲環(huán)境,在此過程中接收來自鍵盤和鼠標(biāo)的輸入,應(yīng)用編程接口和預(yù)定義的類降低了虛擬環(huán)境創(chuàng)建的難度。ICRA比賽的真實環(huán)境為8米*5米的場地,兩個機(jī)器人的出場地位于左上角和右下角,補(bǔ)充場地位于黃色十字區(qū)域。機(jī)器人在補(bǔ)給區(qū)被修復(fù),當(dāng)它們站在補(bǔ)給區(qū)時,它們的生命值會持續(xù)上升,ICRA比賽的真實現(xiàn)場環(huán)境如圖1所示。

        在圖1中,機(jī)器人無法通過的障礙物被顯示為深灰色矩形。通過研究決定,采用重新創(chuàng)建ICRA比賽的新戰(zhàn)斗環(huán)境,其中,障礙物和補(bǔ)給區(qū)域與原來的位置相同。為了增加決策的復(fù)雜性,增設(shè)彈藥重裝區(qū),機(jī)器人可以在此區(qū)域進(jìn)行重新裝彈,避免子彈耗盡。

        獎勵規(guī)則設(shè)置如下:在所有迭代開始時,獎勵被初始化為零。如果敵人被擊中,那么射手的獎勵將增加10點,而敵人將減少20點。如果敵人被摧毀,獎勵會激增到100點,如果玩家被摧毀,獎勵本身會下降到200點。彈藥和生命點不會影響?yīng)剟?,而生存時間將以對數(shù)形式加入獎勵。

        強(qiáng)化學(xué)習(xí)就是智能系統(tǒng)從環(huán)境到行為映射的學(xué)習(xí),使獎勵信號(強(qiáng)化信號)函數(shù)值最大,由于外部給出的信息很少,強(qiáng)化學(xué)習(xí)系統(tǒng)必須依靠自身的經(jīng)歷進(jìn)行自我學(xué)習(xí)。通過這種學(xué)習(xí)獲取知識,改進(jìn)行動方案以適應(yīng)環(huán)境。本研究運(yùn)用AlphaZero強(qiáng)化學(xué)習(xí)的方式,不斷完善機(jī)器人獎勵機(jī)制。

        2.2 優(yōu)化Q學(xué)習(xí)的算法

        Q-learning是強(qiáng)化學(xué)習(xí)中的一個決策算法,是讓計算機(jī)實現(xiàn)從一開始完全隨機(jī)地進(jìn)行操作,通過不斷地嘗試,從錯誤中學(xué)習(xí),最后找到規(guī)律,學(xué)會了達(dá)到目的的方法。計算機(jī)在不斷的嘗試中更新自己的行為,從而一步步學(xué)習(xí)如何操作自己的行為得到高分。它主要包含四個元素:Agent、環(huán)境狀態(tài)、行動、獎勵。強(qiáng)化學(xué)習(xí)的目標(biāo)就是獲得最多的累計獎勵。

        計算機(jī)就是Agent,它試圖通過采取行動來操縱環(huán)境,并且從一個狀態(tài)轉(zhuǎn)變到另一個狀態(tài),當(dāng)它完成任務(wù)時給高分(獎勵),但是當(dāng)它沒完成任務(wù)時,給低分(無獎勵)。這也是強(qiáng)化學(xué)習(xí)的核心思想,所以強(qiáng)化學(xué)習(xí)具有分?jǐn)?shù)導(dǎo)向性。

        我們實現(xiàn)的深度Q學(xué)習(xí)是基于PyTorch的卷積神經(jīng)網(wǎng)絡(luò)。網(wǎng)絡(luò)的輸入是模型訓(xùn)練過程中PyGame環(huán)境的一個截圖,輸出是給定輸入環(huán)境下的一個預(yù)測動作。該動作包括四個方向的移動(上、下、左、打),兩個槍操作方向(順時針、逆時針)和射擊。該神經(jīng)網(wǎng)絡(luò)為三層卷積神經(jīng)網(wǎng)絡(luò),具有不同大小的核和漏項。激活層被分配給非線性ReLU層,我們選擇時間誤差作為損失函數(shù)(Loss Function),兩者具有相同的損失函數(shù)。把具有相同的最佳點作為傳統(tǒng)的Q-learning函數(shù)。下面列出了這個損失函數(shù)的梯度下降:

        ψk+1=ψk-η∨ψ(qψk(x,u)-target(x;ψk)

        因此,Q-learning的目標(biāo)函數(shù)為:

        Q(st,a)←Q(st,a)+at+1+γmaxQ(st+1,p)-Q(st,a)

        本模型的目標(biāo)是利用神經(jīng)網(wǎng)絡(luò)的非線性特性來模擬這個函數(shù),該模型產(chǎn)生Q-learning函數(shù)的估計,使用蒙特卡洛樹搜索(MCTS)在Q-learning中找到相同的最優(yōu)值。

        2.3 Actor-critic模型設(shè)計

        Actor(機(jī)器人)為了得到盡量高的獎賞(Reward),需要一個策略:輸入state,輸出action,然后用神經(jīng)網(wǎng)絡(luò)來近似這個函數(shù),剩下的任務(wù)就是如何訓(xùn)練神經(jīng)網(wǎng)絡(luò),得到更高的reward。Critic(評委):因為actor基于策略policy,所以需要評委critic計算出對應(yīng)actor的value來反饋給actor,判斷它的優(yōu)點和缺點,在此過程中需要使用到之前的Q值,這個Q值可以用神經(jīng)網(wǎng)絡(luò)來近似。

        本研究實現(xiàn)Actor-critic模型設(shè)定在PyTorch中完成,模型的輸入是抽象的狀態(tài)元組,狀態(tài)元組代表在某一時刻機(jī)器人的狀態(tài),包括機(jī)器人的位置、速度、運(yùn)行狀況和子彈數(shù)量等。Critic模型采用價值函數(shù)進(jìn)行估計,其中,選擇Q值作為估計的目標(biāo)值。而Actor模型是決策制定,該模型按照Critic建議的方向更新政策分配,其中,Critic函數(shù)和Actor函數(shù)都屬于神經(jīng)網(wǎng)絡(luò)模擬。

        2.4 多人戰(zhàn)斗模型設(shè)計

        上述模型設(shè)計是在單人環(huán)境中實現(xiàn),通過計算機(jī)自動控制敵人,電腦玩家可以忽略障礙物的封鎖,并且擁有無限數(shù)量的彈藥。優(yōu)化后的虛擬環(huán)境中可以實現(xiàn)2人戰(zhàn)斗,兩個玩家在后端由兩個獨立的模型控制,通過重新部署AlphaGo戰(zhàn)略,試圖找出讓機(jī)器人從零開始學(xué)習(xí)規(guī)則的策略。

        3 仿真結(jié)果

        3.1 DQN模型結(jié)果

        我們采用Deep Q-learning算法(以下簡稱DQN),它是基于價值的算法,這種算法中只有一個值函數(shù)網(wǎng)絡(luò)。DQN中關(guān)鍵點是引用值函數(shù)近似和損失函數(shù),強(qiáng)化學(xué)習(xí)是一個反復(fù)迭代的過程,每一次迭代要解決兩個問題:給定一個策略求值函數(shù)和根據(jù)值函數(shù)來更新策略。DQN每次迭代更新神經(jīng)網(wǎng)絡(luò)的參數(shù),首先會定義一個損失函數(shù)(Loss Function),然后使用梯度下降的優(yōu)化算法(GradientDescent,GD)來更新參數(shù)。

        異步策略學(xué)習(xí)(Off-policy Learning)是Q-learning的特點,DQN中也沿用了這一特點。DQN中使用經(jīng)驗回放,即用一個記憶來存儲經(jīng)歷過的數(shù)據(jù),每次更新參數(shù)的時候從記憶中抽取一部分的數(shù)據(jù)來用于更新,以此來打破數(shù)據(jù)間的關(guān)聯(lián)。

        本試驗通過采用DQN模型仿真結(jié)果對比,DQN的訓(xùn)練效果明顯優(yōu)于Actor-critic的訓(xùn)練效果,并且卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)在決策過程中更能有效地找到合適的動作,這是因為圖像的復(fù)雜性使模型更容易判斷游戲情況,優(yōu)化后的圖像包含許多有用信息,如封鎖區(qū)域和不同的供電區(qū)域位置。然而,有時這種模式會以錯誤的方式表現(xiàn),比如向空中射擊和在進(jìn)入近距離戰(zhàn)斗前浪費彈藥,采用的DQN模型獎勵功能如圖2所示。

        3.2 Actor-critic結(jié)果

        由于選擇有限維數(shù)的狀態(tài)元組,模型只能感知機(jī)器人的當(dāng)前狀態(tài),無法告訴模型上電區(qū)域和障礙物的位置。此外,這種方法的訓(xùn)練難度大于前一種方法,這意味著訓(xùn)練時間較短,可能會導(dǎo)致模型無法收斂到更大的期望回報。從圖3中可以看出,該模型在提高獎勵期望方面并不有效。

        3.3 多人戰(zhàn)斗模型結(jié)果

        從獎勵情節(jié)中可以看到,有時玩家能夠找到消滅敵人的策略,而有時兩名玩家在空白區(qū)域徘徊。這是因為訓(xùn)練時間有限,導(dǎo)致模型無法探索虛擬環(huán)境中的所有可能性,圖4和圖5列出了兩個玩家的獎勵結(jié)果。

        4 結(jié)語

        通過研究ICRA比賽為載體,進(jìn)一步應(yīng)用和驗證強(qiáng)化學(xué)習(xí)算法,實現(xiàn)驗證和優(yōu)化Q學(xué)習(xí)基礎(chǔ)理論研究為目的。選擇ICRA比賽更新強(qiáng)化學(xué)習(xí)策略,一是由于ICRA比賽比較直觀和深受歡迎,二是機(jī)器人比賽是多項綜合技術(shù)的融合,是對強(qiáng)化學(xué)習(xí)基礎(chǔ)理論的考驗。與無模型的深度強(qiáng)化學(xué)習(xí)算法相比,還存在一定距離。在后續(xù)的工作中,需要更多的時間和更先進(jìn)的設(shè)備完善本模型,PyGame環(huán)境每次都需要截屏,這會浪費大量的計算資源,因此以后選擇更加簡練的環(huán)境,以此來提高效率。未來,可以通過調(diào)整該模型的神經(jīng)網(wǎng)絡(luò)和學(xué)習(xí)策略來實施進(jìn)一步優(yōu)化。同時,隨著機(jī)器人在環(huán)境中收集樣本的增加,將其與無模型的強(qiáng)化學(xué)習(xí)方法(Model-free RL)結(jié)合,將能在動態(tài)系統(tǒng)環(huán)境下實現(xiàn)更好的控制效果。

        (責(zé)任編輯:武多多)

        參考文獻(xiàn):

        [1]柯良軍,王小強(qiáng).強(qiáng)化學(xué)習(xí)[M].北京:清華大學(xué)出版社,2019.

        [2]周炯槃,龐沁華,續(xù)大我,等.通信原理[M].3版.北京:北京郵電大學(xué)出版社,2008.

        [3]聞欣研.MATLAB從入門到精通[M].3版.北京:清華大學(xué)出版社,2017.

        [4]田寶玉,楊潔,賀志強(qiáng),等.信息論基礎(chǔ)[M].2版.北京:人民郵電出版社,2016.?

        [5]劉寶玲,李立華,張曉瑩,等.通信電子電路[M].北京:高等教育出版社,2007.

        猜你喜歡
        神經(jīng)網(wǎng)絡(luò)機(jī)器人比賽
        神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        發(fā)芽比賽
        大灰狼(2019年4期)2019-05-14 16:38:38
        選美比賽
        比賽
        最瘋狂的比賽
        智慧少年(2016年2期)2016-06-24 06:12:54
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
        復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
        機(jī)器人來幫你
        認(rèn)識機(jī)器人
        機(jī)器人來啦
        中文在线а√天堂官网| 久久一二区女厕偷拍图| 国产成人av一区二区三区在线观看| 九九精品国产亚洲av日韩| 久久精品这里只有精品| 国产在线观看不卡网址| 漂亮人妻被强了中文字幕| 国产午夜成人av在线播放| 久久精品岛国av一区二区无码| 亚洲午夜无码久久久久软件| 成av人片一区二区久久| 337p日本欧洲亚洲大胆| 天天操夜夜操| 一区二区三区四区亚洲综合| 丝袜美腿福利视频在线| 帮老师解开蕾丝奶罩吸乳网站| 欧美日韩国产成人高清视| av一区二区不卡久久| 一区二区三区四区草逼福利视频| 夜夜添夜夜添夜夜摸夜夜摸 | 精品一区二区三区牛牛| 亚洲一区二区三区小说| 欧美aa大片免费观看视频| 日韩精品视频在线观看免费| 国产一级内射一片视频免费| 天堂а在线中文在线新版| 国产精品丝袜黑色高跟鞋| 中文字幕一区二区三区.| 国产一区二区三区激情视频| 天堂国精产品2023年| 亚洲欧美日韩高清中文在线| 青青草免费观看视频免费| 久久婷婷五月国产色综合| 九九久久精品国产| 久久麻豆精亚洲av品国产精品| 女同精品一区二区久久| 久久人妻内射无码一区三区| 伊人婷婷色香五月综合缴激情| 五月婷婷丁香视频在线观看| 国产不卡视频一区二区三区| 欧美一片二片午夜福利在线快|