亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于層級深度強(qiáng)化學(xué)習(xí)的間歇控制算法

        2019-01-22 06:54:48李廣源史海波孫杳如
        現(xiàn)代計(jì)算機(jī) 2018年35期
        關(guān)鍵詞:動作環(huán)境模型

        李廣源,史海波,孫杳如

        (同濟(jì)大學(xué)電子與信息工程學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)系,上海 201804)

        0 引言

        近年來,人工智能領(lǐng)域中出現(xiàn)了多種針對強(qiáng)化學(xué)習(xí)算法的測試平臺,例如OpenAI的Universe、Gym、DeepMind 的 DeepMind Lab 等[1-2]。其中,MuJoCo通過模擬對仿真機(jī)器人的控制,搭建了針對高維、連續(xù)動作空間的強(qiáng)化學(xué)習(xí)測試平臺[3]。由于在這些測試平臺的仿真過程中,動作的執(zhí)行不能獲得即時(shí)的標(biāo)簽,因而動作策略的訓(xùn)練多采用如進(jìn)化算法、強(qiáng)化學(xué)習(xí)等學(xué)習(xí)方法。近年來,由深度網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)結(jié)合的算法(深度強(qiáng)化學(xué)習(xí))在連續(xù)動作空間問題中取得了接近人類水平的成績,從而成為求解該類任務(wù)的研究熱點(diǎn)[4-5]。

        在連續(xù)動作空間任務(wù)中,如果能夠得到任務(wù)環(huán)境的動力學(xué)方程就可能構(gòu)建出高效的算法。例如在知道MuJoCo機(jī)械臂(Reacher)的動力學(xué)模型的前提下,Hall使用在線軌跡優(yōu)化(Online Trajectory Optimization)算法規(guī)劃機(jī)械臂的控制動作序列[6]。在沒有進(jìn)行離線訓(xùn)練的情況下,該算法能夠?qū)崟r(shí)高效的控制機(jī)械臂完成指定動作。然而,該算法需要事先確定任務(wù)環(huán)境的動力學(xué)模型,而大部分仿真環(huán)境具有較為復(fù)雜非線性動力學(xué)系統(tǒng),其動力學(xué)方程難以使用解析式表達(dá)。

        當(dāng)仿真任務(wù)的環(huán)境支持離線的暫停和探索時(shí),可以用蒙特卡洛樹搜索(Monte Carlo Tree Search,MCTS)算法對決策進(jìn)行探索。在可以使用Atari模擬器進(jìn)行探索的前提下,利用MCTS算法對每一步?jīng)Q策進(jìn)行搜索,最終在多數(shù)Atari游戲中取得超過人類水平的分?jǐn)?shù)[7]。然而多數(shù)仿真環(huán)境以及真實(shí)世界中是不支持暫停和探索功能。

        文獻(xiàn)[6]中的算法利用了任務(wù)環(huán)境的先驗(yàn)知識,文獻(xiàn)[7]中的算法需要仿真平臺的特殊支持。為了提高算法的魯棒性,Lillicrap等人在2016年提出了深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG),該算法實(shí)現(xiàn)了端到端、無模型的學(xué)習(xí)過程,并且在多種連續(xù)動作控制任務(wù)中表現(xiàn)出色。然而該方法在訓(xùn)練時(shí)收斂速度慢,同時(shí)在面對復(fù)雜的仿真環(huán)境時(shí)學(xué)習(xí)效果不穩(wěn)定。

        受到生物運(yùn)動控制系統(tǒng)啟發(fā)而提出了間歇控制(Intermittent Control,IC)[8,9]。間歇控制是一種具有層級結(jié)構(gòu)的算法,其基本思想是將復(fù)雜的任務(wù)分解成具有層級結(jié)構(gòu)的多個子任務(wù),再針對每個子任務(wù)進(jìn)行單獨(dú)優(yōu)化,從而實(shí)現(xiàn)高效的動作空間探索,提高算法的收斂速度[10]。在軌跡跟蹤任務(wù)中,Wada等人提出了基于最小轉(zhuǎn)換原則的曲線生成算法[11-12],用以生成仿真的手寫體字母。然而該算法中的目標(biāo)點(diǎn)參數(shù)數(shù)量和位置是由人工調(diào)參得到,整個調(diào)參過程需要大量時(shí)間。

        為了進(jìn)一步提高算法的收斂時(shí)間,Schroecker提出了基于模仿學(xué)習(xí)的間歇控制算法。針對Reacher任務(wù),該算法首先收集一批人工控制下得到的樣本,在模型學(xué)習(xí)過程中,將動作的搜索空間限制在已有樣本空間的附近,從而顯著加快模型收斂的速度[13]。然而該算法最終效果和樣本的質(zhì)量相關(guān)性較大,當(dāng)已有樣本偏離最優(yōu)解時(shí),算法最終難以收斂到較好的水平。

        針對具有連續(xù)動作空間和非線性動力學(xué)系統(tǒng)的仿真任務(wù),為了提高算法的收斂速度和最終效果,以及實(shí)現(xiàn)無模型、高魯棒性的策略學(xué)習(xí),本文中融合間歇控制框架和DDPG算法提出了層級深度確定性策略梯度(Hierarchy Deep Deterministic Policy Gradient,HDDPG)模型。該模型由兩個控制器組成,分別為高層控制器和低層控制器。高層控制器負(fù)責(zé)分解任務(wù),將任務(wù)在時(shí)間上分解成多個離散的子任務(wù)。低層控制器負(fù)責(zé)完成具體的子任務(wù)執(zhí)行,在每個時(shí)刻給出智能體(任務(wù)主體,例如在Reacher任務(wù)中,代理表示機(jī)械臂)需要執(zhí)行的動作。其中低層控制器使用DDPG模型進(jìn)行學(xué)習(xí),實(shí)現(xiàn)了端到端,無模型的學(xué)習(xí)過程,避免了對任務(wù)環(huán)境的動力學(xué)模型的依賴和人工調(diào)參的過程。高層控制器同樣使用DDPG模型,在模型學(xué)習(xí)的過程中,引入最小轉(zhuǎn)換原則以啟發(fā)模型找到最優(yōu)的任務(wù)分解模式。最后在經(jīng)典仿真任務(wù)軌跡跟蹤(Tracking)和二連桿機(jī)械臂(Reacher)來驗(yàn)證算法。兩個實(shí)驗(yàn)證明了HDDPG相對DDPG模型可以在更短的學(xué)習(xí)時(shí)間內(nèi)找到最優(yōu)解。

        1 HDDPG算法

        針對連續(xù)運(yùn)動控制的層級控制模型HDDPG(Hier?archical Deep Deterministic Policy Gradient,HDDPG)。在HDDPG中,模型分為高層控制器和低層控制器,高層和低層控制器以兩種不同粗細(xì)的時(shí)間粒度工作。高層控制器規(guī)劃次級目標(biāo)以及次級目標(biāo)執(zhí)行的時(shí)間。低層控制器在高層控制器規(guī)劃的時(shí)間內(nèi)執(zhí)行與環(huán)境交互的動作,以期達(dá)到高層控制器規(guī)劃的次級目標(biāo)。高層控制器輸出的次級目標(biāo)和次級目標(biāo)的執(zhí)行時(shí)間是由連續(xù)的值表示,次級目標(biāo)一般表示為環(huán)境中某個坐標(biāo)。高層控制器和低層控制器都使用DDPG模型。

        下面給出具體的算法描述:

        低層控制器是一個典型的DDPG模型,在一個連續(xù)動作控制任務(wù)中,低層控制器環(huán)境的狀態(tài)空間S,t時(shí)刻的環(huán)境狀態(tài)st,其動作空間為A,時(shí)刻t的動作at,狀態(tài)轉(zhuǎn)移概率 p(st+1|st,at),獎勵函數(shù)r∈S×A。代理通過調(diào)整策略πθ的參數(shù)θ∈?n來最大化獎勵函數(shù)。使用隨機(jī)策略梯度法來更新參數(shù)θ。在每個時(shí)刻,環(huán)境的狀態(tài)由上一個時(shí)刻環(huán)境的狀態(tài)st-1和代理的動作at-1決定,同時(shí),環(huán)境會給代理一個獎勵r(st-1,at-1)。根據(jù)狀態(tài)s,動作a和獎勵r的序列{s1,a1,r1,…,sT,aT,rT} 來更新策略。每個時(shí)刻對應(yīng)的累計(jì)獎勵?(s ,a)由公式?jīng)Q定,其中是γ衰減因子,取值范圍為(0,1),其中動作價(jià)值函數(shù)為Qπ(st,at)=E[?(s ,a)|s=s1,a=a1,πθ],價(jià)值函數(shù)為 Vt(st)=E[?(s ,a)|s=st,πθ],模型學(xué)習(xí)的目標(biāo)是最大化累計(jì)回報(bào)?(s ,a)。使用梯度 ?aQ(s ,a|θQ)來優(yōu)化策略,其中Q是一個可微函數(shù)相應(yīng)的,策略網(wǎng)絡(luò)的梯度可以表示為使用Q-learning來更新動作價(jià)值函數(shù),通過最小化δQ來優(yōu)化動作價(jià)值網(wǎng)絡(luò),δQ是網(wǎng)絡(luò)預(yù)測出的價(jià)值與累計(jì)回報(bào)之間的均方差。

        DDPG算法在訓(xùn)練連續(xù)動作控制模型時(shí)往往需要較長的訓(xùn)練時(shí)間,且訓(xùn)練時(shí)間和難度隨著任務(wù)自由度上升而變大,同時(shí)在針對復(fù)雜的運(yùn)動控制任務(wù)時(shí)模型最終難以收斂。受到生物運(yùn)動控制系統(tǒng)的層級結(jié)構(gòu)的啟發(fā),我們將DDPG融入到間歇控制的框架中,即HD?DPG。HDDPG分為兩層控制結(jié)構(gòu),每個控制結(jié)構(gòu)均是由一個DDPG網(wǎng)絡(luò)組成。高層控制器的目標(biāo)是從宏觀上分解整個任務(wù),同時(shí)向低層控制器發(fā)出離散的命令,通過低層控制器間接與環(huán)境交互,從而完成整個控制任務(wù)。

        相對于低層控制器,高層控制器在整個決策過程中的輸出以更大的粒度表示。如圖1所示,高層動作網(wǎng)絡(luò) μ(s|θμ)根據(jù)當(dāng)前環(huán)境的狀態(tài)信息輸出次級目標(biāo)gti∈S和低層控制器持續(xù)時(shí)間T(ti)。在代理執(zhí)行任務(wù)的時(shí)候,低層控制器接受高層控制器輸出的間歇目標(biāo)gti和持續(xù)時(shí)間T(ti),由低層控制器去生成與環(huán)境交互的動作ak,并且執(zhí)行持續(xù)時(shí)間T(ti),代理得到新環(huán)境這段時(shí)間的累計(jì)回報(bào)由環(huán)境在時(shí)間T(ti)內(nèi)的累計(jì)回報(bào)。高層控制器的目標(biāo)是最大化整個間歇控制過程中的累計(jì)回報(bào)高層控制器中價(jià)值網(wǎng)絡(luò)E[Fti|μθμ]是環(huán)境和高層控制器的動作決定(gti,,Tti)的。動作網(wǎng)絡(luò)的學(xué)習(xí)策略是

        評價(jià)網(wǎng)絡(luò)的學(xué)習(xí)策略是最小化評價(jià)網(wǎng)絡(luò)δQ根據(jù)當(dāng)前狀態(tài)s和動作a預(yù)測出的q和累計(jì)回報(bào)之間的均方差。是環(huán)境在時(shí)間Ti內(nèi)的累積回報(bào)。高層控制器根據(jù)來自環(huán)境的累積回報(bào) fti進(jìn)行學(xué)習(xí)。低層控制器根據(jù) fti進(jìn)行學(xué)習(xí)。是下一個關(guān)鍵點(diǎn)的預(yù)測動作價(jià)值

        圖1 HDDPG的層級架構(gòu)

        2 實(shí)驗(yàn)設(shè)計(jì)

        為了驗(yàn)證HDDPG模型能夠有效地完成連續(xù)動作控制任務(wù),我們使用了兩個虛擬任務(wù)來驗(yàn)證模型的效果。第一個任務(wù)是軌跡跟蹤任務(wù)軌跡跟蹤(Puck World)。Puck World是一個虛擬的二維矩形平面,以其中心為原點(diǎn),x和y軸的范圍均為[- 1,1],假設(shè)平面上存在一質(zhì)點(diǎn),并且該質(zhì)點(diǎn)與平面之間存在摩擦力,軌跡跟蹤任務(wù)指在規(guī)定時(shí)間內(nèi)通過給出作用于質(zhì)點(diǎn)在x和y軸方向的力,使得質(zhì)點(diǎn)從起點(diǎn)到終點(diǎn)所走過的路徑符合預(yù)期的軌跡。其中環(huán)境(xt,yt)分別為質(zhì)點(diǎn)在t時(shí)刻的坐標(biāo),(vt,ut)為質(zhì)點(diǎn)在t時(shí)刻在x和y軸方向的分速度,(x′,y′) 為終點(diǎn)所在的坐標(biāo),(v′,u′)為終點(diǎn)在x和y軸方向的分速度。作用于質(zhì)點(diǎn)的動作at=( ft,gt),( ft,gt)分別為t時(shí)刻作用于質(zhì)點(diǎn)x和y軸方向的力。

        圖2 連續(xù)動作控制任務(wù)在時(shí)間上分解的示意圖

        如圖2所示在軌跡跟蹤任務(wù)中,低層控制器直接與環(huán)境交互(質(zhì)點(diǎn)),低層控制器的環(huán)境 sit=(xt,yt,vt,ut,xi,yi,vi,ui),其中(xi,yi,vi,ui)為高層控制器給出的第i個間歇目標(biāo)點(diǎn),Ti為高層控制器給出的第i個執(zhí)行時(shí)間,在時(shí)間Ti中低層控制器每個時(shí)刻t都給出一個動作at=( ft,gt)直接作用于質(zhì)點(diǎn)。高層控制器的環(huán)境高層控制器給出的動作ai=(xi,yi,vi,ui,Ti)。

        HDDPG的學(xué)習(xí)過程分為兩個階段,第一個階段是低層控制器的學(xué)習(xí),第二階段是高層控制器的學(xué)習(xí)。低層控制器的學(xué)習(xí)是一個典型的DDPG學(xué)習(xí)過程。其中環(huán)境s=(x ,y,v,u,x′,y′,v′,u′) ,每次采集樣本都是隨機(jī)生成一個新的s,每次迭代固定步數(shù)為40。低層控制器的每步獎勵函數(shù)為

        3 結(jié)果分析

        模型最終學(xué)會控制低層控制器去跟蹤這些軌跡。圖11展示了HDDPG和DDPG在軌跡跟蹤任務(wù)中的累積獎勵隨著訓(xùn)練時(shí)間的變化。DDPG模型收斂于一個較低的累積獎勵值并且具有較大的波動,而HDDPG則能較快的收斂于一個很高的累積獎勵值,同時(shí)具有較好的穩(wěn)定性。x軸是訓(xùn)練時(shí)間,單位是小時(shí),y軸是累積獎勵。這里累積獎勵是10個HDDPG和10個DDPG模型的累積獎勵的平均值。

        圖3 DDPG與HDDPG在軌跡跟蹤任務(wù)學(xué)習(xí)過程中累計(jì)獎勵變化

        圖4描述了HDDPG模型與DDPG模型在軌跡跟蹤任務(wù)中最終位置與目標(biāo)點(diǎn)的距離。從圖中可以看到,在DDPG模型中,7個模型不能收斂,3個收斂的模型也沒有到達(dá)終點(diǎn)附近(距離終點(diǎn)歐氏距離0.1以內(nèi)算作到達(dá)附近)。在HDDPG中,最終有6個模型能夠到達(dá)終點(diǎn)附近,剩下4個模型進(jìn)行了無效的探索。值得注意的是,如果在運(yùn)行過程碰到環(huán)境范圍邊界,則本回合直接結(jié)束。

        圖4 DDPG與HDDPG任務(wù)完成時(shí)末端與終點(diǎn)距離

        4 結(jié)語

        HDDPG與普通DDPG相比,在連續(xù)控制任務(wù)中具有更快的收斂速度和更好的效果。其原因可歸于兩點(diǎn),第一點(diǎn)是HDDPG直接在高層空間進(jìn)行探索。高層控制器輸出的是低層控制器的間歇目標(biāo)和持續(xù)時(shí)間,其中微小的變化可以導(dǎo)致最終軌跡出現(xiàn)較大的不同,具有更高的探索效率,有利于模型快速的探索環(huán)境信息。這一點(diǎn)和遺傳算法中的間接編碼有些類似。同時(shí)高層控制器模型的值函數(shù)的復(fù)雜程度隨著層級的提高而提高,將值函數(shù)以層級的結(jié)構(gòu)表示有助于學(xué)習(xí)得到更準(zhǔn)確的值函數(shù),從而進(jìn)一步提升復(fù)雜運(yùn)動控制的性能。

        第二點(diǎn)在學(xué)習(xí)過程中,估值網(wǎng)絡(luò)通過時(shí)間差分從后往前的迭代來逼近正確的值函數(shù)。如果動作序列較長,則迭代的次數(shù)較多,所需的計(jì)算資源也較多,訓(xùn)練所需時(shí)間長。而對于高層控制器的估值網(wǎng)絡(luò)來說,只需產(chǎn)生個位數(shù)的間歇控制動作,具有較短的動作序列,減少了計(jì)算所需資源。

        猜你喜歡
        動作環(huán)境模型
        一半模型
        長期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
        一種用于自主學(xué)習(xí)的虛擬仿真環(huán)境
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        孕期遠(yuǎn)離容易致畸的環(huán)境
        環(huán)境
        動作描寫要具體
        畫動作
        動作描寫不可少
        性夜夜春夜夜爽aa片a| 国产最新女主播福利在线观看| 人妻丝袜中文无码av影音先锋专区| 日韩亚洲欧美中文在线| 秒播无码国产在线观看| 国模无码视频一区| 亚洲精品成人国产av| 日本美女性亚洲精品黄色| 国产黄污网站在线观看| 色综合视频一区中文字幕| 国产特级全黄一级毛片不卡| 日韩精品有码在线视频| 国产三级黄色大片在线免费看| 少妇性俱乐部纵欲狂欢电影| 日日噜噜噜夜夜爽爽狠狠| 国产激情无码Av毛片久久| 亚洲av网一区二区三区成人| 久久精品国产亚洲av影院毛片| 小辣椒福利视频导航| 天美麻花果冻视频大全英文版| 亚洲日产AV中文字幕无码偷拍| 大屁股流白浆一区二区三区| 山外人精品影院| 欧美日韩国产成人高清视| av一区二区不卡久久| 亚洲日本精品国产一区二区三区 | 亚洲第一狼人天堂网亚洲av| 黑人玩弄人妻中文在线| 国产av无码专区亚洲aⅴ| 中文字幕一区二区综合| 狠狠色综合7777久夜色撩人ⅰ| 久久国产精品不只是精品 | 亚洲爆乳无码精品aaa片蜜桃 | 91日本在线精品高清观看| 亚州中文热码在线视频| 亚洲精品夜夜夜妓女网| 久久久久成人亚洲综合精品| 久久亚洲春色中文字幕久久久综合| 国产精品自产拍在线18禁| 免费无码a片一区二三区| 伊人一道本|