亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于元學(xué)習(xí)的改進(jìn)深度強(qiáng)化學(xué)習(xí)算法

        2021-11-10 11:21:58黃寧馨樂(lè)云亮彭坤彥
        關(guān)鍵詞:訓(xùn)練任務(wù)桿子方塊

        黃寧馨, 尹 翔, 樂(lè)云亮, 彭坤彥

        (揚(yáng)州大學(xué)信息工程學(xué)院, 江蘇 揚(yáng)州 225117)

        深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning, DRL)主要是將深度學(xué)習(xí)的感知能力和強(qiáng)化學(xué)習(xí)的決策能力相結(jié)合, 該算法具有較強(qiáng)的通用性, 被認(rèn)為是邁向通用人工智能的重要途徑[1-2].近年來(lái), 深度強(qiáng)化學(xué)習(xí)算法被廣泛應(yīng)用于計(jì)算機(jī)視覺(jué)、智能運(yùn)輸及自動(dòng)駕駛等方面.截至目前, 深度強(qiáng)化學(xué)習(xí)依然存在諸多問(wèn)題, 如難以調(diào)節(jié)參數(shù)、采樣效率低下、獎(jiǎng)勵(lì)設(shè)置困難、算法訓(xùn)練時(shí)間過(guò)長(zhǎng)和仿真實(shí)驗(yàn)與現(xiàn)實(shí)應(yīng)用差距較大等[3-5].Mnih等[6]利用深度神經(jīng)網(wǎng)絡(luò)逼近值函數(shù), 提出深度Q網(wǎng)絡(luò)算法(deep Q-network, DQN), 采用經(jīng)驗(yàn)回放機(jī)制訓(xùn)練強(qiáng)化學(xué)習(xí), 提高了深度神經(jīng)網(wǎng)絡(luò)估計(jì)值函數(shù)的穩(wěn)定性, 但該算法存在過(guò)估計(jì)且難以應(yīng)用于連續(xù)環(huán)境等問(wèn)題; Qiu等[7]將DQN算法和深度策略梯度算法相結(jié)合, 提出深度確定性策略梯度(deep deterministic policy gradient, DDPG), 解決了隨機(jī)性策略梯度算法在動(dòng)作空間較大時(shí)采樣中計(jì)算量過(guò)大的問(wèn)題, 進(jìn)一步提升了算法的通用性; Li等[8]提出優(yōu)勢(shì)行動(dòng)者評(píng)論家算法(advantage actor-critic, A2C), 選擇優(yōu)勢(shì)函數(shù)替代critic神經(jīng)網(wǎng)絡(luò)中的原始回報(bào), 并利用經(jīng)驗(yàn)回放機(jī)制解決Aho-Corasick算法難以收斂的問(wèn)題; Liu等[9]提出近端策略?xún)?yōu)化(proximal policy optimization, PPO)算法, 通過(guò)計(jì)算新舊策略的占比增加約束條件, 限制策略的更新幅度, 解決了學(xué)習(xí)率難以配置的問(wèn)題, 同時(shí)采取重要性采樣方案來(lái)減少訓(xùn)練時(shí)間.上述深度強(qiáng)化學(xué)習(xí)算法通常專(zhuān)用于一個(gè)有限的任務(wù)領(lǐng)域, 當(dāng)智能體遇到新任務(wù)時(shí)仍須重新開(kāi)始學(xué)習(xí), 導(dǎo)致算法訓(xùn)練時(shí)間過(guò)長(zhǎng)且樣本量過(guò)大, 此時(shí)若采用元學(xué)習(xí)算法[10-13]則可根據(jù)以往的經(jīng)驗(yàn)和少量樣本實(shí)現(xiàn)快速適應(yīng).Lee等[14]提與模型無(wú)關(guān)的元學(xué)習(xí)(model-agnostic meta-learning, MAML)算法, 在新任務(wù)與訓(xùn)練任務(wù)所處環(huán)境狀態(tài)一致的情況下實(shí)現(xiàn)了智能體在新任務(wù)上的快速適應(yīng), 但該方法很難擴(kuò)展到離線策略上, 很大程度地限制了深度元強(qiáng)化學(xué)習(xí)的適用場(chǎng)景.本文擬在深度強(qiáng)化學(xué)習(xí)算法中引入MAML, 以期使得智能體有效利用在訓(xùn)練任務(wù)中學(xué)習(xí)到的先驗(yàn)知識(shí), 實(shí)現(xiàn)在新任務(wù)上的快速適應(yīng).

        1 本文算法

        1.1 深度強(qiáng)化學(xué)習(xí)

        在t時(shí)刻下, 根據(jù)策略π, 智能體通過(guò)與環(huán)境進(jìn)行交互得到一個(gè)狀態(tài)st, 再?gòu)乃锌赡艿膭?dòng)作集合中選擇并實(shí)施動(dòng)作at, 得到下一個(gè)狀態(tài)st+1和立即回報(bào)rt, 重復(fù)該過(guò)程直到任務(wù)結(jié)束.選擇使得累計(jì)回報(bào)最大化的動(dòng)作, 即最大化狀態(tài)動(dòng)作值函數(shù)

        Qπ(s,a)=maxπE[rt+γrt+1+γ2rt+2+…|st=s,at=a],

        (1)

        其中γ為折扣因子,E(·)為期望函數(shù).

        深度強(qiáng)化學(xué)習(xí)中估計(jì)網(wǎng)絡(luò)和現(xiàn)實(shí)網(wǎng)絡(luò)的結(jié)構(gòu)完全相同而參數(shù)不同, 其中估計(jì)網(wǎng)絡(luò)的參數(shù)是實(shí)時(shí)更新的, 主要用于評(píng)估當(dāng)前狀態(tài)動(dòng)作值函數(shù)Qe=Q(st,at).現(xiàn)實(shí)網(wǎng)絡(luò)的參數(shù)是每更新幾步后由估計(jì)網(wǎng)絡(luò)復(fù)制而來(lái), 表示為現(xiàn)實(shí)狀態(tài)動(dòng)作值函數(shù)

        Qt=r+γmaxat+1Q(st+1,at+1),

        (2)

        式中at+1為at的下一動(dòng)作,st+1為st的下一狀態(tài).深度強(qiáng)化學(xué)習(xí)通過(guò)最小化損失函數(shù)

        L=E[(Qt-Qe)2]

        (3)

        更新估計(jì)網(wǎng)絡(luò)的參數(shù)值, 該損失函數(shù)為元學(xué)習(xí)過(guò)程需要優(yōu)化的目標(biāo)函數(shù).

        1.2 MAML算法

        1.2.1 元訓(xùn)練過(guò)程

        圖1 元訓(xùn)練參數(shù)更新示意圖Fig.1 Parameter update schematic diagram for meta-training

        元訓(xùn)練過(guò)程具體學(xué)習(xí)步驟如下:

        1) 已知模型參數(shù)θ, 假設(shè)有P個(gè)訓(xùn)練任務(wù), 從每個(gè)任務(wù)中采樣得到訓(xùn)練樣本Ti和測(cè)試樣本Di, 1≤i≤P.采用梯度下降方法更新模型參數(shù), 得到

        (4)

        式中a為學(xué)習(xí)特定任務(wù)的學(xué)習(xí)率,f為模型;

        2) 計(jì)算測(cè)試樣本基于θ′i的損失LDi(fθ′i), 記錄所有任務(wù)的累積損失∑LDi(fθ′i);

        4) 采用梯度下降方法再次更新模型參數(shù)θ, 得到

        (5)

        式中β為學(xué)習(xí)不同任務(wù)之間共性階段的學(xué)習(xí)率.

        1.2.2 元測(cè)試過(guò)程

        元測(cè)試過(guò)程無(wú)須隨機(jī)初始化參數(shù), 而是通過(guò)微調(diào)經(jīng)元訓(xùn)練過(guò)程訓(xùn)練過(guò)的參數(shù)去完成新任務(wù), 其學(xué)習(xí)步驟與元訓(xùn)練過(guò)程的基本一致.

        2 仿真分析

        實(shí)驗(yàn)環(huán)境為Intel i5 CPU, 4 GB RAM以及python3.5.為了驗(yàn)證算法的性能, 現(xiàn)搭建平衡車(chē)離散環(huán)境和機(jī)器手臂連續(xù)環(huán)境, 在離散實(shí)驗(yàn)環(huán)境中采用DQN[6]、DDPG[7]、DQN-MAML和DDPG-MAML算法進(jìn)行對(duì)比實(shí)驗(yàn), 在連續(xù)環(huán)境中采用A2C[8]、PPO[9]、A2C-MAML和PPO-MAML算法進(jìn)行對(duì)比實(shí)驗(yàn).仿真參數(shù)如表1所示.

        表1 仿真參數(shù)

        2.1 離散實(shí)驗(yàn)結(jié)果分析

        離散環(huán)境采用平衡車(chē)實(shí)驗(yàn), 該實(shí)驗(yàn)是一個(gè)小車(chē)上連著一根桿子, 通過(guò)小車(chē)左右運(yùn)動(dòng)(不考慮摩擦)使桿子不倒, 初始桿子為豎直放置.假設(shè)訓(xùn)練任務(wù)Ⅰ中小車(chē)的相對(duì)質(zhì)量為1, 桿子的相對(duì)質(zhì)量為0.1, 桿子的相對(duì)長(zhǎng)度為0.5; 訓(xùn)練任務(wù)Ⅱ中小車(chē)的相對(duì)質(zhì)量為1.2, 桿子的相對(duì)質(zhì)量為0.2, 桿子的相對(duì)長(zhǎng)度為0.4; 新任務(wù)中小車(chē)的相對(duì)質(zhì)量為0.9, 桿子的相對(duì)質(zhì)量為0.2, 桿子的相對(duì)長(zhǎng)度為0.6.新任務(wù)的實(shí)驗(yàn)環(huán)境如圖2所示.獎(jiǎng)勵(lì)設(shè)置: 當(dāng)桿子與豎直方向的夾角越小且小車(chē)離中心越近時(shí), 獎(jiǎng)勵(lì)越大, 超出一定范圍獎(jiǎng)勵(lì)為負(fù)值.當(dāng)桿子與豎直方向的角度超過(guò)24°或小車(chē)位置距離中心超過(guò)2.4時(shí)結(jié)束該回合.

        圖2 離散實(shí)驗(yàn)環(huán)境Fig.2 Discrete experimental environment

        圖3給出了引入MAML前后在DQN和DDPG算法下各回合中智能體保持桿子不倒的動(dòng)作步數(shù).由圖3可見(jiàn), 相較于傳統(tǒng)的DQN和DDPG算法, 本文算法對(duì)環(huán)境的適應(yīng)速度更快且曲線的震蕩幅度更小, 算法的穩(wěn)定性增強(qiáng).其原因?yàn)? 1) MAML算法有效利用了在訓(xùn)練任務(wù)中學(xué)習(xí)到的先驗(yàn)知識(shí), 加快智能體對(duì)新任務(wù)的適應(yīng)程度且能有效避免錯(cuò)誤動(dòng)作; 2) DQN和DDPG算法在訓(xùn)練任務(wù)中都已對(duì)環(huán)境進(jìn)行了高效探索.DQN算法采取衰減ε-greedy貪婪策略, 在訓(xùn)練前期智能體采取較大的ε值, 保證智能體在訓(xùn)練任務(wù)中對(duì)環(huán)境的高效探索; DDPG算法的行為策略和評(píng)估策略不同,故可促進(jìn)智能體對(duì)環(huán)境的探索,且DDPG算法在行為策略的確定性策略中添加了噪聲,在前期訓(xùn)練任務(wù)中已對(duì)環(huán)境進(jìn)行高效探索.

        圖3 離散實(shí)驗(yàn)環(huán)境下不同算法的性能對(duì)比Fig.3 Performance comparison of different algorithms in discrete experimental environment

        2.2 連續(xù)實(shí)驗(yàn)結(jié)果分析

        連續(xù)環(huán)境采用機(jī)器手臂實(shí)驗(yàn),其中機(jī)器手臂的一端固定在相對(duì)邊長(zhǎng)為500的正方形畫(huà)布中央,實(shí)驗(yàn)?zāi)康氖鞘剐”弁舛四苷业侥繕?biāo)方塊.假設(shè)訓(xùn)練任務(wù)Ⅰ中目標(biāo)方塊是2個(gè)相對(duì)邊長(zhǎng)為40的方塊, 大臂的相對(duì)長(zhǎng)度為100, 小臂的相對(duì)長(zhǎng)度為80; 訓(xùn)練任務(wù)Ⅱ中目標(biāo)方塊是2個(gè)相對(duì)邊長(zhǎng)為45的方塊, 大臂的相對(duì)長(zhǎng)度為80, 小臂的相對(duì)長(zhǎng)度為100; 新任務(wù)中目標(biāo)方塊為一個(gè)相對(duì)邊長(zhǎng)為35的方塊, 大臂的相對(duì)長(zhǎng)度為80, 小臂的相對(duì)長(zhǎng)度為80.新任務(wù)的實(shí)驗(yàn)環(huán)境如圖4所示.獎(jiǎng)勵(lì)設(shè)置: 當(dāng)小臂外端接觸到目標(biāo)方塊會(huì)獲得+1的獎(jiǎng)勵(lì); 當(dāng)小臂外端離目標(biāo)方塊越近獎(jiǎng)勵(lì)越大, 反之則越小.若連續(xù)保持50步小臂外端都可接觸到目標(biāo)方塊, 則該回合結(jié)束.

        圖4 連續(xù)實(shí)驗(yàn)環(huán)境Fig.4 Continuous experimental environment

        圖5給出了引入MAML前后A2C和PPO算法下各回合中智能體找到目標(biāo)方塊所需的步數(shù).由圖5可見(jiàn), 相較于A2C和PPO算法,本文算法的收斂速度更快且曲線的震蕩幅度變小,算法的穩(wěn)定性增強(qiáng).其原因?yàn)? 1) MAML算法加速了智能體對(duì)新任務(wù)的適應(yīng)程度且能有效避免錯(cuò)誤動(dòng)作; 2) A2C和PPO算法在訓(xùn)練任務(wù)中都對(duì)環(huán)境進(jìn)行了高效探索.A2C算法通過(guò)在策略的輸出分布中設(shè)置一個(gè)限制條件, 使得智能體所采取的每個(gè)行為的幾率均等, 從而提升其對(duì)環(huán)境的探索率; PPO算法則采取隨機(jī)策略,根據(jù)隨機(jī)策略的最新版本采樣動(dòng)作進(jìn)行探索, 同時(shí)PPO算法在利用神經(jīng)網(wǎng)絡(luò)共享策略和值函數(shù)時(shí)使用了包含策略替代和值函數(shù)誤差項(xiàng)的損失函數(shù),該損失函數(shù)進(jìn)一步通過(guò)熵增益促進(jìn)智能體對(duì)環(huán)境的探索.

        圖5 連續(xù)實(shí)驗(yàn)環(huán)境下不同算法的性能對(duì)比Fig.5 Performance comparison of different algorithms in continuous experimental environment

        3 結(jié)語(yǔ)

        本文基于深度強(qiáng)化學(xué)習(xí)和元學(xué)習(xí)算法研究了讓智能體利用在以往任務(wù)中學(xué)習(xí)到的先驗(yàn)知識(shí)來(lái)實(shí)現(xiàn)在新任務(wù)中的快速適應(yīng)方法.結(jié)果表明: 本文算法可以在訓(xùn)練任務(wù)和新任務(wù)環(huán)境狀態(tài)不一致的情況下達(dá)到快速適應(yīng)的目的,算法的收斂速度快,穩(wěn)定性高.

        猜你喜歡
        訓(xùn)練任務(wù)桿子方塊
        方塊村(1)
        旋轉(zhuǎn)吧!方塊!
        村西的石橋
        有多少個(gè)方塊
        不一樣的方塊橋
        青少年皮劃艇運(yùn)動(dòng)員各年齡階段的訓(xùn)練任務(wù)分析
        超高消防栓(大家拍世界)
        被做為絕緣體使用的
        詩(shī)選刊(2019年6期)2019-06-17 05:29:24
        分析青少年皮劃艇運(yùn)動(dòng)員各年齡階段的訓(xùn)練任務(wù)
        海軍航母編隊(duì)啟航執(zhí)行機(jī)動(dòng)訓(xùn)練任務(wù)
        国产av乳头久久一区| 爽妇网国产精品| 色综合无码av网站| 无码丰满熟妇一区二区| 熟妇丰满多毛的大隂户| 国产精品无码a∨精品影院| 一本一本久久a久久精品综合| 色综合88| 久久一区二区三区不卡| 亚洲精品视频免费在线| 97人妻精品一区二区三区免费| 天堂网日韩av在线播放一区| 国产视频自拍一区在线观看| 在厨房被c到高潮a毛片奶水| 国产午夜精品一区二区三区| 无码人妻一区二区三区免费| 大伊香蕉精品视频一区| 中文字幕一区二区三区在线看一区| 蜜臀av在线一区二区尤物| 蜜桃传媒一区二区亚洲av婷婷| 国产精久久一区二区三区| 国产精选污视频在线观看| 久久天天躁夜夜躁狠狠躁2022| 国产AV秘 无码一区二区三区| av在线不卡一区二区三区| 99国产精品久久一区二区三区| 天天躁日日躁aaaaxxxx| 中文无码久久精品| 国内精品久久久久久久久齐齐| 精品综合久久久久久8888| av毛片在线播放网址| 亚洲美女一区二区三区三州| 成人国成人国产suv| 在线不卡av片免费观看| 日韩无码视频淫乱| 精精国产xxx在线视频app| 国产成人精品中文字幕| 日本超级老熟女影音播放| 国产日韩欧美一区二区东京热| 伦人伦xxxx国语对白| 国产精品无码久久久久免费AV|