亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        稀疏獎勵場景下深度強化學習算法研究

        2021-12-27 01:39:02周國明
        科學與信息化 2021年12期
        關鍵詞:機制智能信號

        周國明

        四川大學 電子信息學院 四川 成都 610000

        引言

        深度強化學習[1](deep reinforcement learning ,DRL)是機器學習[2]的重要分支,它是在與環(huán)境交互中尋找最優(yōu)策略的一類方法。DRL中智能體的目標是獲得最大獎勵,環(huán)境可以提供密集的獎勵信號時DRL可以工作得很好,然而在許多實際問題中,獎勵是稀疏的,稀疏獎勵導致智能體無法有效的學習。實際上稀疏獎勵問題會導致強化學習算法迭代緩慢、難以收斂,甚至根本無法進行學習[3]。因此,如何解決稀疏獎勵帶來的負面影響,研究稀疏獎勵環(huán)境下的強化學習算法,至關重要。本文提出了一個使用智能體相鄰兩個狀態(tài)之間的距離來作為智能體的內(nèi)在獎勵以驅(qū)動智能體對環(huán)境進行探索的方

        1 基于內(nèi)在激勵機制的算法化

        1.1 內(nèi)在激勵機制

        由此可見,獎勵在強化學習中起著非常重要的作用,它指導著智能體的學習。然而,在許多實際生活場景中,獎勵是稀疏的,這意味著智能體很難獲得獎勵,甚至需要正確執(zhí)行很長序列的動作才能得到環(huán)境的反饋,導致智能體很難學到解決目標任務所需要做的動作,無法學習到給定的任務。另一方面,由于缺少獎勵信號,智能體需要與環(huán)境做大量的交互,獲取足夠多的樣本數(shù)據(jù),這會導致算法訓練的非常緩慢,甚至無法收斂。因此,本文考慮如何為智能體提供額外的獎勵信號來源,稱之為內(nèi)在獎勵[1]。

        1.2 基于狀態(tài)距離的內(nèi)在獎勵生成算法

        特征提取模塊中使用的是不進行參數(shù)更新的卷積神經(jīng)網(wǎng)絡。卷積神經(jīng)網(wǎng)絡是一種特殊的神經(jīng)網(wǎng)絡模型,專門用于處理具有相似網(wǎng)格結(jié)構(gòu)的數(shù)據(jù)。卷積是圖像處理中一種有效的特征提取方法,而我們的實驗環(huán)境為Atari視頻游戲,它的表現(xiàn)形式是一幀幀的圖像,所以我們使用卷積神經(jīng)網(wǎng)絡提取狀態(tài)的特征。不進行參數(shù)更新的原因在于,首先我們需要穩(wěn)定的內(nèi)在獎勵項,由于卷積神經(jīng)網(wǎng)絡是固定的,所以在整個訓練過程中,提取到的所有狀態(tài)的特征向量都是通過同一個范式得到的,保證了用特征向量做差得到的內(nèi)在獎勵項是穩(wěn)定的;其次,如果要訓練特征提取模塊中使用的卷積神經(jīng)網(wǎng)絡,是比較困難的,雖然我們可以采取ICM模型[5],但這會大大增加模型的量。

        2 實驗

        為了測試本文提出的基于內(nèi)在獎勵機制的算法的有效性,必須要有一個合適的環(huán)境來進行測試。由于我們的算法是稀疏獎勵相關的,我們需要外在獎勵稀少的場景。本文從Open AI Gym工具包中選擇了Atari視頻游戲中的Space Invaders和Freeway。

        Space Invaders提供的是一個具有相對密集的獎勵反饋的環(huán)境,而Freeway則提供的是一個智能體進行需要搜索才能得到獎勵的稀疏獎勵環(huán)境[6]。我們選擇這兩個環(huán)境,一個獎勵信號相對密集,另一個獎勵信號稀疏,可以更好地看到本文所提出的內(nèi)在獎勵生成算法在稀疏獎勵環(huán)境下的優(yōu)越性。

        選擇的基礎強化學習算法為A2C,它是在Actor-Critic算法的基礎上,使用優(yōu)勢函數(shù)代替Critic網(wǎng)絡中的原始回報[7]。比較原始A2C算法與添加了內(nèi)在獎勵機制的A2C算法(稱之為IBA2C算法),分別在Space Invaders和Freeway下的表現(xiàn)效果。需要注意的是,由于智能體的目標是最大化來自環(huán)境的獎勵信號值,所以在實驗結(jié)果對比中,只使用了外在獎勵值,內(nèi)在獎勵項是沒有使用的。

        從實驗結(jié)果可看出,在Space Invaders場景中,A2C算法IBA2C算法基本上有相同的性能表現(xiàn),IBA2C算法的表現(xiàn)稍稍優(yōu)于A2C算法,兩者都能夠很快地到達一個很好的收斂。這表明,在外在獎勵密集的場景下,智能體無須做很多的探索,僅僅依靠外在獎勵信號的指導,就能夠?qū)W會完成目標任務。在外在獎勵稀疏的Freeway場景中, A2C算法的表現(xiàn)很糟糕,智能體基本上無法獲得任何的外在獎勵,而IBA2C算法表現(xiàn)優(yōu)異,在經(jīng)過大約2.4e7個時間步的訓練后,可以快速得到一個很好的效果。實驗結(jié)果表明,本文提出的內(nèi)在獎勵機制在稀疏獎勵場景下可以顯著提高性能。

        3 結(jié)束語

        本文針對稀疏獎勵場景下的內(nèi)在獎勵機制進行了研究。引入內(nèi)在激勵機制,提出了一種新的內(nèi)在獎勵生成算法。本文提出的內(nèi)在獎勵生成算法利用一個固定的卷積神經(jīng)網(wǎng)絡提取狀態(tài)的特征向量,把相鄰的兩個狀態(tài)的狀態(tài)特征向量的歐式距離作為內(nèi)在獎勵項。將內(nèi)在獎勵與外在獎勵合成為一個獎勵,使用這個合成的獎勵信號來指導智能體的學習。最后,把提出的內(nèi)在獎勵生成算法與A2C算法結(jié)合在一起,在Atari視頻游戲場景Space Invaders和Freeway中進行了對比試驗,實驗結(jié)果表明,本文提出的內(nèi)在獎勵生成算法可以顯著地提高智能體在稀疏獎勵環(huán)境下的表現(xiàn)。

        猜你喜歡
        機制智能信號
        信號
        鴨綠江(2021年35期)2021-04-19 12:24:18
        完形填空二則
        智能前沿
        文苑(2018年23期)2018-12-14 01:06:06
        智能前沿
        文苑(2018年19期)2018-11-09 01:30:14
        智能前沿
        文苑(2018年17期)2018-11-09 01:29:26
        自制力是一種很好的篩選機制
        文苑(2018年21期)2018-11-09 01:23:06
        智能前沿
        文苑(2018年21期)2018-11-09 01:22:32
        基于FPGA的多功能信號發(fā)生器的設計
        電子制作(2018年11期)2018-08-04 03:25:42
        基于LabVIEW的力加載信號采集與PID控制
        破除舊機制要分步推進
        亚洲国产精品综合福利专区| 99精品久久精品一区二区| 亚洲色www成人永久网址| 久久噜噜噜| 国产偷拍盗摄一区二区| 日韩精品视频免费网站| 边喂奶边中出的人妻| 欧美自拍视频在线| 日韩精品一区二区av在线| 日本黑人乱偷人妻在线播放| 99精品人妻无码专区在线视频区| 精精国产xxxx视频在线| 亚洲色图视频在线播放| 日本一区二区免费在线看| 国产精品理论片| 自拍欧美日韩| 丝袜美腿av免费在线观看| 少妇无套裸按摩呻吟无呜| 97久久精品亚洲中文字幕无码 | 国产在亚洲线视频观看| 日韩一区二区三区人妻中文字幕| 新婚人妻不戴套国产精品| 亚洲一区精品无码色成人| 色婷婷久久免费网站| 一区二区三区四区黄色av网站 | 国产精在线| 国产av一区二区三区国产福利| 国产日韩厂亚洲字幕中文| 蜜桃无码一区二区三区| 久久亚洲高清观看| 亚洲狠狠久久五月婷婷| 无码小电影在线观看网站免费| 欧美老妇人与禽交| 最大色网男人的av天堂| 综合国产婷婷精品久久99之一| 亚洲 精品 综合 精品 自拍| 一个人免费观看在线视频播放| 亚洲黄色精品在线播放| 最新日本一道免费一区二区 | 亚洲精品中文幕一区二区| 人妻熟妇乱又伦精品视频app |