亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結(jié)合新穎性和風(fēng)險評估的內(nèi)在獎勵方法

        2023-03-13 10:04:42袁琳琳
        計算機工程與應(yīng)用 2023年5期
        關(guān)鍵詞:新穎性方差計數(shù)

        趙 英,秦 進,袁琳琳

        1.貴州大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,貴陽 550025

        2.貴州開放大學(xué) 信息工程學(xué)院,貴陽 550023

        強化學(xué)習(xí)[1(]reinforcement learning,RL)是Agent不斷地與環(huán)境進行交互,從而強化自己的決策能力,使得未來累積獎勵達到最大值。而獎勵是強化學(xué)習(xí)過程中的關(guān)鍵因素,它會影響學(xué)習(xí)的速度和效率,此時的獎勵是Agent和環(huán)境交互中產(chǎn)生的,即外在獎勵。在某些情況下,這些外在獎勵是密集且形狀良好,會持續(xù)給Agent獎勵信號,指導(dǎo)Agent增強自己的決策能力,比如:到達任務(wù)中機器人手臂和物體之間的距離[2]。然而,在許多現(xiàn)實世界問題的環(huán)境中,并沒有提供穩(wěn)定且密集的獎勵,導(dǎo)致Agent可能會花費很長時間才能遇到獎勵信號,甚至沒有獎勵信號,比如下圍棋,人們很難為每一步設(shè)定一個獎勵值。因此,如何在稀疏獎勵下有效探索環(huán)境仍然是一個開放的挑戰(zhàn)[3]。

        為了解決上述的挑戰(zhàn),有研究人員受到心理學(xué)中內(nèi)在動機的啟發(fā),提出使用內(nèi)在獎勵來鼓勵A(yù)gent探索環(huán)境[4-5]。內(nèi)在獎勵能夠很好地指導(dǎo)Agent去探索環(huán)境,尤其是針對于獎勵特別稀疏的環(huán)境。目前針對內(nèi)在獎勵的設(shè)計主要分為兩大類型。一類是通過計數(shù)的方式,這種類型的探索獎勵是鼓勵A(yù)gent訪問新狀態(tài),給新狀態(tài)分配更高的獎勵。Bellemare等人[6]提出偽計數(shù)的方法設(shè)計內(nèi)在獎勵,Strehl、Littman等人[7]提出最基本的統(tǒng)計方法來設(shè)計內(nèi)在獎勵。另一類是通過好奇心的方式,使Agent能夠很好地和環(huán)境互動,從而很少去選擇帶來不好結(jié)果的動作,比如Mohamed等人[8]提出的使用動態(tài)模型的預(yù)測誤差作為內(nèi)在獎勵,或者Pathak等人[9]提高其對世界動態(tài)的知識和前瞻性預(yù)測。除了上述兩種主要的內(nèi)在獎勵,還有其他形式的內(nèi)在獎勵設(shè)計,Klyubin等人[10]提出的鼓勵A(yù)gent控制環(huán)境,Pong等人[11]提出的目標多樣性,鼓勵目標分布的熵最大化。在Lair等人[12]的研究中,從語言監(jiān)督中發(fā)現(xiàn)了內(nèi)在獎勵。最優(yōu)獎勵框架將內(nèi)在獎勵表現(xiàn)為一種超越探索的機制,將其起源置于進化背景中。然而,針對目前內(nèi)在獎勵的設(shè)計存在著一定的缺陷,通過計數(shù)形式設(shè)計的內(nèi)在獎勵公式,一是在狀態(tài)空間很大的情況下,Agent訪問的每一個狀態(tài)幾乎都是新狀態(tài),不能區(qū)分狀態(tài)之前的差別。二是內(nèi)在獎勵會在前期快速消失;通過動態(tài)模型的預(yù)測誤差設(shè)計的內(nèi)在獎勵只考慮當前采取動作帶來的短期獎勵,如果Agent只從短期獎勵來評判此動作的好壞,可能會促使Agent錯失此動作從長期帶來的最大化獎勵。

        為了緩解此問題,本文提出一種結(jié)合新穎性和風(fēng)險評估的內(nèi)在獎勵方法。將內(nèi)在獎勵分為兩部分,一部分是基于狀態(tài)-動作計數(shù),鼓勵A(yù)gent去訪問以前沒有訪問過的狀態(tài),并且使得內(nèi)在獎勵不會提前消失;另外一部分是從長遠的角度來考慮當前動作的好壞,并在探索過程中加入風(fēng)險因素,鼓勵A(yù)gent根據(jù)自身偏好去選擇動作。此時的內(nèi)在獎勵不僅衡量當前狀態(tài)的新穎性,也通過執(zhí)行的動作來衡量當前狀態(tài)的好壞程度。使用Mujoco環(huán)境來評估本文的方法,實驗結(jié)果表明本文的方法比僅使用外在獎勵和其他內(nèi)在獎勵的方法能夠獲得更高的平均獎勵。

        1 相關(guān)工作

        內(nèi)在動機已經(jīng)被廣泛地用于解決各種困難探索任務(wù)當中。Deci等人[13]為了緩解稀疏獎勵提出內(nèi)在動機。Barto[14]首先在內(nèi)在動機中提出Agent與其周圍環(huán)境的交互模型,并認為將內(nèi)在動機和外部獎勵結(jié)合起來應(yīng)該比單獨使用外部獎勵的效果更好。Zheng等人[4]提出一種新的基于隨機梯度的參數(shù)內(nèi)在獎勵的算法(LIRPG),當與外在獎勵結(jié)合時,可以提高強化學(xué)習(xí)解決問題時的性能。Bellemare等人[6]提出的基于偽計數(shù)的內(nèi)在獎勵和Strehl等人[7]提出的基于狀態(tài)訪問計數(shù)提出的內(nèi)在獎勵,都是鼓勵A(yù)gent訪問新狀態(tài),為新狀態(tài)分配高的內(nèi)在獎勵,指導(dǎo)Agent有效地探索環(huán)境,從而緩解外在獎勵稀疏的問題。Zha等人[15]提出的RAPID方法在樣本效率和最終獎勵方面效果都不錯。RAPID將每一幕(episode)視為一個整體,并從每一幕和長期經(jīng)驗給出一幕的探索分數(shù)。這些得分很高的序列被視為良好的探索行為,并存儲在一個小的排名緩沖區(qū)中。Agent模擬緩沖區(qū)中的序列,重現(xiàn)過去良好的探索行為。其內(nèi)在獎勵表現(xiàn)形式為:

        其中,Ndistinct表示一幕中不同狀態(tài)的數(shù)量,Ntotal表示一幕中狀態(tài)的總數(shù),N(s)是整個訓(xùn)練過程中s的狀態(tài)計數(shù),W1、W2是超參數(shù)。正如2.1節(jié)討論的,本文的方法與計數(shù)的內(nèi)在獎勵有相似之處。但是只用當前狀態(tài)計數(shù)的內(nèi)在獎勵去探索環(huán)境是低效的,所以本文主要考慮采用轉(zhuǎn)移后狀態(tài)設(shè)計內(nèi)在獎勵。

        在許多任務(wù)中,風(fēng)險與環(huán)境的固有不確定性有關(guān)(即具有隨機性)。在這些環(huán)境中,即使是最優(yōu)策略(關(guān)于未來累積獎勵)在某些情況下也可能表現(xiàn)不佳[16]。因為未來累積獎勵最大化并不一定能避免大的負面結(jié)果的罕見發(fā)生,所以需要其他標準來評估風(fēng)險。在這種情況下,未來累積獎勵最大化被轉(zhuǎn)化為包含一些與收益方差相關(guān)的風(fēng)險概念[17-18]。Chow等人[19]研究靜態(tài)環(huán)境中的條件風(fēng)險值(CVaR)和平均-條件風(fēng)險值優(yōu)化。Clements等人[20]提出了一個框架來估計學(xué)習(xí)Q值的不確定性,推導(dǎo)不確定性的估計值,引入了一種不確定性感知的UADDPG算法。Dabney等人[21]為了解決狀態(tài)、獎勵和動作在觀察到的累積獎勵中引起的不確定性,提出采用分布式方法(QR-DDPG算法),顯式地對收益分布進行建模,而不僅僅是估計均值。最近,Bisi等人[22]提出一種獎勵波動性風(fēng)險方差方法,該方法考慮每一步獎勵的方差,并對每一步獎勵的方差進行優(yōu)化,與未來累積獎勵的方差相比,每一步獎勵的方差可以更好地捕捉短期風(fēng)險,并且通常會導(dǎo)致更平滑的軌跡。常見的風(fēng)險通常從未來累積獎勵和方差這兩方面進行考慮,稱為收益方差,與之前CVaR的性能測試相比,收益方差具有明確的可解釋性和計算優(yōu)勢。Tamar等人[23]推導(dǎo)了二階矩M=E[G2]的貝爾曼式關(guān)系,然后通過關(guān)系式估計G的方差,其中G表示未來累積獎勵:

        M的Bellman式方程可以表示為:

        其中,rex表示外在獎勵,γ是折扣率。在此前的工作中還未發(fā)現(xiàn)將內(nèi)在獎勵與風(fēng)險結(jié)合,內(nèi)在獎勵在促使Agent探索環(huán)境過程中,也并未考慮環(huán)境中某些狀態(tài)-動作會存在不確定性和不安全性。有鑒于此,本文使用累積獎勵的方差作為Agent探索環(huán)境的風(fēng)險程度。

        近端策略優(yōu)化算法(PPO)[24]是一種策略梯度算法,通過與環(huán)境的交互交替采樣數(shù)據(jù),并利用隨機梯度上升的方法進行代替的目標函數(shù)的優(yōu)化。標準策略梯度方法對每個采樣的數(shù)據(jù)進行一次更新,就將這些采樣的數(shù)據(jù)扔掉,重新采樣,再實現(xiàn)更新,而PPO算法可以實現(xiàn)多個小批量更新,解決了策略梯度算法中步長難以確定的問題。

        2 內(nèi)在獎勵設(shè)計

        在現(xiàn)實世界中,Agent往往在一個信息不完整、環(huán)境隨時變化和感知力有限的情況下進行決策,從而使得Agent收到的反饋信號少之又少。強化學(xué)習(xí)的算法在每個時間步采取一個動作,即使Agent對其選擇的動作存在顧慮,它也會使用這個動作進行學(xué)習(xí)。這種不謹慎會導(dǎo)致Agent犯下錯誤。而且當Agent探索到比以前更好的策略時,Agent大部分時間都會選擇這個策略,所以它很少去探索未訪問的環(huán)境。為鼓勵A(yù)gent發(fā)現(xiàn)好的狀態(tài),本文提出一種結(jié)合新穎性和風(fēng)險評估的內(nèi)在獎勵驅(qū)動的探索方法。內(nèi)在獎勵rin由新穎性O(shè)(s,a,s′)和風(fēng)險評估M(s,a,s′)兩種因素決定。在每個時間步驟t,Agent執(zhí)行一個動作并獲得一個獎勵:

        其中,α是超參數(shù)。本文在PPO算法中加入基于新穎性和風(fēng)險評估的內(nèi)在獎勵得到PPO+NRA(PPO-noveltyrisk assessment)方法,PPO+NRA方法使用內(nèi)在獎勵和外在獎勵之和,更新策略參數(shù),其中內(nèi)在獎勵只會影響策略參數(shù)的變化,而本文中累積獎勵的最終衡量標準是Agent所獲得的外在獎勵值。下面詳細介紹構(gòu)成內(nèi)在獎勵的兩種因素。

        2.1 新穎性

        新穎性作為內(nèi)在獎勵的一部分,主要用于處理Agent對環(huán)境的探索能力。即促使Agent在生命周期中盡可能多地訪問不同的狀態(tài)。在有些環(huán)境中發(fā)現(xiàn)許多糟糕的探索序列經(jīng)常出現(xiàn)在同一個狀態(tài),或者探索序列前期階段總是重復(fù)之前探索過的狀態(tài)。因此Agent會被困在一個熟悉的環(huán)境,從而不去探索未訪問過的環(huán)境。從Agent和環(huán)境進行交互過程中,根據(jù)對環(huán)境的熟悉程度和對新狀態(tài)出現(xiàn)的好奇程度,可以設(shè)置不同的獎勵值。即當狀態(tài)一直反復(fù)出現(xiàn)時,該狀態(tài)獲得內(nèi)在獎勵很低,此時,內(nèi)在獎勵無法指引Agent有效地探索環(huán)境,因此,為了獲得高的內(nèi)在獎勵,應(yīng)該鼓勵A(yù)gent去探索周邊的環(huán)境,而不是一直停留在熟悉的環(huán)境中進行探索。如果環(huán)境的狀態(tài)和/或動作空間是高維連續(xù)的,一個狀態(tài)和/或動作幾乎不會重復(fù)出現(xiàn),采用簡單的基于計數(shù)的方法,會發(fā)現(xiàn)絕大多數(shù)狀態(tài)和/或動作的計數(shù)為1,無法區(qū)分不同狀態(tài)和/或動作之間的差異性。為此,本文使用靜態(tài)哈希方法實現(xiàn)高維的狀態(tài)和/或動作空間的降維,將狀態(tài)和/或動作映射到哈希碼,并將狀態(tài)和/或動作的計數(shù)轉(zhuǎn)換為哈希碼的計數(shù)。靜態(tài)哈希方法[25]使用SimHash[26]作為哈希函數(shù),它通過角距離來度量相似性,SimaHash將狀態(tài)s∈S的二進制代碼檢索為:

        其中g(shù):S→RD是一個可選的預(yù)處理函數(shù),本文中沒有使用預(yù)處理函數(shù),A是矩陣,服從標準高斯分布N(0,1),k是控制粒度:更高的值會導(dǎo)致更少的沖突,更有可能區(qū)分狀態(tài)。

        新穎性是基于靜態(tài)哈希計數(shù)的探索,將新穎性定義為當前狀態(tài)-動作對的新穎性與狀態(tài)-動作-轉(zhuǎn)換后狀態(tài)新穎性之和。本文主要考慮轉(zhuǎn)換后狀態(tài)的統(tǒng)計次數(shù),主要是大部分內(nèi)在獎勵的計數(shù)從狀態(tài)、狀態(tài)-動作這兩方面進行統(tǒng)計,其本質(zhì)是沒有區(qū)別的,都是對狀態(tài)s進行統(tǒng)計,這意味著新穎性對狀態(tài)進行兩次計算,可能會導(dǎo)致Agent過早失去內(nèi)在獎勵信號。而本文考慮轉(zhuǎn)換后狀態(tài)作為計數(shù),主要有兩個作用:一是分別對狀態(tài)-動作和轉(zhuǎn)換后狀態(tài)進行統(tǒng)計,不會過早失去內(nèi)在獎勵。當狀態(tài)-動作被訪問的次數(shù)越多,而轉(zhuǎn)換后狀態(tài)被訪問的次數(shù)是首次或者很少被訪問時,Agent不會過早失去內(nèi)在獎勵信號,還能根據(jù)其內(nèi)在獎勵信號去探索未訪問的狀態(tài)。二是判斷當前狀態(tài)s采取動作a是否有利于Agent探索。Agent采取動作a,到達下一狀態(tài)s′,如果多次訪問該狀態(tài)s′,則表示該動作不利于當前時刻的探索,反之是有利于探索。新穎性定義為:

        其中,n(s,a)表示為對當前狀態(tài)-動作的訪問次數(shù)統(tǒng)計,n(s,a,s′)表示為當前狀態(tài)采取動作a,到達下一狀態(tài)s′的訪問次數(shù)統(tǒng)計,其中λ為正常數(shù),滿足0<λ<1。訪問次數(shù)越多,狀態(tài)的新穎性獎勵值越低。

        2.2 風(fēng)險評估

        本文提出用風(fēng)險評估作為內(nèi)在獎勵的一部分,主要是規(guī)避對環(huán)境不利的動作。從實驗結(jié)果中發(fā)現(xiàn),當來自環(huán)境的反饋很少時,這種方法可以促進有效的探索策略。強化學(xué)習(xí)中大多數(shù)采用隨機性探索或者是ε-greedy探索來進行學(xué)習(xí),這些不安全性探索的學(xué)習(xí)可能會帶來巨大的風(fēng)險。通過風(fēng)險來修改Agent的探索過程,將下一狀態(tài)的狀態(tài)價值和當前狀態(tài)的狀態(tài)價值的差值,與累積獎勵方差來確定狀態(tài)-動作-轉(zhuǎn)換后狀態(tài)的風(fēng)險評估,用以下表達式定義它:

        其中v(s)、v(s′)分別為狀態(tài)s和s′的價值;Var[G]是累積獎勵的方差(公式(2)),從整個生命周期開始計算;β是風(fēng)險等級參數(shù),主要控制狀態(tài)-動作-轉(zhuǎn)換后狀態(tài)的風(fēng)險程度,當β取值越大,意味著當前狀態(tài)-動作-轉(zhuǎn)換后的狀態(tài)存在風(fēng)險等級越高,此時Agent會傾向于選擇其他的動作到達下一狀態(tài),來規(guī)避對環(huán)境有重大影響的動作。

        風(fēng)險評估主要從選擇當前動作的風(fēng)險程度進行考慮。一方面從長遠的角度來判斷當前動作是否會使未來累積獎勵達到最大值,雖然采取當前動作會使Agent獲得較高的短期獎勵值,但有可能會導(dǎo)致未來獎勵達不到最大值,從而使Agent發(fā)現(xiàn)次優(yōu)策略。另一方面Agent在選擇此動作的時候,可能會出現(xiàn)不同的結(jié)果,即環(huán)境在發(fā)生變化時,可能之前采取動作取得可觀的獎勵,但也有可能在后面采取此動作得到相應(yīng)的懲罰。因此對于此動作采取反復(fù)探索。首先用累積獎勵的方差來判斷當前動作對環(huán)境的影響程度,當方差很大時,說明此動作對收益的波動很大;其次再利用β來評估當前動作的風(fēng)險程度,通過調(diào)節(jié)權(quán)重β,來賦予此狀態(tài)的價值。在本文的實驗中,β值是正數(shù),Agent會規(guī)避冒險行為。

        3 實驗與分析

        3.1 實驗設(shè)置

        實驗采用的環(huán)境是OpenAI公司開發(fā)的Gym平臺中Mujoco控制類游戲,選取4個連續(xù)控制類問題來驗證本文方法的有效性。本文選取的4個連續(xù)控制類問題如下:

        (1)Swimmer實驗環(huán)境中,如圖1(a)所示,在粘性流體中的三連桿游泳機器人,通過驅(qū)動兩個關(guān)節(jié)使其盡可能快地向前游。

        (2)Hopper實驗環(huán)境中,如圖1(b)所示,讓一個三維單腿機器人盡可能地快速向前跳躍。

        (3)Walker2d實驗環(huán)境中,如圖1(c)所示,需要訓(xùn)練使二維雙足Agent盡可能快地向前走。

        圖1 Mujoco游戲環(huán)境圖Fig.1 Mujoco game environment map

        (4)Humanoid實驗環(huán)境中,如圖1(d)所示,需要訓(xùn)練三維雙足Agent盡可能快地向前走,并且不會摔倒。其中,Humanoid是當前強化學(xué)習(xí)算法可以解決的最具挑戰(zhàn)性的任務(wù)之一,具有非常高維的狀態(tài)、動作空間。

        實驗使用的CPU為Intel?Core?i5-7400,內(nèi)存為8 GB。為了驗證本文提出的內(nèi)在獎勵方法的有效性,把其應(yīng)用于PPO算法,得到的算法記為PPO+NRA,并與基線方法PPO、LIRPG、RAPID、UA-DDPG和QR-DDPG進行比較。在實驗中,使用步長為128,熵系數(shù)為0.01,批量大小為256,折扣率為0.99,值損失項系數(shù)為0.5,剪裁為0.2和學(xué)習(xí)率為0.000 1,實驗采用了均方根隨機梯度下降方法來更新網(wǎng)絡(luò)的參數(shù)。

        3.2 實驗結(jié)果與分析

        在強化學(xué)習(xí)中,主要使用一個episode所獲得的累積獎勵值來評判方法的優(yōu)劣,累計獎賞值越高說明方法的性能越好,學(xué)習(xí)到的是一個有利于Agent的策略。為了實驗的穩(wěn)定性,取過去10次訓(xùn)練的每個episode的平均獎勵值,每次訓(xùn)練100萬步。為創(chuàng)建一個更具挑戰(zhàn)性的稀疏獎勵設(shè)置,延遲外在獎勵,在本文中以每20、40步來延遲外在獎勵,結(jié)果如圖2和3所示。圖2和圖3中的橫坐標是學(xué)習(xí)過程中的時間步長,縱坐標是過去10個episode訓(xùn)練的平均獎勵。其中將外在獎勵延遲40步更加體現(xiàn)出本文的方法在環(huán)境非常稀疏的條件下能獲得更高的平均獎勵值。

        圖3 延遲40步實驗結(jié)果圖Fig.3 Delayed 40-step experiment result graph

        針對環(huán)境稀疏情況不同,分別對延遲20步和40步的實驗結(jié)果圖進行分析。從圖2分析可以看出:

        圖2 延遲20步實驗結(jié)果圖Fig.2 Delayed 20-step experiment result graph

        在外在獎勵延遲20步的情形下,PPO+NRA在除Humanoid之外的所有三個環(huán)境中都取得了最佳性能。在Humanoid環(huán)境中,PPO+NRA比LIRPG稍差一些,原因是LIRPG中用一個以外在獎勵為目標的網(wǎng)絡(luò)來學(xué)習(xí)內(nèi)在獎勵,經(jīng)過一段時間的探索Agen(t相對于延遲40步的情形)容易獲得外在獎勵,從而改進內(nèi)在獎勵的學(xué)習(xí),進一步改進策略的學(xué)習(xí)。PPO的策略參數(shù)受到外在獎勵的影響,由于外在獎勵幾乎為0,不能很好地引導(dǎo)Agent決策,而PPO+NRA加入內(nèi)在獎勵,通過外在獎勵和內(nèi)在獎勵一起更新策略參數(shù),獲得不錯的平均獎勵。在Walker2d環(huán)境中,PPO+NRA與其他五種方法相比,性能提升明顯,其中RAPID方法相對于其他方法在前期獲取的平均獎勵幾乎為0,可能是因為RAPID前期的樣本不利于Agent選擇好的策略,隨著Agent不斷地探索,RAPID方法能選擇好的樣本進行決策。QR-DDPG在中間階段的平均獎勵值低,這可能是因為采取了風(fēng)險軌跡,在環(huán)境稀疏的情況下,QR-DDPG不能很好地對收益分布進行建模。在Hopper環(huán)境中,PPO+NRA前期不如PPO,這主要的原因是PPO沒有內(nèi)在獎勵,而外在獎勵又稀疏,導(dǎo)致Agent前期不斷地探索環(huán)境,當Agent遇到獎勵值高的狀態(tài)-動作時,就會經(jīng)常訪問此狀態(tài)-動作,所以PPO前期獲得平均獎勵值高,但在后期由于缺乏探索導(dǎo)致Agent學(xué)習(xí)到一個次優(yōu)的策略。本文的方

        法考慮新穎性,從而促使Agent探索環(huán)境,Agent在學(xué)習(xí)過程中能夠很好地平衡探索與利用,學(xué)習(xí)到一個好的策略。從平均獎勵值來看,PPO+NRA相對于LIRPG較差一點,可能是因為LIRPG主要鼓勵A(yù)gent不斷地去探索環(huán)境,去發(fā)現(xiàn)未訪問過的狀態(tài),這也可能是LIRPG在30萬步之前的平均獎勵值高的原因,隨著Agent探索能力減弱,中后期階段Agent訪問的狀態(tài)大部分是之前訪問過的狀態(tài),此時Agent就會偏向于利用,所以LIRPG在中后期的平均獎勵值波動不明顯。PPO+NRA在前期表現(xiàn)不好的原因可能是PPO+NRA不僅鼓勵A(yù)gent去探索環(huán)境,還對動作進行判斷,導(dǎo)致Agent在前期花費大量時間訓(xùn)練。在Swimmer環(huán)境中,PPO+NRA在實驗中期優(yōu)于其他五種方法,主要是PPO+NRA增加了風(fēng)險評估,使Agent規(guī)避危險動作的選擇,大大降低了環(huán)境中所存在的陷阱。QR-DDPG的曲線比UA-DDPG的曲線波動大,這可能是因為Swimmer環(huán)境的外在獎勵是負值且稀疏,導(dǎo)致QR-DDPG無法學(xué)習(xí)到有利的收益分布,促使Agent不能從收益分布中區(qū)分狀態(tài)-動作是否存在風(fēng)險。

        在更為稀疏的環(huán)境,PPO+NRA在四個環(huán)境中有三個環(huán)境能取得高的平均獎勵值,從圖3分析可以看出:

        當外在獎勵延遲40步時,Agent在更稀疏的環(huán)境中,前期探索能力較好,尤其是在最具挑戰(zhàn)的Humanoid游戲中,平均獎勵值在中后期呈現(xiàn)上升趨勢,而圖2的Humanoid環(huán)境平均獎勵值在中后期已經(jīng)趨于收斂,雖然LIRPG算法的平均獎勵值在外在獎勵延遲20步時超過PPO+NRA,但是在環(huán)境更加稀疏的情況下,LIRPG算法不能很好地指引Agent獲得最優(yōu)策略,并且在前期LIRPG的探索能力也在逐漸下降。LIRPG后期下降的原因可能是內(nèi)在獎勵參數(shù)的更新受到策略參數(shù)的影響,由于外在獎勵太過稀疏,導(dǎo)致Agent獲取的策略不好,從而影響內(nèi)在獎勵參數(shù)的變化。RAPID在此環(huán)境中表現(xiàn)得很差,主要是Humanoid環(huán)境中的動作數(shù)量很多,RAPID算法中的內(nèi)在獎勵(公式(1))從一幕中不同狀態(tài)的數(shù)量進行考慮,也就是鼓勵A(yù)gent去探索不同的狀態(tài),然而Humanoid環(huán)境的狀態(tài)空間比Swimmer、Hopper和Walker2d更為復(fù)雜,Agent訪問的狀態(tài)幾乎是不同的,使得Agent不能區(qū)分狀態(tài)之間的區(qū)別,這會導(dǎo)致RAPID不能對好的樣本進行采樣以更新策略的參數(shù),并且RAPID沒有考慮當前選擇的動作是否對Agent有利,而PPO+NRA促使Agent在探索不同狀態(tài)的同時也對選擇的動作進行判斷。在Walker2d游戲中,LIRPG算法在更稀疏的環(huán)境中獲得的平均獎勵值很低,而PPO+NRA在更稀疏的環(huán)境中也能獲得較高的平均獎勵值。PPO算法的平均獎勵值僅次于PPO+NRA,這可能是因為PPO采用的是離軌策略(off-policy),Agent與環(huán)境交互過程中產(chǎn)生好的樣本,促使Agent使用好的樣本來訓(xùn)練網(wǎng)絡(luò)。RAPID的平均獎勵值低,主要是因為Walker2d環(huán)境的動作空間復(fù)雜,RAPID只鼓勵A(yù)gent不斷地去探索環(huán)境,沒有對動作的選擇進行判斷,會導(dǎo)致Agent選擇不利的動作。UA-DDPG在后期的波動性大,可能是因為動作的不確定性是有偏估計,在學(xué)習(xí)過程中大部分都在執(zhí)行探索行為。在Hopper環(huán)境中,PPO+NRA比其他五種方法較為穩(wěn)定,波動性不大,性能提升明顯。在Swimmer游戲中,RAPID算法在更稀疏的環(huán)境中也能獲得較高的平均獎勵值,但是在環(huán)境復(fù)雜和動作數(shù)量增加的Walker2d游戲和Humanoid游戲中,并沒有獲得高的平均獎勵值,主要是因為Swimmer游戲中動作數(shù)量少,Agent只需不斷地探索環(huán)境,而另外兩個環(huán)境外在獎勵非常稀疏,動作數(shù)量多,RAPID算法只鼓勵A(yù)gent去探索不同的狀態(tài),沒有考慮此動作是否對Agent有利,而PPO+NRA促使Agent在探索不同狀態(tài)的同時也對選擇的動作進行判斷。UA-DDPG比QR-DDPG的平均獎勵高,這可能是因為外在獎勵是負值的時候,UA-DDPG在學(xué)習(xí)過程中會積累更多的風(fēng)險狀態(tài)-動作,在大部分時間Agent執(zhí)行探索行為。

        通過實驗對比發(fā)現(xiàn),尤其是針對外在獎勵特別稀疏的情況下,PPO+NRA相比于PPO、LIRPG、RAPID、UADDPG和QR-DDPG這五種算法來說,在多數(shù)環(huán)境中能取得較高的平均獎勵值,說明本文的方法能夠解決外在獎勵稀疏的問題。特別是在Humanoid這種最具挑戰(zhàn)的環(huán)境中,當使用新穎性和風(fēng)險評估作為內(nèi)在獎勵時,內(nèi)在獎勵不會提前消失,仍然能夠鼓勵A(yù)gent長期地進行探索。從表1中可以看出PPO+NRA在延遲40步中獲得平均獎勵值更高。外在獎勵延遲20步的情況下,雖然LIRPG兩個環(huán)境中的平均獎勵值都比本文的方法稍好,但是LIRPG在獎勵更加稀疏的環(huán)境中表現(xiàn)的結(jié)果比本文的方法差,可以清晰地從表1中發(fā)現(xiàn)LIRPG隨著獎勵稀疏增加平均獎勵值下降,RAPID只在Swimmer一個環(huán)境中平均獎勵值提升,而本文的方法在獎勵非常稀疏的情況下,在大部分環(huán)境中也能夠獲取較高的平均獎勵值,驗證本文的方法能夠解決外在獎勵稀疏的問題。

        表1 Mujoco環(huán)境平均獎勵值Table 1 Average reward value of Mujoco environment

        4 結(jié)語

        本文提出一種結(jié)合新穎性和風(fēng)險評估的內(nèi)在獎勵方法,將內(nèi)在獎勵加入到PPO算法當中,得到PPO+NRA。并在Mujoco基準測試任務(wù)中驗證了它的有效性,實驗結(jié)果均表明本文的方法能夠使Agent在外在獎勵稀疏的環(huán)境下獲得較高的平均獎勵值,并且在Mujoco環(huán)境中最困難的任務(wù)之一Humanoid上實現(xiàn)了最佳的性能。下一步的工作是調(diào)整內(nèi)在獎勵方法進一步提高平均獎勵值和收斂速度。考慮在內(nèi)在獎勵完全消失之前,讓Agent根據(jù)所獲得經(jīng)驗來獲取相關(guān)的技能,用此技能來代替逐漸消失的內(nèi)在獎勵,最后根據(jù)此技能來更新策略。

        猜你喜歡
        新穎性方差計數(shù)
        方差怎么算
        古人計數(shù)
        概率與統(tǒng)計(2)——離散型隨機變量的期望與方差
        遞歸計數(shù)的六種方式
        外觀新穎性對消費者購買意愿的影響:自我建構(gòu)與產(chǎn)品類型的調(diào)節(jié)效應(yīng)
        古代的計數(shù)方法
        計算方差用哪個公式
        日本計劃將新穎性寬限期延長至12個月
        這樣“計數(shù)”不惱人
        方差生活秀
        一区二区三区最新中文字幕 | 久久精品国产一区二区蜜芽| 精品一区二区三区不老少妇| 刚出嫁新婚少妇很紧很爽| 乱码av麻豆丝袜熟女系列| 三上悠亚av影院在线看| 色噜噜狠狠色综合欧洲| 亚洲国产一区二区av| 又大又长粗又爽又黄少妇视频| 亚洲欧洲无码一区二区三区| 对白刺激的老熟女露脸| 亚洲中文字幕乱码在线观看| 亚洲av永久无码精品古装片| 精品久久人人妻人人做精品| 99久久久69精品一区二区三区 | 亚洲成人激情深爱影院在线 | 国产精品熟女一区二区| 日本在线观看不卡| 国产一区二区三区18p| 观看在线人视频| 日本一区午夜艳熟免费| 水蜜桃一二二视频在线观看免费 | 亚洲av有码精品天堂| 日韩精品在线免费视频| 国产精品一区二区久久不卡| 久久国产成人午夜av影院| 国产成人涩涩涩视频在线观看| 久久精品人人爽人人爽| 亚洲精品无码久久久久av老牛| 欧美日本日韩aⅴ在线视频| 搡老女人老妇女老熟妇69| 免费久久久一本精品久久区| 欧美性受xxxx白人性爽| 2021年最新久久久视精品爱| 97久久综合精品国产丝袜长腿| 国产夫妇肉麻对白| 美女黄18以下禁止观看| 国产精品久久夜伦鲁鲁| 亚洲综合国产成人丁香五月激情| 国产成人无码区免费内射一片色欲| 日韩精品一区二区三区毛片|