亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于離線模型預訓練學習的改進DDPG算法

        2022-05-23 04:02:48王洪格
        計算機工程與設(shè)計 2022年5期
        關(guān)鍵詞:動作價值模型

        張 茜,王洪格,倪 亮

        (中原工學院 計算機學院,河南 鄭州 450007)

        0 引 言

        強化學習[1,2]是機器學習的一個重要分支,智能體通過執(zhí)行某些操作并觀察從這些操作中獲得的獎勵或結(jié)果來學習在環(huán)境中行為。

        強化學習的控制決策功能與深度神經(jīng)網(wǎng)絡的感知功能相結(jié)合產(chǎn)生深度強化學習(deep reinforcement learning,DRL)。DRL中經(jīng)典算法DDPG及雙延遲DDPG(TDDD twin delayed deep deterministic policy gradient,TD3)是神經(jīng)網(wǎng)絡擬合值函數(shù)和策略函數(shù)的典型案例。

        DDPG算法訓練過程較穩(wěn)定,但其學習過程比較緩慢且存在Q值高估偏差,導致次優(yōu)策略和發(fā)散行為,使最終算法模型有很大的偏差[3]。TD3算法在DDQN基礎(chǔ)上抑制Q值高估,卻沒有考慮價值估計的動態(tài)性,導致出現(xiàn)策略惡化。

        另外,在線強化學習需要在線地處理環(huán)境中每個時刻的狀態(tài)數(shù)據(jù)和反饋獎勵,施加動作后必須等待環(huán)境的下個反饋獎勵,故造成時間成本代價過高。不僅如此,在訓練初期時,其中的動作網(wǎng)絡和評估網(wǎng)絡泛化能力較弱,產(chǎn)生大量冗余的試錯動作和無效數(shù)據(jù),一定程度上浪費在線的計算資源。

        為了解決上述問題,本文首先利用已有離線數(shù)據(jù),訓練數(shù)據(jù)生成對象狀態(tài)模型和價值獎勵模型,通過基于模型的強化學習方法離線預訓練DDPG中動作網(wǎng)絡和評估網(wǎng)絡,離線提升網(wǎng)絡的決策能力,從而加快之后在線學習效率,提高算法的性能和收斂速度。同時利用DDQN算法中雙Q價值網(wǎng)絡的結(jié)構(gòu)[4],避免Q值在訓練過程中被過高估計,產(chǎn)生最優(yōu)策略。

        1 相關(guān)工作

        目前深度強化學習已經(jīng)在機器人的仿真控制[5]、運動控制[6]、室內(nèi)室外導航[7]、同步定位[8]等方向產(chǎn)生重要的影響,廣泛應用于機器人操作任務上[9],促使機器人能夠在仿真環(huán)境甚至現(xiàn)實世界中通過經(jīng)驗和環(huán)境交互進行自主學習,以達成回報最大化或?qū)崿F(xiàn)特定目標。

        JIN Hai-Dong等[10]提出一種帶自適應學習率的綜合隨機梯度下降方法,將其與Q-Learning算法結(jié)合,解決優(yōu)化震蕩,但仍存在算法收斂性能對歷史梯度折扣率λ敏感。Todd Hester等[11]將深度Q網(wǎng)絡(deep Q-Learning network,DQN)與專家示例數(shù)據(jù)相結(jié)合,對智能體進行預訓練,利用小數(shù)據(jù)集來大幅加快學習過程,但缺少在現(xiàn)實任務場景中的驗證。CHEN Song等[12]提出一種基于線性動態(tài)跳幀和改進的優(yōu)先級經(jīng)驗重放的深度雙Q網(wǎng)絡,使智能體將根據(jù)當前狀態(tài)和動作來動態(tài)地確定一個動作被重復執(zhí)行的次數(shù),但評價標準只考慮到樣本的時間差分誤差,可能還存在其它影響樣本優(yōu)先級的因素。Hasselt等[3]將Double Q-Learning應用到DQN上提出了DDQN,將TD目標的動作選擇和動作評估分別用不用的值函數(shù)來實現(xiàn),改進了max操作去解決Q值高估。Timothy P等[13]提出了DDPG,解決了DQN無法處理大量的連續(xù)動作空間問題,廣泛用于解決避障、路徑規(guī)劃[14,15]等問題。但與大多數(shù)無模型強化方法一樣,DDPG需要大量的訓練來找到解決方案,而且樣本數(shù)據(jù)采集受到實時操作的限制,一般來說,基于模型的算法在樣本復雜度方面優(yōu)于無模型學習者[16]。Scott Fujimoto等[17]提出了TD3算法,在DDQN基礎(chǔ)上通過選取兩個估值函數(shù)中的較小值并使用延遲學習,但存在收斂速度過慢。Pieiffer M等[18]提出一個模型,能夠?qū)W習避免碰撞的策略,安全地引導機器人通過障礙物環(huán)境到達指定目標,但是從完美的模擬數(shù)據(jù)中訓練出來的模型,存在導航性能的不足。

        基于以上分析,本文提出了基于離線模型預訓練改進的DDPG算法,利用離線真實訓練數(shù)據(jù)構(gòu)造了對象狀態(tài)模型網(wǎng)絡和價值獎勵網(wǎng)絡,并通過新構(gòu)造的兩個網(wǎng)絡對DDPG中的動作網(wǎng)絡和價值網(wǎng)絡進行預訓練,加快智能體從已知環(huán)境中學習的效率以便高效地完成指定任務。同時,DDPG算法存在噪聲和函數(shù)逼近不夠靈活,導致對已知的Q-action值估計過高,不能產(chǎn)生最優(yōu)策略,因此本文將DDQN的結(jié)構(gòu)應用到算法中,通過將目標中的最大操作分解為動作選擇和動作評價,使用目標網(wǎng)絡來評估其價值,得到更精準的Q值,以便產(chǎn)生最優(yōu)策略。實驗結(jié)果表明本文提出的基于離線模型預訓練改進的DDPG算法比原始DDPG算法效率更高效,平均獎勵值更高,學習策略更加穩(wěn)定可靠。

        2 DDPG算法介紹

        Deepmind提出DDPG[13],是Actor-Critic框架[19]和DQN算法的結(jié)合體,是針對連續(xù)動作空間的off-policy[20]、Model-Free深度強化學習算法。從整體上來說,DDPG網(wǎng)絡應用基于Actor-Critic方法,故具備策略Policy的神經(jīng)網(wǎng)絡和基于價值Value的神經(jīng)網(wǎng)絡,包含一個策略網(wǎng)絡用來生成動作,一個價值網(wǎng)絡用來評判動作的好壞,并吸取DQN的優(yōu)秀特性[21],同時使用了樣本經(jīng)驗回放池和固定目標網(wǎng)絡。

        DDPG結(jié)構(gòu)中包含一個參數(shù)為θπ的動作網(wǎng)絡和一個參數(shù)為θQ的價值評估網(wǎng)絡來分別計算確定性策略a=π(s|θπ) 和動作價值函數(shù)Q(s,a|θQ), 由于單個網(wǎng)絡學習過程并不穩(wěn)定,因此借鑒了DQN固定目標網(wǎng)絡的成功經(jīng)驗,將動作網(wǎng)絡和評估網(wǎng)絡各自細分為一個現(xiàn)實網(wǎng)絡和一個估計網(wǎng)絡。

        現(xiàn)實網(wǎng)絡和估計網(wǎng)絡兩者結(jié)構(gòu)相同,估計網(wǎng)絡參數(shù)以一定頻率由現(xiàn)實網(wǎng)絡參數(shù)進行軟更新。動作估計網(wǎng)絡用于輸出實時動作,供智能體在現(xiàn)實環(huán)境中執(zhí)行動作,而動作現(xiàn)實網(wǎng)絡用于更新價值網(wǎng)絡系統(tǒng)。同時價值評估網(wǎng)絡也細分為現(xiàn)實網(wǎng)絡和估計網(wǎng)絡,用于輸出每個狀態(tài)的價值獎勵,而輸入端卻有不同,狀態(tài)現(xiàn)實網(wǎng)絡根據(jù)動作現(xiàn)實網(wǎng)絡輸入的動作及狀態(tài)的觀測值分析,而狀態(tài)估計網(wǎng)絡根據(jù)此時智能體施加的動作作為輸入。

        該算法的流程描述如下:

        算法1:DDPG算法

        步驟1 初始化參數(shù)設(shè)置動作網(wǎng)絡和評估網(wǎng)絡的在線神經(jīng)網(wǎng)絡參數(shù):θQ和θμ,將在線網(wǎng)絡的參數(shù)拷貝給對應的目標網(wǎng)絡:θQ′和θμ′;

        步驟2 初始化存儲緩沖器R;

        步驟3 智能體根據(jù)行為策略選擇一個動作,下達給環(huán)境執(zhí)行;

        步驟4 智能體執(zhí)行動作后,環(huán)境返回獎勵值和新的狀態(tài)st+1,智能體將這個狀態(tài)的轉(zhuǎn)換過程 (st,at,rt,st+1) 存入存儲緩沖器R中,作為訓練在線網(wǎng)絡的數(shù)據(jù)集;

        步驟5 從存儲緩沖器R中,隨機采樣N個轉(zhuǎn)換數(shù)據(jù),作為在線策略網(wǎng)絡和在線Q網(wǎng)絡的一個小批量訓練數(shù)據(jù),用 (si,ai,ri,si+1) 表示小批量數(shù)據(jù)中的單個轉(zhuǎn)換數(shù)據(jù);

        步驟6 計算在線Q網(wǎng)絡的梯度,求得損失函數(shù)中針對θQ的梯度;

        步驟7 采用Adam優(yōu)化器在線更新Q網(wǎng)絡中的參數(shù)θQ,計算在線策略網(wǎng)絡的策略梯度更新θμ;

        步驟8 通過軟更新去更新動作網(wǎng)絡和評估網(wǎng)絡分別對應的目標網(wǎng)絡參數(shù)θQ′和θμ′。

        3 改進DDPG算法

        3.1 介 紹

        在實際訓練過程中,智能體與環(huán)境進行交互訓練成本代價昂貴,在線強化學習時間成本高且前期訓練神經(jīng)網(wǎng)絡過程會進行大量的嘗試,會產(chǎn)生大量試錯動作和無效數(shù)據(jù),效率低下。

        因此,本文提出基于離線模型預訓練學習改進的DDPG算法,在原始DDPG網(wǎng)絡結(jié)構(gòu)上新構(gòu)建了兩個結(jié)構(gòu)相似的全連接神經(jīng)網(wǎng)絡,分別為對象狀態(tài)模型網(wǎng)絡和價值獎勵網(wǎng)絡,每層網(wǎng)絡的人工神經(jīng)元個數(shù)基本相近。對象狀態(tài)模型網(wǎng)絡和價值獎勵網(wǎng)絡可以通過從已有離線數(shù)據(jù)中學習智能體之前與環(huán)境交互得到的觀察和動作的組合到所預期的新的觀察與回報之間的遷移動態(tài)去調(diào)參和訓練優(yōu)化,最終分別生成相應模型后,用模型環(huán)境來訓練智能體的策略,去模擬在線學習過程以此去提前預訓練動作網(wǎng)絡和價值網(wǎng)絡,大大減低智能體與環(huán)境交互產(chǎn)生的工作量,促使智能體前期就可以選出較好的動作去產(chǎn)生高評分的價值獎勵值,可以愈發(fā)高效地完成任務。

        任何類型的估計誤差都會導致向上偏差,不管這些誤差是由環(huán)境噪聲、函數(shù)逼近、非平穩(wěn)性還是任何其它來源引起的。在DDQN之前,基本上所有的目標Q值都是通過貪婪法直接得到的,計算如下式

        (1)

        式中:γ∈[0,1] 是衰減因子,權(quán)衡即時和未來獎勵的重要性; Qtarget(si+1,μtarget(si+1)) 表示由目標Q網(wǎng)絡獲得si+1狀態(tài)下選取ai+1動作所能達到的Q值。

        使用max操作雖然可以快速讓Q值向可能的優(yōu)化目標靠攏,但是由于損失函數(shù)中每次求得的目標Q值都是取max操作得到,會存在

        E(max(x,y))≥max(E(x),E(y))

        (2)

        即將N個目標Q值先取max操作再求平均總是會比先計算N個目標Q值取平均后再max操作要大,最終導致過度估計。

        所謂過度估計就是最終估計的值函數(shù)比真實值函數(shù)要大,使得到的算法模型有很大的偏差。為了解決這個問題,DDQN通過解耦目標Q值動作的選擇和目標Q值的計算,使用目標網(wǎng)絡來評估其價值,對目標網(wǎng)絡的更新與DQN保持不變,并保持在線網(wǎng)絡的定期副本,促使DQN朝著雙Q學習的最小可能的改變,盡可能得到更加準確的Q值,產(chǎn)生更好的策略。

        本文為了解決DDPG中的Q值過度估計問題,在Q值的處理上增加了DDQN的結(jié)構(gòu),具體設(shè)計思路如下:

        通常在非終止狀態(tài)下,其Q值的計算為

        Qi=Ri+γQtarget(si+1,μtarget(si+1))

        (3)

        在本文提出的方案中,為了避免Q值過大估計,不再是僅僅直接在目標Q網(wǎng)絡里面找出動作決策網(wǎng)絡對應Q值,而是在目標Q網(wǎng)絡中先找出當前動作決策網(wǎng)絡對應的Q值,如下所示

        (4)

        (5)

        式(4)表示在狀態(tài)si+1下,在當前Q網(wǎng)絡中先找最大Q值對應的動作,再在目標網(wǎng)絡里面去計算目標Q值。

        然后利用這兩個值中的最小值在目標網(wǎng)絡里面去計算目標Q值

        (6)

        綜合寫起來為

        (7)

        除了目標Q值的計算方式以外,本文所提出的算法在在線訓練的方式與DDPG一致。

        3.2 訓練評價網(wǎng)絡和動作網(wǎng)絡

        收集訓練數(shù)據(jù):本文通過智能體根據(jù)行為策略選擇一個行動,下達給環(huán)境執(zhí)行該行動,環(huán)境執(zhí)行后返回獎勵和新的狀態(tài)。智能體將這個狀態(tài)轉(zhuǎn)換為 (st,at,rt,st+1) 來收集訓練數(shù)據(jù)。

        數(shù)據(jù)預處理:許多數(shù)據(jù)因其不完整性和前后不統(tǒng)一等特點會造成所謂“臟”數(shù)據(jù)的產(chǎn)生,如果直接使用這些數(shù)據(jù)進行模型預訓練而不考慮數(shù)據(jù)內(nèi)在特征,會使得最終結(jié)果誤差較大,影響整體效果。因此使用數(shù)據(jù)之前需要進行相應的去除空值和異常值的處理,對數(shù)據(jù)的格式進行歸一化轉(zhuǎn)換,能降低干擾,從而提高預測精度[22]。另外本文將零均值高斯噪聲加入到訓練數(shù)據(jù)中,以提高模型的魯棒性。最后將處理后的數(shù)據(jù)存儲在數(shù)據(jù)集N中。

        離線預訓練評估網(wǎng)絡和動作網(wǎng)絡:從預處理后的數(shù)據(jù)集N中提取N個樣本數(shù)據(jù),離線訓練對象狀態(tài)模型網(wǎng)絡和價值獎勵網(wǎng)絡后生成模型,再利用這兩個模型提前對DDPG中的動作網(wǎng)絡和價值網(wǎng)絡進行預訓練學習,減少前期的大量試錯工作,提升在線學習的效率和品質(zhì)。

        離線預訓練過程描述如下:

        (1)離線環(huán)境下:從系統(tǒng)歷史數(shù)據(jù)表格中收集環(huán)境樣本數(shù)據(jù)或產(chǎn)生隨機動作,得到對應的獎勵值和反饋獎勵數(shù)據(jù),其數(shù)據(jù)格式為 (st,at,rt,st+1)。

        (2)從數(shù)據(jù)集N中隨機選取N個樣本,更新對象狀態(tài)模型網(wǎng)絡P(s,a|θp) 和價值獎勵網(wǎng)絡r(s,a|θr):

        方式如下最小化,對象狀態(tài)模型的損失函數(shù)

        (8)

        其中,si+1表示下一時刻的狀態(tài),N表示隨機從數(shù)據(jù)集中抽取的N個樣本, P(si,ai|θp) 表示在si狀態(tài)下執(zhí)行動作ai后的狀態(tài)值。

        方式如下最小化,價值獎勵模型的損失函數(shù)

        (9)

        其中,ri表示從當前狀態(tài)直到將來某個狀態(tài)中間所有行為所獲得獎勵值的之和, r(si,at|θr) 表示當前狀態(tài)和行為所獲得的獎勵值。

        (3)基于訓練好后的對象狀態(tài)模型和價值獎勵模型對評估網(wǎng)絡Q(s,a|θQ)、 動作網(wǎng)絡μ(s|θμ) 進行預訓練,從數(shù)據(jù)集中選取N個樣本 (st,at), 對價值網(wǎng)絡進行訓練,通過價值獎勵函數(shù)預測當前狀態(tài)執(zhí)行動作后的反饋獎勵

        Ri=r(si,at|θr)

        (10)

        (4)通過對象狀態(tài)模型預測下一步狀態(tài)

        si+1=P(si,ai|θp)

        (11)

        (5)根據(jù)目標動作網(wǎng)絡預測下一步的動作

        ai=μ′(s|θμ′)

        (12)

        (6)通過目標價值網(wǎng)絡得到下一步的Q值

        Qi+1=Q′(si+1,ai|θQ′)

        (13)

        (7)運用式(7)DDQN算法結(jié)構(gòu)訓練和更新Q網(wǎng)絡:

        方式如下最小化,Q網(wǎng)絡的損失函數(shù)

        (14)

        (8)繼續(xù)訓練更新動作網(wǎng)絡μ(s|θμ)

        ai=μ(si|θμ)

        (15)

        方式如下最小化,動作網(wǎng)絡的損失函數(shù)

        (16)

        (9)最后進行軟更新,更新目標網(wǎng)絡里面的參數(shù)θQ′和θμ′,離線預訓練結(jié)束。

        3.3 算法流程設(shè)計

        算法2:基于模型預訓練學習的改進DDPG算法

        步驟1 構(gòu)建并初始化人工神經(jīng)網(wǎng)絡評估網(wǎng)絡Q(s,a|θQ)、 動作網(wǎng)絡μ(s|θμ)、 對象狀態(tài)模型網(wǎng)絡P(s,a|θp) 和價值獎勵網(wǎng)絡r(s,a|θr) 并初始化各自參數(shù),收集并預處理數(shù)據(jù),訓練對象狀態(tài)模型網(wǎng)絡和價值獎勵網(wǎng)絡;

        步驟2 訓練好后的兩個模型對評估網(wǎng)絡Q(s,a|θQ) 和動作網(wǎng)絡μ(s|θμ) 進行預訓練;

        步驟3 初始化上述兩個網(wǎng)絡對應目標網(wǎng)絡,初始化存儲緩沖器R中;

        步驟4 隨機初始化分布N用作動作探索,初始化st為當前的第一個狀態(tài);

        步驟5 智能體根據(jù)行為策略選擇一個行動,下達給環(huán)境執(zhí)行該行動;

        步驟6 智能體執(zhí)行動作后,環(huán)境返回當前狀態(tài)執(zhí)行后的獎勵和新的狀態(tài)st+1;

        步驟7 智能體將這個狀態(tài)轉(zhuǎn)換過程 (st,at,rt,st+1) 存入存儲緩存器R中,作為訓練在線網(wǎng)絡的數(shù)據(jù)集;

        步驟8 從存儲緩存器R中,隨機采樣N個轉(zhuǎn)換數(shù)據(jù),作為在線策略網(wǎng)絡和在線Q網(wǎng)絡的一個小批量訓練數(shù)據(jù)。本文用 (si,ai,ri,si+1) 表示小批量中的單個轉(zhuǎn)換數(shù)據(jù);

        步驟9 通過目標動作網(wǎng)絡預測下一步的動作ai=μ′(s|θμ′), 利用DDQN算法結(jié)構(gòu)Qi=ri+γQi+1比較Q值

        Q′i+1=Q′(si+1,ai|θQ′)

        (17)

        Qi+1=min(Qi+1,Q′i+1)

        (18)

        步驟10 計算在線Q網(wǎng)絡的策略梯度,Q網(wǎng)絡的損失函數(shù)定義如式(14)所示。

        步驟11 更新在線策略網(wǎng)絡:采用Adam優(yōu)化器更新θμ和動作網(wǎng)絡μ(s|θμ)

        ai=μ(si|θμ)

        (19)

        (20)

        步驟12 最后進行軟更新,更新目標網(wǎng)絡里面的參數(shù)θQ′和θμ′

        θμ′←τθμ+(1-τ)θμ′

        θQ′←τθQ+(1-τ)θQ′

        其中,τ為更新系數(shù),為避免參數(shù)變化幅度過大,范圍取0.01~0.1。

        改進DDPG算法的結(jié)構(gòu)如圖1所示。

        圖1 改進算法結(jié)構(gòu)

        4 實 驗

        實驗環(huán)境為windows 10+paddle 1.7+par l1.3.1+cuda 10.0。硬件為core i8-8300+顯卡GTX1060。仿真平臺為BipedalWalker-v2。本文的離線數(shù)據(jù)獲取是在環(huán)境狀態(tài)和動作范圍內(nèi),隨機產(chǎn)生狀態(tài)數(shù)據(jù)、動作和其對應的價值獎勵及下個狀態(tài),將最終數(shù)據(jù)以 (sj,aj,rj,sj+1) 格式存入數(shù)據(jù)庫。本文利用DDPG算法、TD3算法和基于離線模型預訓練學習的改進DDPG算法分別訓練4000回合,分析2D假人從起點到達終點的反饋獎勵值與訓練回合數(shù)的關(guān)系,進行了訓練獎勵曲線對比實驗和評估獎勵對比實驗。

        4.1 BipedalWalker-v2仿真平臺

        BipedalWalker-v2[23,24]是一個開源模擬器,其環(huán)境特點為地形的生成是完全隨機的,它的任務是讓2D假人從起點走到終點,機器人有4個關(guān)節(jié)可以控制,分別是左腿根部連接,右腿根部連接,左腿膝部連接和右腿膝部連接,這個技能是在模仿雙足動物向前行走的過程。往前走的越遠,分數(shù)越多,如果機器人摔倒則扣分,訓練的模型必須非常穩(wěn)健才能拿到高平均分。

        假人行走過程如圖2所示。

        圖2 假人行進過程

        4.2 實驗參數(shù)設(shè)置

        為了保證實驗的有效性,本文使用的所有算法均使用相同的參數(shù)。實驗中參數(shù)取值如下:動作網(wǎng)絡的學習率為5e-3,評估網(wǎng)絡的學習率為5e-3,對象狀態(tài)模型網(wǎng)絡的學習率為6e-5,價值獎勵網(wǎng)絡的學習率為9e-6,價值獎勵的衰減因子γ取值0.995,軟更新的系數(shù)取值0.008,經(jīng)驗池大小為200 000,獎勵縮放系數(shù)為1,動作噪聲方差為1,訓練過程中逐漸會衰減到0.5,訓練的總回合數(shù)為4000。

        本文在原來DDPG的動作網(wǎng)絡和評估網(wǎng)絡結(jié)構(gòu)上新構(gòu)建了兩個結(jié)構(gòu)相似的全連接人工神經(jīng)網(wǎng)絡,每層網(wǎng)絡的人工神經(jīng)元個數(shù)基本相近。網(wǎng)絡的具體設(shè)計如下:

        4.3 預訓練模型的損失函數(shù)

        新構(gòu)建的對象狀態(tài)模型網(wǎng)絡和價值獎勵網(wǎng)絡有著不同的功能和結(jié)構(gòu),相應的訓練方式也不同,使用不同的損失函數(shù)進行訓練,其目的都是為了從訓練數(shù)據(jù)中獲取最優(yōu)權(quán)重參數(shù)。

        對象狀態(tài)模型網(wǎng)絡訓練的損失函數(shù)曲線如圖3所示。

        圖3 對象狀態(tài)模型網(wǎng)絡訓練的損失函數(shù)曲線

        價值獎勵網(wǎng)絡訓練的損失函數(shù)曲線如圖4所示。

        圖4 價值獎勵網(wǎng)絡訓練的損失函數(shù)曲線

        從圖3和圖4上可以直觀看出訓練損失函數(shù)曲線總體呈現(xiàn)下降趨勢,相鄰之間的損失值有較小的波動,收斂速度較快,數(shù)據(jù)的變化程度越小,說明預測模型描述實驗數(shù)據(jù)具有更好的精確度,使最終的模型達到收斂狀態(tài),減少模型預測值的誤差。

        4.4 訓練獎勵曲線對比

        圖5(a)為傳統(tǒng)DDPG訓練獎勵曲線[13],圖5(b)為TD3訓練獎勵曲線[17],圖5(c)為離線模型預訓練后的改進DDPG訓練獎勵曲線??v坐標為訓練的回合次數(shù),橫坐標每次訓練的價值獎勵。Q值是神經(jīng)網(wǎng)絡訓練時用于評估動態(tài)規(guī)劃的價值,Q值越小,價值函數(shù)曲線的網(wǎng)絡越保守,則Q值增長慢,曲線越平滑;而Q值大一點就會激進一點,則Q值增長快,曲線產(chǎn)生振蕩幅度大。

        圖5 訓練獎勵曲線對比實驗結(jié)果

        從圖5(a)上明顯看出TD3算法抑制Q值增加,穩(wěn)定性較好,但前期獲得的價值獎勵值低,收斂速度慢。而改進DDPG算法可以明顯看出前期的訓練獎勵曲線獲得的獎勵值整體高于DDPG算法和TD3算法,說明了基于離線模型預訓練學習的改進DDPG算法可以有效提升算法的性能。因為通過對象狀態(tài)模型網(wǎng)絡和價值獎勵模型網(wǎng)絡對評估網(wǎng)絡Q(s,a|θQ)、 動作網(wǎng)絡μ(s|θμ) 進行預訓練可以更好地確定每個狀態(tài)下每個動作需要重復執(zhí)行的次數(shù),早期便可獲得高評分獎勵值,進一步節(jié)省智能體在大部分時間里重復執(zhí)行多次的動作次數(shù)和提升智能體自身的決策能力。

        4.5 評估獎勵對比

        從圖6(a)上看來,訓練初期時算法評估獎勵TD3穩(wěn)定性較好,但是獎勵值增長較DDPG和改進DDPG算法弱很多。從圖6(b)上看來,訓練結(jié)束時改進DDPG算法穩(wěn)定性較好且震蕩少、評分高。圖6(c)為3種算法在4000回合中累積獎勵曲線對比,累積獎勵越高,代表機器人按照期待的目標選出來更優(yōu)的動作。

        從圖6(c)上直觀可以看出3條曲線都呈遞增趨勢,且當訓練回合超過某一定值后,圖中顯示改進DDPG算法在2600回合左右平均累積獎勵已經(jīng)趨于整體穩(wěn)定,數(shù)值在300左右,而原始DDPG則是在3600回合左右開始趨于穩(wěn)定狀態(tài),TD3算法穩(wěn)定性較好,但前期增長速度一直很慢,明顯看出前者優(yōu)于后兩者先趨于穩(wěn)定,算法收斂速度優(yōu)于后兩者而且累積獎勵值評分高。

        數(shù)據(jù)顯示本文所提出的改進DDPG算法在0-4000回合的平均獎勵為82.3,最大獎勵為142,最小為-58;DDPG算法平均獎勵為75.4,最大獎勵為118,最小為-66;TD3算法平均獎勵為62,最大獎勵為132,最小為-27;

        在測試環(huán)境下改進DDPG算法的平均獎勵為198.2,最高獎勵為302,最低為-198;DDPG算法平均獎勵為189.6,最高獎勵為281,最低為-186.4;TD3算法平均獎勵為98.7,最高獎勵為294,最低為-101。

        從數(shù)據(jù)可以更加直觀看出改進DDPG算法的累積獎勵值最高且從圖像上可看出整體算法收斂速度快,穩(wěn)定性較好。

        5 結(jié)束語

        本文提出了一種基于離線模型預訓練學習的改進DDPG算法。該算法從離線樣本數(shù)據(jù)學習訓練生成對象狀態(tài)模型和價值獎勵模型,通過模型預訓練DDPG中的動作網(wǎng)絡和價值網(wǎng)絡,節(jié)省在線學習的成本并提升在線學習質(zhì)量和效率。另外,改進算法加入DDQN網(wǎng)絡結(jié)構(gòu),將目標中的最大動作分解為動作評估和動作選擇來減少Q(mào)值的高估,根據(jù)在線網(wǎng)絡來評估貪婪策略,同時使用目標網(wǎng)絡來評估其價值,使智能體盡可能去達到最優(yōu)策略,達到更穩(wěn)定可靠的學習過程。

        從BipedalWalker-v2平臺的仿真實驗結(jié)果顯示,改進DDPG算法獲得的最大累積獎勵可以達到更高的水平,獲取的平均累積獎勵值較DDPG提升了9.15%,而且能夠更快達到穩(wěn)定的狀態(tài),在操作2D假人過程中可以通過最優(yōu)策略快速地到達目的地。

        猜你喜歡
        動作價值模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        動作描寫要具體
        畫動作
        動作描寫不可少
        一粒米的價值
        “給”的價值
        3D打印中的模型分割與打包
        非同一般的吃飯動作
        亚洲天堂亚洲天堂亚洲色图| 国产精品1区2区| 日本二区视频在线观看| 大香蕉国产av一区二区三区| 精品国产麻豆免费人成网站| 人妻精品无码一区二区三区| 久久精品国产只有精品96| 手机在线国产福利av| 国产精品国产三级国产aⅴ下载| 六月婷婷久香在线视频| 无码人妻一区二区三区免费手机| 亚洲国产黄色在线观看| 精品国产一区二区三区三| 人人爽久久涩噜噜噜av| 狠狠色综合播放一区二区| 日本高清二区视频久二区| 日韩精品人妻中文字幕有码在线| 人人妻人人澡人人爽欧美精品| 欧美日韩亚洲色图| 精品视频一区二区在线观看| 久久精品国产亚洲av精东| 国产精品无码av一区二区三区 | 日韩精品一区二区亚洲观看av| 一本加勒比hezyo无码专区| 欧美疯狂做受xxxxx高潮| 精品人妻一区二区三区蜜桃| 亚洲国产av一区二区三区| 亚洲精品久久久久中文字幕| 国产精品精品| 国产网红一区二区三区| 日本丰满少妇xxxx| 少妇寂寞难耐被黑人中出| 国产精品视频一区二区三区,| 久久精品一区二区熟女| 国产色在线 | 亚洲| 国产综合自拍| 亚洲精品国产熟女久久久| 婷婷色香五月综合缴缴情| 亚洲国际无码中文字幕| 少妇裸淫交视频免费看| 日产乱码一二三区别免费l|