胡子劍 高曉光 萬開方 張樂天 汪強龍 NERETIN Evgeny
強化學習(Reinforcement learning,RL)的來源通常被認為是心理學中的行為主義理論,即有機體能獲得最大利益的習慣性行為是在環(huán)境給予的獎勵或懲罰的不斷刺激下,逐步形成的對刺激的預期.直到20 世紀末,RL 才開始得到研究者們的重視并迅速發(fā)展,并被認為是設(shè)計智能體的核心技術(shù)之一[1-2].
RL 通過 “試錯”(Trail-and-error)[2]的方式與環(huán)境進行交互并獲得獎勵,并依據(jù)獎勵不斷調(diào)整智能體的行為策略.這種符合人類的經(jīng)驗性思維與直覺推理的一般決策過程使得其在人工智能領(lǐng)域得到了廣泛的應(yīng)用[3].隨著應(yīng)用環(huán)境復雜程度的不斷提升,“維度災難”[4]限制了RL 的進一步發(fā)展.為了更好地表征復雜任務(wù)場景中高維度的狀態(tài)空間,谷歌人工智能團隊Deepmind 創(chuàng)新性地將深度學習(Deep learning,DL)與RL 相結(jié)合,提出了人工智能領(lǐng)域的一個新的研究熱點 ——深度強化學習(Deep reinforcement learning,DRL)[5].DRL 同時具備了DL 的特征感知能力和RL 的決策能力,能夠?qū)W習大規(guī)模輸入數(shù)據(jù)的抽象表征,并以此表征為依據(jù)進行自我激勵,優(yōu)化解決問題的策略[6].目前,DRL 這種端對端(End-to-end)的學習方式已經(jīng)在游戲博弈[5,7-9]、機器人控制[10-12]、自動駕駛[13-15]、金融貿(mào)易[16-18]、醫(yī)療保健[19-20]等多個領(lǐng)域取得了顯著的進展,其訓練的智能體的表現(xiàn)已經(jīng)接近甚至超越了人類水平.
不同于監(jiān)督學習和無監(jiān)督學習,RL 通過智能體與環(huán)境的不斷交互來對環(huán)境進行探索進而獲得經(jīng)驗(樣本),并根據(jù)所獲得的經(jīng)驗對智能體的策略不斷更新,最終找到一個適應(yīng)環(huán)境的最優(yōu)策略.由于RL 在學習過程中沒有固定的數(shù)據(jù)集,其需要智能體消耗大量的時間成本來獲取交互經(jīng)驗.在一些復雜的環(huán)境尤其是現(xiàn)實環(huán)境中(例如自動駕駛)會承擔很多的風險與代價.除此之外,損耗、響應(yīng)時延等問題也會使得智能體能夠收集的經(jīng)驗數(shù)量是有限的.如何合理利用有限的經(jīng)驗來訓練出策略盡可能好的智能體已然成為國內(nèi)外研究者的一個關(guān)注重點.
經(jīng)驗回放(Experience replay,ER)是一種存儲過去的連續(xù)經(jīng)驗并對其進行采樣以重復使用進而更新智能體行動策略的技術(shù),其概念于1992 年被Lin 等[21]率先提出.2015 年,隨著深度Q 網(wǎng)絡(luò)算法(Deep Q-network,DQN)[5]的提出,經(jīng)驗回放被證明在DRL 的突破性成功中發(fā)揮了重要的作用.這一新的研究熱點迅速吸引了大量研究者的關(guān)注,到目前為止,經(jīng)驗回放已成為提高異策略DRL 算法穩(wěn)定性和收斂速度的一種主要技術(shù).在現(xiàn)有文獻中,還沒有研究嘗試將DRL 中的經(jīng)驗回放算法進行分類和總結(jié).本綜述以RL 的基本理論為出發(fā)點,首先介紹了RL 的基本概念.隨后對RL 算法依據(jù)行為策略與目標策略的一致性進行了分類,并對其中異策略DRL 的典型算法進行了介紹.然后結(jié)合近年來公開文獻詳細梳理了國內(nèi)外成熟的異策略DRL 中的經(jīng)驗回放方法,并將其分為兩個大類,即經(jīng)驗利用和經(jīng)驗增廣.最后,對異策略DRL 中的經(jīng)驗回放方法進行了總結(jié)與展望.
RL 是一個學習如何將環(huán)境狀態(tài)映射到智能體的行為以最大化累積回報的過程[2].其中智能體與環(huán)境的交互過程如圖1 所示,在每一個時間步,智能體首先對環(huán)境進行觀測,隨后根據(jù)觀測結(jié)果依照自身策略選擇要采取的動作并執(zhí)行.該動作會使得環(huán)境的狀態(tài)發(fā)生轉(zhuǎn)移,并且環(huán)境會根據(jù)這一動作的優(yōu)劣對智能體進行獎勵或懲罰.智能體不斷重復這個過程,直至達到設(shè)定的終止狀態(tài),結(jié)束這一回合的迭代.
圖1 強化學習過程Fig.1 The process of reinforcement learning
馬爾科夫決策過程(Markov decision process,MDP)為RL 提供了一個簡單易行的框架,幾乎所有的RL 問題都可以被建模成MDP.MDP 通常由四元組 (S,A,P,R)表示,其中: 1)S是環(huán)境中智能體所有能夠到達的狀態(tài)的集合;2)A代表智能體在環(huán)境中所有能夠選擇的動作的集合;3)P是智能體在狀態(tài)s下執(zhí)行動作a并到達狀態(tài)s′的概率,其中a∈A并且s,s′∈S;4)R代表智能體在狀態(tài)s下執(zhí)行動作a所獲得的獎勵.
在RL 中,策略π是從狀態(tài)空間到動作空間的映射:π:S→A.π中的一個元素π(a|s)代表智能體在狀態(tài)s下選擇動作a的概率.依據(jù)該策略,智能體能夠獲得累計獎勵Rt.對于一個在T時間步終止的回合,在任意時間步t時的累計獎勵Rt的定義如下
其中,r(·)是獎勵函數(shù),γ∈[0,1] 是一個折扣系數(shù),來決定未來獎勵對累計獎勵的影響,γ的引入使得距離當前狀態(tài)越遠的獎勵,對當前的累計獎勵的影響越小.
定義智能體在狀態(tài)s下執(zhí)行動作a并遵循策略π一直到回合結(jié)束所獲得的累計獎勵的數(shù)學期望為狀態(tài)–動作值函數(shù)Qπ(s,a)
當遵循最優(yōu)策略π*時,狀態(tài)–動作值函數(shù)達到最大值
最優(yōu)狀態(tài)–動作值函數(shù)Q*(s,a)滿足具有遞歸屬性的貝爾曼方程[22]
持續(xù)地迭代公式(4)使狀態(tài)–動作值函數(shù)最終收斂即可獲得解決該RL 問題的最優(yōu)策略
1.2.1 強化學習算法分類
RL 中通常包含兩種策略,分別稱為行為策略(Behavior policy)和目標策略(Target policy).行為策略是智能體在與環(huán)境交互過程中用來選擇動作的策略,即在智能體訓練過程中使用的策略.而目標策略是指智能體在行為策略產(chǎn)生的經(jīng)驗中不斷學習、優(yōu)化時所采用的動作選擇策略.
如圖2 所示,根據(jù)算法中的行為策略和目標策略是否相同可以將RL 算法分為兩類,同策略強化學習(On-policy RL)和異策略強化學習(Off-policy RL).
圖2 強化學習算法分類Fig.2 The classification of reinforcement learning algorithms
屬于同策略RL 的算法主要有SARSA[23]、Policy gradient[24]、REINFORCE[25]、基于演員–評論家(Actor-critic,AC)架構(gòu)的優(yōu)勢演員–評論家(Advantage AC,A2C)[26]、異步優(yōu)勢演員–評論家(Asynchronous A2C,A3C)[27]、信賴域策略優(yōu)化(Trust region policy optimization,TRPO)[28]、近端策略優(yōu)化(Proximal policy optimization,PPO)[29]等算法.異策略RL 主要包含Q-learning[30]、DQN[5]及其一些改進算法[31-32]、確定策略梯度的深度確定性策略梯度(Deep deterministic policy gradient,DDPG)[33]和改進后的雙延遲深度確定性策略梯度(Twin delayed DDPG,TD3)[34]、隨機策略梯度的柔性演員–評論家(Soft AC,SAC)[35]等算法.
以同策略RL 和異策略RL 的經(jīng)典算法SARSA和Q-learning 為例,其狀態(tài)–動作值函數(shù)的更新方式分別如下式所示
二者的區(qū)別在于,在Q-learning 中,行為策略采用ε-greedy 策略進行動作選擇來完成智能體與環(huán)境的交互過程,在Q 值更新時,目標策略并不關(guān)心下一時間步所采取的動作a′,而是貪婪地使用下一時間步中最大的Q 值來更新當前時間步的Q 值.而在SARSA 算法中,智能體交互過程和Q 值更新過程中的動作選擇策略均采用的是ε-greedy 策略.
同策略RL 通常在每一時間步都對目標策略進行實時更新,而異策略RL 通常設(shè)計經(jīng)驗池來對行為策略產(chǎn)生的交互經(jīng)驗進行存儲,以便智能體對其采樣和學習,從而實現(xiàn)對目標策略的不斷更新.二者各自的主要優(yōu)勢如表1 所示.
表1 同策略與異策略算法的優(yōu)勢對比Table 1 Comparison of advantages of on-policy and off-policy algorithms
1.2.2 異策略強化學習
為了擴大RL 算法的使用范圍,Mnih 等[5]將卷積神經(jīng)網(wǎng)絡(luò)與Q-learning 相結(jié)合,提出了基于值函數(shù)的DQN 算法.DQN 主要有以下兩個特點:
1)使用兩個獨立的網(wǎng)絡(luò)
如圖3 所示,DQN 有兩個超參數(shù)相同的深度神經(jīng)網(wǎng)絡(luò),分別叫做估計網(wǎng)絡(luò)(Eval net)和目標網(wǎng)絡(luò)(Target net).參數(shù)為θQ的估計網(wǎng)絡(luò)的輸出為估計Q 值Q(si,ai|θQ),用來近似表示狀態(tài)–動作值函數(shù),而參數(shù)為的目標網(wǎng)絡(luò)的輸出則為通過結(jié)合獎勵值ri來計算目標Q 值yi
圖3 DQN 算法框架Fig.3 The framework of DQN algorithm
DQN 通過最小化估計Q 值與目標Q 值之間的均方誤差來更新估計網(wǎng)絡(luò)的參數(shù)
其中,N為采樣的經(jīng)驗數(shù).
每隔一定的迭代次數(shù),就將估計網(wǎng)絡(luò)的參數(shù)θQ直接復制到目標網(wǎng)絡(luò).DQN 的這種網(wǎng)絡(luò)結(jié)構(gòu)降低了目標網(wǎng)絡(luò)與估計網(wǎng)絡(luò)之間的相關(guān)性,從而提升了算法的穩(wěn)定性.
2)引入經(jīng)驗回放機制
為了消除經(jīng)驗之間的相關(guān)性,使用于訓練的經(jīng)驗滿足獨立同分布,DQN 首次引入經(jīng)驗回放機制并設(shè)計了一個經(jīng)驗池來存儲和管理經(jīng)驗.在每一個時間步,將智能體與環(huán)境的交互經(jīng)驗(si,ai,ri,si+1)暫存到經(jīng)驗池中.在訓練過程中采取隨機抽樣的方法從經(jīng)驗池批量選擇經(jīng)驗來對估計網(wǎng)絡(luò)的參數(shù)進行更新,從而實現(xiàn)了對過往經(jīng)驗的充分利用,進一步提升了算法的性能.
然而由于神經(jīng)網(wǎng)絡(luò)估計的Q 值會在某些時候產(chǎn)生正向或負向的誤差,而根據(jù)DQN 的更新方式(式(8)),這些誤差會不斷地向正向累積從而產(chǎn)生狀態(tài)–動作值函數(shù)過高估計的問題.為了解決這個問題,Hasselt 等[31]提出了深度雙Q 網(wǎng)絡(luò)(Double DQN,DDQN).不同于DQN 只使用目標網(wǎng)絡(luò)來計算目標Q 值,DDQN 將動作選擇與策略評估分離開來,首先使用估計網(wǎng)絡(luò)選擇最優(yōu)的動作,隨后使用目標網(wǎng)絡(luò)對該動作進行評估.DDQN 的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)更新方式均與DQN 完全相同,而其目標Q 值的計算方式有所改變
這種通過利用兩個網(wǎng)絡(luò)來計算目標Q 值的方式使得即便其中某一網(wǎng)絡(luò)的某個動作存在嚴重的過估計,而由于另一網(wǎng)絡(luò)的存在,該動作最終使用的Q 值也不會被過高估計.實驗表明,DDQN 能夠?qū) 值進行更為準確的估計,在多種應(yīng)用場景中都可以獲得更為穩(wěn)定有效的策略.
在很多場景中,Q 值只受當前狀態(tài)影響,智能體所采取的動作對其影響不大.基于這種現(xiàn)象,Wang等[32]提出了競爭深度Q 網(wǎng)絡(luò)(Dueling DQN).與DQN 不同的是,在Dueling DQN 中經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)處理的特征被分別輸入到兩個不同的全連接網(wǎng)絡(luò)中,即值函數(shù)網(wǎng)絡(luò)V(si|θ,β)和優(yōu)勢函數(shù)網(wǎng)絡(luò)A(si,ai|θ,α),其中θ是共用的卷積神經(jīng)網(wǎng)絡(luò)部分的參數(shù),β和α分別為值函數(shù)網(wǎng)絡(luò)和優(yōu)勢函數(shù)網(wǎng)絡(luò)對應(yīng)全連接層的參數(shù).將兩個網(wǎng)絡(luò)的輸出進行合并得到
然而按以上優(yōu)勢函數(shù)構(gòu)造的Q 函數(shù)會導致解不唯一的問題,在實際使用時,一般通過將動作優(yōu)勢函數(shù)值減去當前狀態(tài)下所有優(yōu)勢函數(shù)的平均值來提高訓練過程的穩(wěn)定性
除了上述較為經(jīng)典的DDQN、Dueling DQN算法,還有很多研究嘗試對DQN 從訓練算法、網(wǎng)絡(luò)結(jié)構(gòu)和學習機制等不同方面進行改進,例如分布式DQN (Distributional DQN)[36]、深度循環(huán)Q 網(wǎng)絡(luò)(Deep recurrent Q-network,DRQN)[37]、噪聲DQN (Noisy DQN)[38]、Rainbow[39]等.劉建偉等[40]對這些DQN 的改進算法進行了詳細的分析和討論.
DQN 一類的基于值函數(shù)的算法通過對狀態(tài)–動作值函數(shù)的近似表達來進行學習,并且在處理離散動作空間問題時取得了不錯的效果.然而當問題擴展到連續(xù)動作空間時,貪婪策略需要在每一個時間步進行優(yōu)化,這種優(yōu)化的速度太慢且無法應(yīng)用于大型無約束的函數(shù)優(yōu)化器[33].而基于策略梯度的算法直接將策略近似,因此可以很好地在連續(xù)空間中對動作進行搜索.基于策略梯度的算法通常分為兩種: 輸出動作為狀態(tài)映射a=μθ(s)的確定策略梯度算法和輸出動作為概率分布a~πθ(s)的隨機策略梯度算法.二者的策略梯度分別為
其中,ρπ和ρμ是狀態(tài)的采樣空間,而πθ是動作的采樣空間.
Lillicrap 等[33]提出了一種基于演員–評論家架構(gòu)的DRL 方法DDPG,該方法在求解具有連續(xù)動作空間的MDP 時取得了良好的效果.演員網(wǎng)絡(luò)用于確定智能體選擇動作的概率,而評論家網(wǎng)絡(luò)用于根據(jù)環(huán)境狀態(tài)對智能體選擇的動作進行評估.如圖4所示,與DQN 的網(wǎng)絡(luò)結(jié)構(gòu)相同,DDPG 的演員和評論家網(wǎng)絡(luò)都包含兩個結(jié)構(gòu)相同的估計網(wǎng)絡(luò)和目標網(wǎng)絡(luò).
圖4 DDPG 算法框架Fig.4 The framework of DDPG algorithm
DDPG 加入了一個獨立噪聲Nt來增加智能體探索過程的隨機性
在DDPG 的基礎(chǔ)上,Fujimoto 等[34]提出了一種新的基于策略的算法TD3,該算法已被證明是目前最先進的DRL 算法之一.TD3 算法主要做了以下三個改進來提升DDPG 算法的性能.
1)利用雙網(wǎng)絡(luò)結(jié)構(gòu)來避免過估計: TD3 具有兩套評論家網(wǎng)絡(luò)來分別計算并選擇其中較小的作為目標,因此式(17)、式 (18)分別為
2)延遲更新演員網(wǎng)絡(luò)來增加穩(wěn)定性: 不同于DDPG 算法的同步更新演員和評論家網(wǎng)絡(luò)參數(shù),TD3算法讓評論家網(wǎng)絡(luò)的更新頻率稍高于演員網(wǎng)絡(luò),以此來提高演員網(wǎng)絡(luò)的穩(wěn)定性.
3)添加動作噪聲來平滑目標策略: 為了使學習到的策略更加平滑和穩(wěn)定,TD3 加入了一個動作噪聲ε~clip(N(0,),-l,l)來使得在計算Q 值時動作能夠在一定范圍內(nèi)隨機變化
TD3 的網(wǎng)絡(luò)參數(shù)的更新方式則與DDPG 保持一致,采用軟更新的方法
其中,τ∈[0,1] 決定了每次更新的幅度.
不同于確定策略梯度,隨機策略梯度能夠使智能體在相同的狀態(tài)下按照概率分布選取不同的動作.最為廣泛使用的異策略RL 算法就是引入了熵(Entropy)的概念的SAC 算法.
熵是對一個隨機變量的隨機程度大小的度量.對于一個隨機變量X,假設(shè)其概率密度為p,即p(xi)是隨機變量X為xi的概率,那么它的熵就被定義為
在RL 中常用H(π(·|s))來表示策略π在狀態(tài)s下的隨機程度.最大熵強化學習(Maximum entropy RL),就是在RL 的目標中加入熵的正則項來最大化累計獎勵,同時使策略更加隨機
其中,α是控制熵的重要程度的正則化系數(shù).
相較于傳統(tǒng)的RL,熵的正則化增加了最大熵RL 算法的探索程度,α越大,算法的探索性就越強,策略學習的速度也就越快,陷入局部最優(yōu)解的可能性也就越小.
SAC 算法由Haarnoja 等[35]在2018 年首次提出,使用隨機策略來實現(xiàn)連續(xù)控制,隨后他們又在文獻[41]中基于Q-learning 舍棄了值函數(shù)的應(yīng)用,還將熵的權(quán)重α設(shè)計為可自動調(diào)整的參數(shù)來提高訓練的穩(wěn)定性.與TD3 算法相同,SAC 算法也使用了雙評論家的網(wǎng)絡(luò)結(jié)構(gòu)(包含參數(shù)為θ1,θ2的估計網(wǎng)絡(luò)和對應(yīng)參數(shù)為的目標網(wǎng)絡(luò)).與TD3 算法不同的是,由于只包含一個參數(shù)為θ的演員網(wǎng)絡(luò),SAC算法在計算Q 值時僅通過演員網(wǎng)絡(luò)πθ來根據(jù)狀態(tài)進行動作選擇ai~πθ(·|si).因此,式(21)變?yōu)?/p>
由于在連續(xù)動作空間的環(huán)境中,SAC 算法演員網(wǎng)絡(luò)輸出的動作是對高斯分布采樣得到的,需要使用重參數(shù)化技巧(Reparameterization trick)[42]來使得動作采樣的過程可導,從而方便策略梯度的計算
其中,μθ(s)和σθ(s)分別為在狀態(tài)s下多次選擇動作的均值和標準差.隨后使用損失函數(shù)Lπ(θ)來對演員網(wǎng)絡(luò)進行更新
對于評論家網(wǎng)絡(luò)的目標網(wǎng)絡(luò),SAC 也同樣使用軟更新的方式來更新其參數(shù).
如圖5 中的外部循環(huán)所示,在異策略RL 算法中,經(jīng)驗回放通常是通過設(shè)計一個經(jīng)驗池來對智能體與環(huán)境的交互經(jīng)驗進行暫存,以便智能體從中選擇合適的經(jīng)驗來學習更新自身的行動策略.經(jīng)驗池通常是一個固定大小的先進先出(First in first out,FIFO)的緩沖區(qū),其中包含智能體收集的最新的部分經(jīng)驗.這種緩沖區(qū)為DRL 帶來了兩個優(yōu)點: 1)均勻采樣打破了連續(xù)經(jīng)驗之間的相關(guān)性,提高了算法的穩(wěn)定性;2)大容量緩沖區(qū)確保了從長期經(jīng)驗中學習的可能性,從而避免了 “災難性遺忘”[5]現(xiàn)象的發(fā)生.
圖5 異策略RL 的經(jīng)驗回放流程Fig.5 The experience replay process of off-policy RL
作為一種獨立于RL 循環(huán)之外的即插即用的模塊,經(jīng)驗回放已經(jīng)被廣泛應(yīng)用于各種領(lǐng)域來提升異策略RL 算法的效果.如圖6 所示,本節(jié)將經(jīng)驗回放算法分為經(jīng)驗利用和經(jīng)驗增廣兩大類,來對目前較為成熟的經(jīng)驗回放領(lǐng)域的相關(guān)研究進行詳細介紹.
圖6 經(jīng)驗回放分類Fig.6 The classification of experience replay
2.1.1 經(jīng)驗優(yōu)先回放
經(jīng)驗利用的最基本思路就是調(diào)整被學習的經(jīng)驗的順序,即通過設(shè)計一些采樣算法來優(yōu)先選擇更適合當前網(wǎng)絡(luò)收斂的經(jīng)驗進行學習.
2016 年,Schaul 等[43]首次提出了優(yōu)先經(jīng)驗回放算法(Prioritized experience replay,PER),根據(jù)所存儲經(jīng)驗各自的時間差分誤差(Temporal difference error,TD error)的大小來賦予其不同的優(yōu)先級,使得TD error 更大的經(jīng)驗能夠獲得更大的采樣概率.對于一條經(jīng)驗ei,其采樣概率計算如下
其中,δi為TD error,ε是一個正向的常數(shù),來保證TD error 接近零的經(jīng)驗也有被采樣到的可能.除此之外,PER 還設(shè)計了一個名為 “sum tree”的數(shù)據(jù)結(jié)構(gòu)來保證經(jīng)驗存儲和優(yōu)先性采樣的高效性.實驗表明,結(jié)合了PER 后的DQN 算法在收斂效率上取得大幅提高,在49 個Atari 游戲中有41 個的表現(xiàn)都要優(yōu)于原始的DQN 算法.
受PER 算法的啟發(fā),Brittain 等[44]考慮了連續(xù)經(jīng)驗之間的關(guān)系,他們認為不僅應(yīng)該為重要的經(jīng)驗分配更高的采樣優(yōu)先級,也應(yīng)該增加導致重要經(jīng)驗產(chǎn)生的前序經(jīng)驗的優(yōu)先級,并提出了一種優(yōu)先序列經(jīng)驗回放算法(Prioritized sequence experience replay,PSER).PSER 通過引入一個衰減因子ρ來依據(jù)當前經(jīng)驗優(yōu)先級pn對前序經(jīng)驗的優(yōu)先級進行更新
其中,m為前序經(jīng)驗的遠近程度.在60 款Atari 游戲的實驗測試中,PSER 在其中的40 款都取得了優(yōu)于PER 的收斂效果.
Lee 等[45]認為PER 存在包含大量有偏向性的優(yōu)先化問題.針對這一問題,他們設(shè)計了三種不同的策略(TDInit、TDClip 和TDPred),并將它們綜合在一起提出了預測優(yōu)先經(jīng)驗回放算法(Predictive PER,PPER).PPER 在實驗測試中不僅消除了優(yōu)先級的異常值的存在,還改善了經(jīng)驗池中經(jīng)驗的分布,平衡了經(jīng)驗池中經(jīng)驗優(yōu)先性和多樣性,使得算法的穩(wěn)定性得到了大幅改善和提升.
Cao 等[46]提出了高價值優(yōu)先經(jīng)驗回放方法(High-value PER,HVPER),將經(jīng)驗對應(yīng)的狀態(tài)–動作函數(shù)值和TD error 一同作為衡量其優(yōu)先級的指標,并將優(yōu)先級函數(shù)定義為
其中,pQ和pTD分別為歸一化后的Q 值和TD error,ui=表示學習次數(shù)ni對經(jīng)驗優(yōu)先級的影響.HVPER 在多種環(huán)境的測試實驗以及與多種異策略RL 算法的結(jié)合中都取得了不錯的效果.如果能夠設(shè)計一種基于經(jīng)驗分布在線自適應(yīng)地調(diào)整超參數(shù)λ的方法,則能有效提升HVPER 的適用性.
趙英男等[47]提出一種二次主動采樣算法(Twice active sampling method,TASM),來實現(xiàn)經(jīng)驗的分批次優(yōu)先利用.TASM 算法中的經(jīng)驗是按照序列進行存儲的,在采樣時首先以單個序列的累積獎勵作為標準篩,從大經(jīng)驗池中選出多個符合條件的序列構(gòu)成小經(jīng)驗池,第二輪再回歸PER 算法以TD error為標準從小經(jīng)驗池中選擇經(jīng)驗進行學習.TASM 的二次采樣有效地實現(xiàn)了經(jīng)驗的高效利用并提升了策略的質(zhì)量,但由于其在采樣時要對所有序列進行遍歷,算法的時間復雜度稍有提升.
Sun 等[48]則考慮了過去存儲的經(jīng)驗中的狀態(tài)與智能體當前狀態(tài)的相似性,提出了注意力經(jīng)驗回放算法(Attentive experience replay,AER),實現(xiàn)了比PER 更高的經(jīng)驗利用率和算法收斂速度.如下式所示,針對向量形式狀態(tài)的環(huán)境和圖片形式狀態(tài)的環(huán)境,AER 分別設(shè)計了不同的相似性函數(shù)來計算狀態(tài)之間的相似性
其中,?是一個結(jié)構(gòu)固定而初始值隨機的深度卷積神經(jīng)網(wǎng)絡(luò).除此之外,AER 還采用多輪次采樣的方法來調(diào)整優(yōu)先采樣的程度以提高算法的適應(yīng)性.然而,AER 在采樣時依次計算采樣到的大批量經(jīng)驗與當前狀態(tài)之間的相似性并進行排序,會耗費大量的時間,并且相似狀態(tài)的重復出現(xiàn)導致大量的重復計算,也對其運行效率產(chǎn)生了不利影響.
Hu 等[49]同樣考慮了當前狀態(tài)與過去經(jīng)驗之間的相似性,并針對于無人機自主運動控制場景提出了相似經(jīng)驗學習算法(Relevant experience learning,REL).與AER 不同,REL 使用了一個更有針對性的函數(shù)來衡量智能體的狀態(tài)的價值,并將該函數(shù)值一同存入經(jīng)驗池中,在采樣時直接根據(jù)該函數(shù)值的差異性來評價狀態(tài)之間的相似性,從而避免了AER 會出現(xiàn)的重復計算現(xiàn)象.REL 還采用了PER中的 “sum tree”結(jié)構(gòu)來進行經(jīng)驗的存取,大幅降低了尋找相似經(jīng)驗的時間復雜度.除此之外,REL還調(diào)整了RL 中動作選擇和策略更新的順序,使得每一次的策略更新都能及時地作用在當前時間步的動作選擇上,從而充分發(fā)揮了過去經(jīng)驗的作用,加快了算法的收斂速度.
Cicek 等[50]提出了一種基于KL (Kullback-Leibler)散度的批量優(yōu)先經(jīng)驗回放(Batch prioritized experience replay via KL divergence,KLPER),將單個經(jīng)驗優(yōu)先級排序擴展到批量經(jīng)驗優(yōu)先級排序.在每次采樣時,KLPER 先采樣出多個批量經(jīng)驗并通過KL 散度對其優(yōu)先級進行排序,最終找到其中與智能體的最新策略最相近的批量經(jīng)驗進行學習.在多種連續(xù)的控制任務(wù)中,KLPER 在樣本效率和收斂性能上均優(yōu)于隨機采樣的經(jīng)驗回放算法和PER 算法.然而所學習的批量經(jīng)驗不可避免地仍會包含一些價值較低的經(jīng)驗,對這些經(jīng)驗的剔除或替換則有望進一步提升KLPER 算法的性能.
為了使智能體能夠模擬人類的由簡到難的學習過程,Ren 等[51]首次將課程學習(Curriculum learning,CL)[52-53]的機制引入到經(jīng)驗回放當中,提出了深度課程強化學習(Deep curriculum reinforcement learning,DCRL).DCRL 所定義的復雜性標準包括自定步長優(yōu)先級和覆蓋懲罰.自定步長優(yōu)先級反映了TD error 與當前課程難度之間的關(guān)系
其中,δ是經(jīng)驗對應(yīng)的TD error,而λ是隨訓練不斷增大的課程因子.覆蓋懲罰則用于避免同一經(jīng)驗被多次重復學習
其中,cn是經(jīng)驗被學習的次數(shù).DCRL 通過復雜度函數(shù) C I(xi)=SP(δi,λ)+ηCP(cni)來自適應(yīng)地從經(jīng)驗池中選擇合適的經(jīng)驗,從而充分利用了經(jīng)驗回放的優(yōu)勢,提升了算法的收斂速度.但由于引入了CL來控制所回放經(jīng)驗的難度,DCRL 額外加入了幾個環(huán)境敏感性較高的超參數(shù),在實際使用時還需要依據(jù)環(huán)境特性進行調(diào)整.
上述的這些研究雖然用不同的方式在一定程度上彌補了PER 算法的不足,但PER 所存在的根本性問題尚未得到良好的解決.Hu 等[54]對PER 進行了詳細分析并總結(jié)了其4 個有待改進的問題: 1)TD error 的更新速度太慢會影響被采樣到的經(jīng)驗的價值;2)PER 中的裁剪(clip)操作降低了不同經(jīng)驗之間的差異性;3)賦予新經(jīng)驗最大的優(yōu)先級不能保證其優(yōu)先性;4)僅根據(jù)TD error 進行采樣可能不是最優(yōu)的采樣方法.
他們嘗試從根本上解決這些問題,并提出了異步課程經(jīng)驗回放算法(Asynchronous curriculum experience replay,ACER).ACER 算法主要有以下幾個貢獻: 1)開啟一個子線程來異步更新經(jīng)驗池中經(jīng)驗的優(yōu)先級;2)廢除PER 中的clip 操作來賦予經(jīng)驗其真實的優(yōu)先級;3)設(shè)計了一個臨時經(jīng)驗池來充分利用最新產(chǎn)生的經(jīng)驗;4)將FIFO 的經(jīng)驗池進行了更替來使得經(jīng)驗池滿時最無用的經(jīng)驗會優(yōu)先被替換;5)引入CL 使學習過程更為合理的同時解決無clip 操作帶來的問題.ACER 算法在收斂速度上比PER 取得了較大的提升,其穩(wěn)定性也在多個不同的應(yīng)用場景的測試中得到了驗證.
表2 對上述經(jīng)驗優(yōu)先回放類算法進行了總結(jié),可以明顯看到,大多數(shù)經(jīng)驗優(yōu)先回放類算法還是在嘗試設(shè)計不同的評價指標來衡量經(jīng)驗的優(yōu)先級.KLPER 則是將單個經(jīng)驗優(yōu)先回放擴展到批量經(jīng)驗優(yōu)先回放.DCRL 則將CL 思想引入經(jīng)驗回放中,為經(jīng)驗優(yōu)先回放提供了一種新的思路.在較為全面的分析和總結(jié)后,ACER 對PER 的缺點逐一做出了改進,但其所提供的理論支撐還不夠完善,且其作為彌補PER 算法所有缺點的第一次嘗試,一些設(shè)計在合理性和計算效率上有待進一步完善和提高.
表2 經(jīng)驗優(yōu)先回放算法對比Table 2 Comparison of prioritized experience replay algorithms
2.1.2 經(jīng)驗加權(quán)回放
相較于按照特定標準從龐大的經(jīng)驗池中篩選經(jīng)驗的經(jīng)驗優(yōu)先回放的方法,近年來一個更為靈活且計算復雜度更低的研究方向是通過重加權(quán)的方式賦予更為重要的經(jīng)驗更高的權(quán)重,從而利用經(jīng)驗回放在提高策略準確性的同時加速策略的收斂.
Kumar 等[55]針對Q-learning 和AC 算法缺少糾正性反饋(Corrective feedback)而導致這些算法所存在的易收斂到次優(yōu)解、學習過程不穩(wěn)定、信噪比較高時學習效果差等問題,提出了一種分布校正(Distribution correction,DisCor)的方法.DisCor使用神經(jīng)網(wǎng)絡(luò)來估計Q 值的累計誤差 Δ?(s,a),并理論推導出了下式來計算所學習經(jīng)驗在第k次更新時的權(quán)重wk
其中
通過對不同經(jīng)驗的重加權(quán)來糾正Q 值的累計誤差,DisCor 在表格環(huán)境、連續(xù)控制環(huán)境甚至于多任務(wù)環(huán)境中都展現(xiàn)出了其策略收斂的高效性和穩(wěn)定性.
受DisCor 的啟發(fā),Lee 等[56]提出了一種不同的思路并設(shè)計了基于集成學習的強化學習框架(Simple unified framework for reinforcement learning using ensembles,SUNRISE).與A3C 類似,SUNRISE 集成了N對演員和評論家網(wǎng)絡(luò),在使用采樣的經(jīng)驗對每一個評論家網(wǎng)絡(luò)進行更新時,經(jīng)驗的權(quán)重設(shè)計為
SUNRISE 顯著地提高了Q 值更新過程中的信噪比,使學習過程更加穩(wěn)定.通過與SAC 算法和Rainbow 算法的結(jié)合,SUNRISE 在低維和高維環(huán)境下的連續(xù)和離散控制任務(wù)中均取得了優(yōu)于最先進的RL 算法的收斂效果.
Sinha 等[57]則認為應(yīng)該按照當前策略下的經(jīng)驗分布來設(shè)計經(jīng)驗在回放時權(quán)重的大小,并提出了一種無似然重要性加權(quán)方法(Likelihood-free importance weighting,LFIW),優(yōu)先回放那些出現(xiàn)頻率較高的狀態(tài)–動作對 (s,a).LFIW 通過設(shè)計大小兩個經(jīng)驗池Ds和Df來分別存儲過去不同策略指導下的經(jīng)驗和最近策略指導下的經(jīng)驗.除此之外,LFIW使用了一個參數(shù)為ψ的神經(jīng)網(wǎng)絡(luò)來估計狀態(tài)–動作對 (s,a)的權(quán)重,并通過損失函數(shù)Lw(ψ)來進行參數(shù)更新
其中,f是一個滿足f(1)=0 的下半連續(xù)函數(shù).LFIW使用一個常數(shù)T對權(quán)重網(wǎng)絡(luò)的輸出進行歸一化從而得到合理的經(jīng)驗概率化權(quán)重
在與SAC 算法和TD3 算法結(jié)合后,LFIW 在大多數(shù)的Mujoco 環(huán)境中都展現(xiàn)出來優(yōu)于PER 的性能.但其在更大規(guī)模的環(huán)境(例如Atari)中的表現(xiàn)有待進一步的實驗驗證.
基于TD error 的PER 算法和基于糾正性反饋的DisCor 算法都沒有直接針對RL 的目標最小化策略遺憾來進行經(jīng)驗回放,而是采用其他的替代指標作為回放標準.經(jīng)過大量的理論分析,Liu 等[58]提出了基于神經(jīng)網(wǎng)絡(luò)的遺憾最小化經(jīng)驗回放方法(Regret minimization experience replay using neural network,ReMERN),對以下幾種經(jīng)驗在回放時賦予更高的權(quán)重: 1)具有更高的事后貝爾曼誤差的經(jīng)驗;2)與當前策略更一致的經(jīng)驗(LFIW 算法的關(guān)注點);3)與真實的最優(yōu)價值估計更接近的經(jīng)驗;4)行動概率較小的經(jīng)驗.在結(jié)合了DisCor和LFIW 算法的優(yōu)點后,ReMERN 算法也分別使用了兩個參數(shù)為?和ψ的神經(jīng)網(wǎng)絡(luò)來估計Q 值的累計誤差和狀態(tài)–動作對的權(quán)重.ReMERN 算法中經(jīng)驗的權(quán)重計算方式如下式所示
由于使用神經(jīng)網(wǎng)絡(luò)來估計Q 值的累計誤差耗時較長且準確性難以保證,Liu 等[58]又提出了一種時間正確性估計的方法(Temporal correctness estimation,TCE)
在這種基于時序結(jié)構(gòu)的遺憾最小化經(jīng)驗回放方法(Regret minimization experience replay using temporal structure,ReMERT)中,經(jīng)驗的權(quán)重計算方式變?yōu)?/p>
相較于DisCor、SUNRISE 和LFIW,ReMERN和ReMERT 較為全面地分析和證明了何種經(jīng)驗具有較高的回放價值.除此之外,這兩種方法結(jié)合了多種經(jīng)驗加權(quán)回放算法的優(yōu)勢,是此類算法中目前較為成熟的算法.然而,由于對Q 值的累計誤差的估計方式不同,這兩種算法適用于不同類型的MDP.ReMERN 使用神經(jīng)網(wǎng)絡(luò)來進行誤差估計,能夠適用于多種不同的環(huán)境,具有較強的魯棒性.而Re-MERT 在一些目標位置隨機的環(huán)境中,所提供的優(yōu)先級權(quán)重差異性較大,從而可能對策略的收斂產(chǎn)生誤導,但其估計方式的簡便性仍是其不可忽略的優(yōu)勢.
2.1.3 經(jīng)驗分類回放
智能體與環(huán)境的大量交互經(jīng)驗具有不同的特征,設(shè)定不同的指標(分類標準)來對經(jīng)驗進行分類存儲和回放也是一種提升經(jīng)驗利用效率的有效途徑.
經(jīng)驗池中存儲的經(jīng)驗是在不同的訓練階段產(chǎn)生的,Zhang 等[59]首先以經(jīng)驗的新鮮程度為標準進行了嘗試,設(shè)計了時間復雜度為 O (1)的聯(lián)合經(jīng)驗回放(Combined experience replay,CER)采樣方法,在智能體學習時將當前時間步的經(jīng)驗與采樣的批量經(jīng)驗相結(jié)合來研究當前經(jīng)驗對算法性能的影響.在不同環(huán)境的測試實驗中,CER 可以有效減輕大規(guī)模經(jīng)驗池所產(chǎn)生的消極影響,展現(xiàn)了強大的效率和穩(wěn)定性.
由于CER 僅對最新的經(jīng)驗(當前經(jīng)驗)進行了回放,而沒有對這些基于最新策略產(chǎn)生的最新經(jīng)驗進行充分利用.針對這一問題,Hu 等[54]從理論和實驗的角度分別驗證了最新經(jīng)驗對于智能體策略收斂的重要性.他們所設(shè)計的ACER 算法根據(jù)經(jīng)驗的新鮮程度設(shè)計了一個小容量的FIFO 臨時經(jīng)驗池暫存最新的交互經(jīng)驗.在采樣時,ACER 則將臨時池中的經(jīng)驗完全復制并與原經(jīng)驗池中優(yōu)先采樣的經(jīng)驗結(jié)合共同構(gòu)成采樣的批量經(jīng)驗,供智能體更新策略.
與經(jīng)驗的新鮮程度類似,Novati 等[60]從策略的角度將經(jīng)驗池中經(jīng)驗按照其與當前策略的差異程度分為近策略(Near-policy)和遠策略(Far-policy),并提出記憶與遺忘經(jīng)驗回放算法(Remember and forget experience replay,ReFER).ReFER 通過只使用近策略的經(jīng)驗來更新策略,并利用KL 散度來限制策略的變化程度,使網(wǎng)絡(luò)更新和目標策略的收斂更為穩(wěn)定.通過與多種異策略RL 算法的結(jié)合,ReFER 可以在多種連續(xù)控制任務(wù)中加快策略的收斂速度,使算法的性能得到了明顯提升.
不同于上述算法,時圣苗等[61]根據(jù)經(jīng)驗的TD error 和獎勵大小來對經(jīng)驗進行分類存儲,提出了時間差分誤差分類(TD error classification,TDC)和獎勵分類(Reward classification,RC)兩種經(jīng)驗分類方法.這兩種方法采用同一訓練架構(gòu),均設(shè)定了兩個相同大小的經(jīng)驗池來存儲經(jīng)驗,采樣時采用固定比例的靜態(tài)采樣方法.在與DDPG 算法結(jié)合后,TDC 和RC 均在連續(xù)控制任務(wù)中表現(xiàn)出較優(yōu)的結(jié)果.然而在訓練初期,TD error 和獎勵值較大的經(jīng)驗的數(shù)量相對較少,從而導致這些較優(yōu)的經(jīng)驗被多次重復學習,這可能會對算法的穩(wěn)定性產(chǎn)生影響.
劉曉宇等[62]同樣以TD error 作為經(jīng)驗權(quán)重,提出了動態(tài)優(yōu)先級并發(fā)接入算法(Concurrent access algorithm with dynamic priority,CADP),將經(jīng)驗按照TD error 進行分類存儲.與TDC 算法不同的是,CADP 采取了一種變化比例的動態(tài)采樣方式分別從不同經(jīng)驗池進行采樣學習
受AER算法啟發(fā),智能體的狀態(tài)也可以作為經(jīng)驗的分類標準.Hu 等[49]提出了經(jīng)驗分割算法(Experience pool split,EPS)來實現(xiàn)根據(jù)智能體狀態(tài)的不同對經(jīng)驗進行分類存儲和利用.在訓練前,EPS 需要根據(jù)過往經(jīng)驗的比例對經(jīng)驗池進行分割.訓練時,EPS 根據(jù)所設(shè)定的基于場景的評價指標將交互經(jīng)驗存入對應(yīng)經(jīng)驗池,并依據(jù)當前智能體狀態(tài)從對應(yīng)經(jīng)驗池中采樣進行訓練,在訓練后期再將分割的經(jīng)驗池進行合并并打亂所有經(jīng)驗的排列順序.然而在訓練的過程中,經(jīng)驗的比例是不斷變化的,如何確定EPS 中使結(jié)果最優(yōu)的經(jīng)驗池分割比例仍有待進一步探究.
相較于難以實現(xiàn)的對所有經(jīng)驗進行分類存儲,朱斐等[63]從智能體狀態(tài)安全性的角度只考慮探索失敗時的危險狀態(tài)對應(yīng)的經(jīng)驗,提出了一種基于雙深度網(wǎng)絡(luò)的安全深度強化學習算法(Dual deep network based secure DRL,DDN-SDRL).DDNSDRL 在經(jīng)驗回放方面設(shè)計了危險樣本經(jīng)驗池和安全樣本經(jīng)驗池來對經(jīng)驗進行分類存儲,并引入安全強化學習的概念定義了兩種危險狀態(tài): 1)智能體在任務(wù)失敗時的狀態(tài);2)智能體在任務(wù)失敗前的m個時間步狀態(tài).DDN-SDRL 方法針對性地學習了危險狀態(tài)的經(jīng)驗,智能體在這些危險狀態(tài)附近的行動策略會受到較大影響,從而避免陷入局部最優(yōu),有效地限制了智能體向危險狀態(tài)方向的探索.
如表3 所示,經(jīng)驗分類回放的標準無非還是經(jīng)驗優(yōu)先回放類算法的優(yōu)先性標準及其變體,使用較多的仍是基于策略的、基于TD error 的和基于狀態(tài)的.從本質(zhì)上講,經(jīng)驗分類回放就是按照經(jīng)驗優(yōu)先回放的標準對經(jīng)驗進行分類存儲,在采樣時利用特定的策略從而實現(xiàn)對這些符合標準的經(jīng)驗的優(yōu)先回放.大多數(shù)的經(jīng)驗分類回放算法采用多經(jīng)驗池的架構(gòu)來減小經(jīng)驗優(yōu)先回放類算法的采樣時間復雜度,但這個做法會引入一個動態(tài)或靜態(tài)的采樣策略,該策略的好壞將會對算法的效果產(chǎn)生巨大的影響.
表3 經(jīng)驗分類回放算法對比Table 3 Comparison of classification experience replay algorithms
2.1.4 經(jīng)驗表示形式
在DRL 中,交互經(jīng)驗 (si,ai,ri,si+1)通常是高維度的向量,使用大容量的經(jīng)驗池存儲數(shù)以百萬計的經(jīng)驗需要耗費大量的計算機內(nèi)存.一些研究通過將向量形式的經(jīng)驗轉(zhuǎn)換為其他的表示形式,從而實現(xiàn)對經(jīng)驗更高效的存儲和利用.
Wei 等[64]創(chuàng)新性地將量子的一些特性引入到RL 中,來對經(jīng)驗回放機制進行改進,提出了一種符合自然規(guī)律且易于使用的量子經(jīng)驗回放方法(Quantum-inspired experience replay,QER).QER 通過將經(jīng)驗轉(zhuǎn)換為量子化的表達,同時又對量子表達使用酉變化,使得RL 中容量為M的經(jīng)驗池的狀態(tài)可以被表示為量子子系統(tǒng)張量積的形式
其中,|ψ(k)〉 為第k個經(jīng)驗的量子表示形式.如圖7所示,QER 設(shè)計了準備操作和折舊操作兩種酉操作.準備操作可以使得量子化表達的經(jīng)驗的概率幅與其TD error 相匹配,而折舊操作可以使同一經(jīng)驗被多次重復學習的概率降低,使得采樣到的經(jīng)驗更多樣化,回放更均勻.
圖7 QER 的算法框架Fig.7 The framework of QER algorithm
在QER 的基礎(chǔ)上,Li 等[65]進行了更具有實際意義的探索.他們將無人機的導航任務(wù)映射到MDP上,考慮了時間成本和預期中斷持續(xù)時間的加權(quán)和的最小化問題,利用QER 制定了一種智能的無人機導航方法來幫助無人機在每個時間步內(nèi)找到最佳飛行方向,并在復雜3D 環(huán)境任務(wù)中驗證了QER的有效性和穩(wěn)定性.
Chen 等[66]設(shè)計了一種局部敏感性經(jīng)驗回放算法(Locality-sensitive experience replay,LSER),該算法使用局部敏感的哈希法將RL 中的高維經(jīng)驗映射到低維表示,解決了RL 應(yīng)用于推薦系統(tǒng)時經(jīng)驗維度過高的問題.除此之外,LSER 采用了一種狀態(tài)感知–獎勵驅(qū)動的采樣策略,即采樣與當前狀態(tài)位于同一哈希域中前N個具有最高獎勵值的經(jīng)驗.LSER 可以高效地選擇所需要的經(jīng)驗來訓練智能體,在多個仿真平臺的實驗中證明了其可行性以及相對于其他經(jīng)驗回放方法的優(yōu)越性.
對于經(jīng)驗表示形式的相關(guān)研究相對較少,這是由于無論什么形式的經(jīng)驗都需要被存儲,即使變換存儲形式來減小所需的內(nèi)存空間,經(jīng)驗的編碼和解碼也會對算法的效率產(chǎn)生一定的影響.除此之外,很難找到符合條件的一一映射來將高維經(jīng)驗進行降維存儲,這也限制了此方向的進一步發(fā)展.
2.1.5 經(jīng)驗存儲結(jié)構(gòu)
設(shè)計良好的經(jīng)驗存儲結(jié)構(gòu)能夠更高效地實現(xiàn)大容量經(jīng)驗池的存儲、更新和采樣等操作,這也是一種提升DRL 算法效率的有效途徑.
Schaul 等[43]在設(shè)計PER 算法時就考慮到了傳統(tǒng)數(shù)組或堆棧形式的數(shù)據(jù)結(jié)構(gòu)在進行經(jīng)驗優(yōu)先利用時的過高的時間復雜度,設(shè)計了一種名為 “sumtree”的完全二叉樹的數(shù)據(jù)結(jié)構(gòu).如圖8 所示,“sumtree”的每一個葉子結(jié)點存儲的都是對應(yīng)經(jīng)驗的優(yōu)先級,在采樣時遵循以下兩個步驟: 1)判斷當前節(jié)點是否為葉子節(jié)點,如果是,則當前節(jié)點是應(yīng)該采樣的節(jié)點;2)比較輸入值與當前節(jié)點的左子節(jié)點的值.如果左子節(jié)點的值較大,則將左子節(jié)點設(shè)置為當前節(jié)點并重復步驟1),否則將右子節(jié)點設(shè)置為當前節(jié)點,并用輸入值與左子節(jié)點的值的差值替換輸入數(shù)據(jù),然后重復步驟1).
圖8 “sum-tree”采樣流程Fig.8 The sampling process of “sum-tree”
“sum-tree”的使用將采樣具有最大優(yōu)先級的經(jīng)驗和更新被采樣的批量經(jīng)驗的優(yōu)先級的時間復雜度分別降低至 O (1)和 O (log2N)(N為每次采樣的經(jīng)驗數(shù)量),大幅降低了經(jīng)驗選擇對算法運行速率的影響,有效地提升了PER 算法的效率.
Hu 等[54]提出的ACER 算法也在經(jīng)驗池的數(shù)據(jù)結(jié)構(gòu)上做出了改進.與PER 不同,他們認為當經(jīng)驗池滿時,不應(yīng)替換較古老的經(jīng)驗而應(yīng)該替換較無用的經(jīng)驗,進而提出了一個先入無用出(First in useless out,FIUO)的數(shù)據(jù)結(jié)構(gòu) “double sum-tree”.
如圖9 所示,“double sum-tree”相較于 “sumtree”在每個葉子節(jié)點多存儲了對應(yīng)經(jīng)驗的優(yōu)先級的倒數(shù),使得經(jīng)驗ei被替換的概率為
圖9 “double sum-tree”數(shù)據(jù)結(jié)構(gòu)Fig.9 The data structure of “double sum-tree”
ACER 在每個時間步僅耗費了多于PER 算法O(log2N)的時間復雜度來更新優(yōu)先級的倒數(shù),這相較于其對算法性能的提升是可以被接受的.
類似地,Chen 等[66]提出的LSER 算法和Bruin 等[67]提出的基于分布的經(jīng)驗保留算法(Distribution based experience retention,DER)也都嘗試從更新邏輯上對經(jīng)驗進行改進.當經(jīng)驗池滿時,LSER會優(yōu)先替換經(jīng)驗池中獎勵值較低的經(jīng)驗,而DER則給出一種可以使得經(jīng)驗池中的經(jīng)驗保持在狀態(tài)–動作空間上近似均勻分布的方式來從經(jīng)驗池中選擇經(jīng)驗進行替換.然而,在不對數(shù)據(jù)結(jié)構(gòu)進行改變的情況下,每一條新經(jīng)驗的到來都需要在龐大的經(jīng)驗池中篩選其要替換的經(jīng)驗,這無疑會給算法的計算效率帶來巨大的壓力.
Li 等[68]則從硬件架構(gòu)方面入手,使用了一種硬件–軟件協(xié)同的方法來設(shè)計基于關(guān)聯(lián)存儲器的優(yōu)先經(jīng)驗回放算法(Associative memory based PER,AMPER).AMPER 使用三元內(nèi)容可尋址存儲器(Ternary content addressable memory,TCAM)取代了PER 一類算法中廣泛使用的較為耗時的基于樹結(jié)構(gòu)遍歷的優(yōu)先級采樣.除此之外,AMPER還使用了一種基于關(guān)聯(lián)存儲器的內(nèi)存計算硬件架構(gòu),通過利用并行內(nèi)存搜索操作來支持算法的運算.在文獻[68]所建議的硬件上運行時,AMPER 算法表現(xiàn)出與PER 算法相當?shù)膶W習性能,同時實現(xiàn)了55~270 倍的延遲改進.
表4 給出了上述經(jīng)驗回放算法在經(jīng)驗存儲結(jié)構(gòu)方面相較于傳統(tǒng)的經(jīng)驗回放算法做出的優(yōu)化.可以看到,目前大多數(shù)研究主要從數(shù)據(jù)結(jié)構(gòu)、更新邏輯和硬件架構(gòu)三個方面來對經(jīng)驗池進行優(yōu)化.除了傳統(tǒng)的FIFO 數(shù)據(jù)結(jié)構(gòu),目前經(jīng)驗回放類算法最常使用的就是 “sum-tree”結(jié)構(gòu),而最近提出的 “double sum-tree”結(jié)構(gòu)還未得到廣泛的認可和應(yīng)用.經(jīng)驗池的更新邏輯方面,除了傳統(tǒng)的經(jīng)驗回放算法依據(jù)經(jīng)驗的存儲時間進行更新,新的算法主要以TD error 和獎勵作為經(jīng)驗被替換的標準.而AMPER首次從硬件的角度入手,為此方向的研究提供了一個新的思路.
表4 經(jīng)驗存儲結(jié)構(gòu)算法的優(yōu)化途徑Table 4 Optimization approaches of experience storage structure algorithms
2.2.1 專家示范經(jīng)驗
RL 算法通常需要大量數(shù)據(jù)才能使智能體獲得較為合理的策略.這對于在仿真平臺上的RL 任務(wù)來說也許是可以接受的,但這嚴重限制了RL 對許多實際任務(wù)的適用性.在RL 這種智能體從對環(huán)境一無所知經(jīng)過不斷探索后找到最優(yōu)策略的過程中,如果在訓練過程中能為智能體提供較為基礎(chǔ)可靠的行動策略,將大大減少智能體訓練前期的探索過程.一些研究者從經(jīng)驗回放的角度使用模仿學習(Imitation learning,IL)[69-70]這種監(jiān)督學習的思路將人類專家或其他來源的策略以不同形式的經(jīng)驗記錄下來,以供智能體進行預訓練或在訓練過程中對智能體的策略進行修正和完善,從而改善RL 算法的性能.
Hester 等[71]從預訓練的角度提出了示范深度Q 學習(Deep Q-learning from demonstrations,DQfD).DQfD 的訓練分為預訓練和實際訓練兩個階段.在訓練開始前,先由人類專家在該游戲環(huán)境中操作3 到12 個回合來生成示范經(jīng)驗.在訓練時,DQfD 會先根據(jù)人類的示范經(jīng)驗進行固定回合的預訓練,隨后回歸原始的自主交互式的學習.實驗結(jié)果顯示,DQfD 在42 種視頻游戲中的14 種都超越了人類最佳的示范水平,并且在11 種游戲中取得了最先進的結(jié)果.然而這種利用專家示范經(jīng)驗進行預訓練的算法,專家示范的經(jīng)驗數(shù)量對其預訓練效果有很大影響,一般來說,專家經(jīng)驗的數(shù)量越多,預訓練的效果就越好,其收集專家經(jīng)驗所耗費的資源也就越多.
對于動作空間連續(xù)的任務(wù)場景,Vecerik 等[72]將這種專家示范的思路引入到了DDPG 算法中并設(shè)計了示范深度確定性策略梯度算法(DDPG from demonstrations,DDPGfD).與DQfD 不同,對于每一個任務(wù),DDPGfD 都提前收集了100 個回合的人類示范經(jīng)驗,并永久存入經(jīng)驗池中以便后續(xù)學習.DDPGfD 使用經(jīng)驗優(yōu)先回放在示范經(jīng)驗和交互經(jīng)驗共同構(gòu)成的經(jīng)驗池中進行優(yōu)先級排序,以一種自然的方式控制兩者之間的數(shù)據(jù)比例,其中經(jīng)驗的優(yōu)先級計算方法如下
其中,δ為TD error,ε是正向常數(shù),εD是一個常數(shù)來增加示范經(jīng)驗的優(yōu)先級,λ是用來調(diào)整權(quán)重的常數(shù),為作用于演員網(wǎng)絡(luò)的損失.在多種復雜度機械臂控制任務(wù)中,DDPGfD 不僅能夠很好地完成任務(wù),并且能夠達到比人類示范更可靠的效果.
與DQfD 直接對網(wǎng)絡(luò)進行預訓練不同,Guillen-Perez 等[73]額外使用了一個名為 “Oracle”的演員網(wǎng)絡(luò),在訓練時令 “Oracle”網(wǎng)絡(luò)直接從仿真平臺提供的示范經(jīng)驗進行學習,并在每一次參數(shù)更新時對TD3 算法的演員網(wǎng)絡(luò)進行小規(guī)模的軟更新.這種從 “Oracle”示范中學習(Learning from Oracle demonstrations,LfOD)的方法在進行動作選擇時,智能體會按照一個隨訓練過程不斷變化的概率來選擇使用 “Oracle”或TD3 的演員網(wǎng)絡(luò)進行動作選擇.在經(jīng)驗存儲方面,LfOD 有兩個規(guī)模不同的經(jīng)驗池:Dimitation和Dreinforcement.Dimitation僅存儲由 “Oracle”選擇的動作產(chǎn)生的經(jīng)驗,而Dreinforcement存儲所有演員網(wǎng)絡(luò)產(chǎn)生的經(jīng)驗并使用PER 進行優(yōu)先經(jīng)驗回放.實驗表明,LfOD 能夠有效地提升RL 應(yīng)用于自動路口管理(Autonomous intersection management)任務(wù)的效率.
Huang 等[74]提出的模仿專家經(jīng)驗算法(Imitative expert priors,IEP)也通過訓練一個專家網(wǎng)絡(luò)來實現(xiàn)對專家策略的模仿,并通過正則化智能體策略πθ(·|si)與專家策略πE(·|si)之間的KL 散度來指導自動駕駛智能體的學習.IEP 提供了兩種不同的方式來實現(xiàn)智能體對專家經(jīng)驗的充分學習:
1)對值函數(shù)添加懲罰項
2)在策略優(yōu)化期間控制智能體策略與專家策略之間的偏差
實驗表明,使用這兩種方式的IEP 均能在多個城市駕駛場景中獲得最高的成功率,并能夠有效地表現(xiàn)出人類專家所展示的多樣化的駕駛行為,而對值函數(shù)添加懲罰項的IEP 算法在稀疏獎勵的場景中表現(xiàn)效果更優(yōu).
Hu 等[75]在處理無人機的運動控制問題時,設(shè)計了一個多經(jīng)驗池算法(Multiple experience pool,MEP).MEP 通過使用模型預測控制(Model predictive control)來預測智能體在未來多個時間步的動作序列,并利用模擬退火算法(Simulated annealing)從預測結(jié)果中選擇最佳序列,從而利用傳統(tǒng)控制算法實現(xiàn)了對專家經(jīng)驗的高效模擬.這種多經(jīng)驗池的架構(gòu)可以存儲多種不同來源的高質(zhì)量經(jīng)驗,使智能體可以在多種專家策略之間學習.但多種專家經(jīng)驗之間的矛盾可能會給智能體策略的收斂造成困難,如何使智能體良好地平衡策略之間的差異性還有待進一步的研究.
Wan 等[76]則將這種使用其他算法來模擬專家經(jīng)驗的思路應(yīng)用到多智能體RL (Multi-agent RL,MARL)中,提出了一種混合經(jīng)驗算法(Mixed experience,ME),并結(jié)合多智能體深度確定性策略梯度算法(Multi-agent DDPG,MADDPG)[77]在多無人車的運動規(guī)劃任務(wù)中展現(xiàn)了優(yōu)越的效果.ME 算法通過一個基于人工勢場法(Artificial potential field)的經(jīng)驗生成器在訓練時為智能體提供具有指導性的高質(zhì)量經(jīng)驗,并使用動態(tài)混合采樣的策略,以可變的比例混合來自不同來源的訓練經(jīng)驗,來優(yōu)化智能體的運動策略.
針對緊急情況下自主水下航行器在三維空間中的浮面控制問題,Zhang 等[78]提出了一種基于DDPG的無模型DRL 算法(Variable delay DDPG from demonstration,VD4).VD4 不僅使用與DQfD 類似的思路來利用專家示范經(jīng)驗對目標網(wǎng)絡(luò)進行預訓練,還在實際訓練時按照比例對專家經(jīng)驗和交互經(jīng)驗進行采樣.這種做法有效地提升了算法的收斂速度,提高了應(yīng)對對抗性攻擊時的魯棒性.除此之外,VD4 還采用了TD3 中的演員網(wǎng)絡(luò)延遲更新操作來提高算法的穩(wěn)定性.在多種不同的復雜測試環(huán)境下,相較于DDPG、TD3 等算法,VD4 算法所訓練的智能體都能夠達到最高的任務(wù)成功率.
表5 對上述的專家示范經(jīng)驗算法從專家經(jīng)驗來源、作用方式、經(jīng)驗池形式、采樣策略和算法應(yīng)用場景進行了總結(jié).總的來看,使用不同形式的專家示范來實現(xiàn)經(jīng)驗的增廣能夠有效地提升DRL 算法的性能,尤其是在一些復雜的控制任務(wù)中.但由于專家示范時的思路或策略可能與智能體所學習的策略不同,甚至專家可能會使用一些智能體無法理解和表示的策略,這都會對智能體的策略收斂產(chǎn)生不利影響,如何縮小專家示范與交互經(jīng)驗之間的差異性是在進行此方向研究時要考慮的主要問題.
表5 專家示范經(jīng)驗算法對比Table 5 Comparison of expert demonstration experience algorithms
2.2.2 模型經(jīng)驗增廣
環(huán)境在RL 中主要起到根據(jù)智能體動作進行狀態(tài)轉(zhuǎn)移并給予其反饋的作用.一些研究者通過在RL 訓練過程中構(gòu)建一個合理的環(huán)境模型來實現(xiàn)對環(huán)境的模擬.如圖10 所示,這類基于模型的經(jīng)驗增廣方法在原始的RL 循環(huán)(虛線內(nèi)所示)外增添了環(huán)境模型的訓練過程,在環(huán)境模型的準確性能夠保證的情況下,可以使智能體在與環(huán)境模型的交互過程中輕松獲得大量高質(zhì)量經(jīng)驗,從而實現(xiàn)策略的快速收斂.
圖10 模型經(jīng)驗增廣算法的框架圖Fig.10 The framework of model experience augmentation algorithms
Sutton 等[79]最先將建立環(huán)境模型的想法引入到Q-learning 算法中并提出了Dyna-Q 算法.在Dyna-Q 中,智能體與環(huán)境的在線交互經(jīng)驗不僅用于智能體策略的更新,還用于環(huán)境模型的訓練.Dyna-Q 使用了一種Q-planning 的方法來隨機生成多個之前經(jīng)歷過的狀態(tài)和在該狀態(tài)下執(zhí)行過的動作作為輸入,與環(huán)境模型的輸出共同構(gòu)成模擬經(jīng)驗來更新狀態(tài)–動作值函數(shù),從而實現(xiàn)經(jīng)驗的增廣,使得智能體在實際任務(wù)中能夠獲得更優(yōu)的策略.
Silver 等[80]在Dyna-Q 的基礎(chǔ)上進一步探索,提出了具有SARSA 算法的更新機制、永久和瞬態(tài)記憶以及線性函數(shù)逼近的Dyna-2 算法.Dyna-2 將Q 函數(shù)分為永久記憶Q(s,a)和瞬態(tài)記憶Q′(s,a).永久記憶根據(jù)智能體的交互經(jīng)驗進行更新,而瞬態(tài)記憶則在與模型的模擬過程中得到更新來形成對永久記憶的局部校正.在每次動作選擇前,智能體會根據(jù)環(huán)境模型執(zhí)行一個從當前狀態(tài)持續(xù)到回合結(jié)束的模擬過程,隨后根據(jù)完整的Q 值選擇動作
針對Dyna-Q 在生成模擬經(jīng)驗時隨機性過大的問題,Santos 等[81]提出了一種結(jié)合啟發(fā)式搜索的算法框架 D yna-H.D yna-H設(shè)計了一個啟發(fā)式規(guī)劃模塊H,通過計算狀態(tài)s′與目標位置goal之間的歐氏距離來評價在狀態(tài)s下所選擇的動作a的好壞
其中,s′是環(huán)境模型給出的下一時刻狀態(tài).在模型訓練時,D yna-H根據(jù)H選擇啟發(fā)式的動作ha來構(gòu)成模擬經(jīng)驗
實驗表明,相對于Dyna-Q,D yna-H是一種效率更高的算法,尤其適用于最優(yōu)路徑搜索這一類決策問題.
針對在生成模擬經(jīng)驗時搜索控制的局限性,Pan等[82]提出了一種爬山Dyna (Hill climbing Dyna,HC-Dyna).HC-Dyna 在學習到的值函數(shù)上使用了一種噪聲不變的投影梯度上升策略的爬山法來生成模擬經(jīng)驗,并引入了一個閾值來保證模擬經(jīng)驗之間的差異性,從而使智能體能夠提前更新其接下來可能訪問的區(qū)域.HC-Dyna 還使用了一種經(jīng)驗混合機制,將搜索控制產(chǎn)生的模擬經(jīng)驗和交互產(chǎn)生的真實經(jīng)驗按比例采樣,共同用于智能體策略的更新.在多個Atari 游戲場景的實驗中,HC-Dyna 都顯示了優(yōu)于DQN 的性能.
除了模擬經(jīng)驗的質(zhì)量,Dyna 框架中模擬經(jīng)驗的使用順序也很重要.Pan 等[83]在研究了不同經(jīng)驗的重要性后,引入了一種重加權(quán)經(jīng)驗模型(Reweighted experience models,REM)的半?yún)?shù)模型學習方法來調(diào)整模擬經(jīng)驗的使用順序.REM 具有以下幾個優(yōu)勢: 1)可以快速地選擇和采樣某個經(jīng)驗的前序或后序經(jīng)驗;2)包含需要學習的參數(shù)較少,數(shù)據(jù)高效性較強;3)可以提供足夠的模型復雜性.實驗表明,REM 可以高效地使用模擬經(jīng)驗和交互經(jīng)驗.更進一步的探索表明,相較于線性模型和神經(jīng)網(wǎng)絡(luò)模型,REM 是更適合Dyna 框架的模型.
構(gòu)建環(huán)境模型能夠在減少智能體與環(huán)境交互的情況下產(chǎn)生大量的模擬經(jīng)驗.從早期的 D yna-H到近幾年所提出的HC-Dyna,如何產(chǎn)生更優(yōu)的經(jīng)驗一直是此領(lǐng)域研究所關(guān)注的重點.REM 算法則對Dyna 框架下模擬經(jīng)驗的利用順序進行了探索,為模型經(jīng)驗增廣提供了一個新的研究方向.
2.2.3 事后經(jīng)驗回放
除了上述通過智能體與環(huán)境交互過程外部提供增廣經(jīng)驗的方式,一些研究者希望通過交互過程本身而不引入其他經(jīng)驗來源的方式實現(xiàn)經(jīng)驗的增廣.
Andrychowicz 等[84]創(chuàng)新性地提出了事后經(jīng)驗回放(Hindsight experience replay,HER).作為一種多目標RL (Multi-goal RL,MGRL)[85]的方法,HER 在動作選擇和反饋獎勵時需要同時參考狀態(tài)s和目標g.對于要重塑的經(jīng)驗 (st‖g,at,rt,st+1‖g),首先根據(jù)特定方法選擇附加目標g′,隨后根據(jù)附加目標評價在狀態(tài)st下動作at的好壞并獲取新的獎勵值從而構(gòu)成一個新的經(jīng)驗用于后續(xù)的采樣和訓練.HER 通過對過去經(jīng)驗進行重塑,顯著地提高了稀疏獎勵環(huán)境中高質(zhì)量經(jīng)驗的百分比,從而加速了智能體的訓練過程.由于在任務(wù)中使用了固定的獎勵函數(shù),HER 可以保證事后產(chǎn)生增廣經(jīng)驗的高質(zhì)量,并確保智能體收斂策略的統(tǒng)一性.
為了克服HER 基于均勻采樣來生成附加目標的局限性,Luu 等[86]提出了事后目標排名算法(Hindsight goal ranking,HGR).基于TD error,HGR使用了兩種優(yōu)先化操作,即回合優(yōu)先和目標優(yōu)先
為了能夠使HER 算法適用于動態(tài)目標問題,Fang 等[87]提出了動態(tài)事后經(jīng)驗回放算法(Dynamic hindsight experience replay,DHER).DHER 設(shè)計了一個存儲器來存儲所有的失敗回合.在回放時,DHER 會搜索滿足的兩條相匹配的失敗軌跡Ei和Ej(),其中是在回合i中時間步p時智能體的位置,是在回合j中時間步q時目標的位置.隨后將使用替換Ei中原始的目標位置,其中t≤min{p,q}來保證新生成的成功回合中的目標軌跡和智能體軌跡長度相等.
DHER 在處理動態(tài)目標問題時取得了很好的效果,但它仍然存在以下幾個缺點: 1)失敗的回合經(jīng)驗的存儲需要大量的計算機內(nèi)存;2)在存儲的失敗經(jīng)驗中搜索和匹配的時間復雜度巨大;3)在高維連續(xù)狀態(tài)空間環(huán)境中很難找到兩條匹配的失敗軌跡;4)并非所有的增廣經(jīng)驗都值得被存儲和學習;5)無法保證存儲在龐大經(jīng)驗池中的增廣經(jīng)驗可以被學習到.針對這些問題,Hu 等[88]提出了想象過濾事后經(jīng)驗回放(Imaginary filtered hindsight experience replay,IFHER).IFHER 通過合理想象失敗回合中的目標軌跡來生成成功回合
從附加目標多樣性的角度出發(fā),Fang 等[89]提出了一種課程指導的事后經(jīng)驗回放算法(Curriculum-guided hindsight experience replay,CHER),通過對失敗經(jīng)驗自適應(yīng)地選擇來動態(tài)控制探索與利用的平衡.CHER 設(shè)計了如下的效用得分函數(shù)來評估附加目標優(yōu)劣
其中,s im(·,·)是距離函數(shù),用來估計兩個目標之間的相似性,A是采樣的批量大小,B是整個經(jīng)驗池.前一項衡量了附加目標與真實目標的接近程度,后一項衡量了附加目標的多樣性.在訓練過程中,CHER逐漸增加權(quán)重λ的大小,在早期的訓練階段強制學習目標更多樣的經(jīng)驗,并逐漸更改學習目標更接近真實目標的經(jīng)驗.實驗結(jié)果表明,在多種具有挑戰(zhàn)性的機器人環(huán)境中,CHER 都可以進一步提升當前最優(yōu)算法的表現(xiàn).
Yang 等[90]則將環(huán)境模型引入HER,并提出了模型事后經(jīng)驗回放算法(Model-based hindsight experience replay,MHER).在為經(jīng)驗(st‖g,at,rt,st+1‖g)選擇附加目標時,MHER 會先使用環(huán)境模型根據(jù)狀態(tài)st向前進行n個時間步的模擬,隨后從這些狀態(tài)中選擇附加目標進行經(jīng)驗重塑.MHER 主要具有以下幾個優(yōu)勢: 1)通過模型交互產(chǎn)生的附加目標不再局限于真實經(jīng)驗;2)附加目標的生成遵循一種策略指導的高效課程;3)策略更新同時利用了強化學習和監(jiān)督學習.在多種連續(xù)的多目標任務(wù)中的實驗表明,MHER 具有優(yōu)于HER 和CHER的樣本效率.
事后經(jīng)驗回放發(fā)展至今,從HER 的均勻采樣,到HGR 基于TD error 的采樣,再到目前基于課程和基于模型采樣的CHER 和MHER,如何為一條失敗的軌跡確定附加目標始終是研究者們關(guān)注的重點.采用特定的策略、選擇合適的附加目標,從而生成高質(zhì)量的增廣經(jīng)驗來提升算法的效率在今后依然會是此類方法的主要研究目標.
RL 通過智能體與環(huán)境的交互過程不斷獲取經(jīng)驗,來優(yōu)化智能體自身的行動策略以期獲得最大的累積獎勵.作為一種數(shù)據(jù)驅(qū)動的機器學習算法,經(jīng)驗(數(shù)據(jù))決定了RL 智能體最終策略的優(yōu)劣.在異策略RL 中,經(jīng)驗池的存在造就了經(jīng)驗回放這一研究熱點.通過經(jīng)驗回放,智能體能夠按照需求合理利用多來源的經(jīng)驗,避免災難性遺忘的發(fā)生,更快地得到更優(yōu)的行動策略,減小訓練過程中的成本代價.因此,對經(jīng)驗回放機制進行研究有著十分重要的實際意義和發(fā)展前景.本文從RL 的基礎(chǔ)知識出發(fā),介紹了常用的異策略RL 算法,并從經(jīng)驗利用和經(jīng)驗增廣兩個角度對經(jīng)驗回放機制的相關(guān)研究進行了詳細的介紹和總結(jié),彌補了國內(nèi)相關(guān)研究領(lǐng)域的空缺.
現(xiàn)有的經(jīng)驗回放方法已經(jīng)取得了初步的成果,理論和實踐都證明了經(jīng)驗回放對于異策略RL 的重要性,但其仍面臨著一些問題和挑戰(zhàn).
1)算法的適用性: 很多算法過分關(guān)注于某類問題而局限了其適用范圍.而且大量的算法使用了神經(jīng)網(wǎng)絡(luò)或引入了大量的超參數(shù),參數(shù)敏感性無疑會影響經(jīng)驗回放算法對不同環(huán)境的適用效果.除此之外,作為RL 的一個模塊,經(jīng)驗回放算法同樣面臨著虛擬到現(xiàn)實的落地困難的窘境.
2)算法的可解釋性: RL 作為人工智能領(lǐng)域的一個研究方向,毫無疑問在經(jīng)驗回放的研究過程中,會有很多思路和設(shè)計來源于對人類或其他物種的行為模擬.然而,這些所謂移植性創(chuàng)新往往缺乏可靠的理論支撐,可解釋性較差,有時難以讓人信服.
3)算法的效率: 無論是在數(shù)以百萬計的經(jīng)驗池中進行篩選或排序,還是從無到有地增廣數(shù)以百萬計的經(jīng)驗,經(jīng)驗回放算法的運算效率始終面臨著嚴峻的考驗.
針對上述問題,本文仍從經(jīng)驗利用和經(jīng)驗增廣兩個方面分別指出各個方向可能的突破口,為相關(guān)領(lǐng)域的學者提供一些研究思路.
在經(jīng)驗利用方面:
1)經(jīng)驗優(yōu)先利用標準: 除了已得到廣泛認可的TD error 常用來作為經(jīng)驗優(yōu)先利用的標準外,經(jīng)驗與當前狀態(tài)的相似性、經(jīng)驗難度等指標也逐漸被應(yīng)用于各種RL 控制問題中.調(diào)整智能體對經(jīng)驗池中所存儲的經(jīng)驗的學習順序,在不同的訓練階段使得最適合當前智能體策略更新的經(jīng)驗被學習,仍然是一種提高RL 效率的有效辦法[51].除了上述的優(yōu)先標準,將其他領(lǐng)域例如人類教育學、心理學或者生物學的知識或現(xiàn)象進行建模,設(shè)計出普適于多種任務(wù)環(huán)境的參數(shù)不敏感的優(yōu)先回放標準仍是經(jīng)驗回放領(lǐng)域今后研究的重點.
2)經(jīng)驗加權(quán)回放的適用性: 經(jīng)驗加權(quán)回放是近幾年經(jīng)驗回放領(lǐng)域新興的研究方向,相關(guān)的研究還相對較少.目前較為成熟的算法還難以簡便、準確地應(yīng)用于所有的實驗環(huán)境.因此,設(shè)計更具有普適性且計算更為簡潔的經(jīng)驗加權(quán)回放方法仍是現(xiàn)階段需要主要考慮的問題[58].除此之外,由于發(fā)展時間較短,還尚未有研究將此類方法延伸于真實的應(yīng)用環(huán)境,其在真實環(huán)境中是否仍具有較好的效果還有待進一步研究.
3)經(jīng)驗池的結(jié)構(gòu)設(shè)計: 隨著任務(wù)復雜程度的提升,經(jīng)驗池的規(guī)模也在不斷擴大,經(jīng)驗池的結(jié)構(gòu)設(shè)計面臨著巨大的壓力.通過改變原有數(shù)組形式的存儲結(jié)構(gòu),采用樹、隊列、堆棧甚至于圖等數(shù)據(jù)結(jié)構(gòu)來構(gòu)建經(jīng)驗池,能在降低計算機內(nèi)存消耗的同時提升算法的采樣效率.合理設(shè)計經(jīng)驗池的更新邏輯也能夠充分發(fā)揮各種經(jīng)驗優(yōu)先利用算法的優(yōu)勢[54].除此之外,對計算機的硬件架構(gòu)進行針對性的設(shè)計也是進一步提升經(jīng)驗回放算法效率的有效途徑.
4)經(jīng)驗的表示形式及轉(zhuǎn)換效率: 利用其他領(lǐng)域例如量子力學的理論,將原始向量形式的經(jīng)驗進行編碼,隨后進行存儲.在使用時也可以結(jié)合不同的優(yōu)先利用算法來進行優(yōu)先采樣,將采樣后的經(jīng)驗重新解碼以便智能體進行學習.這種從經(jīng)驗的表示形式入手的方法也是近年來經(jīng)驗回放領(lǐng)域的一個新興研究方向,具有一定的研究價值.但這種先編碼后解碼的過程需要耗費一定的計算資源,如何提升經(jīng)驗編碼和解碼的效率是此類方法需要考慮的重點.
在經(jīng)驗增廣方面:
1)多來源數(shù)據(jù)的準確性: 在處理較為復雜任務(wù)時,結(jié)合不同來源的指導經(jīng)驗進行學習可以大幅減少智能體與環(huán)境的交互,提升算法的收斂速度.但如何確保其他數(shù)據(jù)的準確性和有效性是此研究方向不可避免的問題.專家經(jīng)驗通常是基于專家自身實際操作經(jīng)驗,智能體的交互經(jīng)驗是在獎勵函數(shù)的指導下產(chǎn)生的.專家經(jīng)驗與交互經(jīng)驗所蘊含的策略的統(tǒng)一性,將在很大程度上影響智能體的表現(xiàn)[49].環(huán)境模型也是在智能體訓練過程中不斷優(yōu)化的,其收斂速度直接導致了智能體用于訓練的模擬經(jīng)驗的準確性[79].如何設(shè)計更準確的模型結(jié)構(gòu)并提升模型的收斂速度是此方向需要長期關(guān)注的問題.
2)經(jīng)驗重塑算法的效率: 在固定獎勵函數(shù)的情況下,對智能體自身的交互經(jīng)驗進行重塑以實現(xiàn)經(jīng)驗的大規(guī)模增廣是經(jīng)驗回放領(lǐng)域近年來的研究熱點.附加經(jīng)驗的準確性和策略一致性保證了收斂后智能體優(yōu)秀的性能.在龐大的經(jīng)驗中選擇合適的附加目標以期產(chǎn)生高質(zhì)量的附加經(jīng)驗仍然是此類方法關(guān)注的重點.但毫無疑問,大規(guī)模的搜索和重塑會對算法的計算效率產(chǎn)生影響[88],使用多線程進行并行計算或設(shè)計其他高效的計算框架或許是經(jīng)驗重塑類方法提升效率的有效途徑.