摘 要:策略梯度估計(jì)方差大是策略梯度算法存在的普遍問(wèn)題,基于參數(shù)探索的策略梯度算法(PGPE)通過(guò)使用確定性策略有效緩解了這一問(wèn)題。然而,PGPE算法基于蒙特卡羅方法進(jìn)行策略梯度的估計(jì),需要大量學(xué)習(xí)樣本才能保證梯度估計(jì)相對(duì)穩(wěn)定,因此,梯度估計(jì)方差大阻礙了其在現(xiàn)實(shí)問(wèn)題中的實(shí)際應(yīng)用。為進(jìn)一步減小PGPE算法策略梯度估計(jì)的方差,提出了基于值函數(shù)估計(jì)的參數(shù)探索策略梯度算法(PGPE-FA),該算法在PGPE算法中引入Actor-Critic框架。具體地,提出的方法使用價(jià)值函數(shù)估計(jì)策略梯度,代替了PGPE方法使用軌跡樣本估計(jì)策略梯度的方式,從而減小了梯度估計(jì)方差。最后,通過(guò)實(shí)驗(yàn)驗(yàn)證了所提算法能夠減小梯度估計(jì)的方差。
關(guān)鍵詞:強(qiáng)化學(xué)習(xí); 值函數(shù); 參數(shù)探索策略梯度; 梯度估計(jì)方差
中圖分類(lèi)號(hào):TP181文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2023)08-025-2404-07
doi:10.19734/j.issn.1001-3695.2022.11.0781
Function approximation for policy gradients with parameter-based exploration
Zhao Tingting, Yang Mengnan, Chen Yarui Wang Yuan, Yang Jucheng
(College of Artificial Intelligence, Tianjin University of Science amp; Technology, Tianjin 300457, China)
Abstract:Policy gradient algorithms suffer from the large variance of gradient estimation. the algorithm of policy gradient with parameter based exploration mitigates this problem to some extent. However, PGPE estimates its gradient based on the Monte Carlo, which requires a large number of samples to achieve the fairly stable policy update. And thus hinders its application in the real world problem. In order to further reduce the variance of policy gradient, the algorithm of function approximation for policy gradients with parameter-based exploration (PGPE-FA) implements the algorithm of PGPE in the Actor-Critic framework. More specifically, the proposed method utilized value function to estimate the policy gradient, instead of using trajectory samples to estimate the policy gradient as PGPE method does, thereby reducing the variance of gradient estimation. Finally, the experiment verifies that the proposed algorithm can reduce the variance of gradient estimation.
Key words:reinforcement learning; value function; policy gradients with parameter based exploration; variance of gradient estimates
0 引言
強(qiáng)化學(xué)習(xí)(reinforcement learning,RL) [1]是一種通過(guò)與環(huán)境交互和試錯(cuò)進(jìn)行學(xué)習(xí)的學(xué)習(xí)范式[2,3],其目標(biāo)是找到一個(gè)最優(yōu)策略,使智能體能夠得到最大的期望累積獎(jiǎng)勵(lì)。隨著深度神經(jīng)網(wǎng)絡(luò)的加入,深度強(qiáng)化學(xué)習(xí)在商業(yè)[4]、游戲[5~9]、控制[10,11]等領(lǐng)域取得了突破性進(jìn)展。
強(qiáng)化學(xué)習(xí)的主要目的是學(xué)習(xí)最優(yōu)策略從而獲得最大累計(jì)獎(jiǎng)勵(lì)回報(bào)。根據(jù)策略的學(xué)習(xí)方式,強(qiáng)化學(xué)習(xí)算法可以分為兩類(lèi):一類(lèi)是基于值函數(shù)(value-based)的強(qiáng)化學(xué)習(xí)方法[12],主要處理離散空間問(wèn)題;另一類(lèi)是基于策略(policy-based)的強(qiáng)化學(xué)習(xí)方法[13],主要處理連續(xù)動(dòng)作空間問(wèn)題。value-based算法是早在20世紀(jì)80年代末就被提出且得到廣泛使用的傳統(tǒng)強(qiáng)化學(xué)習(xí)算法,其中最具代表性的算法包括Watkins等人[14]提出的Q-Learning算法、Rummery等人[15]提出的SARSA算法、DeepMind[16,17]提出的Deep Q-Learning(DQN)算法。上述方法需要先進(jìn)行策略評(píng)估,得到狀態(tài)價(jià)值函數(shù)或動(dòng)作價(jià)值函數(shù)信息,再利用值函數(shù)改善當(dāng)前的策略。此類(lèi)方法需要找到與動(dòng)作相關(guān)的最大值函數(shù)來(lái)改進(jìn)策略,難以處理連續(xù)的動(dòng)作。因此,基于值函數(shù)的學(xué)習(xí)算法在機(jī)器人等智能控制系統(tǒng)環(huán)境中并不能直接適用。另一方面,針對(duì)基于值函數(shù)方法的局限性,policy-based算法直接對(duì)策略進(jìn)行學(xué)習(xí),適用于解決具有連續(xù)動(dòng)作空間的復(fù)雜決策任務(wù)[1]。目前為止,最具代表性的策略搜索算法包括REINFORCE[18]、trust region policy optimization(TRPO)[19]、proximal policy optimization algorithms(PPO)[20]等。
在policy-based方法中,策略梯度算法(policy gradients)是最實(shí)用、最易于實(shí)現(xiàn)且被廣泛應(yīng)用的一種方法,由于此類(lèi)方法中策略的更新是逐漸變化的,能夠確保系統(tǒng)的穩(wěn)定性,尤其適用于復(fù)雜智能系統(tǒng)的決策控制問(wèn)題,如機(jī)器人[21]。然而,Williams[22]提出的傳統(tǒng)策略梯度算法REINFORCE,梯度估計(jì)方差過(guò)大,使得算法不穩(wěn)定且收斂慢。REINFORCE算法利用采樣的真實(shí)路徑通過(guò)蒙特卡羅法(MC)估計(jì)策略梯度,由于環(huán)境及策略的不確定性,一個(gè)策略能產(chǎn)生多條路徑以及路徑累積回報(bào)。因此,為了得到準(zhǔn)確且穩(wěn)定的策略梯度估計(jì),REINFORCE方法需要大量的真實(shí)路徑樣本。然而,收集大量學(xué)習(xí)樣本是強(qiáng)化學(xué)習(xí)領(lǐng)域在實(shí)際應(yīng)用中存在的瓶頸問(wèn)題。因此,不充足的交互會(huì)給軌跡回報(bào)引入較大的方差,最終導(dǎo)致梯度估計(jì)的方差很大。
針對(duì)策略梯度算法中梯度估計(jì)方差大的問(wèn)題,Sehnke等人[23]提出了一種基于參數(shù)探索的策略梯度的方法(policy gradients with parameter based exploration,PGPE)。PGPE通過(guò)去除策略中不必要的隨機(jī)性,并利用策略參數(shù)的先驗(yàn)分布引入有用的隨機(jī)性來(lái)產(chǎn)生低方差的梯度估計(jì)。具體地,PGPE方法學(xué)習(xí)策略參數(shù)的先驗(yàn)分布并從中隨機(jī)采樣策略參數(shù),然后使用確定性策略,從而在一定程度上緩解了REINFORCE方法由于使用隨機(jī)策略而產(chǎn)生較大梯度估計(jì)方差的問(wèn)題。然而,PGPE方法在計(jì)算策略梯度時(shí)仍需要使用真實(shí)路徑回報(bào),即需要從先驗(yàn)分布中采樣大量的策略參數(shù)生成大量的軌跡樣本及其路徑回報(bào),從而保證策略梯度估計(jì)的穩(wěn)定性。因此,PGPE算法與REINFORCE算法均使用MC方法估計(jì)策略梯度,此類(lèi)更新方式通常需要不斷與環(huán)境交互進(jìn)行大量采樣才能保證梯度估計(jì)的準(zhǔn)確性。但在實(shí)際應(yīng)用環(huán)境中,采樣成本通常較為高昂且非常費(fèi)時(shí),因此使用MC方法更新梯度的算法通常都會(huì)存在由于樣本收集的不充分而造成策略梯度估計(jì)方差大的問(wèn)題。此外,由于每次需要根據(jù)一個(gè)策略采樣完整的軌跡才能計(jì)算路徑累計(jì)回報(bào),參與梯度計(jì)算。因此,基于MC方法的策略梯度估計(jì)方法通常存在樣本利用率低的問(wèn)題。
另一方面,Actor-Critic(AC)方法結(jié)合價(jià)值函數(shù)改進(jìn)了上述策略梯度中估計(jì)方差較大和學(xué)習(xí)速率慢的問(wèn)題[24,25]。AC框架的本質(zhì)就是在基于策略的方法中引入值函數(shù)。通過(guò)上述對(duì)REINFORCE方法和PGPE方法的分析可知,由于采樣時(shí)間及成本的限制,采樣大量樣本準(zhǔn)確估計(jì)路徑期望回報(bào)是難以實(shí)現(xiàn)的。在強(qiáng)化學(xué)習(xí)中狀態(tài)—?jiǎng)幼髦岛瘮?shù)表示從狀態(tài)s出發(fā)根據(jù)策略采取動(dòng)作后得到的期望累積回報(bào)。因此,Sutton等人[24]提出了學(xué)習(xí)價(jià)值函數(shù)并利用其參與梯度計(jì)算減少梯度估計(jì)方差的思想。AC框架引入了值函數(shù),在求解值函數(shù)時(shí)通常使用時(shí)間差分法(temporal difference,TD),它允許使用后續(xù)狀態(tài)的值函數(shù)估計(jì)當(dāng)前值函數(shù),即可以在每一步估計(jì)當(dāng)前值函數(shù),而無(wú)須像MC方法等到回合結(jié)束才能進(jìn)行參數(shù)的更新,從而很大程度地提高學(xué)習(xí)速度[26]。此外,AC框架結(jié)合了深度學(xué)習(xí),利用深度神經(jīng)網(wǎng)絡(luò)優(yōu)異的特征表示能力,不僅可以對(duì)不同狀態(tài)、動(dòng)作下的價(jià)值函數(shù)進(jìn)行擬合,也可以擬合強(qiáng)化學(xué)習(xí)中的策略,因此,結(jié)合了深度神經(jīng)網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)算法在性能上有了更大的提升[27]。
AC框架兼?zhèn)?policy-based 方法和value-based 方法兩方面的優(yōu)勢(shì),value-based方法使用價(jià)值函數(shù)估計(jì)方差較小且樣本利用率高,policy-based方法能夠處理連續(xù)空間問(wèn)題且收斂性較好[28]。在AC框架中,Actor扮演策略這一角色,用于控制智能體生成動(dòng)作,而Critic則根據(jù)值函數(shù)評(píng)估智能體動(dòng)作的好壞,并指導(dǎo)Actor對(duì)策略進(jìn)行改進(jìn),由于Critic對(duì)預(yù)期回報(bào)的估計(jì)使得Actor在進(jìn)行梯度更新時(shí)方差較小,加快了學(xué)習(xí)過(guò)程。通常情況下,AC方法被認(rèn)為是一類(lèi) policy-based 方法,可解決包括離散動(dòng)作空間及連續(xù)動(dòng)作空間在內(nèi)的各種決策問(wèn)題,特殊之處在于使用價(jià)值作為策略梯度的基準(zhǔn),是 policy-based 方法對(duì)估計(jì)方差的改進(jìn)[28]。由于AC方法的優(yōu)勢(shì),近年來(lái),發(fā)展出眾多改進(jìn)的AC算法,最具代表性的算法包括:確定性策略梯度算法(deterministic policy gradient,DPG)[29]及其改進(jìn)算法(deep deterministic policy gradient,DDPG)[30]、異步優(yōu)勢(shì)Actor-Critic算法(asynchronous advantage Actor-Critic,A3C)[31]、雙延遲確定性策略梯度算法(twin delayed deep deterministic policy gradient,TD3)[32]等。然而,上述方法本質(zhì)上均基于REINFORCE算法進(jìn)行策略梯度的估計(jì)。
綜上,本文借助深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的表征能力來(lái)學(xué)習(xí)PGPE算法的超參數(shù)及擬合價(jià)值函數(shù),并使用學(xué)習(xí)到的函數(shù)指導(dǎo)策略更新,從而得到性能更優(yōu)的基于PGPE算法的AC框架。具體地說(shuō),本文一方面使用價(jià)值函數(shù)估計(jì)策略梯度,改進(jìn)了傳統(tǒng)PGPE方法使用軌跡樣本估計(jì)策略梯度的方式,減少了梯度估計(jì)方差,加快了學(xué)習(xí)速度。另一方面,引入變分自編碼器(variational auto-encoder,VAE)[33]中使用的一種名為重參數(shù)化技巧的方法,實(shí)現(xiàn)了使用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)PGPE中的超參數(shù)的思想,進(jìn)一步提升了PGPE算法的性能。最后,通過(guò)大量實(shí)驗(yàn)驗(yàn)證所提算法的有效性和準(zhǔn)確性。
1 背景知識(shí)
1.1 強(qiáng)化學(xué)習(xí)建模
1.2 傳統(tǒng)策略梯度方法
1.3 基于參數(shù)探索的策略梯度算法
2 基于值函數(shù)估計(jì)的參數(shù)探索策略梯度算法
3 實(shí)驗(yàn)結(jié)果
本文首先通過(guò)機(jī)器人連續(xù)鏈?zhǔn)叫凶呷蝿?wù)驗(yàn)證所提算法的有效性。然后,通過(guò)經(jīng)典的倒立雙擺平衡問(wèn)題進(jìn)一步探索本文算法的性能優(yōu)勢(shì),并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析。
3.1 連續(xù)鏈?zhǔn)叫凶呷蝿?wù)實(shí)驗(yàn)
3.1.1 環(huán)境設(shè)置
3.1.2 算法性能對(duì)比實(shí)驗(yàn)
3.1.3 方差
3.1.4 超參數(shù)更新軌跡
3.1.5 估計(jì)梯度方向
3.2 倒立雙擺平衡問(wèn)題
3.2.1 環(huán)境設(shè)置
3.2.2 算法性能對(duì)比實(shí)驗(yàn)
結(jié)果表明,DPG算法收斂最快,但性能最差,這是因?yàn)镈PG算法引入了AC框架,且使用確定性策略,極大減小了梯度估計(jì)方差。然而,DPG方法中沒(méi)有探索,極易陷入局部最優(yōu),從而使得性能最差。另一方面,PGPE方法收斂速度相對(duì)較慢,但PGPE算法與DPG方法相比,通過(guò)引入策略參數(shù)的先驗(yàn)分布增加了必要的探索性,因此性能優(yōu)于DPG方法。本文算法PGPE-FA性能最好,收斂速度也比PGPE算法快,主要原因在于它引入AC框架,使用Q函數(shù)估計(jì)預(yù)期回報(bào)指導(dǎo)策略更新方差較小,收斂較快,同時(shí)引入策略參數(shù)的先驗(yàn)分布增加了必要的探索性,從而能得到較好的性能且提高了算法收斂速度。
4 結(jié)束語(yǔ)
本文針對(duì)PGPE算法策略梯度估計(jì)方差大的問(wèn)題,提出了一種基于值函數(shù)估計(jì)的參數(shù)探索策略梯度算法。具體地,本文在PGPE方法中引入了Actor-Critic框架,即在PGPE方法中引入了值函數(shù),通過(guò)使用值函數(shù)估計(jì)策略梯度,降低了PGPE方法梯度估計(jì)的方差,加快了PGPE方法的收斂速度。最后,通過(guò)實(shí)驗(yàn)證明了本文方法能通過(guò)引入值函數(shù)有效改善PGPE方法梯度估計(jì)方差大的問(wèn)題。在未來(lái)的工作中,筆者將研究如何給PGPE-FA算法的Actor網(wǎng)絡(luò)Critic網(wǎng)絡(luò)添加目標(biāo)網(wǎng)絡(luò),增加算法的穩(wěn)定性。
附錄
在平均回報(bào)下證明:
證明完成。
參考文獻(xiàn):
[1]趙婷婷, 吳帥, 楊夢(mèng)楠, 等. 基于互信息最大化的意圖強(qiáng)化學(xué)習(xí)方法的研究[J]. 計(jì)算機(jī)應(yīng)用研究, 2022,39(11): 3327-3332,3364. (Zhao Tingting, Wu Shuai, Yang Mengnan, et al. Intention based reinforcement learning by information maximization[J]. Application Research of Computers, 2022,39(11): 3327-3332,3364.)
[2]何立,沈亮,李輝, 等. 強(qiáng)化學(xué)習(xí)中的策略重用: 研究進(jìn)展[J]. 系統(tǒng)工程與電子技術(shù), 2022,44(3): 884-899. (He Li, Shen Liang, Li Hui, et al. The policy reuse in reinforcement learning:research progress[J]. Systems Engineering and Electronics, 2022,44(3): 884-899.)
[3]孔松濤, 劉池池, 史勇, 等. 深度強(qiáng)化學(xué)習(xí)在智能制造中的應(yīng)用展望綜述[J]. 計(jì)算機(jī)工程與應(yīng)用, 2021,57(2): 49-59. (Kong Songtao, Liu Chichi, Shi Yong, et al. A survey on the application of deep reinforcement learning in intelligent manufacturing[J]. Computer Engineering and Applications, 2021,57(2): 49-59.)
[4]Silver D, Newnham L, Barker D, et al. Concurrent reinforcement learning from customer interactions[C]//Proc of International Confe-rence on Machine Learning. 2013: 924-932.
[5]Silver D, Huang A, Maddison C J, et al. Mastering the game of Go with deep neural networks and tree search[J]. Nature, 2016,529(7587): 484-489.
[6]Silver D, Hubert T, Schrittwieser J, et al. A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play[J]. Science, 2018,362(6419): 1140-1144.
[7]Ye Deheng, Chen Guibin, Zhao Peilin,et al. Supervised learning achieves human-level performance in MOBA games: a case study of honor of kings[J]. IEEE Trans on Neural Networks and Lear-ning Systems, 2022,33(3): 908-918.
[8]Ye Deheng, Liu Zhao, Sun Mingfei, et al. Mastering complex control in moba games with deep reinforcement learning[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020,34(4): 6672-6679.
[9]Vinyals O, Babuschkin I, Czarnecki W M, et al. Grandmaster level in StarCraft Ⅱ using multi-agent reinforcement learning[J]. Nature, 2019, 575(7782): 350-354.
[10]Levine S, Pastor P, Krizhevsky A, et al. Learning hand-eye coordination for robotic grasping with deep learning and large-scale data collection[J]. The International Journal of Robotics Research, 2018,37(4-5): 421-436.
[11]Levine S, Finn C, Darrell T, et al. End-to-end training of deep visuomotor policies[J]. The Journal of Machine Learning Research, 2016,17(1): 1334-1373.
[12]劉全,翟建偉,章宗長(zhǎng),等.深度強(qiáng)化學(xué)習(xí)綜述[J].計(jì)算機(jī)學(xué)報(bào),2018,41(1): 1-27. (Liu Quan, Zhai Jianwei, Zhang Zongchang, et al. A survey on deep reinforcement learning[J]. Chinese Journal of Computers, 2018, 41(1): 1-27.)
[13]劉建偉,高峰,羅雄麟,等. 基于值函數(shù)和策略梯度的深度強(qiáng)化學(xué)習(xí)綜述[J].計(jì)算機(jī)學(xué)報(bào),2019,42(6):1406-1438. (Liu Jianwei, Gao Feng, Luo Xionglin,et al. Survey of deep reinforcement learning based on value function and policy gradient[J]. Chinese Journal of Computers, 2019,42(6):1406-1438.)
[14]Watkins C J C H, Dayan P. Q-learning[J]. Machine Learning, 1992,8(3): 279-292.
[15]Rummery G A, Niranjan M. On-line Q-learning using connectionist systems[M]. Cambridge, UK: University of Cambridge, 1994.
[16]Mnih V, Kavukcuoglu K, Silver D, et al. Playing Atari with deep reinforcement learning[C]//Proc of Workshops at the 26th Neural Information Processing Systems. 2013: 201-220.
[17]Mnih V, Kavukcuoglu K, Silver D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015,518(7540): 529-533.
[18]Williams R J. Simple statistical gradient-following algorithms for connectionist reinforcement learning[J]. Machine Learning, 1992,8(3): 229-256.
[19]Schulman J, Levine S, Abbeel P, et al. Trust region policy optimization[C]//Proc of International Conference on Machine Learning. 2015: 1889-1897.
[20]Schulman J, Wolski F, Dhariwal P, et al. Proximal policy optimization algorithms[EB/OL]. (2017) . https://arxiv. org/abs/1707. 06347.
[21]Peters J, Schaal S. Policy gradient methods for robotics[C]//Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway,NJ: IEEE Press, 2006: 2219-2225.
[22]Williams R J. Simple statistical gradient-following algorithms for connectionist reinforcement learning[J]. Machine Learning, 1992,8(3): 229-256.
[23]Sehnke F, Osendorfer C, Rückstie B, et al. Parameter-exploring policy gradients[J]. Neural Networks, 2010,23(4): 551-559.
[24]Sutton R S, McAllester D, Singh S, et al. Policy gradient methods for reinforcement learning with function approximation[J]. Advances in Neural Information Processing Systems, 1999,12(1): 1057-1063.
[25]Konda V R, Tsitsiklis J N. On actor-critic algorithms[J]. SIAM Journal on Control and Optimization, 2003,42(4): 1143-1166.
[26]趙婷婷. 統(tǒng)計(jì)策略搜索強(qiáng)化學(xué)習(xí)方法及應(yīng)用[M]. 北京: 電子工業(yè)出版社, 2021. (Zhao Tingting. Statistical policy search reinforcement learning methods and applications[M]. Beijing: Publishing House of Electronics Industry, 2021.)
[27]楊思明, 單征, 丁煜, 等. 深度強(qiáng)化學(xué)習(xí)研究綜述[J]. 計(jì)算機(jī)工程, 2021,47(12): 19-29. (Yang Siming, Shan Zheng, Ding Yu, et al. A review of deep reinforcement learning[J]. Computer Engineering, 2021,47(12):19-29.)
[28]李茹楊, 彭慧民, 李仁剛, 等. 強(qiáng)化學(xué)習(xí)算法與應(yīng)用綜述[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用, 2020,29(12): 13-25. (Li Ruyang, Peng Huimin, Li Rengang, et al. Overview on algorithms and applications for reinforcement learning[J]. Computer Systems amp; Applications, 2020,29(12):13-25.)
[29]Silver D, Lever G, Heess N, et al. Deterministic policy gradient algorithms[C]//Proc of International Conference on Machine Learning. 2014: 387-395.
[30]Lillicrap T P, Hunt J J, Pritzel A, et al. Continuous control with deep reinforcement learning[EB/OL]. (2015) . https://arxiv.org/abs/1509.02971.pdf.
[31]Mnih V, Badia A P, Mirza M, et al. Asynchronous methods for deep reinforcement learning[C]//Proc of International Conference on Machine Learning. 2016: 1928-1937.
[32]Fujimoto S, Hoof H, Meger D. Addressing function approximation error in actor-critic methods[C]//Proc of International Conference on Machine Learning. 2018: 1587-1596.
[33]Im D J, Ahn S, Memisevic R, et al. Auto-encoding variational Bayes[EB/OL]. (2014) . https://arxiv. org/abs/1312. 6114.
[34]Kingma D P, Ba J. Adam: a method for stochastic optimization[EB/OL]. (2014) . https://arxiv.org/abs/1412.6980.
[35]Cheng G, Hyon S H, Morimoto J, et al. CB: a humanoid research platform for exploring neuroscience[J]. Advanced Robotics, 2007,21(10): 1097-1114.