王輝 于婧
摘要:策略梯度函數(shù)是基于直接策略搜索的方法。它把策略參數(shù)化,并且估算優(yōu)化指標相對于策略參數(shù)的梯度,然后利用該梯度來調(diào)整這些參數(shù),最后可以獲得局部最優(yōu)或者局部最優(yōu)策略。所以這樣得到的策略可以是隨機性策略也可是確定性策略。通過自主開發(fā)的Gridworld策略梯度實驗平臺,對經(jīng)典GPOMDP、NAC和基于TD([λ])的策略梯度算法的收斂性能進行了對比分析。
關(guān)鍵詞:強化學習;策略梯度;收斂性;仿真實驗
中圖分類號:TP181 文獻標識碼:A 文章編號:1009-3044(2014)29-6937-05
Abstract:The classical gradient policy function is based on direct policy searching method, in which the policy is approximated with respect to the optimization of policy gradient parameters to get a local optimal strategy. GPOMDP, NAC and TD([λ]) experiments are simulated with Gridworld simulation platform. The converge benchmark shows the performance of TD([λ]) algorithm by help of value functions is superior to the others.
Key words: reinforcement learning; policy gradient; convergence; simulation experiments
強化學習可以分為基于值函數(shù)方法和策略梯度方法[1]。基于值函數(shù)的算法,不需要顯性表示學習客體(agent)的行為策略,而是通過不停地更新狀態(tài)動作對的累計期望回報來得到最優(yōu)值函數(shù)。在估計所得的最優(yōu)值函數(shù)基礎上,在整個狀態(tài)、動作空間內(nèi),使用貪心算法來確定當前狀態(tài)遷移時所需的最優(yōu)動作。
值函數(shù)方法常用于對確定性策略的求解過程中,對于隨機性策略的處理仍存在很大困難,比如在使用線性函數(shù)逼近器面對連續(xù)狀態(tài)、動作空間環(huán)境時不能保證收斂[2]。策略梯度方法需要顯式地表示策略函數(shù),并且能夠沿著策略梯度下降的方向持續(xù)改善和優(yōu)化策略函數(shù)的參數(shù)向量。該方法能夠最終逼近約束環(huán)境下的最優(yōu)解。相對于值函數(shù)方法,策略梯度方法能夠同時處理確定性策略和隨機性策略,并且在理論上能夠保證收斂。
策略[π]決定了Agent在當前環(huán)境狀態(tài)下對動作的選擇,動作選擇后Agent按照某種概率分布遷移到下一個狀態(tài)。環(huán)境的狀態(tài)轉(zhuǎn)移概率直接影響優(yōu)化指標[J]的計算,不同的[π]的值對應不同的[J]值,即優(yōu)化指標是一個關(guān)于[π]的函數(shù)。直接策略搜索方法就是調(diào)整其參數(shù),使得指標[J]達到最大。
NAC 策略梯度函數(shù)結(jié)果方差較大,并且收斂速度較慢,和原來的預期有一定的出入。
從圖上也可以看出,強化學習策略梯度的方法引入先驗知識的重要性。學習開始的時候累計回報波動劇烈,原因是按照隨機概率隨意選取策略導致學習初期的時間消耗較大, 并且Agent尚未探索到系統(tǒng)的的全部的觀測到整個系統(tǒng)情況。
參考文獻:
[1] Sutton R S,Barto A G.Reinforcement learning:An introduction[M].MIT press,1998.
[2] 王學寧.增強學習中的直接策略搜索方法綜述[J].智能系統(tǒng)學報,2007,2(1):16-24.
[3] Baxter J,Bartlett P L.Direct gradient-based reinforcement learning[J]. Circuits and Systems,The 2000 IEEE International Symposium,2000:271-274.
[4] 王學寧.策略梯度增強學習的理論、算法及應用研究[D].長沙:國防科學技術(shù)大學,2006.
[5] Amari S I.Natural gradient works efficiently in learning[J].Neural computation,1998,10(2):251-276.
[6] Peters J,Schaal S.Natural actor-critic[J].Neurocomputing,2008,71(7): 1180-1190.
[7] Sutton R S.Policy gradient methods for reinforcement learning with function approximation[M].NIPS,1999:1057—1063.
[8] Williams R J.Simple statistical gradient-following algorithms for connectionist reinforcement learning[J].Machine learning,1992,8(3-4):229-256.
[9] Bhatnagar S.Natural actor—critic algorithms[J].Automatica,2009,45(11): 2471-2482.
[10] Sutton R S.Learning to predict by the methods of temporal differences[J].Machine learning,1988,3(1):9-44.endprint
摘要:策略梯度函數(shù)是基于直接策略搜索的方法。它把策略參數(shù)化,并且估算優(yōu)化指標相對于策略參數(shù)的梯度,然后利用該梯度來調(diào)整這些參數(shù),最后可以獲得局部最優(yōu)或者局部最優(yōu)策略。所以這樣得到的策略可以是隨機性策略也可是確定性策略。通過自主開發(fā)的Gridworld策略梯度實驗平臺,對經(jīng)典GPOMDP、NAC和基于TD([λ])的策略梯度算法的收斂性能進行了對比分析。
關(guān)鍵詞:強化學習;策略梯度;收斂性;仿真實驗
中圖分類號:TP181 文獻標識碼:A 文章編號:1009-3044(2014)29-6937-05
Abstract:The classical gradient policy function is based on direct policy searching method, in which the policy is approximated with respect to the optimization of policy gradient parameters to get a local optimal strategy. GPOMDP, NAC and TD([λ]) experiments are simulated with Gridworld simulation platform. The converge benchmark shows the performance of TD([λ]) algorithm by help of value functions is superior to the others.
Key words: reinforcement learning; policy gradient; convergence; simulation experiments
強化學習可以分為基于值函數(shù)方法和策略梯度方法[1]?;谥岛瘮?shù)的算法,不需要顯性表示學習客體(agent)的行為策略,而是通過不停地更新狀態(tài)動作對的累計期望回報來得到最優(yōu)值函數(shù)。在估計所得的最優(yōu)值函數(shù)基礎上,在整個狀態(tài)、動作空間內(nèi),使用貪心算法來確定當前狀態(tài)遷移時所需的最優(yōu)動作。
值函數(shù)方法常用于對確定性策略的求解過程中,對于隨機性策略的處理仍存在很大困難,比如在使用線性函數(shù)逼近器面對連續(xù)狀態(tài)、動作空間環(huán)境時不能保證收斂[2]。策略梯度方法需要顯式地表示策略函數(shù),并且能夠沿著策略梯度下降的方向持續(xù)改善和優(yōu)化策略函數(shù)的參數(shù)向量。該方法能夠最終逼近約束環(huán)境下的最優(yōu)解。相對于值函數(shù)方法,策略梯度方法能夠同時處理確定性策略和隨機性策略,并且在理論上能夠保證收斂。
策略[π]決定了Agent在當前環(huán)境狀態(tài)下對動作的選擇,動作選擇后Agent按照某種概率分布遷移到下一個狀態(tài)。環(huán)境的狀態(tài)轉(zhuǎn)移概率直接影響優(yōu)化指標[J]的計算,不同的[π]的值對應不同的[J]值,即優(yōu)化指標是一個關(guān)于[π]的函數(shù)。直接策略搜索方法就是調(diào)整其參數(shù),使得指標[J]達到最大。
NAC 策略梯度函數(shù)結(jié)果方差較大,并且收斂速度較慢,和原來的預期有一定的出入。
從圖上也可以看出,強化學習策略梯度的方法引入先驗知識的重要性。學習開始的時候累計回報波動劇烈,原因是按照隨機概率隨意選取策略導致學習初期的時間消耗較大, 并且Agent尚未探索到系統(tǒng)的的全部的觀測到整個系統(tǒng)情況。
參考文獻:
[1] Sutton R S,Barto A G.Reinforcement learning:An introduction[M].MIT press,1998.
[2] 王學寧.增強學習中的直接策略搜索方法綜述[J].智能系統(tǒng)學報,2007,2(1):16-24.
[3] Baxter J,Bartlett P L.Direct gradient-based reinforcement learning[J]. Circuits and Systems,The 2000 IEEE International Symposium,2000:271-274.
[4] 王學寧.策略梯度增強學習的理論、算法及應用研究[D].長沙:國防科學技術(shù)大學,2006.
[5] Amari S I.Natural gradient works efficiently in learning[J].Neural computation,1998,10(2):251-276.
[6] Peters J,Schaal S.Natural actor-critic[J].Neurocomputing,2008,71(7): 1180-1190.
[7] Sutton R S.Policy gradient methods for reinforcement learning with function approximation[M].NIPS,1999:1057—1063.
[8] Williams R J.Simple statistical gradient-following algorithms for connectionist reinforcement learning[J].Machine learning,1992,8(3-4):229-256.
[9] Bhatnagar S.Natural actor—critic algorithms[J].Automatica,2009,45(11): 2471-2482.
[10] Sutton R S.Learning to predict by the methods of temporal differences[J].Machine learning,1988,3(1):9-44.endprint
摘要:策略梯度函數(shù)是基于直接策略搜索的方法。它把策略參數(shù)化,并且估算優(yōu)化指標相對于策略參數(shù)的梯度,然后利用該梯度來調(diào)整這些參數(shù),最后可以獲得局部最優(yōu)或者局部最優(yōu)策略。所以這樣得到的策略可以是隨機性策略也可是確定性策略。通過自主開發(fā)的Gridworld策略梯度實驗平臺,對經(jīng)典GPOMDP、NAC和基于TD([λ])的策略梯度算法的收斂性能進行了對比分析。
關(guān)鍵詞:強化學習;策略梯度;收斂性;仿真實驗
中圖分類號:TP181 文獻標識碼:A 文章編號:1009-3044(2014)29-6937-05
Abstract:The classical gradient policy function is based on direct policy searching method, in which the policy is approximated with respect to the optimization of policy gradient parameters to get a local optimal strategy. GPOMDP, NAC and TD([λ]) experiments are simulated with Gridworld simulation platform. The converge benchmark shows the performance of TD([λ]) algorithm by help of value functions is superior to the others.
Key words: reinforcement learning; policy gradient; convergence; simulation experiments
強化學習可以分為基于值函數(shù)方法和策略梯度方法[1]。基于值函數(shù)的算法,不需要顯性表示學習客體(agent)的行為策略,而是通過不停地更新狀態(tài)動作對的累計期望回報來得到最優(yōu)值函數(shù)。在估計所得的最優(yōu)值函數(shù)基礎上,在整個狀態(tài)、動作空間內(nèi),使用貪心算法來確定當前狀態(tài)遷移時所需的最優(yōu)動作。
值函數(shù)方法常用于對確定性策略的求解過程中,對于隨機性策略的處理仍存在很大困難,比如在使用線性函數(shù)逼近器面對連續(xù)狀態(tài)、動作空間環(huán)境時不能保證收斂[2]。策略梯度方法需要顯式地表示策略函數(shù),并且能夠沿著策略梯度下降的方向持續(xù)改善和優(yōu)化策略函數(shù)的參數(shù)向量。該方法能夠最終逼近約束環(huán)境下的最優(yōu)解。相對于值函數(shù)方法,策略梯度方法能夠同時處理確定性策略和隨機性策略,并且在理論上能夠保證收斂。
策略[π]決定了Agent在當前環(huán)境狀態(tài)下對動作的選擇,動作選擇后Agent按照某種概率分布遷移到下一個狀態(tài)。環(huán)境的狀態(tài)轉(zhuǎn)移概率直接影響優(yōu)化指標[J]的計算,不同的[π]的值對應不同的[J]值,即優(yōu)化指標是一個關(guān)于[π]的函數(shù)。直接策略搜索方法就是調(diào)整其參數(shù),使得指標[J]達到最大。
NAC 策略梯度函數(shù)結(jié)果方差較大,并且收斂速度較慢,和原來的預期有一定的出入。
從圖上也可以看出,強化學習策略梯度的方法引入先驗知識的重要性。學習開始的時候累計回報波動劇烈,原因是按照隨機概率隨意選取策略導致學習初期的時間消耗較大, 并且Agent尚未探索到系統(tǒng)的的全部的觀測到整個系統(tǒng)情況。
參考文獻:
[1] Sutton R S,Barto A G.Reinforcement learning:An introduction[M].MIT press,1998.
[2] 王學寧.增強學習中的直接策略搜索方法綜述[J].智能系統(tǒng)學報,2007,2(1):16-24.
[3] Baxter J,Bartlett P L.Direct gradient-based reinforcement learning[J]. Circuits and Systems,The 2000 IEEE International Symposium,2000:271-274.
[4] 王學寧.策略梯度增強學習的理論、算法及應用研究[D].長沙:國防科學技術(shù)大學,2006.
[5] Amari S I.Natural gradient works efficiently in learning[J].Neural computation,1998,10(2):251-276.
[6] Peters J,Schaal S.Natural actor-critic[J].Neurocomputing,2008,71(7): 1180-1190.
[7] Sutton R S.Policy gradient methods for reinforcement learning with function approximation[M].NIPS,1999:1057—1063.
[8] Williams R J.Simple statistical gradient-following algorithms for connectionist reinforcement learning[J].Machine learning,1992,8(3-4):229-256.
[9] Bhatnagar S.Natural actor—critic algorithms[J].Automatica,2009,45(11): 2471-2482.
[10] Sutton R S.Learning to predict by the methods of temporal differences[J].Machine learning,1988,3(1):9-44.endprint