亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        幾種經(jīng)典的策略梯度算法性能對比

        2014-11-07 05:00:07王輝于婧
        電腦知識與技術(shù) 2014年29期

        王輝 于婧

        摘要:策略梯度函數(shù)是基于直接策略搜索的方法。它把策略參數(shù)化,并且估算優(yōu)化指標相對于策略參數(shù)的梯度,然后利用該梯度來調(diào)整這些參數(shù),最后可以獲得局部最優(yōu)或者局部最優(yōu)策略。所以這樣得到的策略可以是隨機性策略也可是確定性策略。通過自主開發(fā)的Gridworld策略梯度實驗平臺,對經(jīng)典GPOMDP、NAC和基于TD([λ])的策略梯度算法的收斂性能進行了對比分析。

        關(guān)鍵詞:強化學習;策略梯度;收斂性;仿真實驗

        中圖分類號:TP181 文獻標識碼:A 文章編號:1009-3044(2014)29-6937-05

        Abstract:The classical gradient policy function is based on direct policy searching method, in which the policy is approximated with respect to the optimization of policy gradient parameters to get a local optimal strategy. GPOMDP, NAC and TD([λ]) experiments are simulated with Gridworld simulation platform. The converge benchmark shows the performance of TD([λ]) algorithm by help of value functions is superior to the others.

        Key words: reinforcement learning; policy gradient; convergence; simulation experiments

        強化學習可以分為基于值函數(shù)方法和策略梯度方法[1]。基于值函數(shù)的算法,不需要顯性表示學習客體(agent)的行為策略,而是通過不停地更新狀態(tài)動作對的累計期望回報來得到最優(yōu)值函數(shù)。在估計所得的最優(yōu)值函數(shù)基礎上,在整個狀態(tài)、動作空間內(nèi),使用貪心算法來確定當前狀態(tài)遷移時所需的最優(yōu)動作。

        值函數(shù)方法常用于對確定性策略的求解過程中,對于隨機性策略的處理仍存在很大困難,比如在使用線性函數(shù)逼近器面對連續(xù)狀態(tài)、動作空間環(huán)境時不能保證收斂[2]。策略梯度方法需要顯式地表示策略函數(shù),并且能夠沿著策略梯度下降的方向持續(xù)改善和優(yōu)化策略函數(shù)的參數(shù)向量。該方法能夠最終逼近約束環(huán)境下的最優(yōu)解。相對于值函數(shù)方法,策略梯度方法能夠同時處理確定性策略和隨機性策略,并且在理論上能夠保證收斂。

        策略[π]決定了Agent在當前環(huán)境狀態(tài)下對動作的選擇,動作選擇后Agent按照某種概率分布遷移到下一個狀態(tài)。環(huán)境的狀態(tài)轉(zhuǎn)移概率直接影響優(yōu)化指標[J]的計算,不同的[π]的值對應不同的[J]值,即優(yōu)化指標是一個關(guān)于[π]的函數(shù)。直接策略搜索方法就是調(diào)整其參數(shù),使得指標[J]達到最大。

        NAC 策略梯度函數(shù)結(jié)果方差較大,并且收斂速度較慢,和原來的預期有一定的出入。

        從圖上也可以看出,強化學習策略梯度的方法引入先驗知識的重要性。學習開始的時候累計回報波動劇烈,原因是按照隨機概率隨意選取策略導致學習初期的時間消耗較大, 并且Agent尚未探索到系統(tǒng)的的全部的觀測到整個系統(tǒng)情況。

        參考文獻:

        [1] Sutton R S,Barto A G.Reinforcement learning:An introduction[M].MIT press,1998.

        [2] 王學寧.增強學習中的直接策略搜索方法綜述[J].智能系統(tǒng)學報,2007,2(1):16-24.

        [3] Baxter J,Bartlett P L.Direct gradient-based reinforcement learning[J]. Circuits and Systems,The 2000 IEEE International Symposium,2000:271-274.

        [4] 王學寧.策略梯度增強學習的理論、算法及應用研究[D].長沙:國防科學技術(shù)大學,2006.

        [5] Amari S I.Natural gradient works efficiently in learning[J].Neural computation,1998,10(2):251-276.

        [6] Peters J,Schaal S.Natural actor-critic[J].Neurocomputing,2008,71(7): 1180-1190.

        [7] Sutton R S.Policy gradient methods for reinforcement learning with function approximation[M].NIPS,1999:1057—1063.

        [8] Williams R J.Simple statistical gradient-following algorithms for connectionist reinforcement learning[J].Machine learning,1992,8(3-4):229-256.

        [9] Bhatnagar S.Natural actor—critic algorithms[J].Automatica,2009,45(11): 2471-2482.

        [10] Sutton R S.Learning to predict by the methods of temporal differences[J].Machine learning,1988,3(1):9-44.endprint

        摘要:策略梯度函數(shù)是基于直接策略搜索的方法。它把策略參數(shù)化,并且估算優(yōu)化指標相對于策略參數(shù)的梯度,然后利用該梯度來調(diào)整這些參數(shù),最后可以獲得局部最優(yōu)或者局部最優(yōu)策略。所以這樣得到的策略可以是隨機性策略也可是確定性策略。通過自主開發(fā)的Gridworld策略梯度實驗平臺,對經(jīng)典GPOMDP、NAC和基于TD([λ])的策略梯度算法的收斂性能進行了對比分析。

        關(guān)鍵詞:強化學習;策略梯度;收斂性;仿真實驗

        中圖分類號:TP181 文獻標識碼:A 文章編號:1009-3044(2014)29-6937-05

        Abstract:The classical gradient policy function is based on direct policy searching method, in which the policy is approximated with respect to the optimization of policy gradient parameters to get a local optimal strategy. GPOMDP, NAC and TD([λ]) experiments are simulated with Gridworld simulation platform. The converge benchmark shows the performance of TD([λ]) algorithm by help of value functions is superior to the others.

        Key words: reinforcement learning; policy gradient; convergence; simulation experiments

        強化學習可以分為基于值函數(shù)方法和策略梯度方法[1]?;谥岛瘮?shù)的算法,不需要顯性表示學習客體(agent)的行為策略,而是通過不停地更新狀態(tài)動作對的累計期望回報來得到最優(yōu)值函數(shù)。在估計所得的最優(yōu)值函數(shù)基礎上,在整個狀態(tài)、動作空間內(nèi),使用貪心算法來確定當前狀態(tài)遷移時所需的最優(yōu)動作。

        值函數(shù)方法常用于對確定性策略的求解過程中,對于隨機性策略的處理仍存在很大困難,比如在使用線性函數(shù)逼近器面對連續(xù)狀態(tài)、動作空間環(huán)境時不能保證收斂[2]。策略梯度方法需要顯式地表示策略函數(shù),并且能夠沿著策略梯度下降的方向持續(xù)改善和優(yōu)化策略函數(shù)的參數(shù)向量。該方法能夠最終逼近約束環(huán)境下的最優(yōu)解。相對于值函數(shù)方法,策略梯度方法能夠同時處理確定性策略和隨機性策略,并且在理論上能夠保證收斂。

        策略[π]決定了Agent在當前環(huán)境狀態(tài)下對動作的選擇,動作選擇后Agent按照某種概率分布遷移到下一個狀態(tài)。環(huán)境的狀態(tài)轉(zhuǎn)移概率直接影響優(yōu)化指標[J]的計算,不同的[π]的值對應不同的[J]值,即優(yōu)化指標是一個關(guān)于[π]的函數(shù)。直接策略搜索方法就是調(diào)整其參數(shù),使得指標[J]達到最大。

        NAC 策略梯度函數(shù)結(jié)果方差較大,并且收斂速度較慢,和原來的預期有一定的出入。

        從圖上也可以看出,強化學習策略梯度的方法引入先驗知識的重要性。學習開始的時候累計回報波動劇烈,原因是按照隨機概率隨意選取策略導致學習初期的時間消耗較大, 并且Agent尚未探索到系統(tǒng)的的全部的觀測到整個系統(tǒng)情況。

        參考文獻:

        [1] Sutton R S,Barto A G.Reinforcement learning:An introduction[M].MIT press,1998.

        [2] 王學寧.增強學習中的直接策略搜索方法綜述[J].智能系統(tǒng)學報,2007,2(1):16-24.

        [3] Baxter J,Bartlett P L.Direct gradient-based reinforcement learning[J]. Circuits and Systems,The 2000 IEEE International Symposium,2000:271-274.

        [4] 王學寧.策略梯度增強學習的理論、算法及應用研究[D].長沙:國防科學技術(shù)大學,2006.

        [5] Amari S I.Natural gradient works efficiently in learning[J].Neural computation,1998,10(2):251-276.

        [6] Peters J,Schaal S.Natural actor-critic[J].Neurocomputing,2008,71(7): 1180-1190.

        [7] Sutton R S.Policy gradient methods for reinforcement learning with function approximation[M].NIPS,1999:1057—1063.

        [8] Williams R J.Simple statistical gradient-following algorithms for connectionist reinforcement learning[J].Machine learning,1992,8(3-4):229-256.

        [9] Bhatnagar S.Natural actor—critic algorithms[J].Automatica,2009,45(11): 2471-2482.

        [10] Sutton R S.Learning to predict by the methods of temporal differences[J].Machine learning,1988,3(1):9-44.endprint

        摘要:策略梯度函數(shù)是基于直接策略搜索的方法。它把策略參數(shù)化,并且估算優(yōu)化指標相對于策略參數(shù)的梯度,然后利用該梯度來調(diào)整這些參數(shù),最后可以獲得局部最優(yōu)或者局部最優(yōu)策略。所以這樣得到的策略可以是隨機性策略也可是確定性策略。通過自主開發(fā)的Gridworld策略梯度實驗平臺,對經(jīng)典GPOMDP、NAC和基于TD([λ])的策略梯度算法的收斂性能進行了對比分析。

        關(guān)鍵詞:強化學習;策略梯度;收斂性;仿真實驗

        中圖分類號:TP181 文獻標識碼:A 文章編號:1009-3044(2014)29-6937-05

        Abstract:The classical gradient policy function is based on direct policy searching method, in which the policy is approximated with respect to the optimization of policy gradient parameters to get a local optimal strategy. GPOMDP, NAC and TD([λ]) experiments are simulated with Gridworld simulation platform. The converge benchmark shows the performance of TD([λ]) algorithm by help of value functions is superior to the others.

        Key words: reinforcement learning; policy gradient; convergence; simulation experiments

        強化學習可以分為基于值函數(shù)方法和策略梯度方法[1]。基于值函數(shù)的算法,不需要顯性表示學習客體(agent)的行為策略,而是通過不停地更新狀態(tài)動作對的累計期望回報來得到最優(yōu)值函數(shù)。在估計所得的最優(yōu)值函數(shù)基礎上,在整個狀態(tài)、動作空間內(nèi),使用貪心算法來確定當前狀態(tài)遷移時所需的最優(yōu)動作。

        值函數(shù)方法常用于對確定性策略的求解過程中,對于隨機性策略的處理仍存在很大困難,比如在使用線性函數(shù)逼近器面對連續(xù)狀態(tài)、動作空間環(huán)境時不能保證收斂[2]。策略梯度方法需要顯式地表示策略函數(shù),并且能夠沿著策略梯度下降的方向持續(xù)改善和優(yōu)化策略函數(shù)的參數(shù)向量。該方法能夠最終逼近約束環(huán)境下的最優(yōu)解。相對于值函數(shù)方法,策略梯度方法能夠同時處理確定性策略和隨機性策略,并且在理論上能夠保證收斂。

        策略[π]決定了Agent在當前環(huán)境狀態(tài)下對動作的選擇,動作選擇后Agent按照某種概率分布遷移到下一個狀態(tài)。環(huán)境的狀態(tài)轉(zhuǎn)移概率直接影響優(yōu)化指標[J]的計算,不同的[π]的值對應不同的[J]值,即優(yōu)化指標是一個關(guān)于[π]的函數(shù)。直接策略搜索方法就是調(diào)整其參數(shù),使得指標[J]達到最大。

        NAC 策略梯度函數(shù)結(jié)果方差較大,并且收斂速度較慢,和原來的預期有一定的出入。

        從圖上也可以看出,強化學習策略梯度的方法引入先驗知識的重要性。學習開始的時候累計回報波動劇烈,原因是按照隨機概率隨意選取策略導致學習初期的時間消耗較大, 并且Agent尚未探索到系統(tǒng)的的全部的觀測到整個系統(tǒng)情況。

        參考文獻:

        [1] Sutton R S,Barto A G.Reinforcement learning:An introduction[M].MIT press,1998.

        [2] 王學寧.增強學習中的直接策略搜索方法綜述[J].智能系統(tǒng)學報,2007,2(1):16-24.

        [3] Baxter J,Bartlett P L.Direct gradient-based reinforcement learning[J]. Circuits and Systems,The 2000 IEEE International Symposium,2000:271-274.

        [4] 王學寧.策略梯度增強學習的理論、算法及應用研究[D].長沙:國防科學技術(shù)大學,2006.

        [5] Amari S I.Natural gradient works efficiently in learning[J].Neural computation,1998,10(2):251-276.

        [6] Peters J,Schaal S.Natural actor-critic[J].Neurocomputing,2008,71(7): 1180-1190.

        [7] Sutton R S.Policy gradient methods for reinforcement learning with function approximation[M].NIPS,1999:1057—1063.

        [8] Williams R J.Simple statistical gradient-following algorithms for connectionist reinforcement learning[J].Machine learning,1992,8(3-4):229-256.

        [9] Bhatnagar S.Natural actor—critic algorithms[J].Automatica,2009,45(11): 2471-2482.

        [10] Sutton R S.Learning to predict by the methods of temporal differences[J].Machine learning,1988,3(1):9-44.endprint

        国产丝袜在线福利观看| 亚洲精品美女自拍偷拍| 久久精品国产99精品九九 | 国产小屁孩cao大人| 精品无码成人片一区二区| 久久久亚洲欧洲日产国码是AV| 亚洲中文字幕熟女五十| 丰满熟女人妻一区二区三区| 亚洲第一页视频在线观看| 草莓视频中文字幕人妻系列| 精选二区在线观看视频| 日本高清成人一区二区三区| 国产极品大奶在线视频| 亚洲av成人一区二区三区本码| 肥老熟妇伦子伦456视频| 小sao货水好多真紧h无码视频| 精品人妻人人做人人爽| 狠狠爱无码一区二区三区| 无码日日模日日碰夜夜爽| 青青草视频在线免费观看91| 色狠狠一区二区三区中文| 国产午夜福利精品一区二区三区| 亚洲人成网站18禁止久久影院| 亚洲精品久久久久久| 人妻无码aⅴ中文系列久久免费| 国产精品伦人视频免费看| 一级内射免费观看视频| 精品人妖一区二区三区四区| 免费看男女做羞羞的事网站| 熟女熟妇伦av网站| 国产一级大片免费看| 九九99久久精品在免费线97| 亚洲男人在线天堂av| 免费毛儿一区二区十八岁| 久久精品人妻无码一区二区三区| 国产成人精品精品欧美| 日本一区二区三区中文字幕视频 | 国产精品片211在线观看| 少妇bbwbbw高潮| 在线高清亚洲精品二区| 国产精品久久免费中文字幕|