亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于強(qiáng)化學(xué)習(xí)的值迭代算法

2014-12-05 03:05:50崔軍曉等

電腦知識(shí)與技術(shù) 2014年31期

崔軍曉等

摘要：強(qiáng)化學(xué)習(xí)（Reinforcement Learning）是學(xué)習(xí)環(huán)境狀態(tài)到動(dòng)作的一種映射，并且能夠獲得最大的獎(jiǎng)賞信號(hào)。強(qiáng)化學(xué)習(xí)中有三種方法可以實(shí)現(xiàn)回報(bào)的最大化：值迭代、策略迭代、策略搜索。該文介紹了強(qiáng)化學(xué)習(xí)的原理、算法，并對(duì)有環(huán)境模型和無環(huán)境模型的離散空間值迭代算法進(jìn)行研究，并且把該算法用于固定起點(diǎn)和隨機(jī)起點(diǎn)的格子世界問題。實(shí)驗(yàn)結(jié)果表明，相比策略迭代算法，該算法收斂速度快，實(shí)驗(yàn)精度好。

關(guān)鍵詞：強(qiáng)化學(xué)習(xí)；值迭代；格子世界

中圖分類號(hào)：TP181 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1009-3044（2014）31-7348-03

Abstract： Reinforcement learning is learning how to map situations to actions and get the maximize reward signal. In reinforcement learning， there are three methods that can maximize the cumulative reward. They are value iteration， policy iteration and policy search. In this paper， we survey the foundation and algorithms of reinforcement learning ， research about model-based value iteration and model-free value iteration and use this algorithms to solve the fixed starting point and random fixed starting point Gridworld problem. Experimental result on Gridworld show that the algorithm has faster convergence rate and better convergence performance than policy iteration.

Key words： reinforcement learning； value Iteration；Gridworld

強(qiáng)化學(xué)習(xí)可以解決自動(dòng)控制，人工智能，運(yùn)籌學(xué)等領(lǐng)域方面的各種問題。其中自動(dòng)控制和人工智能是強(qiáng)化學(xué)習(xí)的重要發(fā)源地。在自動(dòng)控制領(lǐng)域中，強(qiáng)化學(xué)習(xí)用于自適應(yīng)的最優(yōu)控制問題。在人工智能領(lǐng)域中，強(qiáng)化學(xué)習(xí)用于協(xié)助構(gòu)建人工agent，可以在未被構(gòu)建的未知環(huán)境中找到最優(yōu)化的行為。

我們在這里對(duì)強(qiáng)化學(xué)習(xí)的值迭代算法進(jìn)行研究，并以格子世界為例將該算法進(jìn)行實(shí)際運(yùn)用，以此表現(xiàn)出該算法的優(yōu)勢。

如圖 1所示，agent做出了一個(gè)動(dòng)作，環(huán)境對(duì)agent做出的動(dòng)作產(chǎn)生回應(yīng)，從而改變了agent的狀態(tài)并且對(duì)agent給出一定的獎(jiǎng)賞。在每個(gè)時(shí)間步中，agent都要實(shí)現(xiàn)從狀態(tài)到每一個(gè)可能選到的動(dòng)作的映射。這個(gè)映射就是agent的策略。

3 離散空間實(shí)驗(yàn)結(jié)果分析

現(xiàn)在來用基于模型的值迭代算法解決格子世界問題。將算法1直接運(yùn)用在格子世界問題上。設(shè)定初始狀態(tài)的狀態(tài)值函數(shù)全部為0，折扣因子[γ]為0.5。對(duì)應(yīng)的值迭代結(jié)果如圖3所示，策略如圖4所示。

圖3每一步迭代的策略由圖4表示，同時(shí)也是策略改進(jìn)圖像。根據(jù)值函數(shù)估計(jì)值得到的貪心策略的序列。箭頭表示該狀態(tài)中能取得最大值的動(dòng)作。通過圖4可得第五輪迭代和第六輪迭代的策略已經(jīng)相同，此時(shí)策略為最優(yōu)策略。

[V6]，[V7]時(shí)所有狀態(tài)的值函數(shù)均已經(jīng)相同，可以認(rèn)為已經(jīng)收斂。從圖4可以得出經(jīng)過多次迭代，策略從無序到有序，最終達(dá)到最優(yōu)策略，通過值迭代得到的最終策略是正確的。

4 小結(jié)

本文簡易介紹了強(qiáng)化學(xué)習(xí)基本概念，并說明如何使用強(qiáng)化學(xué)習(xí)值迭代方法在離散空間中找到最優(yōu)策略。在離散空間中，若模型已知，可以使用動(dòng)態(tài)規(guī)劃的方法，通過策略評(píng)估和策略改進(jìn)的迭代求出值函數(shù)和最優(yōu)策略。策略評(píng)估和策略改進(jìn)的迭代方式不同可以將動(dòng)態(tài)規(guī)劃分為值迭代和策略迭代。該文通過格子世界的實(shí)驗(yàn)，驗(yàn)證了值迭代的高效收斂性，彌補(bǔ)了策略迭代的不足。

參考文獻(xiàn)：

[1] Barto A G.Reinforcement learning： An introduction[M].MIT press，1998.

[2] Busoniu L，Babuska R，De Schutter B，et al.Reinforcement learning and dynamic programming using function approximators[M].CRC Press，2010.

[3] Singh S， Jaakkola T，Littman M L，et al.Convergence results for single-step on-policy reinforcement-learning algorithms[J].Machine Learning，2000，38（3）：287-308.

[4] Boyan J A.Technical update： Least-squares temporal difference learning[J].Machine Learning，2002，49（2-3）：233-246.

[5] Singh S P，Sutton R S.Reinforcement learning with replacing eligibility traces[J].Machine learning， 1996，22（1-3）： 123-158.

[6] Barto A G，Sutton R S，Watkins C J C H.Learning and sequential decision making [M]//Gabriel M，Moore J W.Learning and computational neuroscience： Foundations of adaptive networks.Cambridge，MA：MIT Press， 1989.

[7] 陳浩.基于強(qiáng)化學(xué)習(xí)的蟻群聚類研究及應(yīng)用[D].蘇州：蘇州大學(xué)， 2011.

[8] 高陽，陳世福，陸鑫.強(qiáng)化學(xué)習(xí)研究綜述[J].自動(dòng)化學(xué)報(bào)，2004， 30（1）： 86-100.

電腦知識(shí)與技術(shù)2014年31期

電腦知識(shí)與技術(shù)的其它文章: 基于服務(wù)調(diào)度的微信公眾平臺(tái)開發(fā)架構(gòu)設(shè)計(jì)與實(shí)現(xiàn); 移動(dòng)支付應(yīng)用：基于NFC的校園網(wǎng)上訂餐系統(tǒng); 微信公眾平臺(tái)及其在護(hù)理期刊中的應(yīng)用研究; 高校檔案信息數(shù)字化建設(shè)探析; 3D交互式U型管換熱器拆裝實(shí)驗(yàn)平臺(tái)建立研究; 一種實(shí)現(xiàn)π/4—DQPSK調(diào)制器的方法