亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        監(jiān)督式強(qiáng)化學(xué)習(xí)在路徑規(guī)劃中的應(yīng)用研究

        2018-10-24 07:59:32曾紀(jì)鈞梁哲恒
        關(guān)鍵詞:動(dòng)作監(jiān)督模型

        曾紀(jì)鈞 梁哲恒

        (廣東電網(wǎng)有限責(zé)任公司信息中心 廣東 廣州 510080)(中國(guó)南方電網(wǎng)公司信息化評(píng)測(cè)重點(diǎn)實(shí)驗(yàn)室 廣東 廣州 510080)

        0 引 言

        機(jī)器學(xué)習(xí)算法可以分為監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)[1]。作為一種新興的機(jī)器學(xué)習(xí)算法,強(qiáng)化學(xué)習(xí)由于其具有無(wú)監(jiān)督的自適應(yīng)能力[2]、自我學(xué)習(xí)的特性,引起了學(xué)者的極大興趣。傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法有:Q學(xué)習(xí)算法、SARSA算法、Q(λ)、SARSA(λ)等[3-5]。

        強(qiáng)化學(xué)習(xí)的訓(xùn)練過(guò)程可以看成是智能體為實(shí)現(xiàn)目標(biāo)的探索過(guò)程,也是環(huán)境對(duì)智能體動(dòng)作的評(píng)價(jià)過(guò)程[3,6]。Agent根據(jù)自身策略以及狀態(tài)選擇動(dòng)作,環(huán)境根據(jù)智能體的行為進(jìn)行評(píng)價(jià),反饋給Agent獎(jiǎng)懲值。Agent根據(jù)獎(jiǎng)懲值優(yōu)化更新自身的知識(shí)庫(kù),并根據(jù)累計(jì)獎(jiǎng)勵(lì)值最大化的原則繼續(xù)選擇動(dòng)作,最終實(shí)現(xiàn)目標(biāo)[3]。由此可見(jiàn),Agent的訓(xùn)練是一個(gè)“動(dòng)作—評(píng)價(jià)—?jiǎng)幼鳌碧剿鞯倪^(guò)程,其為實(shí)現(xiàn)目標(biāo)必須要付出較大的計(jì)算代價(jià),會(huì)帶來(lái)訓(xùn)練收斂速度慢等系列問(wèn)題。

        相對(duì)而言,監(jiān)督式強(qiáng)化學(xué)習(xí)算法是一種結(jié)合導(dǎo)師監(jiān)督評(píng)價(jià)和強(qiáng)化學(xué)習(xí)主動(dòng)探索的方法。它結(jié)合了監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的優(yōu)點(diǎn),通過(guò)導(dǎo)師指導(dǎo)(監(jiān)督式學(xué)習(xí))降低Agent在前期學(xué)習(xí)探索過(guò)程的難度,通過(guò)強(qiáng)化學(xué)習(xí)的主動(dòng)探測(cè)不斷豐富Agent 的經(jīng)驗(yàn),最終實(shí)現(xiàn)系統(tǒng)的最優(yōu)控制,這就是監(jiān)督式強(qiáng)化學(xué)習(xí)的思想[7-8]。

        監(jiān)督式強(qiáng)化學(xué)習(xí)有三種途徑實(shí)現(xiàn)導(dǎo)師監(jiān)督:(1) 塑造成型(Shaping)。其主要思想是導(dǎo)師給出輔助回報(bào)函數(shù),參與強(qiáng)化學(xué)習(xí)模型中環(huán)境給予Agent的匯報(bào)。(2) 標(biāo)稱控制(Nominal control)。其主要思想是導(dǎo)師直接給出明確的控制信息。(3) 探索(Exploration),其主要思想是導(dǎo)師暗示那種控制可能是有效的[3,8-10]。

        本文介紹了強(qiáng)化學(xué)習(xí)模型和算法,提出了監(jiān)督式強(qiáng)化學(xué)習(xí)算法模型和算法,并將該算法應(yīng)用到機(jī)器人路徑規(guī)劃問(wèn)題當(dāng)中。通過(guò)實(shí)驗(yàn)對(duì)比分析顯示,監(jiān)督式強(qiáng)化學(xué)習(xí)能有效降低系統(tǒng)的訓(xùn)練次數(shù),提高機(jī)器人路徑規(guī)劃的智能化水平。

        1 監(jiān)督式強(qiáng)化學(xué)習(xí)算法

        1.1 強(qiáng)化學(xué)習(xí)模型

        強(qiáng)化學(xué)習(xí)的模型如圖1所示[3]。Agent與環(huán)境互動(dòng)并獲得環(huán)境獎(jiǎng)懲,根據(jù)環(huán)境給予的獎(jiǎng)勵(lì)不斷調(diào)整自身的策略,并最終學(xué)習(xí)到最優(yōu)策略。

        圖1 強(qiáng)化學(xué)習(xí)模型

        其典型的交互步驟如下所示:

        1) Agent在控制決策時(shí),根據(jù)自己的環(huán)境(狀態(tài)st)以及自身的控制策略π,采取相應(yīng)的動(dòng)作at。

        2) 由于Agent的動(dòng)作,其所屬的狀態(tài)發(fā)生了轉(zhuǎn)移,即實(shí)現(xiàn)st→st+1。

        3) Agent根據(jù)自身的狀態(tài)轉(zhuǎn)移,從外界獲得其動(dòng)作的評(píng)價(jià)(獎(jiǎng)懲rt+1)。

        4) Agent根據(jù)外界環(huán)境的評(píng)價(jià),更新自己的知識(shí)庫(kù)(Q表),為自己的下一步動(dòng)作做準(zhǔn)備。

        5) 回到第1步,Agent繼續(xù)做出決策,直到實(shí)現(xiàn)目標(biāo)。

        以上步驟為Agent的強(qiáng)化探索過(guò)程,當(dāng)知識(shí)庫(kù)(Q表)收斂時(shí),Agent將學(xué)習(xí)到完成任務(wù)的最優(yōu)策略π*。

        為實(shí)現(xiàn)Agent知識(shí)庫(kù)的可量化以及安全策略的可計(jì)算,定義“回報(bào)變量”Rt,用它來(lái)估算所有回報(bào)值和評(píng)價(jià)當(dāng)前動(dòng)作的好壞?;貓?bào)變量是指Agent從t時(shí)刻開(kāi)始所有獲得的所有獎(jiǎng)懲之和,其計(jì)算公式如下:

        (1)

        式中:0≤γ≤1,稱為折扣系數(shù)。

        由于Agent在同一狀態(tài)有多個(gè)動(dòng)作可以選擇,通過(guò)定義變量“狀態(tài)值函數(shù)”Vπ(s)代表Agent處于狀態(tài)s時(shí)的期望回報(bào)值:

        (2)

        因此,可以通過(guò)期望的“回報(bào)變量”Vπ(s)表示Agent處于狀態(tài)s的好壞程度。

        同理,可以定義“狀態(tài)-動(dòng)作值函數(shù)”Qπ(s,a),表示在狀態(tài)s,采取動(dòng)作a后所期望的回報(bào)值:

        Qπ(s,a)=Eπ{Rt|st=s,at=a}=

        (3)

        Vπ(s)、Qπ(s,a)和策略π緊密相關(guān),Agent根據(jù)它們的數(shù)值評(píng)價(jià)其所處狀態(tài)s或(s,a)的好壞,繼而選擇動(dòng)作a。Agent的典型選擇策略為:動(dòng)作a的選擇讓Agent在t時(shí)刻獲得“狀態(tài)-動(dòng)作值函數(shù)”Qπ(s,a)最大。

        由于強(qiáng)化學(xué)習(xí)離散模型的馬爾科夫性,容易得到:

        (4)

        由于式(4)對(duì)模型要求很高,需要根據(jù)模型的轉(zhuǎn)移概率才能計(jì)算出期望的狀態(tài)“回報(bào)值”Vπ(s),我們希望得到一個(gè)與模型無(wú)關(guān)的算法。利用平均的“回報(bào)值”來(lái)逼近Vπ(s):設(shè)第k-1次訓(xùn)練中,狀態(tài)的“回報(bào)值”為Rk-1,那么在第k次訓(xùn)練中,狀態(tài)s的“值函數(shù)”為:

        (5)

        根據(jù)式(5),得到相應(yīng)的對(duì)應(yīng)的“動(dòng)作-狀態(tài)值函數(shù)”:

        (6)

        1.2 監(jiān)督式強(qiáng)化學(xué)習(xí)算法

        由于強(qiáng)化學(xué)習(xí)最初的訓(xùn)練是隨機(jī)探索,這必然會(huì)帶來(lái)收斂慢的問(wèn)題。監(jiān)督式強(qiáng)化學(xué)習(xí)結(jié)合了監(jiān)督學(xué)習(xí)導(dǎo)師的指導(dǎo)和強(qiáng)化學(xué)習(xí)自我學(xué)習(xí)的特性,在強(qiáng)化學(xué)習(xí)的基礎(chǔ)上引入了導(dǎo)師Supervisor的經(jīng)驗(yàn),在Agent的探索過(guò)程中加入導(dǎo)師的監(jiān)督指導(dǎo),賦予Agent的先驗(yàn)知識(shí),加快Agent尋找最優(yōu)解的過(guò)程。監(jiān)督式強(qiáng)化學(xué)習(xí)算法模型如圖2所示[8,11]。

        圖2 監(jiān)督式強(qiáng)化學(xué)習(xí)模型

        監(jiān)督式強(qiáng)化學(xué)習(xí)的動(dòng)作更新策略如下所示,

        a=kaE+(1-k)aS

        (7)

        式中:aE代表強(qiáng)化學(xué)習(xí)選擇的動(dòng)作;aS代表監(jiān)督學(xué)習(xí)選擇的動(dòng)作;k為0~1線性增加的權(quán)重系數(shù)。在初始時(shí)刻,aS的權(quán)重較大,機(jī)器人主要依靠監(jiān)督學(xué)習(xí)選擇動(dòng)作。多次訓(xùn)練之后,aS的權(quán)重逐漸降低,并最終退出動(dòng)作a的決策過(guò)程,此時(shí)機(jī)器人依靠強(qiáng)化學(xué)習(xí)選擇動(dòng)作。監(jiān)督學(xué)習(xí)的動(dòng)作aS可以通過(guò)多種方式得到,常用的是PID控制器、決策樹(shù)、神經(jīng)網(wǎng)絡(luò)控制器等[12]。

        k的遞增方式及遞增速度對(duì)監(jiān)督式強(qiáng)化學(xué)習(xí)的訓(xùn)練過(guò)程有較大影響。增長(zhǎng)過(guò)快,起到的指導(dǎo)作用不明顯;增長(zhǎng)過(guò)慢,在有限次的訓(xùn)練過(guò)程當(dāng)中會(huì)對(duì)強(qiáng)化學(xué)習(xí)起到誤導(dǎo)作用。

        2 實(shí)驗(yàn)設(shè)計(jì)

        本文將監(jiān)督式強(qiáng)化學(xué)習(xí)算法應(yīng)用到機(jī)器人路徑規(guī)劃當(dāng)中來(lái)說(shuō)明監(jiān)督式強(qiáng)化學(xué)習(xí)的效果。機(jī)器人所處的物理環(huán)境為40×40的方格地圖,如圖3所示。

        圖3 機(jī)器人路徑規(guī)劃地圖

        機(jī)器人需要從起點(diǎn)(6,35)走到終點(diǎn)(36,6),每次只能行走一格,方向?yàn)闁|南西北四個(gè)方向之一。如何規(guī)劃?rùn)C(jī)器人行走的路徑,讓機(jī)器人能夠以最少的步數(shù)達(dá)到目標(biāo)點(diǎn)是監(jiān)督式強(qiáng)化學(xué)習(xí)算法需要解決的問(wèn)題。

        設(shè)計(jì)機(jī)器人在未達(dá)到終點(diǎn)時(shí),每一步的轉(zhuǎn)移得到的獎(jiǎng)勵(lì)值r=-1,到達(dá)目標(biāo)點(diǎn)時(shí)的獎(jiǎng)勵(lì)值,γ=0.9,α=0.9,機(jī)器人訓(xùn)練的次數(shù)為step=1 000,監(jiān)督學(xué)習(xí)權(quán)重增長(zhǎng)公式為:

        k=k+Δ

        (8)

        為了比較實(shí)驗(yàn)結(jié)果,我們讓?duì)と?.01、0.003 3、0.002 5三個(gè)值。

        我們通過(guò)Q學(xué)習(xí)算法來(lái)得到aE,通過(guò)P控制器算法來(lái)選擇aS。首先將aE和aS單位化,然后采用式(7)以及向量合成法(如圖4所示)計(jì)算動(dòng)作a。

        圖4 機(jī)器人動(dòng)作選擇

        由于a的方向未必是東南西北四個(gè)方向之一,我們采取就近原則,將其規(guī)整到最近的四個(gè)方向之一上。

        我們定義算法的性能指標(biāo)函數(shù)(平均的搜索步數(shù)):

        (9)

        式中:counter(i)為第i訓(xùn)練時(shí),從起始點(diǎn)到目標(biāo)點(diǎn)所需要的步數(shù)。step為訓(xùn)練的次數(shù)。

        3 實(shí)驗(yàn)結(jié)果與分析

        強(qiáng)化學(xué)習(xí)算法和監(jiān)督式強(qiáng)化學(xué)習(xí)得出的結(jié)果分別如圖5、圖6所示。機(jī)器人均以最優(yōu)的步數(shù)收斂到了目標(biāo)點(diǎn)。

        圖5 強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn)的路徑規(guī)劃

        圖6 監(jiān)督式強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn)的路徑規(guī)劃

        強(qiáng)化學(xué)習(xí)、監(jiān)督式強(qiáng)化學(xué)習(xí)迭代的步數(shù),如圖7-圖10所示。

        圖7 強(qiáng)化學(xué)習(xí)算法得到的迭代步數(shù)

        圖8 監(jiān)督式強(qiáng)化學(xué)習(xí)算法得到的迭代步數(shù)(Δ=0.01)

        圖9 監(jiān)督式強(qiáng)化學(xué)習(xí)算法得到的迭代步數(shù)(Δ=0.003 3)

        圖10 監(jiān)督式強(qiáng)化學(xué)習(xí)算法得到的迭代步數(shù)(Δ=0.002 5)

        可以看出,強(qiáng)化學(xué)習(xí)在前50次訓(xùn)練當(dāng)中,Agent需要搜索多次才能找到目標(biāo)點(diǎn)。經(jīng)過(guò)計(jì)算它的平均搜索次數(shù)為200.638。當(dāng)Δ=0.01時(shí),即監(jiān)督學(xué)習(xí)只在前100訓(xùn)練當(dāng)中指導(dǎo)Agent尋找目標(biāo),它的平均搜索次數(shù)為150.158;Δ=0.003 3時(shí),它的平均搜索次數(shù)為98.974;Δ=0.002 5時(shí),它的平均搜索次數(shù)為76.064。

        從得到的數(shù)據(jù)來(lái)看,監(jiān)督學(xué)習(xí)能夠極大的提高Agent的搜索效率:強(qiáng)化學(xué)習(xí)在550次訓(xùn)練之后會(huì)以較穩(wěn)定的步數(shù)找到目標(biāo)點(diǎn),而在Δ取0.01、0.003 3、0.002 5時(shí),監(jiān)督強(qiáng)化學(xué)習(xí)的訓(xùn)練次數(shù)分別為:400、250、300。但并不是監(jiān)督學(xué)習(xí)加得越多越好,監(jiān)督學(xué)習(xí)一旦撤銷,強(qiáng)化學(xué)習(xí)在短時(shí)間內(nèi)會(huì)出現(xiàn)短暫的震蕩。比如當(dāng)Δ=0.002 5時(shí),Agent在第300次以及第540次出現(xiàn)了震蕩比較大的情況。當(dāng)Δ=0.003 3時(shí),監(jiān)督強(qiáng)化學(xué)習(xí)的收斂性是比較好的。

        4 結(jié) 語(yǔ)

        本文針對(duì)機(jī)器人的路徑規(guī)劃問(wèn)題,提出了基于標(biāo)稱控制的監(jiān)督式強(qiáng)化學(xué)習(xí)算法。實(shí)驗(yàn)結(jié)果表明:當(dāng)監(jiān)督式強(qiáng)化學(xué)習(xí)的導(dǎo)師信息正確時(shí),其能顯著提高機(jī)器人的智能化水平,使機(jī)器人快速找到目標(biāo)點(diǎn);當(dāng)導(dǎo)師信息給得太多,也容易出現(xiàn)對(duì)Agent的干擾,具體表現(xiàn)為

        機(jī)器人的搜索目標(biāo)步驟出現(xiàn)震蕩。盡管如此,機(jī)器人仍在導(dǎo)師信息弱化時(shí)迅速找到實(shí)現(xiàn)目標(biāo)的最優(yōu)策略。

        猜你喜歡
        動(dòng)作監(jiān)督模型
        一半模型
        重要模型『一線三等角』
        突出“四個(gè)注重” 預(yù)算監(jiān)督顯實(shí)效
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        動(dòng)作描寫要具體
        監(jiān)督見(jiàn)成效 舊貌換新顏
        畫動(dòng)作
        動(dòng)作描寫不可少
        夯實(shí)監(jiān)督之基
        3D打印中的模型分割與打包
        久久99精品久久久久九色| 97碰碰碰人妻无码视频| 午夜无码国产理论在线| 国产乱淫视频| 蜜臀av人妻一区二区三区| 亚洲日本人妻少妇中文字幕| 亚洲乱码国产乱码精品精| 亚洲女人被黑人巨大进入| 国产精品久久无码免费看| 99伊人久久精品亚洲午夜| 国产中文三级全黄| 日韩内射美女人妻一区二区三区 | 亚洲av日韩专区在线观看| 日韩AV无码一区二区三| 一本色道久久88综合| 中文字幕乱码亚洲无限码| 亚洲av无码久久精品蜜桃| 日本欧美在线播放| 蜜桃视频网站在线免费观看| 国产精品亚洲第一区二区三区 | 亚洲国产一区二区三区,| 亚洲精品偷拍自综合网| 国产精品人妻一码二码| 亚洲欧美日韩国产色另类| 日本熟女人妻一区二区三区| 成人性生交大片免费入口| 男女车车的车车网站w98免费| 欧洲亚洲视频免费| 97久久综合精品国产丝袜长腿| 国产一区二区三区小说| 天天躁日日躁狠狠躁av中文| 国产午夜精品久久久久| 一区二区三区午夜视频在线 | 亚洲av无码国产精品色软件下戴 | 四虎影视国产在线观看精品| 手机av在线观看视频| 亚洲av无码精品无码麻豆| 亚洲国产无套无码av电影| 国产国拍亚洲精品永久69| 亚洲精品女同一区二区三区| 中文字幕aⅴ人妻一区二区|