亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于兩層模糊劃分的時間差分算法

        2013-10-29 08:26:00穆翔劉全傅啟明孫洪坤周鑫
        通信學(xué)報 2013年10期
        關(guān)鍵詞:模糊集硬質(zhì)規(guī)則

        穆翔,劉全,2,傅啟明,孫洪坤,周鑫

        (1. 蘇州大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006;2. 吉林大學(xué) 符號計算與知識工程教育部重點實驗室,吉林 長春 130012)

        1 引言

        強化學(xué)習(xí)(RL, reinforcement learning)是一種通過agent與環(huán)境進行交互學(xué)習(xí),以獲得最大累計獎賞值的機器學(xué)習(xí)方法[1,2]。通常基于馬爾科夫決策過程(MDP, Markov decision process)來定義強化學(xué)習(xí)問題的一般框架。當強化學(xué)習(xí)問題滿足MDP框架時,可以采用諸如動態(tài)規(guī)劃(DP, dynamic programming)、蒙特卡羅(MC, Monte Carlo)和時間差分(TD,temporal difference)等類型的算法求解最優(yōu)行為策略。

        傳統(tǒng)的強化學(xué)習(xí)方法一般用于求解小空間或離散空間的問題[1]。通過查詢表(lookup-table)存儲所有的狀態(tài)或者狀態(tài)動作對所對應(yīng)的值函數(shù),在學(xué)習(xí)過程中不斷地修改表項的值直至收斂,最終求得問題的最優(yōu)行為策略。這類方法雖然能夠有效地解決一些簡單的任務(wù),但不適用于求解大空間或連續(xù)空間的問題。目前解決此類問題最常用的方法是將函數(shù)逼近與強化學(xué)習(xí)算法相結(jié)合。通過采用帶有一組參數(shù)的近似函數(shù)來描述強化學(xué)習(xí)中的值函數(shù),使學(xué)習(xí)到的經(jīng)驗信息能夠從狀態(tài)空間子集泛化至整個狀態(tài)空間。Agent根據(jù)此近似函數(shù)選擇最優(yōu)動作序列[2~4]。當前已有多種函數(shù)逼近方法應(yīng)用于強化學(xué)習(xí)問題。SUTTON等人于 2009年提出了梯度TD(GTD, gradient TD)學(xué)習(xí)算法,該算法將TD學(xué)習(xí)算法與線性函數(shù)逼近相結(jié)合,同時引入一個與Bellman誤差相關(guān)的新的目標函數(shù)[5]。SHERSTOV等人于2005年提出一種基于在線自適應(yīng)Tile-Coding編碼的線性函數(shù)逼近算法,通過實驗驗證了算法的有效性[6]。HEINEN等人于2010年提出利用增量式概率神經(jīng)網(wǎng)絡(luò)來逼近強化學(xué)習(xí)問題的值函數(shù),可以較好地求解連續(xù)狀態(tài)空間的問題[7]。

        上文所述及目前常見的基于函數(shù)逼近的強化學(xué)習(xí)算法通常收斂速度較慢,而且一般只能用于求解離散行為策略[5~8]。基于模糊推理系統(tǒng)(FIS, fuzzy inference system)的強化學(xué)習(xí)算法通過引入先驗知識,不僅可以有效地加快求解連續(xù)空間問題時的收斂速度,還能獲得連續(xù)行為策略[9,10]。TADASHI等人提出了模糊插值Q學(xué)習(xí)算法,可以用于求解連續(xù)空間問題,但算法的性能較依賴于先驗知識[11]。GLORENNEC和JOUFFE將FIS與Q學(xué)習(xí)算法相結(jié)合,利用先驗知識并構(gòu)造全局近似器,有效地加快了收斂速度,但該算法不能用于求解連續(xù)行為策略[12]。TOKARCHUK等人提出的模糊Sarsa算法,在不影響算法性能的情況下可以有效地減小狀態(tài)空間的規(guī)模,進而加快收斂速度,但該算法應(yīng)用于多維狀態(tài)空間問題時,更容易出現(xiàn)“維數(shù)災(zāi)”問題[13]。HSU等人提出的基于二型模糊邏輯的自組織 Q學(xué)習(xí)算法,對于噪聲干擾有很強的頑健性,但時間復(fù)雜度較高,且不能保證收斂[10]。

        雖然基于模糊推理系統(tǒng)的強化學(xué)習(xí)算法已經(jīng)可以有效地加快收斂速度,但傳統(tǒng)的基于一個模糊規(guī)則庫的、并可用于求解關(guān)于狀態(tài)的連續(xù)行為策略的Q值迭代算法,依舊存在由于某些原因而導(dǎo)致收斂速度慢的問題:算法的某一輪迭代會出現(xiàn)狀態(tài)動作對所對應(yīng)的Q值不唯一的情況。若算法進入下一輪迭代時,需要用到的狀態(tài)動作對的Q值恰好是上述Q值不唯一的情況。已有的此類算法會簡單地隨機選擇一個狀態(tài)動作對所對應(yīng)的Q值,而并沒有固定的選擇策略,或者固定選擇策略也不一定有效。由于算法在整個的迭代過程中會多次出現(xiàn)這種情況,這會較大地減緩該類型算法的收斂速度。

        針對傳統(tǒng)的基于查詢表和一個規(guī)則庫的 Q值迭代算法收斂速度慢的問題,本文提出一種基于兩層模糊劃分的在策略時間差分算法——DFP-OPTD(on-policy TD based on double-layer fuzzy partitioning),并在理論上證明其收斂。算法在進行 2次模糊劃分時,首先在第一層將連續(xù)狀態(tài)空間進行模糊劃分,同時求得連續(xù)動作;其次,在第二層將第一層求得的連續(xù)動作進行模糊劃分,同時求得Q值函數(shù);最后,使用梯度下降方法,更新兩層模糊劃分共同的規(guī)則后件參數(shù)。將DFP-OPTD算法應(yīng)用于倒立擺問題中,實驗結(jié)果表明,DFP-OPTD可以獲得連續(xù)行為策略,且具有較好的收斂性能。

        2 相關(guān)理論

        2.1 馬爾科夫決策過程

        在強化學(xué)習(xí)框架下,agent與環(huán)境交互構(gòu)成一個有限的MDP[13],該MDP可描述為一個四元組形式M = < X, U , ρ,f> ,其中:

        1)X為所有狀態(tài)的集合,且xt∈X為agent在t時刻所處的狀態(tài);

        2)U為所有動作的集合,且ut∈U為agent在t時刻所采取的動作;

        3)ρ : X × U →Rn為獎賞值函數(shù),表示t時刻的狀態(tài) xt,在采取動作 ut并轉(zhuǎn)移到狀態(tài) xt+1時,agent所獲得的立即獎賞 r ( xt, ut),此外,用 rt表示以r( xt, ut)為均值的分布所產(chǎn)生的隨機獎賞;

        4) f :X × U×X→[0,1]為狀態(tài)轉(zhuǎn)移函數(shù),其中f( x, u, x ') 表示狀態(tài)x在采取動作u時轉(zhuǎn)移到 x '的概率。

        強化學(xué)習(xí)中的策略 h ( x, u)是從狀態(tài)空間X到動作空間U的映射,h: X→U。它表示在狀態(tài)x處選擇動作u的概率。利用策略 h( x, u)可以求解出狀態(tài)值函數(shù)(V值函數(shù))或動作值函數(shù)(Q值函數(shù))。

        強化學(xué)習(xí)的目標是求解最優(yōu)行為策略 h*,它是最優(yōu)值函數(shù)的貪心策略,且在所有的策略中滿足?x ∈ X: Vh*(x) ≥ Vh(x)。在最優(yōu)策略 h*下,最優(yōu)V值函數(shù)滿足式(1),最優(yōu)Q值函數(shù)滿足式(2),為

        當f和ρ已知時,可以采用動態(tài)規(guī)劃算法求解最優(yōu)行為策略;當f和ρ未知時,則可以采用 TD類型的算法求解最優(yōu)行為策略,例如離策略的Q學(xué)習(xí)算法和在策略(on-policy)的Sarsa算法。

        定義1是一個有界的MDP約束(主要是對狀態(tài)空間、動作空間、獎賞值以及值函數(shù)空間的界定),本文所有的算法都滿足該定義。

        定義1 有界的MDP問題 已知X和U都是有限集合,令Z表示狀態(tài)動作集合,即Z: X×U,則Z也為有限集合;獎賞值函數(shù)ρ滿足0 ≤ ρ (x, u ) ≤ C ;MDP的邊界因子 β =1(1 - γ),其中,γ為折扣因子,且對于?x∈X及?( x , u)∈ Z ,0 ≤ V ( x) ≤ β C和0 ≤ Q( x, u)≤ β C成立。

        2.2 作為逼近器的模糊規(guī)則庫

        由文獻[14]可得,模糊規(guī)則庫的輸出可以用作Q值函數(shù)的逼近器。當前有多種類型的模糊規(guī)則[15],其中,TSK 形式的規(guī)則如式(3)所示,描述了規(guī)則的輸出和輸入部分的關(guān)系為

        其中,r∈1,…,NR是規(guī)則的下標,Rr表示規(guī)則庫中的第r條規(guī)則, x =(x1,x2,… ,xN)表示N維輸入?yún)?shù)。是第r條模糊規(guī)則中對應(yīng)于第i維輸入變量的模糊集,每一個模糊集都由一個隸屬度函數(shù)μχr,i(xi):X →[0,1]定義。y是輸出變量,且g1(x),…,gNR(x):X→Y是以x為自變量的多項式函數(shù)。

        當系統(tǒng)輸入精確值 x =(x1,x2,… ,xN)時,可以計算它在第r條規(guī)則下的激活強度 φr(x)(運算規(guī)則為T-norm積運算)為

        將 φr(x)用于計算模糊規(guī)則的輸出值,以激活強度 φr(x)為權(quán)重,與其對應(yīng)的后件值yr相乘并求和,可以得到最終的輸出值為

        通常采用 MSE(mean square error)作為模糊規(guī)則庫用于逼近目標函數(shù)時的逼近誤差。當規(guī)則集合達到最優(yōu)逼近效果時,其所有模糊規(guī)則后件值所構(gòu)成的向量值θ為

        其中, Yi( x)為目標函數(shù),( x)為逼近函數(shù)。

        3 基于雙層模糊劃分的在策略TD算法

        3.1 Q值函數(shù)的計算和參數(shù)更新

        在MDP框架下,使用兩層模糊劃分相對應(yīng)的兩層模糊規(guī)則庫以計算Q值函數(shù)。

        使用兩層糊規(guī)則庫逼近Q值函數(shù)的框架如圖1所示,其中左框內(nèi)的模糊規(guī)則庫1(FRB1, fuzzy rule base 1)以狀態(tài)為輸入,通過FRB1獲得的連續(xù)動作為輸出;右框內(nèi)的模糊規(guī)則庫2 (FRB2, fuzzy rule base 2)以從FRB1中獲得的連續(xù)動作為輸入,通過FRB2獲得的連續(xù)動作的Q值分量作為輸出;最后,通過將兩層模糊規(guī)則庫輸出部分相結(jié)合,逼近在狀態(tài)x時采取連續(xù)動作 ()C x的Q值函數(shù)。

        圖1 使用兩層模糊規(guī)則庫逼近Q值函數(shù)的框架

        兩層模糊劃分的主要內(nèi)容如下所述。

        1) 模糊規(guī)則庫1中的模糊規(guī)則如下

        其中, x =(x1, x2,…,xN)為狀態(tài), ur,j為第r條模糊規(guī)則中的第j個離散動作。M個離散動作由動作空間劃分而成,qr,j為第r條模糊規(guī)則中對應(yīng)于第j個離散動作的Q值分量。當輸入狀態(tài)為x時,第r條規(guī)則的激活強度為

        在被狀態(tài)x激活的規(guī)則rR中,根據(jù),rjq 的大小,用 ε-greedy動作選擇策略從M個離散動作中選出一個動作,該動作稱為激活動作,用表示。因而,結(jié)合式(5),可以得到狀態(tài)為x時的連續(xù)動作 ()Cx為

        把 C (x)稱為連續(xù)動作的原因是 C (x)的變化是關(guān)于狀態(tài)x連續(xù)的,它并非指的是狀態(tài)x可以選擇到連續(xù)動作空間中的任意動作。為簡化式(8),正則化激活強度 φr(x),可得

        則式(8)可寫為

        2) 模糊規(guī)則庫2中的模糊規(guī)則如下

        FRB2中規(guī)則的構(gòu)建依賴于 FRB1,其M條規(guī)則中的規(guī)則以 FRB1中的第r條規(guī)則為基礎(chǔ):前件部分的νr,j為模糊集,它以FRB1中第r條規(guī)則的第j個動作為模糊中心,并用隸屬度函數(shù) σνi,j(u)描述;后件部分的 qr,j與FRB1中規(guī)則后件的 qr,j一一對應(yīng)。

        將從FRB1中得到的連續(xù)動作 C (x)作為FRB2中規(guī)則的輸入,可以激活 NR?條FRB2中的規(guī)則。通過FRB2的規(guī)則的輸出,可以得到FRB1中第r條規(guī)則所對應(yīng)的Q值分量(x,C(x))為

        與推導(dǎo)公式(9)的方法相同,正則化式(11)中的隸屬度函數(shù) σνr,j(C(x)),得到μνr,j(C(x))為

        則式(11)可寫為

        由式(13)可得,F(xiàn)RB1的激活規(guī)則 Rr所求得的Q值分量為(x,C(x)),則對FRB1中所有的激活規(guī)則,可以得到在狀態(tài)x下執(zhí)行連續(xù)動作 C (x)時的Q值為

        由式(14)可以看出,Q值的大小取決于兩層FRB中的模糊集和共同的后件變量,rjθ。由于模糊集是作為先驗知識提前設(shè)定的,且在算法中不做改變,因而要得到收斂的Q值,需要在算法執(zhí)行過程中更新,rjθ,直到收斂。

        為使FRB逼近Q值函數(shù)時的逼近誤差最小,即參數(shù)向量θ滿足式(6),DFP-OPTD利用梯度下降(GD,gradient descent)方法,結(jié)合計算Q值函數(shù)的Bellman方程,更新兩層FRB的共同后件參數(shù)向量θ為

        其中,rt+1+γQt( xt+1, ut+1) - Qt( xt, ut)是TD誤差。令δ = rt+1+ γ Qt( xt+1, ut+1) - Qt( xt, ut),結(jié)合后向TD算法[1],可以得到參數(shù)更新公式為

        其中, r = 1,… ,NR, j = 1,… ,M 。

        則式(16)可進一步表示為

        3.2 DFP-OPTD算法的學(xué)習(xí)過程

        基于文獻[1]中的在策略TD算法,結(jié)合本文3.1節(jié)描述的內(nèi)容,得到算法DFP-OPTD。該算法不僅可以解決強化學(xué)習(xí)中連續(xù)狀態(tài)、離散動作空間的問題,還可以解決連續(xù)狀態(tài)、連續(xù)動作空間的問題。算法1為DFP-OPTD的學(xué)習(xí)流程。

        算法1 基于雙層模糊劃→分的DFP-OPTD算法

        2) Repeat(對每一個情節(jié)):

        3) x←初始化狀態(tài)

        4) 根據(jù)式(7)計算 φr(x)

        5) 根據(jù)ε-greedy策略選擇激活動作 u?r

        6) 根據(jù)式(10)選擇狀態(tài)為x時的執(zhí)行動作u

        7) 根據(jù)式(12)計算 μνr,j(u)

        8) 根據(jù)式(14)計算值函數(shù) Qu

        9) Repeat(對情節(jié)中的每一步)

        10) 執(zhí)行動作u,獲得下一狀態(tài)x'和立即獎賞r

        11) δ ← r -Qu

        13) 根據(jù)式(10)選擇狀態(tài)為x'時的執(zhí)行動作 u '

        14) 根據(jù)式(12)計算 μνr,j(u')

        15) 根據(jù)式(7)計算 φr(x')

        16) 根據(jù)式(14)計算值函數(shù) Qu'

        17) δ ←δ+γQu'

        18)θ = θ + α δφr(x )μνr,j(u)

        19) u←u'

        20) Untilx'為終止狀態(tài)

        21) Until運行完設(shè)定情節(jié)數(shù)目或滿足其他終止條件

        3.3 算法收斂性分析

        在文獻[16]和文獻[17]中,針對在策略(onpolicy)TD算法在使用線性函數(shù)逼近時的收斂性做了詳細的分析,當該類型的算法滿足一定的假設(shè)和引理時,可以以1的概率收斂。DFP-OPTD正是一種使用線性函數(shù)逼近的在策略TD算法,當該算法滿足文獻[16]中定義的證明算法收斂所需的假設(shè)和引理時,即可說明其收斂。本文不再贅述對其收斂性的詳細證明。

        假設(shè)1 MDP中的狀態(tài)轉(zhuǎn)移函數(shù)和獎賞函數(shù)都服從穩(wěn)定的分布。

        引理1 DFP-OPTD依賴的馬爾科夫鏈具有不可約性和非周期性,且算法的立即獎賞和值函數(shù)有界。

        證明 首先證明其不可約性。根據(jù)馬爾科夫過程的性質(zhì),如果一個馬爾科夫過程的任意2個狀態(tài)可以相互轉(zhuǎn)移,則它具有不可約性[18]。DFP-OPTD用于解決滿足 MDP框架的強化學(xué)習(xí)問題,且該MDP滿足定義1。因而對于該MDP中的任意狀態(tài)x,必定存在一個f滿足 f ( x, u, x')≥ 0 ,這表明狀態(tài)x可以被無限次訪問。因而可得每一個狀態(tài)都可轉(zhuǎn)移到任意的其他狀態(tài)。因此,DFP-OPTD依賴的馬爾科夫鏈具有不可約性。

        其次證明其非周期性。對于不可約的馬爾科夫鏈,僅需證明某一個狀態(tài)具有非周期性,即可證明整個馬爾科夫鏈具有非周期性。而證明一個狀態(tài)具有非周期性,只需證明該狀態(tài)具有自回歸性[18]。在DFP-OPTD依賴的MDP中,對于狀態(tài)x,必定存在一個f滿足 f ( x, u, x) > 0 ,它表明了狀態(tài)x具有自回歸性,由此可得該MDP具有非周期性。因此,DFP-OPTD依賴的馬爾科夫鏈的非周期性得證。

        最后證明其立即獎賞和值函數(shù)有界。由文獻[1]可知,值函數(shù)是折扣的累計回報函數(shù),即滿足又由定義1可得,獎賞值函數(shù)ρ有界,且0 ≤ ρ (x, u ) ≤ C ,C為一個非負數(shù)。因而有

        由不等式(19)可以得出,值函數(shù) Q ( x, u)有界。

        綜上所述,引理1得證。

        條件 1 對每一個隸屬度函數(shù)i都存在唯一的狀態(tài) xi,使 μi( xi) > μi( x) ,?x ≠ xi,而其他的隸屬度函數(shù)在狀態(tài) xi處的隸屬度值都為 0,即有 μi'( xi) = 0,? i ' ≠i。

        引理2 DFP-OPTD的基函數(shù)有界,并且基函數(shù)向量線性無關(guān)。

        證明 首先證明其基函數(shù)有界。由 φr(x)∈[0,1]和μνr,j(C(x))∈ [0,1]可得

        其中,||||∞為無窮范式。已知DFP-OPTD的基函數(shù)為φr(x)μνr,j(C(x)),又由不等式(20)可得,DFP-OPTD的基函數(shù)有界。

        其次證明基函數(shù)向量線性無關(guān)。為使DFP-OPTD的基函數(shù)向量線性無關(guān),令算法所使用的基函數(shù)滿足條件1[14],其函數(shù)形式如圖3所示。由文獻[14]可得,當滿足條件1時,基函數(shù)向量線性無關(guān)。

        可以將條件1的要求適當?shù)胤艑?,?μi'( xi)在狀態(tài)xi處的隸屬度為一個較小的值,例如標準差較小的高斯隸屬度函數(shù)。將該隸屬度函數(shù)用于DFP-OPTD中,通過數(shù)次實驗可得 DFP-OPTD同樣可以收斂,但目前還不能對該收斂性給出理論的證明。

        綜上所述,引理2得證。

        引理3 DFP-OPTD的步長參數(shù)α滿足

        證明 DFP-OPTD所用的步長參數(shù)α = 1 /(t + 1 ),其中,t為時間步。使用牛頓冪級數(shù)展開可以得到

        不等式(23)中的不等式部分可通過歸納法證明,因而當t→∞時,滿足

        由式(22)和不等式(23)可以得出,DFP-OPTD所用的步長參數(shù)滿足式(21),即引理3得證。

        定理1 在假設(shè)1的條件下,若DFP-OPTD滿足引理1~引理3,則算法以1的概率收斂。

        證明 由文獻[16]可以得出,在假設(shè)1成立的條件下,在策略(on-policy)TD算法在使用線性函數(shù)逼近時,如果滿足引理1~引理3,該類型的算法收斂。滿足假設(shè)1的算法DFP-OPTD是一種利用線性函數(shù)逼近的在策略TD算法,且該算法對引理1~引理3成立。因而可以得出,DFP-OPTD以1的概率收斂。

        4 實驗結(jié)果及分析

        本文以強化學(xué)習(xí)中經(jīng)典的情節(jié)式問題——倒立擺問題為例,驗證DFP-OPTD的收斂性能和求得的連續(xù)行為策略的作用。

        倒立擺問題的示意如圖2所示,一個可以左右移動的小車位于水平面上,上面放置一根底端與小車相連且可以在一定角度范圍內(nèi)自由轉(zhuǎn)動的硬質(zhì)桿,其任務(wù)是通過小車的水平移動使硬質(zhì)桿可以在一定的角度范圍內(nèi)([- π / 2,π / 2])豎立于垂直方向。同樣將該問題建立為一個MDP模型:系統(tǒng)的狀態(tài)是1個二維變量,用硬質(zhì)桿與垂直方向的夾角θ和硬質(zhì)桿的角速度表示,即,且有和∈[-1 6π, 16π](rad/s);系統(tǒng)的動作為施加在小車上的力,其取值范圍為[-5 0,50](N)。此外,施加的力上有外力的隨機擾動,該外力服從[-1 0,10](N)的均勻分布。系統(tǒng)的動力學(xué)特性描述為

        其中, g = 9 .8 m/s2為重力加速度, m = 2 .0 kg為硬質(zhì)桿的質(zhì)量,M = 8 .0 kg為小車的質(zhì)量,l = 0 .5 m為硬質(zhì)桿的長度,常數(shù) α = 1 /(m + M )。系統(tǒng)的獎賞變化取決于狀態(tài)的變化,在每一個時間步下,當硬質(zhì)桿與垂直方向的角度不超過π/2時,會收到大小為0的立即獎賞。而超過π/2時收到的立即獎賞為-1,同時該情節(jié)結(jié)束。

        圖2 倒立擺

        將 DFP-OPTD算法與 SUTTON等人提出的GD-Sarsa(λ)算法[3]進行比較。設(shè)置 DFP-OPTD 所需的參數(shù),用三角隸屬度函數(shù)作為FRB1和FRB2的模糊集的隸屬度函數(shù)式(除了狀態(tài)的定義域不同,夾角和角速度的模糊隸屬度函數(shù)形式如圖3所示):分別采用 20個模糊中心等距的模糊集對二維的連續(xù)狀態(tài)空間的每一維進行三角模糊劃分,模糊集的個數(shù)為20×20=400;同理,用12個模糊中心等距的模糊集對連續(xù)動作空間進行三角模糊劃分,模糊集的個數(shù)為 12。其他參數(shù)設(shè)置為 ε =0.001,α=0.9,γ= 1 .0。GD-Sarsa(λ)中采用10個9×9的Tilings來劃分狀態(tài)空間,參數(shù)設(shè)置依據(jù)文獻[1]中給出的最優(yōu)實驗參數(shù):ε = 0 .001,α =0.14,λ=0.3,γ=1.0。

        圖3 三角隸屬度函數(shù)

        DFP-OPTD,GD-Sarsa(λ)針對倒立擺問題進行30次獨立仿真實驗的結(jié)果如圖4所示,圖中橫坐標表示情節(jié)數(shù),縱坐標表示硬質(zhì)桿豎立于垂直方向及兩側(cè)的一定角度范圍內(nèi)所用的平均時間步。分析圖4可得,DFP-OPTD在收斂性能上明顯優(yōu)于GD-Sarsa(λ)。

        圖4 2種算法收斂性能的比較

        2種算法的詳細性能比較如表1所示,其中,以 DFP-OPTD的一個平均迭代步所需的時間作為基準時間。

        表1 2種算法在倒立擺問題中性能的比較

        圖 5描述的分別為 DFP-OPTD和 GD-Sarsa(λ)這 2種算法在時間步增大的過程中,硬質(zhì)桿與垂直方向的角度變化情況。其中,GD-Sarsa(λ)基于離散動作,DFP-OPTD基于連續(xù)動作。從圖中可以清晰地看出,DFP-OPTD所獲得的連續(xù)行為策略可以使硬質(zhì)桿擺動的角度只在較小的范圍內(nèi)變化,而GD-Sarsa(λ)所獲得的離散行為策略會使硬質(zhì)桿在較大的角度范圍內(nèi)擺動,這說明了DFP-OPTD求得的策略的穩(wěn)定性優(yōu)于 GD-Sarsa(λ)。因而,DFP-OPTD更適用于求解對策略穩(wěn)定性要求較高的問題。

        圖5 分別使用上述2種算法時,硬質(zhì)桿的角度θ的變化情況

        5 結(jié)束語

        本文針對傳統(tǒng)的強化學(xué)習(xí)算法中使用查詢表或者函數(shù)逼近時收斂速度慢且不易獲得連續(xù)行為策略的問題,提出一種基于兩層模糊劃分的強化學(xué)習(xí)算法——DFP-OPTD。該算法先將狀態(tài)進行模糊劃分,再將第一層模糊規(guī)則庫所輸出的連續(xù)動作,作為第二層模糊規(guī)則庫的輸入,同時對動作進行模糊劃分。最后將這兩層模糊規(guī)則庫相結(jié)合以得到逼近的Q值函數(shù)。以該逼近的Q值函數(shù)與真實Q值函數(shù)的差值平方作為逼近誤差,使用梯度下降方法更新2個模糊規(guī)則庫中規(guī)則的共同后件值。將該算法與其他 3種較新的相近算法應(yīng)用于強化學(xué)習(xí)中經(jīng)典的倒立擺問題中,通過實驗數(shù)據(jù)分析可以得到,相比于已有的只使用一層模糊劃分的強化學(xué)習(xí)算法,DFP-OPTD雖然增加了時間復(fù)雜度,但需要較少的收斂步數(shù)。相比于基于查詢表或者其他的函數(shù)逼近方法,DFPOPTD有更好的收斂性能,且可以獲得連續(xù)行為策略。

        DFP-OPTD的性能主要依賴于兩層模糊劃分,而模糊規(guī)則庫的逼近性能主要取決于模糊集的隸屬度函數(shù)和模糊規(guī)則的個數(shù)。本文將隸屬度函數(shù)和規(guī)則個數(shù)作為先驗知識給出,且在算法執(zhí)行過程中不做改變。為了獲得更好的收斂性能,下一步將考慮使用合適的優(yōu)化算法,使DFP-OPTD能在運行的過程中不斷優(yōu)化隸屬度函數(shù),并且能夠自適應(yīng)地調(diào)整模糊規(guī)則的條數(shù)。

        [1] SUTTON R S, BARTO A G. Reinforcement Learning: An Introduction[M]. Cambridge: MIT Press, 1998.

        [2] 劉全, 閆其粹, 伏玉琛等. 一種基于啟發(fā)式獎賞函數(shù)的分層強化學(xué)習(xí)方法[J]. 計算機研究與發(fā)展, 2011, 48(12): 2352-2358.LIU Q, YAN Q C, FU Y C, et al. A hierarchical reinforcement learning method based on heuristic reward function[J]. Journal of Computer Research and Development, 2011, 48(12): 2352-2358.

        [3] SUTTON R S, MCALLESTER D, SINGH S, et al. Policy gradient methods for reinforcement learning with function approximation[A].Proc of the 16th Annual Conference on Neural Information Processing Systems[C]. Denver, 1999. 1057-1063.

        [4] MAEI H R, SUTTON R S. GQ(λ): a general gradient algorithm for temporal difference prediction learning with eligibility traces[A]. International Conference on Artificial General Intelligence[C]. Lugano,2010. 91-96.

        [5] SUTTON R S, SZEPESV′ARI CS, MAEI H R. A convergent O(n)algorithm for off-policy temporal-difference learning with linear function approximation[A]. Proc of the 22nd Annual Conference on Neural Information Processing Systems[C]. Vancouver, 2009. 1609-1616.

        [6] SHERSTOV A A, STONE P. Function approximation via tile coding:automating parameter choice[A]. Proc of the 5th Symposium on Abstraction, Reformulation and Approximation[C]. New York, USA, 2005.194-205.

        [7] HEINEN M R, ENGEL P M. An incremental probabilistic neural network for regression and reinforcement learning tasks[A]. Proc of the 20th International Conference on Artificial Neural Networks[C].Berlin, 2010. 170-179.

        [8] PAZIS J, LAGOUDAKIS M G. Learning continuous-action control policies[A]. Proc of the IEEE Symposium on Adaptive Dynamic Programming and Reinforcement Learning[C]. Washington, 2009. 169-176.[9] BONARINI A, LAZARIC A, MONTRONE F, et al. Reinforcement distribution in fuzzy Q-learning[J]. Fuzzy Sets and Systems, 2009,160(10):1420-1443.

        [10] HSU C H, JUANG C F. Self-organizing interval type-2 fuzzy Q-learning for reinforcement fuzzy control[A]. Proc of the 2011 IEEE International Conference on Systems, Man, and Cybernetics[C]. New Jersey, 2011. 2033-2038.

        [11] TADASHI H, AKINORI F, OSAMU, et al. Fuzzy interpolation-based Q-learning with continuous states and actions[A]. Proc of the Fifth IEEE International Conference on Fuzzy Systems[C]. New York, USA,2011.594-600.

        [12] GLORENNEC P Y, JOUFFE L. Fuzzy Q-learning[A]. Proc of the Sixth IEEE International Conference on Fuzzy Systems[C]. Cambridge, 1997.659-662.

        [13] CHANG H S, FU M C, HU J, et al. Simulation-based Algorithms for Markov Decision Processes[M]. New York: Springer, 2007.

        [14] LUCIAN B, ROBERT B, BART D S, et al. Reinforcement Learning and Dynamic Programming Using Function Approximation[M]. Florida: CRC Press, 2010.

        [15] CASTILLO O, MELIN P. Type-2 Fuzzy Logic: Theory and Applications[M]. New York: Springer, 2008.

        [16] TSITSIKLIS J N, ROY V B. An analysis of temporal-difference learning with function approximation[J]. IEEE Transactions on Automatic Control, 1997, 42(5):674-690.

        [17] DAYAN P D. The convergence of TD(λ) for general λ[J]. Machine Learning, 1992, 8(3-4):341-362.

        [18] 劉次華. 隨機過程[M]. 武漢: 華中科技大學(xué)出版社, 2008.LIU C H. Stochastic Process[M]. Wuhan: Huazhong University of Science and Technology Press, 2008.

        猜你喜歡
        模糊集硬質(zhì)規(guī)則
        50號硬質(zhì)瀝青在海南省瀝青路面中的應(yīng)用研究
        石油瀝青(2022年4期)2022-09-03 09:30:04
        煤基超硬質(zhì)瀝青改性瀝青研究現(xiàn)狀與評述
        石油瀝青(2022年3期)2022-08-26 09:13:06
        撐竿跳規(guī)則的制定
        數(shù)獨的規(guī)則和演變
        基于上下截集的粗糙模糊集的運算性質(zhì)
        圓盤鋸超硬質(zhì)耐磨被覆層下方防磨損措施
        石材(2020年11期)2021-01-08 09:21:48
        硬質(zhì)道路石油瀝青產(chǎn)品開發(fā)
        石油瀝青(2019年2期)2019-04-28 08:42:24
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        TPP反腐敗規(guī)則對我國的啟示
        E-不變凸模糊集
        欧美大片va欧美在线播放| 人妻无码人妻有码不卡| 亚洲传媒av一区二区三区| 国产主播性色av福利精品一区 | 国产国产裸模裸模私拍视频| 天堂sv在线最新版在线| 亚洲精品动漫免费二区| 久久国产精品免费专区| 亚洲av无码电影在线播放| 亚洲av永久无码一区| 午夜无码片在线观看影院y| 蜜桃视频羞羞在线观看| 熟妇熟女乱妇乱女网站| 自拍偷自拍亚洲精品播放| 漂亮的小少妇诱惑内射系列| 日本成人精品在线播放| 成人性生交大片免费看96| 亚洲色成人网站www观看入口| 国产成人亚洲合色婷婷| 国产精品国产高清国产专区| 55夜色66夜色国产精品视频| 麻豆国产乱人伦精品一区二区| 亚洲国产综合精品一区最新| 欧美a级在线现免费观看| 97久久精品人人做人人爽| 国产对白刺激在线观看| 日韩高清不卡一区二区三区| 午夜福利理论片高清在线观看| 无码熟妇人妻AV影音先锋| 免费黄网站永久地址进入| 性欧美长视频免费观看不卡| 熟妇人妻中文av无码| 日本一区二区三区在线播放| 国产在线一区二区三区四区不卡| 国产二级一片内射视频插放| 国产精品每日更新在线观看 | 97人妻中文字幕总站| 无码av不卡一区二区三区| 中文在线天堂网www| 国产精品毛片av一区二区三区| 无套内射在线无码播放|