任立偉 班曉軍 吳奮 黃顯林
摘?要:針對二自由度飛行姿態(tài)模擬器的姿態(tài)穩(wěn)定問題,依據強化學習中的策略迭代算法設計姿態(tài)穩(wěn)定控制器。將策略迭代學習算法與多項式TS模糊系統(tǒng)相結合,對控制器參數進行學習調整,實現對二自由度飛行姿態(tài)模擬器姿態(tài)穩(wěn)定控制性能的優(yōu)化。通過多項式TS模糊模型對執(zhí)行器的策略函數以及評價器的值函數進行逼近,建立基于多項式TS模糊模型的執(zhí)行器-評價器結構,經過策略迭代過程,學習得到最優(yōu)控制器參數,使得值函數最小。通過仿真驗證,證明了基于多項式TS模糊模型的執(zhí)行器—評價器結構的策略迭代算法在飛行器姿態(tài)穩(wěn)定控制方面的有效性。
關鍵詞:飛行器控制;姿態(tài)穩(wěn)定;強化學習;策略迭代算法;多項式TS模糊系統(tǒng)
DOI:10.15938/j.emc.2019.11.016
中圖分類號:TP?273
文獻標志碼:A
文章編號:1007-449X(2019)11-0127-08
收稿日期:?2019-03-15
基金項目:國家自然科學基金(61304006,61273095)
作者簡介:任立偉(1989—),女,博士研究生,研究方向為模糊系統(tǒng)理論;
班曉軍(1978—),男,博士,教授,博士生導師,研究方向為模糊控制理論、魯棒增益調度控制理論、機電伺服控制系統(tǒng)等;
吳?奮(1964—),男,博士,教授,研究方向為魯棒變參數控制、切換和混雜控制、非線性控制、先進控制技術的工程應用;
黃顯林(1956—),男,博士,教授,博士生導師,研究方向為研究方向為飛行器制導、導航與控制、復雜系統(tǒng)非線性魯棒與自適應控制等。
通信作者:班曉軍
Fuzzy?learning?controller?design?of?2DOF?flight?attitude?simulator
REN?Liwei1,?BAN?Xiaojun1,?WU?Fen2,?HUANG?Xianlin1
(1.?Center?for?Control?Theory?and?Guidance?Technology,?Harbin?Institute?of?Technology,?Harbin?150001,?China;
2.Department?of?Mechanical?and?Aerospace?Engineering,?North?Carolina?State?University,Raleigh?27695-7910,USA)
Abstract:
Aiming?at?the?attitude?stabilization?problem?of?twodegreesoffreedom?flight?attitude?simulator,?an?attitude?stabilization?controller?was?designed?based?on?the?policy?iteration?algorithm?in?the?reinforcement?learning.The?policyiteration?learning?algorithm?and?the?polynomial?TS?fuzzy?systems?were?combined?together,?conducting?parameters′?adjustment?of?the?controller,?and?achievingthe?optimization?of?the?attitude?stability?control?performance?of?the?twodegreesoffreedom?flight?attitude?simulator.By?approximating?the?policy?function?of?the?actor?and?the?value?function?of?the?critic?with?the?polynomial?TS?fuzzy?models,?the?actorcritic?structure?based?on?the?polynomial?TS?fuzzy?models?was?established.?Through?the?policy?iteration?process,?the?optimal?parameters?of?the?controller?were?learned?to?minimize?the?value?function.The?simulation?results?show?that?the?policy?iteration?algorithm?based?on?polynomial?TS?fuzzy?models?is?effective?in?controlling?aircraft?attitude?stabilization.
Keywords:aircraft?control;?attitude?stabilization;?reinforcement?learning;?policy?iteration?algorithm;?polynomial?TS?fuzzy?system
0?引?言
旋翼式飛行器因其結構簡單、成本低廉、使用便利等特點,被廣泛應用于諸多領域,因此對其姿態(tài)控制方法的研究是很有必要的。為了有效提高旋翼式飛行器姿態(tài)控制系統(tǒng)的研發(fā)效率并降低研發(fā)成本,旋翼式飛行姿態(tài)模擬器應運而生。
文獻[1-2]提出了一種適合在實驗室環(huán)境下研究旋翼式微小型飛行器姿態(tài)控制的小型二自由度飛行姿態(tài)模擬器。此套設備可以方便地改變整個系統(tǒng)的質心位置,從而改變被控對象動力學方程中的參數,為研究強魯棒性、自適應姿態(tài)穩(wěn)定以及大角度姿態(tài)調整控制問題提供了一個良好的實驗平臺。該二自由度飛行姿態(tài)模擬器具有自身不穩(wěn)定性、非線性等特性,采用可行又有效的控制策略才能保證其運行的穩(wěn)定性。
強化學習(reinforcement?learning,RL)是計算智能領域發(fā)展起來的一種機器學習方法[3-4],它通過智能體與環(huán)境的交互進行探索,在采取動作和環(huán)境的評價信息中獲得所需知識,進一步指導后續(xù)動作,最終得到最優(yōu)的動作策略,以適應環(huán)境達到預期目的。強化學習與最優(yōu)控制和自適應控制有著密切的聯系,Frank?L.?Lewis及其團隊在把RL應用到控制領域的過程中做出了大量重要的工作,得到了很多有價值的理論成果[5-8]。強化學習具有對環(huán)境先驗知識要求低的優(yōu)點,其主要學習任務是獲得“狀態(tài)—動作”之間的映射關系。函數逼近的本質就是利用某一函數來逼近這一映射關系。對于控制領域,即強化學習不需要對象模型信息,主要目的是獲取控制策略,上述函數實際上就是控制器,對于參數化控制器而言,就是在交互過程中通過環(huán)境的評價信息對這個控制器的參數進行優(yōu)化,從而達到改善控制效果的目的。強化學習控制方法目前作為一種基于人工智能的優(yōu)化控制方法,在求解復雜控制決策問題過程中,極具潛力和優(yōu)勢[9-13]。
一般所研究的強化學習系統(tǒng),其狀態(tài)和動作空間都是離散且有限的,值函數可以用表格表示。而對于大的狀態(tài)、動作空間甚至連續(xù)狀態(tài)、動作空間,值函數的存儲將面臨“維數災難”問題。為了解決這個問題,值函數逼近方法被引入到強化學習中,已經成為一種有效方法。模糊邏輯推理作為控制理論中的一種重要方法,由于其具有萬能逼近的特點而被用于強化學習中,用于逼近狀態(tài)值函數或狀態(tài)動作值函數,其中包括因逼近能力以及簡單結構而被廣泛研究的TakagiSugeno(TS)模糊模型[14-15]。
近些年來,多項式TS模糊模型受到越來越多的關注。實質上,多項式TS模糊模型可看作是TS模糊模型的一種推廣。這兩種模型主要區(qū)別在于模糊規(guī)則的后件部分:TS模糊模型后件部分是線性模型,而多項式TS模糊模型后件部分是多項式模型。因此,相比于傳統(tǒng)的TS模糊模型,多項式TS模糊模型可以更好地描述非線性系統(tǒng)。具體來說,針對同一非線性動態(tài)系統(tǒng)進行描述,前件變量相同的前提下,多項式TS模糊模型能夠顯著減少模糊規(guī)則條數,并且隨著模型前件變量的增加,優(yōu)勢會更為突出;或是在相同模糊規(guī)則條數下,多項式TS模糊模型可以更多地表征非線性系統(tǒng)工作點附近的信息。目前,已有一系列研究針對多項式TS模糊系統(tǒng)的系統(tǒng)分析與控制展開[16-24],取得了很多研究成果。
本文嘗試將強化學習中的策略迭代算法與一類多項式TS模糊系統(tǒng)[24]相結合,利用多項式TS模糊模型分別對執(zhí)行器的策略函數以及評價器的值函數進行逼近,建立基于多項式TS模糊模型的執(zhí)行器-評價器結構,對控制器參數進行迭代優(yōu)化。此外,本文將所設計的強化學習控制方法應用于二自由度飛行模擬器的控制系統(tǒng)設計,優(yōu)化其控制器參數,成功實現對二自由度飛行模擬器俯仰角姿態(tài)穩(wěn)定控制性能的優(yōu)化。
1?飛行姿態(tài)模擬器動力學模型
1.1?非線性系統(tǒng)模型
二自由度飛行姿態(tài)模擬器[1-2]的機械結構主要有基座、U型架、擺動臂和螺旋槳等部分,其簡化結構示意如圖1所示。擺動臂兩端各有一個電機,2個電機方向垂直,各裝有一個螺旋槳,用于驅動擺動臂,使其可以繞著基座進行俯仰和偏航運動。F1為俯仰方向螺旋槳升力,垂直擺桿向上;F2為偏航方向螺旋槳升力,垂直指向紙面外。若只考慮俯仰方向運動,則需保持偏航方向靜止。選豎直桿與擺動臂的重合位置為運動坐標系原點O,x軸方向為水平,z軸方向為豎直,y軸方向通過右手定則來確定,并且將y軸方向定為俯仰方向的零位,俯仰角φ逆時針旋轉(圖中向上)為正方向。
依據機械結構圖上的受力分析,可以建立飛行姿態(tài)模擬器俯仰方向動力學模型如下:
Jφ··=-kφ·-Mglcosφ+F1L,(1)
式中各變量的物理意義及其具體參數值如表1所示。
選擇狀態(tài)變量x1=φ,x2=φ·及控制輸入變量u=F1L,即可得到飛行模擬器的仿射非線性模型如下:
x·=f(x)+g(x)u,(2)
其中:x=[x1,x2]T,f(x)=x21J(-kx2-Mglcos(x1)),
g(x)=01J。
1.2?連續(xù)系統(tǒng)的離散化
針對非線性系統(tǒng)(2),時間軸上連續(xù)取相同時間間隔T=tk+1-tk>0,[tk,tk+1)=[kT,(k+1)T)稱為采樣間隔,T為采樣周期。本文中每個采樣間隔內,輸入信號被零階保持,即
u(t)≡u(kT)=u(k),kT≤t<(k+1)T。(3)
采用四階龍格-庫塔法對系統(tǒng)(2)進行近似離散化,其遞推方程如下(步長h=T):
x(k+1)=x(k)+h6(K1+2K2+2K3+K4),(4)
其中,
K1=f(x(k))+g(x(k))u(k),
K2=fx(k)+h2K1+gx(k)+h2K1u(k),
K3=fx(k)+h2K2+gx(k)+h2K2u(k),
K4=f(x(k)+hK3)+g(x(k)+hK3)u(k)。
2?強化學習策略迭代算法
考慮如下單輸入離散時間非線性動態(tài)系統(tǒng)[7]:
x(k+1)=F(x(k))+G(x(k))u(k),(5)
其中x(k)∈瘙 綆
n表示系統(tǒng)k時刻的狀態(tài),u(k)∈瘙 綆
表示系統(tǒng)k時刻的控制輸入。F(x(k))和G(x(k))均為光滑的非線性函數。
定義回報函數r(x(k),u(k))如下:
r(x(k),u(k))=Q(x(k))+uT(k)Ru(k),(6)
其中Q(x(k))和R是正定的。特別地,二次型回報函數為
r(x(k),u(k))=xT(k)Qx(k)+uT(k)Ru(k)。(7)
控制目標是尋求一個狀態(tài)空間到控制輸入空間的映射關系h(·)∶瘙 綆
n→瘙 綆
,即策略
u(k)=h(x(k))。(8)
使得未來的累積回報最小,有
Vh(x(k))=∑SymboleB@
i=kγi-kr(x(i),u(i))。(9)
其中,Vh(x(k))表示評價策略u(k)=h(x(k))的值函數;x(i)(k≤i≤∞)表示滿足式(5)和式(8)的狀態(tài);γ∈[0,1]表示折扣因子,如果為0,則價值只由當前回報決定;如果是1,則所有的后續(xù)回報和當前回報一視同仁;如果是0到1之間的數字,即當前回報的權重比后續(xù)回報的權重大。
本文研究的前提在于系統(tǒng)是可鎮(zhèn)定的[7],且存在一個可行的控制策略u(k)=h(x(k))使得閉環(huán)系統(tǒng)是漸近穩(wěn)定的。此處,可行的控制策略是指該策略可以使系統(tǒng)鎮(zhèn)定并且產生有界代價函數的策略。只有對于可行的控制策略,值函數Vh(x(k))的值才有意義。
最優(yōu)策略u(k)=h*(x(k))使得值函數(9)最小化,得到最優(yōu)價值
V*(x(k))=minh(·)(∑SymboleB@
i=kγi-kr(x(i),h(x(i)))),(10)
然而這一優(yōu)化問題很難求解。Bellman最優(yōu)原理,作為最優(yōu)控制的一個奠基石,由其可以得到如下離散時間HamiltonJacobiBellman(HJB)方程:
V*(x(k))=minh(·)(r(x(k),h(x(k)))+
γV*(x(k+1))),(11)
進一步,可得到最優(yōu)策略:
h*(x(k))=argminh(·)(r(x(k),h(x(k)))+
γV*(x(k+1)))。(12)
上述連續(xù)狀態(tài)、動作空間下的離散時間非線性動態(tài)系統(tǒng)最優(yōu)控制問題可以用強化學習方法求解,基本思路分為兩步:首先根據當前的策略u(k)=h(x(k))估計值函數Vh(x(k));然后根據當前估計的值函數改進策略。基于上述機制,研究者們提出了很多強化學習算法,本文主要基于比較經典的策略迭代算法展開研究,其具體步驟如下:
1)初始化:選擇任意容許控制策略h0(x(k));
2)策略評估:利用Bellman方程確定當前策略的價值,即
Vj+1(x(k))=r(x(k),hj(x(k)))+
γVj+1(x(k+1))。(13)
3)策略更新:通過下式對策略進行更新
hj+1(x(k))=argminh(·)(r(x(k),h(x(k)))+
γVj+1(x(k+1)))。(14)
實現上述策略迭代算法的經典強化學習結構為執(zhí)行器-評價器結構[7],如圖2所示。其中,評價器的任務是采用Bellman方程(13)對值函數進行更新,執(zhí)行器的任務是采用式(14)對策略進行更新。
針對有限狀態(tài)和動作空間,策略迭代可通過存儲和更新查找表實現。然而對于非線性系統(tǒng)(5),狀態(tài)空間和控制輸入空間是連續(xù)及無限的,此時使用Bellman方程(13)對當前策略的價值評估意味著需要對所有狀態(tài)x(k)計算策略hj(x(k))的價值,即求解該Bellman方程是很困難的。解決該問題的關鍵是通過函數逼近器對值函數進行近似。
3?基于多項式TS模糊模型的執(zhí)行器-評價器結構
本節(jié)將通過多項式TS模糊模型[24]對執(zhí)行器的策略函數以及評價器的值函數進行逼近,建立基于多項式TS模糊模型的執(zhí)行器—評價器結構。
3.1?評價器實現—多項式TS模糊模型近似值函數
由第2節(jié)可知道,實現具有無限狀態(tài)空間動態(tài)系統(tǒng)的策略迭代的關鍵是近似值函數。本節(jié)將通過如下式所示的多項式TS模糊模型對值函數進行近似,其第條規(guī)則如下:
R:?IF?x1(k)?is?M1?AND?x2(k)?is?M2?AND?…?AND?xn(k)?is?Mn,THEN
Vh(x(k))=∑ni=1alixi(k)+∑ni=1∑nj=ibli,jxi(k)xj(k)。(15)
其中:xi(k),i=1,2,…,n為系統(tǒng)在k時刻的狀態(tài);n為輸入變量的個數;Mi是前件變量xi(k)的模糊集,μMi(xi(k))表示其隸屬函數;Vh(x(k))為第條模糊規(guī)則輸出;ali和bli,j分別表示后件參數,經強化學習可得到。此外,
x(k)=[x1(k),x2(k),…,xn(k)]T。
模糊規(guī)則中邏輯“與”運算符選擇常用的“代數乘積”,得到第條規(guī)則的激活度為
μ(x(k))=∏ni=1μMi(xi(k))。(16)
采用一般化的解模糊方法得到解模糊化后的模型輸出,如下:
Vh(x(k))=∑Ωl=1ξ(x(k))Vh(x(k)),(17)
其中:Ω為模糊規(guī)則數量;ξ(x(k))為模糊權函數;Vh(x(k))由第條模糊規(guī)則的后件方程式(15)計算,且
ξ(x(k))=μ(x(k))∑Ωl=1μ(x(k))≥0,(18)
以及
∑Ωl=1ξ(x(k))=1。(19)
此外,在執(zhí)行器—評價器結構中,評價器接收系統(tǒng)的狀態(tài)變量和式(6)定義的回報函數,對強化學習的每次學習產生評判,產生如下時序差分誤差(Temporal?Difference?(TD)?Error):
e(k)=r(x(k),h(x(k)))+
γVh(x(k+1))-Vh(x(k))(20)
以及值函數估計。因此,針對值函數近似方法,一般可將式(20)作為近似性能指標。
3.2?執(zhí)行器實現—多項式TS模糊控制器
本節(jié)將通過如下式所示的多項式TS模糊模型[24]對執(zhí)行器的策略函數進行近似,其第w條規(guī)則如下:
Rw:IF?x1(k)?is?Nw1?AND?x2(k)?is?Nw2?AND?…?AND?xn(k)?is?Nwn,?THEN
uw(x(k))=cw+∑ni=1qwixi(k)+
∑ni=1∑nj=iswi,jxi(k)xj(k),(21)
其中:Nwi是前件變量xi(k)的模糊集;ηNwi(xi(k))表示其隸屬函數;uw(x(k))為第w條模糊規(guī)則輸出;cw、qwi和swi,j分別表示后件參數,經強化學習可得到。
模糊規(guī)則中邏輯“與”運算符選擇常用的“代數乘積”,得到第w條規(guī)則的激活度為
ηw(x(k))=∏ni=1ηNwi(xi(k))。(22)
采用一般化的解模糊方法得到解模糊化后的模型輸出,如下:
u(x(k))=∑ψw=1ζw(x(k))uw(x(k)),(23)
其中,ψ為模糊規(guī)則數量,ζw(x(k))為模糊權函數,uw(x(k))由第w條模糊規(guī)則的后件方程式(21)計算,且
ζw(x(k))=ηw(x(k))∑ψw=1ηw(x(k))≥0,(24)
以及
∑ψw=1ζw(x(k))=1。(25)
4?仿真研究
利用第3節(jié)中所提出的基于多項式TS模糊模型的執(zhí)行器-評價器結構的策略迭代算法,?針對第1節(jié)中的飛行姿態(tài)模擬器俯仰方向動力學模型進行數值仿真研究。本文的強化學習控制算法并不需要對象模型,仿真中的模型只是用來模擬學習過程中與智能體進行交互的外部環(huán)境,而不直接向智能體提供任何信息??刂颇繕藶樵O計多項式TS模糊控制器(23),使得給定系統(tǒng)一個初始角度,在控制器作用下最終可穩(wěn)定到0度,同時實現策略最優(yōu)化及值函數最優(yōu)化。具體為經過策略迭代過程,學習得到最優(yōu)控制器參數,使得值函數最小。
針對飛行姿態(tài)模擬器俯仰方向連續(xù)狀態(tài)空間模型(2),選擇離散采樣時間T=0.005?s,經四階龍格-庫塔法離散化得到其離散狀態(tài)空間模型。
由式(1)和式(2)知,系統(tǒng)穩(wěn)定到0度時,有
u(k)=Mgl,(26)
所以選擇回報函數如下:
r(x(k),u(k))=xT(k)Qx(k)+
(u(k)-Mgl)TR(u(k)-Mgl)。(27)
其中,Q=1001,R=1。
選定多項式TS模糊模型(17)對值函數進行近似,模糊規(guī)則數為Ω=2,前件變量為x1(k),其第條規(guī)則如下:
R:?IF?x1(k)?is?M1,THEN
Vlh(x(k))=bl1,1x21(k)+bl1,2x1(k)x2(k)+
bl2,2x22(k)。(28)
模糊權函數分別選為如下式所示的高斯型(其形狀見圖3)。
ξ1(x1(k))=e-x21(k)0.5,
ξ2(x1(k))=1-ξ1(x1(k))。(29)
選定多項式TS模糊控制器(23)模糊規(guī)則數ψ=2,前件變量為x1(k),其第w條規(guī)則如下:
Rw:IF?x1(k)?is?Nw1,THEN
uw(x(k))=cw+qw1x1(k)+qw2x2(k)+
sw1,1x21(k)+sw1,2x1(k)x2(k)+
sw2,2x22(k)。(30)
模糊權函數分別選為如下高斯型(其形狀同圖3):
ζ1(x1(k))=e-x21(k)0.360?7,
ζ2(x1(k))=1-ζ1(x1(k))。(31)
策略迭代算法中評價器和執(zhí)行器的參數初始值分別如表2和3所示。
初始狀態(tài)為x(0)=[-0.990?20]T,折扣因子γ=1。經過15步迭代得到的收斂策略迭代結果(即評價器和執(zhí)行器參數收斂值)分別如表4和表5所示。
最優(yōu)策略(其參數如表5所示)下,系統(tǒng)在初始值為x(0)=[-0.990?20]T時的狀態(tài)響應以及控制輸入分別如圖4和圖5所示。
由式(26)可知,當系統(tǒng)穩(wěn)定在0度時,經計算可得控制量u(k)=0.149?9,圖5所得控制量終值結果與該理論計算結果一致。
進一步,依據所得最優(yōu)策略(其參數如表5所示),改變系統(tǒng)初值為x(0)=[0.710?70]T,可得到該初始狀態(tài)下系統(tǒng)的狀態(tài)響應以及控制輸入分別如圖6和圖7所示。
評價器參數收斂過程以及多項式TS模糊模型近似值函數所得到的最優(yōu)策略對應的TD誤差分別如下圖8和圖9所示。
從圖4~圖7中可看出,經過迭代學習過程,得到的具有最優(yōu)控制策略參數的控制器,能夠使得二自由度飛行模擬器的俯仰角和角速度均穩(wěn)定在0度。從圖8和圖9中,可以看到評價器參數收速度較快,且所得到的TD誤差為零,即實現了值函數最小化的性能指標。該仿真結果不僅說明多項式TS模糊模型近似值函數是可行的,此外,基于多項式T-S模糊模型的執(zhí)行器-評價器結構的強化學習策略迭代算法在二自由度飛行模擬器上的應用是成功且有效的。
5?結?論
本文基于強化學習中的策略迭代算法對一個自主研制的二自由度飛行姿態(tài)模擬器的姿態(tài)穩(wěn)定問題進行研究,該模擬器為實驗室環(huán)境下研究旋翼式微小型飛行器姿態(tài)控制提供了一個很好的平臺。首次將策略迭代學習算法與多項式TS模糊系統(tǒng)相結合,建立基于多項式TS模糊模型的執(zhí)行器-評價器結構,對控制器參數進行學習調整,實現對二自由度飛行姿態(tài)模擬器姿態(tài)穩(wěn)定控制性能的優(yōu)化,具有一定的應用價值。實際上,該算法并不局限于某一策略形式,能夠參數化表達的控制策略形式都可以通過該算法進行策略參數優(yōu)化,實際應用中,可以根據需要進行策略形式選擇。
參?考?文?獻:
[1]?趙巖.?二自由度直升機模擬器控制系統(tǒng)設計[D].?哈爾濱:哈爾濱工業(yè)大學,?2013.
[2]?尹航,?楊燁峰,?趙巖,等.?二自由度飛行姿態(tài)模擬器自整定控制器設計[J].電機與控制學報,2018,22(4):109-116.
YIN?Hang,?YANG?Yefeng,?ZHAO?Yan,?et?al.?Selftuning?controller?design?for?a?2DOF?flight?attitude?simulator?[J].?Electric?Machines?and?Control,?2018,?22(4):109-116.
[3]?SUTTON?R?S,?BARTO?A?G.?Reinforcement?LearningAn?Introduction[M].?Cambridge,?MT:?MIT?Press,?1998.
[4]?Jerry?M.MENDEL.?Adaptive?learning?and?pattern?recognition?systems:?theory?and?applications[M].?Academic?Press,?1970.
[5]?WEI?Q,?LEWIS?F?L,?LIU?D,?et?al.?Discretetime?local?value?iteration?adaptive?dynamic?programming:?Convergence?analysis[J].?IEEE?Transactions?on?Systems?Man?and?Cybernetics:?Systems,?2018,?48(6):?875-891.
[6]?KIUMARSI?B,?LEWIS?F?L,?JIANG?Z?P.?H∞?control?of?linear?discretetime?systems:?Offpolicy?reinforcement?learning[J].?Automatica,?2017,?78(1):?144-152.
[7]?LEWIS?F?L,?VRABIE?D.?Reinforcement?learning?and?adaptive?dynamic?programming?for?feedback?control[J].?IEEE?Circuits?and?Systems?Magazine,?2009,?9(3):?32-50.
[8]?ZHAO?D,?LIU?D,?LEWIS?F?L,?et?al.?Special?issue?on?deep?reinforcement?learning?and?adaptive?dynamic?programming[J].?IEEE?Transactions?on?Neural?Networks?and?Learning?Systems,?2018,?29(6):?2038-2041.
[9]?KHATERAA,?ELNAGAR?A?M,?ELBARDINIM,?et?al.?Adaptive?T–S?fuzzy?controller?using?reinforcement?learning?based?on?Lyapunov?stability[J].?Journal?of?the?Franklin?Institute,?2018,?355(14):?6390-6415.
[10]?XIONG?Y,?HAIBO?H,?QINGLAI?W,?et?al.?Reinforcement?learning?for?robust?adaptive?control?of?partially?unknown?nonlinear?systems?subject?to?unmatched?uncertainties[J].?Information?Sciences,?2018,?463(1):307-322.
[11]?ZHANG?C,?ZOU?W,?CHENG?N,?et?al.?Trajectory?tracking?control?for?rotary?steerable?systems?using?interval?type2?fuzzy?logic?and?reinforcement?learning[J].?Journal?of?the?Franklin?Institute,?2018,?355(2):?803-826.
[12]?ZHU?Y,?ZHAO?D,?YANG?X,et?al.?Policy?iteration?for?H∞?optimal?control?of?polynomial?nonlinear?systems?via?sum?of?squares?programming[J].?IEEE?Transactions?on?Cybernetics,?2018,?48(2):?500-509.
[13]?趙冬斌,?邵坤,?朱圓恒,等.深度強化學習綜述:兼論計算機圍棋的發(fā)展[J].?控制理論與應用,?2016,?33(6):701-717.
ZHAO?Dongbin,?SHAO?Kun,?ZHU?Yuanheng,?et?al.?Review?of?deep?reinforcement?learning?and?discussions?on?the?development?of?computer?go[J].?Control?Theory?&?Applications,?2016,?33(6):701-717.