亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        含未知?jiǎng)討B(tài)與擾動(dòng)的非線性系統(tǒng)神經(jīng)網(wǎng)絡(luò)嵌入學(xué)習(xí)控制

        2021-09-28 07:21:04閆一鳴徐東甫李志偉孫靈芳
        自動(dòng)化學(xué)報(bào) 2021年8期
        關(guān)鍵詞:優(yōu)化方法系統(tǒng)

        馬 樂 閆一鳴 徐東甫 李志偉 ,2 孫靈芳

        非線性系統(tǒng)的高性能控制是控制科學(xué)與應(yīng)用中的重要研究問題[1].非線性系統(tǒng)普遍存在于如電機(jī)力矩控制、康復(fù)系統(tǒng)人機(jī)交互控制等應(yīng)用領(lǐng)域[2-3].由于非線性系統(tǒng)的復(fù)雜性,目前尚無如線性系統(tǒng)那樣較為完善的分析與設(shè)計(jì)體系[4].非線性系統(tǒng)的穩(wěn)定性分析、不確定性補(bǔ)償、擾動(dòng)抑制與性能優(yōu)化是其中難點(diǎn)問題.特別是含有非線性動(dòng)態(tài)與擾動(dòng)因素的非線性系統(tǒng)控制性能優(yōu)化問題亟待解決.

        系統(tǒng)穩(wěn)定性是非線性控制的首要問題.基于Lyapunov 控制(Lyapunov-based control,LBC)是非線性系統(tǒng)控制器分析與設(shè)計(jì)的重要方法[5].其優(yōu)勢(shì)在于穩(wěn)定性分析證明能伴隨控制器設(shè)計(jì)同時(shí)生成,Backstepping 方法是其中代表方法[6].文獻(xiàn)[7]建立控制Lyapunov 函數(shù)(Control Lyapunov function,CLF),并利用Sontag 公式直接設(shè)計(jì)控制律,但通常尋找CLF 較為困難[8].雖然基于Lyapunov的分析與設(shè)計(jì)已被廣泛采用,但其分析相對(duì)困難.同時(shí)對(duì)于上述方法當(dāng)考慮不確定性與擾動(dòng)等因素后,其穩(wěn)定性分析的復(fù)雜度將陡增.

        系統(tǒng)模型中的不確定性給分析與設(shè)計(jì)帶來較大困難.對(duì)于模型形式已知但參數(shù)未知的不確定問題,參數(shù)自適應(yīng)方法將參數(shù)誤差視作時(shí)序量加入Lyapunov 函數(shù),并建立參數(shù)自適應(yīng)律,實(shí)現(xiàn)對(duì)參數(shù)不確定性的自適應(yīng).針對(duì)參數(shù)量繁多或者模型形式未知問題,文獻(xiàn)[9]采用RBF (Radial basis function)神經(jīng)網(wǎng)絡(luò)作為系統(tǒng)模型中未知非線性項(xiàng)的逼近器,將未知非線性模型的逼近問題轉(zhuǎn)化為對(duì)RBF 網(wǎng)絡(luò)權(quán)值自適應(yīng)逼近問題.文獻(xiàn)[10]采用自適應(yīng)神經(jīng)網(wǎng)絡(luò)方法解決了切換互聯(lián)系統(tǒng)的非線性不確定問題,但未考慮控制增益的不確定性.文獻(xiàn)[11]將逼近器進(jìn)一步改進(jìn)為一種雙環(huán)遞歸神經(jīng)網(wǎng)絡(luò),該模型考慮了逼近模型的內(nèi)部時(shí)序狀態(tài),試圖增強(qiáng)網(wǎng)絡(luò)逼近能力.文獻(xiàn)[12]采用模糊邏輯方法作為未知非線性的逼近器.雖然上述方法能有效逼近系統(tǒng)未知非線性項(xiàng)[13],但不確定性可能產(chǎn)生較大的初始逼近誤差,影響系統(tǒng)動(dòng)態(tài)性能.

        擾動(dòng)可視為控制過程中產(chǎn)生的獨(dú)立于系統(tǒng)模型的不確定因素.雖然滑模與魯棒等控制方法對(duì)一定范圍內(nèi)擾動(dòng)具有抑制能力[14],但缺乏對(duì)擾動(dòng)必要的量化與補(bǔ)償機(jī)制[15].基于擾動(dòng)觀測(cè)器(Disturbanceobserver-based control,DOBC)控制方法則采用估計(jì)擾動(dòng)并加以補(bǔ)償?shù)闹苯蛹夹g(shù)路線[16].其中文獻(xiàn)[17]針對(duì)線性系統(tǒng)采用不確定擾動(dòng)估計(jì)器(Uncertainty and disturbance estimator,UDE)同時(shí)估計(jì)不確定性與擾動(dòng)并加以補(bǔ)償.文獻(xiàn)[18]在相關(guān)假設(shè)條件下,設(shè)計(jì)了針對(duì)死區(qū)非平滑問題的擾動(dòng)觀測(cè)器.擴(kuò)張狀態(tài)觀測(cè)器(Extended state observer,ESO)提出了一種 “總擾動(dòng)”思想,即模型未知?jiǎng)討B(tài)、控制增益不確定性與擾動(dòng)的整體作用視作等效擾動(dòng)加以估計(jì)[19-20].

        通過分析看出,圍繞上述問題展開的工作根本目的是保持控制系統(tǒng)穩(wěn)定.然而控制系統(tǒng)的暫態(tài)性能與穩(wěn)態(tài)誤差等因素也是控制品質(zhì)的重要指標(biāo).文獻(xiàn)[21]將反步控制與最優(yōu)控制結(jié)合,針對(duì)模型確定且無擾動(dòng)的高階非線性系統(tǒng)逐步建立可學(xué)習(xí)的最優(yōu)控制器.文獻(xiàn)[22]結(jié)合辨識(shí)方法提出了自適應(yīng)迭代學(xué)習(xí)控制(Iterative learning control,ILC)方法,實(shí)現(xiàn)了位值時(shí)變線性系統(tǒng)控制.然而ILC 需要重復(fù)任務(wù)條件并且對(duì)擾動(dòng)較為敏感[23].文獻(xiàn)[24] 采用Hammerstein 神經(jīng)網(wǎng)絡(luò)作為辨識(shí)模型,建立跟蹤誤差目標(biāo)函數(shù)在線調(diào)節(jié)PID (Proportion integral differential)神經(jīng)網(wǎng)絡(luò)控制器,然而辨識(shí)初始值和擾動(dòng)等因素導(dǎo)致的辨識(shí)誤差會(huì)影響性能,甚至導(dǎo)致系統(tǒng)不穩(wěn)定.

        以上分析得出,非線性系統(tǒng)中的動(dòng)態(tài)不確定性與擾動(dòng)問題對(duì)于控制性能影響較大,目前研究?jī)H集中在對(duì)上述因素的補(bǔ)償與抑制方面,對(duì)于帶有不確定性與擾動(dòng)的控制問題缺乏有效的性能優(yōu)化手段.另一方面,近年來深度學(xué)習(xí)技術(shù)成績(jī)斐然[25],利用深度學(xué)習(xí)提升控制性能將是積極有效的途徑.文獻(xiàn)[26]采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)作為辨識(shí)器結(jié)合自適應(yīng)控制實(shí)現(xiàn)了直升機(jī)控制,在基于深度學(xué)習(xí)的性能優(yōu)化方面做出了嘗試.文獻(xiàn)[27]則采用卷積神經(jīng)網(wǎng)絡(luò)作為系統(tǒng)不確定項(xiàng)的逼近器并結(jié)合滑??刂茖?shí)現(xiàn)自適應(yīng)控制.基于確定性策略梯度的深度強(qiáng)化學(xué)習(xí)(Deep deterministic policy gradient,DDPG)對(duì)于深度Q 神經(jīng)網(wǎng)絡(luò)(Deep Q network,DQN)作出改進(jìn),使其能適用于狀態(tài)與控制輸出均為連續(xù)值的控制問題[28].文獻(xiàn)[29]對(duì)兩種深度強(qiáng)化學(xué)習(xí)控制的優(yōu)化能力作出了量化比較.然而大部分深度強(qiáng)化學(xué)習(xí)控制方法缺乏必要的穩(wěn)定性分析,在實(shí)際應(yīng)用中存在隱患,這也是該技術(shù)未能廣泛用于實(shí)際控制的原因之一[30].

        從上述分析看出,現(xiàn)有研究未能將深度學(xué)習(xí)充分應(yīng)用于控制問題中,主要原因如下:1)上述研究中深度神經(jīng)網(wǎng)絡(luò)的作用是作為未知?jiǎng)討B(tài)的逼近器或辨識(shí)器,僅將問題轉(zhuǎn)為確定性系統(tǒng)控制,因此控制性能的上限僅為基礎(chǔ)控制器對(duì)于該確定性系統(tǒng)的性能;2) 作為逼近器的深度神經(jīng)網(wǎng)絡(luò)被簡(jiǎn)化成了如RBF 函數(shù)的線性基函數(shù)形式[31],其內(nèi)部結(jié)構(gòu)與參數(shù)未能對(duì)系統(tǒng)性能優(yōu)化作出貢獻(xiàn);3)多數(shù)深度強(qiáng)化學(xué)習(xí)控制缺乏必要的穩(wěn)定性分析,難以保證實(shí)際應(yīng)用穩(wěn)定.因此在穩(wěn)定條件下,如何充分靈活地利用深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)與優(yōu)化優(yōu)勢(shì)提升非線性系統(tǒng)控制性能是值得深入研究的問題.

        綜上,本文寫作動(dòng)機(jī)可描述為:針對(duì)具有未知?jiǎng)討B(tài)與擾動(dòng)的非線性系統(tǒng),在少量假設(shè)條件下建立既確保Lyapunov 穩(wěn)定,又簡(jiǎn)潔靈活的學(xué)習(xí)控制器,同時(shí)該控制器能在無需辨識(shí)條件下利用深度學(xué)習(xí)技術(shù)進(jìn)行在線優(yōu)化以實(shí)現(xiàn)性能提升.為此本文提出一種Lyapunov 穩(wěn)定的神經(jīng)網(wǎng)絡(luò)嵌入學(xué)習(xí)控制方法.

        本文主要工作內(nèi)容如下:

        1)提出了基于神經(jīng)網(wǎng)絡(luò)嵌入學(xué)習(xí)控制器設(shè)計(jì)方法,在已知Lyapunov 穩(wěn)定控制器中嵌入神經(jīng)網(wǎng)絡(luò)控制器構(gòu)成可優(yōu)化的學(xué)習(xí)控制器,并通過定理1證明新的控制器仍保證Lyapunov 穩(wěn)定.(詳見第1 節(jié))

        2)利用導(dǎo)數(shù)等價(jià)條件,建立改進(jìn)的性能優(yōu)化目標(biāo)函數(shù),以用于學(xué)習(xí)控制器優(yōu)化.改進(jìn)后的目標(biāo)函數(shù)可規(guī)避辨識(shí)環(huán)節(jié),直接利用輸出反饋優(yōu)化控制器.(詳見第2 節(jié))

        3)受文獻(xiàn)[19]啟發(fā),基于Lyapunov 方法直接建立未知非線性動(dòng)態(tài)、時(shí)變擾動(dòng)與控制增益不確定的等效值自適應(yīng)方法.(詳見第3 節(jié))

        本文主要?jiǎng)?chuàng)新貢獻(xiàn)如下:

        1)不同于現(xiàn)有方法,本文神經(jīng)網(wǎng)絡(luò)并非用于逼近系統(tǒng)非線性函數(shù),而是作為用于性能優(yōu)化的控制分量.在滿足Lyapunov 穩(wěn)定條件下,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)可任意構(gòu)造與調(diào)整,且無需額外的理論分析過程,從而解放了神經(jīng)網(wǎng)絡(luò)控制對(duì)模型形式的束縛.由于神經(jīng)網(wǎng)絡(luò)形式任意,因此大量的深度神經(jīng)網(wǎng)絡(luò)模型可簡(jiǎn)單直接地嵌入控制器中,并仍保持Lyapunov穩(wěn)定,所以本文方法粘合了深度神經(jīng)網(wǎng)絡(luò)技術(shù)和控制理論與應(yīng)用的研究縫隙.

        2)改進(jìn)的性能優(yōu)化目標(biāo)函數(shù)規(guī)避了辨識(shí)過程,從而避免了辨識(shí)誤差對(duì)控制的影響.同時(shí)因上述的穩(wěn)定性保證,可在線實(shí)現(xiàn)目標(biāo)函數(shù)優(yōu)化.

        3) 建立的值自適應(yīng)方法相比傳統(tǒng)方法,無需RBF 網(wǎng)絡(luò)等模型作為逼近器,同時(shí)具有更快的估計(jì)速度與精度.

        1 神經(jīng)網(wǎng)絡(luò)Lyapunov 穩(wěn)定嵌入

        設(shè)一類帶有模型不確定性與擾動(dòng)的n階m維狀態(tài)反饋系統(tǒng)為S:x×u →x,其中x∈Rn×m為系統(tǒng)狀態(tài)向量,u∈Rm為系統(tǒng)控制輸入向量,第i(i=1,2,···,n-1) 階系統(tǒng)為=xi+1,第n階為:

        式中,F∈Rm為未知非線性函數(shù)向量,d∈Rm為有界未知擾動(dòng)向量,b>0 為m階未知可逆對(duì)角常數(shù)矩陣.

        定理 1.設(shè)Lyapunov 函數(shù)V導(dǎo)數(shù)滿足:

        其中,B與M為以狀態(tài)x為變量的m維已知函數(shù)向量,φ為不含u的其余項(xiàng)之和.若滿足:1)存在基礎(chǔ)控制器ub使系統(tǒng)Lyapunov 穩(wěn)定,即<0;2)存在向量函數(shù)?滿足Bi?(Bi)≥0;3) 存在神經(jīng)網(wǎng)絡(luò)μ(·|θ)≥0,其中θ為神經(jīng)網(wǎng)絡(luò)全部可調(diào)參數(shù)構(gòu)成的列向量,則式(3)神經(jīng)網(wǎng)絡(luò)嵌入控制器對(duì)系統(tǒng)SLyapunov 穩(wěn)定.

        其中,°為Hadamard 積運(yùn)算符.

        證明.將式(3)代入式(2)得:

        注 1.由式(3)看出,本文學(xué)習(xí)控制器是基于已有Lyapunov 穩(wěn)定的控制器建立,因此在應(yīng)用中本文方法的穩(wěn)定性分析難度較低.并且控制器對(duì)神經(jīng)網(wǎng)絡(luò)的形式無具體要求,僅需滿足網(wǎng)絡(luò)輸出非負(fù).確保該條件相對(duì)容易,僅需將網(wǎng)絡(luò)輸出層激活函數(shù)設(shè)置為非負(fù)函數(shù)即可.

        定理 2.對(duì)于系統(tǒng)S,設(shè)有給定基礎(chǔ)控制器ub與神經(jīng)網(wǎng)絡(luò)控制器μ(·|θ),根據(jù)式(3)構(gòu)成學(xué)習(xí)控制器的函數(shù)空間為,則對(duì)于任意表征系統(tǒng)控制性能的量度L(S,u) (小值更優(yōu)),均滿足:

        注 2.本文主旨并非求解最優(yōu)控制器,而是通過式(3)建立滿足式(5)的學(xué)習(xí)控制器.

        2 神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)控制器性能優(yōu)化

        第1 節(jié)論述方法將深度學(xué)習(xí)及優(yōu)化技術(shù)穩(wěn)定地引入到非線性控制中.得益于深度學(xué)習(xí)中自動(dòng)求導(dǎo)技術(shù)與優(yōu)化方法,使研究者擺脫了繁雜參數(shù)推導(dǎo),研究者可針對(duì)問題本身專注于網(wǎng)絡(luò)結(jié)構(gòu)與優(yōu)化問題的設(shè)計(jì)中.因此神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)控制器性能優(yōu)化可歸結(jié)為對(duì)控制性能目標(biāo)函數(shù)的設(shè)計(jì)問題.為此建立能表征系統(tǒng)控制性能的目標(biāo)函數(shù).跟蹤誤差是控制問題的首要指標(biāo),因此需討論以其為優(yōu)化項(xiàng)的目標(biāo)函數(shù):

        其中,yd為系統(tǒng)當(dāng)前期望,y為系統(tǒng)當(dāng)前實(shí)際輸出,ψ為表征其他控制指標(biāo)正則項(xiàng),且對(duì)控制器梯度已知.

        目前主流的神經(jīng)網(wǎng)絡(luò)優(yōu)化方法為基于梯度的方法,式(6)LS對(duì)θ的梯度為:

        因此將式(6)修改為:

        其中,?>0 為可調(diào)小范數(shù)常值參數(shù)向量.根據(jù)式(8)得出,關(guān)于θ的梯度僅相差常數(shù)向量?,即:

        基于梯度的優(yōu)化方法在更新迭代時(shí)通常對(duì)梯度乘以某小值正數(shù),即學(xué)習(xí)律.因此可通過調(diào)節(jié)學(xué)習(xí)律來消除式(10)所述差異帶來的影響.特別是對(duì)單輸入–單輸出系統(tǒng),式(10)中的梯度差異問題可完全折算到學(xué)習(xí)律的調(diào)節(jié).綜上得出,對(duì)于梯度優(yōu)化方法,式(6)問題可等價(jià)為求解式(9)問題.

        式(9)相對(duì)于式(6)優(yōu)勢(shì)在于不需對(duì)輸入輸出進(jìn)行建?;虮孀R(shí),直接利用觀測(cè)輸出y,避免了估計(jì)誤差.同時(shí)由于改進(jìn)后的優(yōu)化問題僅需輸出反饋并可單值優(yōu)化,因此控制器支持在線學(xué)習(xí).

        注 3.根據(jù)文獻(xiàn)[32]結(jié)論,對(duì)于單值優(yōu)化問題,學(xué)習(xí)律非敏感參數(shù),因此在應(yīng)用中若適當(dāng)選定學(xué)習(xí)率,即便對(duì)于多輸入多輸出問題,式(10)影響也可忽略.

        3 未知非線性與擾動(dòng)等效值自適應(yīng)

        前兩節(jié)分析了Lyapunov 穩(wěn)定條件下神經(jīng)網(wǎng)絡(luò)嵌入與性能優(yōu)化方法,可將任意結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò)嵌入基礎(chǔ)控制器中并利用其優(yōu)化控制性能.但本文方法的應(yīng)用前提是存在使系統(tǒng)穩(wěn)定的基礎(chǔ)控制器.由于式(1)描述系統(tǒng)中存在未知非線性項(xiàng)與未知控制增益等不確定性與擾動(dòng)問題,因此基礎(chǔ)控制器設(shè)計(jì)中需對(duì)上述問題加以處理以確?;A(chǔ)控制器滿足穩(wěn)定條件.

        為此本節(jié)建立一種未知非線性與擾動(dòng)的等效值自適應(yīng)方法.該方法的特點(diǎn)是無需逼近器模型,僅用值更新即可實(shí)現(xiàn)對(duì)未知時(shí)變不確定項(xiàng)的自適應(yīng).

        注 4.本節(jié)目的是建立對(duì)不確定性與擾動(dòng)具有補(bǔ)償與抑制能力的基礎(chǔ)控制器,上述方法并不依賴于本節(jié)內(nèi)容.即任何保證式(1)描述系統(tǒng)的其他控制器都可以結(jié)合上述方法構(gòu)成神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)控制器.

        首先將式(1)變換為:

        其中,b0為m階已知對(duì)角常值矩陣.并定義:

        注 5.注意到自適應(yīng)律中采用了信號(hào)微分項(xiàng),雖然文獻(xiàn)[33-34]中證明了該方法的合理性,但考慮實(shí)際信號(hào)中的噪聲問題,本文采用適當(dāng)微分器加以處理.關(guān)于微分器的收斂性可參見文獻(xiàn)[35].

        綜上,本文提出的針對(duì)未知非線性動(dòng)態(tài)與擾動(dòng)系統(tǒng)的神經(jīng)網(wǎng)絡(luò)嵌入學(xué)習(xí)控制器表示如下:

        4 仿真分析

        本節(jié)以帶有三角函數(shù)、死區(qū)與摩擦特性的一、二階非線性數(shù)值模型與實(shí)際物理模型進(jìn)行仿真測(cè)試.全部仿真基于Python 框架,采用Pytorch 作為深度神經(jīng)網(wǎng)絡(luò)庫(kù).本節(jié)與經(jīng)典RBF 自適應(yīng)控制和文獻(xiàn)[13]中自適應(yīng)方法作對(duì)比,以測(cè)試本文方法性能.仿真測(cè)試中神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與相關(guān)參數(shù)設(shè)置見附錄.

        4.1 數(shù)值模型算例

        算例1.考慮一階非線性系統(tǒng):

        其中,a=3.0,b=1.0.設(shè)計(jì)基礎(chǔ)控制器:

        其中,yd為控制期望.

        基于ub分別設(shè)計(jì)經(jīng)典RBF 自適應(yīng)、值自適應(yīng)、神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)三種控制器(在值自適應(yīng)基礎(chǔ)上嵌入神經(jīng)網(wǎng)絡(luò)控制器),并比較仿真結(jié)果.其中統(tǒng)一取k=36,b0=2.0,RBF 核函數(shù)σ=1,在[-6,6]范圍內(nèi)等分取100 個(gè)核函數(shù)中心值,值自適應(yīng)與神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)控制采用自適應(yīng)方法估計(jì)f? 值,經(jīng)典RBF自適應(yīng)方法則采用徑向基函數(shù)估計(jì).

        圖1 為期望軌跡yd=sin(t) 三種控制方法的仿真對(duì)比結(jié)果,以平均絕對(duì)誤差(Mean absolute error,MAE)為評(píng)價(jià)指標(biāo).圖1 結(jié)果顯示:1)雖然經(jīng)典RBF 方法的輸出響應(yīng)與控制輸入隨時(shí)間增加逐漸趨于本文方法,但本文的值自適應(yīng)與神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法的跟蹤效果明顯優(yōu)于經(jīng)典RBF 方法.原因在于未知非線性函數(shù)導(dǎo)致RBF 初始估計(jì)與實(shí)際差別較大,同時(shí)RBF 估計(jì)收斂速度低于值自適應(yīng)方法,因此得出對(duì)于上述系統(tǒng)本文方法優(yōu)于經(jīng)典RBF 方法.2) 值自適應(yīng)與神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)控制方法的輸出基本一致,但后者的跟蹤誤差低于前者,因此得出對(duì)于上述系統(tǒng)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)控制方法能根據(jù)跟蹤誤差目標(biāo)函數(shù)調(diào)節(jié)神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)控制性能優(yōu)化.

        圖1 算例1 控制性能結(jié)果Fig.1 The controllers performances of the Example 1

        算例2.再考慮帶有三角函數(shù)與死區(qū)的二階非線性系統(tǒng):

        其中,δ=0.1,a1=3.0,a2=6.0,b=3.0.

        根據(jù)式(20)設(shè)計(jì)基礎(chǔ)控制器:

        其中,e=yd-y.本算例中統(tǒng)一取k=10,b0=5,RBF核函數(shù)σ=1,在[-12,12]范圍內(nèi)分別對(duì)x1與x2進(jìn)行10 等分取值,即取100 個(gè)c值,其他參數(shù)同上例.

        圖2 為yd=sin(t),d=0 三種控制方法的仿真對(duì)比結(jié)果.圖2 結(jié)果顯示:1)三種方法均能以較高精度實(shí)現(xiàn)式(23)系統(tǒng)的軌跡跟蹤,由圖2 (a)看出不同于前一算例,RBF 方法在波峰處輸出值高于期望,在波谷處低于期望,而其他兩種方法則與其相反,原因在于RBF 對(duì)的估計(jì)方式與本文提出方法不同,加之與前一算例的模型差異導(dǎo)致圖2 (a)效果;2)圖2 (b)中的控制輸入u的峰值與頻率均高于前一算例且出現(xiàn)震蕩,原因在于本算例系統(tǒng)階數(shù)增高且多出死區(qū)非線性,進(jìn)而導(dǎo)致上述現(xiàn)象;3)三種方法的控制輸出幅值大體一致,跟蹤誤差排序仍為經(jīng)典RBF > 值自適應(yīng) > 神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)控制.綜上得出,對(duì)于帶有三角函數(shù)與死區(qū)的二階非線性系統(tǒng),本文方法效果優(yōu)于經(jīng)典RBF 自適應(yīng)方法,且神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)控制方法能在不明顯提升控制輸出條件下優(yōu)化基準(zhǔn)控制器性能.

        圖2 算例2 控制性能結(jié)果Fig.2 The controllers performances of the Example 2

        算例3.上述模型加入如下擾動(dòng):

        其中,Gd=100.0,ωd=10.0,ξ(t) 為[-30,30] 隨機(jī)量(三種方法ξ(t) 相同).沿用前算例控制器進(jìn)行仿真測(cè)試以比較三種方法在擾動(dòng)條件下的性能,其中控制參數(shù)取k=35,b0=1.0.

        圖3 為yd=sin(t)+sin(0.5t) 三種控制方法的仿真對(duì)比結(jié)果.圖3 結(jié)果顯示:1)在強(qiáng)擾動(dòng)條件下三種方法均實(shí)現(xiàn)對(duì)yd的穩(wěn)定跟蹤,但三種控制輸出均出現(xiàn)隨機(jī)震蕩,如圖3 (a),其原因在于施加的擾動(dòng)中含有較大隨機(jī)擾動(dòng);2)圖3 (b)中的控制輸入u幅值范圍與頻率均高于前一算例且震蕩,原因在于yd高于前一算例且加入了高頻擾動(dòng),同時(shí)為了抑制強(qiáng)擾動(dòng),控制增益高于前例;3)三種方法控制輸出幅值大體一致,跟蹤誤差排序仍為經(jīng)典RBF >值自適應(yīng) > 神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)控制.由此表明,在強(qiáng)擾動(dòng)條件下本文方法對(duì)不確定性與擾動(dòng)的補(bǔ)償和抑制能力優(yōu)于經(jīng)典RBF 自適應(yīng)方法,同時(shí)本文提出的嵌入神經(jīng)網(wǎng)絡(luò)控制器仍能優(yōu)化基準(zhǔn)控制器性能.

        圖3 算例3 控制性能結(jié)果Fig.3 The controllers performances of the Example 3

        4.2 物理模型仿真

        本節(jié)采用與第4.1 節(jié)不同結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)作為嵌入控制器(詳見附錄描述),對(duì)實(shí)際物理模型測(cè)試,并與文獻(xiàn)[13]方法(一種基于Backstepping 方法的神經(jīng)網(wǎng)絡(luò)自適應(yīng)控制方法,下稱 “對(duì)比方法”)作對(duì)比以驗(yàn)證本文方法的先進(jìn)性.

        算例4.指數(shù)摩擦特性的電機(jī)轉(zhuǎn)矩控制模型如下:

        其中,θ為電機(jī)轉(zhuǎn)角(單位rad),ω為其角速度(單位rad/s),τ為控制輸入(單位 N ·m),fM為其非線性項(xiàng),Tf為摩擦力.模型參數(shù)為:K=2.97,Kθ=0.25,T=0.632,Tc=0.2 N·m,Ts=0.3 N·m,α=1.0. 施加如式(25) 擾動(dòng),Gd=10.0,ωd=1.0,ξ為[-10,10]隨機(jī)數(shù).

        沿用前節(jié)方法構(gòu)造本文方法的基礎(chǔ)控制器,b0=1.0,k=50.0 (根據(jù)對(duì)比方法設(shè)置的參數(shù)k值),神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與參數(shù)見附錄.對(duì)于算例4,文獻(xiàn)[13]方法性能趨于最佳的參數(shù)設(shè)置如下:在[-10,10]范圍內(nèi)分別對(duì)x1,x2進(jìn)行36 等分取值,即取1 296 個(gè)值作為對(duì)比方法中的RBF 神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)中心值,設(shè)置對(duì)比方法的α1,α2分別為30.0 與50.0,其余參數(shù)見文獻(xiàn)[13].

        圖4 為yd=π sin(t) (rad)兩種方法的控制效果對(duì)比.從中看出:1)圖4 (a)顯示兩種方法均能快速穩(wěn)定實(shí)現(xiàn)軌跡跟蹤,然而對(duì)比方法在初始階段較本文方法有較大誤差(見第一次波峰波谷);2)圖4 (b)顯示兩種方法的控制輸入基本一致,本文方法較對(duì)比方法無明顯提升;3)圖4 (c)顯示本文方法的跟蹤誤差總體上低于對(duì)比方法.因此可得出本文方法對(duì)于算例4 的控制效果整體優(yōu)于對(duì)比方法.

        圖4 算例4 對(duì)比實(shí)驗(yàn)控制性能結(jié)果Fig.4 The results for comparison test of control performances of the Example 4

        對(duì)比兩種方法的最大誤差(m ax|e|)、平均誤差(m ean|e|)、最大控制輸出(m ax|u|)、平均控制輸出(m ean|u|)、最大不確定與擾動(dòng)估計(jì)誤差(m ax)與平均不確定與擾動(dòng)估計(jì)誤差(m ean) 6 種量化指標(biāo),如表1.從表1 看出本文方法 m ax|e|低于對(duì)比方法 4 1.63%,m ean|e|低 于對(duì)比方法 41.66%,max|u|低于對(duì)比方法 2.63%,m ax低于對(duì)比方法 1 1.32%,mean低于對(duì)比方法 1 1.14%,僅 m ean|u|略高于對(duì)比方法 2.58%.

        表1 算例4 兩種方法控制性能統(tǒng)計(jì)數(shù)據(jù)對(duì)比Table 1 The comparison for control statistical indicators of two methods in the Example 4

        以上分析得出本文方法的控制性能整體優(yōu)于對(duì)比方法,原因如下:1)對(duì)比方法RBF 網(wǎng)絡(luò)僅為對(duì)不確定項(xiàng)的逼近,控制性能上限取決于Backstepping 控制器,同時(shí)初始時(shí)刻的未知?jiǎng)討B(tài)與網(wǎng)絡(luò)估計(jì)值有較大差距,因此導(dǎo)致對(duì)比方法在第一次波峰、波谷階段的誤差較大;2)本文方法的值自適應(yīng)方法能夠較為快速地估計(jì)不確定性與擾動(dòng),因此在初始時(shí)刻誤差低于對(duì)比方法;3)本文方法的神經(jīng)網(wǎng)絡(luò)控制器中設(shè)計(jì)了前饋結(jié)構(gòu)對(duì)控制性能有積極貢獻(xiàn),本文優(yōu)化方法能夠有效地調(diào)節(jié)網(wǎng)絡(luò)參數(shù)與輸出從而優(yōu)化控制性能.

        綜合以上算例得出,本文提出的值自適應(yīng)方法相比經(jīng)典RBF 方法對(duì)三角函數(shù)、死區(qū)與摩擦非線性和強(qiáng)擾動(dòng)未知不確定系統(tǒng)具有更好的模型估計(jì)與擾動(dòng)抑制能力,嵌入神經(jīng)網(wǎng)絡(luò)控制器能在不提升控制輸出幅值條件下優(yōu)化基準(zhǔn)控制器性能.性能優(yōu)化結(jié)果充分證實(shí)了第2 節(jié)中提出的梯度等效優(yōu)化方法的合理性與有效性.與對(duì)比方法的對(duì)比實(shí)驗(yàn)結(jié)果表明,本文方法在對(duì)不確定與擾動(dòng)的補(bǔ)償與抑制和控制性能優(yōu)化方面具有一定的先進(jìn)性.算例中采用不同結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)構(gòu)建學(xué)習(xí)控制器,體現(xiàn)出基于本文方法引入的深度學(xué)習(xí)及優(yōu)化技術(shù)可針對(duì)具體控制問題靈活地設(shè)計(jì)與調(diào)整網(wǎng)絡(luò)結(jié)構(gòu).

        5 虛擬實(shí)驗(yàn)分析

        前節(jié)已對(duì)本文方法控制性能作出較充分的比較分析,因此本節(jié)專注驗(yàn)證本文方法解決實(shí)際問題的有效性.上肢康復(fù)機(jī)器人控制問題中涉及不確定性、擾動(dòng)與性能優(yōu)化等方面,因此選擇該問題為應(yīng)用實(shí)例,針對(duì)神經(jīng)網(wǎng)絡(luò)的在線調(diào)節(jié)與訓(xùn)練后運(yùn)行兩種方式的控制效果進(jìn)行對(duì)比分析.本文基于CoppeliaSim 物理模擬系統(tǒng)搭建虛擬實(shí)驗(yàn)平臺(tái),如圖5 所示,本文中仿真控制周期為0.01 s,物理引擎選擇Bullet 2.87,精度設(shè)置為 “最高精度”.以下虛擬實(shí)驗(yàn)基于Python 3.7 的控制周期均小于10 ms,即所有實(shí)驗(yàn)的控制頻率可達(dá)到100 Hz 以上.

        圖5 CoppeliaSim 虛擬實(shí)驗(yàn)示意圖Fig.5 The demonstration of virtual experiment in CoppeliaSim

        采用系統(tǒng)提供的Python 遠(yuǎn)程同步API (Application programming interface)方式實(shí)現(xiàn)控制.對(duì)于控制端物理虛擬系統(tǒng)模型及參數(shù)未知,因此機(jī)械臂關(guān)節(jié)控制模型表示為:

        其中,θJ為康復(fù)機(jī)器人主動(dòng)關(guān)節(jié)角度(單位rad);ωJ為其角速度(單位rad/s);fJ為控制系統(tǒng)未知非線性動(dòng)態(tài)項(xiàng);bJ為關(guān)節(jié)未知轉(zhuǎn)動(dòng)慣量(單位 k g·m2);τJ,dJ為關(guān)節(jié)控制力矩與未知擾動(dòng)項(xiàng).選定同前節(jié)的基礎(chǔ)控制器,分情況測(cè)試分析實(shí)際系統(tǒng)控制效果.

        5.1 不同體重康復(fù)者測(cè)試

        由于用戶個(gè)體差異,上肢體積與重量不盡相同,以至施加于系統(tǒng)的負(fù)載不同.分別選取偏瘦、中等、偏胖三種身形用戶,測(cè)試在不同負(fù)載條件下的控制性能.設(shè)主動(dòng)軸角度期望軌跡為=0.3 sin(t)+y0,y0=2.7,訓(xùn)練方式經(jīng)5 min 運(yùn)行完成神經(jīng)網(wǎng)絡(luò)訓(xùn)練,兩種方式測(cè)試時(shí)間為1 min.

        本節(jié)基礎(chǔ)控制器沿用式(22),其中k=30.0,bJ=16.0 kg·m2,網(wǎng)絡(luò)結(jié)構(gòu)與參數(shù)見附錄.圖6 為不同身形用戶兩種方式的跟蹤誤差MAE與控制輸入幅值MAE的統(tǒng)計(jì)圖.從中可得出:1) 兩種方式對(duì)于不同身形用戶測(cè)試中均有有更低的控制誤差;2)兩種方式的控制輸入幅值基本相等,表明訓(xùn)練過程沒有明顯提升控制輸入幅值.

        圖6 不同體重康復(fù)者測(cè)試跟蹤誤差與控制輸入MAEFig.6 The MAE of tracking errors and control inputs for tests to rehabilitation clients with different weights

        5.2 不同康復(fù)任務(wù)性能測(cè)試

        不同康復(fù)人群需制定不同的方案以達(dá)到康復(fù)目的,為此選擇兩種關(guān)節(jié)康復(fù)軌跡測(cè)試不同康復(fù)任務(wù)的系統(tǒng)控制性能.設(shè)任務(wù)1 的康復(fù)軌跡為0.2 sin(t)+y0,y0=2.7;設(shè)任務(wù)2 的康復(fù)軌跡為δ=3.0.

        圖7 為不同任務(wù)軌跡的兩種方式跟蹤誤差MAE與控制輸入幅值MAE 統(tǒng)計(jì)圖.對(duì)于兩種任務(wù)軌跡,從圖中可得與前例類似結(jié)論.此外兩種方式對(duì)于任務(wù)2 的誤差高于任務(wù)1,原因之一在于任務(wù)2 在任務(wù)1 基礎(chǔ)上增加了飽和條件,因此飽和段跟蹤誤差會(huì)有所提高,可加大訓(xùn)練時(shí)長(zhǎng)提升控制精度.

        圖7 不同康復(fù)任務(wù)測(cè)試跟蹤誤差與控制輸入MAEFig.7 The MAE of tracking errors and control inputs for tests to different rehabilitation tasks

        5.3 用戶異步擾動(dòng)測(cè)試

        康復(fù)訓(xùn)練過程中,用戶可能自發(fā)運(yùn)動(dòng)上肢關(guān)節(jié),該運(yùn)動(dòng)可視為康復(fù)機(jī)器人系統(tǒng)擾動(dòng),或?qū)е屡c系統(tǒng)出現(xiàn)異步相位差.本例在虛擬康復(fù)運(yùn)動(dòng)中施加用戶關(guān)節(jié)動(dòng)態(tài)力矩,該力矩通過手柄傳導(dǎo)作用于機(jī)器人主動(dòng)關(guān)節(jié).設(shè)用戶上肢關(guān)節(jié)力矩為τd=0.1 sin(t) (N·m),期望軌跡為=0.2 sin(t)(rad).

        本節(jié)采用文獻(xiàn)[27] 中的基于卷積神經(jīng)網(wǎng)絡(luò)(CNN) 控制和文獻(xiàn)[28] 中的深度強(qiáng)化學(xué)習(xí)控制(Deep reinforcement learning,DRL)方法作為對(duì)比方法,測(cè)試用戶異步擾動(dòng)問題的控制性能.

        為使對(duì)比結(jié)果更具說服力,本測(cè)試中三種方法所需的神經(jīng)網(wǎng)絡(luò)被設(shè)置成相同的結(jié)構(gòu)與參數(shù).均采用如文獻(xiàn)[27] 中描述的兩層卷積神經(jīng)網(wǎng)絡(luò).輸入統(tǒng)一設(shè)置成由狀態(tài)向量時(shí)序組成的矩陣,第i行狀態(tài)向量為:τ(t-ζi+1)],其中ζi=Δt(i-1)(s),Δt=0.01 s,i=1,2,3,···,N為延遲時(shí)間常數(shù).本文N=6,因此本文卷積網(wǎng)絡(luò)的輸入維數(shù)為 6×5 矩陣,CNN 兩層卷積核數(shù)均為10,卷積核大小為 3×3. 此外本文方法其他參數(shù)同前節(jié).

        文獻(xiàn)[30]中DRL 方法的單次學(xué)習(xí)批數(shù)NBatch=50,獎(jiǎng)勵(lì)函數(shù)γ設(shè)計(jì)如式(28),CNN 與DRL 方法其他相關(guān)參數(shù)設(shè)置見文獻(xiàn)[27-28].

        其中,e=J.

        圖8 為帶有康復(fù)者關(guān)節(jié)擾動(dòng)的機(jī)器人控制對(duì)比實(shí)驗(yàn)結(jié)果.需說明:1)因各方法的最大與平均控制轉(zhuǎn)矩輸出的絕對(duì)值基本相等,因此未出圖展示;2)圖中顯示的DRL 控制曲線是經(jīng)多次學(xué)習(xí)并收斂后(meanγ >0.99)的效果.從圖8 (a)看出所有方法均能快速穩(wěn)定地實(shí)現(xiàn)期望軌跡跟蹤,但從第一次波峰與波谷處曲線看出,CNN 與DRL 方法相對(duì)本文方法具有較大誤差,雖然本文方法在第一次波峰處有震蕩,但跟蹤誤差均小于對(duì)比方法.從末次波峰、波谷處曲線看出,DRL 方法的跟蹤誤差仍明顯高于其他方法,雖然CNN 方法比第一次波峰降低了誤差,但相對(duì)本文方法仍有一定差距.從圖8 (b)看出,由于初始時(shí)刻的系統(tǒng)不確定性與擾動(dòng)作用,所有方法均出現(xiàn)不同程度的抖動(dòng),但本文方法整體誤差最小,CNN 居中,DRL 方法則出現(xiàn)了較大的單向誤差(誤差值全為正).圖8 (b)中的MAE 指標(biāo)(單位rad)分別為:本文方法在線效果 9.645×10-4,本文方法訓(xùn)練后效果 8.476×10-4,CNN 方法 4.003×10-3,DRL 方法 9.515×10-3,因此可看出本文方法控制精度明顯優(yōu)于對(duì)比方法,且經(jīng)訓(xùn)練后的控制精度高于在線精度.

        圖8 帶有康復(fù)者關(guān)節(jié)擾動(dòng)的機(jī)器人控制對(duì)比實(shí)驗(yàn)結(jié)果Fig.8 Comparison results of robot control methods for joint disturbances created by rehabilitation client

        上述對(duì)比實(shí)驗(yàn)結(jié)果分析如下:1) DRL 方法的控制精度最低源于方法本身固有的優(yōu)化瓶頸問題,當(dāng)達(dá)到一定精度后因平均獎(jiǎng)勵(lì)函數(shù)趨于上限(meanγ >0.99),導(dǎo)致精度提升逐漸緩慢,同時(shí)因缺乏穩(wěn)定性保障,DRL 方法探索學(xué)習(xí)具有一定的隨機(jī)性,在實(shí)際應(yīng)用中難免發(fā)生失控問題,該隨機(jī)性或造成了單向誤差現(xiàn)象;2)雖然CNN 相對(duì)RBF 具有模型優(yōu)勢(shì),但文獻(xiàn)[28]中的CNN 方法僅用其逼近不確定項(xiàng),未充分發(fā)揮CNN 模型上的優(yōu)勢(shì),因此CNN 方法性能上限僅為基礎(chǔ)控制器對(duì)確定性系統(tǒng)的控制性;3)本文方法具有穩(wěn)定性保障和性能優(yōu)化手段,因此能在使用相同結(jié)構(gòu)與參數(shù)的CNN 網(wǎng)絡(luò)構(gòu)造控制器條件下,呈現(xiàn)較高精度效果.綜上,由對(duì)比實(shí)驗(yàn)結(jié)果與分析得出,本文方法相較其他深度學(xué)習(xí)控制方法具有一定的先進(jìn)性.

        由本節(jié)三類虛擬實(shí)驗(yàn)結(jié)果得出,對(duì)上肢康復(fù)機(jī)器人控制系統(tǒng)問題,本文方法在系統(tǒng)非線性動(dòng)態(tài)完全未知條件下對(duì)于用戶體重、任務(wù)類型與關(guān)節(jié)擾動(dòng)等不確定非線性問題具有良好的控制性能,從而驗(yàn)證了本文方法應(yīng)用于實(shí)際問題的有效性.經(jīng)過訓(xùn)練后的控制效果均優(yōu)于在線更新,進(jìn)一步證實(shí)了本文提出的梯度等效優(yōu)化方法的有效性.因此可推測(cè),實(shí)際應(yīng)用中本文方法可通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)不斷優(yōu)化各實(shí)際工況的控制品質(zhì).同時(shí)與其他相關(guān)深度學(xué)習(xí)控制方法的對(duì)比實(shí)驗(yàn),證實(shí)了本文提出的神經(jīng)網(wǎng)絡(luò)嵌入與優(yōu)化方法對(duì)于實(shí)際系統(tǒng)控制具有一定的先進(jìn)性.

        6 結(jié)束語

        通過分析與測(cè)試結(jié)果得出如下結(jié)論:1)本文方法通過神經(jīng)網(wǎng)絡(luò)控制器的嵌入在滿足Lyapunov 穩(wěn)定條件下有效地優(yōu)化了基準(zhǔn)控制器性能;2)改進(jìn)的優(yōu)化目標(biāo)函數(shù)能夠有效地優(yōu)化跟蹤誤差性能,規(guī)避了辨識(shí)環(huán)節(jié)并支持在線學(xué)習(xí);3)本文方法對(duì)函數(shù)時(shí)變與隨機(jī)擾動(dòng)具有較強(qiáng)的抑制能力,對(duì)非線性系統(tǒng)的未知?jiǎng)討B(tài)項(xiàng)具有良好的估計(jì)能力.綜上,本文提出方法相對(duì)傳統(tǒng)方法在性能優(yōu)化、不確定性與擾動(dòng)的補(bǔ)償與抑制方面具有實(shí)用性和一定的先進(jìn)性.

        未來將從如下方面開展工作:1)將方法適用范圍擴(kuò)展至輸出反饋系統(tǒng);2)引入其他控制性能指標(biāo)并設(shè)計(jì)相應(yīng)的優(yōu)化函數(shù);3) 擴(kuò)展應(yīng)用領(lǐng)域至多輸入–多輸出系統(tǒng).

        附錄A.神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)說明

        本部分主要描述仿真與實(shí)驗(yàn)部分設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)、函數(shù)、參數(shù)等相關(guān)細(xì)節(jié).

        首先對(duì)于式(3)中涉及的?函數(shù),本文采用改進(jìn)的sigmoid 函數(shù):

        其中,α≥1 為增益系數(shù),λ>0 為縮放系數(shù).選擇該函數(shù)理由為其導(dǎo)數(shù)相對(duì)平坦,且增益與有效區(qū)域可調(diào).

        仿真與實(shí)驗(yàn)中采用了不同結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)以說明本文方法對(duì)于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的廣泛適用性.

        圖A1 為仿真測(cè)試中算例1~3 和5.1 節(jié)、5.2 節(jié)中采用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu).該結(jié)構(gòu)屬于一種前向多層感知器,其中X為網(wǎng)絡(luò)輸入向量;μ為網(wǎng)絡(luò)輸出向量,其具體含義為嵌入學(xué)習(xí)控制器的輸出量;W與G分別為網(wǎng)絡(luò)可調(diào)權(quán)值矩陣(以W與G全部參數(shù)構(gòu)成的向量即式(3)中的θ);H與Y為網(wǎng)絡(luò)中間向量.Γ為激活函數(shù),本文采用LeakyReLU 函數(shù):Γ(x)=max(βx,x),β=0.18.

        圖A1 算例1~3 與5.1 節(jié)、5.2 節(jié)學(xué)習(xí)控制器神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.A1 The architecture of neural network of learning controller in exmples 1~3 and subsection 5.1~5.2

        從輸入X到嵌入控制器輸出μ關(guān)系式如下:

        算例1~3 網(wǎng)絡(luò)輸入X為 [x1,x2,yd,,u(t-ζ)]T,其中x1,x2,yd,,u分別為算例1~3 中的狀態(tài)變量、期望輸出及其導(dǎo)數(shù)和控制輸出,ζ(ζ=0.01 s)為延遲參數(shù).5.1 節(jié)和5.2 節(jié)中,網(wǎng)絡(luò)輸入分別為機(jī)械臂關(guān)節(jié)角度、角速度、關(guān)節(jié)期望角度及其導(dǎo)數(shù)和關(guān)節(jié)控制轉(zhuǎn)矩.

        因此W,G維度分別為hi×5,hi×1,hi表示第4節(jié)中算例i所對(duì)應(yīng)的向量H的維度,分別為 18,36,30.5.1節(jié)和5.2 節(jié)向量H的維度分別為 36 與30,采用Adamax作為優(yōu)化方法.

        圖A2 為算例4 中本文方法采用的嵌入神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)屬于一種變形的MLP (Multi-layer perceptron)結(jié)構(gòu).考慮了控制中的前饋機(jī)制,該網(wǎng)絡(luò)在圖A1 的網(wǎng)絡(luò)內(nèi)加入了一條前饋支路構(gòu)成了分層MLP 網(wǎng)絡(luò).其中Xf與Xb為網(wǎng)絡(luò)輸入向量,μ為網(wǎng)絡(luò)輸出,含義同上.Wf,Wb,Gf與Gb為網(wǎng)絡(luò)權(quán)值矩陣,上述4 個(gè)矩陣全部元素構(gòu)成的向量即為網(wǎng)絡(luò)的參數(shù)向量θ.Hf,Hb,Yf,Yb和Y為網(wǎng)絡(luò)中間向量.Γ函數(shù)同上一模型.

        圖A2 算例4 學(xué)習(xí)控制器神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.A2 The architecture of neural network of learning controller in the example 4

        從輸入Xf,Xb到嵌入控制器輸出μ關(guān)系式如下:

        附錄B.關(guān)鍵變量與符號(hào)說明

        表B1Table B1

        表B2Table B2

        表B3Table B3

        猜你喜歡
        優(yōu)化方法系統(tǒng)
        Smartflower POP 一體式光伏系統(tǒng)
        超限高層建筑結(jié)構(gòu)設(shè)計(jì)與優(yōu)化思考
        民用建筑防煙排煙設(shè)計(jì)優(yōu)化探討
        關(guān)于優(yōu)化消防安全告知承諾的一些思考
        一道優(yōu)化題的幾何解法
        WJ-700無人機(jī)系統(tǒng)
        ZC系列無人機(jī)遙感系統(tǒng)
        連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        免费二级毛片在线播放| 亚洲a∨无码男人的天堂| 好吊色欧美一区二区三区四区| 国产精品久久久久…| 国产一级一厂片内射视频播放| 手机在线观看日韩不卡av| 亚洲日韩av无码| 伊人网在线视频观看| 午夜av福利亚洲写真集| 成年女人窝窝视频| 亚洲综合久久中文字幕专区一区| 少妇高潮av久久久久久| 亚洲av无码av制服丝袜在线| 一区二区三区福利在线视频| 青青久久精品一本一区人人| 国产成人a∨激情视频厨房| 久久久久亚洲av无码观看| 亚洲熟妇av日韩熟妇av| 亚洲av色福利天堂久久入口| 国产精品成人va在线观看| 国产99r视频精品免费观看| 青青草原亚洲在线视频| 中文字幕精品一区久久| 国产伦久视频免费观看视频| 亚洲人成人99网站| 精品国产女主播一区在线观看| 欧美熟妇另类久久久久久不卡| 久久天天躁狠狠躁夜夜爽| 国产精品99久久久精品免费观看| 人妻少妇激情久久综合| 精品久久久久久无码专区| 一本色道av久久精品+网站 | 成人自拍一二在线观看| 男人进去女人爽免费视频| 无码 制服 丝袜 国产 另类| 久草视频在线播放免费| 国产裸体美女永久免费无遮挡| 无遮高潮国产免费观看| 喷潮出白浆视频在线观看| 国产一区二区视频在线免费观看| 日韩人妻无码一区二区三区|