王 敏 黃龍旺 楊辰光
隨著現(xiàn)代工業(yè)的快速發(fā)展,無線通信技術(shù)被廣 泛用于各類控制系統(tǒng)中,以解決工業(yè)過程的遠(yuǎn)程控制問題,同時提高設(shè)備安裝和配置的靈活性.例如,地面站對高空無人機(jī)的控制,以及控制臺對作業(yè)車間中工業(yè)機(jī)器人的遠(yuǎn)程控制等都是借助無線通信技術(shù)來實(shí)現(xiàn)的[1?2].然而,在網(wǎng)絡(luò)資源受限的情況下,傳統(tǒng)的周期性數(shù)據(jù)傳輸和執(zhí)行的控制方式很容易引發(fā)網(wǎng)絡(luò)擁塞.針對該問題,文獻(xiàn)[3]提出了事件觸發(fā)的控制策略.該策略通過僅在滿足觸發(fā)機(jī)制要求時進(jìn)行數(shù)據(jù)傳輸,從而有效地減少了控制系統(tǒng)中網(wǎng)絡(luò)資源的占用.結(jié)合事件觸發(fā)策略,自適應(yīng)控制和萬能逼近器等技術(shù),大量針對不確定非線性系統(tǒng)的事件觸發(fā)控制方案相繼被提出[4?6].需要指出的是,上述方案極少考慮系統(tǒng)存在非匹配的不確定非線性動態(tài)情況,即不確定非線性動態(tài)出現(xiàn)在非控制輸入通道.事實(shí)上,非匹配的非線性動態(tài)普遍存在于各種實(shí)際系統(tǒng),如無人車,機(jī)械臂和飛行器等[7?12].針對嵌入了 “控制器?執(zhí)行器網(wǎng)絡(luò)”的非匹配非線性系統(tǒng),國內(nèi)外學(xué)者們提出了大量具有相對或絕對事件觸發(fā)條件的控制方案[13?15].由于事件觸發(fā)條件設(shè)計與系統(tǒng)穩(wěn)定性的強(qiáng)耦合特性,導(dǎo)致上述方案很難拓展到嵌入 “傳感器?控制器網(wǎng)絡(luò)”的不確定非匹配非線性系統(tǒng).為了解決該難題,文獻(xiàn)[16]結(jié)合脈沖動力系統(tǒng)和死區(qū)算子等技術(shù),提出了具有自適應(yīng)事件觸發(fā)條件的控制方案.需要說明的是,上述方案僅適合于連續(xù)系統(tǒng).
相比于連續(xù)系統(tǒng),離散系統(tǒng)更適用于描述數(shù)字化系統(tǒng)的控制過程.然而,離散系統(tǒng)事件觸發(fā)控制方面的研究成果寥寥無幾.造成這一現(xiàn)象的主要原因是直接利用反步法對離散非匹配系統(tǒng)進(jìn)行控制器設(shè)計時,通常會產(chǎn)生非因果問題[17],故而難以將連續(xù)系統(tǒng)的研究成果直接推廣到對應(yīng)的離散系統(tǒng)上.為了克服該問題,文獻(xiàn)[18]先將原系統(tǒng)轉(zhuǎn)化成一個n步向前預(yù)測模型,并在該模型上進(jìn)行反步控制設(shè)計.在假設(shè)網(wǎng)絡(luò)資源充足的前提下,大量基于n步預(yù)測器的離散非匹配非線性系統(tǒng)的控制方案相繼被提出[19?22].考慮到遠(yuǎn)程控制中網(wǎng)絡(luò)資源受限問題,文獻(xiàn)[23]嘗試提出了基于n步預(yù)測模型的事件觸發(fā)自適應(yīng)神經(jīng)網(wǎng)絡(luò)控制方案.然而,文獻(xiàn)[23]設(shè)計的控制器存在n步滯后現(xiàn)象,且觸發(fā)條件復(fù)雜不便于實(shí)施.在此基礎(chǔ)上,文獻(xiàn)[24?25]探討了隨機(jī)噪聲情況下離散非匹配非線性系統(tǒng)的事件觸發(fā)控制問題.值得注意的是,上述的方案都沒有考慮事件觸發(fā)下系統(tǒng)的最優(yōu)控制問題和可能出現(xiàn)的執(zhí)行器故障現(xiàn)象.
眾所周知,在資源受限的情況下考慮如何利用有限的資源來優(yōu)化系統(tǒng)性能以及減少資源浪費(fèi)是非常有必要的.動態(tài)規(guī)劃是常用的解決最優(yōu)化問題的有效方法之一,但是控制動態(tài)規(guī)劃后向?qū)?yōu)的求解過程的矛盾以及系統(tǒng)維數(shù)較高時所導(dǎo)致的 “維數(shù)災(zāi)”問題,使得動態(tài)規(guī)劃難以在系統(tǒng)的最優(yōu)化控制中得到大規(guī)模的應(yīng)用[26].為了解決此問題,文獻(xiàn)[27]通過采用 “執(zhí)行?評價”結(jié)構(gòu),提出了自適應(yīng)評判設(shè)計方法.該方法使得執(zhí)行網(wǎng)絡(luò)能夠根據(jù)評價結(jié)果適時調(diào)整控制策略,從而達(dá)到實(shí)時尋優(yōu)的目的.目前,自適應(yīng)評判設(shè)計被廣泛應(yīng)用于解決離散和連續(xù)系統(tǒng)的最優(yōu)控制問題[21?22,28?30].如何將該方法推廣到具有網(wǎng)絡(luò)資源受限的離散非匹配非線性系統(tǒng)控制中是亟待解決的問題.此外,執(zhí)行器故障廣泛存在于工業(yè)生產(chǎn)過程中.執(zhí)行器故障會導(dǎo)致系統(tǒng)性能下降,甚至導(dǎo)致系統(tǒng)不穩(wěn)定[31?34].因此,在執(zhí)行器故障下,研究離散非匹配非線性系統(tǒng)的事件觸發(fā)自適應(yīng)評判容錯控制具有重要意義.
基于上述分析,本文著重研究具有非匹配結(jié)構(gòu)的離散多輸入多輸出(Multi-input multi-output,MIMO)非線性系統(tǒng)的事件觸發(fā)自適應(yīng)評判容錯控制問題.與現(xiàn)有的結(jié)果相比,本文的貢獻(xiàn)可歸納如下:1)構(gòu)造光滑的效用函數(shù)來構(gòu)建系統(tǒng)的長期性能指標(biāo)函數(shù),從而避免了現(xiàn)有的非光滑二值效用函數(shù)切換過程中可能引起的評價網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò)跳變現(xiàn)象;2)采用變量替換法將系統(tǒng)的將來信息表示成關(guān)于系統(tǒng)當(dāng)前狀態(tài)的函數(shù),從而避免了控制設(shè)計過程中的非因果問題和控制信號的n步時延問題;3)通過在控制器中引入動態(tài)補(bǔ)償項(xiàng),并結(jié)合自適應(yīng)評判設(shè)計方法,從而改善了系統(tǒng)控制性能和進(jìn)一步降低了事件觸發(fā)次數(shù).
本文所考慮的網(wǎng)絡(luò)控制系統(tǒng)模型如下
本文采用高階神經(jīng)網(wǎng)絡(luò)(High-order neural network,HONN)來逼近未知的非線性動態(tài),HONN 的結(jié)構(gòu)能夠用如下方程來描述:
如圖1 所示,本文主要考慮系統(tǒng)的傳感器和控制器通訊時采用事件觸發(fā)機(jī)制進(jìn)行數(shù)據(jù)傳輸.當(dāng)觸發(fā)條件滿足時,傳感器將采集到的系統(tǒng)狀態(tài)數(shù)據(jù)通過網(wǎng)絡(luò)傳輸給控制器.為了便于事件觸發(fā)條件的設(shè)計,本文定義如下的傳輸誤差
圖1 網(wǎng)絡(luò)控制系統(tǒng)框圖Fig.1 Schematic diagram of networked control systems
其中,kt表示上一個事件觸發(fā)時刻,X(k) 為系統(tǒng)(1)的當(dāng)前狀態(tài),X(kt) 為上一次傳輸?shù)南到y(tǒng)狀態(tài).
在這一節(jié)中,針對所考慮的系統(tǒng)(1),本文提出了一種基于事件觸發(fā)的自適應(yīng)評判容錯控制方案.
為了便于控制器設(shè)計,定義如下的誤差變量
基于以上定義的誤差變量(7)和中間函數(shù)(8),評價網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò)的具體設(shè)計過程給出如下.
首先,定義效用函數(shù)
其中,ηj >0 是一個可調(diào)參數(shù).根據(jù)式(9)可知,當(dāng)跟蹤誤差zj,1(k)=0 時,qj(k)=0;當(dāng)跟蹤誤差zj,1(k)→±∞時,qj(k)→1. 因此,qj(k) 可視作系統(tǒng)當(dāng)前性能的評價.基于效用函數(shù)qj(k),定義系統(tǒng)長期性能指標(biāo)函數(shù)
其中,0<ζj <1.根據(jù)定義(10)可得
式(11)也被稱為Bellman 等式.采用評價網(wǎng)絡(luò)對Qj(k) 進(jìn)行逼近,則有
注 1.在評價網(wǎng)絡(luò)的設(shè)計中,文獻(xiàn)[22,31]都采用二值效用函數(shù)來構(gòu)建長期的性能函數(shù).由于評價網(wǎng)絡(luò)與執(zhí)行網(wǎng)絡(luò)相關(guān)聯(lián),二值效用函數(shù)值的突變會對執(zhí)行網(wǎng)絡(luò)造成沖擊,從而加速執(zhí)行部件的老化和磨損.為了避免該問題,本文利用指數(shù)函數(shù)和跟蹤誤差zj,1(k) 定義了一個光滑的效用函數(shù)(9).從式(9)可知,qj(k) 的值在 [ 0,1) 之間連續(xù)變化,從而能夠避免由于效用函數(shù)值的突變造成執(zhí)行網(wǎng)絡(luò)的沖擊.
這部分主要進(jìn)行執(zhí)行網(wǎng)絡(luò)的設(shè)計.首先,利用反步法設(shè)計出理想的控制律,并用執(zhí)行網(wǎng)絡(luò)來對其進(jìn)行逼近.具體設(shè)計過程如下.
根據(jù)式(19),式(21) 中的αj,1(k+1) 中包含系統(tǒng)的將來信息x1(k+1).若不加以處理,接下來設(shè)計出的虛擬控制律和實(shí)際控制律中都將包含系統(tǒng)的將來信息,導(dǎo)致所得出的控制律不可實(shí)現(xiàn).為了解決該問題,本文利用變量替換的方法將αj,1(k+1)表示成關(guān)于系統(tǒng)當(dāng)前狀態(tài)的函數(shù):
根據(jù)式(19)、(23)和中間函數(shù)(8),可推知
注 2.在控制器的設(shè)計中,不同于文獻(xiàn)[18?22]所采用的n步向前預(yù)測模型方法,本文利用以當(dāng)前時刻系統(tǒng)狀態(tài)為變量的函數(shù)來刻畫虛擬控制律的將來信息(26),從而成功避免了在離散系統(tǒng)控制設(shè)計過程中可能出現(xiàn)的非因果問題以及基于n步預(yù)測模型所導(dǎo)致的控制信號滯后n步的問題.
注 3.從式(26) 可知,虛擬控制律的將來信息(k+1)已經(jīng)被表示為系統(tǒng)狀態(tài)當(dāng)前信息和參考信號將來信息的函數(shù).類似于現(xiàn)有文獻(xiàn)[18?22],本文假定參考信號是人為給定的,能夠事先獲得將來信息.此外,如果實(shí)際系統(tǒng)中參考信號的將來信息無法預(yù)先獲得,那么可以構(gòu)造ij步參考信號預(yù)測器,從而可以解決該問題.
注 4.注意到本文所考慮的系統(tǒng)(1) 是全狀態(tài)可測的.然而,通過構(gòu)造狀態(tài)觀測器[35]和引入控制增益函數(shù)(·)(j=1,2,···,N)是已知的約束,本文所提出的狀態(tài)反饋控制方案很容易推廣到系統(tǒng)狀態(tài)不完全可測的情況.需要指出的是,在狀態(tài)不完全可測的情況下,對于未知函數(shù)增益(·) 的處理目前仍是一個開放性和具有挑戰(zhàn)性的問題.
注意到事件觸發(fā)機(jī)制設(shè)計的主要目的在于節(jié)省網(wǎng)絡(luò)資源,該機(jī)制決定了是否將傳感器采集到的當(dāng)前時刻的系統(tǒng)數(shù)據(jù)發(fā)送給控制器.為了能夠在節(jié)省網(wǎng)絡(luò)帶寬情況下仍然保證系統(tǒng)的控制性能,本文首先設(shè)計了如下的靜態(tài)事件觸發(fā)條件:
那么閉環(huán)系統(tǒng)中的所有信號都是最終一致有界的.
基于定理1 的研究結(jié)果,本文借鑒動態(tài)事件觸發(fā)機(jī)制設(shè)計思想[36?37],進(jìn)一步對定理1 的研究結(jié)果進(jìn)行了推廣.
定理 2.考慮離散多輸入多輸出系統(tǒng)(1),控制器(33)、(40),評價網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò)的權(quán)值更新律(15) 和(37),以及設(shè)計如下的動態(tài)事件觸發(fā)條件:
若設(shè)計參數(shù)laj,lcj,σaj,σcj,?j,rj,ij(ij=1,2,···,nj),0<ζj <1,0<βj <1,0<γaj <1/laj,0<γcj <1/lcj滿足條件(43),且 0
定理2 的證明與定理1 類似,讀者可自行證明.
注 5.定理2 通過在定理1 的靜態(tài)事件觸發(fā)條件(42)中引入額外的動態(tài)變量hj(k),構(gòu)造出了典型的動態(tài)事件觸發(fā)條件(57).隨后,可以通過修改Lyapunov 函數(shù)為并采用類似定理1 的證明過程,很容易證明在動態(tài)事件觸發(fā)條件(57)下閉環(huán)系統(tǒng)的所有信號也是最終一致有界的.此外,通過簡單地分析可以得出,相比于靜態(tài)事件觸發(fā)條件(42),動態(tài)事件觸發(fā)條件(57)能夠進(jìn)一步降低事件觸發(fā)的次數(shù).但需要指出的是,額外動態(tài)變量hj(k) 的引入,將導(dǎo)致動態(tài)事件觸發(fā)條件(57) 的計算量有所增加.因此,在實(shí)際應(yīng)用中,用戶可以結(jié)合自身的網(wǎng)絡(luò)帶寬和處理器的情況選擇適當(dāng)?shù)氖录|發(fā)條件.
本章分別選取了數(shù)值算例和雙連桿機(jī)械臂系統(tǒng)的仿真實(shí)例,來驗(yàn)證本文所提出的方案的有效性.
首先,考慮參考文獻(xiàn)[19]中的數(shù)值模型:
仿真步長T=0.01 s,仿真步數(shù)N=2 000.仿真結(jié)果如圖2~圖7 所示.圖2 和圖3 表明了系統(tǒng)的輸出能夠很好地跟蹤上給定的參考信號.圖4 指示了事件觸發(fā)間隔.從圖5 可以看出,評價網(wǎng)絡(luò)的輸出始終在零附近,進(jìn)一步說明系統(tǒng)取得了令人滿意的控制性能.圖6 和圖7 表明了執(zhí)行網(wǎng)絡(luò)和評價網(wǎng)絡(luò)的權(quán)值的有界性.在2 000 步仿真中,總的數(shù)據(jù)傳輸次數(shù)為843 次,較時間觸發(fā)的控制方案減少了約60% 的網(wǎng)絡(luò)資源占用.
圖2 子系統(tǒng)1 輸出跟蹤效果Fig.2 Output tracking performance of subsystem 1
圖3 子系統(tǒng)2 輸出跟蹤效果Fig.3 Output tracking performance of subsystem 2
圖4 事件觸發(fā)間隔Fig.4 Event triggering interval
圖5 長期性能函數(shù)Fig.5 Long-term performance function
圖6 執(zhí)行網(wǎng)絡(luò)的權(quán)值范數(shù)Fig.6 Norm of action NN weights
圖7 評價網(wǎng)絡(luò)的權(quán)值范數(shù)Fig.7 Norm of critic NN weights
此外,本文進(jìn)行了兩組對比仿真實(shí)驗(yàn),并采用平均絕對誤差(Mean absolute error,MAE) 和平均帶寬占用(Average bandwidth occupation,ABO)來對系統(tǒng)的性能進(jìn)行定量刻畫:
其中,ne表示總的數(shù)據(jù)傳輸次數(shù),pL表示一次發(fā)送的數(shù)據(jù)包長度,bL表示數(shù)據(jù)類型的比特長度,T ×N表示時間長度.在仿真中,傳輸?shù)南蛄縓(k) 中包含4個元素,數(shù)據(jù)類型為float.由此可計算pL=4,bL=32bit.
第1 組對比實(shí)驗(yàn)的結(jié)果見表1.通過對比表格1 中的數(shù)據(jù),可以看出執(zhí)行器故障補(bǔ)償機(jī)制和光滑的效用函數(shù)在改善系統(tǒng)性能方面的有效性.第2 組對比實(shí)驗(yàn)的結(jié)果見表2.為了便于表示,表2 中“SETC” (Static event-triggered condition)代表靜態(tài)事件觸發(fā)條件;“DETC” (Dynamical eventtriggered condition) 代表動態(tài)事件觸發(fā)條件,“CPU”(Central processing unit)代表電腦中央處理器.對比表2 中的數(shù)據(jù)可知,DETC (57) (pj1=0.01,pj2=101) 相比于SETC (42)而言,能夠進(jìn)一步減少事件觸發(fā)次數(shù),同時也因?yàn)閯討B(tài)變量hj(k) 的引入導(dǎo)致了算法計算量的增加.
表1 仿真實(shí)驗(yàn)對比1Table 1 Comparison of simulation results
表2 仿真實(shí)驗(yàn)對比2Table 2 Comparison of simulation results
為了進(jìn)一步說明本文方案的有效性,本文對雙連桿機(jī)械臂模型進(jìn)行了仿真實(shí)驗(yàn).已知雙連桿機(jī)械臂的歐拉?拉格朗日動力學(xué)模型[29]為:
圖8 例2 關(guān)節(jié)1 的輸出跟蹤效果Fig.8 Tracking performance of joint 1 of Example 2
圖9 例2 關(guān)節(jié)2 的輸出跟蹤效果Fig.9 Tracking performance of joint 2 of Example 2
圖10 例2 的事件觸發(fā)間隔Fig.10 Event triggering interval of Example 2
圖11 例2 的長期性能指標(biāo)函數(shù)Fig.11 Long-term performance function of Example 2
圖12 例2 的執(zhí)行網(wǎng)絡(luò)權(quán)值范數(shù)Fig.12 Norm of action NN weights of Example 2
圖13 例2 的評價網(wǎng)絡(luò)權(quán)值范數(shù)Fig.13 Norm of critic NN weights of Example 2
本文針對存在執(zhí)行器故障的離散MIMO 嚴(yán)格反饋非線性系統(tǒng)的最優(yōu)跟蹤控制問題,提出了一種基于事件觸發(fā)的自適應(yīng)評判控制設(shè)計方案.相比于現(xiàn)有的基于n步預(yù)測模型的控制方案,本文所提出的基于變量替換控制方案避免了控制信號的n步時延問題.此外,通過設(shè)計執(zhí)行器故障補(bǔ)償機(jī)制,事件觸發(fā)機(jī)制與自適應(yīng)評判機(jī)制,本文所提出的控制方案不僅節(jié)省了網(wǎng)絡(luò)資源占用,而且改善了系統(tǒng)的控制性能.最后仿真結(jié)果驗(yàn)證了本文所提出的方案的有效性.注意到在離散系統(tǒng)的網(wǎng)絡(luò)控制方面仍然有諸多待解決的問題,例如數(shù)據(jù)丟包[38],網(wǎng)絡(luò)攻擊[39],執(zhí)行器故障估計[40?41]等,這些問題將是我們未來的工作方向.