陳 辭,謝立華
(1. 廣東工業(yè)大學 自動化學院,廣東 廣州 510006;2. 廣東省物聯(lián)網(wǎng)信息技術(shù)重點實驗室, 廣東 廣州 510006;3. 新加坡南洋理工大學 電氣電子工程學院,新加坡 639798)
跟蹤控制的研究目標是:設(shè)計控制輸入使被控系統(tǒng)的輸出跟蹤給定軌跡(包括定點跟蹤)。如何實現(xiàn)動態(tài)系統(tǒng)的跟蹤控制是工業(yè)生產(chǎn)領(lǐng)域關(guān)鍵的工程課題,也是控制科學領(lǐng)域重要的學術(shù)問題。在工業(yè)流程與智能制造中,迫切需要控制生產(chǎn)過程中的關(guān)鍵參數(shù),使其準確跟隨設(shè)定值[1];精密制造加工中,需要控制機器人操作臂,使其末端運動跟蹤指定軌跡[2]。
控制領(lǐng)域中,輸出調(diào)節(jié)理論是一類能夠?qū)崿F(xiàn)跟蹤的控制方法。該理論將跟蹤控制器設(shè)計問題轉(zhuǎn)化為輸出調(diào)節(jié)方程求解問題[3]。已有結(jié)論表明[3-4],即使被控系統(tǒng)存在一定外部擾動,輸出調(diào)節(jié)理論依然可實現(xiàn)精確跟蹤控制。但求解輸出調(diào)節(jié)方程往往需要假設(shè)系統(tǒng)模型精確已知,一些復雜動態(tài)控制場景可能無法滿足這一假設(shè),這限制了基于輸出調(diào)節(jié)理論的工程應(yīng)用。針對不精確模型問題,控制領(lǐng)域已催生了大量自適應(yīng)研究成果,能較好地實現(xiàn)跟蹤控制,如文獻[5-9]及其引用文獻所示。值得注意的是,當自適應(yīng)控制方法應(yīng)用于實際場景時,不僅要求閉環(huán)系統(tǒng)穩(wěn)定,還需實現(xiàn)指定系統(tǒng)性能的優(yōu)化控制。為此,研究人員提出了間接自適應(yīng)控制器設(shè)計方法,實現(xiàn)了基于系統(tǒng)模型的最優(yōu)控制[10]?;跇O限搜索的控制方法對控制系統(tǒng)的穩(wěn)定性進行了分析,并提高了被控系統(tǒng)的性能,具體可參考文獻[11-12]。
強化學習是一種通過反饋未知環(huán)境的交互信息,控制本體行為以達成最優(yōu)控制的人工智能方法[13-14]。強化學習算法已應(yīng)用于反饋控制,可在不精確系統(tǒng)模型下實現(xiàn)離散時間系統(tǒng)[13,15]和連續(xù)時間系統(tǒng)[13,15-22]的最優(yōu)控制?;谖墨I[13]的研究成果,文獻[23-24]實現(xiàn)了線性和非線性離散時間系統(tǒng)的最優(yōu)跟蹤控制。文獻[25-26]考慮了線性離散系統(tǒng)零和博弈控制。文獻[27]將強化學習與輸出調(diào)節(jié)理論相結(jié)合,給出了漸近跟蹤控制方法?;谖墨I[28]的狀態(tài)重構(gòu)方法,文獻[29-30]給出了基于輸出跟蹤的強化學習方法。文獻[31]研究了非線性離散時間多智能體最優(yōu)輸出調(diào)節(jié)協(xié)同控制。文獻[32] 提出了基于輸出調(diào)節(jié)的跟蹤控制器輸出反饋設(shè)計。雖然已有研究考慮了離散系統(tǒng)的跟蹤控制,但多數(shù)不能保證系統(tǒng)狀態(tài)的收斂速度?;隰敯糨敵稣{(diào)節(jié)理論,如何實現(xiàn)具有指定收斂速度的數(shù)據(jù)驅(qū)動跟蹤控制依然有待研究。
基于上述討論,本文將結(jié)合魯棒輸出調(diào)節(jié)和強化學習理論,研究具有指定收斂速度的跟蹤控制問題。本文將采集離散系統(tǒng)的實時數(shù)據(jù),提出數(shù)據(jù)驅(qū)動的魯棒跟蹤控制器的設(shè)計方法,使跟蹤誤差達到指定收斂速度。與基于線性輸出調(diào)節(jié)理論的已有結(jié)論[33]相比較,本文給出的設(shè)計方法滿足魯棒輸出調(diào)節(jié)理論,增強了系統(tǒng)的魯棒性。此外,本文提出新的指定收斂速度的設(shè)計方法,將指定收斂速度融入到數(shù)據(jù)驅(qū)動強化學習中,最終實現(xiàn)跟蹤反饋控制。該設(shè)計過程不依賴精確系統(tǒng)模型和系統(tǒng)演化時間。因此,本文所述方法無需提前辨識系統(tǒng)輸出矩陣或者實時記錄系統(tǒng)時間,這在算法層面提高了計算效率,節(jié)約了計算資源。
本文結(jié)構(gòu)概述如下:第1節(jié)將闡述離散時間系統(tǒng)的指定收斂速度跟蹤控制問題,并覆蓋最優(yōu)控制相關(guān)基礎(chǔ);第2節(jié)將給出離散系統(tǒng)數(shù)據(jù)驅(qū)動設(shè)計方法,實現(xiàn)具有指定收斂速度的跟蹤控制;第3節(jié)將概括本文結(jié)論。
假設(shè)1是最優(yōu)控制領(lǐng)域的標準條件[13]。假設(shè)2去除了漸近穩(wěn)定參考系統(tǒng)這一平凡條件[34]。假設(shè)2~4常見于輸出調(diào)節(jié)的相關(guān)文獻中[34]。
本文擬研究的問題概括如下:
問題1 利用參考系統(tǒng)數(shù)據(jù)與被控系統(tǒng)數(shù)據(jù),而非基于系統(tǒng)的精確模型(A,B,C,D,E,S,R),設(shè)計輸出調(diào)節(jié)器使得輸出跟蹤誤差ye(k)漸近穩(wěn)定,同時ye(k)的收斂速度須快于 γ?k,其中γ>1表示由設(shè)計者指定的跟蹤誤差收斂速度。
為解決問題1,根據(jù)系統(tǒng)描述式(1)~(5),首先構(gòu)建跟蹤控制方案。因此考慮式(6)~(7)的基于魯棒輸出調(diào)節(jié)理論的離散時間動態(tài)控制器。
式中:z(k)為由輸出誤差ye(k)驅(qū)動的動態(tài)信號;(F,G)包含矩陣S的內(nèi)模;矩陣K和H為實現(xiàn)跟蹤控制的增益矩陣,后文將從系統(tǒng)數(shù)據(jù)中得到。不同于已有研究利用線性輸出調(diào)節(jié)理論[33],本文利用魯棒輸出調(diào)節(jié)理論設(shè)計跟蹤控制器,其對不確定系統(tǒng)具有一定魯棒性,如文獻[34]所示。
將動態(tài)跟蹤控制器式(7)代入離散系統(tǒng)式(1),得
根據(jù)最優(yōu)控制理論[13],跟蹤問題需要滿足2個條件:(1) 增益矩陣Kˉ使輸出誤差e(k)鎮(zhèn)定到零;(2) 滿足最小化性能指標
本節(jié)將利用強化學習算法實現(xiàn)數(shù)據(jù)驅(qū)動跟蹤控制,從而解決問題1。為此,施加如下行為策略到離散時間系統(tǒng)式(1)。
式中:k0 與文獻[13, 17]類似,式(31)的條件保證了式(30)具有唯一解。令區(qū)間[k0,kf]上收集的系統(tǒng)數(shù)據(jù)滿足 本節(jié)所述具有指定收斂速度的跟蹤控制器設(shè)計可總結(jié)為算法1。算法1是基于值迭代的數(shù)據(jù)驅(qū)動設(shè)計方法,其允許任意初始控制策略。這不同于策略迭代方法需要初始鎮(zhèn)定控制策略。 算法1 具有指定收斂速度的數(shù)據(jù)驅(qū)動跟蹤控制算法 本文研究了具有指定收斂速度的離散時間系統(tǒng)數(shù)據(jù)驅(qū)動設(shè)計問題,提出了基于魯棒輸出調(diào)節(jié)理論的跟蹤控制器設(shè)計方案。利用系統(tǒng)數(shù)據(jù)與強化學習理論實現(xiàn)了指定收斂速度的跟蹤控制,同時保證了學習得到的控制器具有針對不確定系統(tǒng)動態(tài)的魯棒性。3 總結(jié)