王 鼎 胡凌治 趙明明 哈明鳴 喬俊飛
在實(shí)際應(yīng)用中,外部干擾帶來(lái)的困難總是存在的,因此在設(shè)計(jì)控制器時(shí)不可避免地需要考慮擾動(dòng)[1].H∞最優(yōu)控制作為魯棒最優(yōu)控制方法的一個(gè)重要分支,在抑制外界擾動(dòng)對(duì)系統(tǒng)性能的影響方面得到了廣泛的關(guān)注[2-4].二人零和博弈作為H∞最優(yōu)控制的特有形式,其核心思想是要求控制輸入使得代價(jià)函數(shù)最小化并且擾動(dòng)信號(hào)使得代價(jià)函數(shù)最大化.近年來(lái),對(duì)于非線性零和博弈的最優(yōu)控制問(wèn)題,學(xué)者們大多通過(guò)求解相應(yīng)的Hamilton-Jacobi-Isaacs 方程,這比求解Hamilton-Jacobi-Bellman 方程更加困難[5].到目前為止,尚缺乏有效的方法來(lái)得到解析解.受到強(qiáng)化學(xué)習(xí)方法的啟示,Werbos 在文獻(xiàn)[6]中提出了一種自適應(yīng)能力強(qiáng)的自適應(yīng)動(dòng)態(tài)規(guī)劃(Adaptive dynamic programming,ADP)方法.該方法能夠獲得一般情況下令人滿(mǎn)意的Hamilton-Jacobi-Isaacs方程的數(shù)值解.由于ADP 的智能屬性,使得相關(guān)的方法受到了廣泛的關(guān)注[7-15].ADP 算法在實(shí)現(xiàn)過(guò)程中常見(jiàn)的兩種結(jié)構(gòu)形式為:啟發(fā)式動(dòng)態(tài)規(guī)劃和雙重啟發(fā)式動(dòng)態(tài)規(guī)劃.此外,ADP 算法在迭代方面可分為值迭代[7-8]和策略迭代[9-10]兩類(lèi).值迭代算法從任意半正定初始代價(jià)函數(shù)出發(fā),不需要初始穩(wěn)定控制策略.值得注意的是這個(gè)初始代價(jià)函數(shù)通常設(shè)為零,使得值迭代算法更容易實(shí)現(xiàn).策略迭代算法需要從初始穩(wěn)定控制律開(kāi)始,逐步改進(jìn)控制策略以達(dá)到最優(yōu)控制律.到目前為止,已有大量工作通過(guò)采用ADP方法解決各種控制問(wèn)題,例如約束控制[11]、最優(yōu)跟蹤控制[12]、魯棒控制[13]和事件觸發(fā)控制[14]等,這充分彰顯了ADP 算法的適用性和巨大潛力.特別地,文獻(xiàn)[8]首次分析了啟發(fā)式動(dòng)態(tài)規(guī)劃框架下值迭代算法的收斂性.文獻(xiàn)[15]研究了一種帶有折扣不確定非線性動(dòng)態(tài)系統(tǒng)的代價(jià)保證自適應(yīng)最優(yōu)反饋鎮(zhèn)定問(wèn)題.在本文中,將采用迭代ADP 算法來(lái)獲得零和博弈跟蹤控制下的近似最優(yōu)策略對(duì).
近幾十年來(lái),非線性系統(tǒng)的最優(yōu)控制問(wèn)題一直是控制工程領(lǐng)域的研究熱點(diǎn).眾所周知,最優(yōu)控制問(wèn)題可以分為最優(yōu)跟蹤[16]和最優(yōu)調(diào)節(jié)[17]兩大類(lèi),其中,最優(yōu)跟蹤的實(shí)質(zhì)是使系統(tǒng)的狀態(tài)跟蹤上預(yù)設(shè)的參考軌跡,而最優(yōu)調(diào)節(jié)的實(shí)質(zhì)是使?fàn)顟B(tài)最終收斂到平衡點(diǎn).如今,ADP 算法已被廣泛應(yīng)用于解決最優(yōu)軌跡跟蹤問(wèn)題.文獻(xiàn)[18]針對(duì)離散時(shí)間非線性系統(tǒng)的迭代啟發(fā)式動(dòng)態(tài)規(guī)劃算法設(shè)計(jì)了一個(gè)性能指標(biāo),用于解決無(wú)限時(shí)域最優(yōu)軌跡跟蹤問(wèn)題.文獻(xiàn)[12]設(shè)計(jì)了基于執(zhí)行-評(píng)判框架的局部無(wú)模型控制器,用于在線控制系統(tǒng)狀態(tài)跟蹤上目標(biāo)軌跡.文獻(xiàn)[19]通過(guò)轉(zhuǎn)換代價(jià)函數(shù),設(shè)計(jì)一種新型的跟蹤控制方法用于消除跟蹤誤差.值得注意的是,上述方法更傾向于控制模型已知的仿射系統(tǒng),而對(duì)于模型未知的非仿射系統(tǒng)卻難以獲得良好的控制效果.為了有效地解決非仿射系統(tǒng)的跟蹤控制問(wèn)題,文獻(xiàn)[20]基于迭代雙重啟發(fā)式動(dòng)態(tài)規(guī)劃算法設(shè)計(jì)了一種數(shù)值計(jì)算的方法來(lái)獲得目標(biāo)軌跡的穩(wěn)定控制.在實(shí)際應(yīng)用方面,文獻(xiàn)[21]設(shè)計(jì)了一種基于折扣廣義值迭代的智能算法用于跟蹤控制污水處理過(guò)程中溶解氧和硝態(tài)氮的質(zhì)量濃度.如今,通過(guò)采用ADP 算法解決軌跡跟蹤問(wèn)題已經(jīng)得到了廣泛的研究.然而,對(duì)于未知非線性系統(tǒng)零和博弈跟蹤控制問(wèn)題的研究卻很少.在本文中,將采用數(shù)值計(jì)算方法求解目標(biāo)軌跡的穩(wěn)定控制,然后根據(jù)這個(gè)穩(wěn)定控制來(lái)獲得跟蹤控制律和跟蹤擾動(dòng)律,進(jìn)而解決未知非線性系統(tǒng)的零和博弈跟蹤控制問(wèn)題.
在系統(tǒng)穩(wěn)定控制的基礎(chǔ)上,能源損耗問(wèn)題已經(jīng)逐漸成為工業(yè)發(fā)展的焦點(diǎn)之一.事件觸發(fā)控制通過(guò)設(shè)計(jì)一個(gè)合適的事件觸發(fā)條件,在這個(gè)預(yù)定義的條件被違反時(shí)對(duì)系統(tǒng)狀態(tài)進(jìn)行采樣.由于與傳統(tǒng)的周期性時(shí)間觸發(fā)控制相比,事件觸發(fā)控制能夠減少控制所需的通信量和計(jì)算資源,因此這種控制模式特別適合于嵌入式系統(tǒng)和網(wǎng)絡(luò)控制系統(tǒng)[22].在事件觸發(fā)控制過(guò)程中,控制器并不是以連續(xù)的方式更新控制律,而是在控制系統(tǒng)的離散采樣時(shí)刻瞬間進(jìn)行更新.然而,在兩個(gè)連續(xù)的采樣時(shí)刻之間存在著最大允許傳輸間隔,為了達(dá)到預(yù)期的性能,觸發(fā)間隔通常選擇在允許范圍之內(nèi).為此,相關(guān)研究者在提出各種事件觸發(fā)控制方法上做出了大量貢獻(xiàn)[22-27].文獻(xiàn)[23]設(shè)計(jì)了一種基于事件的近似最優(yōu)控制器用于解決離散時(shí)間非仿射系統(tǒng)的控制約束問(wèn)題.文獻(xiàn)[24]針對(duì)一類(lèi)仿射離散時(shí)間非線性系統(tǒng),設(shè)計(jì)了一種次優(yōu)的事件觸發(fā)條件.文獻(xiàn)[25]針對(duì)未知非線性系統(tǒng)設(shè)計(jì)了一種基于事件的迭代自學(xué)習(xí)控制器,并從輸入到狀態(tài)穩(wěn)定性(Input-to-state stability,ISS) 的角度分析了閉環(huán)系統(tǒng)的穩(wěn)定性.文獻(xiàn)[26]和文獻(xiàn)[27]采用基于啟發(fā)式動(dòng)態(tài)規(guī)劃框架的事件觸發(fā)控制方法分別解決了離散時(shí)間系統(tǒng)和連續(xù)時(shí)間系統(tǒng)的最優(yōu)調(diào)節(jié)問(wèn)題.到目前為止,還沒(méi)有采用迭代自適應(yīng)評(píng)判的事件觸發(fā)控制方法解決離散時(shí)間未知非線性系統(tǒng)零和博弈跟蹤控制問(wèn)題的結(jié)果.
基于此,本文針對(duì)離散時(shí)間未知非線性系統(tǒng)設(shè)計(jì)一種基于事件的近似最優(yōu)軌跡跟蹤算法,目的在于解決零和博弈軌跡跟蹤控制問(wèn)題并減少計(jì)算量.為了更容易獲得近似最優(yōu)跟蹤策略對(duì),采用迭代自適應(yīng)評(píng)判方法將最優(yōu)跟蹤控制問(wèn)題轉(zhuǎn)化為最優(yōu)調(diào)節(jié)問(wèn)題.然后,設(shè)計(jì)一個(gè)合適的事件觸發(fā)條件對(duì)跟蹤策略對(duì)進(jìn)行階段性更新.值得注意的是,事件觸發(fā)的引入可能導(dǎo)致系統(tǒng)不穩(wěn)定.因此,本文將采用ISSLyapunov 方法證明被控誤差系統(tǒng)是漸近穩(wěn)定的.最后,通過(guò)兩個(gè)仿真實(shí)例驗(yàn)證了本文提出算法的有效性.
在本文中,R和 N 分別表示所有實(shí)數(shù)集和所有非負(fù)整數(shù)集合. Rn表示由全部n-維實(shí)向量組成的歐氏空間. Rn×m表示n×m實(shí)矩陣組成的空間.Ω表示 Rn上的一個(gè)緊集.In表示n×n維的單位矩陣. T 代表轉(zhuǎn)置運(yùn)算.
考慮一類(lèi)非仿射離散時(shí)間系統(tǒng):
式中,xk∈Rn是狀態(tài)向量,uk∈Rm是控制向量,wk∈Rr是外部擾動(dòng),F(·) 是一個(gè)未知非線性系統(tǒng)函數(shù).
假設(shè)1[28].函數(shù)F(·) 在包含原點(diǎn)的緊集Ω?Rn上Lipschitz 連續(xù),且系統(tǒng)(1)是可控的,即存在連續(xù)的控制策略使得系統(tǒng)穩(wěn)定.
考慮零和博弈跟蹤控制問(wèn)題,目標(biāo)是設(shè)計(jì)一個(gè)反饋控制策略u(píng)(xk)和一個(gè)反饋擾動(dòng)策略w(xk),使得系統(tǒng)(1)中的狀態(tài)xk跟蹤上預(yù)設(shè)的參考軌跡.假設(shè)有界參考軌跡ξk滿(mǎn)足:
眾所周知,對(duì)于模型已知的仿射系統(tǒng),很容易得到相應(yīng)的穩(wěn)定控制.然而,對(duì)于模型未知的非仿射系統(tǒng),關(guān)于跟蹤控制的研究依舊較少.本文采用一種數(shù)學(xué)方法獲得穩(wěn)定控制v(ξk),進(jìn)而解決零和博弈跟蹤控制問(wèn)題.為了將跟蹤問(wèn)題轉(zhuǎn)化為調(diào)節(jié)器問(wèn)題,定義跟蹤控制律和跟蹤擾動(dòng)律為:
通過(guò)結(jié)合式(1)~(5),在時(shí)間觸發(fā)機(jī)制下的關(guān)于跟蹤誤差的系統(tǒng)動(dòng)態(tài)可以表示為:
式中,S(·) 是一個(gè)連續(xù)性函數(shù),并且滿(mǎn)足S(0,0,0)=0.
對(duì)于零和博弈最優(yōu)跟蹤控制問(wèn)題,目標(biāo)是找到一個(gè)控制策略μ(·)和一個(gè)擾動(dòng)策略π(·) 分別使得代價(jià)函數(shù)最小化和最大化.本文將代價(jià)函數(shù)定義為:
式中,Q∈Rn×n、R∈Rm×m是兩個(gè)正定矩陣,γ是描述擾動(dòng)衰減水平的正常數(shù).
根據(jù)Bellman 最優(yōu)性原理,誤差系統(tǒng)(9)的最優(yōu)代價(jià)函數(shù)滿(mǎn)足:
由式(14)可以看出,想要通過(guò)傳統(tǒng)的方法直接求出最優(yōu)策略對(duì)就必須知道J*(ek+1)的值并且需要知道系統(tǒng)模型.然而,這對(duì)于非仿射系統(tǒng)來(lái)說(shuō)是困難的.因此,在第2 節(jié)引入一種值迭代算法,目的是通過(guò)神經(jīng)網(wǎng)絡(luò)的逼近效應(yīng)去獲得近似的最優(yōu)策略對(duì).
在本節(jié)中,推導(dǎo)了零和博弈誤差系統(tǒng)在事件觸發(fā)機(jī)制下的迭代過(guò)程并給出神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)方法.
隨著迭代指標(biāo)l的增加,整個(gè)學(xué)習(xí)過(guò)程可以視為不斷更新迭代策略對(duì):
為了實(shí)現(xiàn)迭代自適應(yīng)評(píng)判算法,構(gòu)建四個(gè)神經(jīng)網(wǎng)絡(luò),即模型網(wǎng)絡(luò)、評(píng)判網(wǎng)絡(luò)、執(zhí)行網(wǎng)絡(luò)和擾動(dòng)網(wǎng)絡(luò),目的是通過(guò)連續(xù)逼近方法獲得近似最優(yōu)策略對(duì)通過(guò)建立模型網(wǎng)絡(luò)得到原系統(tǒng)的近似狀態(tài)并求出參考軌跡的穩(wěn)定控制v(ξk).此外,通過(guò)訓(xùn)練另外三個(gè)神經(jīng)網(wǎng)絡(luò)得到近似代價(jià)函數(shù)和近似策略對(duì).總體而言,本文提出的事件觸發(fā)最優(yōu)跟蹤控制方法如圖1 所示.
圖1 基于事件的零和博弈跟蹤控制方法示意圖Fig.1 The simple structure of the event-based zero-sum game tracking control method
1)模型網(wǎng)絡(luò).由于原系統(tǒng)是未知的,需要構(gòu)造一個(gè)模型網(wǎng)絡(luò)來(lái)識(shí)別系統(tǒng)動(dòng)態(tài).目的是得到近似的系統(tǒng)狀態(tài)其神經(jīng)網(wǎng)絡(luò)表達(dá)式為:
本文運(yùn)用Matlab 神經(jīng)網(wǎng)絡(luò)工具箱來(lái)訓(xùn)練模型網(wǎng)絡(luò).對(duì)于跟蹤控制問(wèn)題,目標(biāo)是確保系統(tǒng)狀態(tài)軌跡xk能夠跟蹤上參考軌跡ξk.然后,式(4)的神經(jīng)網(wǎng)絡(luò)表達(dá)式可以寫(xiě)為:
根據(jù)梯度下降算法,評(píng)判網(wǎng)絡(luò)的權(quán)值矩陣更新規(guī)則為:
式中,αc∈(0,1) 為評(píng)判網(wǎng)絡(luò)的學(xué)習(xí)率.
3)執(zhí)行網(wǎng)絡(luò):使用執(zhí)行網(wǎng)絡(luò)來(lái)輸出近似跟蹤控制律,其神經(jīng)網(wǎng)絡(luò)表達(dá)式為:
執(zhí)行網(wǎng)絡(luò)的權(quán)值矩陣更新方式可以表示為:
式中,αa∈(0,1) 為執(zhí)行網(wǎng)絡(luò)的學(xué)習(xí)率.
4) 擾動(dòng)網(wǎng)絡(luò):與執(zhí)行網(wǎng)絡(luò)類(lèi)似,使用擾動(dòng)網(wǎng)絡(luò)來(lái)輸出近似跟蹤擾動(dòng)律,其神經(jīng)網(wǎng)絡(luò)表達(dá)式為:
式中,αd∈(0,1) 為擾動(dòng)網(wǎng)絡(luò)的學(xué)習(xí)率.
本文引入了一個(gè)合適的觸發(fā)條件.然后,根據(jù)這個(gè)觸發(fā)條件,使用Lyapunov 方法來(lái)證明基于事件的零和博弈誤差系統(tǒng)的穩(wěn)定性.
引理1.假設(shè)存在一個(gè)正常數(shù) Γ 使得‖ek+1‖≤?!襨‖+?!琫k‖,則觸發(fā)間隔‖σk‖滿(mǎn)足不等式條件
在這個(gè)假設(shè)條件中,如果不等式(38)和(39)成立,則函數(shù)V視為系統(tǒng)(9)的ISS-Lyapunov 函數(shù)[29].根據(jù)Lyapunov 理論所述,如果系統(tǒng)(9)存在一個(gè)滿(mǎn)足式(38)和式(39)的ISS-Lyapunov 函數(shù)V,那么這個(gè)系統(tǒng)就具有ISS.然后,根據(jù)設(shè)置的觸發(fā)條件研究系統(tǒng)(9)的漸近穩(wěn)定問(wèn)題.
那么,誤差系統(tǒng)(9)是漸近穩(wěn)定的.
證明.下面將分為兩種情況進(jìn)行證明:系統(tǒng)處于事件未觸發(fā)時(shí)刻和系統(tǒng)處于事件觸發(fā)時(shí)刻.
情況1.事件沒(méi)有被觸發(fā),即k∈(kj,kj+1).根據(jù)不等式(38),可得:
結(jié)合式(40)和式(42),可得:
由于在這種情況下事件沒(méi)有被觸發(fā),所以觸發(fā)條件(37)恒成立.然后,代入式(39),可得:
再將式(43)代入式(44),可得:
接著,根據(jù)不等式(41),可得:
式中,?!?0,0.5). 考慮到?∈(0,1),有:
由于k和kj是離散時(shí)刻,這就使得在事件不觸發(fā)的情況下有k-kj ≥1,進(jìn)而得到:
根據(jù)式(51),可得:
將式(52)代入式(50),可得:
此外,易得出:
因此,根據(jù)式(53)和式(54),可得:
為了進(jìn)一步驗(yàn)證本文算法的有效性,本節(jié)將其應(yīng)用于兩個(gè)具體系統(tǒng).
例1.考慮一個(gè)離散時(shí)間非仿射系統(tǒng):
普外科具有發(fā)病迅速、起病急、發(fā)病急驟、預(yù)后差、病殘率高等特點(diǎn),為了及時(shí)控制病情,目前常選用手術(shù)治療,雖然效果顯著,但隨著相關(guān)研究增多,可發(fā)現(xiàn)圍手術(shù)期間若未實(shí)施有效、科學(xué)的護(hù)理方案,可影響日后生活質(zhì)量和恢復(fù)情況 [14-15]。早期常選用優(yōu)質(zhì)護(hù)理,其能夠保證患者生活、社會(huì)、心理、生理上得到全面性護(hù)理,但心理疏導(dǎo)效果較差 [16]。
為了有效地控制這個(gè)非仿射非線性系統(tǒng),一些基本參數(shù)在表1 中給出.在自適應(yīng)評(píng)判實(shí)現(xiàn)中,運(yùn)用Matlab 神經(jīng)網(wǎng)絡(luò)工具箱訓(xùn)練結(jié)構(gòu)為4-8-2 的模型網(wǎng)絡(luò)用于識(shí)別未知系統(tǒng),其中學(xué)習(xí)率αm=0.02,訓(xùn)練誤差為 1 0-8.在訓(xùn)練過(guò)程中,收集了1 000 個(gè)數(shù)據(jù)樣本,每個(gè)樣本有 5 00 個(gè)訓(xùn)練步來(lái)學(xué)習(xí)動(dòng)態(tài)信息.然后,用另外1 000 個(gè)數(shù)據(jù)樣本驗(yàn)證模型網(wǎng)絡(luò)的逼近性能.根據(jù)式(20)的性能指標(biāo),訓(xùn)練的狀態(tài)誤差平方和如圖2 所示.此外,訓(xùn)練模型網(wǎng)絡(luò)后,記錄并保持最終權(quán)值不變.
圖2 模型網(wǎng)絡(luò)訓(xùn)練誤差 (例1)Fig.2 The training errors of the model network(Example 1)
表1 兩個(gè)仿真實(shí)驗(yàn)的主要參數(shù)Table 1 Main parameters of two experimental examples
定義需要跟蹤的參考軌跡為:
例2.考慮如下所示的扭擺裝置[30].
圖3 系統(tǒng)狀態(tài)、控制律和擾動(dòng)律軌跡(例1)Fig.3 Trajectories of the state,the control law,and the disturbance law (Example 1)
圖4 跟蹤誤差、跟蹤控制律和跟蹤擾動(dòng)律軌跡(例1)Fig.4 Trajectories of the tracking error,the tracking control law,and the tracking disturbance law (Example 1)
圖5 穩(wěn)定控制 v (ξk) (例1)Fig.5 The steady control v (ξk) (Example 1)
圖6 觸發(fā)閾值 σT (例1)Fig.6 The triggering threshold σT (Example 1)
式中,xk=[x1k,x2k]T=[θk,ωk]T是狀態(tài)向量并設(shè)置初始狀態(tài)x0=[0.3,-0.3]T.同樣,這個(gè)扭擺系統(tǒng)的一些基本參數(shù)在表1 中給出.模型網(wǎng)絡(luò)的訓(xùn)練過(guò)程與例1 相似,通過(guò)進(jìn)行一個(gè)有效的學(xué)習(xí)階段,訓(xùn)練的狀態(tài)誤差平方和如圖7 所示,訓(xùn)練結(jié)束后保持權(quán)值不變.定義相關(guān)的參考軌跡為:
圖7 模型網(wǎng)絡(luò)訓(xùn)練誤差(例2)Fig.7 The training errors of the model network(Example 2)
式中,ξ0=[-0.1,0.2]T.初始跟蹤誤差e0=x0-ξ0=[0.4,-0.5]T.然后,根據(jù)所設(shè)計(jì)的算法去訓(xùn)練評(píng)判網(wǎng)絡(luò)、執(zhí)行網(wǎng)絡(luò)和擾動(dòng)網(wǎng)絡(luò).這三個(gè)網(wǎng)絡(luò)的迭代次數(shù),學(xué)習(xí)率和初始權(quán)值的選擇與例1 相同.
為了采用基于事件的控制方法,根據(jù)表1 中的參數(shù),事件觸發(fā)閾值可以表示為:
同樣,原系統(tǒng)的狀態(tài)xk、控制律u(xk)和擾動(dòng)律w(xk) 的響應(yīng)曲線如圖8 所示.跟蹤誤差ek、跟蹤控制律u(ek)和跟蹤擾動(dòng)律w(ek) 的響應(yīng)曲線如圖9 所示.此外,通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)跟蹤控制律和跟蹤擾動(dòng)律在 2 00 個(gè)時(shí)間步上只更新了 76 次.觸發(fā)閾值的演化曲線如圖10 所示.結(jié)果表明,本文提出的控制算法可以很好地控制未知非線性零和博弈系統(tǒng)跟蹤上預(yù)設(shè)的參考軌跡并且極大程度地提高了資源利用率.
圖8 系統(tǒng)狀態(tài)、控制律和擾動(dòng)律軌跡(例2)Fig.8 Trajectories of the state,the control law,and the disturbance law (Example 2)
圖9 跟蹤誤差、跟蹤控制律和跟蹤擾動(dòng)律軌跡(例2)Fig.9 Trajectories of the tracking error,the tracking control law,and the tracking disturbance law (Example 2)
圖10 觸發(fā)閾值 σT (例2)Fig.10 The triggering threshold σT (Example 2)
針對(duì)未知非線性系統(tǒng)的零和博弈軌跡跟蹤問(wèn)題,提出了一種基于迭代自適應(yīng)評(píng)判的事件觸發(fā)控制方法,極大地減少了計(jì)算量.首先,通過(guò)建立模型網(wǎng)絡(luò)得到參考軌跡的穩(wěn)定控制,進(jìn)而將軌跡跟蹤問(wèn)題轉(zhuǎn)化為誤差系統(tǒng)的最優(yōu)調(diào)節(jié)問(wèn)題.然后,設(shè)計(jì)一個(gè)合適的事件觸發(fā)條件,并證明了基于事件的誤差系統(tǒng)是漸近穩(wěn)定的.最后,通過(guò)兩個(gè)仿真實(shí)例驗(yàn)證了所提算法的可行性和有效性.目前的研究主要是在理論方向,將該方法擴(kuò)展到實(shí)際應(yīng)用場(chǎng)景是未來(lái)的工作,包括基于所提跟蹤算法控制污水處理過(guò)程中溶解氧和硝態(tài)氮的質(zhì)量濃度.