劉 航,仇國(guó)慶,劉 平,楊金鳳,周 慧
(1.重慶郵電大學(xué) 自動(dòng)化學(xué)院 工業(yè)物聯(lián)網(wǎng)與網(wǎng)絡(luò)化控制教育部重點(diǎn)實(shí)驗(yàn)室,重慶400065;2.重慶建筑工程職業(yè)學(xué)院 軌道與機(jī)電工程系,重慶400072;3.重慶機(jī)床(集團(tuán))有限責(zé)任公司,重慶401336)
帶時(shí)間延遲最優(yōu)控制問題(time-delay optimal control problem,TDOCP)的求解是實(shí)現(xiàn)時(shí)滯工業(yè)過程對(duì)象最優(yōu)控制的一個(gè)核心[1-2]。在當(dāng)前最優(yōu)控制問題數(shù)值求解算法中,控制變量參數(shù)化(control variable parameterization,CVP)方法因具有求解精度高、離散化后非線性規(guī)劃(nonlinear programming,NLP)問題規(guī)模較小等優(yōu)點(diǎn),在工業(yè)過程控制領(lǐng)域得到了眾多學(xué)者的青睞[3-5]。近年來,國(guó)內(nèi)外學(xué)者提出了諸多改進(jìn)方法用于TDOCP 問題的求解。比如,Gui等[6]基于CVP 方法推導(dǎo)了帶時(shí)間延遲系統(tǒng)的協(xié)態(tài)方法,并在鋅冶煉過程TDOCP 問題中進(jìn)行仿真試驗(yàn),結(jié)果顯示優(yōu)化計(jì)算后鋅粉原料可以有效減少;Yu 等[7]研究了混合時(shí)間尺度變換(hybrid time-scaling,HTS)HTS-CVP 方法進(jìn)行時(shí)間延遲尺度轉(zhuǎn)化,從而實(shí)現(xiàn)了TDOCP問題的有效求解;Lin 等[8]提出了2 種用于計(jì)算TDOCP 問題目標(biāo)函數(shù)梯度信息的方法,實(shí)現(xiàn)了時(shí)滯非線性系統(tǒng)的參數(shù)預(yù)估。此外,Jajarmi 等[9]基于龐特里亞金極大值原理將TDOCP 問題轉(zhuǎn)換為耦合兩點(diǎn)邊值問題,并推導(dǎo)了有限差分求解方法;文獻(xiàn)[10]和文獻(xiàn)[11]分別提出了單時(shí)間轉(zhuǎn)化和終值時(shí)間轉(zhuǎn)換算法用于終值時(shí)間不固定TDOCP 問題的求解。
對(duì)于傳統(tǒng)CVP 方法,動(dòng)態(tài)系統(tǒng)時(shí)間延遲的存在讓狀態(tài)變量和梯度信息的求解變得困難,進(jìn)而影響到TDOCP 問題的高效求解,因此狀態(tài)變量轉(zhuǎn)化與梯度信息計(jì)算一直是研究的熱點(diǎn)。然而,以傳統(tǒng)CVP 方法為基礎(chǔ)的目標(biāo)函數(shù)和約束條件梯度求取方法[6-8]在算法復(fù)雜性和效率方面存在一定的不足,比如,協(xié)態(tài)方法通過構(gòu)造Hamilton 函數(shù)得到協(xié)態(tài)系統(tǒng)進(jìn)行梯度求取,但遲滯系統(tǒng)和協(xié)態(tài)系統(tǒng)因?yàn)槌跏贾挡煌⒉荒芡瑫r(shí)求解,需要引入插值方法進(jìn)行近似;時(shí)間尺度轉(zhuǎn)化方法引入時(shí)間尺度變換可以實(shí)現(xiàn)時(shí)間節(jié)點(diǎn)的精確控制,但也增加了系統(tǒng)梯度信息求解的復(fù)雜度。因此,本文提出了一種求解TDOCP 問題的擴(kuò)展控制向量參數(shù)化方法。首先,采用控制變量參數(shù)化技術(shù)和光滑化罰函數(shù)法將TDOCP 問題近似轉(zhuǎn)化為不含路徑約束的有限維NLP 問題;進(jìn)一步,引入擴(kuò)展變分系統(tǒng)通過輔助狀態(tài)變量分析時(shí)間延遲狀態(tài)變量擴(kuò)展變分系統(tǒng)求解方法,以此實(shí)現(xiàn)遲滯系統(tǒng)與變分系統(tǒng)在統(tǒng)一初始時(shí)刻下求解;同時(shí),針對(duì)擴(kuò)展變分系統(tǒng)直接推導(dǎo)出目標(biāo)函數(shù)和約束函數(shù)對(duì)于控制參數(shù)的梯度信息求解公式,為基于梯度信息的NLP 求解器提供高效梯度信息求取方法;最后,在兩個(gè)典型工業(yè)過程TDOCP 問題上進(jìn)行測(cè)試以驗(yàn)證所提方法的正確性和有效性。
分析可知,由于時(shí)間延遲微分方程組的存在,問題(P2)中目標(biāo)函數(shù)和約束函數(shù)對(duì)于控制參數(shù)σ的梯度
將式(10)入式(15),即可得到定理4 式(14),證畢。
結(jié)合3.1節(jié)和3.2節(jié)算法推導(dǎo),給出時(shí)間延遲最優(yōu)控制問題擴(kuò)展控制變量參數(shù)化算法(extended control variable parameterization,Extended-CVP)實(shí)現(xiàn)過程,其算法流程如圖1所示,主要步驟為:
步驟1.輸入帶時(shí)間延遲最優(yōu)控制問題(P1),設(shè)置控制時(shí)域分段數(shù)N,給定初始控制參數(shù)0σ;
步驟2.在分段數(shù)N下,采用PCF 函數(shù)對(duì)控制變量進(jìn)行離散化,得到參數(shù)化后非線性優(yōu)化問題(P2);
步驟3.求解時(shí)間延遲狀態(tài)變量擴(kuò)展變分系統(tǒng),得到輔助狀態(tài)變量 ( )tΓ的值;
步驟4.采用式(14)得到g~l(σ) ,l∈ {0}∪E函數(shù)關(guān)于控制參數(shù)σ的擴(kuò)展梯度信息;
步驟5.選擇NLP 求解器求解問題(P2),得到優(yōu)化后最優(yōu)控制參數(shù)σ*和目標(biāo)函數(shù)g0(σ*),輸出優(yōu)化結(jié)果。
圖1 擴(kuò)展控制變量參數(shù)化算法流程圖Fig.1 Flow chart of extended control variable parameterization approach
圖2 Soliman 和Ray 連續(xù)攪拌釜反應(yīng)器生產(chǎn)過程Fig.2 Continuous stirred tank reactor of Soliman and Ray process
表1 連續(xù)攪拌釜反應(yīng)器最優(yōu)控制問題結(jié)果對(duì)比Table 1 Result comparison of continuous stirred tank reactor optimal control problem
圖3 連續(xù)攪拌釜反應(yīng)器最優(yōu)控制曲線Fig.3 Optimal control curvesof continuous stirred tank reactor
圖4 連續(xù)攪拌釜反應(yīng)器最優(yōu)狀態(tài)曲線Fig.4 Optimal state curves of continuous stirred tank reactor
本例以Jajarmi 等[20]研究的帶狀態(tài)延遲線性二次型調(diào)節(jié)器(linear quadratic regulator,LQR)為對(duì)象進(jìn)行測(cè)試,其TDOCP 問題模型如下所示,模型中所采用的參數(shù)數(shù)值見表2。表中a、c為狀態(tài)變量x(t)輸入矩陣的取值參數(shù),b為延遲狀態(tài)變量x(t-h)輸入矩陣的取值參數(shù),h為時(shí)間延遲量,tf為最優(yōu)控制終值時(shí)間,S為終值狀態(tài)加權(quán)矩陣,Q為狀態(tài)變量加權(quán)矩陣,R為控制變量加權(quán)矩陣。
測(cè)試中,控制時(shí)域采用等間隔方式劃分,分段數(shù)設(shè)置為21、40和150,初始控制參數(shù)取σ0=1,NLP 求解器優(yōu)化精度設(shè)置為10-4。對(duì)于上述LQR 最優(yōu)控制問題,文獻(xiàn)[20]以CVP 方法為基礎(chǔ)推導(dǎo)了循環(huán)單射(recursive shooting,RS)RS-CVP 方法,通過8次循環(huán)迭代得到了18.110 3的當(dāng)前文獻(xiàn)最優(yōu)目標(biāo)函數(shù)值;文獻(xiàn)[9]提出了改進(jìn)的有限差分(finite difference,F(xiàn)D)方法,在21個(gè)優(yōu)化參數(shù)下得到了18.450 2 的優(yōu)化結(jié)果;文獻(xiàn)[21]推導(dǎo)了迭代對(duì)偶譜方法(iterative symplectic pseudospectral method,ISPM),在雙重配點(diǎn)下計(jì)算得到的目標(biāo)函數(shù)值為18.347 6。表3列出了文獻(xiàn)方法和本文方法的求解結(jié)果,比較可知,在21個(gè)優(yōu)化參數(shù)下,本文方法求得的優(yōu)化結(jié)果為18.446 4,優(yōu)于FD方法在相同優(yōu)化參數(shù)下的結(jié)果,雖然本文方法的優(yōu)化結(jié)果相比于RS-CVP 方法存在0.336 1的差距,但是本文方法只需要一次參數(shù)化迭代;同時(shí),與文獻(xiàn)[21]所求得結(jié)果進(jìn)行對(duì)比發(fā)現(xiàn),本文方法與ISPM方法的目標(biāo)函數(shù)、系統(tǒng)狀態(tài)曲線一致,顯示出本文方法的實(shí)用性和正確性。圖5、6分別給出了40分段數(shù)下Extended-CVP 方法求得的LQR 問題最優(yōu)控制曲線和狀態(tài)曲線,與文獻(xiàn)結(jié)果一致,同時(shí)也很好地滿足了控制要求,進(jìn)一步表明了本文方法的效果。
表2 狀態(tài)延遲LQR 問題參數(shù)值Table 2 Parametersof state time-delay LQR optimal control problem
表3 狀態(tài)延遲LQR 問題結(jié)果對(duì)比Table 3 Result comparison of state time-delay LQR optimal control problem
圖5 狀態(tài)延遲LQR 問題最優(yōu)控制曲線Fig.5 Optimal control curve of state time-delay LQR optimal control problem
圖6 狀態(tài)延遲LQR 問題最優(yōu)狀態(tài)曲線Fig.6 Optimal state curvesof state time-delay LQR optimal control problem
本文提出了一種用于求解工業(yè)過程TDOCP 問題的擴(kuò)展控制變量參數(shù)化算法。該方法通過引入輔助狀態(tài)變量推導(dǎo)了時(shí)間延遲狀態(tài)變量擴(kuò)展變分系統(tǒng),拓展了傳統(tǒng)CVP 方法對(duì)于帶時(shí)間延遲最優(yōu)控制問題的求解能力;同時(shí),給出了目標(biāo)函數(shù)和約束函數(shù)對(duì)控制參數(shù)梯度信息的求解方法,為基于梯度信息的NLP求解器高效求解提供了支撐,保證了優(yōu)化求解的精度和效率。所提出的方法針對(duì)連續(xù)攪拌釜反應(yīng)器和LQR控制器兩個(gè)典型TDOCP 問題進(jìn)行了測(cè)試,結(jié)果顯示提出方法能在較少優(yōu)化參數(shù)下取得與文獻(xiàn)結(jié)果相近甚至更優(yōu)的結(jié)果,表明了本文方法的有效性和正確性。考慮非均勻時(shí)間間隔控制變量參數(shù)化和不確定參數(shù)進(jìn)一步提升本文方法對(duì)TDOCP 問題的適用性是下一步工作計(jì)劃開展的課題。