朱 強,王可心,邵之江
(浙江大學(xué)控制科學(xué)與工程學(xué)院,浙江杭州 310027)
當(dāng)前,多智能體系統(tǒng)的動態(tài)優(yōu)化是控制理論研究的前沿問題,此類系統(tǒng)是由一群具備一定感知、通信、計算和執(zhí)行能力的智能體通過通訊等方式關(guān)聯(lián)成的一個網(wǎng)絡(luò)系統(tǒng).對于此類大規(guī)模網(wǎng)絡(luò)系統(tǒng)的動態(tài)優(yōu)化問題,滾動時域優(yōu)化是當(dāng)前被廣泛使用的一種動態(tài)優(yōu)化策略,該策略在實際應(yīng)用過程中依賴于實時在線求解動態(tài)優(yōu)化問題[1].對于一些具有非線性動態(tài)特性的大規(guī)模集中式動態(tài)優(yōu)化問題,雖然優(yōu)化結(jié)果的最優(yōu)性可以保證,但由于每個優(yōu)化周期內(nèi)求解的優(yōu)化問題復(fù)雜度較高,常常難以保證實時在線成功求解,所以在利用滾動時域優(yōu)化策略實時在線求解此類動態(tài)優(yōu)化問題時常常面臨巨大挑戰(zhàn)[2].為了保證大規(guī)模復(fù)雜動態(tài)優(yōu)化問題的實時在線求解和靈活操作,研究者們提出了分布式動態(tài)優(yōu)化[3].分布式優(yōu)化方法比傳統(tǒng)的集中式優(yōu)化方法更為靈活,操作起來更為方便,這也使得利用分布式優(yōu)化策略來合作完成目標的研究得到了迅速發(fā)展[4].在分布式動態(tài)優(yōu)化中,為了減小優(yōu)化求解的復(fù)雜度從而保證實時在線求解,原本非線性大規(guī)模多約束的集中式動態(tài)優(yōu)化問題首先被分解為若干個小規(guī)模分布式動態(tài)優(yōu)化子問題.之后求解各子問題,并通過各問題之間的通信來綜合各問題的最優(yōu)解以便最終獲得原問題的整體最優(yōu)[5-6].在分布式動態(tài)優(yōu)化求解過程中,最重要的一步是求解各動態(tài)優(yōu)化子問題.求解算法涉及諸多可行的策略,其中,一些研究者從動態(tài)博弈的角度來考慮求解上述問題[7-8].博弈論與控制優(yōu)化理論之間有很多共同之處,最大的共同點在于它們都是通過優(yōu)化自身的操作來實現(xiàn)自身目標的最優(yōu)化[9].所以從動態(tài)博弈的角度看,分布式動態(tài)優(yōu)化本質(zhì)上是一個動態(tài)博弈,其中各子問題對應(yīng)動態(tài)博弈中的玩家,最優(yōu)控制對應(yīng)博弈中的策略,各子問題的目標函數(shù)對應(yīng)博弈中的支付函數(shù)[10].基于動態(tài)博弈求解分布式動態(tài)優(yōu)化中的子問題時,常用的方法包括基于梯度信息的數(shù)值優(yōu)化算法以及無梯度信息的隨機數(shù)值優(yōu)化算法.無梯度信息優(yōu)化算法相比于基于梯度信息的優(yōu)化算法優(yōu)勢在于可以處理一些具有不連續(xù)不光滑函數(shù)的動態(tài)優(yōu)化問題,而且優(yōu)化計算的邏輯相對容易理解,易于實現(xiàn)[11].但缺點是此類方法得到的結(jié)果往往具有隨機性,每次求解的結(jié)果可能會不同,優(yōu)化計算的最優(yōu)性難以保證,而且優(yōu)化求解的計算代價和時間代價較大.基于梯度信息的數(shù)值優(yōu)化算法是確定性算法,其提供的梯度信息可以保證優(yōu)化計算的最優(yōu)性,計算代價和時間代價較無梯度優(yōu)化算法有較大提升,可以有效的克服上述無梯度信息優(yōu)化算法的缺點,所以基于梯度信息的數(shù)值優(yōu)化算法優(yōu)勢更為突出,應(yīng)用場景更廣.此類算法中常用的方法是間接法[12].對于一些簡單優(yōu)化問題,上述方法可提供高精度的最優(yōu)解.但對于復(fù)雜優(yōu)化問題,如果無法為協(xié)態(tài)變量以及約束和非約束操作之間的切換結(jié)構(gòu)提供足夠好的初值,利用上述方法求解動態(tài)優(yōu)化問題將很難成功收斂[13].為了解決上述問題,研究者們提出了直接法.該方法無需求解解析的一階必要性條件,同時對協(xié)態(tài)變量和切換結(jié)構(gòu)的初值也不敏感.所以與解析法和間接法相比,直接法更容易進行初始化操作,從而克服了傳統(tǒng)方法的缺點.但傳統(tǒng)直接法只能求解單邊最優(yōu)控制問題,而基于動態(tài)博弈求解分布式動態(tài)優(yōu)化中的子問題時往往涉及雙邊或多邊最優(yōu)控制問題.如果想使用直接法求解基于動態(tài)博弈的分布式動態(tài)優(yōu)化,關(guān)鍵需要對原始多邊最優(yōu)控制問題進行數(shù)學(xué)變換,將其轉(zhuǎn)換為直接法可以求解的單邊最優(yōu)控制問題.但文獻中關(guān)于如何變換多邊問題并用直接法求解多邊最優(yōu)控制問題的相關(guān)研究較少[14-16].
在分布式動態(tài)優(yōu)化方案的實際應(yīng)用中,除了需要研究分布式動態(tài)優(yōu)化的求解策略之外,在分布式動態(tài)優(yōu)化方案下系統(tǒng)穩(wěn)定性分析也十分重要.追求分布式動態(tài)優(yōu)化目標函數(shù)的極大化或極小化必須在保證系統(tǒng)穩(wěn)定性的前提下討論才有意義.例如,當(dāng)分布式動態(tài)優(yōu)化的目標函數(shù)涉及到經(jīng)濟效益時,本文需要在保證系統(tǒng)穩(wěn)定性的前提下極大化系統(tǒng)的經(jīng)濟效益.所以無論使用哪一種分布式動態(tài)優(yōu)化方案求解動態(tài)優(yōu)化問題,本文首先需要分析該方案下系統(tǒng)穩(wěn)定性是否滿足以及如何滿足.由于分布式動態(tài)優(yōu)化方案只能獲得系統(tǒng)開環(huán)最優(yōu)控制,所以當(dāng)本文分析系統(tǒng)穩(wěn)定性同時也為了保證系統(tǒng)的穩(wěn)定性時,首先需要構(gòu)建一個閉環(huán)控制系統(tǒng).本文以極大化系統(tǒng)經(jīng)濟效益作為目標函數(shù),求解極值狀態(tài)下系統(tǒng)各狀態(tài)變量和控制變量的穩(wěn)態(tài)值作為閉環(huán)控制系統(tǒng)的設(shè)定值.因為分布式動態(tài)優(yōu)化方案是基于滾動時域優(yōu)化來求解開環(huán)最優(yōu)控制,并且本文假設(shè)分布式動態(tài)優(yōu)化的目標函數(shù)是極大化系統(tǒng)經(jīng)濟效益,所以分布式動態(tài)優(yōu)化方案可看作是經(jīng)濟模型預(yù)測控制器.在經(jīng)濟模型預(yù)測控制(economic model predictive control,eMPC)下,漸進穩(wěn)定是研究控制系統(tǒng)穩(wěn)定性的一個有效理論工具.對于滿足耗散結(jié)構(gòu)的系統(tǒng)來說,eMPC下系統(tǒng)的漸進穩(wěn)定性可以滿足,但對于一般的系統(tǒng)來說,系統(tǒng)的漸進穩(wěn)定性很難被保證.為了解決這一問題,當(dāng)涉及到eMPC下系統(tǒng)穩(wěn)定性時,傳統(tǒng)的分析系統(tǒng)穩(wěn)定性的工具需要更新.輸入狀態(tài)實際穩(wěn)定性(input-to-state practical stability,ISpS)是目前分析eMPC下系統(tǒng)穩(wěn)定性的常用分析工具之一[17].
在本文研究中,目標是:1)提出滾動合作博弈優(yōu)化(receding cooperative game optimization,RCGO)方案,從動態(tài)博弈角度分析分布式動態(tài)優(yōu)化;2)提出數(shù)值優(yōu)化直接法,分解迭代法(decomposition iterative method,DIM),基于動態(tài)博弈求解分布式動態(tài)優(yōu)化;3)在RCGO分布式動態(tài)優(yōu)化方案下,使用ISpS分析系統(tǒng)穩(wěn)定性.為檢驗RCGO方案和DIM算法,本文使用一個由兩個連續(xù)攪拌反應(yīng)釜和一個絕熱閃蒸器組成的化工過程網(wǎng)絡(luò)作為仿真平臺.
本文章節(jié)安排如下:第2部分提出RCGO分布式動態(tài)優(yōu)化方案.第3部分展示DIM算法細節(jié).第4部分分析RCGO方案下系統(tǒng)穩(wěn)定性.第5部分展示數(shù)值仿真結(jié)果及相關(guān)討論.第6部分總結(jié)全文,得出結(jié)論.
本章節(jié)提出滾動集中優(yōu)化(receding centralized optimization,RCO)和滾動合作博弈優(yōu)化兩種動態(tài)優(yōu)化方案.他們都基于滾動時域優(yōu)化求解動態(tài)優(yōu)化問題.
每一個優(yōu)化周期內(nèi),RCO方案只求解一個動態(tài)優(yōu)化問題就可同步獲得大規(guī)模非線性系統(tǒng)的所有最優(yōu)控制和狀態(tài)變量.在t∈[kΔT,(k+P)ΔT]中,動態(tài)優(yōu)化問題可表示為如下形式:
其中:t∈[kΔT,(k+P)ΔT],k∈{0,…,M},xxx(t)和uuu(t)分別表示系統(tǒng)的狀態(tài)變量和控制變量,fff表示系統(tǒng)模型,gggE和gggI分別表示等式和不等式路徑約束,hhhE和hhhI分別表示等式和不等式終態(tài)約束,xxxk表示狀態(tài)變量的初值,J表示目標函數(shù),ΔT表示采樣周期,k表示第k個采樣周期,M表示采樣周期的個數(shù),P表示優(yōu)化時域.在優(yōu)化周期t∈[kΔT,(k+P)ΔT]中,在線求解最優(yōu)控制序列uuu(t),并且從時刻tk=kΔT開始,在時間段t∈[kΔT,(k+L)ΔT](L <P)內(nèi)執(zhí)行最優(yōu)控制序列直到系統(tǒng)得到新的狀態(tài)變量,其中L表示控制時域,缺省值為1.然后在下一個優(yōu)化周期內(nèi)重新求解動態(tài)優(yōu)化問題并重復(fù)上述過程,直到獲得全部優(yōu)化時間段內(nèi)的最優(yōu)控制序列.
當(dāng)使用RCO動態(tài)優(yōu)化方案求解大規(guī)模非線性動態(tài)優(yōu)化問題時,隨著問題規(guī)模和復(fù)雜度的增加,計算成本和時間代價也將隨之迅速增加.為了能夠高效求解大規(guī)模非線性動態(tài)優(yōu)化問題,一個可行的替代方案是將原本大規(guī)模非線性集中式的動態(tài)優(yōu)化問題分解為若干個小規(guī)模分布式局部動態(tài)優(yōu)化子問題,也就是分布式動態(tài)優(yōu)化.如引言部分所說,分布式動態(tài)優(yōu)化本質(zhì)上是一個動態(tài)博弈.在動態(tài)博弈研究中,合作式博弈又是其中主要的研究方向.合作式動態(tài)博弈是指某個大系統(tǒng)中的多個決策主體通過達成某種共識從而優(yōu)化各自決策變量實現(xiàn)整個大系統(tǒng)性能最優(yōu)[18].這里作者借鑒合作式動態(tài)博弈的概念,基于動態(tài)博弈提出了一種分布式動態(tài)優(yōu)化方案RCGO.在RCGO中,所有的局部動態(tài)優(yōu)化子問題共享同一個目標函數(shù).每一個局部動態(tài)優(yōu)化子問題通過極小化全局目標函數(shù)來計算自身的最優(yōu)控制,并考慮自身的最優(yōu)控制如何影響所有局部動態(tài)優(yōu)化子問題的輸出.圖1展示了RCGO方案如何獲得所有局部動態(tài)優(yōu)化子問題的最優(yōu)控制從而求解分布式動態(tài)優(yōu)化問題.其中,N是子系統(tǒng)個數(shù),xxx=[xxx1xxx2… xxxN]和uuu=[uuu1uuu2… uuuN]分別是系統(tǒng)的狀態(tài)變量和控制變量,xxxi和uuui(i∈{1,2,…,N})分別是第i個子系統(tǒng)的狀態(tài)變量和控制變量.在優(yōu)化周期t∈[kΔT,(k+P)ΔT]中,第i個子系統(tǒng)對應(yīng)的局部子問題可表示為如下形式:
其中:t∈[kΔT,(k+P)ΔT],k∈{0,1,…,M},i∈{1,2,…,N}.
圖1 滾動合作博弈優(yōu)化方案Fig.1 Receding cooperative game optimization scheme
當(dāng)求解第i個子系統(tǒng)對應(yīng)的局部動態(tài)優(yōu)化子問題時,往往是基于其他子系統(tǒng)對應(yīng)的局部動態(tài)優(yōu)化子問題的最優(yōu)控制.為了獲取其他子系統(tǒng)對應(yīng)的局部動態(tài)優(yōu)化子問題的最優(yōu)控制,過去常用的方法是第i個子系統(tǒng)根據(jù)過去的歷史信息估計其他子系統(tǒng)當(dāng)前的最優(yōu)控制和最優(yōu)狀態(tài).但這么做存在一個缺點是:如果子系統(tǒng)i在迭代計算自身最優(yōu)控制時只是估計其他子系統(tǒng)的狀態(tài)和輸入,那意味著需要提前假設(shè)過程網(wǎng)絡(luò)中不存在任何不確定性,所有的子系統(tǒng)(博弈玩家)均是足夠智能且一定會選用自身的最優(yōu)控制作為輸入.但在實際過程中,由于過程網(wǎng)絡(luò)中存在各種過程噪聲、測量噪聲、外部干擾等不確定性,使得其他子系統(tǒng)實際使用的控制輸入與子系統(tǒng)i估計得到的其他子系統(tǒng)的狀態(tài)與輸入存在失配現(xiàn)象.這樣會導(dǎo)致子系統(tǒng)i優(yōu)化計算的最優(yōu)性無法保證,從而導(dǎo)致整個系統(tǒng)的優(yōu)化性能下降.在本文中,由于本文是基于滾動時域優(yōu)化框架,也就是說在每一個優(yōu)化周期內(nèi)都要進行一次動態(tài)博弈優(yōu)化計算.在某個優(yōu)化周期求解第i個子系統(tǒng)對應(yīng)的局部動態(tài)優(yōu)化子問題之前,要求各子系統(tǒng)之間通訊他們當(dāng)前的最優(yōu)控制,也就是說需要其他子系統(tǒng)不斷迭代更新并提供他們最新的最優(yōu)控制值給第i個子系統(tǒng).在其他子系統(tǒng)均處于最優(yōu)操作的前提下,以其他子系統(tǒng)的當(dāng)前最優(yōu)控制作為控制輸入的初值,通過動態(tài)博弈優(yōu)化計算當(dāng)前優(yōu)化周期內(nèi)第i個子系統(tǒng)的最優(yōu)控制.這樣做的目的既是為了保證每個優(yōu)化周期內(nèi)優(yōu)化求解的精度和最優(yōu)性,同時也是為了消除不確定性的影響而進行的各子系統(tǒng)最優(yōu)控制的在線矯正.之后更新第i個子系統(tǒng)的最優(yōu)控制并依此類推重復(fù)上述過程,迭代求解獲得所有子系統(tǒng)的最優(yōu)控制.例如,在第1次迭代開始之前,每一個子系統(tǒng)都有各自的控制變量初值.首先本文求解第1個子系統(tǒng)對應(yīng)的局部動態(tài)優(yōu)化子問題,前提是其他子系統(tǒng)應(yīng)當(dāng)為第1個子系統(tǒng)提供他們當(dāng)前的最優(yōu)控制.然后作者更新第1個子系統(tǒng)的最優(yōu)控制并依此類推求解下一個子系統(tǒng)對應(yīng)的局部動態(tài)優(yōu)化子問題.重復(fù)上述過程直到求解完成所有的子系統(tǒng)對應(yīng)的局部動態(tài)優(yōu)化子問題,這算做第1次迭代.之后作者檢查迭代過程終止條件是否滿足,例如,當(dāng)連續(xù)兩次迭代計算的最優(yōu)控制歐幾里得范數(shù)之差小于容限或者迭代次數(shù)達到最大迭代次數(shù)上限時,迭代過程終止.否則的話,繼續(xù)重復(fù)上述迭代過程直到求解得到所有子系統(tǒng)的最優(yōu)控制.此時,在優(yōu)化周期t∈[kΔT,(k+P)ΔT]內(nèi)的分布式動態(tài)優(yōu)化問題已求解.下一個優(yōu)化周期重復(fù)上述過程直到獲得全部優(yōu)化時間段內(nèi)的最優(yōu)控制序列.
在RCGO分布式動態(tài)優(yōu)化方案中,求解分布式動態(tài)優(yōu)化最重要的一步是求解每個子系統(tǒng)對應(yīng)的局部動態(tài)優(yōu)化子問題.考慮到大規(guī)模復(fù)雜非線性動態(tài)優(yōu)化問題求解的復(fù)雜度,本文采用直接法求解各子系統(tǒng)對應(yīng)的局部動態(tài)優(yōu)化子問題.當(dāng)每個子系統(tǒng)計算各自的最優(yōu)控制時,需要其他子系統(tǒng)不斷迭代更新并提供他們最新的最優(yōu)控制值.一個很自然的想法是,在優(yōu)化周期t∈[kΔT,(k+P)ΔT]內(nèi)當(dāng)某個子系統(tǒng)計算自身的最優(yōu)控制時,假設(shè)其他子系統(tǒng)將采樣時刻tk=kΔT提供的最優(yōu)控制值在整個優(yōu)化周期內(nèi)保持恒定不變.雖然這樣假設(shè)可以給計算帶來方便,但也會給計算過程引入較大誤差,因為在實際情況中其他子系統(tǒng)的最優(yōu)控制隨時間處于連續(xù)變化中.為了減小上述假設(shè)造成的誤差,需要將采樣時刻tk=kΔT提供的其他子系統(tǒng)最優(yōu)控制值作為初值,重新求解其他子系統(tǒng)實際的最優(yōu)控制值.總結(jié)起來,為了求解每個子系統(tǒng)對應(yīng)的局部動態(tài)優(yōu)化子問題,需處理帶有形式目標函數(shù)的動態(tài)優(yōu)化問題.但傳統(tǒng)的直接法只能用來求解單邊最優(yōu)控制問題,無法求解上述雙邊或多邊最優(yōu)控制問題[14].在本文中,提出了分解迭代法這種全新的直接法策略,在RCGO動態(tài)優(yōu)化方案框架下基于動態(tài)博弈數(shù)值求解每個子系統(tǒng)對應(yīng)的局部動態(tài)優(yōu)化子問題從而求解分布式動態(tài)優(yōu)化問題.為了清晰說明該方法的算法細節(jié),作者考慮一個只有兩個子系統(tǒng)的分布式動態(tài)優(yōu)化問題.這里以子系統(tǒng)1對應(yīng)的局部動態(tài)優(yōu)化子問題的求解過程作為例子,子系統(tǒng)1和子系統(tǒng)2都試圖最小化自身目標函數(shù),該動態(tài)優(yōu)化問題可表示為如下形式:
本文通過以下迭代過程來求解上述動態(tài)優(yōu)化問題.每一次迭代中,先固定子系統(tǒng)1當(dāng)前的最優(yōu)控制和狀態(tài),同時求解子系統(tǒng)2的極小化問題.之后再求解一個線性極小化問題來更新子系統(tǒng)1的最優(yōu)控制.首先,作者先給出子系統(tǒng)2的極小化問題,可表示為如下形式:
之后,本文求解子系統(tǒng)1的極小化問題如下:
其中α0和β0分別是等式和不等式終態(tài)約束的拉格朗日乘子.所以用來近似子系統(tǒng)1原極小化問題的線性極小化問題可以改寫為以下形式:
為了能清晰說明分解迭代法的算法細節(jié),本文選用了一個只有兩個子系統(tǒng)的分布式動態(tài)優(yōu)化問題作為研究對象.但對于一些本身復(fù)雜的系統(tǒng),其可能會分解成若干個子系統(tǒng)(多于兩個).對于求解此類具有多個子系統(tǒng)的動態(tài)優(yōu)化問題時,本文關(guān)心的問題是隨著系統(tǒng)規(guī)模變大,上述分解迭代法的時間復(fù)雜度與空間復(fù)雜度如何變化.首先本文分析了該算法的時間復(fù)雜度.假設(shè)某個動態(tài)優(yōu)化問題被分解為n個子系統(tǒng).每一次迭代計算中,每一個子系統(tǒng)均需要按照分解迭代法的流程求解n個最優(yōu)控制問題,所有n個子系統(tǒng)共需要求解n×n個最優(yōu)控制問題.在迭代計算滿足判斷條件前,每一次迭代n個子系統(tǒng)共需要執(zhí)行優(yōu)化計算的次數(shù)為n×n,所以該算法的時間復(fù)雜度為O(n2).對于該算法的空間復(fù)雜度而言,每一次迭代計算每一個子系統(tǒng)均需要按照分解迭代法的流程求解n個最優(yōu)控制問題.而每一次求解均需創(chuàng)建新的變量存儲空間,所有n個子系統(tǒng)在一次迭代計算中共需創(chuàng)建n×n個變量存儲空間,所以該算法的空間復(fù)雜度也為O(n2).
在分析完分解迭代法的算法時間復(fù)雜度和空間復(fù)雜度之后,本文的目標是對于求解大規(guī)模動態(tài)優(yōu)化問題時,如何進一步提升該算法的計算效能,從而減少優(yōu)化計算耗時.這其中多個子系統(tǒng)的求解順序?qū)φ麄€求解過程的計算代價和時間代價產(chǎn)生很大影響.目前最簡單的求解模式是:所有的子系統(tǒng)均按照某種特定的順序依次求解.當(dāng)所有的子系統(tǒng)均求解結(jié)束后(一次迭代結(jié)束),得到的各子系統(tǒng)最優(yōu)控制變量需要與上一次迭代的結(jié)果進行對比,如果某個子系統(tǒng)當(dāng)前迭代得到的最優(yōu)控制與上一次迭代得到的結(jié)果之差大于容限,那么所有的子系統(tǒng)進入下一次迭代,重新求解各自的最優(yōu)控制.但上述求解模式可能會出現(xiàn)以下情況:某一次迭代中,大部分子系統(tǒng)的最優(yōu)控制已經(jīng)收斂,只有少數(shù)幾個子系統(tǒng)最優(yōu)控制沒有收斂.這種情況下,真正需要繼續(xù)迭代求解的只是少數(shù)幾個還沒有收斂的子系統(tǒng),已經(jīng)收斂的子系統(tǒng)只需要采用當(dāng)前收斂的最優(yōu)控制即可.但所有的子系統(tǒng)如果還按照事先確定的某種求解順序來依次進行優(yōu)化求解,勢必會重復(fù)計算已經(jīng)收斂的子系統(tǒng),導(dǎo)致整個計算耗時增加.所以,當(dāng)優(yōu)化求解涉及的子系統(tǒng)較多時可以采用以下求解順序:
1) 迭代初期,先按照事先確定的求解順序依次獲得各子系統(tǒng)當(dāng)前的最優(yōu)控制;
2) 一次迭代后,檢查哪些子系統(tǒng)的最優(yōu)控制已經(jīng)收斂.在下一次迭代中,已經(jīng)收斂的子系統(tǒng)不再參與迭代求解,這時更新當(dāng)前求解順序;
3) 重復(fù)上述過程直到所有的子系統(tǒng)最優(yōu)控制均已收斂,算法結(jié)束.
本章節(jié)使用系統(tǒng)穩(wěn)定性分析工具ISpS給出了RCGO優(yōu)化方案下系統(tǒng)的穩(wěn)定性分析.考慮系統(tǒng):
其中:xxx∈X是系統(tǒng)狀態(tài)變量,uuu∈U是控制變量,同時也是xxx的函數(shù),www∈W是干擾變量.定義|·|為2范數(shù),k=[www0… wwwk-10 …]為k時刻的干擾變量序列,以及=[www0www1www2…]為全部優(yōu)化時間內(nèi)的干擾變量序列.首先,給出以下幾個假設(shè)和定義.
假設(shè)11)對于所有的xxx∈X,www∈W,都會有fff(xxx,uuu,www)∈X成立;2)集合W有上界,并定義‖‖:=sup|wwwk|;3)fff(·,·,·)相對于www一致連續(xù).
定義1函數(shù)α屬于K類函數(shù)當(dāng)且僅當(dāng)該函數(shù)是連續(xù)的嚴格增函數(shù),并且滿足α(0)=0;函數(shù)α屬于K∞類函數(shù)當(dāng)且僅當(dāng)該函數(shù)是K類函數(shù),并且滿足函數(shù)β屬于KL類函數(shù)當(dāng)且僅當(dāng)對于每一個t≥0,β(·,t)屬于K類函數(shù),且對于每一個s≥0,β(s,·)是非增函數(shù)并且滿足
定義2在假設(shè)1成立的前提下,系統(tǒng)(42)是輸入狀態(tài)實際穩(wěn)定(ISpS)當(dāng)且僅當(dāng)對于所有的xxx0∈X,k≥0,都有|xxxk|≤β(xxx0,k)+γ(‖‖)+c成立,其中β∈KL,γ∈K,c∈R,R是實數(shù)集.
定理1在假設(shè)1成立的前提下,對于系統(tǒng)(42),如果存在一個函數(shù)V(k,,xxx0)滿足
其中:?xxx0∈X,www∈W,k∈Z,α1,α2,α3∈K∞,σ∈K,c1,c2∈R,Z是整數(shù)集,那么系統(tǒng)(42)是輸入狀態(tài)實際穩(wěn)定.
證見文獻[17].
如引言部分所述,RCGO動態(tài)優(yōu)化方案可以看作是一個eMPC控制器,即經(jīng)濟模型預(yù)測控制器.所以研究RCGO優(yōu)化方案下系統(tǒng)的穩(wěn)定性可以轉(zhuǎn)換為研究在基于RCGO優(yōu)化方案的eMPC控制器下系統(tǒng)的穩(wěn)定性.現(xiàn)在考慮了基于RCGO優(yōu)化方案的eMPC(eMPC-RCGO)命題構(gòu)造形式.這里仍然考慮一個只有兩個子系統(tǒng)的分布式動態(tài)優(yōu)化問題.對于每一個子系統(tǒng),標準目標函數(shù)可表示為
其中ρ1和ρ2是兩個子系統(tǒng)的目標函數(shù)權(quán)重系數(shù).所以eMPC-RCGO控制器求解的非線性規(guī)劃可表示為如下形式:
其中:vvvi,j∈U,i∈{1,2},j∈P=[0,…,P -1],是第i個子系統(tǒng)在動態(tài)過程中產(chǎn)生的跟蹤階段成本,用來衡量各狀態(tài)變量和控制變量偏離穩(wěn)態(tài)值的程度,是采樣時刻k非線性規(guī)劃(47)-(52)的解,
如定義2和定理1所述,文獻[17]給出了輸入狀態(tài)實際穩(wěn)定的定義以及在輸入狀態(tài)實際穩(wěn)定意義下的李雅普諾夫穩(wěn)定性判定定理及證明.接下來將在文獻[17]的基礎(chǔ)上說明在由式(47)-(52)組成的eMPCRCGO控制器下系統(tǒng)是輸入狀態(tài)實際穩(wěn)定.
定理2如果假設(shè)1成立,那么存在α1,α2,α3∈K∞,σ∈K,c1,c2∈R,使得存在V(k,,xxx0)滿足定理1,并且對于所有的xxx0∈X,www∈W,k∈Z都有eMPC-RCGO控制器下系統(tǒng)是輸入狀態(tài)實際穩(wěn)定.
證假設(shè)是K∞類函數(shù),且存在下界
基于上述推導(dǎo),可以得到V 的一個上界.至此,定理1中式(43)可以滿足
依據(jù)上述推導(dǎo)過程,定理1中式(44)可以滿足.綜上,存在V(k,,xxx0)滿足定理1,并且對于所有的xxx0∈X,www∈W,k∈Z都有eMPC-RCGO控制器下系統(tǒng)是輸入狀態(tài)實際穩(wěn)定.
為了檢驗本文提出的RCGO動態(tài)優(yōu)化方案以及DIM數(shù)值求解算法的可行性,選擇一個由兩個連續(xù)攪拌反應(yīng)釜(continuous stirred tank reactor,CSTR)和一個絕熱閃蒸器組成的化工過程網(wǎng)絡(luò)作為仿真驗證平臺.如圖2所示,在每一個CSTR中,期望產(chǎn)品B是通過一階主反應(yīng)獲得,同時存在的副反應(yīng)會消耗一部分期望產(chǎn)品B并生成不需要的副產(chǎn)品C.CSTR 2的出料流股被送到閃蒸器中,并將原料A從B和C中分離出來.其中主要包含原料A的一部分氣相流股被排出,以防止副產(chǎn)品C的積累,剩余的氣相流股回流到CSTR 1中.而主要包含B和C的液相流股則從閃蒸器中排出備用.本章節(jié)使用RCO和RCGO兩種動態(tài)優(yōu)化方案來求解上述化工過程網(wǎng)絡(luò)中涉及的大規(guī)模動態(tài)優(yōu)化問題.在RCO動態(tài)優(yōu)化方案中,目標函數(shù)可以表示為如下的形式:
其中:J是系統(tǒng)的現(xiàn)金流,αFbxBb是售賣期望產(chǎn)品B獲得的收入,[β(F0xA0+F1xA1)+γ(Qr+Qm+Qb)]是由原料流股成本和熱負荷成本組成的操作成本,η(Qr+Qm+Qb)是CO2排放產(chǎn)生的成本,(ω1×(F0+F1)+ω2×(Qr+Qm+Qb))是外部市場因素造成的風(fēng)險成本.α,β,γ,η,ω1,ω2是每一項成本和收入對應(yīng)的系數(shù).在RCGO動態(tài)優(yōu)化方案中,CSTR 1,CSTR 2以及閃蒸器被看作是3個子系統(tǒng),他們各自的目標函數(shù)可以分別表示為
圖2 連帶絕熱閃蒸器的雙反應(yīng)器鏈Fig.2 Two-reactor chain followed by nonadiabatic flash
因為本文提出的分布式動態(tài)優(yōu)化方案是合作式的,也就是說單獨來看每個獨立子系統(tǒng)都有自己的目標函數(shù),但是在合作式動態(tài)博弈優(yōu)化計算中,所有的子系統(tǒng)目標是使得整個系統(tǒng)的整體優(yōu)化性能最大.所以每個子系統(tǒng)使用的目標函數(shù)是關(guān)于提升整個系統(tǒng)的優(yōu)化性能并且應(yīng)該是一致的.對于目標函數(shù)的選擇,一般的做法是將每個獨立子系統(tǒng)的目標函數(shù)線性加和,系數(shù)則根據(jù)實際生產(chǎn)工況、態(tài)勢決定.因此本文將上述3個目標函數(shù)整合為1個大系統(tǒng)的整體目標函數(shù),可表示為以下形式:
其中λr,λm,λb是各子系統(tǒng)目標函數(shù)對應(yīng)的權(quán)值系數(shù),具體數(shù)值由生產(chǎn)者根據(jù)實際需求決定.
在本文中,從3個角度來衡量RCO和RCGO動態(tài)優(yōu)化方案的優(yōu)化性能優(yōu)劣.第1個方面是對象系統(tǒng)的經(jīng)濟效益指標.由于RCO和RCGO方案選擇使用的目標函數(shù)不同,所以為了能夠衡量兩種方案的經(jīng)濟效益優(yōu)劣,首先統(tǒng)一經(jīng)濟效益指標為
第2個方面是對象系統(tǒng)的閉環(huán)控制性能指標.該項性能指標主要包括狀態(tài)變量與其穩(wěn)態(tài)值的積分平方誤差(integral square error of state variable,ISE)以及控制變量與其穩(wěn)態(tài)值的積分平方誤差(integral square error of control variable,ISC).第3個方面是對象系統(tǒng)的實時計算性能指標,衡量標準是每個采樣周期內(nèi)的平均優(yōu)化計算時間.
在本文的數(shù)值仿真中,可以選用求解器IPOPT(interior point optimizer)來求解非線性規(guī)劃問題.采樣周期ΔT取1 s,優(yōu)化時域P和控制時域L分別取5和1,迭代終止容限?取0.001,最大迭代次數(shù)Imax取10.基于上述參數(shù)設(shè)置,在RCO和RCGO動態(tài)優(yōu)化方案下得到的過程網(wǎng)絡(luò)控制變量和狀態(tài)變量序列分別如圖3-4所示.
圖4 RCGO方案下各變量序列Fig.4 Variable profiles in the RCGO scheme
圖3-4觀察到兩種動態(tài)優(yōu)化方案下系統(tǒng)各狀態(tài)變量的整定誤差經(jīng)過平滑過渡后均收斂到0,這樣的結(jié)果保證了系統(tǒng)各狀態(tài)變量均可以穩(wěn)定在其對應(yīng)的穩(wěn)態(tài)值上.同時也注意到兩種動態(tài)優(yōu)化方案下系統(tǒng)各控制變量也均可以穩(wěn)定在其對應(yīng)的穩(wěn)態(tài)值上.上述結(jié)果表明,在RCO和RCGO動態(tài)優(yōu)化方案下的系統(tǒng)是穩(wěn)定的,同時也驗證了第4部分中對RCGO優(yōu)化方案下系統(tǒng)的穩(wěn)定性分析.
在RCGO動態(tài)優(yōu)化方案下,每個優(yōu)化周期內(nèi)優(yōu)化求解的迭代收斂情況和迭代次數(shù)如圖5所示.每個優(yōu)化周期內(nèi)最后兩次連續(xù)迭代得到的最優(yōu)控制之差的歐幾里得范數(shù)(the Euclidean norm of the difference between the vectors of the computed optimal control of the final two consecutive iterations,ENDC)均小于設(shè)定的迭代終止容限?=0.001.這意味著在每一個優(yōu)化周期內(nèi),使用RCGO動態(tài)優(yōu)化方案求解過程網(wǎng)絡(luò)大規(guī)模動態(tài)優(yōu)化問題時均可以成功收斂.同時,每個優(yōu)化周期內(nèi)優(yōu)化求解的迭代次數(shù)均小于設(shè)定的最大迭代次數(shù).這些數(shù)值仿真的結(jié)果均表明RCGO動態(tài)優(yōu)化方案可以有效求解大規(guī)模動態(tài)優(yōu)化問題.
圖5 RCGO方案下優(yōu)化求解迭代收斂情況和迭代次數(shù)Fig.5 Convergence and iteration number of the RCGO
從上述數(shù)值仿真的結(jié)果可以看到,當(dāng)使用RCO方案求解過程網(wǎng)絡(luò)大規(guī)模動態(tài)優(yōu)化問題時,得到的過程網(wǎng)絡(luò)經(jīng)濟效益指標和閉環(huán)控制性能指標均是最優(yōu)的.這是因為在優(yōu)化求解時RCO方案同時考慮過程網(wǎng)絡(luò)中所有的控制變量,所以該方案下優(yōu)化求解的結(jié)果往往考慮了動態(tài)優(yōu)化問題的全局最優(yōu)性.當(dāng)使用RCGO方案時,由于該方案不僅考慮過程網(wǎng)絡(luò)整體的最優(yōu),還考慮了每一個子系統(tǒng)的最優(yōu)性.這樣做會導(dǎo)致過程網(wǎng)絡(luò)動態(tài)優(yōu)化問題的全局最優(yōu)性往往不能保證.也就是說,過程網(wǎng)絡(luò)的經(jīng)濟效益指標和閉環(huán)控制性能指標的好壞是權(quán)衡子系統(tǒng)最優(yōu)性和過程網(wǎng)絡(luò)整體最優(yōu)性后得到的結(jié)果.當(dāng)使用RCO和RCGO動態(tài)優(yōu)化方案分別求解過程網(wǎng)絡(luò)大規(guī)模動態(tài)優(yōu)化問題時,每個采樣周期內(nèi)的平均優(yōu)化計算時間如圖6(b)所示.當(dāng)使用RCO方案時,每個采樣周
圖6 RCO和RCGO方案下過程網(wǎng)絡(luò)閉環(huán)控制性能指標和實時計算性能指標Fig.6 Close-loop and real-time performance indices of the RCO and RCGO
接下來本文從過程網(wǎng)絡(luò)的經(jīng)濟效益指標、閉環(huán)控制性能指標以及實時計算性能指標這3方面對RCO和RCGO動態(tài)優(yōu)化方案優(yōu)化性能的優(yōu)劣進行對比.當(dāng)使用RCO和RCGO動態(tài)優(yōu)化方案分別求解過程網(wǎng)絡(luò)大規(guī)模動態(tài)優(yōu)化問題時,得到的過程網(wǎng)絡(luò)經(jīng)濟效益指標分別為1.3541和0.9160,且在持續(xù)100 s的在線優(yōu)化操作當(dāng)中,過程網(wǎng)絡(luò)的閉環(huán)控制性能指標如圖6(a)所示.期內(nèi)的平均優(yōu)化計算時間相比于使用RCGO方案會更長.這是因為在每一個優(yōu)化周期內(nèi)RCO方案需要求解一個大規(guī)模動態(tài)優(yōu)化問題,由于規(guī)模和復(fù)雜度大往往需要耗費較多時間成本.同時,該方案下每個采樣周期內(nèi)的平均優(yōu)化計算時間會超過采樣周期長度,這意味著RCO方案將難以應(yīng)用到過程網(wǎng)絡(luò)動態(tài)優(yōu)化問題的實時求解當(dāng)中.當(dāng)使用RCGO方案時,由于優(yōu)化求解的系統(tǒng)模型規(guī)模較小,求解復(fù)雜度相比RCO方案較低,所以該方案下可以保證過程網(wǎng)絡(luò)動態(tài)優(yōu)化問題的實時求解.綜上,在求解復(fù)雜大規(guī)模動態(tài)優(yōu)化問題時,RCGO方案較傳統(tǒng)的集中式優(yōu)化方案在由系統(tǒng)經(jīng)濟效益、閉環(huán)控制性能及優(yōu)化求解實時性等組成的綜合指標上有較大優(yōu)勢.
本文基于動態(tài)博弈理論提出了一種分布式動態(tài)優(yōu)化方案,滾動合作博弈優(yōu)化,來實時在線求解復(fù)雜的大規(guī)模動態(tài)優(yōu)化問題.通過將原本復(fù)雜的大規(guī)模動態(tài)優(yōu)化問題分解為若干簡單的小規(guī)模局部優(yōu)化子問題,使得計算復(fù)雜度降低從而保證優(yōu)化求解的實時性.本文還基于動態(tài)博弈理論提出了分解迭代法來求解各局部優(yōu)化子問題,并對RCGO優(yōu)化方案下系統(tǒng)穩(wěn)定性進行分析.最后本文選擇一個化工過程網(wǎng)絡(luò)作為仿真案例,基于RCGO方案得到了極大化經(jīng)濟效益下該網(wǎng)絡(luò)的最優(yōu)操作.優(yōu)化結(jié)果表明在求解復(fù)雜大規(guī)模動態(tài)優(yōu)化問題時,RCGO方案較傳統(tǒng)的集中式優(yōu)化方案在由系統(tǒng)經(jīng)濟效益、閉環(huán)控制性能及優(yōu)化求解實時性等組成的綜合指標上有較大優(yōu)勢.在本文提出的RCGO附動態(tài)優(yōu)化方案中,各子系統(tǒng)均使用相同的目標函數(shù).但在實際應(yīng)用中,各子系統(tǒng)不僅會考慮整個大系統(tǒng)的目標函數(shù),還可能考慮自身系統(tǒng)的經(jīng)濟效益.所以在后續(xù)的工作中,作者打算引入另外一種分布式動態(tài)優(yōu)化方案,各子系統(tǒng)可根據(jù)自身經(jīng)濟效益的需求選擇使用不同的目標函數(shù).通過提出上述兩種分布式動態(tài)優(yōu)化方案,使得復(fù)雜大規(guī)模動態(tài)優(yōu)化問題實時在線求解的理論框架得到進一步完善.同時,本文使用分解迭代法求解分布式動態(tài)優(yōu)化時,得到的解只能保證其為局部最優(yōu)解.在后續(xù)工作中,作者打算采用自適應(yīng)調(diào)整有限元大小位置以及有限元之間的拉格朗日插值多項式階次等措施來進一步提升優(yōu)化求解的質(zhì)量和最優(yōu)性.