林小峰,謝樹平
(廣西大學(xué)電氣工程學(xué)院,南寧 530004)
在工程實際中,大多數(shù)最優(yōu)控制問題是通過多個性能指標來描述的,而往往各個性能指標之間會出現(xiàn)不相容或者沖突的情況。另外這些性能指標之間由于表示的物理意義不一致,它們的單位和標度也是不一致的。以上情況就為多目標最優(yōu)控制問題的求解帶來了困難。
基于Bellman最優(yōu)性原理,多目標動態(tài)規(guī)劃是解決多目標最優(yōu)控制問題非常有效的工具。在過去的幾十年中,多目標最優(yōu)控制取得了一些成果。Khargonekar和Liao等研究了線性系統(tǒng)的多目標最優(yōu)控制問題。Liao提出了一種微分動態(tài)規(guī)劃方法來解決多目標最優(yōu)控制問題。然而這些方法要求性能指標函數(shù)必須具有二階連續(xù)導(dǎo)數(shù),并且仍然按照傳統(tǒng)動態(tài)規(guī)劃在時間上由后往前的逆時序求解方法,這就為實時控制帶來了很大的局限性。另外動態(tài)規(guī)劃方法隨著系統(tǒng)狀態(tài)和動作空間的增大存在維數(shù)災(zāi)問題。多目標最優(yōu)化問題中,向量值型性能指標函數(shù)使得維數(shù)災(zāi)更加嚴重。
自適應(yīng)動態(tài)規(guī)劃ADP(adaptive dynamic programming)是Werbos在動態(tài)規(guī)劃基礎(chǔ)上結(jié)合神經(jīng)網(wǎng)絡(luò)和強化學(xué)習(xí)提出的一種自適應(yīng)評價設(shè)計方法。自適應(yīng)動態(tài)規(guī)劃方法有四種基本結(jié)構(gòu),分別為:啟發(fā)式動態(tài)規(guī)劃HDP(heuristic dynamic programming)、二次啟發(fā)式動態(tài)規(guī)劃DHP(dual heuristic dynamic programming)、執(zhí)行依賴啟發(fā)式動態(tài)規(guī)劃ADHDP(action-dependent heuristic dynamic programming)、執(zhí)行依賴二次啟發(fā)式動態(tài)規(guī)劃ADDHP(action-dependent dual heuristic dynamic programming)。它可以解決以上提到的維數(shù)災(zāi)問題;并且在時間上是由前往后順時序計算,可以遞推優(yōu)化運行,適合實時控制的要求。本文基于自適應(yīng)動態(tài)規(guī)劃提出一種多目標ADHDP算法來解決多目標最優(yōu)控制問題。
勵磁系統(tǒng)對于同步發(fā)電機的安全運行及其所在電力系統(tǒng)的穩(wěn)定性有重要作用。勵磁控制通常有兩個主要目的,其一是維持發(fā)電機端電壓在設(shè)定值上無靜差穩(wěn)定運行;其二則是為系統(tǒng)提供正阻尼電磁力矩。即既要準確跟蹤端電壓參考值,又要快速使系統(tǒng)穩(wěn)定,同時發(fā)揮電壓自動調(diào)節(jié)器AVR(automatic voltage regulator)和電力系統(tǒng)穩(wěn)定器PSS(power system stabilizer)的功能。同步發(fā)電機勵磁控制在同時考慮AVR和PSS兩項性能指標的情況下可以用多目標最優(yōu)控制問題來描述。傳統(tǒng)最優(yōu)控制求解都是基于電力系統(tǒng)局部線性化模型來設(shè)計的,只能保證在運行點附近具有良好性能。鑒于多目標ADHDP無需對象模型,可自適應(yīng)優(yōu)化控制性能等特點,本文將其應(yīng)用在同步發(fā)電機的勵磁控制系統(tǒng)中,取得了較好的效果。
本文考慮的多目標最優(yōu)控制問題形如
其中x0給定,控制集合U=(u′0,u′1,…)′,狀態(tài)集合X=(x′0,x′1,…)′,狀態(tài)變量xt∈Rn,控制變量ut∈Rm,有界可測噪聲ξi∈Rp。
在多目標最優(yōu)控制問題(P)中,有k個性能指標函數(shù),每一個性能指標函數(shù)滿足
使得向量型性能指標函數(shù)最小化,對應(yīng)的狀態(tài)為
定義 解組合(X*,U*)為最優(yōu),如果不存在其他可行解(X,U)使得對于所有i,J[i](X,U)≤J[i](X*,U*)。
此處,定義
令U*∈EZ,X*為相應(yīng)的狀態(tài)序列。那么對于任意時刻t,控制序列(u*t+1,u*t+2,…)重構(gòu)出以下問題的最優(yōu)解。
基于以上最優(yōu)性必要條件定義,提出一種新型的遞推算法——多目標執(zhí)行依賴啟發(fā)式動態(tài)規(guī)劃。對于多目標性能指標函數(shù)而言,由于各個性能指標函數(shù)之間可能存在著相互沖突或者互為代價的情況,并且更為嚴重的是在非線性系統(tǒng)中存在隨機干擾ξt,因此動態(tài)規(guī)劃方法難于對其求解。為能夠使用動態(tài)規(guī)劃算法來求解這類向量型性能函數(shù)的最優(yōu)化問題,引入向量的歐幾里德范數(shù)(Euclid-norm),將向量型性能指標函數(shù)轉(zhuǎn)化為適合動態(tài)規(guī)劃求解的標量型性能指標函數(shù)。向量型函數(shù)的2-范數(shù)(2-norm)表示為
由于上面假設(shè)yt≥0,問題(P1(t))的向量型最小形式可以轉(zhuǎn)化為
據(jù)此定義效用函數(shù)
因此上面最優(yōu)化問題又可以重寫成
上述性能指標函數(shù)可以變形為
根據(jù)Bellman最優(yōu)性原理
即假設(shè)時間t+1以后的最優(yōu)代價函數(shù)J*(t+1)已知。因此,在t時刻的最優(yōu)控制u*(t)可以表示為
以上推導(dǎo)過程即為動態(tài)規(guī)劃的求解思路,它要求知道t+1以后的最優(yōu)代價J*(t+1)。動態(tài)規(guī)劃的求解是一種由后往前的逆時序求解,需要大量的存儲空間和計算時間,這必然會出現(xiàn)前言所述的維數(shù)災(zāi)問題,也無法達到實時性的要求。因此本文針對此多目標最優(yōu)控制問題提出了一種遞推形式的多目標ADHDP。該方法根據(jù)自適應(yīng)評價設(shè)計的思想,用一種帶參數(shù)的函數(shù)結(jié)構(gòu)來近似事先未知的代價函數(shù)J*(t+1)。它通過遞推更新的方法在控制過程中不斷更新和逼近最優(yōu)代價函數(shù)和求解最優(yōu)控制。
圖1為自適應(yīng)評價設(shè)計原理,其中評價模塊為帶參數(shù)函數(shù)近似結(jié)構(gòu),用來獲得代價函數(shù);執(zhí)行模塊也是帶參數(shù)函數(shù)結(jié)構(gòu),用于求解如式(13)所示的最小化問題。自適應(yīng)評價設(shè)計的機理就是通過不斷的調(diào)整兩個模塊函數(shù)近似結(jié)構(gòu)的內(nèi)部參數(shù)來逼近最優(yōu)控制量u*(t)。
圖1 自適應(yīng)評價設(shè)計原理Fig.1 Adaptive critic design principle
評價模塊的逼近過程是通過最小化誤差函數(shù),即
當(dāng)EC趨近于0的時有
這與式(11)表示的代價函數(shù)相同。實現(xiàn)了用函數(shù)結(jié)構(gòu)逼近代價函數(shù)的任務(wù)。
對于執(zhí)行模塊,也可以通過函數(shù)近似結(jié)構(gòu)逼近的方法來獲取最優(yōu)控制u*(t)。即通過最小化代價函數(shù)來調(diào)整參數(shù)獲取u*(t)。由于代價函數(shù)為正數(shù)值,所以設(shè)定其目標值為0。
人工神經(jīng)網(wǎng)絡(luò)是一種可以無限逼近任意非線性函數(shù)的一種函數(shù)映射結(jié)構(gòu)。本文即通過逐次調(diào)整人工神經(jīng)網(wǎng)絡(luò)的權(quán)重來逼近代價函數(shù)J*(t+1)和求解最優(yōu)控制u*(t)。本文采用三層前饋神經(jīng)網(wǎng)絡(luò),其中隱含層神經(jīng)元個數(shù)為l,輸入層到隱含層的連接權(quán)矩陣為υ,隱含層到輸出層的連接矩陣為W,則其輸出可以表示為
其中σ(υTχ)∈Rl,[σ(z)]i為激活函數(shù),[σ(z)]i=由此該多目標ADHDP方法可以用圖2表示。
圖2 ADHDP結(jié)構(gòu)Fig.2 ADHDP structure
(1)評價網(wǎng)絡(luò)
評價網(wǎng)絡(luò)是對性能指標函數(shù)(12)的近似,其輸出可以表示為
其目標為U(x(t),u(t))+J(x(t+1)),則評價網(wǎng)絡(luò)的誤差可以表示為
使用梯度下降法來調(diào)整權(quán)重,則評價網(wǎng)絡(luò)的更新規(guī)律表示為
式中:lC>0為評價網(wǎng)絡(luò)的學(xué)習(xí)率;wC(t)是評價網(wǎng)絡(luò)t時刻的權(quán)矩陣。
(2)執(zhí)行網(wǎng)絡(luò)
執(zhí)行網(wǎng)絡(luò)的輸入為狀態(tài)x(t),輸出為最優(yōu)控制u(t)。網(wǎng)絡(luò)輸出u(t)可以表示為
執(zhí)行網(wǎng)絡(luò)的輸出目標定義為0,因此其誤差函數(shù)定義為
同樣應(yīng)用梯度下降法,與評價網(wǎng)絡(luò)類似,可以得到類似的權(quán)值更新規(guī)律,
以上可以看出需要對兩個網(wǎng)絡(luò)權(quán)重進行調(diào)整使之得到理想的可接受的性能。本文給出的訓(xùn)練方法是執(zhí)行網(wǎng)絡(luò)和評價網(wǎng)絡(luò)交替進行的遞進方式。
步驟1 初始化網(wǎng)絡(luò)權(quán)重,給出精度ε。
步驟2 計算u(t),J(t),U(t)。
步驟3 計算u(t+1),進而計算J(t+1)。
步驟4 根據(jù)式(19)和式(24)定義的誤差,按照上述權(quán)值調(diào)整規(guī)律調(diào)整評價網(wǎng)絡(luò)權(quán)重。
步驟5 轉(zhuǎn)步驟2。
同步發(fā)電機系統(tǒng)是一個典型的非線性系統(tǒng),包含很強的非線性特性和隨機干擾。在工程上通??紤]如圖3所示的單機無窮大電力系統(tǒng)模型來研究同步發(fā)電機的控制問題。
圖3 單機-無窮大電力系統(tǒng)模型Fig.3 Single machine infinite-bus power system
同步電機的電氣部分采用六階模型。該模型考慮了定子、磁場及轉(zhuǎn)子繞組的動態(tài)特性。使用隨轉(zhuǎn)子轉(zhuǎn)動的d-q坐標系。
其電壓方程組為
式中:Vd為定子d軸端電壓;Vq為定子q軸端電壓;V′f,d為勵磁繞組端電壓相對定子繞組的等效值;V′k,d為阻尼繞組d軸端電壓相對于定子繞組的等效值;V′k,q1、V′k,q2為阻尼繞組q軸端電壓相對于定子繞組的等效值;id、iq分別為定子繞組d、q軸電流;i′f,d為勵磁繞組相對于定子繞組的等效電流值;i′k,d為阻尼繞組d軸電流相對于定子繞組的等效值;i′k,q1、i′k,q2為阻尼繞組q軸電流相對于定子繞組的等效值;Rs為定子每相繞組電阻;R′k,d、R′k,q1、R′k,q2為阻尼繞組電阻相對于定子繞組的等效值;φd為定子d軸端總磁鏈;φq為定子q軸總磁鏈;φ′f,d為勵磁繞組總磁鏈相對定子繞組的等效值;φ′k,d為阻尼繞組d軸總磁鏈相對于定子繞組的等效值;φ′k,q1、φ′k,q2為阻尼繞組q軸總磁鏈相對于定子繞組的等效值。
本文考慮勵磁功率系統(tǒng)為快速勵磁系統(tǒng),由于這種系統(tǒng)的勵磁時間常數(shù)基本接近為零,勵磁電壓與調(diào)節(jié)器輸出可以視為線性關(guān)系,即
首先要定義多目標問題的性能指標函數(shù),而對于同步發(fā)電機來說,首先要考慮的是端電壓的跟蹤穩(wěn)定,然后考慮的是頻率的穩(wěn)定。因此,可將性能指標函數(shù)定義為
式中:ΔV(t)是t時刻端電壓與參考端電壓之間的差值;Δω(t)為相對于同步轉(zhuǎn)速的偏差;uR為控制器的輸出;ue則為對uR的一個穩(wěn)態(tài)估計值,即其理想值。這里需要說明的是,uR也是通過一個神經(jīng)網(wǎng)絡(luò)來估算的;而如果系統(tǒng)是一個仿射系統(tǒng)并且其模型已知的情況下,可以直接求得。本文使用神經(jīng)網(wǎng)絡(luò)來實現(xiàn)。
按照式(8)所示方法獲得性能指標函數(shù)為
執(zhí)行網(wǎng)絡(luò)的輸入選取了參考電壓和同步轉(zhuǎn)速。另外還選取了三個時間拍的端電壓跟蹤偏差及同步轉(zhuǎn)速的偏差,在其中引入各自的誤差及誤差的差分,可以保證系統(tǒng)跟蹤的同時還能有一定的趨勢預(yù)測作用,保證系統(tǒng)的穩(wěn)定。因此執(zhí)行網(wǎng)絡(luò)輸入為Vr(t),ΔV(t),ΔV(t-1),ΔV(t-2),ω0Δω(t),Δω(t-1),Δω(t-2),其輸出為uR。評價網(wǎng)絡(luò)輸入為ΔV(t),Δω(t),uR(t)-ue(t),輸出為J。
評價網(wǎng)絡(luò)采用BP調(diào)整算法的三層前饋網(wǎng)絡(luò),其拓撲結(jié)構(gòu)為3-8-1,如圖4所示。
圖4 評價網(wǎng)絡(luò)Fig.4 Critic network
評價網(wǎng)絡(luò)的正向計算過程為
式中:Cin(t)=[uR(t)-ue(t)]ΔV(t)Δω(t)]′,Ch1j和Ch2j分別表示隱藏層第j個神經(jīng)元的輸入和輸出;Wc1輸入層到隱藏層的權(quán)值矩陣;Wc2隱藏層到輸出層的權(quán)值矩陣。
根據(jù)式(20)定義的誤差,評價網(wǎng)絡(luò)采用梯度下降法進行訓(xùn)練,其權(quán)值更新過程見如下推導(dǎo):
(1)隱藏層到輸出層的權(quán)值矩陣Wc2。
(2)輸入層到隱藏層的權(quán)值矩陣Wc1。
執(zhí)行網(wǎng)絡(luò)也是采用BP調(diào)整算法的三層前饋網(wǎng)絡(luò),其拓撲結(jié)構(gòu)為8-30-1。類似地
執(zhí)行網(wǎng)絡(luò)的前向計算過程為
式中:Ah1j(t)、Ah2j(t)分別為執(zhí)行網(wǎng)絡(luò)隱藏層第個神經(jīng)元的輸入和輸出;Wa1為執(zhí)行網(wǎng)絡(luò)輸入層到隱藏層的權(quán)值矩陣;Wa2為執(zhí)行網(wǎng)絡(luò)隱藏層到輸出層的權(quán)值矩陣。
通過最小化式(24)定義的誤差的,同樣采用梯度下降法。
(1)執(zhí)行網(wǎng)絡(luò)隱藏層到輸出層的權(quán)值矩陣Wa2。類似地,可以得到
(2)執(zhí)行網(wǎng)絡(luò)輸入層到隱藏層的權(quán)值矩陣Wa1。
根據(jù)以上所描述的多目標自適應(yīng)動態(tài)規(guī)劃方法,在單機無窮大系統(tǒng)上進行仿真研究。單機無窮大系統(tǒng)中,發(fā)電機參數(shù)為Pn=200 MVA,Vn=16.8 k V(rms),fn=50 Hz,其仿真結(jié)果見圖5~圖7。
(1)初始運行學(xué)習(xí)過程 多目標自適應(yīng)動態(tài)規(guī)劃方法是在沒有先驗知識的情況下投入運行的,主動學(xué)習(xí)系統(tǒng)動態(tài)特性,自適應(yīng)學(xué)習(xí)控制律。下面是在初始條件全部為零的情況下的投入運行到穩(wěn)定狀態(tài)的系統(tǒng)曲線,見圖5。
圖5 初始運行與學(xué)習(xí)Fig.5 Initial running and learning
圖6 階躍擾動Fig.6 Step disturbance
圖7 三相短路擾動Fig.7 Three phase short circuit disturbance
(2)端電壓階躍擾動 此項實驗主要考察在發(fā)電機參考電壓發(fā)生變化時,發(fā)電機端電壓Vt的跟蹤特性和穩(wěn)態(tài)精度。同時也考察轉(zhuǎn)速偏差Δω的變化。實驗給出10%的階躍,通過圖6可以看出,系統(tǒng)能夠快速無靜差跟蹤參考值,并且具有較好的動態(tài)特性。
(3)三相短路擾動 在線路側(cè)發(fā)生三相短路0.1 s后,切除短路重新合閘成功后的機端電壓和轉(zhuǎn)速偏差的變化響應(yīng),見圖7,系統(tǒng)很快地恢復(fù)機端電壓并且具有很好的動態(tài)穩(wěn)定性,系統(tǒng)動態(tài)響應(yīng)特性較好。
多目標執(zhí)行依賴啟發(fā)式動態(tài)規(guī)劃方法無需被控對象數(shù)學(xué)模型,通過遞推方式逐步優(yōu)化系統(tǒng)性能,并且隨著對象特性的改變自適應(yīng)調(diào)整控制器參數(shù)。在多目標的處理方面成功地應(yīng)用2-范數(shù)形式重新推導(dǎo)了ADHDP算法,為帶向量型性能指標函數(shù)的最優(yōu)控制問題的求解提供了一種可行方法。最后,該方法在同步發(fā)電機勵磁控制系統(tǒng)的仿真中取得了良好的性能,驗證了其有效性。
[1] 李志民,盧曦,孫勇,等(Li Zhimin,Lu Xi,Sun Yong,et al).同步發(fā)電機云模型勵磁控制器的設(shè)計(Design of cloud model excitation controller for synchronous generator)[J].電力系統(tǒng)及其自動化學(xué)報(Proceedings of the CSU-EPSA),2010,22(3):91-95.
[2] 王興貴,黃忠良(Wang Xinggui,Huang Zhongliang).同步發(fā)電機勵磁系統(tǒng)的智能變結(jié)構(gòu)控制(Intelligent sliding mode variable structure control for synchronous generator excitation system)[J].電力系統(tǒng)及其自動化學(xué)報(Proceedings of the CSU-EPSA),2006,18(6):79-82.
[3] 楊偉,趙虎,劉?。╕ang Wei,Zhao Hu,Liu Jun).發(fā)電機組勵磁與汽門協(xié)調(diào)控制器的設(shè)計(Design of coordinated controller of generators'excitation and valve)[J].電力系統(tǒng)及其自動化學(xué)報(Proceedings of the CSU-EPSA),2010,22(4):107-112.
[4] Wei Qinglai,Zhang Huaguang,Dai Jing.Model-free multiobjective approximate dynamic programming for discrete time nonlinear systems with general performance index functions[J].Neurocomputing,2009,72(7/8/9):1839-1848.
[5] 姚舜才,潘宏俠(Yao Shuncai,Pan Hongxia).粒子群優(yōu)化同步電機分數(shù)階魯棒勵磁控制器(Fractional order PID controller for synchronous machine excitation using particle swarm optimization)[J].中國電機工程學(xué)報(Proceedings of the CSEE),2010,30(21):91-97.
[6] 陳前,毛承雄,陸繼明,等(Chen Qian,Mao Chengxiong,Lu Jiming,et al).基于改進Elman網(wǎng)絡(luò)的最優(yōu)勵磁控制器(Linear optimal excitation controller based on modified Elman neural network)[J].大電機技術(shù)(Large Electric Machine and Hydraulic Turbine),2007,(3):51-55.
[7] 李嘯驄,郭棟,韋化,等(Li Xiaocong,Guo Dong,Wei Hua,et al).超導(dǎo)磁儲能與發(fā)電機勵磁的多指標非線性協(xié)調(diào)控制(Multi-index nonlinear coordinated control for SMES and generator excitation)[J].中國電機工程學(xué)報(Proceedings of the CSEE),2007,27(28):29-33.
[8] Liao L-Z,Shoemaker C A.Convergence in unconstrained discrete-time differential dynamic programming[J].IEEE Trans on Automatic Control,1991,36(6):692-706.
[9] Liao L-Z,Li D.Adaptive differential dynamic programming for multiobjective optimal control[J].Automatica,2002,38(6):1003-1015.
[10]Al-Tamimi A,Lewis F L,Abu-Khalaf M.Discretetime nonlinear HJB solution using approximate dynamic programming:Convergence proof[J].IEEE Trans on Systems,Man and Cybernetics,2008,38(4):943-949.