于來寶, 謝興旺, 宋 晶, 袁 博
(1. 中國(guó)地質(zhì)大學(xué) 地球物理與空間信息學(xué)院, 湖北 武漢 430074; 2. 武漢城市職業(yè)學(xué)院 機(jī)電學(xué)院, 湖北 武漢 430070; 3. 華中科技大學(xué) 人工智能與自動(dòng)化學(xué)院, 湖北 武漢 430074)
PID控制因其算法簡(jiǎn)單、可靠性高以及易于實(shí)現(xiàn),在實(shí)際工業(yè)生產(chǎn)過程控制中得到了廣泛的應(yīng)用.但是火電廠鍋爐過熱控制系統(tǒng)是典型的非線性、時(shí)變、大遲滯、大慣性的復(fù)雜系統(tǒng),當(dāng)電廠負(fù)荷發(fā)生改變或有外界干擾時(shí),如果仍然采用固定參數(shù)的PID控制器往往難以得到理想的控制效果.針對(duì)鍋爐過熱汽溫控制中運(yùn)行工況多變、難以獲得控制對(duì)象精確的數(shù)學(xué)模型以及存在干擾等問題,有學(xué)者尋求先進(jìn)的控制方法以期獲得滿意的控制效果,如預(yù)測(cè)控制、模糊控制、智能PID控制和神經(jīng)網(wǎng)絡(luò)等方法[1-2].其中模型預(yù)測(cè)控制需要知道被控系統(tǒng)的模型和參數(shù),而實(shí)際系統(tǒng)很難獲得精確的模型參數(shù),這限制了該方法的應(yīng)用.而模糊控制中的控制規(guī)則一旦確定就不能隨意改變,當(dāng)被控系統(tǒng)結(jié)構(gòu)參數(shù)發(fā)生極大突變時(shí),模糊控制顯得不是很智能,因此其控制效果也一般.神經(jīng)網(wǎng)絡(luò)能夠以任意精度逼近非線性函數(shù),具有一定的自學(xué)習(xí)能力和魯棒性強(qiáng)的特點(diǎn),因此其在非線性控制系統(tǒng)獲得了應(yīng)用[3-4].但是鍋爐過熱汽溫控制系統(tǒng)是典型的復(fù)雜非線性時(shí)變系統(tǒng),系統(tǒng)模型結(jié)構(gòu)和參數(shù)變化較大,因此采用上述控制方法時(shí)難以獲得準(zhǔn)確的系統(tǒng)模型結(jié)構(gòu)和參數(shù),從而導(dǎo)致控制效果差強(qiáng)人意.近年來人工智能技術(shù)已成為推動(dòng)世界科技發(fā)展的技術(shù)之一,在計(jì)算智能、認(rèn)知智能與感知智能等方面具有極強(qiáng)的處理能力[5-8].強(qiáng)化學(xué)習(xí)因其僅通過智能體與外部環(huán)境互動(dòng)不斷優(yōu)化動(dòng)作,具有極強(qiáng)的在線自學(xué)能力,已經(jīng)在電力系統(tǒng)、物聯(lián)網(wǎng)以及智能建筑等方面獲得應(yīng)用[9].AC強(qiáng)化算法由actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)組成,其中critic網(wǎng)絡(luò)輸出評(píng)價(jià)信號(hào)來評(píng)價(jià)當(dāng)前行為對(duì)未來的影響,actor網(wǎng)絡(luò)輸出控制信號(hào)作用于被控對(duì)象.
文中擬提出一種基于AC算法的自適應(yīng)PI控制器,采用徑向基網(wǎng)絡(luò)來實(shí)現(xiàn)actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò).其中actor網(wǎng)絡(luò)的輸出再加上高斯擾動(dòng)項(xiàng)作為RL-PI控制器的比例-積分系數(shù).RL-PI控制器不需要知道被控系統(tǒng)精確的模型和參數(shù),actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)的權(quán)值會(huì)在線自適應(yīng)更新,使得actor網(wǎng)絡(luò)輸出自適應(yīng)控制信號(hào),從而維持RL-PI控制器良好的控制效果.RL-PI控制器能夠有效克服常規(guī)PI控制器難以實(shí)時(shí)調(diào)節(jié)PI系數(shù)的不足,也不需要被控系統(tǒng)的精確模型參數(shù),將其應(yīng)用于鍋爐過熱汽溫控制,在正常工況、系統(tǒng)結(jié)構(gòu)和參數(shù)發(fā)生變化等各種工況條件下,RL-PI方法具有收斂速度快,自適應(yīng)能力強(qiáng)的特點(diǎn).
鍋爐過熱汽溫控制系統(tǒng)見圖1,由汽包、一級(jí)過熱器、噴水減溫器和二級(jí)過熱器組成.噴水減溫器用來調(diào)節(jié)汽溫使之保持在額定溫度范圍內(nèi),過熱器和噴水減溫器配套組合能夠克服各種擾動(dòng),產(chǎn)生符合要求的過熱蒸汽并且將其送往汽輪機(jī)進(jìn)行發(fā)電.
圖1 鍋爐過熱汽溫控制系統(tǒng)
在對(duì)鍋爐過熱汽溫控制系統(tǒng)進(jìn)行模型分析過程中,為了簡(jiǎn)化一般以噴水減溫器為分界點(diǎn),將過熱器的控制通道分為過熱汽溫導(dǎo)前區(qū)和過熱汽溫滯后區(qū),其結(jié)構(gòu)見圖2.
圖2 鍋爐過熱汽溫控制通道原理圖
RBF網(wǎng)絡(luò)是一種3層前饋式神經(jīng)網(wǎng)絡(luò),與BP網(wǎng)絡(luò)相比,具有結(jié)構(gòu)簡(jiǎn)單、全局逼近能力強(qiáng)、訓(xùn)練速度快等優(yōu)點(diǎn)[10-11].因此文中采用RBF網(wǎng)絡(luò)來實(shí)現(xiàn)AC強(qiáng)化學(xué)習(xí)中的actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò).
在AC學(xué)習(xí)中,actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)的輸入均為外部環(huán)境的狀態(tài)變量,只是它們的輸出不同;為了簡(jiǎn)化系統(tǒng)的設(shè)計(jì),提高學(xué)習(xí)效率,采用一個(gè)RBF網(wǎng)絡(luò)同時(shí)實(shí)現(xiàn)actor網(wǎng)絡(luò)的策略函數(shù)和critic網(wǎng)絡(luò)的值函數(shù)功能,其結(jié)構(gòu)見圖3.
圖3 基于RBF網(wǎng)絡(luò)的AC強(qiáng)化學(xué)習(xí)
RBF網(wǎng)絡(luò)的輸入狀態(tài)向量為
x(t)=[x1(t),x2(t),x3(t)]T=
[e(t),Δe(t),Δ2e(t)]T,
(1)
隱含層采用的高斯型核函數(shù)為
(2)
式中:μj(t)=[μj1,μj2,μj3]T為第j個(gè)節(jié)點(diǎn)的中心向量;σj為第j個(gè)節(jié)點(diǎn)的寬度函數(shù);h為隱含層節(jié)點(diǎn)數(shù).
RBF網(wǎng)絡(luò)的輸出包括actor網(wǎng)絡(luò)輸出和critic網(wǎng)絡(luò)輸出2個(gè)部分,其計(jì)算公式分別為
(3)
(4)
式中:ωai,ωci分別為隱含層第i個(gè)節(jié)點(diǎn)到actor網(wǎng)絡(luò)與critic網(wǎng)絡(luò)的權(quán)值.
將actor網(wǎng)絡(luò)輸出kζ(t)加上高斯擾動(dòng)項(xiàng)ηm后的結(jié)果作為PI控制器的參數(shù),即
(5)
文中采用PI控制,將kd(t)設(shè)置為0.ηm的大小依賴于critic網(wǎng)絡(luò)的輸出V(t),其方差的計(jì)算公式為
σv(t)=[1+exp(2V(t))]-1.
(6)
在AC算法中時(shí)序差分函數(shù)δTD的計(jì)算式為
δTD(t)=R(t)+λV(t+1)-V(t),
(7)
式中:λ為折扣因子,0<λ<1.
定義系統(tǒng)的性能指標(biāo)函數(shù)為
(8)
actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)權(quán)值更新計(jì)算式如下:
(9)
ωci(t+1)=ωci(t)+αcδTDΦj(t),
(10)
式中:αa和αc分別為actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)權(quán)值學(xué)習(xí)率.RBF網(wǎng)絡(luò)的隱含層節(jié)點(diǎn)中心和節(jié)點(diǎn)寬度更新計(jì)算式為
(11)
(12)
式中:αf和αg分別為節(jié)點(diǎn)中心和節(jié)點(diǎn)寬度的學(xué)習(xí)率.
文中所提出的RL-PI控制器原理見圖4.
圖4 基于AC強(qiáng)化學(xué)習(xí)的自適應(yīng)PI控制系統(tǒng)
PI控制器采用增量式PI算法,其計(jì)算式為
(13)
其中x1和x2的計(jì)算式如式(1)所示.
系統(tǒng)的誤差、誤差的一次差分和二次差分計(jì)算式分別為
e(t)=r(t)-y(t),
(14)
Δe(t)=e(t)-e(t-1),
(15)
Δ2e(t)=e(t)-2e(t-1)+e(t-2).
(16)
從圖4可見,AC強(qiáng)化學(xué)習(xí)由4個(gè)部分組成:
1) 狀態(tài)轉(zhuǎn)換器,其將系統(tǒng)誤差信號(hào)轉(zhuǎn)換為actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)的輸入信號(hào)x(t);
2) actor網(wǎng)絡(luò),其對(duì)策略進(jìn)行評(píng)估,網(wǎng)絡(luò)輸出kζ(t);
3) critic網(wǎng)絡(luò),利用其神經(jīng)網(wǎng)絡(luò)得到值函數(shù)估計(jì)值V(t),進(jìn)而獲得時(shí)序差分函數(shù)δTD,由δTD來驅(qū)動(dòng)actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)的權(quán)值、節(jié)點(diǎn)中心與節(jié)點(diǎn)寬度等的更新.δTD大于0,則以更大的幾率選擇相應(yīng)的動(dòng)作,反之亦然;
定義系統(tǒng)的回報(bào)函數(shù)為
R(t)=β1r1(t)+β2r2(t),
(17)
式中:r1和r2分別為誤差和誤差變化率的強(qiáng)化函數(shù);β1和β2分別為它們對(duì)應(yīng)的系數(shù);而
(18)
(19)
式中:ε為容許誤差帶.
1) 初始化RBF神經(jīng)網(wǎng)絡(luò)的權(quán)值、節(jié)點(diǎn)中心和節(jié)點(diǎn)寬度的學(xué)習(xí)率等參數(shù);
2) 獲取狀態(tài)向量x(t),利用式(3)和式(4)計(jì)算kζ(t)和V(t);
4) 獲取狀態(tài)向量x(t+1),利用式(17)求得回報(bào)函數(shù)R(t),根據(jù)式(7)計(jì)算時(shí)序差分函數(shù)δTD;
5) 根據(jù)式(9)-(12)更新網(wǎng)絡(luò)權(quán)值、節(jié)點(diǎn)中心和節(jié)點(diǎn)寬度;
6) 判斷是否滿足結(jié)束條件,如果為否,轉(zhuǎn)到步驟2),否則控制結(jié)束.
當(dāng)鍋爐過熱汽溫控制系統(tǒng)的狀態(tài)發(fā)生變化時(shí),RL-PI控制器通過在線更新RBF網(wǎng)絡(luò)權(quán)值使得輸出的控制信號(hào)隨著系統(tǒng)狀態(tài)的變化而變化.
在Matlab/Simulink下搭建圖5所示的鍋爐過熱控制系統(tǒng).
圖5 基于RL-PI控制的過熱汽溫控制系統(tǒng)
在圖5中,r為過熱汽溫設(shè)定值;d為系統(tǒng)的干擾,主要為減溫水量的自發(fā)擾動(dòng);y為過熱汽溫輸出;e為系統(tǒng)誤差;u為控制器的輸出;AC-PI控制器和Wa1(s)分別為汽溫控制系統(tǒng)的主、副調(diào)節(jié)器;Wo1(s)、Wo2(s)分別為調(diào)節(jié)對(duì)象導(dǎo)前區(qū)和惰性區(qū)的傳遞函數(shù);WH1(s)、WH2(s)分別為導(dǎo)前汽溫和過熱汽溫的測(cè)量單元,各環(huán)節(jié)的傳遞函數(shù)計(jì)算式為
(20)
為了能夠反映鍋爐實(shí)際的工作狀態(tài),分別開展了正常工況、增益增大、慣性增大、增益突變、慣性突變以及加擾動(dòng)等6種工況下的仿真試驗(yàn);同時(shí)為了驗(yàn)證文中所提出RL-PI方法的控制性能,與模糊PI控制(FU-PI)、模型預(yù)測(cè)PI控制(MPC-PI)以及常規(guī)串級(jí)PI控制作了對(duì)比研究.
3.2.1正常工況
令輸入信號(hào)作階躍變化,圖6是正常工況下系統(tǒng)輸出曲線圖.
圖6 正常工況系統(tǒng)輸出響應(yīng)
由圖6可見,串級(jí)PI控制穩(wěn)定時(shí)間為520 s,超調(diào)量為34.1%;而RL-PI控制、MPC-PI控制和FU-PI控制的穩(wěn)定時(shí)間分別為360、380、390 s,超調(diào)量分別為16.1%、17.6%、18.4%.可見RL-PI控制的收斂速度更快.
3.2.2慣性增大
當(dāng)鍋爐運(yùn)行工況改變時(shí),其系統(tǒng)模型中的參數(shù)會(huì)發(fā)生改變,以惰性區(qū)的慣性增大(傳遞函數(shù)變?yōu)閃o2(s)=1.125/(1+35s)3)為例.圖7是慣性增大時(shí)系統(tǒng)的輸出響應(yīng).
圖7 慣性增大系統(tǒng)輸出響應(yīng)
由圖7可見,PI串級(jí)控制的超調(diào)量為48.1%,穩(wěn)定時(shí)間增加到780 s,而RL-PI控制、MPC-PI控制和FU-PI控制的穩(wěn)定時(shí)間分別為460、490、510 s,超調(diào)量分別為18.3%、23.6%、28.4%.可見,當(dāng)鍋爐控制系統(tǒng)慣性時(shí),常規(guī)串級(jí)PI控制性能明顯降低,而RL-PI控制效果令人滿意.
3.2.3增益增大
當(dāng)鍋爐運(yùn)行工況改變時(shí),以惰性區(qū)的增益增大(傳遞函數(shù)變?yōu)閃o2(s)=1.825/(1+25s)3)為例.圖8是增益增大時(shí)系統(tǒng)的輸出響應(yīng).
圖8 增益增大系統(tǒng)輸出響應(yīng)
由圖8可見,當(dāng)鍋爐控制系統(tǒng)的增益增大時(shí),到800 s時(shí),采用常規(guī)串級(jí)PI控制系統(tǒng)沒有穩(wěn)定下來,而采用RL-PI控制、MPC-PI控制和FU-PI控制的穩(wěn)定時(shí)間分別為650、760、780 s.因此RL-PI控制效果令人滿意.
3.2.4慣性突變
為了驗(yàn)證RL-PI控制對(duì)系統(tǒng)運(yùn)行工況突變的自適應(yīng)學(xué)習(xí)能力,假定在1 000 s時(shí)惰性區(qū)慣性突變(傳遞函數(shù)變?yōu)閃o2(s)=1.125/(1+35s)3).圖9是慣性突變時(shí)系統(tǒng)的輸出響應(yīng).
圖9 慣性突變系統(tǒng)輸出響應(yīng)
由圖9可見,當(dāng)系統(tǒng)慣性系數(shù)突變時(shí),采用RL-PI控制時(shí),系統(tǒng)的超調(diào)量為19.4%,而采用MPC-PI控制、FU-PI控制和串級(jí)PI控制的超調(diào)量分別為24.2%、27.5%和36.6%.當(dāng)系統(tǒng)工況發(fā)生突變時(shí),與其他3種控制方法相比,RL-PI控制效果仍然較好.
3.2.5增益突變
假定在1 000 s時(shí)惰性區(qū)增益突變(傳遞函數(shù)變?yōu)閃o2(s)=1.825/(1+25s)3).圖10是增益突變時(shí)系統(tǒng)的輸出響應(yīng).
圖10 增益突變系統(tǒng)輸出響應(yīng)
由圖10可見,當(dāng)系統(tǒng)增益突變時(shí),采用RL-PI控制時(shí),系統(tǒng)的超調(diào)量為18.7%,串級(jí)PI控制的超調(diào)量為33.7%.可見,RL-PI控制效果仍然可以.圖11為增益突變時(shí),actor網(wǎng)絡(luò)輸出的PI控制器kp和ki更新的曲線圖.
圖11 增益突變PI參數(shù)變化曲線
由圖10、11可見,在1 000 s時(shí),系統(tǒng)的增益發(fā)生突變,actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)的權(quán)值隨著系統(tǒng)增益參數(shù)改變而自適應(yīng)在線更新,使得RL-PI控制輸出自適應(yīng)控制信號(hào),提高RL-PI控制的魯棒性.
3.2.6加擾動(dòng)
為了驗(yàn)證RL-PI控制器的抗干擾能力,在1 000 s時(shí)加幅值為0.5、持續(xù)時(shí)間為30 s的階躍擾動(dòng)信號(hào).圖12是系統(tǒng)的輸出響應(yīng),由圖可見RL-PI控制仍然具有較好的抗干擾能力.
圖12 加擾動(dòng)系統(tǒng)輸出響應(yīng)
文中提出的RL-PI控制方法通過在線更新RBF網(wǎng)絡(luò)權(quán)值系數(shù),實(shí)現(xiàn)自適應(yīng)控制.通過典型鍋爐運(yùn)行工況仿真試驗(yàn)表明,所提出的RL-PI控制與MPC-PI控制、FU-PI控制和串級(jí)PI控制相比,具有收斂速度快、控制精度高以及抗干擾能力強(qiáng)等特點(diǎn).RL-PI控制可以廣泛應(yīng)用于復(fù)雜的非線性時(shí)變系統(tǒng)中,具有良好的工程應(yīng)用前景.