亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于強(qiáng)化學(xué)習(xí)的過熱汽溫自適應(yīng)PI控制器設(shè)計(jì)

2022-11-07 01:55:46于來寶謝興旺

江蘇大學(xué)學(xué)報(bào)(自然科學(xué)版) 2022年6期

于來寶, 謝興旺, 宋晶, 袁博

(1. 中國(guó)地質(zhì)大學(xué) 地球物理與空間信息學(xué)院, 湖北武漢 430074； 2. 武漢城市職業(yè)學(xué)院機(jī)電學(xué)院, 湖北武漢 430070； 3. 華中科技大學(xué) 人工智能與自動(dòng)化學(xué)院, 湖北武漢 430074)

PID控制因其算法簡(jiǎn)單、可靠性高以及易于實(shí)現(xiàn),在實(shí)際工業(yè)生產(chǎn)過程控制中得到了廣泛的應(yīng)用.但是火電廠鍋爐過熱控制系統(tǒng)是典型的非線性、時(shí)變、大遲滯、大慣性的復(fù)雜系統(tǒng),當(dāng)電廠負(fù)荷發(fā)生改變或有外界干擾時(shí),如果仍然采用固定參數(shù)的PID控制器往往難以得到理想的控制效果.針對(duì)鍋爐過熱汽溫控制中運(yùn)行工況多變、難以獲得控制對(duì)象精確的數(shù)學(xué)模型以及存在干擾等問題,有學(xué)者尋求先進(jìn)的控制方法以期獲得滿意的控制效果,如預(yù)測(cè)控制、模糊控制、智能PID控制和神經(jīng)網(wǎng)絡(luò)等方法[1-2].其中模型預(yù)測(cè)控制需要知道被控系統(tǒng)的模型和參數(shù),而實(shí)際系統(tǒng)很難獲得精確的模型參數(shù),這限制了該方法的應(yīng)用.而模糊控制中的控制規(guī)則一旦確定就不能隨意改變,當(dāng)被控系統(tǒng)結(jié)構(gòu)參數(shù)發(fā)生極大突變時(shí),模糊控制顯得不是很智能,因此其控制效果也一般.神經(jīng)網(wǎng)絡(luò)能夠以任意精度逼近非線性函數(shù),具有一定的自學(xué)習(xí)能力和魯棒性強(qiáng)的特點(diǎn),因此其在非線性控制系統(tǒng)獲得了應(yīng)用[3-4].但是鍋爐過熱汽溫控制系統(tǒng)是典型的復(fù)雜非線性時(shí)變系統(tǒng),系統(tǒng)模型結(jié)構(gòu)和參數(shù)變化較大,因此采用上述控制方法時(shí)難以獲得準(zhǔn)確的系統(tǒng)模型結(jié)構(gòu)和參數(shù),從而導(dǎo)致控制效果差強(qiáng)人意.近年來人工智能技術(shù)已成為推動(dòng)世界科技發(fā)展的技術(shù)之一,在計(jì)算智能、認(rèn)知智能與感知智能等方面具有極強(qiáng)的處理能力[5-8].強(qiáng)化學(xué)習(xí)因其僅通過智能體與外部環(huán)境互動(dòng)不斷優(yōu)化動(dòng)作,具有極強(qiáng)的在線自學(xué)能力,已經(jīng)在電力系統(tǒng)、物聯(lián)網(wǎng)以及智能建筑等方面獲得應(yīng)用[9].AC強(qiáng)化算法由actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)組成,其中critic網(wǎng)絡(luò)輸出評(píng)價(jià)信號(hào)來評(píng)價(jià)當(dāng)前行為對(duì)未來的影響,actor網(wǎng)絡(luò)輸出控制信號(hào)作用于被控對(duì)象.

文中擬提出一種基于AC算法的自適應(yīng)PI控制器,采用徑向基網(wǎng)絡(luò)來實(shí)現(xiàn)actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò).其中actor網(wǎng)絡(luò)的輸出再加上高斯擾動(dòng)項(xiàng)作為RL-PI控制器的比例-積分系數(shù).RL-PI控制器不需要知道被控系統(tǒng)精確的模型和參數(shù),actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)的權(quán)值會(huì)在線自適應(yīng)更新,使得actor網(wǎng)絡(luò)輸出自適應(yīng)控制信號(hào),從而維持RL-PI控制器良好的控制效果.RL-PI控制器能夠有效克服常規(guī)PI控制器難以實(shí)時(shí)調(diào)節(jié)PI系數(shù)的不足,也不需要被控系統(tǒng)的精確模型參數(shù),將其應(yīng)用于鍋爐過熱汽溫控制,在正常工況、系統(tǒng)結(jié)構(gòu)和參數(shù)發(fā)生變化等各種工況條件下,RL-PI方法具有收斂速度快,自適應(yīng)能力強(qiáng)的特點(diǎn).

1 鍋爐過熱汽溫控制系統(tǒng)結(jié)構(gòu)特點(diǎn)

鍋爐過熱汽溫控制系統(tǒng)見圖1,由汽包、一級(jí)過熱器、噴水減溫器和二級(jí)過熱器組成.噴水減溫器用來調(diào)節(jié)汽溫使之保持在額定溫度范圍內(nèi),過熱器和噴水減溫器配套組合能夠克服各種擾動(dòng),產(chǎn)生符合要求的過熱蒸汽并且將其送往汽輪機(jī)進(jìn)行發(fā)電.

圖1 鍋爐過熱汽溫控制系統(tǒng)

在對(duì)鍋爐過熱汽溫控制系統(tǒng)進(jìn)行模型分析過程中,為了簡(jiǎn)化一般以噴水減溫器為分界點(diǎn),將過熱器的控制通道分為過熱汽溫導(dǎo)前區(qū)和過熱汽溫滯后區(qū),其結(jié)構(gòu)見圖2.

圖2 鍋爐過熱汽溫控制通道原理圖

2 基于RBF網(wǎng)絡(luò)的RL-PI控制器設(shè)計(jì)

RBF網(wǎng)絡(luò)是一種3層前饋式神經(jīng)網(wǎng)絡(luò),與BP網(wǎng)絡(luò)相比,具有結(jié)構(gòu)簡(jiǎn)單、全局逼近能力強(qiáng)、訓(xùn)練速度快等優(yōu)點(diǎn)[10-11].因此文中采用RBF網(wǎng)絡(luò)來實(shí)現(xiàn)AC強(qiáng)化學(xué)習(xí)中的actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò).

2.1 基于RBF網(wǎng)絡(luò)的AC強(qiáng)化學(xué)習(xí)原理

在AC學(xué)習(xí)中,actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)的輸入均為外部環(huán)境的狀態(tài)變量,只是它們的輸出不同；為了簡(jiǎn)化系統(tǒng)的設(shè)計(jì),提高學(xué)習(xí)效率,采用一個(gè)RBF網(wǎng)絡(luò)同時(shí)實(shí)現(xiàn)actor網(wǎng)絡(luò)的策略函數(shù)和critic網(wǎng)絡(luò)的值函數(shù)功能,其結(jié)構(gòu)見圖3.

圖3 基于RBF網(wǎng)絡(luò)的AC強(qiáng)化學(xué)習(xí)

RBF網(wǎng)絡(luò)的輸入狀態(tài)向量為

x(t)=[x1(t),x2(t),x3(t)]T=
[e(t),Δe(t),Δ2e(t)]T,

(1)

隱含層采用的高斯型核函數(shù)為

(2)

式中：μj(t)=[μj1,μj2,μj3]T為第j個(gè)節(jié)點(diǎn)的中心向量；σj為第j個(gè)節(jié)點(diǎn)的寬度函數(shù)；h為隱含層節(jié)點(diǎn)數(shù).

RBF網(wǎng)絡(luò)的輸出包括actor網(wǎng)絡(luò)輸出和critic網(wǎng)絡(luò)輸出2個(gè)部分,其計(jì)算公式分別為

(3)

(4)

式中：ωai,ωci分別為隱含層第i個(gè)節(jié)點(diǎn)到actor網(wǎng)絡(luò)與critic網(wǎng)絡(luò)的權(quán)值.

將actor網(wǎng)絡(luò)輸出kζ(t)加上高斯擾動(dòng)項(xiàng)ηm后的結(jié)果作為PI控制器的參數(shù),即

(5)

文中采用PI控制,將kd(t)設(shè)置為0.ηm的大小依賴于critic網(wǎng)絡(luò)的輸出V(t),其方差的計(jì)算公式為

σv(t)=[1+exp(2V(t))]-1.

(6)

在AC算法中時(shí)序差分函數(shù)δTD的計(jì)算式為

δTD(t)=R(t)+λV(t+1)-V(t),

(7)

式中：λ為折扣因子，0<λ<1.

定義系統(tǒng)的性能指標(biāo)函數(shù)為

(8)

actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)權(quán)值更新計(jì)算式如下:

(9)

ωci(t+1)=ωci(t)+αcδTDΦj(t),

(10)

式中：αa和αc分別為actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)權(quán)值學(xué)習(xí)率.RBF網(wǎng)絡(luò)的隱含層節(jié)點(diǎn)中心和節(jié)點(diǎn)寬度更新計(jì)算式為

(11)

(12)

式中：αf和αg分別為節(jié)點(diǎn)中心和節(jié)點(diǎn)寬度的學(xué)習(xí)率.

2.2 RL-PI控制器設(shè)計(jì)

文中所提出的RL-PI控制器原理見圖4.

圖4 基于AC強(qiáng)化學(xué)習(xí)的自適應(yīng)PI控制系統(tǒng)

PI控制器采用增量式PI算法,其計(jì)算式為

(13)

其中x1和x2的計(jì)算式如式(1)所示.

系統(tǒng)的誤差、誤差的一次差分和二次差分計(jì)算式分別為

e(t)=r(t)-y(t),

(14)

Δe(t)=e(t)-e(t-1),

(15)

Δ2e(t)=e(t)-2e(t-1)+e(t-2).

(16)

從圖4可見,AC強(qiáng)化學(xué)習(xí)由4個(gè)部分組成:

1) 狀態(tài)轉(zhuǎn)換器,其將系統(tǒng)誤差信號(hào)轉(zhuǎn)換為actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)的輸入信號(hào)x(t)；

2) actor網(wǎng)絡(luò),其對(duì)策略進(jìn)行評(píng)估,網(wǎng)絡(luò)輸出kζ(t)；

3) critic網(wǎng)絡(luò),利用其神經(jīng)網(wǎng)絡(luò)得到值函數(shù)估計(jì)值V(t),進(jìn)而獲得時(shí)序差分函數(shù)δTD,由δTD來驅(qū)動(dòng)actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)的權(quán)值、節(jié)點(diǎn)中心與節(jié)點(diǎn)寬度等的更新.δTD大于0,則以更大的幾率選擇相應(yīng)的動(dòng)作,反之亦然；

定義系統(tǒng)的回報(bào)函數(shù)為

R(t)=β1r1(t)+β2r2(t),

(17)

式中：r1和r2分別為誤差和誤差變化率的強(qiáng)化函數(shù)；β1和β2分別為它們對(duì)應(yīng)的系數(shù)；而

(18)

(19)

式中：ε為容許誤差帶.

2.3 RL-PI算法執(zhí)行步驟

1) 初始化RBF神經(jīng)網(wǎng)絡(luò)的權(quán)值、節(jié)點(diǎn)中心和節(jié)點(diǎn)寬度的學(xué)習(xí)率等參數(shù)；

2) 獲取狀態(tài)向量x(t),利用式(3)和式(4)計(jì)算kζ(t)和V(t)；

4) 獲取狀態(tài)向量x(t+1),利用式(17)求得回報(bào)函數(shù)R(t),根據(jù)式(7)計(jì)算時(shí)序差分函數(shù)δTD；

5) 根據(jù)式(9)-(12)更新網(wǎng)絡(luò)權(quán)值、節(jié)點(diǎn)中心和節(jié)點(diǎn)寬度；

6) 判斷是否滿足結(jié)束條件,如果為否,轉(zhuǎn)到步驟2),否則控制結(jié)束.

3 仿真試驗(yàn)與結(jié)果分析

當(dāng)鍋爐過熱汽溫控制系統(tǒng)的狀態(tài)發(fā)生變化時(shí),RL-PI控制器通過在線更新RBF網(wǎng)絡(luò)權(quán)值使得輸出的控制信號(hào)隨著系統(tǒng)狀態(tài)的變化而變化.

3.1 鍋爐過熱汽溫控制系統(tǒng)的設(shè)計(jì)

在Matlab/Simulink下搭建圖5所示的鍋爐過熱控制系統(tǒng).

圖5 基于RL-PI控制的過熱汽溫控制系統(tǒng)

在圖5中,r為過熱汽溫設(shè)定值；d為系統(tǒng)的干擾,主要為減溫水量的自發(fā)擾動(dòng)；y為過熱汽溫輸出；e為系統(tǒng)誤差；u為控制器的輸出；AC-PI控制器和Wa1(s)分別為汽溫控制系統(tǒng)的主、副調(diào)節(jié)器；Wo1(s)、Wo2(s)分別為調(diào)節(jié)對(duì)象導(dǎo)前區(qū)和惰性區(qū)的傳遞函數(shù)；WH1(s)、WH2(s)分別為導(dǎo)前汽溫和過熱汽溫的測(cè)量單元,各環(huán)節(jié)的傳遞函數(shù)計(jì)算式為

(20)

3.2 仿真試驗(yàn)及結(jié)果

為了能夠反映鍋爐實(shí)際的工作狀態(tài),分別開展了正常工況、增益增大、慣性增大、增益突變、慣性突變以及加擾動(dòng)等6種工況下的仿真試驗(yàn)；同時(shí)為了驗(yàn)證文中所提出RL-PI方法的控制性能,與模糊PI控制(FU-PI)、模型預(yù)測(cè)PI控制(MPC-PI)以及常規(guī)串級(jí)PI控制作了對(duì)比研究.

3.2.1正常工況

令輸入信號(hào)作階躍變化,圖6是正常工況下系統(tǒng)輸出曲線圖.

圖6 正常工況系統(tǒng)輸出響應(yīng)

由圖6可見,串級(jí)PI控制穩(wěn)定時(shí)間為520 s,超調(diào)量為34.1%；而RL-PI控制、MPC-PI控制和FU-PI控制的穩(wěn)定時(shí)間分別為360、380、390 s,超調(diào)量分別為16.1%、17.6%、18.4%.可見RL-PI控制的收斂速度更快.

3.2.2慣性增大

當(dāng)鍋爐運(yùn)行工況改變時(shí),其系統(tǒng)模型中的參數(shù)會(huì)發(fā)生改變,以惰性區(qū)的慣性增大(傳遞函數(shù)變?yōu)閃o2(s)=1.125/(1+35s)3)為例.圖7是慣性增大時(shí)系統(tǒng)的輸出響應(yīng).

圖7 慣性增大系統(tǒng)輸出響應(yīng)

由圖7可見,PI串級(jí)控制的超調(diào)量為48.1%,穩(wěn)定時(shí)間增加到780 s,而RL-PI控制、MPC-PI控制和FU-PI控制的穩(wěn)定時(shí)間分別為460、490、510 s,超調(diào)量分別為18.3%、23.6%、28.4%.可見,當(dāng)鍋爐控制系統(tǒng)慣性時(shí),常規(guī)串級(jí)PI控制性能明顯降低,而RL-PI控制效果令人滿意.

3.2.3增益增大

當(dāng)鍋爐運(yùn)行工況改變時(shí),以惰性區(qū)的增益增大(傳遞函數(shù)變?yōu)閃o2(s)=1.825/(1+25s)3)為例.圖8是增益增大時(shí)系統(tǒng)的輸出響應(yīng).

圖8 增益增大系統(tǒng)輸出響應(yīng)

由圖8可見,當(dāng)鍋爐控制系統(tǒng)的增益增大時(shí),到800 s時(shí),采用常規(guī)串級(jí)PI控制系統(tǒng)沒有穩(wěn)定下來,而采用RL-PI控制、MPC-PI控制和FU-PI控制的穩(wěn)定時(shí)間分別為650、760、780 s.因此RL-PI控制效果令人滿意.

3.2.4慣性突變

為了驗(yàn)證RL-PI控制對(duì)系統(tǒng)運(yùn)行工況突變的自適應(yīng)學(xué)習(xí)能力,假定在1 000 s時(shí)惰性區(qū)慣性突變(傳遞函數(shù)變?yōu)閃o2(s)=1.125/(1+35s)3).圖9是慣性突變時(shí)系統(tǒng)的輸出響應(yīng).

圖9 慣性突變系統(tǒng)輸出響應(yīng)

由圖9可見,當(dāng)系統(tǒng)慣性系數(shù)突變時(shí),采用RL-PI控制時(shí),系統(tǒng)的超調(diào)量為19.4%,而采用MPC-PI控制、FU-PI控制和串級(jí)PI控制的超調(diào)量分別為24.2%、27.5%和36.6%.當(dāng)系統(tǒng)工況發(fā)生突變時(shí),與其他3種控制方法相比,RL-PI控制效果仍然較好.

3.2.5增益突變

假定在1 000 s時(shí)惰性區(qū)增益突變(傳遞函數(shù)變?yōu)閃o2(s)=1.825/(1+25s)3).圖10是增益突變時(shí)系統(tǒng)的輸出響應(yīng).

圖10 增益突變系統(tǒng)輸出響應(yīng)

由圖10可見,當(dāng)系統(tǒng)增益突變時(shí),采用RL-PI控制時(shí),系統(tǒng)的超調(diào)量為18.7%,串級(jí)PI控制的超調(diào)量為33.7%.可見,RL-PI控制效果仍然可以.圖11為增益突變時(shí),actor網(wǎng)絡(luò)輸出的PI控制器kp和ki更新的曲線圖.

圖11 增益突變PI參數(shù)變化曲線

由圖10、11可見，在1 000 s時(shí),系統(tǒng)的增益發(fā)生突變,actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)的權(quán)值隨著系統(tǒng)增益參數(shù)改變而自適應(yīng)在線更新,使得RL-PI控制輸出自適應(yīng)控制信號(hào),提高RL-PI控制的魯棒性.

3.2.6加擾動(dòng)

為了驗(yàn)證RL-PI控制器的抗干擾能力,在1 000 s時(shí)加幅值為0.5、持續(xù)時(shí)間為30 s的階躍擾動(dòng)信號(hào).圖12是系統(tǒng)的輸出響應(yīng),由圖可見RL-PI控制仍然具有較好的抗干擾能力.

圖12 加擾動(dòng)系統(tǒng)輸出響應(yīng)

4 結(jié) 論

文中提出的RL-PI控制方法通過在線更新RBF網(wǎng)絡(luò)權(quán)值系數(shù),實(shí)現(xiàn)自適應(yīng)控制.通過典型鍋爐運(yùn)行工況仿真試驗(yàn)表明,所提出的RL-PI控制與MPC-PI控制、FU-PI控制和串級(jí)PI控制相比,具有收斂速度快、控制精度高以及抗干擾能力強(qiáng)等特點(diǎn).RL-PI控制可以廣泛應(yīng)用于復(fù)雜的非線性時(shí)變系統(tǒng)中,具有良好的工程應(yīng)用前景.