亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于Q學(xué)習(xí)的供熱末端自適應(yīng)PID控制算法

2020-06-29 12:13:46

計(jì)算機(jī)測量與控制 2020年6期

(西安建筑科技大學(xué) 信息與控制工程學(xué)院，西安 710055)

0 引言

近年來，隨著我國城市規(guī)模的快速發(fā)展和城鎮(zhèn)化率的提高，北方城市市政集中供暖建筑面積不斷增加，隨之而來的是建筑供暖能耗的快速增長。當(dāng)前，建筑供暖末端的調(diào)節(jié)閥多為手動調(diào)節(jié)閥，且大多處于“全開”和“全關(guān)”的運(yùn)行狀態(tài)，這種“全開”和“全關(guān)”的控制方式一方面給用戶帶來不良的熱舒適體驗(yàn)，另一方面也造成建筑供暖能量的大量浪費(fèi)。因此，建筑供暖節(jié)能存在巨大潛力，而如何實(shí)現(xiàn)供暖末端的高效調(diào)控，既是改善供暖室內(nèi)環(huán)境熱舒適性、降低建筑能耗的關(guān)鍵，也是集中供暖系統(tǒng)節(jié)能亟待解決的問題。

針對集中供暖系統(tǒng)與供暖末端的調(diào)控問題，國內(nèi)外學(xué)者開展了大量研究，如I.H.Yang[1]等人研究了人工神經(jīng)網(wǎng)絡(luò)(ANN)在供暖系統(tǒng)中的應(yīng)用，針對溫控系統(tǒng)的時間滯后問題，采用ANN來估算供暖系統(tǒng)的啟動時間以加快系統(tǒng)響應(yīng)，提高用戶的熱舒適性；L.Z.Li[2]等人采用6種不同的混合控制策略對鍋爐系統(tǒng)的燃油燃燒速率、熱水流量和熱水溫度進(jìn)行控制，取得了近17%的節(jié)能效果；徐寶萍[3]等綜述及評價了國內(nèi)外末端控制相關(guān)研究情況,提出了突破單一用戶室溫控制、兼顧供暖系統(tǒng)水力工況及回水溫度變化的系統(tǒng)優(yōu)化控制思路；王嬌[4]等采用模糊控制理論，設(shè)計(jì)了根據(jù)各參數(shù)隸屬度函數(shù)及參數(shù)調(diào)節(jié)規(guī)則的自校正模糊控制器；李琦[5]等在分析集中供熱系統(tǒng)運(yùn)行機(jī)理的基礎(chǔ)上，建立熱源總熱量生產(chǎn)優(yōu)化問題的數(shù)學(xué)描述，利用雙啟發(fā)式動態(tài)規(guī)劃(DHP)算法和質(zhì)量并調(diào)的控制策略求解，獲得熱源供水流量和供水溫度的優(yōu)化設(shè)定值；刁成玉琢[6]等采用實(shí)驗(yàn)研究方法對比分析了風(fēng)機(jī)盤管、頂板輻射、側(cè)墻輻射、地板輻射4種不同供暖末端時的室內(nèi)溫濕度、空氣流速和壁面溫度等數(shù)據(jù)，獲得了4種供暖末端的熱舒適性結(jié)論。上述研究取得了許多積極成果，對本文研究的開展具有較好的借鑒意義。

比例-積分-微分(PID)控制以其結(jié)構(gòu)簡單，魯棒性好和工作可靠性高的特點(diǎn)而在控制領(lǐng)域得到了廣泛應(yīng)用，但傳統(tǒng)PID 的參數(shù)一旦確定就無法在線調(diào)整，難以滿足時變系統(tǒng)的控制要求,如何高效地調(diào)整和優(yōu)化PID的控制參數(shù)成了人們競相研究的問題。近年來興起的強(qiáng)化學(xué)習(xí)為PID參數(shù)自適應(yīng)調(diào)整提供了新的思路和方法，并取得了較好的應(yīng)用效果[7-10]。本文在分析現(xiàn)有研究成果的基礎(chǔ)上，以PID控制算法為基礎(chǔ)，針對集中供暖末端控制系統(tǒng)存在大滯后、強(qiáng)耦合的特點(diǎn)，引入強(qiáng)化學(xué)習(xí)算法，提出一種基于Q學(xué)習(xí)的PID參數(shù)在線優(yōu)化的供暖末端流量控制算法，旨在利用Q學(xué)習(xí)算法對PID 參數(shù)進(jìn)行整定與尋優(yōu)，從而獲得更優(yōu)的控制參數(shù)，并在仿真實(shí)驗(yàn)中驗(yàn)證該方法的有效性和節(jié)能效果。

1 PID控制器

典型的PID控制器原理如圖1所示。

圖1 PID控制系統(tǒng)原理圖

典型的PID控制系統(tǒng)由控制器、被控對象和反饋回路組成。PID控制器根據(jù)設(shè)定值和實(shí)際輸出值之間的偏差，對偏差進(jìn)行同比例放大(或縮小)、積分以及微分后，通過線性組合構(gòu)成控制量，進(jìn)而對被控對象進(jìn)行控制，其控制規(guī)律如下：

(1)

式中，e(t)=r(t)-y(t)為控制量；Kp為比例系數(shù)；KI為積分時間常數(shù)；KD為微分時間常數(shù)[11]。

2 供熱末端的熱平衡模型

由傳熱學(xué)理論可知，供熱末端—采暖房間的熱平衡方程可表示為：

Q=Q得-Q失

(2)

式中，Q得為采暖房間總得熱量，即散熱器散熱量；Q失為采暖房間總失熱量，主要包括房間維護(hù)結(jié)構(gòu)傳熱耗熱量Q1和門窗縫隙滲入的室外空氣吸熱量Q2；Q為采暖房間的最終熱量，且有：

(3)

式中，Ck為采暖房間空氣的熱容,Ck=c1·ρ1·V,ρ1為室內(nèi)溫度下的空氣密度，其取值一般通過查詢《傳熱學(xué)附表》可得。

散熱器釋放熱量為：

Q得=Gcp(tg-th)

(4)

式中，tg為散熱器進(jìn)口熱水溫度(℃)；th為散熱器出水口熱水溫度(℃)；G為散熱器進(jìn)水流量(m3/s)；cp為熱水比熱。

室內(nèi)外通過圍護(hù)結(jié)構(gòu)傳遞的熱量為：

(5)

式中，tn為用戶室內(nèi)當(dāng)前溫度(℃)；tw為戶外溫度，S為圍護(hù)結(jié)構(gòu)的傳熱面積(m2)，k1為圍護(hù)結(jié)構(gòu)(外墻)的平均傳熱系數(shù)(W/m2·℃)，L為墻體厚度m。

室內(nèi)外空氣對流換熱量為:

Q2=λ·ν·ρ2·c2(tn-tw)

(6)

式中，λ為單位換算系數(shù)，1 KJ/h=0.278 W；v為門、窗縫隙滲入室內(nèi)的總空氣量(m3/h)，v=M×H×β；其中：M為每米門、窗縫隙滲入室內(nèi)的總空氣量(m3/h·m)，H為門、窗縫隙的計(jì)算長度(m)，β為修正系數(shù)，根據(jù)《供熱工程》附錄查閱可知西安地區(qū)滲透量的修正系數(shù)為0.7。ρ2為冷空氣的定壓密度，c2為冷空氣的定壓比熱。將式(3)～(6)代入式(2)可得：

ρ2·c2(tn-tw)

(7)

式(7)即為供暖房間的熱平衡數(shù)學(xué)模型。由式(7)可知，當(dāng)供暖房間面積、圍護(hù)結(jié)構(gòu)參數(shù)等確定后，散熱器入口流量決定室溫變化率，由于室溫設(shè)定值為人為設(shè)置，則通過控制流量大小控制房間溫度變化。

3 基于Q學(xué)習(xí)的自適應(yīng)PID算法

3.1 強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)算法(RL算法)是機(jī)器學(xué)習(xí)的一個重要分支，其區(qū)別于深度學(xué)習(xí)中的有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)，通過試錯與環(huán)境交互獲得策略的改進(jìn)，進(jìn)行自學(xué)習(xí)和在線學(xué)習(xí)[12]。其受到大腦學(xué)習(xí)本質(zhì)的啟發(fā)，只通過智能體與環(huán)境交互而不知道系統(tǒng)模型的基礎(chǔ)，模擬動物學(xué)習(xí)行為過程中大腦的學(xué)習(xí)過程，通過智能體(即實(shí)際運(yùn)用中的傳感器)與環(huán)境條件相互作用獲得先前數(shù)據(jù)，獨(dú)立自主進(jìn)行動作選擇，生成控制策略，不斷循環(huán)，使智能體具有自主學(xué)習(xí)能力。強(qiáng)化學(xué)習(xí)過程如圖2所示，智能體(Agent)不斷與環(huán)境(environment)進(jìn)行信息交互。智能體Agent感知環(huán)境當(dāng)前狀態(tài)St∈S，根據(jù)初始策略施加一個動作at∈a給環(huán)境Environment，環(huán)境在該動作的作用后，更新狀態(tài)為St+1∈S，同時根據(jù)獎懲計(jì)劃提供一個獎勵或懲罰以更新策略，然后智能體Agent再次感知環(huán)境新狀態(tài)St+1∈S選擇新的動作at+1∈a，直到到達(dá)終端狀態(tài)ST∈S。智能體Agent的目標(biāo)就是獲得最大化獎勵的概率下得到一個最優(yōu)控制策略。

圖2 RL中智能體-環(huán)境交互的圖示

強(qiáng)化學(xué)習(xí)是一種基于馬爾可夫決策過程的無模型增量式動態(tài)規(guī)劃，其屬性為：t時刻狀態(tài)信息足夠以供智能體Agent進(jìn)行決策生成t+1時刻動作，從而決定進(jìn)行決策t+1時刻狀態(tài)[13]。假定環(huán)境的所有可能狀態(tài)是一個有限狀態(tài)的離散馬爾可夫過程，強(qiáng)化學(xué)習(xí)系統(tǒng)對每一步動作的選取為單步進(jìn)行，環(huán)境在接受動作后便發(fā)生狀態(tài)轉(zhuǎn)移，并得到評價函數(shù)，其中狀態(tài)轉(zhuǎn)移的概率為：

(8)

策略π下給定狀態(tài)下的狀態(tài)值函數(shù)定義為:

(9)

其中:γ∈(0,1]是權(quán)衡下一步回報率的折扣因子,Eπ表示策略π下的期望值。因?yàn)樵趧討B(tài)規(guī)劃中至少得保證有一個策略π*，并有：

Vπ*(st)=max{r(π(st))+γ∑P[st,at,st+1]Vπ*(st)

(10)

類似的，在策略p下的狀態(tài)s中采取動作a的動作值函數(shù)Qπ可以定義為:

Qπ(s,a)?Eπ[Gt│St=s,At=a]=

(11)

在所有動作值函數(shù)中，最佳動作值函數(shù)定義為:

Qπ*(s,a)?maxπQπ(s,a)

(12)

式中,π*為最優(yōu)策略，當(dāng)策略為π*時，動作函數(shù)值Qπ(s,a)最大。在最佳動作值函數(shù)最大時的π*為最優(yōu)策略，根據(jù)生成的最優(yōu)策略π*，確定最優(yōu)PID增益(Kp(t),Ki(t),Kd(t))進(jìn)行室溫控制。

3.2 Q學(xué)習(xí)算法

Q學(xué)習(xí)算法是一種基于時間差分方法的無模型控制算法，是RL領(lǐng)域最重要的進(jìn)步之一[14]。Q學(xué)習(xí)使用狀態(tài)-動作值函數(shù)Q(St,At)來查找最優(yōu)策略π*，動作值函數(shù)Q(St,At)的定義如下：

Q(St,At)=Q(St,At)+α[Rt+1+

γmaxaQ(St+1,a)-Q(St,At)

(13)

式中,α∈(0,1]是學(xué)習(xí)率。Q學(xué)習(xí)算法的偽代碼如算法1所示。

算法1:Q學(xué)習(xí)算法

Step1:初始化任意Q(s,a),?a∈A,?s∈S；

Step2：循環(huán)所有epsode；

重復(fù)

Step3: 更新狀態(tài)St;

重復(fù)

Step4: 執(zhí)行動作At，觀察St+1和Rt+1;

Step5: 根據(jù)式(13)更新Q值;

Step6:St←St+1;

Step7: 直到St達(dá)到最終狀態(tài)ST;

Step8: 直到episode 結(jié)束。

3.3 供熱末端自適應(yīng)PID控制器設(shè)計(jì)

基于Q學(xué)習(xí)的供熱末端自適應(yīng)PID控制系統(tǒng)結(jié)構(gòu)如圖3所示，包含PID控制器和學(xué)習(xí)Q表兩個部分。PID 控制器實(shí)現(xiàn)供熱流量的調(diào)節(jié)，控制器參數(shù)Kp,Ki,Kd通過在線學(xué)習(xí)的Q表進(jìn)行自適應(yīng)調(diào)整。

圖3 基于Q學(xué)習(xí)PID的供熱末端系統(tǒng)控制器結(jié)構(gòu)

室溫設(shè)定值tnref作為輸入，將室溫tn(t)與設(shè)定值的偏差作為控制量，進(jìn)行PID控制。便于數(shù)據(jù)采樣，將室溫tn(t)和進(jìn)水口流量G(t)離散化得到n1(t)和n2(t)作為狀態(tài)，進(jìn)行Q學(xué)習(xí)，生成3個Q表，每個Q表分別與PID控制器的比例增益Kp、微分增益Ki和積分增益Kd相對應(yīng)，當(dāng)給定當(dāng)前狀態(tài)時，每個學(xué)習(xí)的Q表生成PID控制器增益的最佳值。

3.4 結(jié)合Q學(xué)習(xí)的PID控制算法

本文中基于Q學(xué)習(xí)PID的關(guān)健是對PID增益參數(shù)Q表的訓(xùn)練，通過Q表將不同環(huán)境狀態(tài)映射到不同的PID的增益上。為加快Q表學(xué)習(xí)過程，采用了適應(yīng)模型參數(shù)的啟發(fā)方式——Delta-Bar-Delta[15]自適應(yīng)學(xué)習(xí)率方法。訓(xùn)練出當(dāng)前狀態(tài)下最優(yōu)的PID增益后，根據(jù)式(2)～(7)計(jì)算出控制量u(t)，在控制量作用后再觀察新狀態(tài)下的流量和室溫，比較前后時刻狀態(tài)獲得獎勵Rp，并繼續(xù)進(jìn)行訓(xùn)練學(xué)習(xí)，不斷通過觀察狀態(tài)訓(xùn)練Q表，得出每個狀態(tài)下的PID增益以控制閥門開度改變環(huán)境狀態(tài)。故結(jié)合Q學(xué)習(xí)PID控制算法的偽代碼如算法2所示。

算法2:結(jié)合Q學(xué)習(xí)的PID控制算法

Step1:初始化任意Qi(s,a)=0,?a∈A,?s∈S,i=1,2,3…6；

Step2: 更新學(xué)習(xí)率a1和a2；

Step3: 更新ε-greedy策略的ε；

Step4: 當(dāng)episode

Step5:t=0;

Step7: ε衰變，(當(dāng)episode>0.6×maxepisode,ε=0);

Step8: fort=1;t≤maxtime,t++;

Step9: 將St離散化，獲得：n1(t),n2(t);

Step10: fori=1;i≤3,i++

Step11: 根據(jù)n1(t)，n2(t)選擇動作Ai,遵循ε-greedy政策;

end

Step12: 根據(jù)式(2)～式(7)，獲得完整的輸出u(t);

Step13: 觀察新狀態(tài)St+1(tn(t+1),G(t+1))；

Step14: 獲得Q1(s,a),Q2(s,a)和Q3(s,a)的獎勵Rp;

Step15: 將St+1離散化，

獲得：n1(t+1),n2(t+1);

Step16: 更新Q1(s,a),Q2(s,a)和Q3(s,a)的學(xué)習(xí)率α1；

Step17: 用Rp和α1更新Q1(s,a),Q2(s,a)和Q3(s,a)；

Step18:St←St+1;

End

3.4.1 離散化

為加快訓(xùn)練速度，對于效果相同的情況可為同一控制參數(shù)進(jìn)行調(diào)節(jié)，故將每個連續(xù)變量被分成幾個區(qū)間，同一區(qū)間內(nèi)的值被視為一個相同的狀態(tài)。使用相同的規(guī)則設(shè)置存儲區(qū)間定義為：

(14)

其中:[x]=max{n∈Z|n≤x};n表示離散變量;xcon表示連續(xù)變量;Xmin和Xmax分別是xcon的下限和上限;N表示每個變量被分成的區(qū)間數(shù)，在這種情況下N=10。區(qū)間的數(shù)量取決于模擬性能。

本文需將室內(nèi)溫度tn和閥門開度K通過式(14)區(qū)間劃分進(jìn)行離散化處理，離散化設(shè)定的值如表1所示。

表1 系統(tǒng)離散化約束

3.4.2 ε-greedy方法

為保證獎勵最大化，采用當(dāng)前Q值最大的動作，因?yàn)樵讦?greedy策略中，ε的值越大,表示采用隨機(jī)的一個動作的概率越大。故當(dāng)給定當(dāng)前狀態(tài)時，三個Q表都根據(jù)ε-greedy方法生成動作，此方法被定義為:

(15)

式中，ξ∈[0，1]是一個正態(tài)分布的隨機(jī)數(shù)。

(16)

其中:eps是當(dāng)前episode，而maxepisode是episode的最大值。

3.4.3 獎勵策略

獎勵策略根據(jù)應(yīng)用實(shí)際情況而定。本文根據(jù)室內(nèi)供熱末端系統(tǒng)將獎勵函數(shù)分為3種情況：調(diào)控后室溫趨于設(shè)定溫度，室溫遠(yuǎn)離設(shè)定溫度，室溫?zé)o變化。

1)調(diào)控后室溫趨于設(shè)定溫度。根據(jù)at得到的增益調(diào)控所得室溫tn(t)與設(shè)定值T設(shè)的差值小于t-1時刻室溫tn(t-1)與T設(shè)的差值，即說明此次調(diào)控有效，給予其調(diào)控所達(dá)效果的獎勵值，即為前后時刻室溫變化值。

2)調(diào)控后室溫遠(yuǎn)離設(shè)定溫度。根據(jù)at得到的增益調(diào)控所得室溫tn(t)與設(shè)定值T設(shè)的差值大于t-1時刻室溫tn(t-1)與T設(shè)的差值，即說明此次調(diào)控為干擾調(diào)控，獎勵負(fù)值。

3)調(diào)控后室溫?zé)o變化。根據(jù)at得到的增益調(diào)控所得室溫tn(t)與設(shè)定值T設(shè)的差值等于t-1時刻室溫tn(t-1)與T設(shè)的差值，即說明此次調(diào)控?zé)o效，即不獎勵不懲罰。

所以獎勵計(jì)劃如下：

r(t)=

(17)

3.4.4 自適應(yīng)學(xué)習(xí)率

為了提高收斂效率，采用Delta-Bar-Delta[15]自適應(yīng)學(xué)習(xí)率算法。算法定義為:

(18)

當(dāng)學(xué)習(xí)速率變得太大時，學(xué)習(xí)速率的增加改變符號并降低學(xué)習(xí)速率。另一方面，如果學(xué)習(xí)速率太小，則學(xué)習(xí)速率在先前趨勢中保持變化并加速收斂。所以本文通過將當(dāng)前TD誤差與先前步驟中的累積TD誤差進(jìn)行比較來更新學(xué)習(xí)速率，即時間步驟t+1中的學(xué)習(xí)速率為:

αt+1=αt+Δαt

(19)

4 仿真實(shí)驗(yàn)

4.1 仿真環(huán)境

實(shí)驗(yàn)環(huán)境為西安地區(qū)高3 m，寬7 m，長10 m的供暖房間，故采暖房間體積為V=210 m3，窗戶為1 800 mm×1 500 mm單層金屬窗，其墻體主要為鋼筋混凝土制造，墻體厚度為L=0.2 m，查閱《供熱工程》附錄可知，鋼筋混凝土圍護(hù)結(jié)構(gòu)(外墻)的平均傳熱系數(shù)為k1=1.74 W/m2，西安地區(qū)空氣滲透量修正系數(shù)β=0.7。根據(jù)我國《采暖通風(fēng)與空氣調(diào)節(jié)設(shè)計(jì)規(guī)范》查閱，設(shè)定溫度設(shè)置為18℃，西安城區(qū)冬季未供暖下平均室溫為5℃，即實(shí)驗(yàn)中初始室溫為5℃。仿真實(shí)驗(yàn)中各參數(shù)變量的取值如表2所示。

將表2實(shí)驗(yàn)環(huán)境數(shù)據(jù)代入式(7)，可得到：

(20)

整理得到：

(21)

將式(21)拉氏變化可得：

(253.4112s+889.0607)Tn(s)=125.478G(s)+1778.1214

(22)

表2 實(shí)驗(yàn)環(huán)境參數(shù)取值

由于本文僅考慮熱水流量控制對室溫調(diào)節(jié)的影響，即當(dāng)實(shí)驗(yàn)環(huán)境確定時，即房間結(jié)構(gòu)參數(shù)、室外溫度和室內(nèi)初始溫度確定時，供暖房間的熱平衡數(shù)學(xué)模型如式(22)所示。

4.2 實(shí)驗(yàn)結(jié)果分析

本文在Simulink中搭建室內(nèi)熱平衡模型，在Matlab中利用傳統(tǒng)PID和基于Q學(xué)習(xí)的改進(jìn)PID算法對模擬實(shí)驗(yàn)環(huán)境下的供熱末端控制系統(tǒng)式(22)進(jìn)行仿真。分別比較了其輸出量室溫和控制量閥門開度的變化，也比較了控制過程中熱水總流量，并且從系統(tǒng)的性能指標(biāo)上進(jìn)行了對比。

對比圖4可以看出，調(diào)節(jié)過程中基于Q學(xué)習(xí)PID控制的室溫變化明顯比傳統(tǒng)PID控制策略超調(diào)量更小，所以其在熱量利用率會相對更高；其振蕩次數(shù)更少，人體對室溫的舒適度更好。不過基于Q學(xué)習(xí)改進(jìn)PID控制策略使室溫達(dá)到穩(wěn)態(tài)的時間較長，其主要原因是基于Q學(xué)習(xí)實(shí)現(xiàn)PID參數(shù)在線調(diào)節(jié)的過程中數(shù)據(jù)計(jì)算量大。

圖4 室溫變化仿真結(jié)果

在開度調(diào)節(jié)方面，對比圖5可以看出基于Q學(xué)習(xí)改進(jìn)PID控制策略下的閥門開度變化更加平緩，其調(diào)節(jié)過程中所需要的供熱流量為G總=626.1836 m3，而傳統(tǒng)PID控制策下閥門調(diào)節(jié)后，整個控制過程所需的供熱流量為G總=934.421 m3，基于Q學(xué)習(xí)的自適應(yīng)PID控制系統(tǒng)節(jié)約了32.99%的供熱量。從閥門損耗角度而言，對閥門的損耗會更小，閥門使命壽命也會得到增長。

圖5 開度變化仿真結(jié)果

為了更精確分析兩種控制策略的控制效果，結(jié)合室溫變化仿真結(jié)果做了控制性能指標(biāo)分析。

表3 控制性能指標(biāo)分析

根據(jù)控制性能指標(biāo)分析可知基于Q學(xué)習(xí)改進(jìn)PID的控制策略穩(wěn)態(tài)時間在9.75 min，傳統(tǒng)PID控制策略穩(wěn)態(tài)時間在6.78 min，考慮實(shí)際情況下，15 min內(nèi)達(dá)到設(shè)定溫度可以滿足供熱用戶的需求。

由于室內(nèi)供暖過程中突變環(huán)境較為復(fù)雜頻繁，如當(dāng)室溫達(dá)到設(shè)定值后，由于外來人員的突然闖入或開窗使得外來冷空氣滲入導(dǎo)致室內(nèi)溫度驟降等。為得知基于Q學(xué)習(xí)PID控制策略在環(huán)境突變下的控制效果，本文在t=800 s時，室內(nèi)溫度發(fā)生突變驟降為14℃后，比較基于Q學(xué)習(xí)PID控制策略和傳統(tǒng)PID控制策略的控制效果，仿真結(jié)果如圖6所示。

圖6 環(huán)境突變下室溫變化仿真結(jié)果

5 結(jié)束語

針對集中供熱末端流量調(diào)節(jié)的PID控制參數(shù)優(yōu)化與節(jié)能問題，首先依據(jù)傳熱學(xué)理論分析和推導(dǎo)了散熱器、圍護(hù)結(jié)構(gòu)和室內(nèi)外空氣對流換熱的熱動態(tài)過程和傳熱過程，建立了供熱房間的熱平衡數(shù)學(xué)模型，在此基礎(chǔ)上，以優(yōu)化PID參數(shù)和供熱末端節(jié)能為目標(biāo)，提出了基于Q學(xué)習(xí)在線優(yōu)化PID參數(shù)的供熱末端流量控制算法，設(shè)計(jì)了自適應(yīng)PID控制器，實(shí)現(xiàn)了PID參數(shù)的在線整定。最后通過仿真實(shí)驗(yàn)驗(yàn)證了所設(shè)計(jì)PID控制器的調(diào)控性能并與傳統(tǒng)PID控制結(jié)果進(jìn)行了對比，仿真實(shí)驗(yàn)結(jié)果表明，所提方法能夠?qū)崿F(xiàn)室內(nèi)溫度和調(diào)節(jié)閥開度的平緩調(diào)控，且能節(jié)省約33%的供熱量。當(dāng)發(fā)生突變后，基于Q學(xué)習(xí)PID控制策略的振蕩也優(yōu)于傳統(tǒng)PID，初始溫度-設(shè)定溫度-發(fā)生突變-設(shè)定溫度整個過程，基于Q學(xué)習(xí)的自適應(yīng)PID控制系統(tǒng)能耗減少了30.02%。在保證室內(nèi)環(huán)境的熱舒適性的基礎(chǔ)上對降低建筑供熱能耗具有重要的意義。