亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于CPSS平行系統(tǒng)懶惰強(qiáng)化學(xué)習(xí)算法的實(shí)時(shí)發(fā)電調(diào)控

2019-06-22 07:42:24殷林飛陳呂鵬余濤張孝順

自動化學(xué)報(bào) 2019年4期

殷林飛陳呂鵬余濤張孝順

傳統(tǒng)發(fā)電調(diào)控框架在保持多區(qū)域互聯(lián)大電網(wǎng)的系統(tǒng)有功平衡,維持系統(tǒng)頻率穩(wěn)定等方面發(fā)揮了重要作用.隨著相關(guān)研究的不斷深入,傳統(tǒng)發(fā)電調(diào)控框架逐漸發(fā)展成為存在三種不同時(shí)間尺度問題的調(diào)控框架[1?2]:1)機(jī)組組合(Unit commitment,UC)[3?4];2)經(jīng)濟(jì)調(diào)度(Economic dispatch,ED)[5];3)自動發(fā)電控制(Automatic generating control,AGC)和發(fā)電指令調(diào)度(Generation command dispatch,GCD)[6?9].然而,傳統(tǒng)發(fā)電調(diào)控框架在以下方面可以改善:1)在傳統(tǒng)發(fā)電調(diào)控框架中,較長時(shí)間尺度下調(diào)控有可能導(dǎo)致不準(zhǔn)確控制指令的產(chǎn)生.同時(shí),不同時(shí)間尺度調(diào)控之間存在的不協(xié)調(diào)問題有可能導(dǎo)致反向調(diào)節(jié)現(xiàn)象的產(chǎn)生.2)在傳統(tǒng)發(fā)電調(diào)控框架中,UC和ED問題解決是以下一時(shí)間段負(fù)荷預(yù)測結(jié)果作為條件,而實(shí)時(shí)AGC和GCD卻是基于AGC機(jī)組特性所得指令.從長時(shí)間尺度的角度來看,AGC和GCD做出的控制結(jié)果并不是一個最優(yōu)的控制結(jié)果.3)一般情況下,不同時(shí)間尺度下的優(yōu)化目標(biāo)均不相同.因此,無論是對長期還是短期而言,僅依據(jù)這些優(yōu)化結(jié)果做出的調(diào)控指令,都不是最優(yōu)的.

研究者為了解決傳統(tǒng)框架中存在的部分問題,提出了大量集成算法或集成框架.文獻(xiàn)[10]提出針對微電網(wǎng)實(shí)時(shí)調(diào)度的AGC和ED集成方法.文獻(xiàn)[11]研究了考慮含有AGC仿射索引過程的魯棒經(jīng)濟(jì)調(diào)度.文獻(xiàn)[12]從優(yōu)化的角度,將ED和AGC控制器相結(jié)合.然而,這些算法均不能完整地對傳統(tǒng)發(fā)電調(diào)控框架進(jìn)行改善.

強(qiáng)化學(xué)習(xí)(Reinforcement learning,RL),又稱再勵學(xué)習(xí)、評價(jià)學(xué)習(xí),既可看作是人工智能領(lǐng)域中一種重要的機(jī)器學(xué)習(xí)方法,也被認(rèn)為是屬于馬爾科夫決策過程(Markov decision process,MDP)和動態(tài)優(yōu)化方法的一個獨(dú)立分支.互聯(lián)電網(wǎng)AGC是一個動態(tài)多級決策問題,其控制過程可視為馬爾科夫決策過程.文獻(xiàn)[13]針對微電網(wǎng)孤島運(yùn)行模式下新能源發(fā)電強(qiáng)隨機(jī)性導(dǎo)致的系統(tǒng)頻率波動,提出基于多智能體相關(guān)均衡強(qiáng)化學(xué)習(xí)(Correlated equilibrium Q(λ),CEQ(λ))的微電網(wǎng)智能發(fā)電控制方法.文獻(xiàn)[14]針對非馬爾科夫環(huán)境下火電占優(yōu)的互聯(lián)電網(wǎng)AGC控制策略,引入隨機(jī)最優(yōu)控制中Q(λ)學(xué)習(xí)的“后向估計(jì)”原理,有效解決火電機(jī)組大時(shí)滯環(huán)節(jié)帶來的延時(shí)回報(bào)問題.然而,這些方法的采用均沒有從整體上對傳統(tǒng)發(fā)電調(diào)控框架進(jìn)行改善.

為了完整地解決傳統(tǒng)發(fā)電調(diào)控框架中存在的問題,本文提出一種實(shí)時(shí)經(jīng)濟(jì)調(diào)度與控制(Real-time economic generation dispatch and control,REG)框架替代傳統(tǒng)的發(fā)電控制框架.除此之外,為適應(yīng)REG框架,還提出一種懶惰強(qiáng)化學(xué)習(xí)(Lazy reinforcement learning,LRL)算法.由于懶惰強(qiáng)化學(xué)習(xí)算法是一種需要大量數(shù)據(jù)的算法,所提算法需要大量數(shù)據(jù)進(jìn)行訓(xùn)練.因此,采用基于人工社會–計(jì)算實(shí)驗(yàn)–平行執(zhí)行(Artificial societies— Computational experiments—Parallel execution,ACP)和社會系統(tǒng)的平行系統(tǒng),在短時(shí)間內(nèi)產(chǎn)生大量數(shù)據(jù)以適應(yīng)所提算法的需要.文獻(xiàn)[15]提出基于ACP的平行系統(tǒng)進(jìn)行社會計(jì)算的理論.文獻(xiàn)[16]提出一種可用于信息和控制的基于信息–物理系統(tǒng)和ACP的分散自治系統(tǒng).平行系統(tǒng)或平行時(shí)代的理論已經(jīng)被應(yīng)用到很多領(lǐng)域,例如,平行管理系統(tǒng)[17]、區(qū)塊鏈領(lǐng)域[18]、機(jī)器學(xué)習(xí)[19]和核電站安全可靠性的分析[20]等.在一個實(shí)際系統(tǒng)中,社會目標(biāo)也被考慮在CPS中,也可稱為信息物理社會融合系統(tǒng)(CPSS)[21];同時(shí),CPS的概念中應(yīng)當(dāng)加入社會系統(tǒng),即“智能電網(wǎng)”或“能源互聯(lián)網(wǎng)”[22].

因此,基于REG框架的控制方法是一種適用于互聯(lián)大電網(wǎng)發(fā)電調(diào)度和控制的統(tǒng)一時(shí)間尺度的調(diào)控方法.

雖然采用基于ACP和社會系統(tǒng)的平行系統(tǒng)可以快速獲取海量的數(shù)據(jù),但是這些數(shù)據(jù)中既存在調(diào)控效果較好的數(shù)據(jù),也有調(diào)控效果較差的數(shù)據(jù).為了解決這一問題,設(shè)計(jì)了一種選擇算子對有利于LRL訓(xùn)練的數(shù)據(jù)進(jìn)行篩選保留.另外,由于AGC機(jī)組存在大量約束限制.設(shè)計(jì)了一種松弛算子對優(yōu)化結(jié)果進(jìn)行限制.

為了對比人工神經(jīng)網(wǎng)絡(luò)(Artificial neural network,ANN)和LRL的調(diào)控效果,本文設(shè)計(jì)了一種基于人工神經(jīng)網(wǎng)絡(luò)和松弛算子結(jié)合的松弛人工神經(jīng)網(wǎng)絡(luò)算法(Relaxed artificial neural network,RANN).本文提出的LRL算法的特性歸納如下:

1)作為一種統(tǒng)一時(shí)間尺度的控制器,從長遠(yuǎn)角度來看,LRL可以避免不同時(shí)間尺度需要協(xié)同調(diào)控問題.

2)為LRL設(shè)計(jì)了一個強(qiáng)化網(wǎng)絡(luò),可為一個區(qū)域的所有AGC機(jī)組提供多個輸出.且采用松弛機(jī)滿足AGC機(jī)組的約束.

3)懶惰學(xué)習(xí)的控制策略可以采用從平行系統(tǒng)不斷產(chǎn)生的海量數(shù)據(jù)進(jìn)行在線更新.這有利于LRL進(jìn)行訓(xùn)練.

1 傳統(tǒng)發(fā)電調(diào)控框架概述

如圖1所示,傳統(tǒng)發(fā)電調(diào)控框架包含UC,ED,AGC和GCD四個過程.

圖1 傳統(tǒng)發(fā)電調(diào)控框架Fig.1 Framework of conventional generation control

UC負(fù)責(zé)制定長期(1天)的機(jī)組開停和有功出力計(jì)劃;然后ED重新制定短期(15分鐘)所有已開啟的機(jī)組的發(fā)電指令;最后AGC和GCD為所有AGC機(jī)組再次重新制定實(shí)時(shí)發(fā)電指令.

1.1 模型分析

1.1.1 機(jī)組組合模型

UC的目標(biāo)是在給定時(shí)間周期內(nèi)制定出最優(yōu)的機(jī)組開停和生產(chǎn)出力計(jì)劃.因此,UC問題是一個隨機(jī)混合0-1整數(shù)規(guī)劃問題,可以采用優(yōu)化算法進(jìn)行求解.

UC問題的優(yōu)化目標(biāo)是使總發(fā)電成本最低,UC問題的約束包括:有功平衡約束、熱備用約束、有功出力限制約束以及發(fā)電機(jī)調(diào)節(jié)比率約束,其目標(biāo)函數(shù)表達(dá)式及約束條件為

其中,T為給定時(shí)間周期內(nèi)的時(shí)間斷面的個數(shù),一般設(shè)定為24;Ji為第i個區(qū)域內(nèi)的發(fā)電機(jī)組個數(shù);uj,t為第j個發(fā)電機(jī)組在第t時(shí)間斷面的狀態(tài),uj,t取值為1或0,分別代表機(jī)組開啟和關(guān)停狀態(tài);總發(fā)電成本包括燃料成本Fj(Pj,t)和啟動成本SUj,t;PDi,t為第i個區(qū)域內(nèi)在第t時(shí)間段內(nèi)的負(fù)荷需求總量;分別為在第i區(qū)域的第j個發(fā)電機(jī)組的有功出力的最小值和最大值;SRi,t為第i個區(qū)域內(nèi)在第t時(shí)間段內(nèi)所需的熱備用容量;分別為第j臺發(fā)電機(jī)組的上調(diào)和下調(diào)的最大幅度限制;為第j個發(fā)電機(jī)組的持續(xù)開啟時(shí)間的最小值;為第j個發(fā)電機(jī)組的持續(xù)停機(jī)時(shí)間的最小值.

燃料成本Fj(Pj,t),啟動成本SUj,t以及約束uj,t的計(jì)算公式如下:

其中,Pj,t為第j臺發(fā)電機(jī)組在第t個時(shí)間斷面時(shí)的有功出力;aj,bj和cj分別是發(fā)電成本的常數(shù)因子,一次項(xiàng)因子和二次項(xiàng)因子;分別為第j臺發(fā)電機(jī)組開啟和關(guān)停的累積時(shí)間;是第j臺發(fā)電機(jī)組從完全關(guān)停狀態(tài)進(jìn)行冷啟動所需的時(shí)間;SUH,j和SUC,j分別為第j臺發(fā)電機(jī)組進(jìn)行熱啟動和冷啟動所需的成本.

1.1.2 經(jīng)濟(jì)調(diào)度模型

ED采用優(yōu)化算法從經(jīng)濟(jì)角度重新制定發(fā)電命令.通常ED的優(yōu)化目標(biāo)包括兩部分:經(jīng)濟(jì)目標(biāo)和碳排放目標(biāo).將兩種優(yōu)化目標(biāo)進(jìn)行線性權(quán)重結(jié)合,得到最終的ED的模型如下:

其中,PDi為第i個區(qū)域的系統(tǒng)總負(fù)荷量,ω為經(jīng)濟(jì)目標(biāo)權(quán)重.

經(jīng)濟(jì)目標(biāo)和碳排放目標(biāo)具體表達(dá)如下:

1.1.3 自動發(fā)電控制模型

圖2是傳統(tǒng)實(shí)時(shí)控制系統(tǒng)中包含兩個區(qū)域的電力系統(tǒng)AGC模型.AGC控制器的輸入為第i個區(qū)域的頻率誤差和區(qū)域控制誤差(Area control error,ACE)ei,輸出為第i個區(qū)域的發(fā)電命令.AGC模型的控制周期為秒級,一般設(shè)定為4秒或8秒.

圖2 兩區(qū)電力系統(tǒng)的AGC模型Fig.2 AGC model of two-area power system

1.1.4 發(fā)電命令調(diào)度模型

GCD的輸入為ACG產(chǎn)生的發(fā)電指令,輸出為第i個區(qū)域內(nèi)所有AGC機(jī)組的發(fā)電命令?Pi,j.進(jìn)而,ACG單元的實(shí)際發(fā)電指令取ED和GCD的發(fā)電指令之和,即.在實(shí)際工程中,GCD的目標(biāo)采用如式(5)所示的經(jīng)濟(jì)目標(biāo).

1.2 傳統(tǒng)控制算法和優(yōu)化算法分析

頻率控制包含三種調(diào)節(jié)方式:一次調(diào)頻、二次調(diào)頻以及三次調(diào)頻.一次調(diào)頻通過調(diào)節(jié)發(fā)電機(jī)組在短時(shí)間內(nèi)的有功出力,進(jìn)而調(diào)節(jié)系統(tǒng)頻率.但是,一次調(diào)頻是一種有差調(diào)節(jié)方式.為了更好地平衡發(fā)電機(jī)和負(fù)荷之間的有功功率,電力系統(tǒng)引入了二次調(diào)頻和三次調(diào)頻方式.二次調(diào)頻和三次調(diào)頻包含了多種算法的集成,即集成了UC,ED,AGC和GCD.其中,AGC采用的是控制算法,而UC,ED和GCD均為優(yōu)化算法.因此,傳統(tǒng)發(fā)電調(diào)控算法是一種“優(yōu)化算法+優(yōu)化算法+控制算法+優(yōu)化算法”的組合形式.

大量的優(yōu)化算法被運(yùn)用到UC,ED和GCD之中.常用的優(yōu)化算法有:GA[23]、PSO[24]、模擬退火算法[25]、多元優(yōu)化算法[26]、灰狼優(yōu)化算法[27]、多目標(biāo)極值優(yōu)化算法[28]、混沌多目標(biāo)機(jī)制優(yōu)化算法[29]等.同時(shí),多種控制算法被運(yùn)用于AGC控制器中.諸如傳統(tǒng)的PID算法、模糊邏輯控制算法[30]、模糊PID[31]、滑動模式控制器[32]、自抗擾控制器[33]分?jǐn)?shù)階 PID[34]、Q 學(xué)習(xí)[35]、Q(λ) 學(xué)習(xí)[14]和 R(λ) 學(xué)習(xí)[36]以及分布式模型預(yù)測控制算法[37]等.表1展示了頻率調(diào)節(jié)方式和傳統(tǒng)發(fā)電調(diào)控框架之間的關(guān)系.

表1 頻率調(diào)節(jié)方式與傳統(tǒng)發(fā)電調(diào)控框架之間的關(guān)系Table 1 Relationship between regulation processes and conventional generation control framework

在第i區(qū)域中,UC依據(jù)下一天的負(fù)荷預(yù)測值PDi,t制定發(fā)電機(jī)的啟動狀態(tài)ui,t,j以及出力水平Pj,t.其中時(shí)間周期為一天中的每小時(shí),即t={1,2,···,24};ED 采用15分鐘后的超短期負(fù)荷預(yù)測值PDi制定有功出力值Pi,j;AGC控制器計(jì)算第i個區(qū)域的總發(fā)電需求量?Pi;GCD將總的發(fā)電量?Pi分配到每個AGC機(jī)組?Pi,j.

2 基于ACP的懶惰強(qiáng)化學(xué)習(xí)的實(shí)時(shí)經(jīng)濟(jì)調(diào)度與控制

2.1 懶惰強(qiáng)化學(xué)習(xí)和實(shí)時(shí)經(jīng)濟(jì)調(diào)度與控制

為了快速獲取準(zhǔn)確的發(fā)電調(diào)度與控制動作,本文建立了大量的平行發(fā)電控制系統(tǒng).如圖3所示,在平行發(fā)電系統(tǒng)中,多重虛擬發(fā)電控制系統(tǒng)被用來對真實(shí)發(fā)電控制系統(tǒng)不斷地進(jìn)行仿真.當(dāng)虛擬控制發(fā)電系統(tǒng)的控制效果優(yōu)于實(shí)際發(fā)電控制系統(tǒng)時(shí),它們之間會交換它們發(fā)電控制器的重要數(shù)據(jù).即虛擬發(fā)電控制系統(tǒng)將重要的控制器參數(shù)傳遞到真實(shí)發(fā)電控制系統(tǒng),而真實(shí)發(fā)電系統(tǒng)則將更新后的系統(tǒng)模型參數(shù)反饋回虛擬發(fā)電控制系統(tǒng).

圖3 平行發(fā)電控制系統(tǒng)Fig.3 Parallel generation control systems

由于通過平行系統(tǒng)可以獲取海量的數(shù)據(jù),如果采用傳統(tǒng)學(xué)習(xí)方法對控制算法學(xué)習(xí)進(jìn)行訓(xùn)練將花費(fèi)大量的時(shí)間.因此,需要采用一種更有效的學(xué)習(xí)算法對海量數(shù)據(jù)進(jìn)行學(xué)習(xí).本文針對平行發(fā)電控制系統(tǒng)的特點(diǎn),提出一種懶惰強(qiáng)化學(xué)習(xí)算法(LRL).如圖4所示,LRL由懶惰學(xué)習(xí)、選擇算子、強(qiáng)化網(wǎng)絡(luò)以及松弛算子四部分構(gòu)成.提出的LRL算法可以設(shè)計(jì)成為基于REG框架的控制器,可以替代傳統(tǒng)的組合算法(UC,ED,AGC和GCD).因此,基于REG框架的控制器的輸入為頻率誤差?fi和ACEei,輸出為所有AGC機(jī)組的發(fā)電命令?Pi,j.

LRL的懶惰學(xué)習(xí)將對下一個系統(tǒng)狀態(tài)進(jìn)行預(yù)測.因此,懶惰學(xué)習(xí)的輸入為頻率誤差?fi和ACEei.此外,懶惰學(xué)習(xí)可以依據(jù)電力系統(tǒng)當(dāng)前采取的動作集A預(yù)測電力系統(tǒng)的下一狀態(tài).其中,初始動作集合A描述如下:

其中,A具有k列,每一列都是一個AGC機(jī)組的發(fā)電命令動作向量.對下一狀態(tài)的預(yù)測同樣具有k列,且每一列與每一個動作向量的預(yù)測相對應(yīng).因此,是一個依據(jù)所有k列動作向量預(yù)測而組成的k列預(yù)測矩陣.

采用懶惰學(xué)習(xí)方法估計(jì)未知函數(shù)的值與映射g:Rm→R類似.懶惰學(xué)習(xí)方法的輸入和輸出可以從矩陣Φ獲取,描述如下:

其中,?i為Nlazy×k的輸入矩陣,i=1,2,···,Nlazy;yi為Nlazy×1的輸出向量.第q個查詢點(diǎn)的預(yù)測值可以由下式計(jì)算.

其中,Z=WΦ;v=Wy.W是一個對角矩陣,Wii=ωi,其中,ωi為從查詢點(diǎn)?q到點(diǎn)?i的距離d(?i,?q)的權(quán)重函數(shù).從而,(ZTZ)β=ZTv可以作為一個局部加權(quán)回歸模型.在其訓(xùn)練過程的誤差校驗(yàn)方法可為留一法交叉校驗(yàn)(Leave-one-out cross-validation,LOOCV),計(jì)算方式為

圖4 基于REG的LRL控制器的流程圖Fig.4 Procedures of LRL based REG controller

其中,eCV(i)為第i個留一誤差,計(jì)算方式為

其中,Pn為矩陣的回歸逼近;βn為n鄰近的最優(yōu)最小二乘序列參數(shù);且在中滿足1≤i≤n;βn+1的計(jì)算方法如下:

因此,針對REG問題,所提LRL算法中懶惰學(xué)習(xí)離線學(xué)習(xí)和在線學(xué)習(xí)的輸入和輸出可見表2.

表2 懶惰強(qiáng)化學(xué)習(xí)輸入輸出量Table 2 Inputs and outputs of lazy reinforcement learning

LRL中的強(qiáng)化網(wǎng)絡(luò)可以計(jì)算出總的發(fā)電命令?Pi,并分配?Pi,j到第i個區(qū)域里的所有AGC機(jī)組上,其中,.強(qiáng)化網(wǎng)絡(luò)由強(qiáng)化學(xué)習(xí)和一個反向傳播神經(jīng)網(wǎng)絡(luò)(Back propagation neural network,BPNN)組成.Q學(xué)習(xí)是一種無需模型的控制算法.基于Q學(xué)習(xí)的控制器可以在線根據(jù)環(huán)境變化更新其控制策略.此類控制器的輸入為狀態(tài)值和獎勵值,輸出為作用于環(huán)境的動作量.它們可以依據(jù)Q-矩陣Q和概率分布矩陣P,針對當(dāng)前的環(huán)境狀態(tài)s,制定應(yīng)當(dāng)進(jìn)行的動作a.矩陣Q和P可以由獎勵函數(shù)隨后進(jìn)行更新.

其中,α為學(xué)習(xí)率;γ為折扣系數(shù);β為概率系數(shù);s,s'分別為當(dāng)前狀態(tài)和下一狀態(tài);R(s,s',a)為獎勵函數(shù),與當(dāng)前狀態(tài)s和由動作a導(dǎo)致的狀態(tài)有關(guān).當(dāng)前狀態(tài)s和下一狀態(tài)s'同屬于狀態(tài)集合S,即s∈S,s'∈S.被選擇的動作a輸出動作集合A,即a∈A.本文采用結(jié)構(gòu)簡單的三層感知器BPNN,分配到多個機(jī)組的輸出的計(jì)算公式為

BPNN訓(xùn)練算法為萊文貝格–馬夸特方法(Levenberg-Marquardt algorithm).

LRL的松弛算子類似一個操作員對強(qiáng)化網(wǎng)絡(luò)的輸出進(jìn)行約束控制.因此,松弛算子的約束可以表達(dá)為

2.2 離線訓(xùn)練過程

傳統(tǒng)學(xué)習(xí)算法會對所有通過平行系統(tǒng)獲取的數(shù)據(jù)進(jìn)行學(xué)習(xí).然而,采用這些數(shù)據(jù)進(jìn)行學(xué)習(xí)不一定能夠取得比當(dāng)前真實(shí)系統(tǒng)更優(yōu)的控制效果.因此,本文提出的LRL方法,會篩選出那些更優(yōu)的數(shù)據(jù)進(jìn)行學(xué)習(xí).即,當(dāng)在t時(shí)刻的狀態(tài)st優(yōu)于時(shí)刻的狀態(tài),而劣于t+?t時(shí)刻的狀態(tài),那么算法將排除從st到的變化過程數(shù)據(jù),而將保留從st到的變化過程數(shù)據(jù)進(jìn)行離線訓(xùn)練.

針對REG問題,離線訓(xùn)練的輸入與輸出如表2所示.但在對比狀態(tài)時(shí),可將狀態(tài)設(shè)定為預(yù)測的區(qū)域i頻率偏差,即,也即從選擇最優(yōu)值對應(yīng)的輸入和輸出數(shù)據(jù)進(jìn)行訓(xùn)練.圖5是在平行系統(tǒng)下基于REG框架的懶惰強(qiáng)化學(xué)習(xí)的控制器運(yùn)行步驟.

3 算例結(jié)果

圖5 平行系統(tǒng)下基于REG控制器的LRL算法的流程圖Fig.5 Procedures of LRL based REG controller under parallel systems

本文仿真均是在主頻為2.20GHz,內(nèi)存96GB的AMAX XR-28201GK型服務(wù)器上基于MATLAB 9.1(R2016b)平臺實(shí)現(xiàn)的.表3是仿真中采用的所有算法,其中各算法的含義見表4.

表3 仿真所用的算法Table 3 Algorithms for this simulation

表4 各對比算法的縮寫Table 4 Abbreviation of compared algorithms

組合算法和REG控制器的仿真時(shí)間設(shè)定為1天或86400秒.總共采用了有4608種傳統(tǒng)發(fā)電調(diào)控算法(8×8×8×9=4608種組合)和兩種基于REG框架的算法進(jìn)行仿真實(shí)驗(yàn).總的設(shè)置仿真模擬時(shí)間為12.6301年或?yàn)?8×8×8×9+2)天.所有的傳統(tǒng)發(fā)電調(diào)控算法的參數(shù)設(shè)置詳見附錄A.

圖6是IEEE新英格蘭10機(jī)39節(jié)點(diǎn)標(biāo)準(zhǔn)電力系統(tǒng)結(jié)構(gòu).從圖6可以看出,仿真實(shí)驗(yàn)將該電力系統(tǒng)劃分成3個區(qū)域.該系統(tǒng)中設(shè)置10臺發(fā)電機(jī),發(fā)電機(jī){30,37,39}劃分至區(qū)域1,發(fā)電機(jī){31,32,33,34,35}劃分至區(qū)域2,剩下的發(fā)電機(jī){36,38}劃分至區(qū)域3.除此之外,光伏,風(fēng)電以及電動汽車也被納入仿真模型之中(詳細(xì)參數(shù)見圖7).其中,電動汽車負(fù)荷需求曲線為5種不同車輛用戶行為疊加而成的.各個機(jī)組參數(shù)如表5和表6所示.

圖6 新英格蘭電力系統(tǒng)結(jié)構(gòu)圖Fig.6 Structure of New-England power system

圖7 光伏、電動汽車、風(fēng)電、負(fù)荷曲線Fig.7 Curves of photo-voltaic power(PV),electric vehicle(EV),wind power and load

仿真實(shí)驗(yàn)設(shè)置發(fā)電控制的控制周期為4s.REG控制器每4s計(jì)算一次.對于傳統(tǒng)組合算法,UC每天進(jìn)行一次,ED每15分鐘優(yōu)化一次,AGC和GCD每次控制周期中計(jì)算一次.松弛人工神經(jīng)網(wǎng)絡(luò)RANN算法由人工神經(jīng)網(wǎng)絡(luò)和所提LRL算法中的松弛算子組成.LRL整體的輸入和輸出分別作為RANN算法的輸入和輸出.RANN算法的松弛算子見式(18)～(20).BPNN選擇的三層感知網(wǎng)絡(luò)的隱含層神經(jīng)元的個數(shù)設(shè)定為40個.每個松弛人工神經(jīng)網(wǎng)絡(luò)設(shè)置有40個隱藏元.在所提LRL算法中,強(qiáng)化學(xué)習(xí)和懶惰學(xué)習(xí)的動作集k的列數(shù)設(shè)為121,該列數(shù)一般可選范圍較大;動作值選為從?300～300MW;其中強(qiáng)化學(xué)習(xí)的學(xué)習(xí)率的范圍為α∈(0,1],本文選為0.1;概率選擇系數(shù)β∈(0,1],本文設(shè)定為0.5;折扣系數(shù)λ∈(0,1],本文設(shè)定為0.9.其中學(xué)習(xí)率選擇的越大學(xué)習(xí)速度越快,但會導(dǎo)致精度隨之下降.

表5 機(jī)組參數(shù)表Table 5 Parameters of the generators

表6 機(jī)組組合問題參數(shù)表Table 6 Parameters for unit commitment problem

強(qiáng)化學(xué)習(xí)系列算法Q 學(xué)習(xí)、Q(λ)學(xué)習(xí)和R(λ)學(xué)習(xí)算法的離線學(xué)習(xí)是時(shí)間分別為2.27h,2.49h和2.95h;松弛人工神經(jīng)網(wǎng)絡(luò)算法的訓(xùn)練時(shí)間為15.50h;所提LRL算法的離線訓(xùn)練時(shí)間為6.60h.雖然所提LRL算法較傳統(tǒng)強(qiáng)化學(xué)習(xí)算法在離線訓(xùn)練效率方面不具有優(yōu)勢,但是其具有最佳的控制效果.同時(shí),與統(tǒng)一時(shí)間尺度的松弛人工神經(jīng)網(wǎng)絡(luò)算法相比,LRL算法的離線訓(xùn)練時(shí)間較小且其控制效果更優(yōu).

仿真結(jié)果展示在圖8～12和表7～10中.

圖8 仿真統(tǒng)計(jì)結(jié)果Fig.8 Statistical result

表7 UC算法仿真結(jié)果統(tǒng)計(jì)Table 7 Statistic of simulation results obtained by the UC algorithms

表8 ED算法仿真結(jié)果統(tǒng)計(jì)Table 8 Statistic of simulation results obtained by the ED algorithms

表9 AGC算法仿真結(jié)果統(tǒng)計(jì)Table 9 Statistic of simulation results obtained by the AGC algorithms

表10 GCD算法仿真結(jié)果統(tǒng)計(jì)Table 10 Statistic of simulation results obtained by the GCD algorithms

圖9 仿真統(tǒng)計(jì)結(jié)果(頻率偏差)Fig.9 Statistical result of frequency deviation

圖10 仿真統(tǒng)計(jì)結(jié)果(區(qū)域控制誤差)Fig.10 Statistical result of area control error

圖11 平行系統(tǒng)頻率偏差收斂曲線Fig.11 Convergence curve of frequency deviation obtained by the parallel systems

圖12 平行系統(tǒng)區(qū)域控制誤差收斂曲線Fig.12 Convergence curve of area control error obtained by the parallel systems

圖8是頻率偏差、區(qū)域控制誤差和仿真計(jì)算所用時(shí)間的統(tǒng)計(jì)結(jié)果,其中所提LRL算法能得到最優(yōu)的調(diào)控效果.

圖9是各個算法頻率偏差的統(tǒng)計(jì)對比效果,其中所提LRL算法能在所有區(qū)域均獲得最小的頻率偏差.圖10是各個算法獲得的區(qū)域控制誤差的統(tǒng)計(jì)結(jié)果,可以看出,所提LRL算法不會導(dǎo)致大量犧牲某個區(qū)域的功率來滿足其他區(qū)域的功率平衡.

圖11和圖12是利用平行系統(tǒng)仿真數(shù)據(jù)對所提LRL算法訓(xùn)練的收斂曲線圖.可以看出,經(jīng)過667次的迭代,能獲得最優(yōu)的收斂結(jié)果.

從圖9以及表7～10可以看出,與傳統(tǒng)組合發(fā)電控制算法和松弛人工神經(jīng)網(wǎng)絡(luò)相比,本文提出的LRL方法可以保持系統(tǒng)內(nèi)的有功平衡,并且能使電網(wǎng)頻率偏差達(dá)到最低.因此,LRL能夠在多區(qū)域大規(guī)?；ヂ?lián)電網(wǎng)中取得最優(yōu)的控制效果.

從圖8和圖10可以看出,在仿真中,由于LRL可以在最短時(shí)間內(nèi)取得最低的頻率偏差和最低的控制錯誤率,LRL的懶惰學(xué)習(xí)可以有效地對電力系統(tǒng)的下一狀態(tài)進(jìn)行預(yù)測.因此,LRL可以提供準(zhǔn)確的AGC機(jī)組動作指令.

在應(yīng)對多區(qū)域大規(guī)模互聯(lián)電網(wǎng)的經(jīng)濟(jì)調(diào)度和發(fā)電控制問題時(shí),REG控制器完全可以取代傳統(tǒng)的組合算法方法.

從圖11和圖12可以看出,由于仿真采用了平行系統(tǒng),降低了使用的真實(shí)仿真時(shí)間,由于平行系統(tǒng)進(jìn)行了迭代,加速了仿真的過程.

4 結(jié)論

為了解決多區(qū)域大規(guī)?；ヂ?lián)電網(wǎng)經(jīng)濟(jì)調(diào)度和發(fā)電控制中存在的協(xié)同問題,本文提出了一種REG框架.該框架可作為一種傳統(tǒng)發(fā)電調(diào)控框架的替代.然后,為REG控制器提出了一種基于人工社會–計(jì)算實(shí)驗(yàn)–平行執(zhí)行方法的懶惰學(xué)習(xí)算法.基于REG控制器的LRL算法的特征可以總結(jié)如下:

1)本文提出了一種統(tǒng)一時(shí)間尺度的REG控制框架,并提出一種基于REG控制器的LRL算法.可以有效地對電力系統(tǒng)的下一運(yùn)行狀態(tài)進(jìn)行預(yù)測并且輸出滿足UC問題的約束動作指令,取得最優(yōu)的控制效果.

2)LRL中的強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)具有同時(shí)產(chǎn)生多個輸出的能力.因此,基于REG控制器LRL的可以不斷地為存在于多區(qū)域大規(guī)模互聯(lián)電網(wǎng)的所有AGC機(jī)組輸出發(fā)電命令.

3)通過搭建平行系統(tǒng),使得基于LRL的REG控制器可以用于解決多區(qū)域大規(guī)?；ヂ?lián)電網(wǎng)經(jīng)濟(jì)調(diào)度和發(fā)電控制問題.

附錄A

各算法重要參數(shù)設(shè)置如下:

1)PID控制:比例系數(shù)kP=?0.006031543250198,積分系數(shù)kI=0.00043250;

2)滑?？刂破?開通/關(guān)斷點(diǎn)kpoint=±0.1Hz,開通/關(guān)斷輸出kv=±80MW;

3)自抗擾控制:擴(kuò)張狀態(tài)觀測器

4)分?jǐn)?shù)階PID控制:比例系數(shù)kP=?1,積分系數(shù)kI=0.43250,λ=1.3,μ=200;

5)模糊邏輯控制器:X(輸入,?f)在[?0.2,0.2]Hz等間隔選取21個區(qū)間,Y(輸入,R?fdt)在[?1,1]Hz等間隔選取21個區(qū)間,Z(輸出,?P)在[?150,150]MW 等間隔選取441個區(qū)間;

6)Q 學(xué)習(xí):動作集A={?300,?240,?180,?120,?60,0,60,120,180,240,300},學(xué)習(xí)率α=0.1,概率分布常數(shù)β=0.5,未來獎勵折扣系數(shù)γ=0.9,λ=0.9;

7)Q(λ) 學(xué)習(xí):A={?300,?240,?180,?120,?60,0,60,120,180,240,300},α=0.1,β=0.5,γ=0.9,λ=0.9;

8)R(λ)學(xué)習(xí):A={?300,?240,?180,?120,?60,0,60,120,180,240,300},α=0.1,β=0.5,γ=0.9,λ=0.9,R0=0;

9)對于所有用于UC的優(yōu)化算法:進(jìn)化代數(shù)Ng=50,種群數(shù)目Ps=10;

10)對于所有用于ED的優(yōu)化算法:進(jìn)化代數(shù)Ng=30,種群數(shù)目Ps=10;

11)對于所有用于GCD的優(yōu)化算法:進(jìn)化代數(shù)Ng=5,種群數(shù)目Ps=10;