范培瀟,楊軍,肖金星,徐冰雁,葉影,李勇匯,李蕊
(1.武漢大學(xué)電氣與自動(dòng)化學(xué)院,武漢市 430072;2.國(guó)網(wǎng)上海市電力公司,上海市 200122)
微電網(wǎng)能夠解決形式多樣的分布式電源靈活、高效并網(wǎng)的問(wèn)題,實(shí)現(xiàn)對(duì)負(fù)荷多種能源形式的高可靠供給,是實(shí)現(xiàn)主動(dòng)式配電網(wǎng)的有效途徑。
微電網(wǎng)既可以運(yùn)行在并網(wǎng)模式,也可以運(yùn)行在孤島模式;在孤島模式下,其頻率穩(wěn)定是保障微電網(wǎng)安全運(yùn)行的關(guān)鍵。文獻(xiàn)[1]針對(duì)光柴儲(chǔ)孤島微電網(wǎng)提出一種魯棒自適應(yīng)協(xié)調(diào)控制,通過(guò)對(duì)光伏系統(tǒng)輸出功率精細(xì)化設(shè)定,并將功率輸出參考值反饋到逆變器功率控制環(huán)中,使其能夠根據(jù)自身容量響應(yīng)微電網(wǎng)頻率偏差。文獻(xiàn)[2]提出了一種基于PI 控制的分布式二次控制技術(shù),可以根據(jù)微電網(wǎng)的運(yùn)行情況調(diào)整PI 控制器系數(shù),大大提高控制效果和全局可控性,并保證了功率的均分。文獻(xiàn)[3]提出了一種利用模糊邏輯表對(duì)孤島微電網(wǎng)發(fā)電機(jī)組模型進(jìn)行負(fù)荷頻率控制的方法,該方法在暫態(tài)性能方面優(yōu)于PI 控制器。
儲(chǔ)能模塊是微電網(wǎng)負(fù)荷頻率控制模型中的重要組成部分,而電動(dòng)汽車(chē)(electric-vehicle,EV)憑借其節(jié)能環(huán)保與靈活性,成為了一種新式的分布式儲(chǔ)能單元[4-6]。通過(guò)車(chē)輛到電網(wǎng)(vehicle-to-grid,V2G)技術(shù),電動(dòng)汽車(chē)能夠?yàn)楣聧u微電網(wǎng)的頻率提供功率支撐,但其移動(dòng)性與用戶隨機(jī)性也給孤島微電網(wǎng)的調(diào)頻帶來(lái)了新的挑戰(zhàn)[7]。文獻(xiàn)[8]建立了包含微型燃?xì)廨啓C(jī)、電動(dòng)汽車(chē)及約束條件的孤島微電網(wǎng)負(fù)荷頻率控制(load frequency control,LFC)模型,但文中電動(dòng)汽車(chē)充電站模型的輸出功率增量約束為固定值;而文獻(xiàn)[9]考慮了用戶出行需求的隨機(jī)性,并對(duì)充電站中的電動(dòng)汽車(chē)進(jìn)行了荷電狀態(tài)(state of charge,SOC)約束,但沒(méi)有從電動(dòng)汽車(chē)單體與集群的角度對(duì)隨機(jī)輸出功率增量進(jìn)行細(xì)化建模。而實(shí)際情況中,充電站的功率增量約束會(huì)受到用戶充電行為隨機(jī)性以及電動(dòng)汽車(chē)集群特性的影響。此外,隨著具有高比例分布式新能源的接入,上述微電網(wǎng)中的傳統(tǒng)控制器在面對(duì)孤島微電網(wǎng)中的大量隨機(jī)性擾動(dòng)、系統(tǒng)參數(shù)和結(jié)構(gòu)變化等復(fù)雜工況時(shí),其控制性能有待進(jìn)一步提升[10]。
因此,微電網(wǎng)控制中也出現(xiàn)了智能算法[11-12],文獻(xiàn)[13]研究了基于Q(λ)學(xué)習(xí)算法的集控式微電網(wǎng)控制器,在微電網(wǎng)負(fù)荷頻率控制方面具有較好的控制效果。文獻(xiàn)[14]提出了一種基于平均報(bào)酬模型的多步R(λ)學(xué)習(xí)算法的ACG 控制器,能夠?qū)崿F(xiàn)對(duì)微電網(wǎng)的頻率調(diào)整。文獻(xiàn)[15]提出了基于多智能體相關(guān)均衡強(qiáng)化學(xué)習(xí)(CEQ(λ))的微電網(wǎng)智能發(fā)電控制方法,有著比PI 控制、單智能體R(λ)控制更好的學(xué)習(xí)能力,顯著增強(qiáng)孤島微電網(wǎng)的頻率穩(wěn)定性。但是,上述LFC 模型均沒(méi)有考慮EV的接入,且沒(méi)有將EV 輸出功率增量作為狀態(tài)空間,即上述控制器的設(shè)計(jì)思路、收斂特性與動(dòng)態(tài)性能也均存在著進(jìn)一步優(yōu)化的空間。
綜上,本文提出基于深度Q 學(xué)習(xí)的含電動(dòng)汽車(chē)孤島微電網(wǎng)負(fù)荷頻率控制策略:1)分析用戶充電行為的隨機(jī)性,通過(guò)電動(dòng)汽車(chē)的充放電約束邊界構(gòu)建出電動(dòng)汽車(chē)的SOC 模型,以此劃分出單體EV的各類(lèi)充電狀態(tài),并考慮單體EV的電池性能以及充電站內(nèi)的EV 數(shù)量等參數(shù),設(shè)計(jì)了隨機(jī)輸出功率增量約束下的電動(dòng)汽車(chē)頻率控制模型,從而建立一個(gè)包含各類(lèi)分布式電源、電動(dòng)汽車(chē)及其隨機(jī)輸出功率增量約束條件的孤島微電網(wǎng)LFC 模型。2)將卷積神經(jīng)網(wǎng)絡(luò)和Q 學(xué)習(xí)算法相結(jié)合作為控制器算法,采用經(jīng)驗(yàn)回放機(jī)制,固定目標(biāo)Q 值網(wǎng)絡(luò),并縮小獎(jiǎng)賞值范圍[16],能夠很好地應(yīng)對(duì)含有電動(dòng)汽車(chē)的孤島微電網(wǎng)負(fù)荷頻率控制問(wèn)題。3)在設(shè)計(jì)了基于DQN的頻率控制器后,依次完成了狀態(tài)空間、動(dòng)作空間以及獎(jiǎng)勵(lì)函數(shù)的定義,并通過(guò)調(diào)節(jié)得到了最優(yōu)超參數(shù)。本文提出的DQN 控制器收斂特性和模型適應(yīng)性好,能適應(yīng)孤島微電網(wǎng)中強(qiáng)隨機(jī)性干擾和網(wǎng)絡(luò)拓?fù)鋮?shù)改變等復(fù)雜工況。
微型燃?xì)廨啓C(jī)具有起動(dòng)速度快、耐用、效率高等特點(diǎn),在微電網(wǎng)中得到了極為廣泛的應(yīng)用。因此本文將其作為主調(diào)頻機(jī)組,構(gòu)建了微型燃?xì)廨啓C(jī)(microturbines,MT)的LFC 模型,其連續(xù)時(shí)間傳遞函數(shù)模型如圖1 所示。
圖1 微型燃?xì)廨啓C(jī)負(fù)荷頻率控制響應(yīng)模型Fig.1 Load frequency control response model of micro gas turbine
圖1 表現(xiàn)了MT 輸出功率增量跟隨負(fù)荷頻率控制信號(hào)變化的過(guò)程,包含了調(diào)速器、燃料系統(tǒng)以及渦輪機(jī)。其中,燃料系統(tǒng)和渦輪機(jī)的等值模型均采用一階慣性環(huán)節(jié)來(lái)表示[17]。圖中:Δf為頻率偏差;ΔuMT為控制器發(fā)送至燃?xì)廨啓C(jī)的LFC 信號(hào);ΔXMT是燃料系統(tǒng)的閥門(mén)位置變化的增量;Tf、Tt分別為燃料系統(tǒng)和渦輪機(jī)的時(shí)間常數(shù);R為調(diào)速器系數(shù);±δmt為功率爬坡約束的上下限;±μmt為功率增量約束的上下限;ΔPMT是燃?xì)廨啓C(jī)功率輸出的增量。
當(dāng)ΔPMT=0 時(shí),MT的輸出功率等于額定功率;當(dāng)ΔPMT>0 時(shí),MT的輸出功率大于額定功率;當(dāng)ΔPMT<0 時(shí),MT的輸出功率小于額定功率。
電動(dòng)汽車(chē)在微電網(wǎng)調(diào)控中作為儲(chǔ)能與調(diào)頻裝置,輸出功率增量也具有限幅約束。而本節(jié)將考慮到用戶充電行為的隨機(jī)性,即車(chē)輛電池的性能參數(shù)、車(chē)輛電池所處的充電狀態(tài)以及充電站的車(chē)輛數(shù)量會(huì)發(fā)生變化,因此充電站的等效儲(chǔ)能容量也會(huì)發(fā)生變化,從而影響充電站在調(diào)頻過(guò)程中的可控功率。本文接下來(lái)將對(duì)上述3 種因素進(jìn)行分別討論。
首先,車(chē)輛的電池性能將影響到充電時(shí)長(zhǎng),進(jìn)而影響到系統(tǒng)的可控功率,但是考慮到固定地理位置充電站內(nèi)的車(chē)輛品牌以及數(shù)量在一定時(shí)間內(nèi)相對(duì)固定,可以利用平均值來(lái)簡(jiǎn)化計(jì)算過(guò)程的復(fù)雜度,因此,可先得到電池平均容量C以及平均初始充電狀態(tài)Si,再通過(guò)充電站的平均額定充電功率,從而得到充電站內(nèi)的單體EV 平均充電時(shí)長(zhǎng)Tav。
其次,對(duì)于車(chē)輛電池所處的充電狀態(tài),本文根據(jù)文獻(xiàn)[9]建立了EV 充放電約束模型,車(chē)站里的電動(dòng)汽車(chē)SOC的范圍為[Smin,Smax],并且有足夠的Sm來(lái)確保未來(lái)電動(dòng)汽車(chē)離開(kāi)充電站后的行駛里程。因此,EV 充放電約束邊界如圖2 所示。
圖2 電動(dòng)汽車(chē)的充放電約束邊界Fig.2 Boundary of charging and discharging constraints of electric vehicle
圖2 中:實(shí)心紅線代表充電邊界;綠色虛線代表放電邊界;實(shí)藍(lán)線代表強(qiáng)制充電邊界,即電動(dòng)汽車(chē)在離開(kāi)充電站前將進(jìn)行強(qiáng)制充電,以確保其有足夠的Sm來(lái)完成拔掉電源后的行駛里程。由此,可以將不同車(chē)輛所處的充電狀態(tài)進(jìn)行分類(lèi),從而得到控制器指令在充電站內(nèi)的分布如圖3 所示。
圖3 控制指令在充電站內(nèi)的分布Fig.3 Distribution of control commands in charging stations
圖4 單體EV的輸出功率增量約束Fig.4 Output power increment constraint of single EV
最后,對(duì)于充電站內(nèi)的車(chē)輛數(shù)量,本文設(shè)置充電站最大容量為nEV,當(dāng)單個(gè)EV 滿足時(shí)位于充電站內(nèi),不滿足時(shí)則不在充電站內(nèi)。因此,可由單個(gè)EV的充電功率約束得到:集群EV的充電功率ΔPEV及其上、下限約束如下。
綜上所述,隨機(jī)容量約束下的電動(dòng)汽車(chē)頻率控制模型如圖5 所示。圖中:ΔuE是控制器發(fā)送至電動(dòng)汽車(chē)充電站的LFC 信號(hào);Te為電動(dòng)汽車(chē)充電站的時(shí)間常數(shù);±μe為車(chē)載電池逆變器的容量約束,不隨時(shí)間發(fā)生變化;±δe為電動(dòng)汽車(chē)充電站輸出功率增量的最大約束,而實(shí)時(shí)上、下限約束與受到充電站內(nèi)車(chē)輛數(shù)量nEV、單體EV的SOC 容量以及所處的充放電狀態(tài)等因素的影響;Emax為最大的可控容量;Emin為最小的可控容量;ΔPE為電動(dòng)汽車(chē)充電站的輸出功率增量。
圖5 隨機(jī)功率增量約束下的電動(dòng)汽車(chē)頻率控制模型Fig.5 Frequency control model of electric vehicle under random power increment constraint
綜上所述,本文所構(gòu)建的微電網(wǎng)負(fù)荷頻率控制模型如圖6 所示,風(fēng)力發(fā)電與光伏發(fā)電共同作為不可控(隨機(jī))電源[19],與負(fù)載一同向系統(tǒng)輸入擾動(dòng)功率,而微型燃?xì)廨啓C(jī)與電動(dòng)汽車(chē)充放電站一起作為微電網(wǎng)的調(diào)頻機(jī)組。圖中:ΔPL是負(fù)荷擾動(dòng)功率;ΔPw是風(fēng)電擾動(dòng)功率;ΔPpv是光伏擾動(dòng)功率;ΔPw與ΔPpv組成了隨機(jī)電源擾動(dòng)功率ΔPS;而ΔPS與ΔPL共同組成了總擾動(dòng)功率ΔPD;ΔPMT是微型燃?xì)廨啓C(jī)的輸出功率增量;ΔPE是EV 充電站的輸出功率增量;Ht是微電網(wǎng)的慣性常量。
圖6 含電動(dòng)汽車(chē)的微電網(wǎng)負(fù)荷頻率控制模型Fig.6 Load frequency control model of microgrid with electric vehicle
本文選擇DQN 作為微電網(wǎng)控制器的算法模型,其主要流程如圖7 所示[20]。
圖7 深度Q 學(xué)習(xí)的主要流程Fig.7 The main process of deep Q learning
本文在考慮MT與EV 輸出功率增量限幅約束的情況下,提出一種基于深度Q 學(xué)習(xí)的LFC 控制器結(jié)構(gòu),如圖8 所示。
圖8 基于DQN的微電網(wǎng)LFC 控制器結(jié)構(gòu)Fig.8 Microgrid LFC controller structure based on DQN
該控制器由協(xié)調(diào)控制層和頻率控制層兩層組成。協(xié)調(diào)控制層首先根據(jù)頻率偏差Δf與充電功率的實(shí)時(shí)上、下限約束與,向頻率控制層提供實(shí)時(shí)LFC 信號(hào)Δu,進(jìn)而對(duì)MT 和EV的輸出功率進(jìn)行控制,以快速抑制系統(tǒng)頻率振蕩。同時(shí),該控制器的設(shè)計(jì)流程可以分為:狀態(tài)空間與動(dòng)作空間的定義、獎(jiǎng)勵(lì)函數(shù)的定義、超參數(shù)的選取[21]。
如上所述,本文微電網(wǎng)負(fù)荷頻率控制系統(tǒng)的狀態(tài)集為系統(tǒng)實(shí)時(shí)的頻率偏差ΔF(t)與充電功率的上、下限約束與,故可定義狀態(tài)空間為:
而DQN 控制器的聯(lián)合動(dòng)作集A,即控制器的輸出,應(yīng)為聯(lián)合調(diào)度指令(ΔuMT,ΔuE)的實(shí)時(shí)集合,故可定義動(dòng)作空間為:
同時(shí),由于Q 學(xué)習(xí)算法無(wú)法對(duì)連續(xù)信號(hào)處理,因此需要對(duì)上述動(dòng)作空間離散化處理,且為防止離散化程度過(guò)高引起的“維數(shù)災(zāi)”問(wèn)題以及離散化程度不足導(dǎo)致頻率品質(zhì)降低,應(yīng)合理地安排狀態(tài)空間離散集S與控制動(dòng)作集A的離散化程度[14]。
但是我國(guó)暫未對(duì)含多種分布式電源的微電網(wǎng)頻率范圍制定標(biāo)準(zhǔn),因此本文選取較為保守的電力安全工作規(guī)程原則,即電力系統(tǒng)在正常運(yùn)行狀態(tài)下的頻率應(yīng)當(dāng)在(50±0.2)Hz的范圍之內(nèi)[15],并在此基礎(chǔ)上考慮一定的調(diào)節(jié)死區(qū),即可設(shè)置實(shí)時(shí)的頻率偏差ΔF(t)的離散集為(-∞,-0.2),[ -0.2,-0.15),[ -0.15,-0.10),[ -0.10,-0.05),[ -0.05,0.05],(0.05,0.10],(0.10,0.15],(0.15,0.2],(0.2,+∞)。
此外,根據(jù)電動(dòng)車(chē)最大功率增量限制±0.16 pu,并根據(jù)實(shí)際情況可設(shè)置實(shí)時(shí)的充電功率的上、下限約束與的離散集分為:[0,0.4),[0.4,0.8),[0.8,0.12),[0.12,0.16],以及[ -0.16,-0.12],(-0.12,-0.08],(-0.08,-0.04],(-0.04,0]。
進(jìn)而,可同理設(shè)置AMT和AEV分別為微型燃?xì)廨啓C(jī)與電動(dòng)汽車(chē)充電站的離散輸出動(dòng)作集,并且令A(yù)MT=AEV=(-0.010,-0.005,-0.003,-0.001,0,0.001,0.003,0.005,0.010)。
根據(jù)上述微電網(wǎng)頻率的考核標(biāo)準(zhǔn),能夠設(shè)計(jì)出獎(jiǎng)勵(lì)函數(shù)rf為:
其中,當(dāng)|Δf|處于調(diào)節(jié)死區(qū)[ -0.05,0.05] 時(shí),頻率滿足正常運(yùn)行的最小誤差要求,故此時(shí)賦予DQN 控制器最大獎(jiǎng)勵(lì)值為0;當(dāng)|Δf|分別處于正??刂茀^(qū)(0.05,0.10]與(0.10,0.15]、輔助控制區(qū)(0.15,0.2]、緊急控制區(qū)(0.2,+∞) 時(shí),控制器將會(huì)獲得相應(yīng)的負(fù)獎(jiǎng)勵(lì),即懲罰值;μ1、μ2、μ3為與μ4各控制區(qū)域獎(jiǎng)勵(lì)函數(shù)對(duì)應(yīng)的權(quán)值,確定獎(jiǎng)勵(lì)函數(shù)時(shí)應(yīng)該注意,過(guò)大的獎(jiǎng)勵(lì)值會(huì)影響學(xué)習(xí)的收斂速度,因此,本文通過(guò)大量的仿真研究,分別取μ1、μ2、μ3與μ4為1、5、10與20。
在深度強(qiáng)化學(xué)習(xí)中,超參數(shù)是在訓(xùn)練之前就設(shè)置的參數(shù)。通常情況下,需要對(duì)超參數(shù)進(jìn)行合理的選擇,給智能體提供一組最優(yōu)超參數(shù),以提高學(xué)習(xí)的性能和效果。折扣因子γ越大,智能體就越重視以往經(jīng)驗(yàn),能夠放棄當(dāng)前利益而追求全局利益。但是,若折扣因子過(guò)大,也會(huì)導(dǎo)致智能體的訓(xùn)練無(wú)法收斂。而學(xué)習(xí)率α越大,收斂速度越快,但穩(wěn)定性越差;α越小,則穩(wěn)定性越好,但收斂速度越慢[22]。
因此,在保證智能體訓(xùn)練能夠收斂的前提下,通過(guò)測(cè)算與驗(yàn)證,選取折扣因子γ為0.9,學(xué)習(xí)率α為0.001,并設(shè)置迭代次數(shù)為500 次,且每次500 步。
此外,用于儲(chǔ)存策略集的深度神經(jīng)網(wǎng)絡(luò)也是超參數(shù)調(diào)節(jié)的重點(diǎn)。對(duì)于網(wǎng)絡(luò)結(jié)構(gòu)的調(diào)節(jié),可從網(wǎng)絡(luò)類(lèi)型與網(wǎng)絡(luò)深度兩個(gè)方面進(jìn)行討論。
1)網(wǎng)絡(luò)類(lèi)型的選擇主要取決于狀態(tài)空間。若狀態(tài)空間為一維向量,智能體應(yīng)選取全連接網(wǎng)絡(luò);若狀態(tài)空間為二維信息(例如圖像、視頻),則應(yīng)選取卷積神經(jīng)網(wǎng)絡(luò)。
2)網(wǎng)絡(luò)深度決定了神經(jīng)網(wǎng)絡(luò)的泛化能力,其包含神經(jīng)網(wǎng)絡(luò)的層數(shù)h與每層的神經(jīng)元數(shù)量u。
而本文微電網(wǎng)的負(fù)荷頻率控制對(duì)象是一維向量問(wèn)題,因此,選取全連接層即能滿足儲(chǔ)存策略集的需求。同時(shí),設(shè)置6 組(h,u)的參數(shù)設(shè)置來(lái)進(jìn)行收斂測(cè)試,學(xué)習(xí)結(jié)果如表1 所示。
表1 不同參數(shù)設(shè)置下的收斂測(cè)試結(jié)果Table 1 Convergence test results under different parameters
綜上所述,本文為智能體選取的一組超參數(shù)為:折扣因子γ=0.9、學(xué)習(xí)率α=0.01 以及h=5,u=50的全連接層網(wǎng)絡(luò)結(jié)構(gòu),并設(shè)置迭代次數(shù)為500 次,每次500 步,且步長(zhǎng)為0.1 s。
本文的孤島微電網(wǎng)模型采用Simulink 平臺(tái)搭建,如圖9 所示,該微電網(wǎng)由母線、風(fēng)力渦輪機(jī)、光伏陣列、微型燃?xì)廨啓C(jī)、電動(dòng)汽車(chē)和負(fù)荷組成。
圖9 含電動(dòng)汽車(chē)的孤島微電網(wǎng)LFC 結(jié)構(gòu)Fig.9 LFC structure of island microgrid with electric vehicles
此外,本文所構(gòu)建的微電網(wǎng)負(fù)荷頻率控制模型的系統(tǒng)參數(shù)如表2 所示。
表2 微電網(wǎng)LFC 模型的系統(tǒng)參數(shù)Table 2 System parameters of microgrid LFC model
在深度強(qiáng)化學(xué)習(xí)中,各控制器在使用之前均需要接受一段隨機(jī)試錯(cuò)的學(xué)習(xí)過(guò)程,稱為預(yù)學(xué)習(xí)階段。在預(yù)學(xué)習(xí)的初期階段,控制器尚未積累任何經(jīng)驗(yàn),不具備智能控制能力,只有在接受各種狀態(tài)動(dòng)作后,才能得到最優(yōu)值函數(shù)Q網(wǎng)絡(luò)Qφ(s,a)。因此,本文設(shè)置了由不同幅值、不同類(lèi)型函數(shù)疊加而成的負(fù)荷擾動(dòng)來(lái)對(duì)控制器進(jìn)行訓(xùn)練。同時(shí),根據(jù)某電動(dòng)汽車(chē)充電站輸出功率增量變化數(shù)據(jù)設(shè)置了一組隨時(shí)間發(fā)生概率隨機(jī)變化的約束函數(shù)。截取上述各函數(shù)在某次迭代中的過(guò)程,如圖10 所示。
圖10 預(yù)學(xué)習(xí)階段的隨機(jī)輸入函數(shù)Fig.10 Random perturbation function in the pre-learning phase
智能體的預(yù)學(xué)習(xí)過(guò)程如圖11 所示。圖11 顯示,預(yù)學(xué)習(xí)過(guò)程在迭代180 次左右便基本收斂了,并在471次完成并停止了訓(xùn)練,且在預(yù)學(xué)習(xí)階段結(jié)束后,平均獎(jiǎng)勵(lì)值為-10.195,最終獎(jiǎng)勵(lì)值為-0.407 54??梢?jiàn)具有較高的在線學(xué)習(xí)能力,收斂特性較好,此時(shí)控制器能夠完成接下來(lái)的仿真。
圖11 智能體的預(yù)學(xué)習(xí)過(guò)程Fig.11 Pre-learning process of agent
為了更好地體現(xiàn)出深度Q 學(xué)習(xí)控制器的性能,本節(jié)將引入傳統(tǒng)PID 控制與FUZZY 控制作為對(duì)比,分析三者在強(qiáng)隨機(jī)擾動(dòng)下的控制性能。
如前文所述,假設(shè)初始狀態(tài)為穩(wěn)態(tài)的孤島微電網(wǎng)受到的隨機(jī)擾動(dòng)由負(fù)載擾動(dòng)與隨機(jī)電源擾動(dòng)組成:在t=35 s 時(shí)施加-0.03 pu、在t=88 s 時(shí)施加-0.03 pu的負(fù)載階躍擾動(dòng);而風(fēng)電與光伏輸出功率擾動(dòng)的數(shù)據(jù)來(lái)源于文獻(xiàn)[23],由此可得到仿真結(jié)果如圖12—14 所示。
圖12 孤島微電網(wǎng)受到的強(qiáng)隨機(jī)擾動(dòng)Fig.12 Strong random disturbance to island microgrid
圖13 強(qiáng)隨機(jī)擾動(dòng)下的微電網(wǎng)頻率偏差Fig.13 Frequency deviation of microgridunder strong random disturbance
圖14 強(qiáng)隨機(jī)擾動(dòng)下的MT、EV 輸出功率增量Fig.14 Output power increment of MT and EV under strong random disturbance
同時(shí),可以根據(jù)上述仿真結(jié)果,以頻率偏差的絕對(duì)值|Δf|為考核對(duì)象,設(shè)置頻率偏差考核優(yōu)秀率閥限值為±0.05 Hz,統(tǒng)計(jì)出強(qiáng)隨機(jī)擾動(dòng)下的對(duì)照試驗(yàn)結(jié)果,如表3 所示。
表3 強(qiáng)隨機(jī)擾動(dòng)下的頻率偏差仿真結(jié)果Table 3 Simulation results under strong random disturbance
由圖13與表3 分析可見(jiàn),將本文所設(shè)計(jì)的DQN控制器用于孤島微電網(wǎng)的頻率控制時(shí),微電網(wǎng)在受到隨機(jī)擾動(dòng)與負(fù)載擾動(dòng)時(shí)的頻率偏差可以控制在0.05 Hz的范圍內(nèi),達(dá)到100%的優(yōu)秀率,調(diào)節(jié)時(shí)間也明顯短于傳統(tǒng)控制器。而在傳統(tǒng)PI、FUZZY 控制下,頻率偏差最大達(dá)到了0.191 8 Hz與0.061 1 Hz,特別傳統(tǒng) PI 控制,頻率調(diào)控的優(yōu)秀率僅達(dá)到62.5%。這一仿真結(jié)果表明了DQN 控制器具備在線學(xué)習(xí)和經(jīng)驗(yàn)回放能力,在應(yīng)對(duì)強(qiáng)隨機(jī)性擾動(dòng)時(shí),有更好的穩(wěn)定性和魯棒性,調(diào)節(jié)時(shí)間短、對(duì)擾動(dòng)響應(yīng)快。
前文針對(duì)孤島微電網(wǎng)在受到隨機(jī)性擾動(dòng)的工況進(jìn)行了較為全面的仿真設(shè)計(jì),而本節(jié)將針對(duì)孤島微電網(wǎng)系統(tǒng)參數(shù)和結(jié)構(gòu)變化的復(fù)雜工況進(jìn)行仿真設(shè)計(jì)[24]:在3.3 節(jié)的仿真基礎(chǔ)上,假設(shè)80 s 時(shí)EV 調(diào)頻機(jī)組突然因故障失去調(diào)節(jié)能力,對(duì)比PI、FUZZY與DQN 三組控制器的頻率調(diào)節(jié)性能,結(jié)果如圖15 所示。同時(shí),與前文同理,以頻率偏差的絕對(duì)值|Δf|為考核對(duì)象,可統(tǒng)計(jì)出EV 調(diào)頻機(jī)組故障情況下的對(duì)照試驗(yàn)結(jié)果如表4 所示。
圖15 調(diào)頻機(jī)組故障情況下的微電網(wǎng)頻率偏差Fig.15 Frequency deviation of microgrid under fault condition of FM unit
由圖15、表4 分析可見(jiàn),在EV 調(diào)頻機(jī)組故障退出運(yùn)行的情況下,PI與FUZZY 控制器的控制性能受到較大影響,最大頻率偏差達(dá)到0.287 3 Hz與0.087 9 Hz,其中PID 控制器下的頻率偏差已經(jīng)遠(yuǎn)遠(yuǎn)超過(guò)了電網(wǎng)頻率的合格標(biāo)準(zhǔn)(|Δf| <0.2 Hz),優(yōu)秀率僅達(dá)到58.2%。而具備在線學(xué)習(xí)和自適應(yīng)特性的DQN 控制器調(diào)控下的微電網(wǎng)系統(tǒng),仍能較好地保持頻率的穩(wěn)定運(yùn)行,頻率偏差依然能控制在0.05 Hz的范圍內(nèi),達(dá)到100%的優(yōu)秀率。這一仿真結(jié)果表明了DQN 控制器將電動(dòng)汽車(chē)隨機(jī)輸出功率增量作為狀態(tài)空間量之一,能夠更好地適應(yīng)系統(tǒng)參數(shù)和結(jié)構(gòu)變化的復(fù)雜運(yùn)行工況。
表4 調(diào)頻機(jī)組故障情況下的頻率偏差仿真結(jié)果Table 4 Simulation results under fault condition of FM unit
本文提出了一種基于深度Q 學(xué)習(xí)的含電動(dòng)汽車(chē)孤島微電網(wǎng)負(fù)荷頻率控制策略。與傳統(tǒng)PI 控制、FUZZY 控制相比,DQN 控制具備在線學(xué)習(xí)和經(jīng)驗(yàn)回放能力,更能有效應(yīng)對(duì)強(qiáng)隨機(jī)性擾動(dòng)、系統(tǒng)參數(shù)和結(jié)構(gòu)變化等復(fù)雜運(yùn)行工況。當(dāng)施加隨機(jī)擾動(dòng)后,在調(diào)節(jié)速度與效果上均明顯優(yōu)于傳統(tǒng)控制器,同時(shí),在面對(duì)調(diào)頻機(jī)組失去調(diào)節(jié)能力的嚴(yán)重事故時(shí),依然能保證系統(tǒng)頻率的平穩(wěn),顯著增強(qiáng)了孤島微電網(wǎng)的魯棒性和適應(yīng)性。與傳統(tǒng)智能控制方法相比,本文所提出的DQN 控制器將電動(dòng)汽車(chē)隨機(jī)輸出功率增量作為狀態(tài)空間量之一,很好地適應(yīng)了電動(dòng)汽車(chē)充電站所具有的用戶隨機(jī)性,更適用于含電動(dòng)汽車(chē)的孤島微電網(wǎng)的負(fù)荷頻率控制。而對(duì)于結(jié)構(gòu)更為復(fù)雜、體量更大的互聯(lián)多微網(wǎng)系統(tǒng),本文的DQN 控制器將難以滿足多個(gè)微網(wǎng)之間的協(xié)調(diào)控制問(wèn)題,后續(xù)工作將著力對(duì)此方向進(jìn)行深入分析研究。