孫 冉,王建波,馬彥釗,張小科,胡懷中
(1國(guó)網(wǎng)河南省電力公司,河南 鄭州 450000;2西安交通大學(xué)自動(dòng)化科學(xué)與工程學(xué)院,陜西 西安 710100;3國(guó)網(wǎng)河南省電力公司電力科學(xué)研究院,河南 鄭州 450052)
在推進(jìn)“雙碳”目標(biāo)達(dá)成的背景下,我國(guó)電力市場(chǎng)正逐步邁向清潔能源發(fā)電為主、傳統(tǒng)能源為輔的新型能源結(jié)構(gòu),預(yù)計(jì)截止到2060 年我國(guó)風(fēng)電和光伏等新能源發(fā)電的年新增裝機(jī)規(guī)模都將保持在較高水平[1]。而新能源發(fā)電自身出力的波動(dòng)、高比例電力電子器件并網(wǎng)和傳統(tǒng)機(jī)組占比下降都將給系統(tǒng)的頻率支撐能力帶來(lái)不利影響,為電網(wǎng)調(diào)頻安全帶來(lái)艱巨的挑戰(zhàn)[2-3]。在不同種類(lèi)的新型調(diào)頻資源中,電池儲(chǔ)能因其具備快速響應(yīng)和運(yùn)行穩(wěn)定等特性,充分契合新型電力系統(tǒng)下的調(diào)頻需求,已逐漸發(fā)展成為電網(wǎng)調(diào)頻研究中的熱點(diǎn)。
在電池儲(chǔ)能參與一次調(diào)頻的控制策略研究中,虛擬下垂控制和虛擬慣性控制為其參與調(diào)頻時(shí)的兩種主要控制策略。黃際元等[4]通過(guò)分析兩種控制模式在時(shí)域下的靈敏度曲線得出虛擬慣性控制在擾動(dòng)前期起主要作用,虛擬下垂控制在擾動(dòng)后期起主要作用的結(jié)論,并據(jù)此提出一種前期為虛擬慣性控制,在頻率變化率為零時(shí)刻切換為虛擬下垂控制的直接切換方法實(shí)現(xiàn)儲(chǔ)能參與快速調(diào)頻。該方法減輕了傳統(tǒng)電源的調(diào)頻負(fù)擔(dān),但會(huì)造成儲(chǔ)能出力在兩種控制策略切換時(shí)刻的較大突變,給電網(wǎng)帶來(lái)二次頻率波動(dòng),影響儲(chǔ)能的長(zhǎng)期運(yùn)行壽命。李軍徽等[5]提出了一種基于權(quán)重因子的調(diào)頻控制方法,通過(guò)解析函數(shù)獲取兩種控制策略的權(quán)重因子,將直接切換法前期的僅虛擬慣性控制優(yōu)化為虛擬慣性控制向虛擬下垂控制的過(guò)渡。李欣然等[6]同樣在不同調(diào)頻階段設(shè)計(jì)不同的解析函數(shù)來(lái)確定儲(chǔ)能通過(guò)虛擬下垂和虛擬慣性控制參與調(diào)頻的分配系數(shù)來(lái)改善儲(chǔ)能調(diào)頻效果。上述兩種方法都解決了直接切換法的痛點(diǎn)問(wèn)題,但其出發(fā)點(diǎn)均是基于階躍擾動(dòng)下的理想一次調(diào)頻過(guò)程,在實(shí)際場(chǎng)景下的適用性仍待考量;此外上述方法中解析函數(shù)的參數(shù)設(shè)置也會(huì)影響不同工作環(huán)境下儲(chǔ)能的調(diào)頻效果。王育飛等[7]提出一種基于模糊控制的電池儲(chǔ)能一次調(diào)頻自適應(yīng)綜合控制策略,通過(guò)模糊控制器獲取儲(chǔ)能基于兩種基本控制策略參與調(diào)頻的出力系數(shù),其模糊邏輯設(shè)計(jì)主要基于一次調(diào)頻理論分析及工程經(jīng)驗(yàn),在復(fù)雜工況下的適應(yīng)性較低。吳啟帆等[8]提出了正負(fù)虛擬慣性的綜合控制方法來(lái)減小頻率曲線的抖動(dòng),快速響應(yīng)頻率變化,但該控制策略的執(zhí)行需要前后經(jīng)過(guò)頻差死區(qū)和頻差變化率死區(qū),關(guān)于頻差變化率死區(qū)的設(shè)置未給出具體數(shù)值,該死區(qū)的設(shè)置與虛擬慣性出力時(shí)機(jī)和大小密切相關(guān),如設(shè)置不當(dāng),會(huì)與虛擬慣性控制策略本身在調(diào)頻前期能較好抑制頻差變化率的優(yōu)勢(shì)相悖。
近年來(lái),強(qiáng)化學(xué)習(xí)因其在復(fù)雜系統(tǒng)中的出色控制和決策能力,已在電力行業(yè)的不同應(yīng)用場(chǎng)景中被廣泛研究[9-11]。針對(duì)現(xiàn)有研究中存在的問(wèn)題,本工作擬考慮新能源場(chǎng)站出力波動(dòng)特征,提出一種基于強(qiáng)化學(xué)習(xí)的新能源場(chǎng)站儲(chǔ)能一次調(diào)頻自適應(yīng)控制策略。該控制策略中,智能體通過(guò)學(xué)習(xí)在新能源發(fā)電出力擾動(dòng)下使得一次調(diào)頻效果最優(yōu)的虛擬慣性和虛擬下垂控制出力占比分配經(jīng)驗(yàn),進(jìn)而通過(guò)多回合訓(xùn)練獲取儲(chǔ)能參與一次調(diào)頻的出力分配模型。該模型能夠根據(jù)頻率偏差和頻率偏差變化率自適應(yīng)調(diào)整虛擬慣性和虛擬下垂兩種控制方法參與調(diào)頻的分配比例,解決當(dāng)前研究中儲(chǔ)能不同控制方法切換策略適應(yīng)性不足的問(wèn)題,實(shí)現(xiàn)不同調(diào)頻工況下兩者的最優(yōu)結(jié)合,緩解由新能源發(fā)電出力變化引起的頻率波動(dòng)。此外本工作方法還將避免儲(chǔ)能出力發(fā)生突變,減少電池儲(chǔ)能瞬時(shí)功率需求。
為研究基于強(qiáng)化學(xué)習(xí)的新能源場(chǎng)站儲(chǔ)能一次調(diào)頻自適應(yīng)控制策略,忽略電力系統(tǒng)電壓和功角特性,考慮新能源電站類(lèi)型為風(fēng)力發(fā)電,建立如圖1所示的含儲(chǔ)能新能源場(chǎng)站參與一次調(diào)頻的頻率響應(yīng)模型[12]。圖1 主要包含傳統(tǒng)調(diào)頻機(jī)組、電池儲(chǔ)能系統(tǒng)、風(fēng)電機(jī)組、旋轉(zhuǎn)慣量與負(fù)荷四部分模型。圖中風(fēng)電機(jī)組不參與一次調(diào)頻,其輸出功率波動(dòng)?PW(s)將作為該區(qū)域電網(wǎng)的主要功率不平衡擾動(dòng);電池儲(chǔ)能系統(tǒng)的儲(chǔ)能控制器主要根據(jù)經(jīng)過(guò)死區(qū)環(huán)節(jié)后的系統(tǒng)頻差來(lái)調(diào)節(jié)電池儲(chǔ)能參與一次調(diào)頻的出力指令。圖1 中,s為拉普拉斯算子;Kg為傳統(tǒng)機(jī)組的轉(zhuǎn)速放大倍數(shù);H和D分別為系統(tǒng)慣性和阻尼常數(shù);?f(s)為系統(tǒng)頻差;?Pg(s)和?Pb(s)分別為傳統(tǒng)機(jī)組和電池儲(chǔ)能調(diào)頻出力變化量;?PW(s)為風(fēng)電機(jī)組出力波動(dòng);Gg(s)和Gbess(s)分別為傳統(tǒng)調(diào)頻機(jī)組和電池儲(chǔ)能系統(tǒng)的傳遞函數(shù)。
圖1 含儲(chǔ)能新能源電站的區(qū)域電網(wǎng)頻率響應(yīng)模型Fig.1 System frequency response model of new energy power station with energy storage
傳統(tǒng)調(diào)頻機(jī)組的傳遞函數(shù)Gg(s)主要由調(diào)速系統(tǒng)傳遞函數(shù)Ggov(s)和汽輪機(jī)系統(tǒng)傳遞函數(shù)Ggen(s)兩部分構(gòu)成,具體表達(dá)式如下[13]:
式(1)中,Tg為轉(zhuǎn)速變換時(shí)間常數(shù);式(2)中,F(xiàn)HP為高壓缸比例系數(shù),TRH為再熱時(shí)間常數(shù),TCH為蒸汽容積時(shí)間常數(shù)。
電池儲(chǔ)能系統(tǒng)中,Er為電池儲(chǔ)能的容量,SOC(state of charge)為儲(chǔ)能的荷電狀態(tài),SOC0為電池儲(chǔ)能的初始荷電狀態(tài)。儲(chǔ)能對(duì)象的傳遞函數(shù)Gbess(s)具體表達(dá)式如下[14]:
式中,Tbess為電池儲(chǔ)能功率轉(zhuǎn)換時(shí)間常數(shù)。
風(fēng)電機(jī)組模型如圖2所示,圖中ωr為實(shí)際轉(zhuǎn)子轉(zhuǎn)速;ωref為轉(zhuǎn)速參考值;β為槳距角;Ht為風(fēng)機(jī)的慣性時(shí)間常數(shù);Tm和Te為機(jī)械轉(zhuǎn)矩和電磁轉(zhuǎn)矩。有關(guān)圖2中風(fēng)輪模型的具體表達(dá)式、槳距角控制系統(tǒng)和最大功率跟蹤控制的原理詳見(jiàn)文獻(xiàn)[15-16]。
圖2 風(fēng)電機(jī)組的有功控制模型Fig.2 Active power control model of wind turbine
目前,電池儲(chǔ)能參與一次調(diào)頻的兩種基本控制策略為虛擬慣性控制和虛擬下垂控制,根據(jù)系統(tǒng)頻差并通過(guò)上述兩種控制策略獲得儲(chǔ)能一次調(diào)頻出力指令的表達(dá)式如式(4)和式(5)所示:
式(4)和式(5)中,?Pd(s)表示儲(chǔ)能通過(guò)虛擬慣性控制得到的調(diào)頻出力;?Pp(s)表示儲(chǔ)能通過(guò)虛擬下垂控制得到的調(diào)頻出力;Mb和Kb為電池儲(chǔ)能的虛擬慣性出力系數(shù)和虛擬下垂出力系數(shù)。在新能源功率階躍擾動(dòng)下,由于虛擬慣性出力與頻差變化率成比例關(guān)系,通常在擾動(dòng)初期,系統(tǒng)頻差變化率大,儲(chǔ)能通過(guò)虛擬慣性控制可以快速出力,阻礙頻差變化率變化,但對(duì)系統(tǒng)穩(wěn)態(tài)頻差不起作用,且在頻差變化率方向與頻差方向不一致時(shí)會(huì)抑制頻率恢復(fù)[17]。虛擬下垂出力與系統(tǒng)頻差成比例,在頻率調(diào)節(jié)時(shí)有一定延遲,主要調(diào)節(jié)系統(tǒng)頻率的穩(wěn)態(tài)偏差[18]??紤]到當(dāng)前電池儲(chǔ)能調(diào)頻時(shí)的兩種控制策略在一次調(diào)頻不同時(shí)期起到的作用不同,若能將兩者在調(diào)頻過(guò)程中適當(dāng)結(jié)合,使得其優(yōu)勢(shì)互補(bǔ),則能更好地抑制新能源出力波動(dòng)帶來(lái)的頻率擾動(dòng),進(jìn)一步發(fā)揮儲(chǔ)能快速調(diào)頻的優(yōu)勢(shì),減小網(wǎng)側(cè)調(diào)頻壓力?,F(xiàn)有將兩種控制策略簡(jiǎn)單結(jié)合或疊加的方法存在電池儲(chǔ)能出力易發(fā)生突變、部分時(shí)刻抑制頻率恢復(fù)和適用調(diào)頻場(chǎng)景有限等缺點(diǎn),因此考慮針對(duì)新能源場(chǎng)站儲(chǔ)能的實(shí)際應(yīng)用場(chǎng)景設(shè)計(jì)一種利用強(qiáng)化學(xué)習(xí)算法來(lái)獲取虛擬慣性和虛擬下垂出力在調(diào)頻過(guò)程中自適應(yīng)分配方法的電池儲(chǔ)能參與一次調(diào)頻的控制策略。
為實(shí)現(xiàn)電池儲(chǔ)能參與調(diào)頻時(shí)虛擬慣性出力和虛擬下垂出力的最優(yōu)分配,提出的自適應(yīng)分配方法原理如式(6)~(8)所示。
式(6)和式(7)中,?Pbd(s)和?Pbp(s)分別為最優(yōu)分配后的虛擬慣性出力和虛擬下垂出力調(diào)頻指令;a1和a2分別為所提最優(yōu)分配方法獲取的虛擬慣性分配系數(shù)和虛擬下垂分配系數(shù),滿足下式關(guān)系:
由式(8)可知,儲(chǔ)能在參與一次調(diào)頻時(shí)的總出力由虛擬慣性出力和虛擬下垂出力組成,兩者在不同調(diào)頻時(shí)期的權(quán)重由a1和a2來(lái)自適應(yīng)調(diào)節(jié),a1和a2的具體數(shù)值由訓(xùn)練得到的智能體獲得。根據(jù)式(8)設(shè)計(jì)如圖3所示的儲(chǔ)能控制器,圖中,k1和k2分別為頻差和頻差變化率的縮放系數(shù)。電池儲(chǔ)能在參與一次調(diào)頻時(shí),系統(tǒng)頻差經(jīng)死區(qū)環(huán)節(jié)后進(jìn)入儲(chǔ)能控制器,此時(shí)頻差和頻差變化率經(jīng)比例環(huán)節(jié)后通過(guò)智能體獲得虛擬慣性分配系數(shù),同時(shí)計(jì)算出虛擬下垂分配系數(shù);然后根據(jù)分配系數(shù)與對(duì)應(yīng)頻差和頻差變化率計(jì)算虛擬慣性和虛擬下垂出力,最后將兩種控制策略的出力相加得到儲(chǔ)能調(diào)頻時(shí)的最終調(diào)頻出力指令。
圖3 儲(chǔ)能參與一次調(diào)頻的自適應(yīng)控制器Fig.3 Adaptive controller with battery storage in primary frequency regulation
本工作擬通過(guò)強(qiáng)化學(xué)習(xí)算法在新能源場(chǎng)站出力擾動(dòng)下訓(xùn)練智能體以實(shí)現(xiàn)對(duì)儲(chǔ)能出力方式的最優(yōu)分配。根據(jù)所搭建的區(qū)域電網(wǎng)頻率響應(yīng)模型,強(qiáng)化學(xué)習(xí)智能體需要在新能源場(chǎng)站出力擾動(dòng)下根據(jù)歷史經(jīng)驗(yàn)不斷學(xué)習(xí)來(lái)更新智能體參數(shù),新能源場(chǎng)站的出力主要由風(fēng)速輸入圖2所示風(fēng)電機(jī)組模型獲取。目前常用于擬合風(fēng)速的分布模型主要為威布爾分布,其概率分布為
式中,c為尺寸參數(shù),k為形狀參數(shù)[19]。由文獻(xiàn)[19]知,不同新能源場(chǎng)站的風(fēng)速分布模型具有較大差異,因此不同新能源場(chǎng)站出力特征具有明顯差異,本工作考慮針對(duì)某特定新能源場(chǎng)站,獲取其出力擾動(dòng)作為智能體訓(xùn)練輸入。威布爾分布的參數(shù)可以通過(guò)最小二乘法獲取,將風(fēng)速按不同區(qū)間進(jìn)行概率統(tǒng)計(jì)可得其頻次f1,f2…fn,以及p1=f1,p2=p1+f2,…,pn=pn-1+fn,對(duì)應(yīng)參數(shù)的計(jì)算公式如式(11)~(14)所示。
式中,vi為第i個(gè)風(fēng)速樣本,n為非零的風(fēng)速數(shù)據(jù)個(gè)數(shù)。
為了給智能體施加具有新能源場(chǎng)站歷史出力特征的擾動(dòng)進(jìn)行訓(xùn)練,首先需要收集大量新能源場(chǎng)站或地區(qū)歷史風(fēng)速數(shù)據(jù),并根據(jù)式(11)~(14)計(jì)算風(fēng)速概率統(tǒng)計(jì)分布參數(shù),獲取該地風(fēng)速統(tǒng)計(jì)分布規(guī)律。然后根據(jù)風(fēng)速概率分布生成隨機(jī)序列,最后根據(jù)圖2所示風(fēng)電機(jī)組模型即可獲得新能源場(chǎng)站出力波動(dòng)數(shù)據(jù)。
深度確定性策略梯度(deep deterministic policy gradient,DDPG)算法是一種適用于解決連續(xù)控制問(wèn)題的強(qiáng)化學(xué)習(xí)算法,其主要框架為Actor-Critic(策略-價(jià)值)網(wǎng)絡(luò),是對(duì)傳統(tǒng)DQN(deep Q-network)算法基本思想的擴(kuò)展,有關(guān)DDPG算法的詳細(xì)原理可參考文獻(xiàn)[20]。
本工作采用DDPG算法求解電池儲(chǔ)能參與一次調(diào)頻時(shí)虛擬慣性和虛擬下垂出力的自適應(yīng)分配模型,基于新能源電站出力波動(dòng)數(shù)據(jù),利用智能體在所搭建的含儲(chǔ)能新能源電站的系統(tǒng)頻率響應(yīng)模型中交互學(xué)習(xí),根據(jù)獲取的經(jīng)驗(yàn)不斷訓(xùn)練智能體,使得儲(chǔ)能在調(diào)頻時(shí)能夠自適應(yīng)分配兩種出力方式的權(quán)重,滿足調(diào)頻效果和出力最優(yōu)。DDPG算法中的關(guān)鍵變量設(shè)計(jì)如下。
(1)狀態(tài)s
一次調(diào)頻過(guò)程中,系統(tǒng)頻差和頻差變化率在不同一次調(diào)頻階段的特征明顯不同[4],可以用兩者來(lái)區(qū)分當(dāng)前時(shí)刻位于一次調(diào)頻總過(guò)程的不同時(shí)期。此外,考慮到儲(chǔ)能虛擬慣性出力和虛擬下垂出力大小與系統(tǒng)頻差和頻率變化率直接相關(guān),因此將狀態(tài)變量定義為經(jīng)過(guò)電池儲(chǔ)能死區(qū)環(huán)節(jié)后的系統(tǒng)頻差和頻差變化率。
(2)動(dòng)作a
智能體的動(dòng)作定義為電池儲(chǔ)能參與一次調(diào)頻時(shí)的虛擬慣性分配系數(shù),滿足a∈[0,1]。根據(jù)智能體的動(dòng)作以及虛擬慣性分配系數(shù)和虛擬下垂分配系數(shù)的關(guān)系可以計(jì)算出虛擬下垂分配系數(shù)的具體數(shù)值。
(3)獎(jiǎng)勵(lì)函數(shù)r
獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)如式(15)所示。獎(jiǎng)勵(lì)函數(shù)r主要包括r1和r2兩部分,式中α和β為兩部分獎(jiǎng)勵(lì)的比例系數(shù),?f為系統(tǒng)頻差,?Pb為電池儲(chǔ)能出力變化量。獎(jiǎng)勵(lì)r1用來(lái)衡量智能體動(dòng)作對(duì)儲(chǔ)能參與調(diào)頻效果的優(yōu)劣,獎(jiǎng)勵(lì)r2則避免儲(chǔ)能出力過(guò)大影響長(zhǎng)期調(diào)頻能力以及自身使用壽命。
此外,在智能體訓(xùn)練過(guò)程中還需滿足以下約束條件:
式(16)中,?Pb,t為儲(chǔ)能在t個(gè)控制間隔時(shí)的出力變化量;?Pb,min、?Pb,max分別為儲(chǔ)能某一控制間隔出力變化量的上、下限;式(17)中,?Pr,min、?Pr,max分別為儲(chǔ)能相鄰控制間隔出力變化量的上、下限;式(18)中,?fmin、?fmax分別為系統(tǒng)頻差的上、下限。
本工作所提出的基于DDPG算法的虛擬慣性和虛擬下垂出力自適應(yīng)分配模型的整體框架如圖4所示。在圖4中,DDPG算法整體包含4個(gè)神經(jīng)網(wǎng)絡(luò):策略網(wǎng)絡(luò)及其目標(biāo)(Target)策略網(wǎng)絡(luò)、價(jià)值網(wǎng)絡(luò)及目標(biāo)(Target)價(jià)值網(wǎng)絡(luò)。其中Q(s,a|θQ)表示價(jià)值網(wǎng)絡(luò)的評(píng)價(jià)函數(shù),μ'(s'|θμ')表示Target策略網(wǎng)絡(luò)的策略函數(shù);θT表示目標(biāo)網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù);θ表示策略或價(jià)值網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù),τ為目標(biāo)網(wǎng)絡(luò)更新參數(shù)。智能體訓(xùn)練的環(huán)境為第一部分搭建的含儲(chǔ)能新能源電站的區(qū)域電網(wǎng)頻率響應(yīng)模型。
圖4 基于DDPG算法的虛擬慣性和虛擬下垂出力自適應(yīng)分配模型的整體框架Fig.4 The framework of virtual inertia and virtual sag adaptive distribution model based on DDPG algorithm
在每一訓(xùn)練回合開(kāi)始前,首先根據(jù)地區(qū)風(fēng)速概率分布生成一段隨機(jī)風(fēng)速擾動(dòng),然后通過(guò)風(fēng)電機(jī)組模型生成連續(xù)功率擾動(dòng)來(lái)模擬仿真環(huán)境訓(xùn)練時(shí)的調(diào)頻場(chǎng)景。假設(shè)在該回合的第t個(gè)時(shí)刻系統(tǒng)的狀態(tài)st=[?ft,d(?f)/dt|t],通過(guò)策略網(wǎng)絡(luò)可以獲得此時(shí)動(dòng)作at即儲(chǔ)能的虛擬慣性分配系數(shù)為:
其中,μ(st)為策略網(wǎng)絡(luò)輸出;N為策略網(wǎng)絡(luò)輸出噪聲,可用來(lái)增加智能體探索程度。儲(chǔ)能在仿真環(huán)境中執(zhí)行動(dòng)作at后可以得到當(dāng)前時(shí)刻的獎(jiǎng)勵(lì)rt和下一時(shí)刻的狀態(tài)st+1。DDPG算法在訓(xùn)練時(shí)通過(guò)經(jīng)驗(yàn)回放技術(shù)將智能體與環(huán)境交互產(chǎn)生的(st,at,rt,st+1)序列儲(chǔ)存在經(jīng)驗(yàn)回放池中,每次迭代時(shí)通過(guò)批量采樣的方法從中隨機(jī)抽取M組歷史數(shù)據(jù)對(duì)策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)參數(shù)進(jìn)行更新,并在每回合對(duì)目標(biāo)網(wǎng)絡(luò)的參數(shù)通過(guò)軟更新的方法進(jìn)行更新。
智能體的整體訓(xùn)練流程為:
步驟1:初始化策略和價(jià)值網(wǎng)絡(luò)及其目標(biāo)網(wǎng)絡(luò)的參數(shù),設(shè)置訓(xùn)練時(shí)的學(xué)習(xí)率、軟更新參數(shù)和經(jīng)驗(yàn)回放池大小等;
步驟2:根據(jù)風(fēng)速概率分布生成隨機(jī)風(fēng)速,通過(guò)風(fēng)電機(jī)組模型獲取該回合用于訓(xùn)練智能體的連續(xù)擾動(dòng);
步驟3:智能體根據(jù)該擾動(dòng)下的初始頻差和頻差變化率獲取動(dòng)作,儲(chǔ)能執(zhí)行出力分配指令,根據(jù)仿真環(huán)境獲取當(dāng)前時(shí)刻的獎(jiǎng)勵(lì)以及下一個(gè)時(shí)刻的系統(tǒng)頻差及其變化率;
步驟4:將包含當(dāng)前時(shí)刻狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)和下一時(shí)刻狀態(tài)的經(jīng)驗(yàn)序列儲(chǔ)存在經(jīng)驗(yàn)回放池中,并從其中抽取一定數(shù)量樣本對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行更新,直至達(dá)到回合最大步數(shù)結(jié)束本回合訓(xùn)練過(guò)程;
步驟5:重復(fù)上述步驟至最大訓(xùn)練回合數(shù)。
經(jīng)過(guò)多個(gè)回合的訓(xùn)練后智能體在每回合獲得的獎(jiǎng)勵(lì)之和趨近于收斂,此時(shí)智能體能夠在儲(chǔ)能參與調(diào)頻過(guò)程中實(shí)時(shí)根據(jù)系統(tǒng)頻差和頻差變化率對(duì)儲(chǔ)能的兩種控制策略出力權(quán)重進(jìn)行最優(yōu)分配,如圖3所示,智能體負(fù)責(zé)在儲(chǔ)能參與一次調(diào)頻的自適應(yīng)控制器中輸出儲(chǔ)能參與一次調(diào)頻時(shí)的虛擬慣性分配系數(shù),然后根據(jù)式(6)~(9)獲取儲(chǔ)能參與一次調(diào)頻的總出力指令。優(yōu)化后的儲(chǔ)能出力將提高頻率穩(wěn)定效果,進(jìn)一步發(fā)揮儲(chǔ)能參與調(diào)頻的潛力。
本工作中DDPG算法的策略網(wǎng)絡(luò)包含3個(gè)隱藏層,神經(jīng)元個(gè)數(shù)分別為50、25、25;價(jià)值網(wǎng)絡(luò)包含2個(gè)隱藏層,神經(jīng)元個(gè)數(shù)分別為50、25。其他訓(xùn)練相關(guān)參數(shù)設(shè)置如表1所示。此外,智能體訓(xùn)練以及后續(xù)仿真驗(yàn)證部分所使用的區(qū)域電網(wǎng)頻率響應(yīng)模型選取了某區(qū)域電網(wǎng)作為仿真對(duì)象。該區(qū)域電網(wǎng)主要由傳統(tǒng)調(diào)頻機(jī)組和一個(gè)新能源場(chǎng)站構(gòu)成,其中傳統(tǒng)調(diào)頻機(jī)組的額定容量為100 MW,新能源場(chǎng)站包含十臺(tái)容量為1.5 MW 的風(fēng)電機(jī)組。該區(qū)域電網(wǎng)負(fù)荷容量約為60 MW,傳統(tǒng)調(diào)頻機(jī)組工作在50%負(fù)荷,新能源平均出力約為10 MW??紤]為新能源場(chǎng)站配備單獨(dú)的儲(chǔ)能裝置用于參與一次調(diào)頻服務(wù),電池儲(chǔ)能的容量為2 MW/2 MWh,初始荷電狀態(tài)為0.5。傳統(tǒng)調(diào)頻機(jī)組和儲(chǔ)能的一次調(diào)頻死區(qū)均設(shè)置為±0.033 Hz,其余模型參數(shù)如表2 所示,所有模型參數(shù)在訓(xùn)練及仿真時(shí)都將以額定數(shù)值為基準(zhǔn)進(jìn)行標(biāo)幺化。
表1 DDPG算法參數(shù)設(shè)置Table 1 DDPG algorithm parameter settings
表2 區(qū)域電網(wǎng)頻率響應(yīng)模型仿真參數(shù)Table 2 Regional power grid frequency response model simulation parameters
智能體訓(xùn)練的具體硬件環(huán)境為11th Gen lntel(R) Core(TM) i5-11400 @ 2.60 GHz CPU、32 GB內(nèi)存的計(jì)算機(jī),DDPG算法代碼編寫(xiě)以及訓(xùn)練均通過(guò)Matlab/Simulink 平臺(tái)完成,獲取最終智能體的訓(xùn)練過(guò)程中獎(jiǎng)勵(lì)函數(shù)值的變化曲線如圖5所示。
圖5 強(qiáng)化學(xué)習(xí)訓(xùn)練過(guò)程Fig.5 Reinforcement learning training process
圖5中藍(lán)色曲線為訓(xùn)練過(guò)程中每回合獎(jiǎng)勵(lì)值變化趨勢(shì),橙色曲線為每20 個(gè)回合的平均回合獎(jiǎng)勵(lì)值變化趨勢(shì)。由圖5可以看出,訓(xùn)練前期智能體由于處在學(xué)習(xí)階段,其獎(jiǎng)勵(lì)值由初始獎(jiǎng)勵(lì)值不斷快速上升,在訓(xùn)練中期由于與環(huán)境的不斷探索與訓(xùn)練過(guò)程中動(dòng)作的隨機(jī)性使得回合獎(jiǎng)勵(lì)值出現(xiàn)較大波動(dòng),但在訓(xùn)練后期回合獎(jiǎng)勵(lì)和平均回合獎(jiǎng)勵(lì)值不斷趨于收斂,說(shuō)明此時(shí)智能體已經(jīng)通過(guò)不斷訓(xùn)練與學(xué)習(xí),能夠在實(shí)際調(diào)頻場(chǎng)景中進(jìn)行儲(chǔ)能調(diào)頻出力方式的最優(yōu)決策,使得回合獎(jiǎng)勵(lì)值最大。
為驗(yàn)證本工作所提基于強(qiáng)化學(xué)習(xí)的新能源場(chǎng)站儲(chǔ)能一次調(diào)頻自適應(yīng)控制策略的有效性,本工作將通過(guò)新能源發(fā)電突變和新能源發(fā)電連續(xù)波動(dòng)兩種擾動(dòng)形式對(duì)不同控制策略進(jìn)行仿真對(duì)比。在新能源發(fā)電突變擾動(dòng)下,使用最大頻率偏差?fmax、最大頻率偏差變化量絕對(duì)值|?omax|和穩(wěn)態(tài)頻率偏差?fs作為調(diào)頻效果的評(píng)價(jià)指標(biāo),單位分別為Hz、Hz/s 和Hz。三個(gè)評(píng)價(jià)指標(biāo)的值越小,說(shuō)明調(diào)頻效果越好。
在連續(xù)出力波動(dòng)下使用fRMSE和td作為調(diào)頻效果的評(píng)價(jià)指標(biāo),分別代表各采樣時(shí)刻頻率偏差的均方根值之和以及系統(tǒng)頻率超出死區(qū)邊界時(shí)間占總仿真時(shí)長(zhǎng)的百分比,其計(jì)算方法如式(20)和式(21)所示。
式(20)中,fi為第i個(gè)采樣時(shí)刻的頻率;fn為額定頻率,取50 Hz;S為總采樣點(diǎn)數(shù)目。針對(duì)某一連續(xù)負(fù)荷擾動(dòng),fRMSE的值越小,說(shuō)明電網(wǎng)頻率波動(dòng)越小,儲(chǔ)能調(diào)頻效果越好。式(21)中,Ts為總仿真時(shí)長(zhǎng),Td為系統(tǒng)頻率超出死區(qū)邊界的時(shí)間,td的值越小,說(shuō)明系統(tǒng)頻率在死區(qū)范圍內(nèi)的時(shí)長(zhǎng)越長(zhǎng),系統(tǒng)頻率質(zhì)量越好。
設(shè)在5 s 時(shí)新能源場(chǎng)站出現(xiàn)幅值為0.02 p.u.的功率突減,對(duì)應(yīng)的新能源出力曲線如圖6所示,將該功率擾動(dòng)作為?PW(s)施加在區(qū)域電網(wǎng)頻率響應(yīng)模型中。區(qū)域電網(wǎng)中傳統(tǒng)調(diào)頻機(jī)組和儲(chǔ)能共同參與一次調(diào)頻,兩者出力經(jīng)旋轉(zhuǎn)慣量與負(fù)荷環(huán)節(jié)后獲得系統(tǒng)頻率的波動(dòng)結(jié)果。對(duì)無(wú)儲(chǔ)能、本工作、文獻(xiàn)[6]所提虛擬慣性出力和虛擬下垂出力的切換方法(對(duì)比方法)和文獻(xiàn)[4]所提直接切換法四種場(chǎng)景進(jìn)行仿真對(duì)比,其中直接切換法為虛擬慣性出力和虛擬下垂出力結(jié)合的典型控制方法,而對(duì)比方法為在直接切換法基礎(chǔ)上的優(yōu)化方法;直接切換法會(huì)導(dǎo)致儲(chǔ)能出力突變,對(duì)比方法的解析函數(shù)設(shè)置會(huì)影響其實(shí)際調(diào)頻效果,通過(guò)上述三種方法對(duì)比可以說(shuō)明本工作方法的有效性。此外,無(wú)儲(chǔ)能下的仿真結(jié)果用來(lái)說(shuō)明當(dāng)前擾動(dòng)下僅傳統(tǒng)機(jī)組參與調(diào)頻時(shí)該區(qū)域電網(wǎng)頻率的波動(dòng)情況。仿真得到頻率偏差波動(dòng)曲線如圖7所示;不同方法的虛擬慣性分配系數(shù)變化如圖8所示,其中本工作方法對(duì)應(yīng)智能體的動(dòng)作,對(duì)比方法和直接切換法對(duì)應(yīng)一次調(diào)頻過(guò)程中虛擬慣性控制方式的出力占比;不同方法下的儲(chǔ)能出力曲線如圖9所示,由虛擬慣性和虛擬下垂出力乘以各自占比后求和獲取;不同方法的調(diào)頻評(píng)價(jià)指標(biāo)見(jiàn)表3。
表3 區(qū)域電網(wǎng)頻率響應(yīng)模型仿真參數(shù)Table 3 Frequency regulation index under sudden change of new energy power output
圖6 新能源場(chǎng)站出力突變曲線Fig.6 New energy plant output abrupt curve
圖7 新能源發(fā)電突變下的頻差曲線Fig.7 Frequency difference curve under sudden change of new energy power output
圖8 新能源發(fā)電突變下的虛擬慣性分配系數(shù)Fig.8 Virtual inertia distribution coefficient curve under sudden change of new energy power output
圖9 新能源發(fā)電突變下的儲(chǔ)能出力曲線Fig.9 Energy storage output curve under sudden change of new energy power output
由圖7可知,在0.02 p.u.新能源功率突減工況下,三種方法在擾動(dòng)發(fā)生初期頻差跌落趨勢(shì)相同,無(wú)儲(chǔ)能下頻差跌落程度最深,對(duì)比方法的頻差最低值低于本工作方法,且前兩者頻差最低值明顯高于直接切換法。隨后本工作方法緩慢恢復(fù)至穩(wěn)態(tài)頻率附近,對(duì)比方法與直接切換法先有一段快速恢復(fù)階段,隨后緩慢變化至穩(wěn)態(tài)頻率,直接切換法在恢復(fù)階段有明顯超調(diào)。由圖8可得,直接切換法在固定時(shí)刻實(shí)現(xiàn)從僅慣性出力到僅下垂出力的切換,對(duì)比方法設(shè)計(jì)了若干過(guò)渡時(shí)段來(lái)實(shí)現(xiàn)慣性出力到下垂出力的切換,而本工作方法在前期僅為慣性出力,隨后較快將慣性出力的比例下調(diào)至零,實(shí)現(xiàn)兩種控制方式的過(guò)渡,保證慣性出力僅調(diào)頻初期起作用,避免在調(diào)頻恢復(fù)階段阻礙頻率恢復(fù)。在圖9中,直接切換方法下儲(chǔ)能由于在頻差變化率為零時(shí)實(shí)現(xiàn)兩種控制方式的切換,故儲(chǔ)能出力先降為零后迅速上升。對(duì)比方法和本工作方法的儲(chǔ)能出力曲線相近,但本工作方法過(guò)渡期更短,功率峰值也更低,說(shuō)明本工作方法可以減小儲(chǔ)能的功率需求。目前各省市發(fā)布的“并網(wǎng)雙細(xì)則”中要求,風(fēng)電場(chǎng)一次調(diào)頻有功功率滯后時(shí)間不大于2 秒、上升時(shí)間應(yīng)不大于9 秒。根據(jù)圖9 可知,本工作方法中儲(chǔ)能作為風(fēng)電場(chǎng)主要調(diào)頻電源,其滯后時(shí)間和上升時(shí)間較快,能夠滿足相關(guān)要求。此外,儲(chǔ)能出力超過(guò)風(fēng)電場(chǎng)一次調(diào)頻功率變化最低限幅,即風(fēng)電場(chǎng)運(yùn)行功率的6%,滿足風(fēng)電場(chǎng)一次調(diào)頻功率變化幅度要求。且風(fēng)電機(jī)組不參與一次調(diào)頻,可以避免因參與一次調(diào)頻動(dòng)作導(dǎo)致風(fēng)電機(jī)組脫網(wǎng)或停機(jī)現(xiàn)象發(fā)生。在表3中,本工作方法的?fmax評(píng)價(jià)指標(biāo)最優(yōu),較對(duì)比方法和直接切換法分別減少約8.43%和36.7%;|?omax|指標(biāo)與對(duì)比方法相同,均優(yōu)于直接切換法;三種方法的?fs保持一致。以上說(shuō)明了本工作方法在新能源發(fā)電突變擾動(dòng)下的表現(xiàn)優(yōu)于對(duì)比方法和直接切換法。
新能源發(fā)電的連續(xù)擾動(dòng)仿真設(shè)置兩組不同擾動(dòng)工況,工況一為圖10(a)所示的300 s風(fēng)速波動(dòng)產(chǎn)生的新能源電站出力波動(dòng),實(shí)際新能源出力波動(dòng)如圖10(b)所示,將該功率擾動(dòng)作為?PW(s)施加在區(qū)域電網(wǎng)頻率響應(yīng)模型中。同樣對(duì)無(wú)儲(chǔ)能、本工作方法、對(duì)比方法和直接切換法四種場(chǎng)景進(jìn)行仿真,得到頻率偏差曲線如圖11 所示,儲(chǔ)能輸出功率曲線如圖12所示,對(duì)應(yīng)調(diào)頻指標(biāo)見(jiàn)表4。
表4 工況一的調(diào)頻指標(biāo)Table 4 Frequency regulation index of condition one
圖10 工況一風(fēng)速和功率波動(dòng)曲線:(a)風(fēng)速曲線;(b)功率曲線Fig.10 Condition one wind speed and power fluctuation curve: (a) wind speed curve; (b) power curve
圖11 工況一下的頻差曲線Fig.11 Frequency difference curve of condition one
圖12 工況一不同方法儲(chǔ)能的輸出功率:(a)0~300 s;(b)212~222 sFig.12 The output power of different methods for energy storage: (a)0—300 s; (b)212—222 s
如圖11所示,在工況一的新能源出力波動(dòng)下,四種場(chǎng)景的頻率偏差曲線都出現(xiàn)了較大的振蕩,其中無(wú)儲(chǔ)能情況下的頻率波動(dòng)情況最劇烈。同直接切換法和對(duì)比方法相比,本工作方法的系統(tǒng)頻差曲線在大部分時(shí)間段內(nèi)明顯更貼近頻差為零的基準(zhǔn)線。此外,相較于本工作方法,直接切換法和對(duì)比方法在部分頻差轉(zhuǎn)折點(diǎn)的頻差會(huì)出現(xiàn)較大起伏,因此其表現(xiàn)不如本工作方法。圖12 為不同方法下儲(chǔ)能的輸出功率曲線,其中直接切換法的輸出功率波動(dòng)幅度最大,對(duì)比方法和本工作方法的輸出功率曲線相近,但對(duì)比方法在部分時(shí)刻的小幅功率波動(dòng)頻次仍高于本工作方法。由表4 可以得出與圖11同樣的結(jié)論,本工作方法的fRMSE較對(duì)比方法和直接切換法分別減少約8.74%和13.83%,td較對(duì)比方法和直接切換法分別減少約3.9%和6.7%,兩項(xiàng)調(diào)頻評(píng)價(jià)指標(biāo)均為最優(yōu),說(shuō)明本工作方法能在新能源出力大幅波動(dòng)下減小系統(tǒng)頻率波動(dòng),優(yōu)化頻率質(zhì)量,改善一次調(diào)頻效果。
直接切換法、對(duì)比方法和本工作方法中儲(chǔ)能的SOC計(jì)算方法如圖1所示,在工況一的新能源波動(dòng)下三者的SOC 變化曲線如圖13 所示。在該工況下,三種方法的SOC 均有不同程度的降低,其中本工作方法和對(duì)比方法下降趨勢(shì)更為接近。三種方法中本工作方法的SOC 偏移程度最大,說(shuō)明本工作方法較其他兩種方法的一次調(diào)頻動(dòng)作量更多,在彌補(bǔ)一次調(diào)頻過(guò)程中的電網(wǎng)功率缺額時(shí)起到了更積極的作用,減小了系統(tǒng)頻率偏差。結(jié)合表4 可知,在該工況下本工作方法的調(diào)頻評(píng)價(jià)指標(biāo)fRMSE更優(yōu),頻率穩(wěn)定效果更好。
圖13 工況一不同方法儲(chǔ)能的SOCFig.13 The SOC of different methods for energy storage under condition one
工況二設(shè)置為實(shí)際新能源出力擾動(dòng),圖14 為某風(fēng)電場(chǎng)測(cè)量得到的300 s 出力波動(dòng),將該功率擾動(dòng)作為?PW(s)施加在區(qū)域電網(wǎng)頻率響應(yīng)模型中。同樣對(duì)無(wú)儲(chǔ)能、本工作方法、對(duì)比方法和直接切換法四種場(chǎng)景進(jìn)行仿真,得到頻率偏差曲線如圖15所示,儲(chǔ)能輸出功率和SOC曲線分別如圖16和17所示,對(duì)應(yīng)調(diào)頻指標(biāo)見(jiàn)表5。
表5 工況二的調(diào)頻指標(biāo)Table 5 Frequency regulation index of condition two
圖14 工況二新能源出力波動(dòng)Fig.14 New energy output fluctuation under condition two
圖15 工況二下的頻差曲線Fig.15 Frequency difference curve of condition two
圖16 工況二不同方法儲(chǔ)能的輸出功率:(a)0~300 s;(b)36~50 sFig.16 The output power of different methods for energy storage: (a)0—300 s; (b)36—50 s
如圖15 所示,三種方法中本工作方法的頻差曲線較其他兩種方法的頻差曲線偏移更小。對(duì)比方法在大部分情況下同本工作方法一致,但在頻差曲線的拐點(diǎn)附近仍會(huì)出現(xiàn)小幅的頻率偏移。直接切換法由于依賴(lài)頻差變化率作為控制方式出力切換時(shí)機(jī),因此在大部分頻差拐點(diǎn)附近均會(huì)出現(xiàn)較大的頻差偏移。在圖16(a)中,本工作方法和對(duì)比方法的儲(chǔ)能動(dòng)作深度在多數(shù)時(shí)刻明顯小于直接切換法,直接切換法較前兩者出現(xiàn)了更多的輸出功率振蕩和出力突變,不利于儲(chǔ)能的長(zhǎng)期使用壽命;在圖16(b)中,對(duì)比方法在控制模式臨界切換點(diǎn)附近仍會(huì)導(dǎo)致部分時(shí)刻的小幅出力振蕩。在圖17 中,三種方法的SOC 在工況二下均有不同程度的上升,其中本工作方法和對(duì)比方法變化趨勢(shì)更為接近。三種方法中本工作方法的SOC 偏移程度最大,說(shuō)明本工作方法較其他兩種方法的一次調(diào)頻動(dòng)作量更多。結(jié)合表5可知,本工作方法在頻差和頻率質(zhì)量?jī)蓚€(gè)評(píng)價(jià)指標(biāo)上均表現(xiàn)最優(yōu),其中本工作方法的fRMSE較對(duì)比方法和直接切換法分別減少約11.14%和17.61%,td較對(duì)比方法和直接切換法分別減少約1.55%和2.35%,說(shuō)明本工作方法也能夠在實(shí)際新能源出力波動(dòng)下較好地完成一次調(diào)頻任務(wù),減小系統(tǒng)頻率波動(dòng),提高頻率質(zhì)量。
圖17 工況二不同方法儲(chǔ)能的SOCFig.17 The SOC of different methods for energy storage under condition two
本工作針對(duì)儲(chǔ)能傳統(tǒng)虛擬慣性和虛擬下垂控制策略的缺點(diǎn),考慮新能源出力特征,提出了基于強(qiáng)化學(xué)習(xí)的儲(chǔ)能一次調(diào)頻自適應(yīng)控制策略。該控制策略能夠根據(jù)系統(tǒng)頻差和頻差變化率自適應(yīng)調(diào)整兩種傳統(tǒng)控制策略的出力占比,在調(diào)頻前期通過(guò)虛擬慣性控制抑制頻差快速變化,在調(diào)頻中后期通過(guò)虛擬下垂控制減小穩(wěn)態(tài)頻差。與所設(shè)置的三種對(duì)比方法相比,所提控制策略在新能源發(fā)電突變工況下最少能減小8.43%的最大頻率偏差,在新能源發(fā)電連續(xù)波動(dòng)工況下最少能減少8.74%的頻率偏差均方根,且能在一定程度上減少系統(tǒng)頻率波動(dòng)至調(diào)頻死區(qū)外的時(shí)間。以上說(shuō)明所提方法在不同工況下的頻率穩(wěn)定效果和頻率質(zhì)量維持較好,能夠提高新能源場(chǎng)站儲(chǔ)能的一次調(diào)頻能力,對(duì)新能源友好并網(wǎng)和維護(hù)電網(wǎng)頻率穩(wěn)定有重要意義。