基于深度強(qiáng)化學(xué)習(xí)的含儲(chǔ)能有源配電網(wǎng)電壓聯(lián)合調(diào)控技術(shù)

2023-11-01 01:55:04齊韻英許瀟殷科馬超劉友波

電力建設(shè) 2023年11期

齊韻英, 許瀟, 殷科, 馬超, 劉友波

(1.四川大學(xué)電氣工程學(xué)院, 成都市 610065;2.國網(wǎng)四川綜合能源服務(wù)有限公司, 成都市 610072)

0 引言

能源結(jié)構(gòu)向低碳方向轉(zhuǎn)型的需求[1-2],以及電力電子和可再生能源發(fā)電技術(shù)的進(jìn)步,推動(dòng)了可再生能源的利用。分布式發(fā)電(distributed generation,DG)通過逆變器等電力電子設(shè)備接入配電網(wǎng),系統(tǒng)由單向無源網(wǎng)絡(luò)向雙向有源網(wǎng)絡(luò)過渡[3-4],導(dǎo)致了額外的電壓偏移。風(fēng)機(jī)和光伏出力的不確定性和波動(dòng)性,給配電網(wǎng)的可靠、優(yōu)化以及安全運(yùn)行等方面帶來了挑戰(zhàn)[5-7]。其中,DG滲透率的提高導(dǎo)致的電壓越限問題備受關(guān)注。

以往的電壓調(diào)控方法,如內(nèi)點(diǎn)法[8-9]、混合整數(shù)線性規(guī)劃[10]、混合整數(shù)二階錐規(guī)劃[11-12]以及元啟發(fā)式優(yōu)化算法[13-14]等,盡管這些基于模型的策略在電壓優(yōu)化等方面是有效的,但其依賴于網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)和參數(shù)等信息,要求全局信息的掌握,不能保證模型的準(zhǔn)確性,因此優(yōu)化的效果有限?？稍偕茉窗l(fā)電和負(fù)荷等的多種不確定性也是傳統(tǒng)優(yōu)化方法面臨的挑戰(zhàn),為此提出了模型預(yù)測控制(model predictive control,MPC)[15]、魯棒優(yōu)化(robust optimization,RO)[16-17]等不確定優(yōu)化方法,但基于MPC和RO的策略同樣依賴準(zhǔn)確的網(wǎng)絡(luò)參數(shù)和拓?fù)湫畔?在處理不確定時(shí)由于信息采集不全需要引入諸多主觀假定參數(shù),變量維度容易爆炸,且MPC和RO通過尋找預(yù)先確定的解決方案來處理負(fù)荷和DG的不確定性,但DG在短時(shí)間內(nèi)波動(dòng)較大,使其需要更頻繁地操作可控設(shè)備,并重新計(jì)算最優(yōu)解[18]。

人工智能的發(fā)展為解決上述問題提供了解決方法,深度強(qiáng)化學(xué)習(xí)[19](deep reinforcement learning,DRL)提供了無模型的框架來解決配電網(wǎng)電壓調(diào)控問題,可以彌補(bǔ)傳統(tǒng)優(yōu)化方法依賴物理模型和全局信息的缺陷,此外在應(yīng)對多種不確定性的環(huán)境時(shí),無需擴(kuò)展決策變量維度,性能優(yōu)于傳統(tǒng)的隨機(jī)優(yōu)化方法。DRL依據(jù)學(xué)習(xí)到的歷史經(jīng)驗(yàn)在線調(diào)整系統(tǒng)的運(yùn)行狀態(tài),具有能夠兼容多種復(fù)雜模型的優(yōu)點(diǎn),目前已被廣泛用于電力系統(tǒng)中的控制問題,例如電壓控制、自適應(yīng)緊急控制等。文獻(xiàn)[20]基于深度Q網(wǎng)絡(luò)(deep Q-network,DQN)算法提出了一種兩級電壓控制框架,通過調(diào)度離散的電容組獲得無功支持。文獻(xiàn)[21]通過協(xié)調(diào)DG上的電容器、電壓調(diào)節(jié)器等設(shè)備,基于多智能體DQN框架實(shí)現(xiàn)了不平衡配電網(wǎng)絡(luò)的電壓無功優(yōu)化。但DQN算法只適用于離散的動(dòng)作區(qū)間,在連續(xù)動(dòng)作空間問題上容易陷入維數(shù)災(zāi)難。深度確定性策略梯度(deep deterministic policy gradient,DDPG)是DeepMind團(tuán)隊(duì)提出的專門應(yīng)對復(fù)雜的高維連續(xù)動(dòng)作空間問題的DRL算法,DDPG算法使用策略網(wǎng)絡(luò)輸出確定性動(dòng)作,在大規(guī)模電網(wǎng)控制方面具有明顯的優(yōu)勢[22-23]。

在傳統(tǒng)的電壓調(diào)度控制中,多依托于有載調(diào)壓變壓器、電容器組等調(diào)壓設(shè)備解決電壓越限問題,這在過去對于沿饋線電壓分布單調(diào)遞減且電壓變化緩慢的傳統(tǒng)集中式電源是有效的。然而配電網(wǎng)層面上聚合了大量的分布式可再生能源發(fā)電,逆潮流與DG的不確定性增加了電壓越限的風(fēng)險(xiǎn)。傳統(tǒng)調(diào)壓設(shè)備由于機(jī)械特性和壽命問題,只能在很長的時(shí)間尺度內(nèi)調(diào)度,缺乏快速響應(yīng)的能力,無法準(zhǔn)確調(diào)節(jié)具有高滲透率DG配電網(wǎng)的電壓[24]。靜止無功補(bǔ)償裝置(static var compensator,SVC)作為一種電力電子設(shè)備,能在短時(shí)間內(nèi)提供連續(xù)的無功功率支持,可以用于含高滲透率DG配電網(wǎng)的電壓偏差抑制。但配電網(wǎng)電阻和電抗的比值較大,有功功率的注入對節(jié)點(diǎn)電壓的影響與無功功率相當(dāng),因此單一的無功功率補(bǔ)償手段可能無法較好地提高配電網(wǎng)絡(luò)的電壓質(zhì)量。

為此,針對含高比例DG有源配電網(wǎng)的電壓越限問題,提出一種基于DDPG的電壓調(diào)控策略,將電壓調(diào)控問題建模為馬爾可夫決策過程(Markov decision-making processes,MDP),通過將復(fù)雜的物理模型轉(zhuǎn)換為數(shù)據(jù)樣本以學(xué)習(xí)電壓波動(dòng)抑制的規(guī)律,利用策略網(wǎng)絡(luò)輸出連續(xù)確定性動(dòng)作,僅在當(dāng)前的狀態(tài)下尋找最優(yōu)策略,而無需建立模型和全局信息。由于單一的SVC無功支持可能無法滿足電壓質(zhì)量的要求,引入電池儲(chǔ)能系統(tǒng)(battery energy storage system,BESS)。BESS具有響應(yīng)速度快和高效充放電的優(yōu)點(diǎn)[25-26],且具備靈活的四象限運(yùn)行能力,可以同時(shí)提供有功和無功支撐。利用BESS和SVC進(jìn)行配電網(wǎng)的有功無功聯(lián)合調(diào)控,能夠有效改善配網(wǎng)末端或波動(dòng)較大的局部電壓運(yùn)行品質(zhì)。考慮到儲(chǔ)能成本高昂、電池循環(huán)次數(shù)有限,無規(guī)律的充放電動(dòng)作會(huì)加速儲(chǔ)能容量的衰減,將儲(chǔ)能壽命損耗和容量衰減納入優(yōu)化,并考慮了儲(chǔ)能的動(dòng)態(tài)運(yùn)行效率。實(shí)現(xiàn)在提高配電網(wǎng)的電壓質(zhì)量、改善電壓波動(dòng)的同時(shí)兼顧儲(chǔ)能電池的低衰減長循環(huán),提升應(yīng)用儲(chǔ)能的經(jīng)濟(jì)性。

1 系統(tǒng)模型和約束

本文考慮的配電網(wǎng)架構(gòu)由風(fēng)機(jī)、光伏、儲(chǔ)能、SVC以及負(fù)荷構(gòu)成,旨在利用電池儲(chǔ)能元件和SVC實(shí)現(xiàn)電壓波動(dòng)的抑制,并考慮儲(chǔ)能的動(dòng)態(tài)運(yùn)行效率和儲(chǔ)能的容量衰減特性,因此對儲(chǔ)能的動(dòng)態(tài)運(yùn)行特性機(jī)理進(jìn)行了研究,并給出了系統(tǒng)的各項(xiàng)約束。

1.1 考慮容量衰減的儲(chǔ)能模型

1.1.1 儲(chǔ)能動(dòng)態(tài)效率

BESS的荷電狀態(tài)(state of charge,SOC)和輸出功率的關(guān)系可近似為:

(1)

式中:SOC,t為儲(chǔ)能電池t時(shí)刻的荷電狀態(tài);EB表示儲(chǔ)能電池的額定容量;Pbess,t表示儲(chǔ)能電池t時(shí)刻的有功輸出功率,Pbess,t>0表示充電,反之表示放電;ηch表示充電效率;ηdis表示放電效率;Δt為時(shí)間間隔。

儲(chǔ)能的效率在電力系統(tǒng)優(yōu)化建模中通常被假設(shè)為恒定常數(shù),實(shí)際上電池的效率在運(yùn)行過程中隨電池SOC和輸出功率而變化,具有非線性關(guān)系[27]。

在儲(chǔ)能參與系統(tǒng)的優(yōu)化調(diào)度過程中,為了簡化方程,可以用二次多項(xiàng)式擬合儲(chǔ)能電池單元充放電效率和SOC、Pbess的關(guān)系[28],其中f0—f5、g0—g5均為系數(shù):

(2)

(3)

式中:SOC為儲(chǔ)能電池的荷電狀態(tài);Pbess為儲(chǔ)能電池的有功輸出功率。

1.1.2 儲(chǔ)能容量衰減和壽命損耗模型

儲(chǔ)能電池在運(yùn)行過程中會(huì)伴隨著內(nèi)部溶液濃度下降、溶質(zhì)氧化等現(xiàn)象,引起電池內(nèi)阻增加,導(dǎo)致容量的衰減。一般認(rèn)為儲(chǔ)能電池容量衰減至額定容量的80%或內(nèi)阻增加到原來的兩倍時(shí),電池進(jìn)入退役期,投入梯級利用或進(jìn)行回收。電池健康狀態(tài)(state of health, SOH)可用于描述儲(chǔ)能電池容量保持程度,定義為可用容量和額定容量的比值:

(4)

式中:SOH指儲(chǔ)能電池的健康狀態(tài);Esu表示儲(chǔ)能電池的可用容量。

BESS電池從滿SOC放電到特定SOC,再從特定SOC充電到滿SOC循環(huán)的總次數(shù)稱為儲(chǔ)能的生命周期。BESS的生命周期與電池的放電深度(depth of discharge, DOD)有關(guān)[29]：

(5)

DOD=1-SOC

(6)

式中:DOD表示電池的放電深度;Nlife(·)為擬合函數(shù);h0—h4均為系數(shù)。

儲(chǔ)能的壽命損耗可以定義為關(guān)于電池SOC的函數(shù),儲(chǔ)能電池的容量衰減可定義為與壽命損耗相關(guān)的函數(shù),其關(guān)系式如下:

(7)

Lloss,t=|F(SOC,t)-F(SOC,t-1)|

(8)

(9)

SOH=G(LTloss)=b1e-b2LTloss+b3e-b4LTloss

(10)

式中:F(·)為儲(chǔ)能電池的壽命損耗與荷電狀態(tài)關(guān)系的原始函數(shù);Lloss,t表示儲(chǔ)能電池在時(shí)刻t的壽命損耗;LTloss指初始時(shí)刻t0到當(dāng)前時(shí)刻t的總壽命損耗;G(·)為儲(chǔ)能電池健康狀態(tài)與壽命損耗的擬合函數(shù),如式(10)所示;b1～b4為擬合系數(shù)。

為簡便起見,將儲(chǔ)能的壽命近似劃分為J個(gè)階段,對SOH和壽命損耗的擬合關(guān)系進(jìn)行分段線性化[30],可得:

SOH,t-SOH,t-1=?jLloss,t,j=1,2,3,…,J

(11)

(12)

式中:SOH,j0表示第j個(gè)階段的初始SOH;?j為第j個(gè)階段的容量衰減系數(shù);LTloss,j表示j階段儲(chǔ)能電池的總壽命損耗。

1.1.3 儲(chǔ)能變流器

儲(chǔ)能變流器(power conversion system,PCS)是BESS除電池單元外另一重要組成部分,具備有功功率和無功功率雙向調(diào)節(jié)功能。PCS可通過充放電從電網(wǎng)吸納或提供有功能量,還可輸出連續(xù)可調(diào)的感性無功或容性無功。

PCS可以將系統(tǒng)的有功和無功輸出解耦,外環(huán)控制器檢測電網(wǎng)的有功和無功需求,內(nèi)環(huán)控制器控制有功或無功的輸出,依據(jù)電網(wǎng)的實(shí)際運(yùn)行需求在四個(gè)象限或坐標(biāo)軸上運(yùn)行,如圖1所示。

圖1 BESS有功和無功輸出范圍

儲(chǔ)能的輸出功率受電池SOC與額定視在功率的限制:

(13)

(14)

式中:SOC,max、SOC,min分別表示電池荷電狀態(tài)的上下限;Pbess,max表示BESS輸出有功功率上限;Qbess表示BESS輸出的無功功率;Sbess表示BESS視在功率;SBESS表示BESS額定視在功率。

1.2 系統(tǒng)約束

系統(tǒng)的約束主要包括設(shè)備約束、安全電壓約束、潮流約束以及功率平衡約束。

1.2.1 SVC出力約束

SVC是一種基于晶閘管開關(guān)的無功補(bǔ)償設(shè)備,SVC可以為系統(tǒng)提供連續(xù)的無功支持,將電壓維持在適當(dāng)?shù)乃?。BESS和SVC的有功無功聯(lián)合調(diào)控,能夠有效解決電壓越限問題,且減少BESS的充放電次數(shù)。SVC的運(yùn)行受其最大輸出功率Qsvc,max的限制:

-Qsvc,max≤Qsvc,t≤Qsvc,max

(15)

式中:Qsvc,max為SVC最大輸出功率;Qsvc,t為SVC的t時(shí)刻輸出功率。

1.2.2 安全電壓約束

(16)

式中:Vi,t為t時(shí)刻節(jié)點(diǎn)i的電壓值;Vr為額定電壓值;Vi,max、Vi,min分別指節(jié)點(diǎn)i的電壓上下限,本文設(shè)定的電壓安全范圍為1±5%。

1.2.3 潮流約束

Pi=Vi∑j∈iVj(Gijcosθij+Bijsinθij)

(17)

Qi=Vi∑j∈iVj(Gijsinθij-Bijcosθij)

(18)

式中:Pi、Qi分別為節(jié)點(diǎn)i的有功功率與無功功率;Vi、Vj分別為節(jié)點(diǎn)i和與其相連的節(jié)點(diǎn)j的電壓;Gij、Bij分別為節(jié)點(diǎn)i和節(jié)點(diǎn)j之間的導(dǎo)納和電納;θij為節(jié)點(diǎn)i和j之間的相角差。

1.2.4 功率平衡約束

(19)

式中:Pload,i,t、Qload,i,t分別表示節(jié)點(diǎn)i處的有功和無功負(fù)荷;PWT,i,t、PPV,i,t分別表示節(jié)點(diǎn)i處的分布式風(fēng)電、光伏輸出功率;Pbess,i,t、Qbess,i,t分別表示節(jié)點(diǎn)i處的儲(chǔ)能有功和無功出力;Pline,t表示從上級電網(wǎng)獲得的功率;Qsvc,i,t表示SVC的無功出力;i∈Ω,Ω表示節(jié)點(diǎn)集合。

2 基于DDPG的電壓調(diào)控框架

復(fù)雜的潮流模型以及儲(chǔ)能的動(dòng)態(tài)運(yùn)行模型等使得所提出的電壓調(diào)控策略的非線性和非凸性增強(qiáng),傳統(tǒng)基于模型的方法很難實(shí)現(xiàn)理想的優(yōu)化效果,未來的不確定性使決策帶來的效果更加難以預(yù)測。MDP是對于此類問題的一種建模方法,馬爾可夫過程認(rèn)為從一個(gè)狀態(tài)到下一個(gè)狀態(tài)的轉(zhuǎn)換僅取決于當(dāng)前狀態(tài)和選擇的動(dòng)作,可以在不確定性環(huán)境中執(zhí)行決策。因此基于DRL的框架,將配電網(wǎng)的電壓調(diào)控問題建模為馬爾可夫決策過程,其中考慮了系統(tǒng)的各項(xiàng)約束。

2.1 電壓調(diào)控建模為馬爾可夫決策過程

MDP包含狀態(tài)空間S、動(dòng)作空間A、獎(jiǎng)勵(lì)函數(shù)R、狀態(tài)轉(zhuǎn)移概率P和折扣因子γ五個(gè)基本要素。馬爾可夫決策過程中,t+1時(shí)刻的動(dòng)作和狀態(tài)信息僅與時(shí)刻t有關(guān):

P(s′;s,a)=P{st=s′∣st-1=s,at-1=a}s,s′∈S,a∈A

(20)

式中:P(s′;s,a)表示在當(dāng)前狀態(tài)s下執(zhí)行動(dòng)作a后,轉(zhuǎn)移到下一狀態(tài)s′的概率;st、st-1分別為t和t-1時(shí)刻的狀態(tài);at-1表示t-1時(shí)刻的動(dòng)作。

MDP具體建模如下:

1)狀態(tài)空間S：狀態(tài)空間給出了智能體的環(huán)境感知內(nèi)容。本文中狀態(tài)信息st包含風(fēng)力發(fā)電輸出功率PWT,t、光伏輸出功率PPV,t、負(fù)荷Pload,t、上級電網(wǎng)傳輸功率Pline,t-1以及儲(chǔ)能的荷電狀態(tài)SOC,t-1、電池健康狀態(tài)SOH,t-1、總壽命損耗LTloss,t-1。其中PWT,t、PPV,t、Pload,t屬于輸入信息,其他屬于輸出信息,受本身約束和決策的控制生成。

st={PWT,t,PPV,t,Pload,t,Pline,t-1,SOC,t-1,SOH,t-1,LTloss,t-1}

(21)

2)動(dòng)作空間A：智能體根據(jù)學(xué)習(xí)到的控制策略采取動(dòng)作at,智能體控制儲(chǔ)能的變流器和SVC的出力點(diǎn),通過選擇最優(yōu)的策略p,向獲得更高獎(jiǎng)勵(lì)的方向更新。

at={Pbess,t,Qbess,t,Qsvc,t}

(22)

3)狀態(tài)轉(zhuǎn)移:狀態(tài)st到狀態(tài)st+1的狀態(tài)轉(zhuǎn)移可以定義為:

st+1=f(st,at,ωt)

(23)

式中:ωt表示在狀態(tài)轉(zhuǎn)移過程中的隨機(jī)擾動(dòng)或噪聲。

式(23)表明狀態(tài)轉(zhuǎn)移不僅由當(dāng)前狀態(tài)st和動(dòng)作at決定,由于下一個(gè)狀態(tài)中負(fù)荷需求、風(fēng)電和光伏出力未知,還受隨機(jī)性的影響。受負(fù)荷、天氣變化等因素的影響,還難以建立準(zhǔn)確的隨機(jī)分布模型。因此本文利用DRL算法從不需要隨機(jī)性統(tǒng)計(jì)模型的系統(tǒng)數(shù)據(jù)樣本中學(xué)習(xí)狀態(tài)的轉(zhuǎn)換。

4)獎(jiǎng)勵(lì)函數(shù)R：即時(shí)獎(jiǎng)勵(lì)rt在時(shí)刻t后立即返回,智能體執(zhí)行動(dòng)作時(shí)獲得基于狀態(tài)信息st的at。

在DRL環(huán)境中,獎(jiǎng)勵(lì)函數(shù)通常是策略的目標(biāo)的拓展,所提出的電壓調(diào)控策略通過調(diào)控儲(chǔ)能和SVC減小系統(tǒng)電壓偏差,實(shí)現(xiàn)系統(tǒng)的削峰填谷,并考慮儲(chǔ)能的電池容量衰減成本,定義如下指標(biāo):

FTloss,t=λ1(1-SOH,t)

(24)

(25)

式中:FTloss,t表示儲(chǔ)能的衰減成本;λ1為儲(chǔ)能壽命損耗成本參數(shù);考慮平緩系統(tǒng)的凈負(fù)荷曲線,降低與上級電網(wǎng)傳輸功率的波動(dòng),將傳輸功率波動(dòng)作為評價(jià)削峰填谷的指標(biāo)Fline,t;Pline,t、Pline,t-1分別為t和t-1時(shí)刻的上級電網(wǎng)傳輸功率;ΔPline,t表示當(dāng)前時(shí)刻的上級電網(wǎng)傳輸功率與上一時(shí)刻的差值,即傳輸功率波動(dòng);λ2為懲罰參數(shù)。λ1和λ2數(shù)值的選擇應(yīng)遵循將FTloss,t和Fline,t維持在同一數(shù)量級的原則。

引入懲罰函數(shù)來處理約束,并納入獎(jiǎng)勵(lì)函數(shù)中進(jìn)行優(yōu)化,BESS的約束按如下的懲罰函數(shù)處理:

(26)

(27)

此外,考慮到最小化系統(tǒng)電壓偏差,設(shè)置如下的懲罰函數(shù):

(28)

(29)

式(26)—(28)為懲罰項(xiàng),意在利用負(fù)的獎(jiǎng)勵(lì)值限制系統(tǒng)運(yùn)行在約束范圍內(nèi)。懲罰參數(shù)通常為負(fù)的很大的值并與模型緊密聯(lián)系,當(dāng)BESS在給定約束范圍內(nèi)時(shí),懲罰項(xiàng)置零,而考慮到電壓偏差的最小化,電壓在安全運(yùn)行范圍內(nèi)時(shí),懲罰項(xiàng)值較小。因此即時(shí)獎(jiǎng)勵(lì)rt可以由如下的表達(dá)式給出:

(30)

DRL智能體執(zhí)行動(dòng)作并獲得獎(jiǎng)勵(lì),通過探索行動(dòng)空間,學(xué)習(xí)最優(yōu)策略最大化累積獎(jiǎng)勵(lì):

(31)

式中:R(st,t)表示在當(dāng)前狀態(tài)下智能體獲得的獎(jiǎng)勵(lì);γ∈[0,1],表示貼現(xiàn)系數(shù),反映了即時(shí)獎(jiǎng)勵(lì)和未來獎(jiǎng)勵(lì)的相對重要性。策略π是從狀態(tài)st到基于該狀態(tài)的采取動(dòng)作at間的映射,這決定了智能體的行為。當(dāng)前狀態(tài)st下的動(dòng)作可以通過狀態(tài)-動(dòng)作價(jià)值函數(shù)Qπ(s,a)評估:

Qπ(s,a)=Eπ[Rt∣s=st,a=at]

(32)

式中:Eπ[·]表示在策略π下的期望值操作,計(jì)算根據(jù)策略π執(zhí)行動(dòng)作所得到的回報(bào)Rt的期望值。

從MDP的角度來看,配電網(wǎng)電壓調(diào)控的目標(biāo)為尋找最優(yōu)策略π*以最大化式(32)中的價(jià)值函數(shù):

(33)

以上將電壓調(diào)控策略轉(zhuǎn)化成MDP問題,可以看出,DRL的學(xué)習(xí)過程基于試錯(cuò)和反饋機(jī)制,通過在不同狀態(tài)下嘗試不同的動(dòng)作并觀察獲得獎(jiǎng)勵(lì)值,并使它向獎(jiǎng)勵(lì)值更大的方向逼近,可以靈活地應(yīng)對不同的環(huán)境。

本文中DRL的決策框架如圖2所示,智能體通過與環(huán)境的交互獲取經(jīng)驗(yàn),并找出最優(yōu)的策略。

圖2 DRL決策框架

2.2 深度確定性策略梯度算法

由于電力系統(tǒng)中負(fù)荷和新能源發(fā)電存在不確定性,通過傳統(tǒng)的優(yōu)化方法難以確定最優(yōu)策略π*。DDPG智能體可以從過去的高維歷史數(shù)據(jù)中學(xué)習(xí)最優(yōu)策略,在非線性和多約束問題上具有很大的優(yōu)勢,因此采用DDPG算法解決所提出具有連續(xù)動(dòng)作空間的MDP問題。DDPG基于貝爾曼最優(yōu)方程更新行為值函數(shù):

Qμ(st,at)=Ert,st+1～E[r(st,at)+γQμ(st+1,μ(st+1))]

(34)

式中:Qμ(st,at)表示在狀態(tài)st下采取動(dòng)作at的行為值函數(shù);μ為當(dāng)前策略函數(shù),表示根據(jù)狀態(tài)選擇動(dòng)作的策略;Ert,st+1～E[·]表示對即時(shí)回報(bào)rt和下一個(gè)狀態(tài)st+1進(jìn)行期望值操作,其中rt和st+1根據(jù)環(huán)境的動(dòng)態(tài)特性隨機(jī)生成。

DDPG基于Actor-Critic架構(gòu),使用兩種典型的深度神經(jīng)網(wǎng)絡(luò)逼近Actor函數(shù)(θμ)和Critic函數(shù)(θQ),并分別擁有目標(biāo)網(wǎng)絡(luò)即目標(biāo)策略網(wǎng)絡(luò)θμ′和目標(biāo)價(jià)值網(wǎng)絡(luò)θQ′。

價(jià)值網(wǎng)絡(luò)用于評估策略,輸入包括狀態(tài)st和動(dòng)作at,輸出為Q值,表示在當(dāng)前狀態(tài)下動(dòng)作的價(jià)值,即在當(dāng)前的負(fù)荷、DG出力以及儲(chǔ)能的容量和荷電狀態(tài)下,BESS和SVC的功率輸出對配電網(wǎng)電壓波動(dòng)的抑制效果。價(jià)值網(wǎng)絡(luò)向最小化損失函數(shù)式(35)的方向迭代更新參數(shù)θQ。

(35)

yt=rt+Q′[st+1,μ′(st+1|θμ′)|θQ′]

(36)

式中:L表示損失函數(shù)的值;N表示樣本數(shù)量;θQ為價(jià)值網(wǎng)絡(luò)的參數(shù);yt為目標(biāo)Q值,表示在狀態(tài)st下采取動(dòng)作at的期望累計(jì)獎(jiǎng)勵(lì);Q′表示目標(biāo)價(jià)值網(wǎng)絡(luò),θQ′為其參數(shù);μ′表示目標(biāo)策略,θμ′為其參數(shù)。

策略網(wǎng)絡(luò)以狀態(tài)st作為輸入,輸出動(dòng)作at,即BESS和SVC在當(dāng)前狀態(tài)下的最佳出力點(diǎn)。策略網(wǎng)絡(luò)輸出層包含tanh激活函數(shù),所有輸出向量值的范圍為(-1,1)。策略網(wǎng)絡(luò)參數(shù)θμ的更新遵循確定性策略:

(37)

在算法中,通過在確定性策略中添加隨機(jī)噪聲Nt,以提高DDPG智能體在與配電網(wǎng)環(huán)境交互時(shí)的探索能力:

(38)

3 算例仿真

3.1 算例設(shè)置

在改進(jìn)的配電網(wǎng)IEEE 33系統(tǒng)中,對基于DDPG的電壓調(diào)控策略性能進(jìn)行了測試。在標(biāo)準(zhǔn)IEEE 33系統(tǒng)的不同節(jié)點(diǎn)設(shè)置風(fēng)電、光伏以及儲(chǔ)能,以應(yīng)用在所提場景中。其中風(fēng)機(jī)節(jié)點(diǎn){17,32},光伏節(jié)點(diǎn){8,21},儲(chǔ)能節(jié)點(diǎn){18,25,33},具體算例系統(tǒng)見圖3。

圖3 改進(jìn)的IEEE 33節(jié)點(diǎn)系統(tǒng)

選取一年的風(fēng)光荷的數(shù)據(jù)[31]作為訓(xùn)練集和測試集。儲(chǔ)能裝置的主要參數(shù)詳見附錄表A1,儲(chǔ)能運(yùn)行效率模型系數(shù)見附錄表A2,生命周期Nlife與放電深度DOD擬合函數(shù)的系數(shù)見附錄表A3;容量衰減模型系數(shù)[30]見附錄表A4。本文獎(jiǎng)勵(lì)函數(shù)中的參數(shù)根據(jù)同一數(shù)量級以及不能違背約束的原則選取,并在多次仿真訓(xùn)練中對其進(jìn)行了調(diào)整,具體數(shù)值見附錄表A5。

3.2 仿真結(jié)果

3.2.1 智能體訓(xùn)練過程

將基于DDPG的電壓調(diào)控模型的訓(xùn)練性能與基于SAC(soft actor-critic)的電壓調(diào)控模型的訓(xùn)練性能進(jìn)行了比較,以驗(yàn)證所提算法的有效性。DDPG算法仿真的超參數(shù)設(shè)置見附錄表A6,智能體共進(jìn)行了500次訓(xùn)練以學(xué)習(xí)最佳的電壓調(diào)控策略,訓(xùn)練過程的獎(jiǎng)勵(lì)回報(bào)如圖4所示,每次訓(xùn)練包含24個(gè)時(shí)隙,間隔為1 h。訓(xùn)練過程開始階段,由于智能體沒有獲取在電壓調(diào)控方面的經(jīng)驗(yàn),以較低的獎(jiǎng)勵(lì)值開始探索,通過不斷地從歷史經(jīng)驗(yàn)中學(xué)習(xí)知識(shí)最大化獎(jiǎng)勵(lì)回報(bào),最終收斂在一定水平。由對比結(jié)果可知,在本文所提出的考慮儲(chǔ)能動(dòng)態(tài)運(yùn)行特性的電壓調(diào)控場景中,DDPG表現(xiàn)出了更好的性能,具有更快的收斂速度和更高的獎(jiǎng)勵(lì)回報(bào)。

圖4 訓(xùn)練過程的獎(jiǎng)勵(lì)曲線

3.2.2 電壓調(diào)控模型的性能

含DG的配電網(wǎng)中,由于DG出力不穩(wěn)定,且變化趨勢一般與負(fù)荷曲線不匹配,因此配電網(wǎng)饋線末端和接入DG的位置存在電壓越限的風(fēng)險(xiǎn)。本文通過調(diào)控BESS和SVC的出力,使各節(jié)點(diǎn)電壓在安全范圍內(nèi)運(yùn)行,減小電壓的偏差。通過測試日評估智能體的訓(xùn)練效果,并隨機(jī)選擇了連續(xù)兩天進(jìn)行測試。測試日中風(fēng)光荷的功率曲線如圖5所示,仿真過程假設(shè)有功負(fù)荷和無功負(fù)荷曲線變化趨勢保持一致。

圖5 風(fēng)光荷標(biāo)幺功率

不同方法下測試日的電壓調(diào)控效果如表1所示,比較的方法包括所提出的DDPG算法和SAC算法。定義平均電壓偏差指標(biāo),對電壓的調(diào)控效果進(jìn)行分析,圖6給出了測試日中每個(gè)節(jié)點(diǎn)處電壓的極值曲線。

表1 測試日電壓調(diào)控效果

圖6 電壓極值曲線

(39)

式中:ρ為電壓平均偏差指標(biāo);Nnode和NT分別表示節(jié)點(diǎn)數(shù)量和時(shí)間步的數(shù)量。

由表1可知,通過DDPG算法和SAC算法進(jìn)行電壓調(diào)控后,平均電壓偏差較無調(diào)控時(shí)分別降低了80.81%和32.11%,表1同時(shí)給出了測試日中節(jié)點(diǎn)電壓的最高和最低值。圖6表明在DDPG算法的調(diào)控下,電壓整體水平更接近額定電壓,電壓偏差較無調(diào)控時(shí)明顯降低。因此所提出的基于DDPG算法的電壓調(diào)控策略,能夠找到更優(yōu)的BESS有功/無功和SVC的無功出力點(diǎn),整體提升電壓水平,減小電壓的波動(dòng)。

DDPG智能體通過獎(jiǎng)勵(lì)反饋值和環(huán)境的交互,尋找BESS和SVC最佳動(dòng)作策略,以最小化電壓偏差。儲(chǔ)能的有功充放電功率和無功出力分別如圖7、圖8所示。

圖8 BESS無功功率

由圖7可看出,由于BESS1所處饋線同時(shí)設(shè)置了風(fēng)機(jī)和光伏,DG的有功注入較為穩(wěn)定,BESS1的SOC值波動(dòng)最小,在夜間(21:00—24:00)其他儲(chǔ)能處于放電狀態(tài)時(shí),BESS1進(jìn)行充電。在測試日內(nèi),BESS1、BESS2和BESS3根據(jù)所處節(jié)點(diǎn)位置的功率需求在四象限內(nèi)運(yùn)行,為系統(tǒng)提供有功和無功支撐,初始SOC皆為0.5,SOC曲線表明儲(chǔ)能SOC值均處于0.1～0.9的范圍內(nèi),所設(shè)計(jì)的懲罰項(xiàng)能夠很好地約束BESS的運(yùn)行。

SVC時(shí)序無功出力如圖9所示,可以看出SVC出力較為穩(wěn)定,在多數(shù)時(shí)間內(nèi)以輸出最大無功功率0.8 Mvar運(yùn)行,來滿足系統(tǒng)的無功需求,能夠較好地均衡系統(tǒng)中無功的分布。但由于SVC無功補(bǔ)償量與電壓平方成正比,因此電壓波動(dòng)時(shí)進(jìn)行的無功補(bǔ)償無法達(dá)到較高的電壓質(zhì)量。

圖9 SVC無功功率

由圖5給出的風(fēng)電出力曲線可知,在13:00—16:00風(fēng)機(jī)的出力開始增大,系統(tǒng)無功需求降低,因此BESS2發(fā)生無功倒吸現(xiàn)象,此時(shí)SVC的無功出力在一定程度上降低,在某些時(shí)刻也出現(xiàn)了無功倒吸現(xiàn)象,可見儲(chǔ)能輸出有功和無功功率與SVC相互配合,抑制系統(tǒng)內(nèi)的電壓波動(dòng)。BESS1所處饋線有功功率注入量大,為緩解帶來的過壓風(fēng)險(xiǎn),系統(tǒng)需要更多的無功支持,因此BESS1輸出無功功率較高,而BESS3所處饋線無DG裝置,因此其無功出力變化趨勢與負(fù)荷變化趨勢大致相同。

3.2.3 不確定性場景影響

為了驗(yàn)證所提出方法在應(yīng)對系統(tǒng)負(fù)荷和DG出力的不確定性方面的效果,對某一天的負(fù)荷曲線和DG出力加上15%的正態(tài)分布偏差進(jìn)行處理,并將DDPG算法得到的優(yōu)化結(jié)果與粒子群算法(particle swarm optimization,PSO)進(jìn)行對比,結(jié)果如表2所示。

由表2的結(jié)果可以看出,基于粒子群算法的日前調(diào)度策略,難以應(yīng)對DG和負(fù)荷的不確定性。而DDPG算法可以在線跟蹤負(fù)荷和DG出力的變化,及時(shí)調(diào)整動(dòng)作策略,應(yīng)對不確定性場景時(shí)性能較粒子群提升69.33%,有效抑制節(jié)點(diǎn)電壓的波動(dòng),確保配電網(wǎng)的穩(wěn)定運(yùn)行。

3.2.4 儲(chǔ)能容量衰減影響

本文提出的電壓調(diào)控策略旨在實(shí)現(xiàn)配電網(wǎng)的短期優(yōu)化,因此將儲(chǔ)能的總衰減成本折算在運(yùn)行時(shí)期的每一天中。為了比較說明儲(chǔ)能的容量衰減對其工作性能的影響,考慮了儲(chǔ)能新投運(yùn)時(shí)期和儲(chǔ)能衰減后時(shí)期兩種場景,并分析了僅BESS工作、BESS和SVC同時(shí)工作兩種情況下電壓曲線的變化情況。場景1中考慮系統(tǒng)內(nèi)接入的儲(chǔ)能全部處于新投運(yùn)時(shí)期,電池健康狀態(tài)為0.99,場景2中考慮兩個(gè)儲(chǔ)能已投運(yùn)一段時(shí)期容量衰減至電池健康狀態(tài)為0.91,如表3所示。

表3 儲(chǔ)能初始電池健康狀態(tài)

利用訓(xùn)練后的DDPG智能體進(jìn)行了測試,兩種場景下的電壓如圖10所示。由1.1節(jié)對儲(chǔ)能壽命損耗和容量衰減的分析可知,儲(chǔ)能投入運(yùn)行后,電池的充放電動(dòng)作同時(shí)伴隨著損耗,且儲(chǔ)能后期衰減的速度更快,充放電效率有一定程度的降低。由圖10(a)可以看出儲(chǔ)能衰減后期的工作性能較新投運(yùn)時(shí)期差,以平均電壓偏差為評價(jià)指標(biāo),抑制電壓波動(dòng)性能下降了51.05%。BESS和SVC同時(shí)工作情況下電壓如圖10(b)所示,可以看出系統(tǒng)從SVC處獲取了額外的無功支持后,場景2下的電壓偏差有明顯的降低,說明本文所提出的有功無功聯(lián)合調(diào)控策略在儲(chǔ)能壽命的動(dòng)態(tài)變化過程中,電壓調(diào)控性能仍處于較佳水平。

圖10 兩種場景下的電壓變化

4 結(jié) 論

針對含高滲透率DG配電網(wǎng)易發(fā)生電壓越限的問題,提出了基于DRL的電壓調(diào)控策略,通過對分布式儲(chǔ)能和SVC進(jìn)行有功無功聯(lián)合控制減小系統(tǒng)節(jié)點(diǎn)電壓偏差,并考慮了儲(chǔ)能的壽命損耗和容量衰減模型,在兼顧儲(chǔ)能容量衰減成本的同時(shí)實(shí)現(xiàn)了非全信息下電壓波動(dòng)的有效抑制。主要結(jié)論如下:

1) 本文將電壓調(diào)控問題推導(dǎo)為馬爾可夫決策過程,采用聯(lián)合調(diào)控儲(chǔ)能和SVC的策略,有效緩解了多重不確定性引起的電壓波動(dòng)。

2) 基于DDPG算法實(shí)現(xiàn)了電壓調(diào)控的在線決策。相較于傳統(tǒng)粒子群方法,基于人工智能的策略在應(yīng)對負(fù)荷和可再生能源發(fā)電的不確定性場景時(shí),處理電壓越限問題的性能提升69.33%,具有更好的實(shí)時(shí)性和適應(yīng)性。

3) 通過考慮儲(chǔ)能的動(dòng)態(tài)運(yùn)行特征和容量衰減,較為準(zhǔn)確地模擬了儲(chǔ)能的運(yùn)行。算例驗(yàn)證表明,儲(chǔ)能衰減后期的工作性能較新投運(yùn)時(shí)期有所下降,但所提出的有功無功聯(lián)合調(diào)控策略,在儲(chǔ)能壽命的動(dòng)態(tài)變化過程中仍能保持良好的電壓調(diào)控性能。

本文所提的電壓控制策略僅實(shí)現(xiàn)了電壓波動(dòng)的小時(shí)級控制,將其擴(kuò)展到更短時(shí)間尺度的電壓控制是未來的研究工作之一。另外,基于DRL的電壓控制方法將約束轉(zhuǎn)化為了懲罰項(xiàng),通過約束策略優(yōu)化算法進(jìn)一步地優(yōu)化是本文后續(xù)的研究方向。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放