謝 旭,張 哲,喻 樂,劉秉祺,李彥賓,陳 曦,張庭祥
(1.國家電網(wǎng)有限公司華北分部,北京 100083;2.北京清大科越股份有限公司,北京 100102;3.哈爾濱工業(yè)大學(xué) 電氣工程及自動(dòng)化學(xué)院,黑龍江 哈爾濱 150001)
近年來,由可再生能源組成的混合發(fā)電系統(tǒng)發(fā)展迅速,廣泛應(yīng)用于分時(shí)定價(jià)(Time of Use,TOU)下的工業(yè)用戶[1]??稍偕茉窗l(fā)電的間歇性和不可預(yù)測性會(huì)導(dǎo)致電力系統(tǒng)的運(yùn)行安全問題[2],需要更好地了解可再生能源滲透率下所需的運(yùn)行儲(chǔ)備[3]。儲(chǔ)能系統(tǒng)(Energy Storage System,ESS)通過轉(zhuǎn)移負(fù)荷及平滑需求,可以促進(jìn)可再生能源更好的并網(wǎng),也可以改善供電質(zhì)量、降低電力成本[4]。容量較高的存儲(chǔ)系統(tǒng)可以提供更多的服務(wù)支持,如參與平衡、輔助服務(wù)等,同時(shí)需要為ESS部署各種控制器,如開/閉環(huán)、多智能體系統(tǒng)、優(yōu)化方法等多側(cè)儲(chǔ)能方法[5]。
許多地區(qū)采用動(dòng)態(tài)TOU形式,能源供應(yīng)商通過TOU降低高峰期的需求[6]。通常TOU價(jià)格每年變化不超過兩次,可能有2~3個(gè)價(jià)格水平,例如非高峰期、中高峰期和高峰期。ESS將在實(shí)行動(dòng)態(tài)價(jià)格的住宅區(qū)發(fā)揮重要作用,在低價(jià)期儲(chǔ)存能源,在高價(jià)期使用儲(chǔ)存的能源,降低消費(fèi)者的費(fèi)用。
近年來,ESS的調(diào)度問題引起了研究人員的關(guān)注[7]。C D Korkas[8]提出了基于動(dòng)態(tài)規(guī)劃的ESS運(yùn)行優(yōu)化方法,在不犧牲用戶偏好和滿意度的情況下,獲取最低的能源成本。G Zhang[9]利用隨機(jī)非凸優(yōu)化最小化并網(wǎng)微電網(wǎng)的總體運(yùn)行成本,將非凸隨機(jī)優(yōu)化問題轉(zhuǎn)化為凸優(yōu)化問題進(jìn)行求解。文獻(xiàn)[10]提出了一種隨機(jī)動(dòng)態(tài)規(guī)劃,利用現(xiàn)有的預(yù)測量優(yōu)化儲(chǔ)能系統(tǒng)的運(yùn)行。文獻(xiàn)[11]為儲(chǔ)能業(yè)主制定了一個(gè)隨機(jī)優(yōu)化問題,在市場價(jià)格不確定的情況下實(shí)現(xiàn)套利利潤最大化。這兩項(xiàng)研究均需要預(yù)測電價(jià),然而,很難在實(shí)時(shí)市場中得到準(zhǔn)確的預(yù)測值[12]。
本文基于Q學(xué)習(xí)方法開發(fā)出一種易于實(shí)現(xiàn)的套利政策,以增強(qiáng)儲(chǔ)能系統(tǒng)的價(jià)值積累。在沒有明確假設(shè)分布的情況下,所提出的方法能夠在不斷變化的價(jià)格下運(yùn)行。隨著時(shí)間的推移,通過在不同的實(shí)時(shí)價(jià)格下反復(fù)執(zhí)行充電和放電行為,達(dá)到累積獎(jiǎng)勵(lì)最大化。本文所提出的方法是不需要任何系統(tǒng)模型信息的無模型方法,對于TOU調(diào)度和節(jié)點(diǎn)邊際電價(jià)(LMP)能源套利的組合,遵循通過Q學(xué)習(xí)獲得的政策,極大地降低了多種能源成本。
電力系統(tǒng)的邊際成本往往隨著需求的增加而增加,例如高峰時(shí)的電力需求決定了輸電總?cè)萘?,因此扁平化的電力需求被認(rèn)為是降低電力公司成本的重要因素之一。具有反映需求變化動(dòng)態(tài)價(jià)格的費(fèi)率結(jié)構(gòu),如實(shí)時(shí)定價(jià)(Real Time Pricing,RTP)、日前定價(jià)(Day Ahead Pricing,DAP)和TOU模式,可以通過消費(fèi)者對價(jià)格變化的反應(yīng)來幫助平抑高峰需求,降低電力生產(chǎn)成本。
本文從用戶角度解決實(shí)時(shí)儲(chǔ)能系統(tǒng)充電/放電調(diào)度問題。假設(shè)儲(chǔ)能系統(tǒng)的額定功率為5 kW,額定電池容量為14 kW·h,并假設(shè)儲(chǔ)能沒有退化,調(diào)度效率為100%,充電狀態(tài)(State-of-Charge,SOC)限制為額定電池容量的10%和90%。一個(gè)具有離散時(shí)間步長的有限Markov決策過程可用于描述這個(gè)問題。假設(shè)兩個(gè)相鄰步之間的時(shí)間間隔為0.25 h,在時(shí)間步驟t,觀察系統(tǒng)狀態(tài)s(t),其中包括剩余能量和過去24 h的電價(jià)信息?;谶@些信息,將選擇充電/放電的動(dòng)作a(t)。a(t)代表了儲(chǔ)能系統(tǒng)在這個(gè)時(shí)間間隔內(nèi)將被充電或放電。在執(zhí)行這個(gè)動(dòng)作后,可以觀察到新的系統(tǒng)狀態(tài)s(t+1),并為時(shí)間步驟t+1選擇新的充電/放電動(dòng)作a(t+1)。為防止同時(shí)進(jìn)行充電和放電,或從多個(gè)來源進(jìn)行充電/放電,在t時(shí)刻儲(chǔ)能裝置的充放電策略定義如下:
式中:cm(t)為t時(shí)刻來自LMP的充電功率,當(dāng)a(t)=cm(t)時(shí),表示以當(dāng)前LMP價(jià)格購買能量為ESS充電;cu(t)為t時(shí)刻來自TOU的充電功率,當(dāng)a(t)=cu(t)時(shí),表示以TOU價(jià)格充電;du(t)為t時(shí)刻來自TOU的放電功率,當(dāng)a(t)=du(t)時(shí),表示以TOU價(jià)格放電;dm(t)為t時(shí)刻來自LMP的放電功率,當(dāng)a(t)=dm(t)時(shí),表示以當(dāng)前LMP價(jià)格出售從ESS放出的能量;當(dāng)a(t)=0(t)時(shí),表示ESS既不充電也不放電。
從年初到時(shí)間t的累計(jì)收入V可以定義為
式中:h為數(shù)據(jù)的周期,本文中h=0.25 h;m(Δt),為Δt時(shí)刻LMP;u(Δt)為Δt時(shí)刻TOU;l(Δt)為Δt時(shí)刻負(fù)荷。
對于基于TOU的調(diào)度策略,ESS僅在最低電價(jià)時(shí)以全額額定功率充電,而在最高電價(jià)時(shí)放電。如果最低電價(jià)的時(shí)間段形成了Tlow集,最高電價(jià)的時(shí)間段形成了Thigh集,則累計(jì)收入表達(dá)式如下:
式中:Cmax為最大充電功率;Dmax為最大放電功率。
對于基于LMP的調(diào)度策略,假設(shè)p(t)為t時(shí)刻的LMP,s(t)=dm(t)-cm(t),則累計(jì)收入為如下優(yōu)化問題的解:
式中:Emin為最低限度的SOC;Emax為最大限度的SOC;E(t)為t時(shí)刻儲(chǔ)能的SOC;r(t-1)為前一時(shí)刻的回報(bào)值。
Markov決策過程是一個(gè)五元組[S,A,P.(·,·),R.(·,·),γ],其中,S為系統(tǒng)狀態(tài),A為一個(gè)有限的行動(dòng)集合,P.(·,·)為狀態(tài)轉(zhuǎn)換概率,R.(·,·)為獎(jiǎng)勵(lì),γ為衰減率??紤]到能源的TOU成本、LMP價(jià)格、ESS的SOC狀態(tài)和負(fù)荷情況,采用Q學(xué)習(xí)的方法優(yōu)化ESS調(diào)度行為。
首先,將系統(tǒng)在t時(shí)刻的狀態(tài)定義為向量s(t)=[du(t),E(t),cu(t),l(t)],這包括了4個(gè)部分:TOU,SOC,LMP和負(fù)荷。給定狀態(tài)s(t),a(t)定義為a(t)=[cm(t),dm(t),0(t),cu(t),du(t)]。在每個(gè)動(dòng)作中,ESS試圖以最大的允許速率進(jìn)行充電或放電。在ESS沒有過度/不足充電風(fēng)險(xiǎn)的情況下,即充電/放電不會(huì)導(dǎo)致E(t)超過Emax或低于Emin,那么調(diào)度將以全額定功率5 kW進(jìn)行。
t時(shí)刻,在狀態(tài)s(t)∈δ下采取動(dòng)作a(t)∈A后,為了評價(jià)動(dòng)作的好壞,儲(chǔ)能器將收到一個(gè)獎(jiǎng)勵(lì)。儲(chǔ)能的目的是通過在低價(jià)位充電和在高價(jià)位放電實(shí)現(xiàn)套利利潤最大化。因此,可以將這種獎(jiǎng)勵(lì)定義為
式中:m(t)為LMP的移動(dòng)平均值;上標(biāo)a1,a2,a4,a5表示動(dòng)作只保留當(dāng)前項(xiàng),令其他項(xiàng)為0,這確保了獎(jiǎng)勵(lì)來自于所定義的動(dòng)作域。
式中:η為一種用于決定獎(jiǎng)勵(lì)重要性的參數(shù)。
在給定系統(tǒng)狀態(tài)s(t)條件下,充電/放電調(diào)度質(zhì)量由K個(gè)時(shí)間步長的未來獎(jiǎng)勵(lì)的預(yù)期總和來評價(jià),如下所示:
式中:Qπ(s,a)為動(dòng)作值函數(shù);π為充/放電政策,表示從系統(tǒng)狀態(tài)到一種充/放電調(diào)度的映射;E(·)為計(jì)算期望值;γ為衰減率,0<γ<1,用以平衡當(dāng)前獎(jiǎng)勵(lì)和未來獎(jiǎng)勵(lì)之間的重要性。
調(diào)度問題的目標(biāo)在于尋找一個(gè)最優(yōu)的政策π*,使得動(dòng)作值函數(shù)達(dá)到最大,即:
由于未來的電價(jià)和用戶行為都是未知的,所以很難以解析的方式確定出最優(yōu)政策π*。強(qiáng)化學(xué)習(xí)(RL)的解決方案是根據(jù)Bellman方程迭代式地更新Qπ(s,a)。
隨著迭代次數(shù)i→∞,Q(s,a)將收斂到最優(yōu)動(dòng)作值函數(shù)Q*(s,a)。通過一個(gè)貪婪策略確定最優(yōu)調(diào)度:
Q*(s,a)通常由一個(gè)檢索表來近似。在本文的問題中,電價(jià)是連續(xù)且高維的,需要一個(gè)極其龐大的表來近似Q*(s,a),而更新這樣一個(gè)表是難以做到的。為此,本文利用一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)來近似Q*(s,a),更新公式可以表示為
式中:α為學(xué)習(xí)率;w為網(wǎng)絡(luò)權(quán)重。
在均方誤差條件下,利用梯度下降法更新網(wǎng)絡(luò)參數(shù),可使得動(dòng)作值函數(shù)達(dá)到最優(yōu)。
發(fā)電側(cè)儲(chǔ)能模式需要利用負(fù)荷數(shù)據(jù)、TOU數(shù)據(jù),而電網(wǎng)側(cè)儲(chǔ)能模式涉及到LMP數(shù)據(jù)。負(fù)荷數(shù)據(jù)采集于Pecan Street Dataport數(shù)據(jù)庫,從中獲取一處建筑從2014-07-08T00:00-2015-06-30T23:45的數(shù)據(jù),采樣周期為15 min,負(fù)荷功率和光伏發(fā)電功率分別如圖1(a),(b)所示,TOU數(shù)據(jù)采集自電力公司,如圖1(c)所示。LMP數(shù)據(jù)采集于COVID-EMDA數(shù)據(jù)庫[13],選擇了該時(shí)間段內(nèi)San Diego URBAN-N005節(jié)點(diǎn)的數(shù)據(jù),如圖1(d)所示。
圖1 測試數(shù)據(jù)中微電網(wǎng)出力情況Fig.1 Microgrid power output in test data
為驗(yàn)證本文所提出的方法的有效性,在上述場景下,將所提出的方法分別與TOU策略方法、優(yōu)化的TOU策略方法[14]及LMP策略方法[15]進(jìn)行對比。對于TOU策略,儲(chǔ)能系統(tǒng)僅在最低電價(jià)時(shí)以全額額定功率充電,而在最高電價(jià)時(shí)放電。對于優(yōu)化的TOU策略,儲(chǔ)能系統(tǒng)以減少峰值電費(fèi)和最小化直流電費(fèi)總額為目標(biāo),同時(shí)考慮了電池漏電、轉(zhuǎn)換損失等約束。LMP策略是將現(xiàn)貨市場中的儲(chǔ)能系統(tǒng)建模為馬爾可夫決策過程,并推導(dǎo)出一個(gè)Q-學(xué)習(xí)策略來控制儲(chǔ)能的充電/放電。模型中的衰減率γ=0.99,學(xué)習(xí)率α=0.000 1,訓(xùn)練時(shí)的批次大小為32,隨機(jī)初始化網(wǎng)絡(luò)權(quán)重w,隱層和輸出層的單元數(shù)量分別為64和10,迭代次數(shù)設(shè)置為1 000。
圖2顯示了根據(jù)本文所提出的方法及其他方法所產(chǎn)生的累計(jì)運(yùn)行成本。從圖中可以看出,由Q-學(xué)習(xí)策略所導(dǎo)致的動(dòng)作比TOU策略下的總能源成本有著較大程度上的降低。實(shí)際上,Q-學(xué)習(xí)策略在大多數(shù)情況下選擇用TOU的方式釋放儲(chǔ)能,抵消了負(fù)載的分時(shí)能源成本,而在少數(shù)情況下以LMP的方式出售能源,如圖3所示。由于本文所提出的方法綜合考慮了TOU和LMP,能夠從這兩部分成本中選取較便宜的部分,所以進(jìn)一步降低了能源成本。
圖2 不同方法在測試數(shù)據(jù)上的累積運(yùn)行成本Fig.2 Cumulative operating costs of different scheduling strategies on test data
圖3 本文所提出的方法中Q-學(xué)習(xí)行動(dòng)策略全年的分配Fig.3 Distribution of Q-learning action strategies throughout the year in the proposed method
為了進(jìn)一步研究本文所提方法的性能,圖4展示了負(fù)荷較高的2 d內(nèi)儲(chǔ)能系統(tǒng)調(diào)度??梢钥吹?,在第1天06:00-18:00,儲(chǔ)能系統(tǒng)的能量主要來自于PV發(fā)電,所以儲(chǔ)能系統(tǒng)的充電模式處于0值附近,在夜間受分時(shí)電價(jià)、節(jié)點(diǎn)邊際電價(jià)、光照等因素的影響,儲(chǔ)能系統(tǒng)的能量存儲(chǔ)主要來源于放電模式。在第2天,由于電價(jià)的調(diào)整,06:00-18:00儲(chǔ)能系統(tǒng)的能量來自于PV發(fā)電和放電模式。因此,本文所提出的方法能夠在TOU和節(jié)點(diǎn)邊際電價(jià)較低時(shí)進(jìn)行充電,在分時(shí)電價(jià)和節(jié)點(diǎn)邊際電價(jià)高峰期時(shí)進(jìn)行放電。這些充電/放電模式驗(yàn)證了本文所提出的方法具有降低能源成本的能力。
圖4測試數(shù)據(jù)中負(fù)荷較高的2 d內(nèi)儲(chǔ)能系統(tǒng)調(diào)度結(jié)果Fig.4 Results of energy storage system dispatch during the 2 days of higher load in the test data
本文從用戶的角度出發(fā),將儲(chǔ)能系統(tǒng)調(diào)度問題表述為一個(gè)具有未知過渡概率的Markov決策過程。考慮了TOU調(diào)度和LMP能源套利,提出了一種基于深度強(qiáng)化學(xué)習(xí)的方法來確定實(shí)時(shí)調(diào)度問題的最優(yōu)策略。所提出的方法是一種無模型的方法,不需要任何系統(tǒng)模型信息。在提出的方法中,對于TOU調(diào)度和LMP能源套利的組合,遵循通過Q學(xué)習(xí)獲得的政策,利用不同成本的多種能源,使得能源成本極大地降低。對比結(jié)果表明,所提出的方法優(yōu)于基準(zhǔn)解決方案。此外,所提出的方法可以滿足不同用戶對節(jié)約成本目標(biāo)和減少范圍焦慮目標(biāo)的偏好。