于一瀟,楊佳峻,楊 明,高 源
(1. 山東大學(xué)電網(wǎng)智能化調(diào)度與控制教育部重點(diǎn)實(shí)驗(yàn)室,山東省濟(jì)南市250061;2. 國網(wǎng)陜西省電力公司電力科學(xué)研究院,陜西省西安市710054)
隨著各國電力市場改革的深入,風(fēng)電場作為發(fā)電商在市場內(nèi)追逐自身發(fā)電利潤最大化成為必然趨勢。對于風(fēng)電而言,其輸出具有不確定性[1],如何在風(fēng)電的不確定性條件下從電力市場獲取最大利潤成為風(fēng)力發(fā)電決策與控制的重要問題。
風(fēng)力發(fā)電機(jī)與儲能系統(tǒng)(energy storage system,ESS)合作組成風(fēng)儲混合系統(tǒng)是解決上述問題的有效途徑[2-3]。當(dāng)前已有諸多研究針對儲能系統(tǒng)在風(fēng)電不確定性條件下的控制問題取得了進(jìn)展。文獻(xiàn)[4]提出了抽水蓄能電站控制的機(jī)會約束優(yōu)化模型,以緩解風(fēng)電場與抽水蓄能電站集成功率的波動,該模型中,風(fēng)電功率預(yù)測誤差服從正態(tài)分布。文獻(xiàn)[5]通過離散傅里葉變換和離散小波變換將風(fēng)電預(yù)測誤差分解為不同周期的信號,提高了儲能系統(tǒng)和常規(guī)機(jī)組的經(jīng)濟(jì)效益。文獻(xiàn)[6]認(rèn)為風(fēng)電的波動特征隨輸出功率的大小而顯著變化,并提出一種通用的概率分布來描述風(fēng)電不確定性。文獻(xiàn)[7]將強(qiáng)化學(xué)習(xí)理論引入風(fēng)儲合作決策中,建立了基于Qlearning 算法的兩階段學(xué)習(xí)模型。所訓(xùn)練的控制器能一定程度上消納風(fēng)電的不確定性,具有啟發(fā)意義。
針對在風(fēng)電不確定性條件下風(fēng)電場儲能系統(tǒng)的優(yōu)化控制,當(dāng)前研究遵循預(yù)測、決策相分離的調(diào)度模式,需要描述風(fēng)電功率的預(yù)測結(jié)果。然而,用確定形式[8]、區(qū)間形式[9]、概率形式[10]、概率區(qū)間形式[11]來表達(dá)預(yù)測結(jié)果,都難以把數(shù)據(jù)中蘊(yùn)含的決策信息完整地表述并提供給決策者,會存在信息的損失,影響決策效果。尤其風(fēng)電的不確定性規(guī)律需要人為刻畫以匹配數(shù)學(xué)優(yōu)化算法,然而描述結(jié)果與實(shí)際的風(fēng)電不確定性規(guī)律存在差異,降低了優(yōu)化結(jié)果在實(shí)際問題中的可行性[12]。其次,對不確定性的處理增加了決策階段的困難(通常包含:有限的計算資源和存儲空間、較長的計算時間成本),區(qū)間優(yōu)化、魯棒優(yōu)化、隨機(jī)優(yōu)化、隨機(jī)魯棒優(yōu)化的決策方法都難以動態(tài)、實(shí)時地得到有效的決策結(jié)果。
深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning)集成了強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)。強(qiáng)化學(xué)習(xí)善于解決連續(xù)決策問題,能在動態(tài)、不確定環(huán)境中通過反復(fù)試錯探索的方式實(shí)現(xiàn)既定的長期目標(biāo)[13]。深度學(xué)習(xí)能從高維度、連續(xù)的狀態(tài)空間中提取高階數(shù)據(jù)特征,其對含不確定性的風(fēng)電場狀態(tài)空間的表達(dá)能力以及特征挖掘能力已經(jīng)在風(fēng)電預(yù)測領(lǐng)域中得到證明[14-16]。因此,深度強(qiáng)化學(xué)習(xí)能應(yīng)對含不確定性的高維度狀態(tài)空間并直接建立、優(yōu)化從狀態(tài)到動作指令的映射關(guān)系[17],這為風(fēng)電場儲能系統(tǒng)調(diào)度提供了新思路。
本文提出基于深度強(qiáng)化學(xué)習(xí)的風(fēng)電場儲能系統(tǒng)預(yù)測決策一體化調(diào)度方法,令包含高維度原始?xì)庀髷?shù)據(jù)的風(fēng)電場狀態(tài)直接驅(qū)動儲能系統(tǒng)的控制。端到端(end-to-end)的一體化調(diào)度模式能最大限度地避免風(fēng)電場中有效決策依據(jù)(包括風(fēng)電不確定性規(guī)律)的損失,提升調(diào)度結(jié)果的可參考性。其次,將深度強(qiáng)化學(xué)習(xí)Rainbow 算法用于儲能系統(tǒng)的優(yōu)化控制,建立的儲能系統(tǒng)控制器具備動態(tài)統(tǒng)籌多時段系統(tǒng)收益的能力,能最大化風(fēng)電場的長期收益。
電力市場環(huán)境下,風(fēng)電場以最大化從市場中獲得的收益為目標(biāo)安排儲能系統(tǒng)的充放電功率[18]。
預(yù)測、決策相分離的儲能系統(tǒng)調(diào)度模式如附錄A 圖A1 所示。在該模式中,風(fēng)電場預(yù)測系統(tǒng)的輸入通常包含t 時刻風(fēng)力發(fā)電機(jī)的實(shí)時及歷史輸出功率和風(fēng)電場實(shí)時、歷史甚至預(yù)測的氣象數(shù)據(jù)(風(fēng)速、風(fēng)向、溫度、氣壓等),輸出是下一調(diào)度時刻(t+1 時刻)風(fēng)力發(fā)電機(jī)的功率預(yù)測值。在得到預(yù)測結(jié)果后,風(fēng)電場的儲能控制器以、儲能系統(tǒng)荷電狀態(tài)(state of charge,SOC)和前瞻售電價格作為決策依據(jù),輸出儲能系統(tǒng)的動作指令PESS,t+1。
傳統(tǒng)調(diào)度模式存在預(yù)測、決策2 個獨(dú)立階段,每個階段是一個獨(dú)立的任務(wù)。預(yù)測結(jié)果的質(zhì)量將直接影響到?jīng)Q策過程,進(jìn)而影響整體調(diào)度效果。
本文提出的預(yù)測決策一體化調(diào)度模式將2 個獨(dú)立的階段合二為一,形成端到端的調(diào)度模式,如圖1所示。
圖1 預(yù)測決策一體化的儲能系統(tǒng)調(diào)度模式Fig.1 Prediction and decision integrated scheduling mode for energy storage system
在預(yù)測決策一體化調(diào)度模式中,t 時刻的實(shí)時及歷史風(fēng)電功率以及風(fēng)電場實(shí)時、歷史、預(yù)測的氣象數(shù)據(jù)和儲能系統(tǒng)狀態(tài)數(shù)據(jù)等都被作為決策依據(jù)輸入到控制器中,控制器在大量的決策依據(jù)中自動提取有益于提高售電收益的數(shù)據(jù)特征,進(jìn)而直接給出下一時刻儲能系統(tǒng)的動作指令PESS,t+1。整個調(diào)度可描述為一個連續(xù)且動態(tài)的馬爾可夫決策過程。
調(diào)度結(jié)束后,風(fēng)電場在t+1 時刻向電網(wǎng)注入的功率Psys,t+1為:
式中:Pw,t+1為t+1 時刻風(fēng)力發(fā)電機(jī)的實(shí)際輸出功率;PESS,t+1為正值表示儲能系統(tǒng)處于放電狀態(tài),負(fù)值表示儲能系統(tǒng)處于充電狀態(tài)。
預(yù)測、決策分離時,預(yù)測階段使用自身配備的預(yù)測算法,而優(yōu)化算法的優(yōu)化對象局限于決策階段,2 個階段同屬一個調(diào)度流程卻并無合作。其次,僅預(yù)測功率難以表征風(fēng)電的不確定性。數(shù)學(xué)優(yōu)化算法通常會額外要求將風(fēng)電的不確定性描述成各類已知的概率分布。概率分布與實(shí)際風(fēng)電不確定性規(guī)律的匹配程度影響優(yōu)化算法的實(shí)際效果。預(yù)測、決策分離時儲能系統(tǒng)優(yōu)化控制的一般流程如附錄A 圖A2所示。
在預(yù)測決策一體化調(diào)度模式下,利用深度強(qiáng)化學(xué)習(xí)算法能端對端地優(yōu)化整個調(diào)度流程。風(fēng)電場的狀態(tài)空間包含了風(fēng)電不確定性等高階數(shù)據(jù)特征,作為決策依據(jù),避免了信息損失,具體如圖2 所示。
圖2 基于深度強(qiáng)化學(xué)習(xí)的儲能系統(tǒng)優(yōu)化控制Fig.2 Optimization control of energy storage system based on deep reinforcement learning
基于深度強(qiáng)化學(xué)習(xí)的儲能系統(tǒng)優(yōu)化控制由2 個環(huán)節(jié)組成:學(xué)習(xí)環(huán)節(jié)和應(yīng)用環(huán)節(jié)。學(xué)習(xí)環(huán)節(jié)為基于歷史數(shù)據(jù)與Rainbow 算法的離線訓(xùn)練過程,目的是不斷更新控制器參數(shù)(即優(yōu)化狀態(tài)與動作指令之間的映射關(guān)系)。學(xué)習(xí)環(huán)節(jié)結(jié)束后,將收斂的控制器參數(shù)拷貝到應(yīng)用環(huán)節(jié),應(yīng)用環(huán)節(jié)不再對控制器進(jìn)行優(yōu)化,而是讓其專注于獲取最高的調(diào)度收益。
將深度強(qiáng)化學(xué)習(xí)作為預(yù)測決策一體化調(diào)度模式下的隨機(jī)優(yōu)化算法,其優(yōu)勢如下。
1)深度強(qiáng)化學(xué)習(xí)能天然應(yīng)對不確定性,且具備應(yīng)對高維度狀態(tài)空間的能力。
2)深度強(qiáng)化學(xué)習(xí)善于應(yīng)對連續(xù)控制問題并注重當(dāng)前決策對未來的影響。所建模型可以統(tǒng)籌多時段系統(tǒng)收益,最大化風(fēng)電場的長期收益。
3)學(xué)習(xí)環(huán)節(jié)的訓(xùn)練時間不影響應(yīng)用環(huán)節(jié)中控制器的決策過程,而應(yīng)用環(huán)節(jié)就是實(shí)例的函數(shù)代入過程,決策時間幾乎可以忽略。
強(qiáng)化學(xué)習(xí)的基本原理是不斷鼓勵智能體(控制器)以更高的概率輸出可以帶來高回報的可行動作。智能體本質(zhì)上是一個從狀態(tài)空間S 到動作空間A 的映射關(guān)系。通過對外部環(huán)境的試錯探索(即提升外部環(huán)境返回的獎勵rt),強(qiáng)化學(xué)習(xí)直接優(yōu)化智能體內(nèi)部的映射關(guān)系,無須考慮狀態(tài)st與動作at之間的物理機(jī)理。強(qiáng)化學(xué)習(xí)基本流程如附錄A 圖A3所示。
在傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法中,映射關(guān)系通常用二維表格的形式表達(dá),很難直接表征并處理連續(xù)的輸入變量,必須對連續(xù)的狀態(tài)空間進(jìn)行離散、降維才能與算法匹配[19],造成不必要的信息損失。文中將深度強(qiáng)化學(xué)習(xí)Rainbow 算法應(yīng)用到風(fēng)電場的控制中,令控制器可以處理一體化調(diào)度模式下連續(xù)且高維度的風(fēng)電場狀態(tài)空間。
Rainbow 算法的基礎(chǔ)框架是深度Q 網(wǎng)絡(luò)(deeplearning Q network,DQN)[20]。因此,本章首先介紹DQN 算法,然后在其基礎(chǔ)上闡述本文所用Rainbow算法的構(gòu)架和優(yōu)勢。
DQN 算法中,從狀態(tài)空間到動作空間的映射關(guān)系被分為以下兩部分:從輸入狀態(tài)到Q 值的映射關(guān)系與動作選擇策略。Q 值的含義為:在經(jīng)歷無數(shù)次試驗(yàn)后動作所獲得積累獎勵的折扣期望值。動作選擇策略根據(jù)Q 值確定最終的輸出動作。已有研究表明,Q 值的引入讓該類算法在處理存在不確定性的決策問題上具有優(yōu)勢[7]。DQN 使用深度神經(jīng)網(wǎng)絡(luò)來擬合從輸入狀態(tài)到Q 值的映射關(guān)系,使得控制器可以處理連續(xù)的狀態(tài)空間。
擬合從輸入狀態(tài)到Q 值的映射關(guān)系的神經(jīng)網(wǎng)絡(luò)被稱為評價網(wǎng)絡(luò)(evaluation network)。DQN 的每一次學(xué)習(xí)過程可大致分為Q 值迭代和評價網(wǎng)絡(luò)訓(xùn)練2 個過程。其中,Q 值迭代規(guī)則如下。
式中:Q(st,at;θt)為經(jīng)評價網(wǎng)絡(luò)得出的在狀態(tài)st下動作at的Q 值;θt為評價網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù);θ-為目標(biāo)網(wǎng)絡(luò)(target network)的網(wǎng)絡(luò)參數(shù);α 為學(xué)習(xí)率;γ 為衰減系數(shù)。目標(biāo)網(wǎng)絡(luò)是評價網(wǎng)絡(luò)在學(xué)習(xí)過程中的階段性復(fù)制品,2 個神經(jīng)網(wǎng)絡(luò)共同完成Q 值的迭代,使迭代過程更加穩(wěn)定,提升算法的收斂性。
在Q 值迭代完畢后,DQN 根據(jù)迭代前后Q 值的差來訓(xùn)練評價網(wǎng)絡(luò),該差值被稱為時間差分偏差,表達(dá)式為:
式中:T 為時間差分偏差值。
評價網(wǎng)絡(luò)訓(xùn)練過程中的損失函數(shù)L(θt)為:
神經(jīng)網(wǎng)絡(luò)的訓(xùn)練(即深度學(xué)習(xí))要求輸入樣本之間相互獨(dú)立,然而馬爾可夫決策過程只能產(chǎn)生連續(xù)的過程化樣本。為此,DQN 設(shè)置以回放緩存(replay buffer)為主的經(jīng)驗(yàn)回放機(jī)制來打亂過程化樣本。
DQN 算法在收斂性、收斂速度和最終控制效果等方面仍然存在諸多不足。為提升該算法的性能,DQN 的各種改進(jìn)算法被陸續(xù)提出。文獻(xiàn)[21]提出的Rainbow 算法是一種以DQN 算法為框架、將各種改進(jìn)算法融合的組合算法,其優(yōu)勢是使用者可針對不同的應(yīng)用場景自主添加所需要的改進(jìn)算法。
Rainbow 算法架構(gòu)如附錄A 圖A4 所示,將優(yōu)先回放緩存機(jī)制(prioritized replay buffer)[22]、雙Q 學(xué)習(xí)(double Q-learning)[23]、競 爭 網(wǎng) 絡(luò)(dueling network)[24]這3 類 改 進(jìn) 算 法 和 輟 學(xué) 層(dropout layer)[25]技術(shù)集成到DQN 中,以提升控制器在本文應(yīng)用背景下的表現(xiàn)。
1)優(yōu)先回放緩存機(jī)制
DQN 算法中,回放緩存機(jī)制等概率隨機(jī)地提取樣本并用于評價網(wǎng)絡(luò)的訓(xùn)練,未能衡量樣本的質(zhì)量,使得評價網(wǎng)絡(luò)的訓(xùn)練效率較低。而優(yōu)先回放緩存機(jī)制根據(jù)每個樣本的時間差分偏差來確定其被采樣的概率,如式(5)所示。
式中:Psam,t為樣本被采樣到的概率;ω 為用于調(diào)整時間差分偏差對采樣概率的影響程度,即影響因子。
在優(yōu)先回放緩存機(jī)制中,更頻繁地提取時間差分偏差值較大的樣本,顯著加快了算法的收斂速度,減少評價網(wǎng)絡(luò)收斂所需要的樣本數(shù)量。
2)雙Q 學(xué)習(xí)
在DQN 算法中,迭代后收斂的Q 值往往被高估。當(dāng)過估計量非均勻時,收斂后的映射關(guān)系將不是最優(yōu)狀態(tài)。雙Q 學(xué)習(xí)利用已有的2 個神經(jīng)網(wǎng)絡(luò)來改進(jìn)Q 值的迭代規(guī)則,緩解了過估計現(xiàn)象。迭代過程中時間差分偏差的計算過程變更為:
在本文背景下,雙Q 學(xué)習(xí)的引入優(yōu)化了動作空間中Q 值的分布,避免了次優(yōu)控制策略的形成,進(jìn)一步提升控制器為風(fēng)電場帶來的收益。
3)競爭網(wǎng)絡(luò)
競爭網(wǎng)絡(luò)對評價網(wǎng)絡(luò)的輸出層進(jìn)行改進(jìn),使得Q 值能表示為更加細(xì)致的形式。改進(jìn)后的評價網(wǎng)絡(luò)有2 個輸出分支,分別輸出當(dāng)前狀態(tài)的價值v(st)和該狀態(tài)下每個動作與狀態(tài)相比的優(yōu)勢值A(chǔ)(st,at)。最終輸出的Q 值計算式為:
式中:|A|為動作空間中可行動作的個數(shù)。
從狀態(tài)到動作的映射關(guān)系較為復(fù)雜,過多的可行動作和約束條件會減緩、阻礙映射關(guān)系的收斂。引入競爭網(wǎng)絡(luò)能改善算法的收斂性并提升收斂速度。
4)輟學(xué)層
在應(yīng)用環(huán)節(jié)中,控制器需要應(yīng)對有別于歷史數(shù)據(jù)的實(shí)時風(fēng)電場狀態(tài),因此,有必要提高控制器對輸入數(shù)據(jù)的泛化能力。本文利用輟學(xué)層技術(shù)來減緩評價網(wǎng)絡(luò)對歷史數(shù)據(jù)的過擬合。
動作選擇策略根據(jù)所有可行動作的Q 值來選取最終的動作并作為控制器的輸出指令。ε 貪婪策略為最普遍的動作選擇策略,如式(8)所示。
將第2 章所述的深度強(qiáng)化學(xué)習(xí)算法應(yīng)用到風(fēng)電場儲能系統(tǒng)預(yù)測決策一體化調(diào)度時,需要確定該應(yīng)用背景下控制器(智能體)的狀態(tài)空間、動作空間以及外部環(huán)境返回的獎勵值。
風(fēng)電場的狀態(tài)空間S 由前瞻電價λt+1、上一個調(diào)度時段結(jié)束后儲能系統(tǒng)存儲的電量值Et以及風(fēng)電場的測量數(shù)據(jù)組成,如式(9)所示:
在預(yù)測決策一體化調(diào)度模式下,控制器直接輸出t+1 時刻儲能系統(tǒng)需要完成的動作指令。因此,動作空間A 由儲能系統(tǒng)的充放電功率值PESS,t+1的n 個等離散量ai組成,表達(dá)式為:
針對不同的風(fēng)電場狀態(tài),控制器動態(tài)地在動作空間中選擇能使風(fēng)電場所獲長期收益最高的動作。
在學(xué)習(xí)環(huán)節(jié)中,深度強(qiáng)化學(xué)習(xí)算法需要根據(jù)外部環(huán)境返回的獎勵值來確定控制器參數(shù)的更新方向與幅度。本文中,外部環(huán)境指電力市場環(huán)境下風(fēng)電場收益的結(jié)算機(jī)制;獎勵是風(fēng)電場調(diào)度所獲得的調(diào)度收益,計算式為:
式中:Ct+1為風(fēng)電場因儲能系統(tǒng)運(yùn)行狀態(tài)越限而支付的懲罰費(fèi)用。在深度強(qiáng)化學(xué)習(xí)中,用以更新控制器參數(shù)的獎勵值被定義為一個與當(dāng)前所處狀態(tài)和所選取動作有關(guān)的隨機(jī)值,這與因風(fēng)電不確定性而導(dǎo)致的具有隨機(jī)性的調(diào)度收益天然匹配。
控制器根據(jù)當(dāng)前的風(fēng)電場狀態(tài)指導(dǎo)儲能系統(tǒng)未來1 h 內(nèi)的動作,該調(diào)度過程每小時進(jìn)行一次??刂破髅恳淮蝿幼鞯哪繕?biāo)是最大化風(fēng)電場的長期收益,目標(biāo)函數(shù)為:
式中:γ 為衰減系數(shù)。
儲能系統(tǒng)的調(diào)節(jié)能力受其運(yùn)行約束的限制。本文以蓄電池組作為儲能元件。儲能系統(tǒng)的充放電功率可進(jìn)一步表示為:
式中:Emax和Emin分別為儲能系統(tǒng)允許的最大和最小存儲電量值。
在當(dāng)前工作中,為減少儲能系統(tǒng)的運(yùn)行損耗,儲能系統(tǒng)每24 h 為一個調(diào)度周期,儲能系統(tǒng)具有以下周期運(yùn)行約束。
3)控制周期末時段電量約束
式中:E24為儲能系統(tǒng)在一個控制周期結(jié)束后儲能系統(tǒng)中存儲的電量值;Eend為儲能系統(tǒng)在進(jìn)入下一個控制周期時要求的存儲電量值,是一個固定值。該約束保證了儲能系統(tǒng)能長期具備對風(fēng)電場收益的調(diào)節(jié)能力。
4)儲能系統(tǒng)充放電狀態(tài)轉(zhuǎn)換次數(shù)約束
式中:YESS,t值為0 表示t 時段與t-1 時段的充放電狀態(tài)相同,值為1 表示狀態(tài)發(fā)生了變化。
在調(diào)度過程中,若儲能系統(tǒng)對式(19)和式(20)約束越限,風(fēng)電場將根據(jù)越限程度來支付懲罰費(fèi)用,懲罰費(fèi)用計算如下。
1)違反控制周期末時段電量約束
違反該約束后,風(fēng)電場以Eend與E24之間的差值為依據(jù)支付懲罰費(fèi)用,表達(dá)式為:
2)違反儲能系統(tǒng)充放電狀態(tài)轉(zhuǎn)換次數(shù)約束
違反該約束后,風(fēng)電場以實(shí)際轉(zhuǎn)換次數(shù)與最大允許轉(zhuǎn)換次數(shù)的差值為依據(jù)支付懲罰費(fèi)用,表達(dá)式為:
基于Rainbow 算法的優(yōu)化控制流程(包含學(xué)習(xí)環(huán)節(jié)與應(yīng)用環(huán)節(jié))及其實(shí)現(xiàn)方法見附錄B。
本文以中國江蘇省某裝機(jī)容量為50 MW 的風(fēng)電場為例,對所提方法進(jìn)行分析和驗(yàn)證。風(fēng)電場配備的蓄電池組參數(shù)如附錄A 表A1 所示。儲能系統(tǒng)在每個調(diào)度周期中充放電狀態(tài)允許的最大轉(zhuǎn)換次數(shù)為18 次,2 類系統(tǒng)越限后的懲罰費(fèi)用系數(shù)均取1 000 元/MW。
風(fēng)電場狀態(tài)空間由前瞻電價λt+1、上一個調(diào)度時段結(jié)束后儲能系統(tǒng)存儲的電量值Et以及實(shí)時的風(fēng)電場測量數(shù)據(jù)組成。測量數(shù)據(jù)包含:實(shí)時的測風(fēng)塔10、30、50、70 m 處風(fēng)速,輪轂高度的風(fēng)速,測風(fēng)塔10、30、50、70 m 處風(fēng)向,輪轂高度的風(fēng)向,風(fēng)電場氣壓,濕度以及風(fēng)力發(fā)電機(jī)的實(shí)時輸出功率和15 min前的歷史輸出功率。整個狀態(tài)空間由16 維數(shù)據(jù)組成。各時段的售電電價如附錄A 表A2 所示。
動作空間中,儲能系統(tǒng)的充放電功率被等間隔地離散為31 個動作,即{-7.5,-7.0,…,0,…,7.0,7.5}。
評價網(wǎng)絡(luò)結(jié)構(gòu)如附錄A 圖A5 所示,該結(jié)構(gòu)為含2 個隱藏層的全連接神經(jīng)網(wǎng)絡(luò),輸出層為競爭網(wǎng)絡(luò)結(jié)構(gòu)。神經(jīng)元的激活函數(shù)為ReLU(rectified linear unit)函數(shù)。評價網(wǎng)絡(luò)輸入層的神經(jīng)元個數(shù)與狀態(tài)空間的維度相等,輸出層的神經(jīng)元個數(shù)與動作空間中可行動作的數(shù)量相等。
在評價網(wǎng)絡(luò)的訓(xùn)練過程中,學(xué)習(xí)率α 取0.001;輟學(xué)層中的丟棄率取0.7;經(jīng)驗(yàn)回放機(jī)制的樣本存儲量為3 000;時間差分偏差對取樣概率的影響因子ω為0.6;每次小批量采樣的規(guī)模為32;目標(biāo)網(wǎng)絡(luò)的更新間隔N 取300;獎勵衰減系數(shù)γ 取0.9;ε 貪婪策略中ε 取0.1。
風(fēng)電場收益隨風(fēng)電功率的波動而波動。風(fēng)電場平均收益隨控制器歷經(jīng)樣本數(shù)量增加的變化曲線如圖3 所示。圖中藍(lán)色曲線表示學(xué)習(xí)環(huán)節(jié)初期的樣本積累階段,該階段中控制器經(jīng)歷樣本的數(shù)量等于經(jīng)驗(yàn)回放機(jī)制的樣本存儲容量(3 000)。在樣本積累階段中,由于樣本的數(shù)量不足,Q 值的迭代和評價網(wǎng)絡(luò)的訓(xùn)練未能被執(zhí)行,造成該階段的收益較低且無上升趨勢。樣本積累完畢后,從狀態(tài)空間到動作空間的映射關(guān)系被持續(xù)優(yōu)化,風(fēng)電場的收益也隨著歷經(jīng)樣本的增加而有一個明顯的上升階段并隨后達(dá)到穩(wěn)定,該階段平均收益為6 724.4 元/h。
圖3 風(fēng)電場平均收益變化曲線Fig.3 Variation curve of average profit of wind farm
學(xué)習(xí)環(huán)節(jié)中風(fēng)電場因儲能系統(tǒng)狀態(tài)越限而支付的懲罰費(fèi)用如圖4 所示。與風(fēng)電場的收益相對應(yīng),懲罰費(fèi)用也在波動中隨歷經(jīng)樣本的增加而減少并最終達(dá)到一個穩(wěn)定的波動范圍。
圖4 懲罰費(fèi)用變化曲線Fig.4 Variation curve of penalty cost
風(fēng)電場所獲收益、所支付的懲罰費(fèi)用皆已趨于穩(wěn)定,這代表評價網(wǎng)絡(luò)的參數(shù)已收斂,可以被投入到模擬風(fēng)電場實(shí)際運(yùn)行場景的應(yīng)用環(huán)節(jié)。
應(yīng)用環(huán)節(jié)使用該風(fēng)電場中一組新的、時長為4 000 h 的測量數(shù)據(jù)來搭建控制器的在線運(yùn)行環(huán)境。在學(xué)習(xí)環(huán)節(jié)中收斂的評價網(wǎng)絡(luò)與貪婪策略組成了應(yīng)用環(huán)節(jié)中的控制器。貪婪策略讓控制器每次都選擇選擇Q 值最大的動作值作為輸出指令,以獲得最高的收益回報。風(fēng)電場在應(yīng)用環(huán)節(jié)中經(jīng)調(diào)度所獲得的平均收益增至7 207.6 元/h。
儲能系統(tǒng)的波動曲線如圖5 所示。可以看到,儲能系統(tǒng)中存儲的電量值能始終保持在適中的狀態(tài),避免了因電量達(dá)到存儲的上下限而致使儲能系統(tǒng)失去調(diào)節(jié)能力的情況。
圖5 儲能系統(tǒng)內(nèi)電量的變化曲線Fig.5 Variation curve of electricity in ESS
為進(jìn)一步說明所提方法的有效性,本文對預(yù)測、決策相分離的傳統(tǒng)調(diào)度方法進(jìn)行了比較分析,具體描述如下。
在預(yù)測階段,風(fēng)電場高維度的狀態(tài)空間在經(jīng)相關(guān)性分析、風(fēng)電預(yù)測算法后得到前瞻的風(fēng)電功率預(yù)測值。本文將功率預(yù)測值的平均絕對誤差(mean absolute error,MAE)作為預(yù)測階段的評價指標(biāo)。
在決策階段,控制器以風(fēng)電功率預(yù)測值為決策依據(jù)來決策下一時刻儲能系統(tǒng)的充放電功率值。在該階段,風(fēng)電不確定性體現(xiàn)在風(fēng)電功率的預(yù)測誤差上。分別使用Rainbow 算法和基于場景的隨機(jī)規(guī)劃(scenario-based stochastic programming,SSP)算法優(yōu)化決策階段的控制策略。優(yōu)化過程中,Rainbow算法從風(fēng)電功率的歷史數(shù)據(jù)中挖掘不確定性規(guī)律進(jìn)而優(yōu)化策略;而在基于場景的隨機(jī)優(yōu)化過程中,風(fēng)電功率的預(yù)測誤差被假設(shè)服從正態(tài)分布N(μ,σ2),并取系數(shù)μ=0,σ=0.1yt,其中yt為t 時刻風(fēng)電功率的預(yù)測值[26]。表1 給出了風(fēng)電場經(jīng)歷4 000 h 運(yùn)營后多種情況下的調(diào)度收益。
表1 多種情況下風(fēng)電場的平均收益Table 1 Average profits of wind farm under different conditions
通過對比工況1 至6 或工況3 至6 可知,與傳統(tǒng)調(diào)度模式相比,預(yù)測決策一體化調(diào)度模式能為風(fēng)電場帶來更高收益。一體化調(diào)度模式避免了因風(fēng)電預(yù)測階段而導(dǎo)致的決策信息的破壞與丟失,優(yōu)化過程能充分利用蘊(yùn)含在風(fēng)電場高維度原始數(shù)據(jù)中完整的決策信息對控制器參數(shù)進(jìn)行優(yōu)化。
通過對比工況1 和2 或工況3 和4 可得:與數(shù)學(xué)優(yōu)化算法相比,深度強(qiáng)化學(xué)習(xí)Rainbow 算法能更好地應(yīng)對風(fēng)電不確定性,優(yōu)化結(jié)果更具經(jīng)濟(jì)性。原因在于:深度強(qiáng)化學(xué)習(xí)能使所建立的控制器可以很容易地統(tǒng)籌多時段系統(tǒng)的收益且無須人為假設(shè)風(fēng)電的不確定性。
工況5 將風(fēng)電的歷史真值作為決策依據(jù),給出該風(fēng)電場理論上能達(dá)到的最高收益值。
綜上,基于深度強(qiáng)化學(xué)習(xí)Rainbow 算法的預(yù)測決策一體化調(diào)度(工況6)兼具一體化調(diào)度模式和深度強(qiáng)化學(xué)習(xí)算法的2 種優(yōu)勢,所獲調(diào)度收益也處于各種情況中的最高水平。
本文提出基于深度強(qiáng)化學(xué)習(xí)的風(fēng)電場儲能系統(tǒng)預(yù)測決策一體化調(diào)度方法,以提升風(fēng)電場在電力市場環(huán)境下的調(diào)度收益,結(jié)論如下。
1)提出預(yù)測決策一體化調(diào)度模式,通過將風(fēng)電功率預(yù)測、儲能系統(tǒng)動作決策2 個分離的階段相融合,最大限度地避免了有效決策依據(jù)的丟失。
2)引入深度強(qiáng)化學(xué)習(xí)Rainbow 算法優(yōu)化一體化調(diào)度模式下端到端的控制策略,所訓(xùn)練的控制器能動態(tài)地統(tǒng)籌多時段的系統(tǒng)收益。
3)通過與傳統(tǒng)調(diào)度模式和數(shù)學(xué)優(yōu)化算法的比較分析,表明本文方法能在風(fēng)電不確定性條件下為風(fēng)電場帶來更高的調(diào)度收益。
本文的外部模型較為簡單,在后續(xù)研究中,將致力于建立更接近真實(shí)電力市場的復(fù)雜外部環(huán)境并用于測試本文所提方法的泛化能力,這對將所提方法推廣至實(shí)際應(yīng)用十分重要。此外,本文所用Rainbow 算法屬于基于值函數(shù)的深度強(qiáng)化學(xué)習(xí)算法,希望在后續(xù)研究中,將基于策略梯度的深度強(qiáng)化學(xué)習(xí)算法應(yīng)用到風(fēng)儲控制中,實(shí)現(xiàn)輸出動作的連續(xù)化。
附錄見本刊網(wǎng)絡(luò)版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網(wǎng)絡(luò)全文。