徐弘升,陸繼翔,2,楊志宏,2,李 昀,陸進軍,2,黃 華,2
(1. 南瑞集團有限公司(國網電力科學研究院有限公司),江蘇省南京市 211106;2. 智能電網保護與運行控制國家重點實驗室,江蘇省南京市 211106)
在大規(guī)??稍偕茉唇尤腚娋W以及電力市場化改革不斷深化的背景下,需求響應(demand response,DR)正向著常態(tài)化、多元化和精細化發(fā)展[1-3]。隨著售電側市場逐步開放[4],出現(xiàn)了售電商、集成商等多元化的參與主體,它們與用戶簽訂協(xié)議,把大量分散負荷整合成可控容量巨大的聚合負荷,以此參與電力市場環(huán)境下的DR,實現(xiàn)與用戶的雙贏[5-7]。DR 分為價格型和激勵型2 類[8-9],價格型DR 通過時變電價來引導用戶調整用電行為,而激勵型DR 則通過補貼或折扣來鼓勵用戶削減用電量[2]。相比于價格型DR,激勵型DR 對于售電商來說實施起來更加靈活[10],對于用戶來說也更有吸引力[11-12]。
國內外對激勵型DR 的運行機理、決策優(yōu)化、收益評價等方面進行了大量研究。文獻[13]提出適用于離散制造型工業(yè)負荷的激勵型DR,基于混合整數(shù)線性規(guī)劃建模并求解。文獻[14]基于主從博弈模型對激勵型DR 建模并求解。上述文獻采用規(guī)劃或博弈等傳統(tǒng)方法,屬于基于模型(model-based)的方法,其依賴于精心設計的模型,需要已知全部或者大部分的環(huán)境信息,算法復雜,可擴展性和靈活性不高。
在DR 模型中,對用戶響應度的準確建模非常關鍵[2]。對于價格型和激勵型DR,可以采用電力需求價格彈性來定量描述用戶的響應度[15-17]。文獻[18]提出了申報負荷彈性化修正方法,并基于此建立了用戶報量不報價模式下電力現(xiàn)貨市場DR 模型。文獻[19]應用電量電價彈性矩陣對用戶側進行建模,并進一步構建了售電公司日前小時電價決策模型。
強化學習(reinforcement learning,RL)作為機器學習的范式之一[20],已經被廣泛應用于DR 優(yōu)化決策問題[21-23]。文獻[23]應用Q 學習求解微電網動態(tài)定價優(yōu)化問題,但使用的是查表(Q-table)法,隨著問題規(guī)模的增長容易出現(xiàn)維數(shù)災難[24]。文獻[25]基于價格彈性系數(shù)建立用戶響應模型,使用深度神經網絡(deep neural network,DNN)預測用戶負荷和批發(fā)市場電價,應用Q 學習求解激勵型DR 的最優(yōu)決策;但其使用的仍然是Q-table 法,并且在制定策略時只考慮了當前單次響應的收益最大化,而忽略了前次響應對當前響應的影響。文獻[26]建立了一種考慮售電商長期收益最大化的激勵型DR 模型,并使用淺層神經網絡逼近Q 值函數(shù)。
深度RL(deep RL,DRL)是人工智能領域的研究熱點之一[27],已經在電腦游戲和圍棋等復雜決策應用場景中獲得了成功[28-29]。深度Q 學習網絡(deep Q-learning network,DQN)[28]作為DRL 領域重要的開創(chuàng)性工作,引起了眾多研究團隊的關注,得到了持續(xù)的擴展和完善[30]。本文基于一種分層電力市場環(huán)境下綜合考慮售電商和用戶收益的激勵型DR,借助時間-價格彈性系數(shù),改進了用戶響應模型,考慮了前次響應對當前響應的影響,建立了相應的馬爾可夫決策過程模型,設計了基于DQN 求解的算法,以離線學習在線評估的方式,實現(xiàn)了激勵型DR 的最優(yōu)決策。通過對算例的求解證明了模型的合理性和算法的有效性。
本文基于分層電力市場構建激勵型DR 模型。如圖1 所示,在該分層電力市場架構中,售電商一方面通過發(fā)布激勵措施引導用戶積極參與DR;另一方面通過參與電力批發(fā)市場(主要是現(xiàn)貨市場)的競價出售聚合資源(如電能削減),以此獲得自身的收益。因此,作為一個營利性組織,售電商通過尋求最優(yōu)的激勵價格,達到最大化自身收益的目的,可表示為如下的優(yōu)化問題。
式中:ct,i為售電商向用戶i在t時段提供的補貼價格,且cmin≤ct,i≤cmax,其中cmin和cmax分別為補貼價格的下限和上限,該約束范圍由售電商和客戶通過合同的形式確定[14];pt=pw,t?pd,t,其中pw,t和pd,t分別為現(xiàn)貨市場實時電價和中長期市場電價;Δdt,i為用戶i在t時段的負荷削減量;I為所有用戶的集合;H為一天中所有時段的集合。
圖1 分層電力市場架構Fig.1 Framework of hierarchical electricity market
激勵型DR 用戶在收到售電商發(fā)布的補貼信號后會綜合考慮獲得的經濟補償和付出的舒適成本,做出使自身收益最大化的響應行為,可建模為如下的優(yōu)化問題。
式中:η為用戶在獲得經濟補償和付出舒適成本之間的權衡因子,η∈[0,1];pr,t為售電商制定的零售電價;(ct,i+pr,t)Δdt,i為用戶i在t時段以Δdt,i獲得的補償收益和減少的電量成本;φt,i為不滿意度函數(shù),用以表征用戶付出的舒適成本。
Δdt,i反應的是用戶對補貼價格信號的響應度。對于Δdt,i的估算,現(xiàn)有用戶響應模型認為其僅與t時段的補貼價格有關,并基于自彈性系數(shù)進行建模[25],但現(xiàn)有模型忽略了用戶對相鄰時段補貼價格差的反應。在電力現(xiàn)貨市場環(huán)境下,售電商根據(jù)時前公布的批發(fā)電價和預估的用戶用電需求計算出最優(yōu)補貼價格,并在t時段之前發(fā)布給用戶,用戶除了根據(jù)剛發(fā)布的本次補貼價格做出響應,還與前次補貼價格進行對比,并根據(jù)價格差對響應做出調整。如果本次補貼價格比前次補貼價格高,則會額外激發(fā)出用戶參與響應的熱情,Δdt,i相應增加;反之,Δdt,i相應減少。因此,本文引入負荷的時間-價格彈性的概念[31],對現(xiàn)有用戶響應模型做如下修正。
式中:εt,i為用戶i在t時段的自彈性系數(shù),其含義為t時段補貼發(fā)生1%的偏差而引起該時段負荷需求調整的百分數(shù);ξt,t?1,i為用戶i在t時段相對于t?1 時段的時間-價格彈性系數(shù),其含義為時段間存在價格差時,從前時段“轉移”到當前時段的負荷削減量;Δdt,i的約束范圍是Dmin≤Δdt,i≤Dmax,其中Dmin和Dmax分別為用戶負荷削減量的下限和上限,由售電商和客戶在激勵型DR 的合同中約定[32];dt,i為用戶i在t時段的用電需求量;cˉ為各時段的平均補貼價格。
用戶不滿意度函數(shù)也被稱為響應成本函數(shù)或負效益函數(shù)[23],是對用戶在削減自身用電量時承受的不舒適代價的量化。該函數(shù)一般被認為是一個隨著負荷削減量增加而函數(shù)值快速增大的凸函數(shù)。本文采用被廣泛使用的二次函數(shù)來表示用戶不滿意度函數(shù)φt,i。
式中:αi為大于0 的常數(shù),用以表征用戶i對于舒適性的敏感度,該值越大則表示用戶愿意犧牲的舒適性越低,削減負荷的意愿也越低,反之亦然;βi為輔助系數(shù),用戶的不舒適度越高該系數(shù)值越大[14]。
目標函數(shù)的設計綜合考慮了售電商和用戶的收益[25],其表達式為:
式中:rt,i為t時段售電商在用戶i上的收益和用戶i自身收益之和;ρ為售電商收益和用戶收益的重要性比例,ρ∈[0,1]。
RL 的基本思想是通過智能體(agent)和環(huán)境的交互,學習到達成累計獎勵值最大化或實現(xiàn)特定目標的最優(yōu)策略[20]。在RL 求解問題中,環(huán)境通常被規(guī)范為馬爾可夫決策過程(Markov decision process,MDP)。MDP 是一種序貫決策的數(shù)學模型,由狀態(tài)、動作和獎勵3 個基本元素構成,其特性可以理解為當前狀態(tài)下智能體采取的動作不僅影響當前的反饋,還會對下一個狀態(tài)以及反饋造成影響[20]。本文將所關注的激勵型DR 的補貼價格決策優(yōu)化問題建模成一個以售電商為智能體進行學習的有限MDP。如圖2 所示,在t時段即將到來之前,售電商獲取用戶i的狀態(tài)信息st,i=(dt,i,εt,i,ξt,t?1,i,ct?1,i),并基于該狀態(tài)信息做出動作決策at,i=ct,i,即售電商為用戶i在t時段提供的補貼,s0,i為用戶i的初始狀態(tài)信息。用戶根據(jù)發(fā)布的補貼信息決定自身的響應行為,由式(6)可得出整個系統(tǒng)(包含售電商和用戶)所獲得的獎勵rt,i。接著,售電商繼續(xù)獲取下一時段的狀態(tài)信息st+1,i,并做出t+1 時段的動作決策at+1,i。
圖2 MDP 流程示意圖Fig.2 Flow chart of MDP
綜上所述,該模型的最終目標是尋求系統(tǒng)長期收益的最大化,該長期收益定義為Gt。
式中:K為一個完整的優(yōu)化周期被分割成的時段總數(shù);γ為折扣因子,表示未來獎勵的重要性,即未來第k時段獲得的獎勵等于當前時段獲得的獎勵的γk倍,γ∈[0,1],γ的值為0 意味著智能體只考慮當前獎勵。
RL 中最經典且被最廣泛應用的方法是Q 學習算法,其基本思想是通過狀態(tài)-動作對的值函數(shù)進行估計以求得最優(yōu)策略,Q 值函數(shù)依據(jù)貝爾曼方程(Bellman equation)進行迭代更新直至最終收斂,該方程可以按照以下形式表述[20]。
式中:Q(st,at)為t時段下的動作值函數(shù);α為學習率,表示Q 值迭代的速度;a為st+1下Q 值最大的動作決策;A為所有動作決策的集合。
Q 學習最基本的求解方法是Q-table 法,該方法通過建立一個表格來存儲每一個狀態(tài)-動作對的Q值,并依據(jù)式(8)更新表格直至最終收斂。但是Qtable 法不適用連續(xù)狀態(tài)和動作問題,且即便是求解離散狀態(tài)和動作問題,當狀態(tài)和動作空間過大時,Q-table 法需要巨大的存儲和計算資源,限制了其應用性。本文提出一種基于DQN 的求解算法,并為此設計了一個深度前饋網絡,即多層感知機(multilayer perceptron,MLP)用以逼近最優(yōu)Q 值函數(shù)。如圖3 所示,該網絡由1 個輸入層、1 個輸出層和若干個隱層組成,層與層之間均是由權重Wi和偏置bi所定義的全連接結構,激活函數(shù)采用修正線性單元(rectified linear unit,ReLU)[33]。
圖3 Q 值函數(shù)逼近DNN 結構Fig.3 Structure of DNN for approximating Q-value function
基于DQN 的求解算法的偽碼表述如表1 所示。該算法使用了經驗回放和目標網絡分離技術來提升收斂性和穩(wěn)定性[28],經驗回放如表1 中第10 至11 行所述,先將智能體與環(huán)境交互得到的四元組轉移樣本存儲到記憶單元D中,訓練時每次從D中隨機抽取批量的樣本。目標網絡分離如表1 中第13 至14行所述,該方法建立了2 個獨立的DNN,分別記為網絡Q和目標網絡Q?,其中網絡Q的權重θ是實時更新的,而網絡Q?的權重θ?則每經過C輪迭代才通過復制當前值網絡的權重θ實現(xiàn)延遲更新。
表1 基于DQN 的求解算法Table 1 Solution algorithm based on DQN
實驗考慮由1 個售電商和多個用戶組成的激勵型DR,以一天24 h 作為一個完整的優(yōu)化周期,共分為24 個時段,每個時段1 h。用戶負荷數(shù)據(jù)和同一天的批發(fā)市場電價數(shù)據(jù)參考文獻[34]。用戶彈性系數(shù)的設置參考文獻[35],設為谷(01:00—06:00)、平(07:00—16:00,23:00—24:00)、峰(17:00—22:00)3 個區(qū)間,具體的參數(shù)設置如表2 所示,其中ε和ξ分別為式(3)中定義的自彈性系數(shù)和時間-價格彈性系數(shù)。其他與用戶相關的參數(shù)的具體設置情況如表3 所示,其中pmin為式(1)中pt的最小值。
表2 不同時刻下的彈性系數(shù)Table 2 Elasticity coefficients at different moments
表3 用戶相關參數(shù)Table 3 Related parameters of customers
為了對比本文提出的改進用戶響應模型和現(xiàn)有模型的應用效果,附錄A 圖A2 展示了采用相同DQN 算法求解不同模型的補貼價格和削減電量的結果。用戶1 相比于用戶2,自彈性系數(shù)和時間-價格彈性系數(shù)均較低。對比補貼價格的結果可以看出,谷、峰區(qū)間價格變化不大,平區(qū)間價格則略有提升;對比削減電量的結果可以看出,采用改進模型后2 種類型用戶的總削減電量都有所提升,特別值得注意的是,峰值區(qū)間(17:00—22:00)部分時段的負荷削減量得到提升。這說明改進后的DR 模型考慮到用戶負荷在相鄰時段之間的轉移能力,可以獲得比現(xiàn)有模型更好的用戶響應,從而獲得更高的收益。
為了驗證改進模型和設計算法的應用有效性,以自彈性系數(shù)和時間-價格彈性系數(shù)均適中的用戶3 為例,分析不同的用戶舒適權衡因子η對補貼價格決策和用戶響應行為的影響。從附錄A 圖A3 中可以看出,補貼價格隨時間變化的整體趨勢和批發(fā)電價相似,這是因為批發(fā)電價的峰值區(qū)間也是用戶負荷的高峰期,同樣的負荷削減量需要增加更多的補貼來激勵用戶。此外,較高的用戶舒適權衡因子(如η=0.9)下得出的補貼價格平均值要比較低的用戶舒適權衡因子(如η=0.1)的補貼價格平均值要高,進而增加了負荷削減總量;這是因為相對較高的用戶舒適權衡因子意味著用戶對削減電量換取補貼的意愿更強烈,忍受因削減電量帶來的不適的能力更強。附錄A 圖A4 展示了以用戶1 和用戶2 為例的不同用戶參與激勵型DR 的不同結果。可以看出,售電商給予不同用戶以不同的補貼價格,雖然補貼價格曲線的趨勢相似,但是用戶2 的補貼價格比用戶1 的高,這也導致了用戶2 的負荷削減量明顯大于用戶1。這是因為用戶2 不僅自彈性系數(shù)和時間-價格彈性系數(shù)高于用戶1,而且有著更低的不滿意度系數(shù)(α1=0.8,α2=0.3)。因此,相比之下,用戶1 更加保守,響應能力有限,而用戶2 對補貼價格更敏感,更容易在高補貼的激勵下響應更多的負荷削減量。
最后,對比在不同權衡因子η下得到的售電商支出成本,該成本包括了購電成本和補貼成本,如附錄A 圖A5 所示。可以看出,隨著權衡因子η的增大,售電商節(jié)省的支出成本越多,分別節(jié)省了12.3%、20.9%和31.4%。
本文針對電力現(xiàn)貨市場環(huán)境下售電商、集成商等參與主體,提出一個基于DRL 的激勵型DR 決策優(yōu)化模型和求解算法,售電商通過向不同的用戶發(fā)布不同的補貼價格來引導用戶減少其用電負荷,以實現(xiàn)某一規(guī)定時間范圍內售電商和用戶的綜合收益最大化。引入時間-價格彈性以刻畫用戶對相鄰時段補貼價格差的反應,改進現(xiàn)有僅考慮當前時段價格彈性的用戶響應模型,構建了有限MDP 問題。在此基礎上設計了一個基于DQN 的補貼價格優(yōu)化決策求解算法,并選取了3 個不同類型用戶的實際用電數(shù)據(jù)進行訓練,算例結果驗證了基于DQN 的DRL 算法的收斂性和有效性,同時證明了使用改進模型求解得出的最優(yōu)補貼價格相比現(xiàn)有模型的最優(yōu)解,可以提高部分時段尤其是用電高峰時段的負荷削減量,并有效提高售電商和用戶的綜合效益。
本文基于簡化的市場結構和激勵型DR 決策機制,后續(xù)應尋找更完善的購售電決策機制進行優(yōu)化,考慮多個售電商之間競爭作用的影響。本文采用的DQN 方法雖然能很好地解決連續(xù)狀態(tài)空間問題,但是仍然需要離散動作空間,因此基于策略搜索的DRL 方法值得進一步的研究和應用。此外,本文采用需求價格彈性系數(shù)來描述用戶的響應,難以反映出實際情況中用戶響應的不確定性,因此如何更準確地把握用戶負荷需求的不確定性需要進一步的研究。
附錄見本刊網絡版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網絡全文。