熊珞琳 毛 帥 唐 漾 孟 科 董朝陽 錢 鋒
能源是人類社會(huì)生存和發(fā)展的重要物質(zhì)基礎(chǔ),社會(huì)的發(fā)展伴隨著能源需求日益增長(zhǎng),化石能源的大量使用帶來環(huán)境污染、生態(tài)破壞和全球氣候變暖等一系列問題[1?2].為了解決能源可持續(xù)供應(yīng)以及環(huán)境污染等問題,以電能為核心,在源端整合了太陽能、風(fēng)能、生物質(zhì)能、海洋能、地?zé)崮艿惹鍧嵖稍偕茉?在終端實(shí)現(xiàn)熱、電、冷聯(lián)供的綜合能源系統(tǒng)(Integrated energy system,IES)成為當(dāng)今世界能源領(lǐng)域研究的熱點(diǎn)[3].隨著全球能源供應(yīng)多元化和社會(huì)對(duì)各類能源需求的不斷增加,加強(qiáng)對(duì)綜合能源的管理不僅能夠提高能源利用率、減少對(duì)環(huán)境的破壞,也能提升經(jīng)濟(jì)發(fā)展質(zhì)量和效益[4].電能作為綜合能源的核心,是把握國(guó)家經(jīng)濟(jì)命脈的關(guān)鍵因素[3],因此本文從系統(tǒng)層面將綜合能源管理問題分為僅考慮單一電能的電力系統(tǒng)管理問題和考慮多種能源的綜合能源系統(tǒng)管理問題.
綜合能源系統(tǒng)的大規(guī)模區(qū)域互聯(lián)使其逐漸發(fā)展成為大型高維系統(tǒng),間歇性可再生能源和包含電動(dòng)汽車(Electric vehicle,EV)、分布式儲(chǔ)能設(shè)備在內(nèi)的柔性負(fù)載的接入增加了綜合能源系統(tǒng)的復(fù)雜動(dòng)態(tài)特性[5?6],另外用戶能源消耗行為的隨機(jī)性、能源多樣性和不同形式能源之間的耦合關(guān)系也給現(xiàn)代化能源管理帶來了巨大的挑戰(zhàn)[7?8].混合整數(shù)規(guī)劃[9]、線性規(guī)劃[10]、非線性規(guī)劃[11]等傳統(tǒng)優(yōu)化算法往往依賴于精確的數(shù)學(xué)模型和參數(shù),考慮到綜合能源系統(tǒng)是具有高度不確定性的復(fù)雜動(dòng)態(tài)系統(tǒng),精確的模型構(gòu)造十分困難,因此傳統(tǒng)優(yōu)化算法在求解綜合能源系統(tǒng)管理問題中的應(yīng)用受到限制[12].
作為人工智能的一個(gè)重要分支,強(qiáng)化學(xué)習(xí)(Reinforcement learning,RL)因其強(qiáng)大的自主學(xué)習(xí)能力,獲得了許多專家學(xué)者的關(guān)注[13?19].具體來講,強(qiáng)化學(xué)習(xí)不需要監(jiān)督信號(hào)來直接指導(dǎo)學(xué)習(xí),只依賴于一個(gè)反饋回報(bào)信號(hào),對(duì)其“試錯(cuò)”過程進(jìn)行評(píng)估,間接指導(dǎo)智能體向反饋回報(bào)值最大的方向進(jìn)行學(xué)習(xí),從而減少對(duì)精確的系統(tǒng)模型的依賴.目前,強(qiáng)化學(xué)習(xí)算法已廣泛應(yīng)用于機(jī)器人導(dǎo)航[13]、計(jì)算機(jī)游戲[14]、計(jì)算機(jī)視覺[15]和化學(xué)合成[16]等領(lǐng)域.
針對(duì)綜合能源系統(tǒng)的高度不確定性,傳統(tǒng)優(yōu)化方法需要對(duì)不確定因素提前預(yù)測(cè)[20]并利用動(dòng)態(tài)場(chǎng)景生成方法對(duì)環(huán)境進(jìn)行估計(jì),進(jìn)一步建立能源系統(tǒng)動(dòng)態(tài)模型.這類方法不僅計(jì)算量大,而且優(yōu)化結(jié)果極大程度上取決于不確定因素預(yù)測(cè)和動(dòng)態(tài)場(chǎng)景生成的準(zhǔn)確度,當(dāng)預(yù)測(cè)結(jié)果偏差較大時(shí),即使性能優(yōu)良的求解算法也無法得到最優(yōu)解[21].然而在強(qiáng)化學(xué)習(xí)方法中,智能體可以在不同的系統(tǒng)狀態(tài)下嘗試不同的動(dòng)作,并從獎(jiǎng)勵(lì)回報(bào)中學(xué)習(xí)知識(shí)以獲得最優(yōu)策略,智能體與環(huán)境交互的整個(gè)過程可以不依賴于詳細(xì)精確的模型信息,因此所得策略的性能也不受制于預(yù)測(cè)結(jié)果的精度[22].
針對(duì)綜合能源系統(tǒng)的變量高維度特性,強(qiáng)化學(xué)習(xí)可以采用多層馬爾科夫決策過程(Markov decision process,MDP)模型進(jìn)行分層優(yōu)化.在面對(duì)一些具有連續(xù)動(dòng)作和狀態(tài)空間的問題時(shí),強(qiáng)化學(xué)習(xí)還可以與具有出色數(shù)據(jù)處理能力的深度學(xué)習(xí)相結(jié)合構(gòu)成深度強(qiáng)化學(xué)習(xí)算法(Deep reinforcement learning,DRL),進(jìn)而求解得到具有高維變量的綜合能源系統(tǒng)的最優(yōu)管理策略[23],并且該方法相較于傳統(tǒng)優(yōu)化方法在實(shí)際生活場(chǎng)景下更容易實(shí)現(xiàn)[21].
基于強(qiáng)化學(xué)習(xí)的無模型依賴性、變量復(fù)雜性的優(yōu)點(diǎn),許多專家學(xué)者致力于利用強(qiáng)化學(xué)習(xí)算法來處理綜合能源系統(tǒng)管理問題,并取得了一系列研究成果[17?19].同時(shí)一些學(xué)者基于這些研究作了相關(guān)綜述,例如文獻(xiàn)[24]從拓?fù)浣Y(jié)構(gòu)、優(yōu)化目標(biāo)、時(shí)間尺度、調(diào)度優(yōu)化結(jié)構(gòu)等方面綜述了互聯(lián)微電網(wǎng)的能源管理方案;文獻(xiàn)[25]基于大功耗家庭供暖通風(fēng)空調(diào)控制系統(tǒng)(Heating,ventilation,and air conditioning,HVAC)、智能家庭、智能商業(yè)和住宅建筑這三個(gè)系統(tǒng)的能源管理問題,綜述了利用深度強(qiáng)化學(xué)習(xí)算法求解的能源管理方案;文獻(xiàn)[26]系統(tǒng)地總結(jié)了強(qiáng)化學(xué)習(xí)、深度強(qiáng)化學(xué)習(xí)和多智能體強(qiáng)化學(xué)習(xí)分別在電力和能源系統(tǒng)中的應(yīng)用.
本文在現(xiàn)有研究成果和相關(guān)綜述的基礎(chǔ)上,從模型和算法兩個(gè)方面系統(tǒng)回顧了基于強(qiáng)化學(xué)習(xí)的綜合能源系統(tǒng)管理問題.在模型方面,將單一電能從綜合能源中提出來單獨(dú)討論,把綜合能源管理問題分為電力系統(tǒng)和綜合能源系統(tǒng)管理問題,在電力系統(tǒng)管理中依次討論了微電網(wǎng)、智能家庭以及公共電動(dòng)汽車這三個(gè)關(guān)注度較高的電能優(yōu)化管理問題,即互聯(lián)微電網(wǎng)電能調(diào)度、智能家庭用電管理和電動(dòng)汽車充放電規(guī)劃.在算法方面,主要分析各類問題中用到的不同強(qiáng)化學(xué)習(xí)算法并對(duì)比其性能.圖1 是本文的結(jié)構(gòu)框架及主要內(nèi)容.第1 節(jié)主要介紹強(qiáng)化學(xué)習(xí)算法的定義、分類及面臨的挑戰(zhàn)和解決方法;第2 節(jié)主要總結(jié)了強(qiáng)化學(xué)習(xí)算法在電力系統(tǒng)優(yōu)化管理中的應(yīng)用;第3 節(jié)聚焦于多種異質(zhì)能源協(xié)調(diào)優(yōu)化、互補(bǔ)互濟(jì)的綜合能源系統(tǒng)中,分別介紹了綜合能源系統(tǒng)優(yōu)化管理模型和利用強(qiáng)化學(xué)習(xí)算法求解得到的綜合能源系統(tǒng)管理方案;第4 節(jié)對(duì)綜合能源系統(tǒng)管理問題面臨的挑戰(zhàn)進(jìn)行展望,并結(jié)合強(qiáng)化學(xué)習(xí)方法提出相應(yīng)的潛在解決方案;第5 節(jié)對(duì)本文工作進(jìn)行簡(jiǎn)單總結(jié).
圖1 結(jié)構(gòu)及主要內(nèi)容Fig.1 The structure and main contents
隨著人工智能技術(shù)的發(fā)展進(jìn)入新的歷史階段,強(qiáng)化學(xué)習(xí)作為人工智能領(lǐng)域中一種快速、高效的學(xué)習(xí)算法,是當(dāng)前的研究熱門,受到許多學(xué)者的廣泛關(guān)注[13?19].強(qiáng)化學(xué)習(xí)與依賴直接監(jiān)督信息的監(jiān)督學(xué)習(xí)不同,它讓智能體通過與環(huán)境的持續(xù)交互獲取環(huán)境知識(shí),并通過采取最優(yōu)動(dòng)作獲得最大回報(bào)以實(shí)現(xiàn)其目標(biāo).在解決具有延時(shí)回報(bào)的序列決策問題中,智能體與環(huán)境的交互過程通常被建模為馬爾科夫決策過程模型[27].
強(qiáng)化學(xué)習(xí)在馬爾科夫決策過程中主要使用的方法包括自適應(yīng)動(dòng)態(tài)規(guī)劃(Adaptive dynamic programming,ADP)[28]、時(shí)間差分(Temporal difference,TD) 學(xué)習(xí)[29]、蒙特卡洛法(Monte carlo,MC)[27]等.
根據(jù)學(xué)習(xí)方式的不同,強(qiáng)化學(xué)習(xí)可以分為在線策略和離線策略[27].其中,在線策略是指生成樣本的策略與網(wǎng)絡(luò)更新參數(shù)時(shí)使用的策略不同,即與環(huán)境互動(dòng)和網(wǎng)絡(luò)更新同時(shí)進(jìn)行,一邊采樣一邊更新.離線策略則是指生成樣本的策略與網(wǎng)絡(luò)更新參數(shù)時(shí)使用的策略相同,采用先采樣后集中更新的方式進(jìn)行學(xué)習(xí)[27].兩者的本質(zhì)區(qū)別在于,更新Q值的方法是沿用既定策略還是新策略.以此為依據(jù),時(shí)間差分學(xué)習(xí)又分為狀態(tài)–動(dòng)作–回報(bào)–狀態(tài)–動(dòng)作(Stateaction-reward-state-action,SARSA)算法和Q學(xué)習(xí)算法(QLearning)[27].
根據(jù)動(dòng)作的選擇依據(jù),強(qiáng)化學(xué)習(xí)又可以分為基于價(jià)值的強(qiáng)化學(xué)習(xí)和基于策略的強(qiáng)化學(xué)習(xí)[27].其中,基于價(jià)值的強(qiáng)化學(xué)習(xí)是在知曉所有動(dòng)作價(jià)值的基礎(chǔ)上,根據(jù)最高價(jià)值來選擇動(dòng)作,因此并不適用于選取連續(xù)動(dòng)作.基于策略的強(qiáng)化學(xué)習(xí)則是通過對(duì)環(huán)境的分析,直接輸出下一步可能采取的各種動(dòng)作的概率,然后根據(jù)概率采樣選取行動(dòng)[27].
在強(qiáng)化學(xué)習(xí)中,系統(tǒng)的模型包括環(huán)境的狀態(tài)空間、動(dòng)作空間以及狀態(tài)轉(zhuǎn)移概率等.根據(jù)模型是否完全給定,強(qiáng)化學(xué)習(xí)還可以分為基于模型的強(qiáng)化學(xué)習(xí)和無模型的強(qiáng)化學(xué)習(xí)[27].其中,基于模型的強(qiáng)化學(xué)習(xí)依賴于環(huán)境在各個(gè)動(dòng)作下的狀態(tài)轉(zhuǎn)移概率,而無模型的方法不需要完整的環(huán)境信息,當(dāng)給予適當(dāng)?shù)莫?jiǎng)勵(lì)時(shí)智能體可以自主學(xué)習(xí)最優(yōu)策略[27].
強(qiáng)化學(xué)習(xí)在應(yīng)用過程中會(huì)面臨許多挑戰(zhàn),例如如何平衡探索與開發(fā)、如何處理高維決策問題、如何減小狀態(tài)動(dòng)作價(jià)值的估計(jì)誤差、如何提升學(xué)習(xí)效率等.在選擇策略的過程中如何平衡探索與開發(fā)是一個(gè)常見的問題,其中探索是指嘗試之前沒有執(zhí)行過的動(dòng)作以期望獲得超過當(dāng)前最優(yōu)動(dòng)作的獎(jiǎng)勵(lì)回報(bào),開發(fā)是指執(zhí)行已經(jīng)學(xué)習(xí)到的能獲得最大獎(jiǎng)勵(lì)回報(bào)的動(dòng)作,即貪婪動(dòng)作.因此以現(xiàn)有的動(dòng)作價(jià)值為參考,開發(fā)是相對(duì)正確的,但是由于一些具有更高價(jià)值的動(dòng)作可能還未被發(fā)現(xiàn),從長(zhǎng)期來看探索可能會(huì)比開發(fā)帶來更大的收益.所以需要在開發(fā)和探索之間找到一個(gè)平衡,避免陷入局部最優(yōu),并收斂到全局最優(yōu).一種平衡探索與開發(fā)的方法是采取貪婪策略,智能體在每個(gè)狀態(tài)有 1??的概率選擇進(jìn)行開發(fā),有?的概率選擇進(jìn)行探索.當(dāng)動(dòng)作空間為A時(shí),|A|是該空間中的動(dòng)作總數(shù),除貪婪動(dòng)作外各個(gè)動(dòng)作被采取的概率為?/(|A|?1)[30].另一種方法是在每次得到貪婪動(dòng)作的基礎(chǔ)上添加隨機(jī)噪聲,使得采取的動(dòng)作是在貪婪動(dòng)作鄰域內(nèi)隨機(jī)探索的結(jié)果[31].但是由于沒有考慮每次探索動(dòng)作的價(jià)值,添加隨機(jī)噪聲的方法存在數(shù)據(jù)利用率低、充分探索需要無限長(zhǎng)時(shí)間等不足.
為了處理高維決策問題,具有感知能力的深度學(xué)習(xí)和具有決策能力的強(qiáng)化學(xué)習(xí)相結(jié)合產(chǎn)生了深度強(qiáng)化學(xué)習(xí)算法[23].深度學(xué)習(xí)中深度神經(jīng)網(wǎng)絡(luò)從高維數(shù)據(jù)中提取低維特征,能夠有效解決維度災(zāi)害的問題,再與強(qiáng)化學(xué)習(xí)相結(jié)合解決具有高維狀態(tài)和動(dòng)作空間的序列決策問題.深度Q網(wǎng)絡(luò)(DeepQnetwork,DQN)[14]、演員?評(píng)論家算法(Actor-critic,AC)[32]都是常見的深度強(qiáng)化學(xué)習(xí)算法.此外,針對(duì)變量耦合的問題,傳統(tǒng)優(yōu)化算法中耦合變量和耦合的約束條件使得建立機(jī)理模型存在困難,也為后續(xù)的求解增加了難度.然而強(qiáng)化學(xué)習(xí)算法具有無模型依賴性,智能體從與環(huán)境交互過程獲得的獎(jiǎng)勵(lì)回報(bào)中學(xué)習(xí)知識(shí),可以克服復(fù)雜耦合變量和約束條件帶來的困難[33].
在所有目標(biāo)的狀態(tài)動(dòng)作價(jià)值都是通過執(zhí)行貪婪動(dòng)作直接得到的情況下,DQN 中目標(biāo)Q值的計(jì)算更新公式如式(1)所示[14]
其中,rt是t時(shí)刻在狀態(tài)st下采取動(dòng)作at得到的獎(jiǎng)勵(lì)回報(bào),γ是折扣因子,Q(st+1,at+1) 指下一時(shí)刻的狀態(tài)動(dòng)作價(jià)值.這里的max 操作會(huì)使現(xiàn)有狀態(tài)動(dòng)作價(jià)值Q(st,at) 被高估,對(duì)不同動(dòng)作不同程度的高估可能會(huì)導(dǎo)致某些次優(yōu)策略價(jià)值超過實(shí)際最優(yōu)策略的價(jià)值,從而永遠(yuǎn)無法找到最優(yōu)策略.針對(duì)Q值被高估的問題,有學(xué)者提出了深度雙Q網(wǎng)絡(luò)(Double deepQnetwork,Double DQN),通過解耦動(dòng)作的選擇和目標(biāo)Q值的計(jì)算,來解決過度估計(jì)問題,提升算法性能[34].類似地,深度競(jìng)爭(zhēng)Q網(wǎng)絡(luò)(Dueling deepQnetwork,Dueling DQN)也能提高估計(jì)值的精確度,提升算法穩(wěn)定性[35].
Q學(xué)習(xí)無法在連續(xù)動(dòng)作空間中選擇合適的動(dòng)作,策略梯度方法能有效解決這個(gè)問題,但是傳統(tǒng)的策略梯度方法采用回合更新的形式,降低了學(xué)習(xí)效率.因此有學(xué)者提出了演員?評(píng)論家算法[32],該算法融合了以狀態(tài)動(dòng)作價(jià)值為基礎(chǔ)(比如Q學(xué)習(xí))和以動(dòng)作概率為基礎(chǔ)(比如策略梯度)的兩類強(qiáng)化學(xué)習(xí)算法.優(yōu)勢(shì)演員?評(píng)論家算法 (Advantage actorcritic,A2C)、異步優(yōu)勢(shì)演員?評(píng)論家算法(Asynchronous advantage actor-critic,A3C)[36]、置信域策略梯度算法(Trust region policy optimization,TRPO)[37]、近端策略優(yōu)化算法(Proximal policy optimization,PPO)[38]、深度確定性策略梯度算法(Deep deterministic policy gradient,DDPG)[39?40]都是基于演員?評(píng)論家算法改進(jìn)得到的算法,并被眾多專家學(xué)者用于高效求解具有連續(xù)動(dòng)作空間的能源管理問題[41?45].按照是否基于模型、選擇動(dòng)作的依據(jù)和學(xué)習(xí)方式,本文對(duì)強(qiáng)化學(xué)習(xí)算法進(jìn)行了如表1所示的分類.
表1 強(qiáng)化學(xué)習(xí)算法分類Table 1 The classification of reinforcement learning algorithm
優(yōu)化電能分配方式、提高電能利用效率在促進(jìn)可持續(xù)發(fā)展進(jìn)程中起到重要作用,因此本文首先聚焦電力系統(tǒng)管理問題.本節(jié)將依次介紹面向微電網(wǎng)、智能家庭、電動(dòng)汽車管理問題的基于強(qiáng)化學(xué)習(xí)的方法.這些問題具有相似的經(jīng)濟(jì)性和社會(huì)性優(yōu)化目標(biāo),例如降低購電成本、系統(tǒng)運(yùn)營(yíng)成本或操作成本以提升系統(tǒng)經(jīng)濟(jì)性,降低負(fù)荷曲線峰均比以提升電力系統(tǒng)安全性、穩(wěn)定性;它們也面臨相似的挑戰(zhàn),例如系統(tǒng)的高度不確定性、變量的高維耦合特性以及難以建立精確的系統(tǒng)模型等.由于智能體在與環(huán)境交互的過程中可以自主學(xué)習(xí)環(huán)境知識(shí),不依賴于精確的環(huán)境模型,因此相較于依賴不確定因素預(yù)測(cè)精度的傳統(tǒng)優(yōu)化方法,強(qiáng)化學(xué)習(xí)能夠更好地處理無模型的綜合能源系統(tǒng)管理優(yōu)化問題.但是由于不同場(chǎng)景中電能管理的時(shí)間尺度是不同的,例如對(duì)電價(jià)的優(yōu)化可以是日前調(diào)度,而對(duì)渦輪發(fā)電機(jī)、電動(dòng)汽車或家庭用電設(shè)備的調(diào)度則需要更小時(shí)間尺度下的日內(nèi)滾動(dòng)優(yōu)化或?qū)崟r(shí)調(diào)整[46],因此用到的強(qiáng)化學(xué)習(xí)算法也有一定差異.下面將對(duì)上述問題進(jìn)行詳細(xì)的分析和總結(jié).
微電網(wǎng)是集成了分布式電源、儲(chǔ)電系統(tǒng)、電能轉(zhuǎn)換設(shè)備和用電負(fù)載的小型配電系統(tǒng)[47].在微電網(wǎng)電能優(yōu)化管理中,優(yōu)化變量主要包括電力交易價(jià)格、功率分配方案等,優(yōu)化目標(biāo)包括最大化運(yùn)營(yíng)商收益、最小化購電成本、提高用戶用電滿意度、減少能量傳輸損失、提高新能源利用率、提高系統(tǒng)穩(wěn)定性等.其常見模型如式(2)~式(4)所示[48]
如圖2 所示,對(duì)微電網(wǎng)實(shí)施能源優(yōu)化管理主要從供電側(cè)、儲(chǔ)電系統(tǒng)和需求側(cè)三個(gè)方面進(jìn)行考慮.供電側(cè)管理與調(diào)節(jié)發(fā)電裝置的發(fā)電量有關(guān)[49].儲(chǔ)電系統(tǒng)管理通過規(guī)劃充放電動(dòng)作來協(xié)調(diào)系統(tǒng)電能供求關(guān)系[41,50?55].需求側(cè)管理主要分為兩類,一類是直接控制負(fù)載通斷[56],另一類通過動(dòng)態(tài)電價(jià)間接管理功率分配.動(dòng)態(tài)電價(jià)對(duì)電能的間接管理又可以細(xì)分為兩個(gè)方向[57]:其一,站在公用事業(yè)公司的立場(chǎng),通過設(shè)計(jì)有效的定價(jià)策略最大程度地提高社會(huì)福利,包括智能電網(wǎng)中所有消費(fèi)者的總收益和公用事業(yè)公司售電獲得的收益[42,47,58?60];其二,站在消費(fèi)者的立場(chǎng),針對(duì)公用事業(yè)公司的定價(jià)策略,設(shè)計(jì)有效的價(jià)格感知型需求調(diào)度策略以最大化消費(fèi)者個(gè)人收益.在本節(jié)將著重討論動(dòng)態(tài)定價(jià)方案設(shè)計(jì)問題,用戶需求響應(yīng)和用電設(shè)備的規(guī)劃將在第2.2 節(jié)中闡述.
圖2 微電網(wǎng)管理方案Fig.2 Microgrid management approach
表2 羅列了基于強(qiáng)化學(xué)習(xí)的微電網(wǎng)管理的相關(guān)文獻(xiàn),從時(shí)間尺度、管理方案和求解算法這三個(gè)角度進(jìn)行總結(jié),并從收斂穩(wěn)定性、計(jì)算速度、隱私保護(hù)和適應(yīng)性4 個(gè)方面分析這些算法的性能,其中 √ 表示文獻(xiàn)提出的算法在這方面具有較好的性能,空白的單元格表示文中沒有提到這方面的性能.根據(jù)時(shí)間尺度的不同,微電網(wǎng)的電能優(yōu)化管理問題中具體包括了日前調(diào)度、日內(nèi)滾動(dòng)優(yōu)化和實(shí)時(shí)調(diào)整三種時(shí)間尺度的優(yōu)化類型.日前調(diào)度是階段性的,考慮到電力系統(tǒng)的高度不確定性,預(yù)測(cè)可能存在偏差,所以需要更小時(shí)間尺度的優(yōu)化方案,例如日內(nèi)滾動(dòng)優(yōu)化和實(shí)時(shí)調(diào)整,其中,日內(nèi)滾動(dòng)優(yōu)化是指在某個(gè)時(shí)間窗口內(nèi)以日前計(jì)劃作為參考,利用時(shí)間窗口動(dòng)態(tài)更新的模型數(shù)據(jù)滾動(dòng)求得最優(yōu)策略[61].實(shí)時(shí)調(diào)整則是以小時(shí)或者更短的時(shí)間為單位進(jìn)行實(shí)時(shí)優(yōu)化.預(yù)測(cè)精度隨時(shí)間尺度的減小而逐漸提高,更小的時(shí)間尺度優(yōu)化往往具有更好的性能,但也需要進(jìn)行更復(fù)雜的計(jì)算[62].
表2 基于強(qiáng)化學(xué)習(xí)的微電網(wǎng)管理Table 2 Microgrid management based on reinforcement learning
2.1.1 常規(guī)算法求解微電網(wǎng)管理問題
微電網(wǎng)系統(tǒng)包含的可再生能源(例如太陽能光伏發(fā)電、風(fēng)力發(fā)電)生成的不確定性以及用戶需求的隨機(jī)性,使微電網(wǎng)管理問題模型難以建立,同時(shí)高維優(yōu)化變量以及非線性約束的存在也為求解此類優(yōu)化問題帶來困難.
傳統(tǒng)優(yōu)化求解算法包括遺傳算法(Genetic algorithm,GA)[63]、粒子群算法(Particle swarm optimization,PSO)[64?65]、混合整數(shù)線性規(guī)劃(Mixed integer linear programming,MILP)[63]以及動(dòng)態(tài)規(guī)劃算法[53,66]等.例如Shu 等[63]面向公用事業(yè)公司提出一種融合遺傳算法和混合整數(shù)線性規(guī)劃的混合優(yōu)化算法來確定最優(yōu)動(dòng)態(tài)零售電價(jià),在提高了公用事業(yè)公司利潤(rùn)的同時(shí)改善了大型工業(yè)用戶的用電方式,降低其平均用電成本.Mirzaei 等[64]通過自適應(yīng)粒子群算法求解由多個(gè)微電網(wǎng)和電動(dòng)汽車組成的雙層能源系統(tǒng)管理問題,以減少高峰時(shí)段的負(fù)載需求使得負(fù)載曲線平整化.Jin 等[53]在存在分布式可再生能源和時(shí)變電力價(jià)格的場(chǎng)景中,利用動(dòng)態(tài)規(guī)劃算法求解得到儲(chǔ)電設(shè)備的最佳運(yùn)行策略,最大程度地降低消費(fèi)者的電力消費(fèi)成本.
針對(duì)可再生能源生成的不確定性問題,Li 等[67]使用區(qū)間預(yù)測(cè)方法預(yù)測(cè)微電網(wǎng)中風(fēng)力渦輪機(jī)和光伏電池的不確定功率輸出,并通過混沌群體搜索優(yōu)化方法求解滿足微電網(wǎng)運(yùn)行經(jīng)濟(jì)性、電能質(zhì)量和安全性要求的多目標(biāo)優(yōu)化問題.針對(duì)用戶用電需求的隨機(jī)性問題,Bao 等[68]提出了一種面向工業(yè)客戶的多時(shí)標(biāo)需求側(cè)最優(yōu)調(diào)度框架,用動(dòng)態(tài)場(chǎng)景生成方法模擬調(diào)度時(shí)段內(nèi)客戶用電時(shí)間序列的不確定性.
然而,上述區(qū)間預(yù)測(cè)和動(dòng)態(tài)場(chǎng)景生成方法不僅計(jì)算量大,而且策略優(yōu)化性能極大程度地取決于不確定因素預(yù)測(cè)和動(dòng)態(tài)場(chǎng)景生成的準(zhǔn)確度,當(dāng)預(yù)測(cè)結(jié)果偏差較大時(shí),即使性能優(yōu)良的求解算法也無法得到最優(yōu)策略.考慮到優(yōu)化變量的高維性和模型的不可知,一些文章采用強(qiáng)化學(xué)習(xí)算法[22,43],在節(jié)約計(jì)算成本的同時(shí)提升了算法在面向不同場(chǎng)景的優(yōu)化問題時(shí)的適應(yīng)性.
2.1.2 強(qiáng)化學(xué)習(xí)求解儲(chǔ)電系統(tǒng)管理問題
一些學(xué)者利用強(qiáng)化學(xué)習(xí)方法對(duì)儲(chǔ)電系統(tǒng)進(jìn)行管理,進(jìn)而解決電能分配調(diào)度優(yōu)化問題.例如通過在用電低峰期充電、用電高峰期放電來降低用電成本,平整負(fù)荷曲線;在光照強(qiáng)或者風(fēng)力大的時(shí)候利用光伏發(fā)電或風(fēng)力發(fā)電為儲(chǔ)電設(shè)備充電,在電價(jià)高或用戶用電需求增加時(shí)放電,以滿足用戶用電需求并降低電力成本.文獻(xiàn)[41]提供了一種利用DDPG 算法進(jìn)行訓(xùn)練的控制器用于管理儲(chǔ)電系統(tǒng)的充放電狀態(tài),同時(shí)為電網(wǎng)提供頻率響應(yīng)服務(wù).Qazi 等[69]提出了基于DQN 的孤立微電網(wǎng)集群能源和儲(chǔ)備調(diào)度的概念,通過共享能源和儲(chǔ)備來提高微電網(wǎng)的經(jīng)濟(jì)效益,最大程度降低其運(yùn)營(yíng)成本.Jayaraj 等[70]面向包含光伏單元和電池的微電網(wǎng)利用Q學(xué)習(xí)算法實(shí)現(xiàn)經(jīng)濟(jì)調(diào)度,減少了電網(wǎng)的凈交易成本,并給出以24小時(shí)為周期的電池運(yùn)行調(diào)度方案.文獻(xiàn)[50]提出了一種基于Double-Q學(xué)習(xí)的方法,在實(shí)時(shí)電價(jià)和煤炭?jī)r(jià)格不確定的情況下,求解得到并網(wǎng)微電網(wǎng)中的儲(chǔ)電套利策略.其中,Double-Q學(xué)習(xí)的主要思想是使用兩個(gè)神經(jīng)網(wǎng)絡(luò)將選擇策略和評(píng)估策略進(jìn)行分離,因此該算法可以在迭代更新后更準(zhǔn)確地收斂到最優(yōu)解.
2.1.3 強(qiáng)化學(xué)習(xí)求解需求側(cè)電能管理問題
一些學(xué)者從需求側(cè)管理的角度通過直接控制負(fù)載通斷對(duì)電能進(jìn)行管理.文獻(xiàn)[56] 使用Dueling-DQN 算法學(xué)習(xí)控制可中斷負(fù)載的狀態(tài),實(shí)現(xiàn)電壓調(diào)節(jié)并減少分布式系統(tǒng)的總操作成本.Dueling-DQN算法用兩個(gè)深度網(wǎng)絡(luò)分別表示狀態(tài)價(jià)值網(wǎng)絡(luò)V(st)和動(dòng)作優(yōu)勢(shì)函數(shù)網(wǎng)絡(luò)A(st,at),其輸出將兩者結(jié)合以產(chǎn)生狀態(tài)動(dòng)作值Q(st,at),克服傳統(tǒng)DQN 中的噪聲和不穩(wěn)定性,提高模型收斂穩(wěn)定性.
制定動(dòng)態(tài)電價(jià)是一種更為常見的需求側(cè)能源管理方法,從公用事業(yè)公司的角度來看,一般將提升利潤(rùn)作為首要優(yōu)化目標(biāo).例如,Liang 等[42]采用DDPG 算法求解公用事業(yè)公司的電價(jià)競(jìng)標(biāo)策略,最終實(shí)現(xiàn)社會(huì)收益最大化.文獻(xiàn)[58]提出了一種用于分級(jí)電力市場(chǎng)能源管理的動(dòng)態(tài)定價(jià)需求響應(yīng)算法,將動(dòng)態(tài)定價(jià)問題建模為離散有限馬爾科夫決策過程,服務(wù)供應(yīng)商通過Q學(xué)習(xí)算法在線自適應(yīng)地制定零售電價(jià),同時(shí)實(shí)現(xiàn)提高服務(wù)供應(yīng)商利潤(rùn)、降低客戶成本、平衡電力市場(chǎng)的能源供需、提高電力系統(tǒng)的可靠性等優(yōu)化目標(biāo).除了經(jīng)濟(jì)性目標(biāo)之外,合理分配功率以增加用戶用電滿意度和降低峰均比也是微電網(wǎng)能源管理中的重要優(yōu)化目標(biāo).例如文獻(xiàn)[48]提出了一種基于深度神經(jīng)網(wǎng)絡(luò)和無模型強(qiáng)化學(xué)習(xí)算法的多微電網(wǎng)能源管理方法,配電系統(tǒng)運(yùn)營(yíng)商(Distribution system operator,DSO)利用深度神經(jīng)網(wǎng)絡(luò)來預(yù)測(cè)各微電網(wǎng)的功率交換而無需直接訪問用戶信息.DSO 通過蒙特卡洛方法求解得到零售定價(jià)策略,既能使DSO 的利潤(rùn)最大化又能降低需求側(cè)的峰均比,提高用電可靠性.與之相似,Zhang 等[22]在無法直接訪問用戶信息的條件下,讓智能體基于自適應(yīng)強(qiáng)化學(xué)習(xí)框架通過函數(shù)逼近來預(yù)測(cè)微電網(wǎng)功率分配行為,并優(yōu)化價(jià)格信號(hào),最終最大化微電網(wǎng)總收益.
從消費(fèi)者的角度來看,對(duì)實(shí)時(shí)電價(jià)進(jìn)行感知并調(diào)整配電策略可以節(jié)省用電費(fèi)用.Lei 等[43]針對(duì)深度強(qiáng)化學(xué)習(xí)算法的不穩(wěn)定性和有限時(shí)域模型的獨(dú)特性,提出了兩種新的DRL 算法,即有限時(shí)域深度確定性策略梯度算法和有限時(shí)域遞歸確定性策略梯度算法,分別在有、無完全可觀測(cè)狀態(tài)信息這兩種情況下學(xué)習(xí)到包含柴油發(fā)電機(jī)、光伏電池板和蓄電池的孤立微電網(wǎng)的能源調(diào)度策略,在滿足用戶電力需求的基礎(chǔ)上降低了分布式電源的發(fā)電成本,并最大限度地利用了可再生能源.
2.1.4 電力系統(tǒng)管理中的博弈和隱私保護(hù)問題
由于我國(guó)電網(wǎng)具有多主體、強(qiáng)不確定性、多目標(biāo)的特征,電力系統(tǒng)管理決策問題已逐步由單人優(yōu)化決策向具有不同目標(biāo)的多決策者博弈轉(zhuǎn)換.例如在消納發(fā)電側(cè)大規(guī)模風(fēng)電和光電的問題中,存在經(jīng)濟(jì)性與環(huán)保性的權(quán)衡;輸電網(wǎng)中,為保障不確定環(huán)境下電網(wǎng)安全,大自然和電網(wǎng)存在著博弈;在電動(dòng)汽車等儲(chǔ)電設(shè)備靈活接入微電網(wǎng)進(jìn)行充電和放電的問題中,存在售電商與用戶之間的博弈,所以在電能管理問題中考慮博弈論和強(qiáng)化學(xué)習(xí)結(jié)合的方法是十分必要的[42].例如文獻(xiàn)[47]提出了一種用于微/納米電網(wǎng)的內(nèi)部能源管理和外部能源交易的三層優(yōu)化方案.第一層提出一個(gè)在線隨機(jī)需求側(cè)能源管理模型,并用強(qiáng)化學(xué)習(xí)算法求解各個(gè)網(wǎng)絡(luò)內(nèi)部的用電調(diào)度方案;第二層制定了雙重拍賣機(jī)制,使各個(gè)網(wǎng)絡(luò)之間可以直接進(jìn)行電力交易;第三層由中央控制器制定最佳功率分配策略,以減少功率傳輸損耗和局部能源交易可能會(huì)帶來的破壞性影響.
隨著社會(huì)和科技的發(fā)展,用戶的隱私保護(hù)問題得到越來越多的關(guān)注[71],例如文獻(xiàn)[22]、[48]在無法觀測(cè)用戶對(duì)價(jià)格作出響應(yīng)的情況下,只能選擇通過神經(jīng)網(wǎng)絡(luò)或函數(shù)逼近來預(yù)測(cè)特定價(jià)格信號(hào)下的功率交換信息.文獻(xiàn)[43]在狀態(tài)信息部分可觀的情況下利用歷史信息進(jìn)行優(yōu)化.此外,文獻(xiàn)[64]中的雙層能源管理模型也在一定程度上保護(hù)了用戶的隱私.
隨著太陽能光伏電池板、智能電表、電動(dòng)汽車、家用電池和其他“智能”設(shè)備的普及[72],智能家庭的概念進(jìn)入人們視野,由此家庭耗能優(yōu)化管理問題得到廣泛關(guān)注,一些學(xué)者把研究目光聚焦到家庭用電設(shè)備的調(diào)度管理上來.由于家用設(shè)備數(shù)量較多,而且不同設(shè)備具有不同的控制策略,例如對(duì)照明設(shè)備的控制可能是連續(xù)的功率控制、對(duì)洗碗機(jī)的控制是離散的開關(guān)控制,傳統(tǒng)優(yōu)化方法對(duì)家用設(shè)備的管理需要針對(duì)不同設(shè)備建立不同的模型,而強(qiáng)化學(xué)習(xí)算法可以只用一個(gè)網(wǎng)絡(luò)輸出不同的參數(shù),對(duì)不同的設(shè)備同時(shí)優(yōu)化提高效率.
實(shí)時(shí)定價(jià)和能源調(diào)度是家庭能源管理的兩個(gè)重要組成部分[73].在實(shí)時(shí)定價(jià)方面,主要考慮包含可再生能源發(fā)電設(shè)備、儲(chǔ)電設(shè)備[74]和可充放電電動(dòng)汽車的家庭在開放市場(chǎng)中進(jìn)行交易的場(chǎng)景.文獻(xiàn)[75]提出了一種基于深度演員?評(píng)論家的多智能體擴(kuò)展算法,在環(huán)境部分可觀測(cè)并且感知非平穩(wěn)的條件下學(xué)習(xí)實(shí)時(shí)定價(jià)方案,以降低所有家庭總能耗峰均比和用電成本.
在能源調(diào)度方面,不同文獻(xiàn)采用不同的方式對(duì)負(fù)載進(jìn)行分類,可以分為不可調(diào)負(fù)載、運(yùn)行時(shí)間可調(diào)負(fù)載、運(yùn)行功率可調(diào)負(fù)載[21],或者再進(jìn)一步將時(shí)間可調(diào)負(fù)載分為連續(xù)時(shí)間工作負(fù)載和可中斷負(fù)載[44,76].然后根據(jù)各類負(fù)載運(yùn)行特性分別實(shí)施調(diào)度策略,在節(jié)約用電成本的同時(shí),提升用戶用電滿意度和舒適度.文獻(xiàn)[77]將負(fù)載分為常開負(fù)載、可開關(guān)負(fù)載和可靈活調(diào)節(jié)負(fù)載,并用雙向長(zhǎng)短期記憶(Long short term memory,LSTM)網(wǎng)絡(luò)預(yù)測(cè)電力和能源價(jià)格,在此基礎(chǔ)上用Q學(xué)習(xí)算法進(jìn)行優(yōu)化,實(shí)現(xiàn)了能耗減少和成本降低.文獻(xiàn)[44]提出了一種基于置信域策略梯度的家用電器高效需求響應(yīng)算法,該方法不依賴模型,并且通過同一個(gè)策略網(wǎng)絡(luò)輸出不同概率分布的參數(shù),基于不同的概率分布進(jìn)一步采樣得到不同類型設(shè)備優(yōu)化后的離散動(dòng)作或連續(xù)動(dòng)作.文獻(xiàn)[76]對(duì)比了DQN 和確定性策略梯度法(Deterministic policy gradient,DPG)的優(yōu)化性能,根據(jù)電價(jià)實(shí)時(shí)在線優(yōu)化用電設(shè)備的動(dòng)作,實(shí)現(xiàn)用電總花費(fèi)最小,同時(shí)考慮了開關(guān)頻率對(duì)用電設(shè)備和用戶舒適度的影響,仿真結(jié)果證明DPG 算法在降低用電成本和降低峰均比方面有更好的效果.
此外,由于多重不確定因素在不同時(shí)間尺度上表現(xiàn)出不同的分布特性,許多文章選擇在不同時(shí)間尺度上進(jìn)行優(yōu)化,包括日前調(diào)度、日內(nèi)滾動(dòng)優(yōu)化和實(shí)時(shí)調(diào)整.例如,Xu 等[21]在滾動(dòng)時(shí)間窗口下利用神經(jīng)網(wǎng)絡(luò)對(duì)不確定性因素預(yù)測(cè)并進(jìn)行優(yōu)化,而Lu 等[78]則提出了一種提前一小時(shí)的家庭能源管理實(shí)時(shí)需求響應(yīng)算法.常見的目標(biāo)函數(shù)如式(5)所示[21]
對(duì)家庭供暖通風(fēng)空調(diào)控制系統(tǒng)進(jìn)行管理也是家庭能源管理的一個(gè)熱點(diǎn),許多專家在這方面進(jìn)行了深入的研究[40,79?80].由于模型和參數(shù)的不確定性(如可再生能源發(fā)電、電力需求、室外溫度和電價(jià))以及時(shí)間耦合約束的存在,文獻(xiàn)[40]提出了具有注意力機(jī)制的多智能體深度強(qiáng)化學(xué)習(xí)方法,在不需要任何關(guān)于不確定參數(shù)的先驗(yàn)知識(shí)和建筑物熱動(dòng)力學(xué)模型的情況下進(jìn)行學(xué)習(xí),并獲得優(yōu)化控制策略.類似地,文獻(xiàn)[45]設(shè)計(jì)的基于DDPG 的能源管理算法,也不需要參數(shù)和模型的先驗(yàn)知識(shí),仿真結(jié)果驗(yàn)證了該算法的有效性和魯棒性.文獻(xiàn)[25]按照模型規(guī)模從小到大的順序?qū)谏疃葟?qiáng)化學(xué)習(xí)的智能建筑能源管理作了相關(guān)綜述,從大功耗HVAC、智能家庭、智能商業(yè)和住宅建筑三個(gè)方面進(jìn)行了詳細(xì)而全面的總結(jié).
值得一提的是,在家庭能源管理問題中,包括用電時(shí)間、用電量等能體現(xiàn)用戶偏好習(xí)慣的私人信息也可以得到有效的保護(hù).例如,文獻(xiàn)[81?82]通過增加各個(gè)設(shè)備耗電量和使用時(shí)間的相似度或者加入儲(chǔ)電設(shè)備充放電操作來掩蓋用戶用電偏好信息,文獻(xiàn)[83]通過添加噪聲來隱藏有效的用戶用電信息,文獻(xiàn)[84?85]通過平整負(fù)載曲線來加強(qiáng)隱私保護(hù).
得益于國(guó)家政策的扶持以及電池技術(shù)和電動(dòng)馬達(dá)技術(shù)的發(fā)展,電動(dòng)汽車市場(chǎng)逐年擴(kuò)張[86],如何通過調(diào)度電動(dòng)汽車充放電行為達(dá)到降低充電成本的目標(biāo)一直是人們關(guān)注的焦點(diǎn).鑒于電動(dòng)汽車充放電的靈活性,許多研究場(chǎng)景考慮利用隨機(jī)的太陽能或風(fēng)能為其充電.私人電動(dòng)汽車在第2.2 節(jié)中作為一種特殊的家庭負(fù)載或移動(dòng)儲(chǔ)電設(shè)備已經(jīng)被討論,因此本節(jié)主要討論公用電動(dòng)汽車的充放電規(guī)劃調(diào)度問題.
龐大的電動(dòng)汽車數(shù)量使調(diào)度優(yōu)化變量具有高維特性,并且可再生能源發(fā)電和用戶需求的不確定性使得模型難以建立.文獻(xiàn)[87]設(shè)計(jì)了基于參數(shù)自適應(yīng)差分進(jìn)化的多目標(biāo)優(yōu)化算法,但是該方法需要在計(jì)算風(fēng)電功率的概率基礎(chǔ)上建立電動(dòng)汽車?風(fēng)能集成電力系統(tǒng)協(xié)調(diào)調(diào)度模型.文獻(xiàn)[88]采用的基于場(chǎng)景樹的動(dòng)態(tài)規(guī)劃方法必須具備對(duì)不確定性模型完全準(zhǔn)確可知的能力,并生成場(chǎng)景樹來描述系統(tǒng)動(dòng)態(tài)變化.
針對(duì)電動(dòng)汽車充放電規(guī)劃問題中的不確定性主要有兩種處理方法.一種是在決策優(yōu)化之前對(duì)其進(jìn)行預(yù)測(cè)得到估計(jì)值[89?90].其中,通過物理模型或者概率分布來預(yù)測(cè)不確定性因素是較為簡(jiǎn)單且常見的[91?92],適用于精確度要求較低的場(chǎng)景(如日前小時(shí)級(jí)預(yù)測(cè)需求);通過利用歷史數(shù)據(jù)訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測(cè)[93]的方法,對(duì)數(shù)據(jù)要求比較高、計(jì)算復(fù)雜,更適合精確度要求較高的場(chǎng)景(如日內(nèi)分鐘級(jí)預(yù)測(cè)需求)[94],因此它往往出現(xiàn)在單獨(dú)的預(yù)測(cè)問題中.另一種方法得益于深度強(qiáng)化學(xué)習(xí)算法的興起,它將歷史數(shù)據(jù)作為系統(tǒng)狀態(tài)直接輸入到智能體中,智能體通過神經(jīng)網(wǎng)絡(luò)自行提取其中的特征,而后輸入策略網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)得到最優(yōu)策略.該過程無需輸出預(yù)測(cè)結(jié)果值,屬于數(shù)據(jù)驅(qū)動(dòng)的方法,因此得到的策略優(yōu)劣也不依賴于預(yù)測(cè)結(jié)果的精度.本文將電動(dòng)汽車充放電策略管理問題中處理不確定因素的方法分為三種,即機(jī)理模型驅(qū)動(dòng)(簡(jiǎn)單模型預(yù)測(cè))、數(shù)據(jù)驅(qū)動(dòng)和模型已知(包含通過精確預(yù)測(cè)得到的模型,在本文中不作詳細(xì)討論).例如,文獻(xiàn)[95]提出的基于深度強(qiáng)化學(xué)習(xí)的方法包含兩個(gè)網(wǎng)絡(luò):一個(gè)代表網(wǎng)絡(luò),用于從電價(jià)中提取特征;一個(gè)Q網(wǎng)絡(luò),用于近似最佳動(dòng)作價(jià)值函數(shù).類似地,文獻(xiàn)[31]利用LSTM 網(wǎng)絡(luò)從歷史能源價(jià)格中提取相關(guān)特征,用充電控制深度確定性策略梯度方法進(jìn)行優(yōu)化.
針對(duì)優(yōu)化變量的高維特性,一些文獻(xiàn)從模型上通過定義電動(dòng)汽車聚合器、事件和子狀態(tài)將具有高維變量的電動(dòng)汽車充放電管理問題進(jìn)行分層優(yōu)化,以降低每一層的變量維數(shù),同時(shí)能一定程度上保護(hù)下層用戶的隱私信息,適用于有隱私保護(hù)需求的高維系統(tǒng)優(yōu)化問題.例如將具有相同剩余電量或相同剩余停車時(shí)間或停在同一位置的電動(dòng)汽車定義為一個(gè)電動(dòng)汽車聚合器,構(gòu)建雙層或者三層[96]優(yōu)化模型,上層對(duì)電動(dòng)汽車聚合器群體進(jìn)行電量分配,下層對(duì)各個(gè)聚合器內(nèi)部的電動(dòng)汽車進(jìn)行充放電管理[97].文獻(xiàn)[97]基于雙層馬爾科夫模型開發(fā)了一種雙層近端策略優(yōu)化算法來實(shí)現(xiàn)充電成本最小化.文獻(xiàn)[98]提出了一種基于事件的策略迭代方法,在假設(shè)風(fēng)能服從正態(tài)分布和充電量服從基于停車時(shí)間的正態(tài)分布條件下,在上層定義了一系列事件以確定每個(gè)聚合器要充電的電動(dòng)汽車數(shù)量,下層具體決定每輛電動(dòng)汽車的充電計(jì)劃,有效降低了電動(dòng)汽車的充電成本.文獻(xiàn)[99]提出一種基于分布式模擬的策略改進(jìn)方法對(duì)基于經(jīng)驗(yàn)的策略進(jìn)行改進(jìn),并且通過將建筑集合群內(nèi)的電動(dòng)汽車定義為一個(gè)子狀態(tài)來避免維度災(zāi)難.另外,文獻(xiàn)[100]采用一種新穎的二維表格從模型上簡(jiǎn)化電動(dòng)汽車充電調(diào)度問題,其中一維表示需要充電的時(shí)間,另一維表示剩余停車時(shí)間,每個(gè)單元格的值表示該狀態(tài)電動(dòng)汽車數(shù)量占總數(shù)的比例,因此模型大小僅與充電時(shí)間和剩余停車時(shí)間相關(guān),不會(huì)隨著電動(dòng)汽車數(shù)量增加而呈指數(shù)上升,從而有效避免維度災(zāi)難.而且二維表格的建模方式還具有可擴(kuò)展性,例如當(dāng)電動(dòng)汽車具有異質(zhì)性時(shí),可以將表格擴(kuò)展到三維,第三維表示不同電動(dòng)汽車的充電效率.強(qiáng)化學(xué)習(xí)算法作為解決具有多重不確定性的復(fù)雜動(dòng)態(tài)系統(tǒng)管理問題的另一種思路,可以與深度學(xué)習(xí)結(jié)合從而解決高維狀態(tài)空間和動(dòng)作空間的難題.利用強(qiáng)化學(xué)習(xí)求解電動(dòng)汽車充放電策略問題,首先需要建立馬爾科夫決策過程模型,其中系統(tǒng)狀態(tài)主要包括風(fēng)力發(fā)電量剩余所需充電量、剩余停車時(shí)間或剩余行駛時(shí)間和電動(dòng)汽車位置動(dòng)作可以用簡(jiǎn)單的二值變量1 和0 表示是否充電,更復(fù)雜的情況可以考慮多個(gè)離散動(dòng)作(例如充電、放電、既不充電也不放電)或者連續(xù)動(dòng)作(連續(xù)數(shù)值表示充放電具體電量).在給定系統(tǒng)狀態(tài)和動(dòng)作的情況下,電動(dòng)汽車狀態(tài)動(dòng)力學(xué)如式(6)~式(8)所示[99]
其中,式(6)表示電動(dòng)汽車剩余停車時(shí)間或剩余行駛時(shí)間的動(dòng)態(tài)特性,?t表示時(shí)間間隔,τt+1和ηt+1為兩個(gè)隨機(jī)變量,分別表示電動(dòng)汽車i在t+1 時(shí)刻到達(dá)時(shí)的剩余停車時(shí)間和離開后的剩余行駛時(shí)間;式(7)表示電動(dòng)汽車位置變化情況,Rt+1表示電動(dòng)汽車i在t+1 時(shí)刻所到達(dá)的位置;式(8)表示剩余所需充電量的變化,是一個(gè)二維動(dòng)作變量,1 和0 分別表示第i輛電動(dòng)汽車是否充電,P為恒定的充電功率,表示電動(dòng)汽車到達(dá)時(shí)的電量狀態(tài),fi(ηt+1)表示電動(dòng)汽車能耗與其行駛時(shí)間ηt+1的關(guān)系.
此外,電動(dòng)汽車充電決策問題中的約束條件可以分為可行性約束和安全性約束.其中,可行性約束主要針對(duì)策略的可行性,例如電池電量狀態(tài)受電池容量限制、充電狀態(tài)受電動(dòng)汽車位置限制等;安全性約束主要考慮供電量與充電需求間的平衡、單位時(shí)間充電功率大小限制等.對(duì)于有復(fù)雜約束的優(yōu)化問題,很難實(shí)現(xiàn)直接求解,常見的方法是將各個(gè)約束考慮為優(yōu)化目標(biāo)進(jìn)行加權(quán)求和,從而將具有復(fù)雜約束的優(yōu)化問題轉(zhuǎn)化為多目標(biāo)無約束優(yōu)化問題.通過設(shè)計(jì)懲罰函數(shù)對(duì)違反約束的動(dòng)作進(jìn)行懲罰也是一種常見的處理約束的方法.基于類似的思想,強(qiáng)化學(xué)習(xí)可以對(duì)不同動(dòng)作設(shè)計(jì)不同的獎(jiǎng)勵(lì)回報(bào)值來懲罰違反約束的動(dòng)作、獎(jiǎng)勵(lì)滿足約束的動(dòng)作.但是由于過高的懲罰會(huì)使智能體學(xué)習(xí)效率降低,過低的懲罰不利于系統(tǒng)的安全性,因此設(shè)計(jì)適當(dāng)?shù)莫?jiǎng)勵(lì)函數(shù)存在一定的困難.在文獻(xiàn)[101]中,作者將電動(dòng)汽車充放電調(diào)度問題建模為約束馬爾科夫決策過程,并提出了一種基于安全深度強(qiáng)化學(xué)習(xí)的無模型方法,在不需要關(guān)于不確定因素的任何知識(shí)、不需要設(shè)計(jì)懲罰項(xiàng)或調(diào)整懲罰系數(shù)的情況下,直接使用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)滿足約束的最佳充放電策略.此外,將約束嵌入環(huán)境模型也是一種處理約束的方法.例如文獻(xiàn)[102]利用約束深度雙Q網(wǎng)絡(luò),在包含隨機(jī)風(fēng)能的場(chǎng)景中,將動(dòng)作約束模型嵌入到深度雙Q學(xué)習(xí)網(wǎng)絡(luò)中,以解決狀態(tài)空間過大且決策受限的MDP問題,減少了Q值估計(jì)的誤差,并通過生成更有效的訓(xùn)練數(shù)據(jù)提高充電策略的準(zhǔn)確性.
在電動(dòng)汽車充放電規(guī)劃調(diào)度問題中,優(yōu)化目標(biāo)除了包含最小化充電成本外,還包含提升用戶用車需求滿足率、降低棄風(fēng)率[87]、降低充電時(shí)間成本[103]、避免電動(dòng)汽車充放電導(dǎo)致變壓器過載等實(shí)際需求[104].文獻(xiàn)[105]提出了一種針對(duì)配電網(wǎng)的最優(yōu)電動(dòng)汽車充電策略,在滿足所有物理約束的同時(shí)最大化配電系統(tǒng)運(yùn)營(yíng)商的利潤(rùn),并利用DDPG 算法來分析不確定的用戶用車行為對(duì)充電策略的影響,滿足電動(dòng)汽車電能需求的同時(shí)最大程度地減少用戶的充電費(fèi)用.表3 總結(jié)了處理可再生能源發(fā)電和用戶用車需求不確定性以及高維變量問題的一些常規(guī)算法和強(qiáng)化學(xué)習(xí)算法,并從計(jì)算速度和算法適應(yīng)性角度分析了算法的性能.其中√表示文獻(xiàn)提出的算法在這方面具有較好的性能,×表示文獻(xiàn)中提到的算法在這方面具有較差的性能,空白的單元格表示文中沒有提到這方面的性能.從表3 可以看出,利用強(qiáng)化學(xué)習(xí)可以處理具有不確定性的無模型問題,而深度網(wǎng)絡(luò)既可以解決高維變量帶來的困難,也能對(duì)不確定因素進(jìn)行預(yù)測(cè)[106].因此,深度強(qiáng)化學(xué)習(xí)算法能更好地解決此類具有多重不確定性的高維無模型問題.
表3 電動(dòng)汽車充放電管理算法Table 3 The algorithm of charge and discharge management of electric vehicle
受理論方法和各種能源技術(shù)的限制,以前天然氣、電能和熱能等能源系統(tǒng)往往是獨(dú)立計(jì)劃和運(yùn)行的,相互之間缺乏協(xié)調(diào),由此產(chǎn)生的諸如能量利用率低、能源系統(tǒng)的靈活性和可靠性低等問題亟待解決[107].可再生能源技術(shù)、分布式發(fā)電技術(shù)、綜合能源利用技術(shù)和能源管理技術(shù)的迅速發(fā)展為綜合能源系統(tǒng)的形成和發(fā)展提供了技術(shù)支持.以電力為核心,耦合了燃?xì)?、熱力及其他能源的綜合能源系統(tǒng)已經(jīng)成為國(guó)際能源領(lǐng)域的重要戰(zhàn)略方向[108],其目標(biāo)是通過拓寬能源來源和減少能源消耗建立可持續(xù)的能源系統(tǒng),從而緩解能源危機(jī)并減少環(huán)境污染.在此背景下,除了綜合能源系統(tǒng)外[109],類似的多能協(xié)調(diào)、互補(bǔ)共濟(jì)的能源利用形式還包括能源互聯(lián)網(wǎng)(Energy Internet,EI)[110]和自能源(We-energy)[111].其中,能源互聯(lián)網(wǎng)是以電力網(wǎng)絡(luò)、熱力網(wǎng)絡(luò)、天然氣網(wǎng)絡(luò)及交通網(wǎng)絡(luò)等復(fù)雜網(wǎng)絡(luò)為物理實(shí)體的一種新型開放式能源生態(tài)系統(tǒng),自能源是能夠?qū)崿F(xiàn)能量間雙向傳輸及靈活轉(zhuǎn)換的能源互聯(lián)網(wǎng)子單元.本節(jié)主要討論綜合能源系統(tǒng)管理問題.
協(xié)同管理多種能源可以提高能源利用率,保證用能可靠性,提升用戶滿意度,解決能源可持續(xù)供應(yīng)以及環(huán)境污染等問題[108,112].然而,綜合能源系統(tǒng)具有多元大數(shù)據(jù)、源荷雙端不確定、時(shí)空多維耦合等特征,亟需理論方法和關(guān)鍵技術(shù)的突破.對(duì)于綜合能源系統(tǒng),許多文章運(yùn)用智能能源樞紐(Smart energy hub,SEH)[113]、多能載波(Multi-energy carrier,MEC)[114]、熱電聯(lián)產(chǎn)(Cogeneration,combined heat and power,CHP)、冷熱電三聯(lián)產(chǎn)(Combined cooling,heating and power,CCHP)[115]的概念協(xié)調(diào)優(yōu)化多種能源以實(shí)現(xiàn)經(jīng)濟(jì)性和社會(huì)性目標(biāo).例如文獻(xiàn)[116]在優(yōu)化能源樞紐(Energy hub,EH)調(diào)度時(shí)考慮了三種目標(biāo)函數(shù),分別是最小化當(dāng)前凈成本、最小化二氧化碳總排放量以及同時(shí)最小化當(dāng)前凈成本和二氧化碳總排放量.在文獻(xiàn)[117]中,通過調(diào)度電力和天然氣的交換以及能源樞紐的能源分配,不僅減小運(yùn)營(yíng)成本實(shí)現(xiàn)經(jīng)濟(jì)性目標(biāo),而且順應(yīng)可持續(xù)發(fā)展規(guī)律減少碳排放實(shí)現(xiàn)社會(huì)性目標(biāo).常見的如式(9a)、(9b)、(9c)和式(10)所示,優(yōu)化目標(biāo)為最小化能源成本J(t)[118]
其中,Je(t)指電力成本,Jg(t) 指天然氣成本.電力成本取決于電力負(fù)荷Le(t)、天然氣輸入熱電聯(lián)產(chǎn)系統(tǒng)后的發(fā)電量PgC(t)×和電力價(jià)格Pre(t),其中表示熱電聯(lián)產(chǎn)系統(tǒng)的電能轉(zhuǎn)化效率;天然氣成本主要由熱電聯(lián)產(chǎn)和鍋爐的天然氣輸入PgC(t) 、PgB(t)以及天然氣價(jià)格Prg(t) 決定.此外,求解得到的優(yōu)化策略還需要滿足用戶熱能需求的約束條件(10)以及熱電聯(lián)產(chǎn)系統(tǒng)和鍋爐等的輸入容量約束,式(10)中和表示熱電聯(lián)產(chǎn)系統(tǒng)和鍋爐的熱能轉(zhuǎn)化效率,ηC表示制冷機(jī)的效率,Lh(t) 和Lc(t) 表示熱負(fù)載和冷負(fù)載需求.不同文獻(xiàn)考慮的約束有所不同,例如文獻(xiàn)[119]還考慮了電力負(fù)載平衡約束、熱能供需平衡約束、各個(gè)設(shè)備能量輸出上下限的約束等.文獻(xiàn)[120]已經(jīng)對(duì)優(yōu)化目標(biāo)和傳統(tǒng)求解算法進(jìn)行了總結(jié),本文主要聚焦于綜合能源系統(tǒng)模型的規(guī)模級(jí)別和時(shí)間尺度分析,并對(duì)常規(guī)算法進(jìn)行簡(jiǎn)單對(duì)比.
從規(guī)模級(jí)別來看,綜合能源系統(tǒng)包括城市能源系統(tǒng)[121]、社區(qū)能源系統(tǒng)[122]、工廠能源系統(tǒng)[123]和家庭能源系統(tǒng)[124].文獻(xiàn)[125]將由多個(gè)能源樞紐構(gòu)成的合作社區(qū)作為研究對(duì)象,研究了共享能量的合作經(jīng)濟(jì)調(diào)度問題,將能源交換和定價(jià)問題建模為合作博弈過程,在考慮不同EH 目標(biāo)的條件下實(shí)現(xiàn)Pareto最優(yōu)的平衡.對(duì)多個(gè)決策者應(yīng)用分布式優(yōu)化算法尋找合作系統(tǒng)的議價(jià)解決方案,保證了EH 的自主調(diào)度和信息保密性.
由于綜合能源系統(tǒng)是一個(gè)多時(shí)空尺度的耦合系統(tǒng),不同優(yōu)化對(duì)象具有不同時(shí)空特性,例如熱能具有熱慣性,因此對(duì)熱能進(jìn)行管理調(diào)度的頻率可以比電能低.用戶對(duì)價(jià)格變化的響應(yīng)較快,因此以價(jià)格為導(dǎo)向的需求響應(yīng)往往比較快.準(zhǔn)確預(yù)測(cè)不確定性因素并進(jìn)行提前計(jì)劃能夠提升方案性能,日前調(diào)度[126]是一種常見的方式,但是在實(shí)際運(yùn)行中計(jì)劃情況可能會(huì)與實(shí)際情況發(fā)生偏差,導(dǎo)致計(jì)劃方案的可行性降低.因此,除日前調(diào)度外,往往需要在更小的時(shí)間尺度內(nèi)進(jìn)行更為精確的優(yōu)化,例如文獻(xiàn)[122]在社區(qū)級(jí)能源系統(tǒng)的合作交易模式下提出一種實(shí)時(shí)滾動(dòng)能源管理模型.在日前調(diào)度的基礎(chǔ)上,還可以與日內(nèi)滾動(dòng)優(yōu)化、實(shí)時(shí)調(diào)整等不同時(shí)間尺度的調(diào)度相配合,形成多時(shí)間尺度優(yōu)化,進(jìn)一步提高優(yōu)化策略的性能[127].表4 從綜合能源系統(tǒng)規(guī)模級(jí)別和不同時(shí)間尺度的角度對(duì)部分文獻(xiàn)進(jìn)行總結(jié).
從算法的角度,表4 主要總結(jié)幾種傳統(tǒng)算法,在運(yùn)用這些方法的過程中,不同文獻(xiàn)利用不同方式處理雙端不確定性、多種能源耦合、非線性目標(biāo)等問題.例如Ma 等[122]考慮了光伏發(fā)電的隨機(jī)特征和可變負(fù)荷,用風(fēng)險(xiǎn)條件值綜合考慮當(dāng)期成本和未來成本.文獻(xiàn)[128]通過混合整數(shù)非線性規(guī)劃優(yōu)化方法解決了不確定環(huán)境下的能源樞紐非線性調(diào)度問題.文獻(xiàn)[129]將多能載波系統(tǒng)(Multiple energy carrier systems,MECS)的分布式多周期多能量運(yùn)行模型調(diào)度問題描述為混合整數(shù)二階錐規(guī)劃問題,隨后通過順序二階錐規(guī)劃方法解決多能量網(wǎng)絡(luò)中的強(qiáng)耦合和固有非凸性問題,以確保令人滿意的收斂性能.同時(shí)考慮到相鄰的異構(gòu)能源樞紐的自主性,利用一種完全分布式的基于一致性的交替方向乘子法,僅需要相鄰信息交換便可優(yōu)化多能量流.文獻(xiàn)[130]提出了一種基于EH 的雙層模型:上層領(lǐng)導(dǎo)者從大的時(shí)間范圍基于輸入信息和限制的功率單元數(shù)量處理能源樞紐的規(guī)劃和設(shè)計(jì)問題,在此基礎(chǔ)上下層運(yùn)營(yíng)部門對(duì)各類負(fù)載進(jìn)行操作分配,然后利用基于多目標(biāo)粒子群優(yōu)化的雙層元啟發(fā)式算法使關(guān)鍵績(jī)效指標(biāo)(Key performance indicators,KPI)最小化.
表4 綜合能源系統(tǒng)管理的常規(guī)算法Table 4 Conventional algorithm for integrated energy system management
本文將綜合能源系統(tǒng)管理問題的優(yōu)化目標(biāo)從經(jīng)濟(jì)和社會(huì)兩個(gè)角度進(jìn)行分類.經(jīng)濟(jì)角度主要包括系統(tǒng)建設(shè)運(yùn)行維護(hù)成本、能源消費(fèi)成本和能源利用率,社會(huì)角度包括降低能耗峰均比、平整負(fù)荷曲線提升能源網(wǎng)絡(luò)穩(wěn)定性、提升用戶滿意度以及環(huán)境友好性.鑒于文獻(xiàn)[120]已進(jìn)行這方面的總結(jié),在此不再贅述.此外,隱私保護(hù)[125?126]和減輕計(jì)算負(fù)擔(dān)[127?128,131]也被納入考慮范圍.
基于前文提到的強(qiáng)化學(xué)習(xí)具有無模型依賴性、環(huán)境適應(yīng)性等優(yōu)點(diǎn),本節(jié)聚焦于利用強(qiáng)化學(xué)習(xí)算法求解綜合能源系統(tǒng)管理問題.首先簡(jiǎn)要介紹綜合能源系統(tǒng)中的馬爾科夫決策過程模型,包括系統(tǒng)狀態(tài)s(t)、動(dòng)作a(t)和獎(jiǎng)勵(lì)函數(shù)r(t)[118]
其中,式(11a)是由耗能成本的相反數(shù)構(gòu)成的獎(jiǎng)勵(lì)函數(shù),第1 項(xiàng)為天然氣成本,由輸入熱電聯(lián)產(chǎn)系統(tǒng)和輸入鍋爐的天然氣總量PgC(t) 、PgB(t) 與天然氣價(jià)格Prg決定,第2 項(xiàng)是由天然氣轉(zhuǎn)化為電能進(jìn)而節(jié)約的電力成本,ηeC是天然氣經(jīng)熱電聯(lián)產(chǎn)系統(tǒng)轉(zhuǎn)化為電能的效率,Pre(t) 是時(shí)變電價(jià);式(11b)是由時(shí)變電價(jià)Pre(t) 構(gòu)成的系統(tǒng)狀態(tài);式(11c)是由輸入熱電聯(lián)產(chǎn)系統(tǒng)的天然氣量PgC(t) 構(gòu)成的動(dòng)作[118].此外,當(dāng)降低碳排放、提升用戶用能滿意度也作為優(yōu)化目標(biāo)時(shí),相應(yīng)的獎(jiǎng)勵(lì)函數(shù)也應(yīng)該考慮這些因素,例如加上碳排放成本和用戶不滿意成本的相反數(shù)作為新的獎(jiǎng)勵(lì)函數(shù)[132].
在本節(jié)中,綜合能源系統(tǒng)管理的優(yōu)化目標(biāo)和優(yōu)化變量仍然沒有大的改變,即問題的背景、難點(diǎn)與第3.1 節(jié)一致.但是深度強(qiáng)化學(xué)習(xí)算法的引進(jìn)增強(qiáng)了面對(duì)無精確模型[118,133]、可變場(chǎng)景[134?135]、多重不確定性[117]等情況的求解能力.表5 從綜合能源系統(tǒng)管理的優(yōu)化目標(biāo)、強(qiáng)化學(xué)習(xí)算法及性能這三個(gè)方面進(jìn)行了總結(jié).其中由于經(jīng)濟(jì)性目標(biāo)是普遍存在的,因此表5 主要對(duì)社會(huì)性目標(biāo)進(jìn)行總結(jié),具體包括用戶滿意度、環(huán)境友好性以及負(fù)荷平滑程度.Ye 等[133]提出了一種不依賴于模型的優(yōu)先深度確定性策略梯度方法來求解住宅綜合能源系統(tǒng)實(shí)時(shí)自主能源管理策略,該方法用TD 誤差的大小來衡量Q值估計(jì)的準(zhǔn)確度并指導(dǎo)學(xué)習(xí).TD 誤差表明了一個(gè)智能體可以從一次試錯(cuò)中學(xué)到知識(shí)的效果,較大的正TD 誤差表明這是一次非常成功的嘗試,而較大的負(fù)TD 誤差表明智能體的此次嘗試是失敗的.在訓(xùn)練期間對(duì)這些經(jīng)驗(yàn)的重演進(jìn)行優(yōu)先級(jí)排序可以使智能體基于成功的嘗試更快地優(yōu)化策略,防止其選擇某些狀態(tài)下的不利動(dòng)作,從而提高策略學(xué)習(xí)的質(zhì)量與效率.文獻(xiàn)[118]在住宅智能能源樞紐中采用蒙特卡洛方法來尋找近似最佳的解決方案以降低運(yùn)營(yíng)成本.
表5 基于強(qiáng)化學(xué)習(xí)的綜合能源系統(tǒng)管理Table 5 Integrated energy system management based on reinforcement learning
在場(chǎng)景適應(yīng)性方面,Zhou 等[134]利用分布式近端策略優(yōu)化算法訓(xùn)練智能體以探索熱電聯(lián)產(chǎn)系統(tǒng)的最佳經(jīng)濟(jì)調(diào)度,并且能夠自適應(yīng)地學(xué)習(xí)不同場(chǎng)景下的優(yōu)化管理策略.文獻(xiàn)[135]采用DDPG 方法解決動(dòng)態(tài)能量轉(zhuǎn)換和管理決策問題,系統(tǒng)運(yùn)營(yíng)商基于在線過程自適應(yīng)地協(xié)調(diào)電氣裝置和發(fā)電機(jī)的運(yùn)行,進(jìn)而平滑電力和天然氣的凈負(fù)荷曲線,同時(shí)兼顧了經(jīng)濟(jì)性目標(biāo).在能源價(jià)格不確定的條件下,Hua 等[117]提出了條件隨機(jī)場(chǎng)方法來分析能源的動(dòng)態(tài)價(jià)格彈性,基于這些內(nèi)在特征設(shè)計(jì)了強(qiáng)化學(xué)習(xí)算法來調(diào)度電力和天然氣的交換以及能源樞紐的能源分配,以減小運(yùn)營(yíng)成本和降低碳排放.此外,文獻(xiàn)[119]為了滿足We-energy 的功率和熱能需求,同時(shí)實(shí)現(xiàn)運(yùn)營(yíng)成本最小化和降低污染物排放,在智能能源管理系統(tǒng)中將Q學(xué)習(xí)算法與資格跡理論結(jié)合以獲得最優(yōu)策略并加快計(jì)算速度.
優(yōu)化問題除了常見的能源設(shè)備運(yùn)行策略外,不少文獻(xiàn)還考慮了能源樞紐系統(tǒng)的設(shè)計(jì)和配置問題.文獻(xiàn)[136]提出了一種基于強(qiáng)化學(xué)習(xí)的雙層調(diào)度策略,用于同時(shí)優(yōu)化EH 系統(tǒng)的設(shè)計(jì)和運(yùn)行策略.文獻(xiàn)[137]中智能體通過強(qiáng)化學(xué)習(xí)方法找到EH 的最佳配置,即燃?xì)廨啓C(jī)、熔爐、變壓器和存儲(chǔ)設(shè)備的組合以及這些設(shè)備的最佳控制策略,最大程度地降低設(shè)備總成本和單位成本,同時(shí)滿足用戶的電熱負(fù)載需求.
在能源管理優(yōu)化決策問題中,當(dāng)面臨的問題模型是單智能體時(shí),智能體所在的環(huán)境是相對(duì)穩(wěn)定不變、可預(yù)測(cè)的.但是在多智能體強(qiáng)化學(xué)習(xí)中,例如多微網(wǎng)優(yōu)化管理、多個(gè)家庭能源交易或多種能源調(diào)度的問題[141],環(huán)境是復(fù)雜的、動(dòng)態(tài)的,給學(xué)習(xí)訓(xùn)練帶來很大的挑戰(zhàn).而且多智能體之間可能包含合作與競(jìng)爭(zhēng)等多重關(guān)系,例如在選擇能源種類時(shí),存在不同種類能源供給之間的博弈;在制定能源價(jià)格時(shí),存在多個(gè)能源供應(yīng)商之間的博弈;在優(yōu)化購買能源策略時(shí),存在能源供應(yīng)商和能源消費(fèi)者之間的博弈[142].因此引入博弈的概念,將博弈論與強(qiáng)化學(xué)習(xí)相結(jié)合可以很好地處理這些問題.Zhang 等[138]針對(duì)多能載波系統(tǒng)的分布式能源樞紐經(jīng)濟(jì)調(diào)度問題(Energy hub economic dispatch,EHED)提出了一種多智能體議價(jià)學(xué)習(xí)方法.每個(gè)智能體利用帶聯(lián)想記憶的經(jīng)典Q學(xué)習(xí)獲取知識(shí),買方與賣方利用討價(jià)還價(jià)博弈的方法進(jìn)行有效協(xié)調(diào),從而實(shí)現(xiàn)所有能源樞紐的總收益最大化.對(duì)于分布式的EHED,每個(gè)能源樞紐都可以看作是討價(jià)還價(jià)博弈過程中的一個(gè)參與者,在該模型中具有最多種輸出能量類型的樞紐可以被選擇作為賣方,賣方智能體只負(fù)責(zé)對(duì)不同買方報(bào)價(jià),相比之下,每個(gè)買方智能體不僅需要與賣方進(jìn)行談判,還需要搜索潛在的更優(yōu)解決方案.
在住宅級(jí)別,智能電表的推出和智能設(shè)備的快速部署是綜合能源系統(tǒng)自治的基礎(chǔ),該系統(tǒng)可以利用智能電表提供的實(shí)時(shí)信息來優(yōu)化調(diào)度不同智能設(shè)備的運(yùn)行,從而最大程度地減少終端用戶能源成本.但是在耦合了多種能源的綜合能源系統(tǒng)中,隱私保護(hù)問題仍然值得關(guān)注.與單一電能的管理類似,從模型角度考慮,可以建立分層馬爾科夫決策過程模型或加入噪聲以掩蓋用戶隱私信息[64,83];從優(yōu)化目標(biāo)角度考慮,可以平整負(fù)荷曲線來隱藏耗能信息[84?85];從算法角度考慮,強(qiáng)化學(xué)習(xí)算法在不需要用戶用能數(shù)據(jù)的情況下,從與環(huán)境交互獲得的獎(jiǎng)勵(lì)回報(bào)中學(xué)習(xí)到最優(yōu)能源管理策略,可以一定程度上保護(hù)用戶隱私[139].在綜合能源系統(tǒng)管理中,分布式優(yōu)化算法是一種較為常見的保障信息私密性的方法[125?126].
除了住宅級(jí)別綜合能源系統(tǒng),基于強(qiáng)化學(xué)習(xí)的綜合能源系統(tǒng)管理方案還能用于建筑物供暖系統(tǒng)和更復(fù)雜的工業(yè)場(chǎng)景中.文獻(xiàn)[139]提出了雙深度神經(jīng)擬合Q迭代方法控制建筑物室內(nèi)溫度,在降低能耗和成本的同時(shí)確保居住者舒適,該算法不僅有更短的計(jì)算時(shí)間,而且能提高對(duì)建筑物動(dòng)態(tài)非平穩(wěn)過程的魯棒性.Wang 等[140]針對(duì)鋼鐵行業(yè)綜合能源系統(tǒng)中各類能源輸入量的優(yōu)化問題,提出了基于演員?評(píng)論家的分層優(yōu)化模型及循環(huán)求解方法.該方法既能解決非線性約束,又可以有效獲得最優(yōu)能源分配方案,降低生產(chǎn)鋼的能耗并確保氣體排放達(dá)標(biāo).
本文所提到的綜合能源系統(tǒng)管理優(yōu)化問題的求解難度體現(xiàn)在系統(tǒng)的高度不確定性、難以建立精確的系統(tǒng)模型、維度災(zāi)難以及變量耦合等方面.分層馬爾科夫決策過程是一種求解具有高維變量問題的思路,而且能一定程度上保護(hù)用戶隱私信息,適用于有隱私保護(hù)需求的高維綜合能源系統(tǒng)管理優(yōu)化問題.強(qiáng)化學(xué)習(xí)由于不具有模型依賴性,可以在沒有先驗(yàn)知識(shí)的情況下通過與環(huán)境交互進(jìn)行學(xué)習(xí),解決新能源發(fā)電和用戶用能需求的不確定性帶來的問題,同時(shí)深度神經(jīng)網(wǎng)絡(luò)的引入還可以解決維度災(zāi)難和復(fù)雜優(yōu)化變量耦合的問題,因此深度強(qiáng)化學(xué)習(xí)在求解具有復(fù)雜動(dòng)態(tài)特性的綜合能源系統(tǒng)管理問題中具有極大潛力.然而,強(qiáng)化學(xué)習(xí)方法也具有一定的局限性,例如學(xué)習(xí)性能很大程度上依賴于人為設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù),降低了可解釋性,而且獎(jiǎng)勵(lì)函數(shù)還需要適用于不同種類能源和具有不同特性用能設(shè)備的學(xué)習(xí),設(shè)計(jì)存在一定的困難.在電能的優(yōu)化管理方面,尤其是與家庭能源系統(tǒng)和電動(dòng)汽車相關(guān)的研究中,強(qiáng)化學(xué)習(xí)算法已經(jīng)是一種常見的求解方法,具有卓越的性能.然而在綜合能源系統(tǒng)中,傳統(tǒng)算法仍然是主流,未來可以更多地嘗試將具有強(qiáng)大自主學(xué)習(xí)能力的強(qiáng)化學(xué)習(xí)方法用于解決具有復(fù)雜動(dòng)態(tài)特性的綜合能源系統(tǒng)優(yōu)化調(diào)度問題.
結(jié)合現(xiàn)有的強(qiáng)化學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)在綜合能源系統(tǒng)管理中的研究進(jìn)展和研究趨勢(shì),下面將從多時(shí)間尺度特性、可解釋性、遷移性和信息安全性4個(gè)方面對(duì)綜合能源系統(tǒng)管理問題進(jìn)行展望.
日前調(diào)度雖然計(jì)算相對(duì)比較簡(jiǎn)單,但由于時(shí)間尺度較大,而且綜合能源系統(tǒng)存在較大的不確定性,在對(duì)綜合能源系統(tǒng)的實(shí)際管理中計(jì)劃情況可能會(huì)與實(shí)際情況發(fā)生較大偏差,導(dǎo)致優(yōu)化效果不佳.因此考慮更為復(fù)雜的日內(nèi)滾動(dòng)優(yōu)化、實(shí)時(shí)調(diào)整或者三者相互結(jié)合的多時(shí)間尺度優(yōu)化,這樣能更加準(zhǔn)確地對(duì)實(shí)際情況進(jìn)行預(yù)估.但是這同時(shí)會(huì)導(dǎo)致計(jì)算量增加,計(jì)算時(shí)間成本上升,難以滿足綜合能源系統(tǒng)管理實(shí)時(shí)性的要求.強(qiáng)化學(xué)習(xí)方法能在特定場(chǎng)景下對(duì)智能體進(jìn)行針對(duì)性訓(xùn)練,當(dāng)該場(chǎng)景下的參數(shù)隨著時(shí)間推移發(fā)生變化時(shí),訓(xùn)練好的智能體也能快速求得最優(yōu)管理策略,從而提高算法效率以達(dá)到實(shí)時(shí)性的要求,因此與強(qiáng)化學(xué)習(xí)算法相結(jié)合的多時(shí)間尺度優(yōu)化可以得到更好的應(yīng)用.
可解釋性是近年來專家學(xué)者討論比較多的一個(gè)話題,在綜合能源系統(tǒng)中,能源管理的策略最終是面向用戶的,可解釋性的提高能夠增加社會(huì)的接受度[143].其中解釋性是指人們能夠理解人工智能算法所作的決策,也就是基于對(duì)模型特征、結(jié)構(gòu)和相關(guān)參數(shù)的整體認(rèn)知來理解算法如何作出決策.從這個(gè)層面上講,由于基于強(qiáng)化學(xué)習(xí)的各種衍生算法都是基于策略迭代和策略提升的原理逐步演變而來,不同的網(wǎng)絡(luò)結(jié)構(gòu)和目標(biāo)函數(shù)分別解決什么樣的問題都已闡明,具有強(qiáng)邏輯性和強(qiáng)可解釋性.但由于在面對(duì)一些具有連續(xù)動(dòng)作和狀態(tài)空間的綜合能源系統(tǒng)管理問題時(shí)引入了深度學(xué)習(xí),用數(shù)據(jù)驅(qū)動(dòng)的神經(jīng)網(wǎng)絡(luò)來擬合策略函數(shù)、值函數(shù);在面對(duì)新能源發(fā)電和用戶耗能需求不確定性時(shí),一些基于強(qiáng)化學(xué)習(xí)的方法也用到深度網(wǎng)絡(luò)對(duì)不確定因素進(jìn)行預(yù)測(cè),這都使強(qiáng)化學(xué)習(xí)在能源管理問題中的可解釋性受到一定程度的影響.因此,如何提升深度強(qiáng)化學(xué)習(xí)的可解釋性是未來深度強(qiáng)化學(xué)習(xí)方法應(yīng)用于實(shí)際綜合能源系統(tǒng)管理中要面臨的一個(gè)重要問題.
不論在電力系統(tǒng)還是綜合能源系統(tǒng)中,能源管理優(yōu)化問題都可能遇到僅有的少量數(shù)據(jù)不足以支持完成網(wǎng)絡(luò)訓(xùn)練的情況.數(shù)據(jù)量不足的可能原因主要有兩種:1)在綜合能源系統(tǒng)中,由于系統(tǒng)規(guī)模較大,所涉及的設(shè)備較多,數(shù)據(jù)收集復(fù)雜且昂貴,出于技術(shù)和成本的原因,綜合能源系統(tǒng)本身無法提供大量的數(shù)據(jù);2)隨著時(shí)間推移,綜合能源系統(tǒng)迅速發(fā)展,當(dāng)系統(tǒng)中的某些設(shè)備或用戶用能偏好發(fā)生變化時(shí),原有的數(shù)據(jù)不再包含充足的實(shí)時(shí)有效信息[144].基于綜合能源系統(tǒng)中的舊場(chǎng)景和歷史數(shù)據(jù)花費(fèi)大量時(shí)間訓(xùn)練得到的網(wǎng)絡(luò)無法在新場(chǎng)景中作出最優(yōu)決策,需要再次利用大量時(shí)間和實(shí)時(shí)數(shù)據(jù)進(jìn)行重新學(xué)習(xí).因此,在綜合能源系統(tǒng)的管理問題中,如何利用先驗(yàn)知識(shí)和少量數(shù)據(jù)進(jìn)行學(xué)習(xí)是當(dāng)下研究熱門.
深度學(xué)習(xí)具有嚴(yán)重的數(shù)據(jù)依賴性,加速學(xué)習(xí)過程是強(qiáng)化學(xué)習(xí)方法面臨的一個(gè)重要問題.在機(jī)器學(xué)習(xí)中,遷移學(xué)習(xí)作為一種運(yùn)用相似任務(wù)已經(jīng)訓(xùn)練好的網(wǎng)絡(luò)中包含的知識(shí)來求解目標(biāo)任務(wù)的方法,主要思想為:解決類似任務(wù)的知識(shí)會(huì)加速目標(biāo)任務(wù)的學(xué)習(xí)過程,并且在類似任務(wù)數(shù)據(jù)充足的前提下有效降低對(duì)目標(biāo)任務(wù)的數(shù)據(jù)依賴[145].由此可以看出,遷移學(xué)習(xí)可以解決綜合能源系統(tǒng)中的跨任務(wù)學(xué)習(xí)問題,對(duì)于出現(xiàn)的新的能源管理任務(wù)體現(xiàn)了時(shí)效性優(yōu)勢(shì),而且降低了對(duì)目標(biāo)任務(wù)的數(shù)據(jù)依賴性.
遷移學(xué)習(xí)過程中,利用目標(biāo)任務(wù)數(shù)據(jù)對(duì)遷移過來的相似任務(wù)網(wǎng)絡(luò)進(jìn)行訓(xùn)練或者微調(diào),源任務(wù)與目標(biāo)任務(wù)之間越相似,遷移就越容易,遷移效果也越好[146].由此可見,這種方法局限于相似任務(wù)間的遷移,而不能用于學(xué)習(xí)全新的任務(wù),因此針對(duì)經(jīng)常發(fā)生變化的綜合能源系統(tǒng)管理問題,進(jìn)一步可以考慮使用元學(xué)習(xí).通俗地講,元學(xué)習(xí)通過研究如何讓神經(jīng)網(wǎng)絡(luò)充分利用舊的綜合能源系統(tǒng)中獲得的知識(shí)經(jīng)驗(yàn)來指導(dǎo)新系統(tǒng)中的學(xué)習(xí)任務(wù),使得神經(jīng)網(wǎng)絡(luò)能針對(duì)新系統(tǒng)中的能源管理任務(wù)進(jìn)行適當(dāng)調(diào)整,從而具有學(xué)會(huì)學(xué)習(xí)的能力[147].一個(gè)好的元學(xué)習(xí)模型能夠很好地推廣到從未遇到過的新的綜合能源系統(tǒng)管理場(chǎng)景中,最終經(jīng)過模型的自我調(diào)整可以完成新的綜合能源系統(tǒng)管理任務(wù).其中小樣本學(xué)習(xí)是元學(xué)習(xí)的一種典型方法[148],可以克服綜合能源系統(tǒng)中數(shù)據(jù)樣本少的困難,并降低數(shù)據(jù)采集成本.此外,元學(xué)習(xí)還可以與強(qiáng)化學(xué)習(xí)結(jié)合構(gòu)成元強(qiáng)化學(xué)習(xí),減少強(qiáng)化學(xué)習(xí)方法對(duì)超參數(shù)、策略網(wǎng)絡(luò)參數(shù)、獎(jiǎng)勵(lì)函數(shù)等的依賴[147].基于此,未來在綜合能源系統(tǒng)管理優(yōu)化問題中,可以通過遷移學(xué)習(xí)、小樣本學(xué)習(xí)甚至元學(xué)習(xí)與深度強(qiáng)化學(xué)習(xí)相結(jié)合來解決遷移性的問題,同時(shí)克服數(shù)據(jù)依賴并加快學(xué)習(xí)過程.
信息技術(shù)的發(fā)展使得人們對(duì)信息安全問題越來越重視.隨著智能電表和智能設(shè)備的發(fā)展,人們的用電偏好和習(xí)慣包含在用戶數(shù)據(jù)信息中,并可以隨時(shí)被獲取,如何掩蓋這些信息成為新的研究熱點(diǎn).由于在處理具有不完全信息的優(yōu)化問題中的突出表現(xiàn),強(qiáng)化學(xué)習(xí)方法在不需要新能源發(fā)電和用戶用能數(shù)據(jù)的情況下,通過與環(huán)境交互獲得的獎(jiǎng)勵(lì)回報(bào)中學(xué)習(xí)到最優(yōu)能源管理策略,一定程度上保護(hù)了用戶隱私信息,提升信息安全性[22,43,47,65].
本文綜述了基于強(qiáng)化學(xué)習(xí)的綜合能源系統(tǒng)管理優(yōu)化研究.首先從模型角度將綜合能源系統(tǒng)管理問題分為對(duì)單一電能的管理和對(duì)綜合能源的管理.在電能管理問題中,分別從微電網(wǎng)、智能家庭和電動(dòng)汽車三個(gè)方面進(jìn)行闡述,總結(jié)發(fā)現(xiàn)相較于傳統(tǒng)優(yōu)化求解方法,強(qiáng)化學(xué)習(xí)在解決沒有先驗(yàn)知識(shí)且具有多重不確定性的優(yōu)化問題中具有突出表現(xiàn).當(dāng)多種能源通過耦合技術(shù)相互轉(zhuǎn)換、相互連接形成綜合能源系統(tǒng)之后,由于變量之間相互耦合,不同種類的能源具有不同的特性使得場(chǎng)景變得更加復(fù)雜.此時(shí)在對(duì)比傳統(tǒng)求解算法的基礎(chǔ)上,對(duì)已有的基于強(qiáng)化學(xué)習(xí)的相關(guān)文獻(xiàn)進(jìn)行分析,結(jié)果表明強(qiáng)化學(xué)習(xí)在求解綜合能源系統(tǒng)管理問題時(shí)具有卓越性能.最后本文對(duì)綜合能源系統(tǒng)管理問題進(jìn)行展望,得益于人工智能的發(fā)展,利用深度強(qiáng)化學(xué)習(xí)算法能夠處理具有高維變量的復(fù)雜動(dòng)態(tài)系統(tǒng)優(yōu)化問題.未來能源管理中多時(shí)間尺度特性、可解釋性、遷移性和信息安全性的問題將得到人們?cè)絹碓蕉嗟闹匾?相應(yīng)的多時(shí)間尺度優(yōu)化、機(jī)理知識(shí)與數(shù)據(jù)驅(qū)動(dòng)相融合的方法以及遷移學(xué)習(xí)、元學(xué)習(xí)等算法也將與強(qiáng)化學(xué)習(xí)算法相結(jié)合,用于綜合能源系統(tǒng)管理優(yōu)化問題.