袁 君,章 云,張桂東,李 忠,陳 哲,于晟龍
(1. 廣東工業(yè)大學 自動化學院,廣東 廣州 510006;2. 哈根大學 數(shù)學與計算機學院,哈根 58097;3. 奧爾堡大學能源與技術學院,奧爾堡 9220;4. 迪肯大學 工程學院,墨爾本 3216)
隨著應對氣候變化成為全球共識,我國提出實現(xiàn)2030年碳達峰、2060年碳中和的目標。中共中央、國務院先后出臺了《2030年前碳達峰行動方案》、《關于完整準確全面貫徹新發(fā)展理念做好碳達峰碳中和工作的意見》等一系列政策、文件,為推動能源低碳轉型指明了方向[1]。能源管理系統(tǒng)是實現(xiàn)碳達峰、碳中和的重要技術支撐[2]。
新能源發(fā)電占比增加、負荷用電多樣化等因素,使能量管理系統(tǒng)(Energy Management System,EMS)成為復雜非線性隨機系統(tǒng)。如何保證電網(wǎng)在安全、經(jīng)濟的方式下運行已成為EMS優(yōu)化控制問題的研究熱點與難點[3]。
自適應動態(tài)規(guī)劃(Adaptive Dynamic Programming,ADP) 由Werbos教授[4]提出,其本質上是利用增強式學習原理,通過函數(shù)近似結構,逼近動態(tài)規(guī)劃方程中的性能指標函數(shù)和控制策略。性能指標函數(shù)直接參與算法迭代,而迭代性能指標函數(shù)一般具有Lyapunov 函數(shù)性質。這使得EMS的穩(wěn)定性等重要性質可以由迭代的性能指標函數(shù)直接判斷。因此ADP可以有效解決動態(tài)系統(tǒng)優(yōu)化問題,在求解非線性最優(yōu)控制方面的強大優(yōu)勢,ADP自提出以來成為最優(yōu)控制領域研究熱點,并在EMS領域得到廣泛應用[5-6]。Boaro等[7]將ADP應用于家庭EMS,通過控制儲能設備解決實時電價情況下的電能流動問題,實現(xiàn)了用戶的整體經(jīng)濟最優(yōu)目標。Wei等[8]在系統(tǒng)模型未知的情況下,提出執(zhí)行依賴啟發(fā)式動態(tài)規(guī)劃方法,將其應用于EMS中的電能調度問題中,并采用神經(jīng)網(wǎng)絡來構造執(zhí)行和評價網(wǎng)絡,而且利用反向傳遞期望值和實際值之間的差值調整網(wǎng)絡結構的參數(shù)。Wang等[9]將基于數(shù)據(jù)的迭代ADP算法應用于智能住宅內部的能源優(yōu)化中,通過系統(tǒng)輸入輸出數(shù)據(jù)自適應調整控制策略,實現(xiàn)了用戶與電網(wǎng)的共贏??梢钥闯觯珹DP算法在能量管理系統(tǒng)優(yōu)化控制方面有著廣泛的發(fā)展前景與極大的自身優(yōu)勢[10]。
ADP算法包括:執(zhí)行網(wǎng)絡 (Action Network, AN)、模型網(wǎng)絡(Model Network, MN)和評判網(wǎng)絡 (Critic Network, CN)3個模塊[11]。AN用來近似最優(yōu)控制策略,CN用來近似最優(yōu)性能指標函數(shù)。評判函數(shù)的參數(shù)更新是基于Bellman 最優(yōu)原理進行的。這樣不僅可以減少前向計算時間,而且可以在線響應未知系統(tǒng)的動態(tài)變化,對網(wǎng)絡結構中的權值參數(shù)進行自動調整。
ADP算法基本結構分別是啟發(fā)式動態(tài)規(guī)劃(Heuristic Dynamic Programming, HDP) 和二次啟發(fā)式規(guī)劃(Dual Heuristic Programming, DHP),其結構如圖1和圖2所示[12]。HDP結構中執(zhí)行網(wǎng)絡用來映射狀態(tài)變量和控制量之間的關系;模型網(wǎng)絡用來估計下一時刻的系統(tǒng)狀態(tài);評判網(wǎng)絡的輸出用來近似性能指標函數(shù)[13]。DHP結構中執(zhí)行網(wǎng)絡和模型網(wǎng)絡目的相同,而評判網(wǎng)絡用來近似性能指標函數(shù)的梯度[14]?;贖DP和DHP結構,眾多學者提出其衍生結構,如Liu等[15]提出全局二次啟發(fā)式規(guī)劃(Globalized DHP,GDHP)結構,它將控制策略添加到評判網(wǎng)絡的輸入中并逼近性能指標函數(shù)及其梯度,GDHP是一種計算量大但逼近精度高的結構。He等[16]提出目標導向型自適應動態(tài)規(guī)劃(Goal Representation Adaptive Dynamic Programming, GrADP)結構,其評判網(wǎng)絡在包含系統(tǒng)動態(tài)和系統(tǒng)控制輸入信息的基礎上考慮了獎勵/懲罰信號的自適應調節(jié),從而提高近似精度。Xu等[17]將稀疏核機器學習與ADP結構相結合,提出基于核的ADP(kernel-ADP)結構,使ADP算法同時具有泛化能力和逼近能力,并應用于倒立擺實驗中,結果表明kernel-ADP在經(jīng)驗和理論方面都比傳統(tǒng)ADP具有更好的性能。目前ADP結構已成功應用于導彈制導律[18]、自動駕駛[19]、機器人平衡控制[20]、工業(yè)復雜過程控制[21]等問題中。
圖1 啟發(fā)式動態(tài)規(guī)劃結構圖Fig.1 Structure diagram of heuristic dynamic programming
圖2 二次啟發(fā)式規(guī)劃結構圖Fig.2 Structure diagram of dual heuristic programming
在2002年,Murray等[22]提出了一種連續(xù)非線性系統(tǒng)迭代ADP算法,并對系統(tǒng)穩(wěn)定性與性能指標函數(shù)收斂性進行了分析。Lee等[23]首次針對連續(xù)非線性系統(tǒng),提出了策略迭代算法,并證明此算法可得到HJB方程最優(yōu)解。Song等[24]針對連續(xù)非線性系統(tǒng)中的非零和微分對策問題,提出了離線策略積分強化學習算法,并證明了系統(tǒng)的漸近穩(wěn)定性。
1.2.1 系統(tǒng)描述
本文以非仿射系統(tǒng)為例,連續(xù)時間非線性系統(tǒng)為
Liu及其團隊在文獻[26]中首次分析了離散非線性系統(tǒng)的策略迭代算法,并給出其收斂性證明。在文獻[27]中迭代算法的初始條件進行了松弛,提出了迭代零和ADP 算法,打破初始性能指標為零的限制。劉毅等[28]在此基礎上,證明了值迭代算法中,初始性能指標為任意半正定函數(shù)時,算法依舊可收斂。Al-Tamimi 等[29]針對離散系統(tǒng)的最優(yōu)控制問題,提出一種不要求初始穩(wěn)定控制的貪婪迭代ADP 算法,并證明了算法的收斂性。
1.3.1 系統(tǒng)描述
1.3.2 迭代過程
策略迭代和值迭代公式如式(12)~(15)所示,其中策略迭代初始值為穩(wěn)定的控制策略,值迭代初始值為任意正定函數(shù)。
ADP算法憑借其在求解非線性最優(yōu)控制方面的強大優(yōu)勢,在EMS優(yōu)化運行控制方面受到廣泛的關注。本文就ADP算法在連續(xù)時間與離散時間能量管理系統(tǒng)中的應用分別進行了介紹,并按優(yōu)化目標分為發(fā)電側優(yōu)化控制和用電側優(yōu)化控制,按算法實現(xiàn)方式分為在線優(yōu)化和離線優(yōu)化。
2.1.1 發(fā)電側優(yōu)化控制
(1) 在線優(yōu)化:文獻[30]提出了一種適用于非線性連續(xù)系統(tǒng)優(yōu)化問題的ADP算法。該算法通過交替迭代算法求解,實現(xiàn)了渦扇發(fā)動機的最優(yōu)跟蹤控制。文獻[31]提出一種基于內模原理的測量?反饋自適應在線最優(yōu)控制算法,應用于發(fā)電機的頻率控制,且該算法具有可靠的抗干擾和跟蹤能力。
(2) 離線優(yōu)化:文獻[32]提出一種自適應最優(yōu)輸出反饋控制算法,應用于孤島微電網(wǎng)發(fā)動機的初級頻率控制,并證明了算法的收斂性以及閉環(huán)系統(tǒng)的穩(wěn)定性。
2.1.2 用電側優(yōu)化控制
(1) 在線優(yōu)化:文獻[33]提出一種基于隨機ADP算法的插電式混合動力電動公交車能源管理方法,該算法加入自適應因子,利用值迭代算法進行實時控制。
(2) 離線優(yōu)化:文獻[34]將ADP算法應用于配電系統(tǒng)的電力交易策略優(yōu)化問題中。分析每個消費者及市場信息,結合市場趨勢、剩余發(fā)電量等信息,利用ADP算法得出消費者的最優(yōu)策略。
2.2.1 發(fā)電側優(yōu)化控制
(1) 在線優(yōu)化:文獻[35]針對含未知不確定性和外部干擾的高速永磁同步電機驅動系統(tǒng),提出了一種基于HDP算法的超扭曲滑模控制器,實現(xiàn)電機驅動系統(tǒng)的魯棒性。
(2) 離線優(yōu)化:文獻[36]利用DHP算法用于多渦輪發(fā)電機的電力系統(tǒng)。從而取代傳統(tǒng)的自動電壓調節(jié)器和渦輪調速器,實現(xiàn)電壓調節(jié)以及增強電力系統(tǒng)穩(wěn)定性。
2.2.2 用電側優(yōu)化控制
(1) 在線優(yōu)化:文獻[37]引入了閉環(huán)反饋的概念,提出了一種基于ADP算法的分布式微電網(wǎng)能量實時管理系統(tǒng)。該算法采用神經(jīng)網(wǎng)絡建模并通過在線調節(jié)神經(jīng)網(wǎng)絡權值算法,通過仿真驗證了所提能量管理系統(tǒng)有助于引導柔性負荷消費者改變能源消費習慣,從而減少化石能源發(fā)電量。
(2) 離線優(yōu)化:文獻[38]提出一種混合迭代ADP算法來解決智能住宅能量管理系統(tǒng)中的電池控制問題。實現(xiàn)了每個周期內電力成本最小的優(yōu)化目標并證明了迭代值函數(shù)是單調不增的且收斂的。文獻[39]提出了一種從用戶需求和環(huán)境中自學習的家庭能量管理算法,此算法利用多層前饋神經(jīng)網(wǎng)絡作為函數(shù)逼近的一種手段。通過優(yōu)化管理電池充放電功率,從而最大限度地降低住宅在調度期間的電力成本,給用戶帶來經(jīng)濟利益。
由于大量具有隨機性、不確定性和非線性的分布式電源、分布式儲能和各類型負荷的接入,使EMS成為一個具有實時性的高維復雜非線性隨機系統(tǒng)。傳統(tǒng)的優(yōu)化方法如線性規(guī)劃等本質上屬于靜態(tài)規(guī)劃,即必須在獲得系統(tǒng)特征后進行離線運行獲得最優(yōu)解。而實時EMS應具有時間約束、可預測性、可靠性、交互作用、復雜性等特性。因此在分布式可再生能源滲透率不斷提高、負荷日益多樣化、用戶電能質量要求越來越高的情況下,傳統(tǒng)靜態(tài)優(yōu)化方法越來越不能滿足EMS的優(yōu)化需求。如何通過實時控制實現(xiàn)雙碳目標及電網(wǎng)安全穩(wěn)定運行,已經(jīng)成為EMS的研究熱點與難點[40]。
EMS中新能源發(fā)電及負荷用電具有多變性、不確定性,實時EMS要求系統(tǒng)能在外部環(huán)境發(fā)生變化時,在規(guī)定時間內進行相應的控制。由于ADP算法具有很好的在線優(yōu)化能力,且可以通過系統(tǒng)輸入輸出數(shù)據(jù)自適應調整控制策略,從而實現(xiàn)在線控制。因此有眾多學者對ADP進行改進,提出了實時自適應動態(tài)規(guī)劃(Real-time Adaptive Dynamic Programming,RT-ADP)算法,從而實現(xiàn)EMS的實時控制且獲得了一定的研究成果[41-42]。
實時EMS要求系統(tǒng)有足夠強的處理能力對變化的實時數(shù)據(jù)做出反應,即RT-ADP算法應具備實收斂性和實時性。對于非線性RT-EMS其關鍵在于合理選擇性能指標函數(shù)逼近結構,且恰當?shù)木W(wǎng)絡設計也有助于提高收斂速度。為此專家學者們對RT-ADP分別從性能指標函數(shù)逼近結構、迭代策略等方面對RTADP算法進行了改進。
3.2.1 性能指標函數(shù)逼近方法改進
由于實時控制對時間約束有嚴格要求,函數(shù)結構的選擇直接影響RT-ADP算法的實時性能。
RT-ADP算法利用不同函數(shù)結構去近似性能指標函數(shù),如查表法、分段線性函數(shù)逼近、神經(jīng)網(wǎng)絡逼近等。文獻[43]提出一種基于Galerkin的性能指標逼近方法,實現(xiàn)EMS日內實時調度。該方法直接利用Galerkin方法而非傳統(tǒng)迭代算法去近似性能指標函數(shù),從而節(jié)約了迭代時間。文獻[44]將EMS優(yōu)化問題轉為隨機混合整數(shù)非線性規(guī)劃問題,利用查表近似法實現(xiàn)不確定性條件下的EMS實時管理,并利用貝爾曼方程遞歸求解。文獻[45]選擇三層徑向基神經(jīng)網(wǎng)絡逼近性能指標函數(shù),且為提高算法計算速度,通過基于K-means的時序差分方法在線更新神經(jīng)網(wǎng)絡權值。
除了非線性之外,分布式可再生能源和需求側帶來的不確定性也使得微電網(wǎng)的實時調度更具挑戰(zhàn)性。文獻[46]通過增廣項重新構造的性能指標函數(shù),使其成為新系統(tǒng),但這種方法對系統(tǒng)進行了簡化,降低控制準確性。模型預測控制也有助于EMS處理系統(tǒng)不確定性,并在規(guī)定時間內對系統(tǒng)變化做出反應。文獻[47]引入模型預測控制,提出了一種感應電機實時驅動算法。該算法通過對電機轉矩實時控制來提高能源效率。文獻[48]考慮了可再生能源和有功/無功功率負載的不確定性,利用模型預測控制處理系統(tǒng)不確定性,并使用分段線性函數(shù)結構近似性能指標函數(shù),在通過求解貝爾曼方程實現(xiàn)微網(wǎng)運行成本最小化的模板。模型預測控制的優(yōu)越性已得到公認,但其優(yōu)化性能過于依賴實時預測信息的準確性。
于是有學者提出使用核方法來逼近RT-ADP算法中的性能指標函數(shù)。核方法的主要思想是在希爾伯特空間中構造性能指標函數(shù)的非線性映射,通過核技巧將其線性化。經(jīng)證明,核方法可有效提高RTADP算法的非線性逼近能力和泛化能力。
3.2.2 算法改進
1) 在非線性EMS中,在線迭代算法可以解決模型不確定這一問題。RT-ADP可以在線調整網(wǎng)絡權值,使控制策略自適應調節(jié),這也意味著計算量的增大。因此強大的迭代算法可有效提高RT-ADP收斂速度, 迭代算法及其初始值的選擇對RT-ADP而言至關重要。
WANG及其團隊通過構建評價網(wǎng)絡和執(zhí)行網(wǎng)絡,設計權值更新律,并利用策略迭代算法實現(xiàn)在線控制,且通過Lyapunov 定理,證明這種在線自適應方法權值的收斂性和系統(tǒng)的一致最終有界穩(wěn)定[49]。在這種方法下,初始控制策略的穩(wěn)定性對迭代過程的計算量及輸出控制策略的收斂性有很大影響。
為松弛控制策略初始條件,Xu及其團隊通過將核方法集成到ADP的CN中,提出了一種具有核的RT-ADP算法。該算法采用基于近似線性的稀疏化方法及基于核的最小二乘策略迭代算法,對AN的控制策略進行迭代求解。并對算法的性能進行了理論分析和實驗證明,結果表明基于核的RT-ADP算法具有更強的表征學習和泛化能力[50]。文獻[5 1]將Backstepping 技術與ADP相結合,提出一種新的RTADP控制方法。先通過Backstepping 技術將Lyapunov函數(shù)轉換為仿射形式,再通過ADP算法近似性能指標函數(shù)。此方法利用Backstepping 技術的反推優(yōu)勢,構造了嚴格反饋系統(tǒng)下的Lyapunov函數(shù)控制器,且通過設計合適的觀測器引入最優(yōu)輸出反饋控制。由Backstepping技術構造的控制器不需要穩(wěn)定的初始控制策略,也有效地減少RT-ADP算法的計算量。
Lewis及其團隊提出實時自適應動態(tài)規(guī)劃算法,即通過神經(jīng)網(wǎng)絡建模并在線調節(jié)神經(jīng)網(wǎng)絡權值算法,同時同步更新策略迭代算法,從而實現(xiàn)實時獲得最優(yōu)控制的工作設想[52]。但受神經(jīng)網(wǎng)絡自身限制,此算法在計算速度、收斂性等方面還存在一定缺陷。
2) 應用實例。
文獻[53]中作者針對智能電網(wǎng)時變EMS優(yōu)化問題,提出了一種基于多神經(jīng)網(wǎng)絡融合預測技術的多時間尺度RT-ADP算法。該算法在日前、日內、實時三個時間尺度上實現(xiàn)了新能源利用率最大化。并在環(huán)仿真平臺來驗證所提出的RT-ADP的有效性。該算法利用模糊聚類算法將負荷分為工業(yè)負荷、商業(yè)負荷和居民負荷。然后基于分類結果,融合溫度、日期類型等不同因素,利用多神經(jīng)網(wǎng)絡融合預測算法預測各負荷的用電量和新能源的發(fā)電量。在此基礎上,該作者提出了一種如圖3所示的多時間尺度RT-ADP優(yōu)化算法。
圖3 基于多神經(jīng)網(wǎng)絡預測技術的RT-ADP算法結構圖Fig.3 Structure diagram of RT-ADP algorithm based on multineural network prediction technology
經(jīng)迭代RT-ADP算法可得出近似最優(yōu)控制策略,且作者在文獻[53]中給出了該算法的收斂性證明。
(3) 硬件在環(huán)仿真結果。
為驗證所提出基于多神經(jīng)網(wǎng)絡預測技術的RTADP算法的有效性,作者在環(huán)仿真平臺中進行了仿真驗證。環(huán)仿真平臺如圖4所示。其中控制器為dSPACE,電網(wǎng)模型在OPAL-RT設備中搭建,結果可在KEYSIGHT示波器中讀取。
圖4 硬件在環(huán)仿真平臺Fig.4 Hardware-in-the-loop platform
圖5為不同時間尺度時RT-ADP控制下光伏發(fā)電利用率。由結果可知,在實時、日內、日前3個時間尺度中RT-ADP算法控制下光伏發(fā)電消耗功率均高于傳統(tǒng)ADP算法。從以上分析可以看出, RT-ADP 算法具有非常重要的理論與現(xiàn)實意義,在EMS研究中還處于起步階段,擁有巨大的應用前景。
圖5 RT-ADP控制下光伏發(fā)電利用率Fig.5 Photovoltaic power utilization under RT-ADP control
ADP算法在EMS優(yōu)化控制問題方面具有強大優(yōu)勢,但還存在一些不足之處。
(1) 函數(shù)逼近器選擇問題。目前ADP算法有神經(jīng)網(wǎng)絡、線性基函數(shù)、分段線性函數(shù)和支持向量機等多種函數(shù)逼近結構,如何合理選擇函數(shù)逼近器或改善神經(jīng)網(wǎng)絡經(jīng)驗法和試錯法設計缺陷是十分有必要的。
(2) 多種信息融合問題。EMS是個復雜非線性系統(tǒng),且優(yōu)化策略受多種因素影響。融合這些影響因素,可有效提高EMS控制策略精度和優(yōu)化效果。因此,研究ADP信息融合問題將是一個十分有益的探索。
(3) 有限時間ADP優(yōu)化問題。目前ADP算法大部分都是基于無限時間的最優(yōu)控制,但在EMS實時控制中,需要在一定時間內進行響應,所以有限時間ADP 控制問題的研究具有重要意義。
(4) ADP算法的實時性問題。如何設計出收斂速度快、穩(wěn)定性好的ADP在線算法,提高算法實時性仍然是一個難點。
(5) ADP算法抗干擾問題。由于EMS存在許多不確定因素,且會影響算法收斂性,因此如何處理不確定項、提高算法抗干擾能力是目前研究重點。
(6) 缺少硬件試驗。目前ADP算法在EMS應用中大部分仍使用模擬仿真方法驗證,缺少真實環(huán)境下的試驗環(huán)節(jié)。
間歇性新能源和智能化負載使EMS成為了具有實時性、波動性、復雜性的高維非線性系統(tǒng)。ADP在解決動態(tài)系統(tǒng)優(yōu)化問題方面具有強大優(yōu)勢。本文著重介紹了ADP算法的研究進展及其在EMS領域的應用,分析了該算法在離散能量管理系統(tǒng)和連續(xù)能量管理系統(tǒng)的研究現(xiàn)狀和算法實現(xiàn)方式,并按優(yōu)化目標分為發(fā)電側優(yōu)化控制和用電側優(yōu)化控制,按算法實現(xiàn)方式分為在線優(yōu)化和離線優(yōu)化。目前ADP算法在EMS的研究僅僅處于初始階段,在EMS領域具有極大的發(fā)展前景。