張宏濤,吳怡之,鄧開連,張 磊
(東華大學(xué) 信息科學(xué)與技術(shù)學(xué)院,上海 201620)
微電網(wǎng)是由可再生能源、儲(chǔ)能系統(tǒng)以及可在孤島或并網(wǎng)模式下運(yùn)行的負(fù)載組成的獨(dú)立電網(wǎng)集群,其中,可再生能源發(fā)電和儲(chǔ)能系統(tǒng)作為推動(dòng)能源行業(yè)可持續(xù)發(fā)展、滿足快速增長能源需求的關(guān)鍵解決方案,是未來電力基礎(chǔ)設(shè)施建設(shè)中的關(guān)鍵技術(shù)。然而,可再生能源發(fā)電具有間歇性和波動(dòng)性, 對(duì)微電網(wǎng)運(yùn)營的可靠性、經(jīng)濟(jì)性帶來了重大挑戰(zhàn)[1-3]。服務(wù)供應(yīng)商(Service Provider, SP)通過調(diào)度儲(chǔ)能系統(tǒng),能夠利用能源價(jià)格波動(dòng),在需求低迷時(shí)期購買相對(duì)便宜的能源,并在需求高漲時(shí)高價(jià)出售來產(chǎn)生利潤[4-6]。隨著更多本地可再生能源發(fā)電機(jī)投入使用,供應(yīng)商能夠以由公用事業(yè)公司控制的動(dòng)態(tài)價(jià)格將能源賣回給公用事業(yè)公司,利用分布式可再生能源發(fā)電提高電網(wǎng)運(yùn)營的穩(wěn)定性和可靠性。
近年來,不少研究者優(yōu)化了微電網(wǎng)能量管理中的運(yùn)營成本。Zhong等[7]提出一種基于動(dòng)態(tài)規(guī)劃(Dynamic Programming, DP)的分布式優(yōu)化算法,能夠在無需與外界進(jìn)行信息交換的條件下,對(duì)儲(chǔ)能共享系統(tǒng)實(shí)施在線能量管理與運(yùn)營成本優(yōu)化。Hafiz等[8]提出一種基于預(yù)測(cè)文件的DP算法,可以減少微電網(wǎng)運(yùn)營成本,對(duì)各分布式單元進(jìn)行實(shí)時(shí)控制。Li等[9]提出一種基于李雅普諾夫優(yōu)化(Lyapunov Optimization, LO)的負(fù)載調(diào)度和儲(chǔ)能控制算法,提升電網(wǎng)高頻能量調(diào)度下的儲(chǔ)能利用率。Zhang等[10]提出一種基于在線競(jìng)爭(zhēng)的能量管理算法,優(yōu)化微電網(wǎng)場(chǎng)景下的運(yùn)營成本與服務(wù)質(zhì)量(Quality of Service, QoS)。上述工作只考慮了電網(wǎng)層面的運(yùn)營成本,提出的數(shù)學(xué)模型與相關(guān)算法難以應(yīng)用于實(shí)際微電網(wǎng)場(chǎng)景下的長期能量調(diào)度。
本文的主要貢獻(xiàn)如下:
(1)對(duì)微電網(wǎng)能源管理進(jìn)行理論建模,將長期優(yōu)化問題轉(zhuǎn)化為馬爾可夫決策過程,通過調(diào)度儲(chǔ)能裝置優(yōu)化能量管理系統(tǒng)(Energy Management System, EMS)的運(yùn)營利潤。
(2)引入強(qiáng)化學(xué)習(xí)算法,建立狀態(tài)空間,充放電動(dòng)作和獎(jiǎng)勵(lì)函數(shù),通過ε-貪婪策略探索當(dāng)前環(huán)境得出最優(yōu)能量調(diào)度策略。
(3)通過實(shí)驗(yàn)仿真,對(duì)比所提算法在運(yùn)營利潤上的性能增益。
實(shí)現(xiàn)微電網(wǎng)的經(jīng)濟(jì)調(diào)度和穩(wěn)定運(yùn)行是微電網(wǎng)能量管理的主要目標(biāo)。本文所述微電網(wǎng)能量管理系統(tǒng)采用并網(wǎng)運(yùn)行方式為本地負(fù)載提供能量,微電網(wǎng)EMS內(nèi)包含可再生能源發(fā)電單元、儲(chǔ)能系統(tǒng)、電動(dòng)汽車負(fù)荷與建筑負(fù)荷。微電網(wǎng)EMS可與常規(guī)電網(wǎng)相連進(jìn)行雙向能量交換,如圖1所示。其中,可再生能源發(fā)電單元作為供給側(cè),建筑負(fù)荷與電動(dòng)汽車負(fù)荷構(gòu)成需求側(cè)。在考慮可再生能源發(fā)電、實(shí)時(shí)電價(jià)、實(shí)時(shí)負(fù)荷的不確定性情況下,綜合考量儲(chǔ)能系統(tǒng)充放電與從常規(guī)電網(wǎng)購電的經(jīng)濟(jì)性,建立了并網(wǎng)運(yùn)行模式下微電網(wǎng)EMS優(yōu)化調(diào)度模型。
圖1 微電網(wǎng)EMS優(yōu)化調(diào)度模型
微電網(wǎng)EMS優(yōu)化調(diào)度的目標(biāo)是在滿足各個(gè)分布式單元運(yùn)行約束、負(fù)荷需求和供需平衡的限制下,實(shí)現(xiàn)系統(tǒng)運(yùn)營利潤最高。根據(jù)微電網(wǎng)EMS運(yùn)行狀況可知,約束如下:
(1)可再生能源發(fā)電約束
微電網(wǎng)中可再生能源發(fā)電單元受技術(shù)、氣候條件限制,需滿足自身發(fā)電出力約束;同時(shí),在任意時(shí)間段內(nèi)滿足優(yōu)先供給本地負(fù)載。發(fā)電出力約束和供給約束分別表示為:
式中,N(t)為t時(shí)段可再生能源發(fā)電單元的輸出能量;Nmin和Nmax分別為t時(shí)段可再生能源發(fā)電單元的最小、最大輸出能量;min{}運(yùn)算表示兩者取小;G(t)為t時(shí)段本地負(fù)載總能量需求;Ns(t)為t時(shí)段供給本地負(fù)載的可再生能源發(fā)電單元輸出能量。
t時(shí)段剩余的可再生能源發(fā)電單元輸出能量Nw(t)為:
式中,剩余能量Nw(t)通過雙邊能量流動(dòng)回售給常規(guī)電網(wǎng)。
(2)儲(chǔ)能系統(tǒng)運(yùn)行約束
儲(chǔ)能系統(tǒng)需滿足其自身的容量限制,充放電出力約束和能量平衡約束。充放電出力約束分別表示為:
式中:Fc(t)和Fd(t)分別為t時(shí)段儲(chǔ)能系統(tǒng)充電輸入能量、放電輸出能量;Fcmax為t時(shí)段儲(chǔ)能系統(tǒng)最大充電輸入能量;為t時(shí)段儲(chǔ)能系統(tǒng)最大放電輸出能量。由于電池物理特性,充、放電操作無法同時(shí)進(jìn)行,可表示為:
定義儲(chǔ)能系統(tǒng)能量狀態(tài)[11](State of Energy, SoE),需滿足容量約束:
式中:SoE(t)為t時(shí)段儲(chǔ)能系統(tǒng)的能量狀態(tài);Ec為儲(chǔ)能系統(tǒng)的額定容量;ζ(t)為t時(shí)段儲(chǔ)能系統(tǒng)的荷電狀態(tài)(State of Charge, SoC);ζmax和ζmin分別為儲(chǔ)能系統(tǒng)荷電狀態(tài)最大值和最小值。
儲(chǔ)能系統(tǒng)滿足能量平衡約束:
式中:SoE(t+1)為t+1時(shí)段儲(chǔ)能系統(tǒng)的能量狀態(tài);ηch和ηdis分別為充放電的能量轉(zhuǎn)換效率。
(3)購電售電定價(jià)約束
服務(wù)供應(yīng)商通過購電價(jià)格從常規(guī)電網(wǎng)側(cè)購電,通過售電價(jià)格向本地負(fù)載出售能源來獲利,購電價(jià)格由公用事業(yè)公司在t時(shí)段開始前公布;服務(wù)供應(yīng)商通過回售價(jià)格將t時(shí)段剩余的可再生能源發(fā)電單元輸出能量Nw(t)回售給常規(guī)電網(wǎng)。
購電價(jià)格、售電價(jià)格和回售價(jià)格需滿足定價(jià)約束:
式中:Pb(t)為t時(shí)段購電價(jià)格;Ps(t)為t時(shí)段售電價(jià)格;Pw(t)為t時(shí)段回售價(jià)格;α1為售電折扣參數(shù);α2為回售折扣參數(shù);Pbmax和Pbmin為購電價(jià)格的上下限。
(4)供需能量平衡約束
在任意調(diào)度時(shí)間內(nèi),模型都必須滿足微電網(wǎng)EMS內(nèi)部的供需能量平衡約束:
式中:C(t)為t時(shí)段從常規(guī)電網(wǎng)購入用于滿足本地負(fù)載的電能;Gb(t)為t時(shí)段的建筑負(fù)荷;Gev(t)為t時(shí)段的電動(dòng)汽車負(fù)荷。
本節(jié)提出將最大化微電網(wǎng)EMS運(yùn)營利潤,最小化電池退化成本作為聯(lián)合優(yōu)化目標(biāo),系統(tǒng)運(yùn)營凈利潤定義為:
結(jié)合式(18)可知,假設(shè)系統(tǒng)運(yùn)行T個(gè)時(shí)段,優(yōu)化問題可以表示為:
由于微電網(wǎng)EMS環(huán)境狀態(tài)時(shí)刻變化,式(20)定義的聯(lián)合優(yōu)化問題難以直接求得最優(yōu)解。下節(jié)引入強(qiáng)化學(xué)習(xí)中的Q學(xué)習(xí)算法,對(duì)最優(yōu)解進(jìn)行全局探索,使結(jié)果逼近最優(yōu)解。
本節(jié)提出了Q學(xué)習(xí)能量調(diào)度算法,將強(qiáng)化學(xué)習(xí)用于微電網(wǎng)場(chǎng)景下的能量調(diào)度問題。儲(chǔ)能系統(tǒng)與微電網(wǎng)環(huán)境實(shí)時(shí)交互,得出當(dāng)前環(huán)境下的最優(yōu)決策。該算法能夠在減少電池退化成本的同時(shí),提高運(yùn)營利潤。
本系統(tǒng)中儲(chǔ)能系統(tǒng)觀察到的狀態(tài)為微電網(wǎng)EMS在t時(shí)刻接收到的實(shí)時(shí)信息,t時(shí)刻系統(tǒng)的狀態(tài)st∈S為:
式中:Pb(t)代表t時(shí)刻的電價(jià);G(t)代表t時(shí)刻的本地負(fù)載;ζ(t)代表t時(shí)刻的電池荷電狀態(tài);Ns(t)為t時(shí)段供給本地負(fù)載的可再生能源發(fā)電單元輸出能量。
根據(jù)式(4)~式(6)中充放電動(dòng)作的大小范圍和約束,本文設(shè)計(jì)出了一組離散的動(dòng)作空間at∈A。
儲(chǔ)能系統(tǒng)在執(zhí)行完充放電動(dòng)作后,從微電網(wǎng)EMS環(huán)境中得到瞬時(shí)獎(jiǎng)勵(lì)Rt:
式中:U(t)為t時(shí)刻系統(tǒng)運(yùn)營凈利潤;V(t)為t時(shí)刻電池退化成本;β為懲罰參數(shù)。ζ(t)∈(0.1,0.9)表示微電網(wǎng)EMS滿足約束式(8),在電池荷電狀態(tài)安全條件下運(yùn)行;U(t)越大且V(t)越小時(shí),儲(chǔ)能系統(tǒng)得到的獎(jiǎng)勵(lì)值越高。ζ(t)小于0.1或大于0.9時(shí),電池荷電狀態(tài)處于過載、危險(xiǎn)運(yùn)行狀態(tài),相應(yīng)的回報(bào)函數(shù)為負(fù)值。
建立運(yùn)營利潤-退化成本聯(lián)合優(yōu)化的Q學(xué)習(xí)模型。Q值采用貝爾曼方程進(jìn)行更新,即使用后繼狀態(tài)最大Q值估計(jì)當(dāng)前Q值,經(jīng)過不斷迭代,使Q值趨于最優(yōu),從而得出最優(yōu)策略:
式中:α∈(0,1)為學(xué)習(xí)率,γ為折扣參數(shù);過去的工作[12-15]證明,在馬爾可夫決策過程中,若狀態(tài)空間與動(dòng)作空間是離散的,動(dòng)作價(jià)值函數(shù)Q(st,at)經(jīng)過無數(shù)次迭代會(huì)收斂到最優(yōu)值Qπ*(s, a),通過不斷學(xué)習(xí)更大的Q值,儲(chǔ)能系統(tǒng)能得到最優(yōu)動(dòng)作at*∈A。
為了使儲(chǔ)能系統(tǒng)能夠探索到最優(yōu)動(dòng)作,智能體需要兼顧已有經(jīng)驗(yàn),利用和探索未知?jiǎng)幼鲀蓚€(gè)過程,以保證在每個(gè)狀態(tài)下,每個(gè)動(dòng)作都有被選中的可能。Q學(xué)習(xí)法采用ε-貪婪策略來選擇動(dòng)作,同時(shí)用來平衡利用和探索的過程:
式中:X是一個(gè)從0到1的隨機(jī)數(shù),用來選擇動(dòng)作;ε為貪婪值;儲(chǔ)能系統(tǒng)以1-ε的概率選擇Q值最高的動(dòng)作進(jìn)行利用;以ε的概率隨機(jī)選擇動(dòng)作進(jìn)行探索。在Q學(xué)習(xí)初始階段,儲(chǔ)能系統(tǒng)未得出有效調(diào)度策略,Q(st, at)大部分?jǐn)?shù)值為零,智能體偏向探索;隨著學(xué)習(xí)的不斷進(jìn)行,Q(st, at)將不斷變大直至收斂,從而得出最佳調(diào)度策略πt。
由于傳統(tǒng)能量管理沒有考慮儲(chǔ)能系統(tǒng)接入、實(shí)時(shí)電價(jià)、可再生能源輸出能量等因素,在面對(duì)現(xiàn)實(shí)環(huán)境時(shí),算法性能隨著預(yù)測(cè)不確定性的提高而不斷下降,因此本文引入了在人工智能領(lǐng)域得到廣泛應(yīng)用的強(qiáng)化學(xué)習(xí)算法,該算法通過學(xué)習(xí)狀態(tài)量的變化趨勢(shì)來對(duì)決策值進(jìn)行實(shí)時(shí)更新,相比傳統(tǒng)能量管理算法具有更強(qiáng)的魯棒性。Q學(xué)習(xí)調(diào)度算法將儲(chǔ)能系統(tǒng)作為智能體,通過調(diào)度電池中的能量,來獲得微電網(wǎng)EMS中的最大運(yùn)營利潤。Q學(xué)習(xí)能量調(diào)度算法如下所示:
輸入 :狀態(tài)量 {Pb(t),G(t),Ns(t),ζ(t)}
輸出:優(yōu)化的充放電策略π
(1)初始化Q學(xué)習(xí)算法參數(shù),初始化Q表;
(2)初始化狀態(tài)量 st0={Pb(t),G(t),Ns(t),ζ(t)};
(3)For 回合數(shù)=1,2,…,M;
(4)獲取初始狀態(tài)st0;
(5)For 時(shí)刻=1,2,…,T;
(6)觀察并計(jì)算動(dòng)作價(jià)值函數(shù)Q(st, at);
(7)使用ε-貪婪策略選擇動(dòng)作at;
(8)執(zhí)行所選動(dòng)作at;
(9)計(jì)算退化成本,運(yùn)營利潤;
(10)計(jì)算優(yōu)化目標(biāo);
(11)使用貝爾曼方程更新Q(st, at);
(12)將結(jié)果存入Q表;
(13)計(jì)算累積獎(jiǎng)勵(lì)Rt;
(14)判斷累積獎(jiǎng)勵(lì)Rt是否收斂;
(15)輸出優(yōu)化后的充放電策略π。
微電網(wǎng)EMS收集t時(shí)刻的外部狀態(tài)信息Pb(t)、G(t)、Ns(t)和儲(chǔ)能系統(tǒng)內(nèi)部信息ζ(t),將信息傳給儲(chǔ)能系統(tǒng);儲(chǔ)能系統(tǒng)根據(jù)已知信息,使用ε-貪婪策略選擇動(dòng)作加以執(zhí)行,得到實(shí)時(shí)反饋;系統(tǒng)計(jì)算當(dāng)前時(shí)刻的運(yùn)營利潤和退化成本,使用貝爾曼方程更新Q(st, at),將結(jié)果存入Q表;進(jìn)入下一個(gè)時(shí)刻后,再重新執(zhí)行以上步驟,直到獎(jiǎng)勵(lì)函數(shù)收斂。
本節(jié)在仿真中模擬實(shí)時(shí)變化的微電網(wǎng)EMS環(huán)境,對(duì)比Q學(xué)習(xí)能量調(diào)度算法與現(xiàn)有基線算法的各個(gè)性能指標(biāo)。
實(shí)驗(yàn)使用Python編譯器,使用Torch模塊編寫算法,模擬真實(shí)微電網(wǎng)環(huán)境下實(shí)時(shí)變化的電價(jià)、負(fù)荷與可再生能源能量。其中,電價(jià)、本地負(fù)荷與可再生能源發(fā)電單元輸出能量數(shù)據(jù)源于澳大利亞新南威爾士州某市兩周的電力系統(tǒng)運(yùn)行數(shù)據(jù)。表1給出了仿真參數(shù)與配置。
表1 仿真參數(shù)與配置
首先,本文評(píng)估了Q學(xué)習(xí)能量調(diào)度算法的收斂性表現(xiàn)。所提出算法在10 000個(gè)回合內(nèi)進(jìn)行了訓(xùn)練,以學(xué)習(xí)優(yōu)化的儲(chǔ)能系統(tǒng)充電/放電調(diào)度,其中懲罰因子β設(shè)置為2。累積獎(jiǎng)勵(lì)的演變過程如圖2所示。觀察可得智能體獲得的累積獎(jiǎng)勵(lì)在前1 500個(gè)回合不斷增加,在第2 000個(gè)回合達(dá)到80后趨向穩(wěn)定,之后由于智能體不斷以10%的概率選擇隨機(jī)動(dòng)作,累積獎(jiǎng)勵(lì)曲線呈現(xiàn)輕微振蕩。因此,所提出Q學(xué)習(xí)能量調(diào)度算法能在短時(shí)間內(nèi)達(dá)到收斂。
圖2 累積獎(jiǎng)勵(lì)與回合數(shù)變化關(guān)系圖
圖3展示了系統(tǒng)利潤隨時(shí)間的變化情況,3種算法的系統(tǒng)利潤隨著時(shí)間的增加而不斷上升。其中,Greedy代表貪心算法,執(zhí)行貪心算法時(shí),智能體只求得每個(gè)時(shí)刻的最優(yōu)收益,并將其累加;執(zhí)行Uncontrolled策略時(shí),智能體會(huì)在電池荷電狀態(tài)低于0.1時(shí)以最大充電速率充電,在荷電狀態(tài)高于0.9時(shí)以最大放電速率放電。Q學(xué)習(xí)算法從微電網(wǎng)EMS運(yùn)行開始,其系統(tǒng)利潤一直高于Greedy和Uncontrolled策略;微電網(wǎng)EMS在經(jīng)過336個(gè)小時(shí)運(yùn)營之后,Q學(xué)習(xí)與Greedy算法比提高了8.32%,與Uncontrolled策略比提高了10.54%。
圖3 系統(tǒng)利潤與時(shí)間變化關(guān)系圖
本文提出了一個(gè)微電網(wǎng)儲(chǔ)能管理系統(tǒng),該系統(tǒng)由可再生能源、儲(chǔ)能以及進(jìn)出常規(guī)電網(wǎng)的雙邊能量流組成。本文的目標(biāo)是在電池容量的約束下,最大化儲(chǔ)能管理系統(tǒng)的運(yùn)營利潤。為了解決上述問題,本文提出了一種基于Q學(xué)習(xí)的強(qiáng)化學(xué)習(xí)能量調(diào)度算法,以根據(jù)來自復(fù)雜環(huán)境的信息即電池的動(dòng)態(tài)變化荷電狀態(tài)、價(jià)格和需求變化、準(zhǔn)確的電池退化作為狀態(tài),學(xué)習(xí)優(yōu)化的控制動(dòng)作。最后,與基于真實(shí)世界數(shù)據(jù)的性能評(píng)估表明,與2個(gè)基線算法相比,所提出的方法可以將系統(tǒng)利潤提高8.32%~10.54%。
物聯(lián)網(wǎng)技術(shù)2022年12期