王亞?wèn)| 黃云峰 李曉彤等
摘 要:針對(duì)用戶(hù)負(fù)載動(dòng)態(tài)變化的離網(wǎng)微電網(wǎng)儲(chǔ)能調(diào)度問(wèn)題,本文提出了一種基于強(qiáng)化學(xué)習(xí)的復(fù)合儲(chǔ)能微電網(wǎng)控制方法。首先構(gòu)建了復(fù)合儲(chǔ)能的馬爾可夫決策模型。然后,根據(jù)微電網(wǎng)系統(tǒng)的復(fù)合儲(chǔ)能模型設(shè)計(jì)了獎(jiǎng)勵(lì)函數(shù),從而得到儲(chǔ)能調(diào)度策略。最后,分析了無(wú)預(yù)測(cè)量,加入預(yù)測(cè)量?jī)煞N場(chǎng)景下,強(qiáng)化學(xué)習(xí)調(diào)度策略性能,并驗(yàn)證了該方法的有效性。
關(guān)鍵詞:復(fù)合儲(chǔ)能;微電網(wǎng);強(qiáng)化學(xué)習(xí);馬爾可夫決策模型
0 引 言
新能源發(fā)電的隨機(jī)性和不確定性給微電網(wǎng)儲(chǔ)能調(diào)度帶來(lái)了極大的困難,儲(chǔ)能可以有效的平抑微電網(wǎng)中可再生能源發(fā)電的隨機(jī)性和波動(dòng)性,提高微電網(wǎng)的經(jīng)濟(jì)效益,是微電網(wǎng)經(jīng)濟(jì)調(diào)度的重要手段。
文獻(xiàn)[1]提供了一種基于遺傳算法的智能電網(wǎng)能量管理模糊學(xué)習(xí)方法。文獻(xiàn)[2]已經(jīng)通過(guò)使用強(qiáng)化學(xué)習(xí)多代理系統(tǒng)的框架來(lái)控制微電網(wǎng)。和傳統(tǒng)的調(diào)度策略算法不同,強(qiáng)化學(xué)習(xí)算法是一種無(wú)模型調(diào)度方法,它不需要系統(tǒng)的先驗(yàn)知識(shí)和模型,智能體與環(huán)境交互學(xué)習(xí)系統(tǒng)的模型,并通過(guò)最大化累計(jì)獎(jiǎng)賞獲得最優(yōu)控制策略。
本文針對(duì)微電網(wǎng)種的復(fù)合儲(chǔ)能,使用了強(qiáng)化學(xué)習(xí)方法來(lái)管理儲(chǔ)能,將電池的充放電狀態(tài)描述為馬爾可夫決策過(guò)程,利用智能體通過(guò)不斷與環(huán)境交互獲得最優(yōu)的微電網(wǎng)復(fù)合儲(chǔ)能調(diào)度策略。
1 儲(chǔ)能微電網(wǎng)系統(tǒng)模型
1.1 微電網(wǎng)結(jié)構(gòu)
本文研究的是微電網(wǎng)模型下復(fù)合儲(chǔ)能的調(diào)度問(wèn)題。微電網(wǎng)主要由復(fù)合儲(chǔ)能元件和光伏元件組成,既可以解決分布式發(fā)電問(wèn)題,同時(shí)提高了系統(tǒng)穩(wěn)定性,提高了經(jīng)濟(jì)效益。
1.2 復(fù)合儲(chǔ)能結(jié)構(gòu)
儲(chǔ)能形式多種多樣,蓄電池是分布式電源中應(yīng)用最為廣泛,技術(shù)最為成熟,容量也比較大,儲(chǔ)能過(guò)程比較穩(wěn)定的儲(chǔ)能方式。超級(jí)電容器維護(hù)工作量小,可靠性高,充放電速度快,循環(huán)壽命長(zhǎng),但是超級(jí)電容器價(jià)格貴,容量小,不適用于長(zhǎng)期儲(chǔ)能的情況。
根據(jù)蓄電池與超級(jí)電容器特點(diǎn),這兩種儲(chǔ)能系統(tǒng)可以相互配合,同時(shí)應(yīng)用,可以大規(guī)模應(yīng)用到電力系統(tǒng)中,獲得更好的儲(chǔ)能效果與經(jīng)濟(jì)效益。
2 基于強(qiáng)化學(xué)習(xí)的調(diào)度策略實(shí)現(xiàn)
2.1 深度卷積神經(jīng)網(wǎng)絡(luò)
圖1為CNN神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖。卷積層處理時(shí)間序列,卷積的輸出以及其他輸入作為完全連接層的輸入,然后通過(guò)輸出層輸出Q值。
2.2 馬爾科夫決策模型建立描述
基于馬爾科夫決策過(guò)程,在每個(gè)時(shí)間步長(zhǎng)上,智能體觀測(cè)量包含狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)函數(shù)。系統(tǒng)在當(dāng)前狀態(tài)下采取動(dòng)作并通過(guò)P函數(shù)轉(zhuǎn)移到下一狀態(tài),即:
獎(jiǎng)勵(lì)函數(shù)與狀態(tài)轉(zhuǎn)移函數(shù)相關(guān)聯(lián),可用下列等式表示:
當(dāng)智能體采用策略h時(shí),累計(jì)回報(bào)在狀態(tài)處的期望值定義為狀態(tài)-動(dòng)作值函數(shù):
若已知,則最優(yōu)策略可通過(guò)直接最大化來(lái)決定,即:
2.2.1 狀態(tài)集合
(1)負(fù)荷量,光伏發(fā)電量,電池電量3個(gè)狀態(tài)的場(chǎng)景:
(2)加入光伏預(yù)測(cè)發(fā)電量的場(chǎng)景:
2.2.2 動(dòng)作空間
本文將動(dòng)作空間劃分成3個(gè)數(shù)值,即。其中表示蓄電池充電,表示蓄電池放電,表示蓄電池保持閑置。
2.2.3 回報(bào)函數(shù)
回報(bào)函數(shù)是一種即時(shí)獎(jiǎng)勵(lì)函數(shù)。當(dāng)智能體對(duì)超級(jí)電容動(dòng)作后,蓄電池的充放電狀態(tài)會(huì)相應(yīng)變化。
獎(jiǎng)勵(lì)函數(shù)示為:
指不能滿足凈電力需求的部分,當(dāng)時(shí)。
式中:表示電池充電效率;表示電池放電效率。
年度運(yùn)營(yíng)收入:
要使得復(fù)合儲(chǔ)能微網(wǎng)控制效果最好,本文以年度運(yùn)營(yíng)收益最大值為目標(biāo)。
3 仿真試驗(yàn)和分析
圖2是典型日無(wú)光伏預(yù)測(cè)量信息的場(chǎng)景一,圖3是典型日加入光伏預(yù)測(cè)量信息的場(chǎng)景二,由圖可知,隨著智能體觀測(cè)量的增加,調(diào)度控制策略越好,收益相應(yīng)越高??梢钥吹綀D3取得了最好的控制效果。
蓄電池年度存儲(chǔ)電量和微電網(wǎng)年度運(yùn)營(yíng)收入指標(biāo)如下表。
電池電量表示超級(jí)電容電量變化的曲線,動(dòng)作值表示蓄電池充放電動(dòng)作,當(dāng)光伏發(fā)電量大于負(fù)荷需求時(shí),先由智能體控制器控制蓄電池進(jìn)行充電,多余的電量?jī)?chǔ)存在超級(jí)電容中,以年度運(yùn)行收益為目標(biāo),由智能體決策出蓄電池的控制策略。
參考文獻(xiàn):
[1]Lauri,G.Basso,and J.Zhu,“Managing Power Flows in Microgrids Using Multi-Agent Reinforcement Learning,”Agent Technol. Energy Syst,2013.
[2]Changbin,L.Shanna,L.Zhengxi,W.Xin and L.Sun“Energy coordinative optimization of wind-storage-load microgrids based on short-term prediction,”Energies journal,vol.8, pp.1505-1528,April 2015.