李 聰, 余加喜, 姜 文, 吳清玉, 宋麗珠, 莫若慧, 吳 鋒
(南網(wǎng)海南電網(wǎng)電力調(diào)度控制中心, 海南 ???570100)
隨著分布式電源接入電網(wǎng)比例的不斷提高,其出力的隨機(jī)性和間歇性對(duì)電力系統(tǒng)的安全穩(wěn)定運(yùn)行構(gòu)成了威脅。 微網(wǎng)(MG)通過(guò)先進(jìn)的通信、計(jì)量和協(xié)調(diào)控制技術(shù),將分布式電源、儲(chǔ)能系統(tǒng)等多種分布式能源聚合,通過(guò)協(xié)調(diào)內(nèi)部各機(jī)組出力,極大地減小了分布式電源單獨(dú)并網(wǎng)對(duì)公網(wǎng)造成的沖擊,緩和了風(fēng)光等可再生能源的波動(dòng)性,實(shí)現(xiàn)了資源的優(yōu)化配置和協(xié)調(diào)管理,提高了市場(chǎng)競(jìng)爭(zhēng)力[1]~[3]。
MG 參與電力市場(chǎng)交易可帶來(lái)諸多益處,其交易行為不可避免地會(huì)受到其余MG 以及上級(jí)電網(wǎng)的影響,博弈論是目前有效處理MG 電能交易的方法。文獻(xiàn)[4]考慮了多MG 參與配電市場(chǎng)競(jìng)標(biāo),并基于完全信息博弈求解不同策略下的MG投標(biāo)電量與投標(biāo)電價(jià),對(duì)MG 參與配電市場(chǎng)以及零售市場(chǎng)的交易機(jī)制進(jìn)行了驗(yàn)證。文獻(xiàn)[5]構(gòu)建了MG 間博弈交易模型以及MG 內(nèi)部博弈交易模型。 然而,對(duì)于競(jìng)爭(zhēng)的電力市場(chǎng),MG 間往往是競(jìng)爭(zhēng)關(guān)系而非合作關(guān)系,因此,非合作博弈模型在MG 能量交易中的使用更為合理。 文獻(xiàn)[6]提出了基于貢獻(xiàn)機(jī)制的電能交易策略, 當(dāng)負(fù)荷需求高峰、MG 內(nèi)部供電不足時(shí),貢獻(xiàn)值越高的MG 可優(yōu)先獲得上級(jí)電網(wǎng)的電量供應(yīng)。文獻(xiàn)[7]從非合作博弈理論出發(fā),設(shè)計(jì)了MG 剩余電量參與電力市場(chǎng)的價(jià)格競(jìng)爭(zhēng)機(jī)制,并從各MG 電能不足的概率角度,證明了所建立的非合作博弈模型存在唯一納什均衡點(diǎn)。
上述文獻(xiàn)在對(duì)博弈模型的求解上多采用的是常規(guī)的迭代求解,對(duì)不確定性因素的處理多采用的是場(chǎng)景法或隨機(jī)規(guī)劃法,且決策往往是在日前進(jìn)行,難以做到實(shí)時(shí)分析與在線決策。 強(qiáng)化深度學(xué)習(xí)法能夠依托MG 的大量經(jīng)典數(shù)據(jù), 根據(jù)實(shí)際的調(diào)度要求與優(yōu)化目標(biāo),給出對(duì)應(yīng)的控制方案以及優(yōu)化策略,實(shí)現(xiàn)對(duì)大數(shù)據(jù)的處理,達(dá)到實(shí)時(shí)在線決策的目的。 文獻(xiàn)[8],[9]基于強(qiáng)化深度學(xué)習(xí)法對(duì)MG 內(nèi)部復(fù)合儲(chǔ)能調(diào)度進(jìn)行優(yōu)化, 實(shí)現(xiàn)了變量的實(shí)時(shí)在線決策控制,并且在不同時(shí)刻、天氣、季節(jié)等場(chǎng)景下均能有效處理。 文獻(xiàn)[10],[11]構(gòu)建了一個(gè)基于強(qiáng)化深度學(xué)習(xí)算法優(yōu)化的MG 平準(zhǔn)化電能成本的長(zhǎng)短期電能管理方案,從規(guī)劃和運(yùn)行的角度將深度學(xué)習(xí)算法融入到MG 的實(shí)時(shí)運(yùn)行與調(diào)度中。
本文首先建立了多MG 電能交易博弈模型,并將MG 的電能博弈定性描述為馬爾科夫過(guò)程。然后建立了基于強(qiáng)化深度學(xué)習(xí)的MG 電能交易模型, 通過(guò)Hotbooting 技術(shù)獲得相似場(chǎng)景下的Q 學(xué)習(xí)算法的Q 值表和V 值表,大大減少了Q 學(xué)習(xí)算法的學(xué)習(xí)步長(zhǎng),提高了算法的收斂性,且具有良好的學(xué)習(xí)效果。
本文考慮的MG 由風(fēng)光等新能源機(jī)組、 電儲(chǔ)能系統(tǒng)、負(fù)載端需求響應(yīng)組成,各部分模型建模如下。
根據(jù)太陽(yáng)輻射強(qiáng)度,光伏陣列輸出功率為
式中:ηct為光伏陣列能量轉(zhuǎn)換效率;SCA為光伏陣列面積;Gt為某地t 時(shí)間段的實(shí)際太陽(yáng)輻射強(qiáng)度。
DG 的出力與環(huán)境風(fēng)速有著直接關(guān)系, 一般采用二參數(shù)的威布爾分布描述風(fēng)速分布模型,風(fēng)電輸出功率表達(dá)式為
式中:vt,Pwt,t分別為t 時(shí)刻環(huán)境風(fēng)速、 風(fēng)電輸出功率;Pwtr為風(fēng)電額定輸出功率;vin,vr,vout分別為 切入風(fēng)速、額定風(fēng)速、切出風(fēng)速。
根據(jù)式(1)和(2),k 時(shí)刻的估計(jì)誤差為
考慮到風(fēng)光電出力的不確定性,MG 須根據(jù)實(shí)際的風(fēng)電出力向上級(jí)電網(wǎng)進(jìn)行購(gòu)電以滿足轄區(qū)內(nèi)負(fù)荷需求。 為減少M(fèi)G 與上級(jí)電網(wǎng)間的電量交易,本文設(shè)計(jì)了MG 間的電量交易機(jī)制,如圖1 所示。 當(dāng)MGi 電量不足時(shí),首先與MG 進(jìn)行信息交流,假設(shè)此時(shí)MGj 為電量盈余微網(wǎng),則MGj 可以與MGi 進(jìn)行電能交易。 此外,同一個(gè)時(shí)刻,往往會(huì)有多個(gè)MG 處于電量緊缺狀態(tài), 同時(shí)也會(huì)有多個(gè)MG 處于電量盈余狀態(tài), 于是MG 間的電量交易構(gòu)成博弈模型,在不考慮MG 間聯(lián)盟的前提下,可認(rèn)為這是一個(gè)非合作博弈模型, 每個(gè)MG 以自身利益最大化參與電能交易。
圖1 多MG 電能交易場(chǎng)景示意圖Fig.1 Schematic diagram of multi microgrid electric energy trading scenario
為充分消納風(fēng)電等新能源出力, 減輕MG 對(duì)于上級(jí)電網(wǎng)的依賴, 應(yīng)盡可能地減少M(fèi)G 與上級(jí)電網(wǎng)的交易電量, 從而減少煤炭等的使用以及污染氣體的排放。 故應(yīng)當(dāng)讓系統(tǒng)優(yōu)先考慮MG 間的電能交易,MG 間的具體交易模型圖如圖2 所示。
圖2 多MG 電能交易模型圖Fig.2 Multi microgrid power trading model
在MG 間交易優(yōu)先的情況下, 交易規(guī)則及步驟如下:
②MG 間優(yōu)先進(jìn)行交易, 當(dāng)交易電量無(wú)法滿足時(shí),再考慮從變電站進(jìn)行購(gòu)售電。
基于以上原則,雙方的交易規(guī)則可表示為
上述公式表明,MGi 與MGj 之間只存在一次交易,電能交易過(guò)程是電量守恒的,滿足對(duì)稱性。由此可推導(dǎo)MGi 與變電站之間的實(shí)際電量交易yii為
由上述公式可知, 電量的變化必然導(dǎo)致MG的增益發(fā)生改變。 為刻畫電量的增加對(duì)MG 收益帶來(lái)的影響,設(shè)置增益函數(shù)并對(duì)其具體表達(dá)式進(jìn)行研究。 MG 的增益主要取決于儲(chǔ)能設(shè)備儲(chǔ)電量的增加,故首先增益函數(shù)G(b)為單調(diào)增函數(shù),其次,考慮到其余MG 的缺電量不可能無(wú)限增大,故當(dāng)儲(chǔ)電量達(dá)到一定值后,多余的電量只能以較低的價(jià)格出售給變電站。 因此隨著電量的變化,G(b)的增長(zhǎng)速度應(yīng)逐漸減小。 此處以對(duì)數(shù)函數(shù)刻畫增量函數(shù)[12]:
式中:βi為大于0 的系數(shù), 反映MGi 對(duì)內(nèi)部負(fù)荷的供電能力。
系統(tǒng)的效益函數(shù)為
進(jìn)而推導(dǎo)出MGi 的效益函數(shù)為
MG 與上級(jí)電網(wǎng)或者其余MG 進(jìn)行電量交易,將會(huì)影響下一時(shí)刻電量的存儲(chǔ)值以及其余MG 交易決策, 因此,MG 的電能交易博弈可以馬爾克夫過(guò)程描述。 在動(dòng)態(tài)博弈中,當(dāng)其余MG 的電量水平以及MG 自身的負(fù)荷需求未知時(shí),MG 可使用深度Q 學(xué)習(xí)算法獲得滿足自身利益的電量交易策略。
MGi 的瞬時(shí)效益函數(shù)為
MGi 根據(jù)自身的交易策略,不斷地對(duì)Q 函數(shù)進(jìn)行實(shí)時(shí)更新,具體計(jì)算式如下:
至此, 本文建立了基于深度Q 學(xué)習(xí)算法的MG 電能交易博弈模型。
深度Q 學(xué)習(xí)算法在初始化Q 值表時(shí)往往將其中所有元素簡(jiǎn)單的化為0, 每次在重復(fù)學(xué)習(xí)前將從0 開始進(jìn)行大量的探索與訓(xùn)練, 極大地縮減了學(xué)習(xí)效率。 如果能夠?qū)otbooting 技術(shù)與深度Q 學(xué)習(xí)算法相結(jié)合, 則能大大縮短前期的訓(xùn)練時(shí)間,提高算法的收斂性。
根據(jù)以往電能交易的相似場(chǎng)景,在相似的環(huán)境下通過(guò)大規(guī)模的仿真實(shí)驗(yàn)獲取訓(xùn)練數(shù)據(jù),在此訓(xùn)練數(shù)據(jù)的基礎(chǔ)上通過(guò)Hotbooting 技術(shù)對(duì)Q 值表和V 值表進(jìn)行初始化處理, 用處理后的Q 值表和V 值表替代原來(lái)初始化的Q 值表和V 值表。
具體的模型求解步驟如下:
③通過(guò)數(shù)據(jù)篩選,得出合法的交易值;
⑤將交易策略及時(shí)匯報(bào),并更新電量值,獲取下一時(shí)段狀態(tài);
⑥使用Hotbooting 技術(shù)模擬交易, 獲得模擬Q 值表、V 值表;
⑦深度Q 學(xué)習(xí)算法交易控制中心調(diào)整交易策略,獲得最佳預(yù)期效益。
系統(tǒng)的求解流程圖如圖3 所示。
圖3 基于Hotbooting Q 交易算法的求解流程圖Fig.3 Solution flow chart based on Hotbooting Q transaction algorithm
本文建立了基于Hotbooting Q 學(xué)習(xí)的MG 電能交易算法,并通過(guò)MATLAB 編程完成了對(duì)上述模型的仿真計(jì)算。 場(chǎng)景設(shè)定為智能電網(wǎng)下存在一個(gè)由變電站(PP)以及3 個(gè)MG 組成的博弈框架,研究四者之間的電能交易策略, 設(shè)定MG 用戶為利益主導(dǎo)型, 即每次迭代MG 均以自身利益最大化作為優(yōu)化目標(biāo)。
智能體采用貪婪算法以保證學(xué)習(xí)過(guò)程不陷入局部最優(yōu)解,即有1-ε 的概率選擇式(22)的策略,貪婪系數(shù)ε 取為0.8[10],產(chǎn)生隨機(jī)動(dòng)作的概率為1-ε=0.2, 同時(shí)更新并繼續(xù)計(jì)算新的Q值, 直至實(shí)驗(yàn)結(jié)束。 在強(qiáng)化學(xué)習(xí)中,α 取0.7,γ取0.8,設(shè)置學(xué)習(xí)步長(zhǎng)為5 000 步,學(xué)習(xí)次數(shù)為500 次。
為了對(duì)不同的結(jié)果進(jìn)行對(duì)比, 本文設(shè)置了3種仿真案例,分別作如下描述:
Case1: 采用Hotbooting Q 交易算法對(duì)多MG電能交易博弈模型進(jìn)行求解;
Case2:采用深度Q 學(xué)習(xí)算法對(duì)多MG 電能交易博弈模型進(jìn)行求解;
Case3: 采用Greedy 策略對(duì)多MG 電能交易博弈模型進(jìn)行求解。
圖4 為3 種案例下的MG 電能交易后的平均效益變化情況。從圖中可以看到:采用Hotbooting Q 交易算法和深度Q 學(xué)習(xí)算法時(shí)有一個(gè)明顯的學(xué)習(xí)過(guò)程;而從收斂速度上看,相比深度Q 學(xué)習(xí)算法,采用Hotbooting Q交易算法要快很多,在學(xué)習(xí)步長(zhǎng)進(jìn)行到500 步左右即可完成收斂, 而深度Q學(xué)習(xí)算法要在3 500 步左右完成收斂。這主要得益于Hotbooting 技術(shù)在交易開始前便對(duì)相似場(chǎng)景下的數(shù)據(jù)進(jìn)行了大量的模擬,因此后續(xù)的學(xué)習(xí)探索階段的時(shí)間大大減少,可以較快掌握外界環(huán)境的交易規(guī)則以及交易規(guī)律。另外,如果交易過(guò)程單純使用Greedy 算法,并不能從交易數(shù)據(jù)中獲得經(jīng)驗(yàn),沒有學(xué)習(xí)過(guò)程,且交易的效益也較差??梢姡捎肏otbooting Q 交易算法對(duì)于提高整個(gè)算法的收斂性是有效的。
圖4 不同算法的MG 電量效益Fig.4 Power efficiency of microgrid with different algorithms
從MG 收益的角度分析,采用Greedy 算法交易策略的收益很不理想,其收益值為5.8 左右;采用深度Q 學(xué)習(xí)算法的收益值為10.5 左右,與Greedy 算法相比, 收益值提高了44.76%; 采用Hotbooting Q 交易算法的收益值最終穩(wěn)定在13左右,相較于深度Q 學(xué)習(xí)算法和Greedy 算法分別提高了15%和55.6%, 且收斂速度明顯優(yōu)于深度Q 學(xué)習(xí)算法。 因此,本文提出的Hotbooting Q 交易算法是行之有效的。
本文所提出的多MG 電能交易博弈模型的主要目的是為了減少M(fèi)G 從上級(jí)電網(wǎng)的購(gòu)電量,增加MG 間的交易電量, 提高M(jìn)G 獨(dú)立運(yùn)行的安全性與穩(wěn)定性。 圖5 展示了在學(xué)習(xí)步長(zhǎng)為5 000 步下的MG 從上級(jí)電網(wǎng)的購(gòu)電量曲線。 與上述分析一致,在收斂速度上,Hotbooting Q 交易算法依然領(lǐng)先于深度Q 學(xué)習(xí)算法。 從削減MG 向上級(jí)電網(wǎng)購(gòu)電量的角度來(lái)看, 采用Hotbooting Q 交易算法時(shí),在步長(zhǎng)為3 500 步(此時(shí)3 種算法均已收斂)時(shí),MG 向上級(jí)電網(wǎng)的購(gòu)電量為0.08,而深度Q 學(xué)習(xí)算法的結(jié)果為0.15 左右,Greedy 算法維持在0.42 左右。 可見,Hotbooting Q 交易算法不論在收斂速度上還是在最終的計(jì)算結(jié)果上, 均能取得很好的效果, 與深度Q 學(xué)習(xí)算法和Greedy 算法相比,MG 從上級(jí)電網(wǎng)的購(gòu)電量分別較少了75%和60%,達(dá)到了預(yù)期的效果。
圖5 MG 從上級(jí)電網(wǎng)購(gòu)買電量曲線Fig.5 Micro grid purchases electricity curve from superior grid
本文將一天24 h 設(shè)置為0:00-6:00,7:00-12:00,13:00-18:00 和19:00-24:00 4 個(gè)時(shí)段,每個(gè)時(shí)段進(jìn)行一次交易, 考慮到用戶用電負(fù)荷的峰谷情況, 預(yù)設(shè)在1~6 h 所有MG 的電量?jī)?chǔ)存值為0。 同時(shí)設(shè)置4 個(gè)參考算例,具體算例描述如下:
Case1:MG 間不進(jìn)行交易;
Case2: 采用Greedy 算法對(duì)多MG 電能交易博弈模型進(jìn)行求解;
Case3:采用深度Q 學(xué)習(xí)算法對(duì)多MG 電能交易博弈模型進(jìn)行求解;
Case4: 采用Hotbooting Q 交易算法對(duì)多MG電能交易博弈模型進(jìn)行求解。
圖6 顯示了在4 個(gè)交易時(shí)段下, 當(dāng)3 種算法均收斂時(shí),MG 從上級(jí)電網(wǎng)購(gòu)電量的變化情況。
圖6 不同算法下MG 從上級(jí)電網(wǎng)購(gòu)電量對(duì)比Fig.6 Comparison chart of power purchase from microgrid to superior grid under different algorithms
從圖6 中可以看到: 當(dāng)MG 間無(wú)法進(jìn)行電量交易時(shí),MG 只能從上級(jí)電網(wǎng)進(jìn)行購(gòu)電,且購(gòu)電量在中間兩個(gè)負(fù)荷高峰時(shí)段較高; 當(dāng)MG 間可進(jìn)行電量交易時(shí), 相對(duì)于Case1,3 種算法的購(gòu)電量均有不同程度的下降。 Greedy 算法由于訓(xùn)練效果較差,雖然購(gòu)電量有所下降,但是效果并不理想;深度Q 學(xué)習(xí)算法以及Hotbooting Q 交易算法效果較為理想??梢娫诿總€(gè)時(shí)刻,后兩種算法均可以大幅度削減MG 向上級(jí)電網(wǎng)的購(gòu)電量, 減少M(fèi)G 對(duì)上級(jí)電網(wǎng)的依賴性。
不同時(shí)段下的MG 平均收益值如圖7 所示。從圖中可以看到: 在各個(gè)時(shí)刻,3 種算法在收益上的規(guī)律與上述分析也保持一致,Hotbooting Q 交易算法在各個(gè)時(shí)刻的計(jì)算結(jié)果均為最優(yōu);在7:00-12:00 和19:00-24:00,MG 的收益顯然低于1:00-6:00 和13:00-18:00, 這主要是因?yàn)檫@兩個(gè)時(shí)段負(fù)載需求上升,MG 需要從上級(jí)電網(wǎng)購(gòu)電,從而增大了購(gòu)電成本,導(dǎo)致收益有所下降。
圖7 3 種算法下的各時(shí)刻收益變化值Fig.7 Change graph of income at each time under three algorithms
由式(18)可知,增益系數(shù)的取值將會(huì)對(duì)MG的電能交易產(chǎn)生影響, 而效益函數(shù)主要包括兩部分:MG 內(nèi)存儲(chǔ)電量的變化帶來(lái)的收益變化和MG交易方式的變化帶來(lái)的收益變化。 通過(guò)調(diào)節(jié)參數(shù)可設(shè)置兩種收益的權(quán)重比。
設(shè)置β 值為[6,10],從圖8 可以看到,隨著β值的增大,3 種算法下的MG 平均收益均有所增加,且深度Q 學(xué)習(xí)算法以及Greedy 算法下的MG收益值隨著β 的變化呈現(xiàn)出近似線性關(guān)系。 在整個(gè)增益系數(shù)變化范圍內(nèi), 基于Hotbooting Q 交易算法的MG 收益值由9 增加到13.5, 增幅為50%。此外,在不同的增益函數(shù)下,Hotbooting Q 交易算法的性能依然比深度Q 學(xué)習(xí)算法和Greedy算法優(yōu)秀。
圖8 MG 效益隨β 值變化情況Fig.8 Schematic diagram of MG benefit changing with β value
①多MG 間的電能交易可有效提高M(jìn)G 用戶收益,減輕MG 對(duì)上級(jí)電網(wǎng)的依賴性,減少與上級(jí)電網(wǎng)的交易電量。
②Hotbooting Q 交易算法可加快算法的收斂速度,減少算法前期的學(xué)習(xí)以及探索時(shí)間,提高求解效率。
③與深度Q 學(xué)習(xí)算法以及Greedy 算法相比,Hotbooting Q 交易算法可顯著提高M(jìn)G 的收益,減少M(fèi)G 從上級(jí)電網(wǎng)的購(gòu)電量, 所求得的結(jié)果在3 種算法中最優(yōu)。