亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于Hotbooting Q 算法的多微網(wǎng)能量交易博弈模型

2020-08-17 06:44:04余加喜吳清玉宋麗珠莫若慧

可再生能源 2020年8期

李聰，余加喜，姜文，吳清玉，宋麗珠，莫若慧，吳鋒

（南網(wǎng)海南電網(wǎng)電力調(diào)度控制中心，海南 ?？?570100）

0 引言

隨著分布式電源接入電網(wǎng)比例的不斷提高，其出力的隨機(jī)性和間歇性對(duì)電力系統(tǒng)的安全穩(wěn)定運(yùn)行構(gòu)成了威脅。微網(wǎng)（MG）通過(guò)先進(jìn)的通信、計(jì)量和協(xié)調(diào)控制技術(shù)，將分布式電源、儲(chǔ)能系統(tǒng)等多種分布式能源聚合，通過(guò)協(xié)調(diào)內(nèi)部各機(jī)組出力，極大地減小了分布式電源單獨(dú)并網(wǎng)對(duì)公網(wǎng)造成的沖擊，緩和了風(fēng)光等可再生能源的波動(dòng)性，實(shí)現(xiàn)了資源的優(yōu)化配置和協(xié)調(diào)管理，提高了市場(chǎng)競(jìng)爭(zhēng)力[1]～[3]。

MG 參與電力市場(chǎng)交易可帶來(lái)諸多益處，其交易行為不可避免地會(huì)受到其余MG 以及上級(jí)電網(wǎng)的影響，博弈論是目前有效處理MG 電能交易的方法。文獻(xiàn)[4]考慮了多MG 參與配電市場(chǎng)競(jìng)標(biāo)，并基于完全信息博弈求解不同策略下的MG投標(biāo)電量與投標(biāo)電價(jià)，對(duì)MG 參與配電市場(chǎng)以及零售市場(chǎng)的交易機(jī)制進(jìn)行了驗(yàn)證。文獻(xiàn)[5]構(gòu)建了MG 間博弈交易模型以及MG 內(nèi)部博弈交易模型。然而，對(duì)于競(jìng)爭(zhēng)的電力市場(chǎng)，MG 間往往是競(jìng)爭(zhēng)關(guān)系而非合作關(guān)系，因此，非合作博弈模型在MG 能量交易中的使用更為合理。文獻(xiàn)[6]提出了基于貢獻(xiàn)機(jī)制的電能交易策略，當(dāng)負(fù)荷需求高峰、MG 內(nèi)部供電不足時(shí)，貢獻(xiàn)值越高的MG 可優(yōu)先獲得上級(jí)電網(wǎng)的電量供應(yīng)。文獻(xiàn)[7]從非合作博弈理論出發(fā)，設(shè)計(jì)了MG 剩余電量參與電力市場(chǎng)的價(jià)格競(jìng)爭(zhēng)機(jī)制，并從各MG 電能不足的概率角度，證明了所建立的非合作博弈模型存在唯一納什均衡點(diǎn)。

上述文獻(xiàn)在對(duì)博弈模型的求解上多采用的是常規(guī)的迭代求解，對(duì)不確定性因素的處理多采用的是場(chǎng)景法或隨機(jī)規(guī)劃法，且決策往往是在日前進(jìn)行，難以做到實(shí)時(shí)分析與在線決策。強(qiáng)化深度學(xué)習(xí)法能夠依托MG 的大量經(jīng)典數(shù)據(jù)，根據(jù)實(shí)際的調(diào)度要求與優(yōu)化目標(biāo)，給出對(duì)應(yīng)的控制方案以及優(yōu)化策略，實(shí)現(xiàn)對(duì)大數(shù)據(jù)的處理，達(dá)到實(shí)時(shí)在線決策的目的。文獻(xiàn)[8]，[9]基于強(qiáng)化深度學(xué)習(xí)法對(duì)MG 內(nèi)部復(fù)合儲(chǔ)能調(diào)度進(jìn)行優(yōu)化，實(shí)現(xiàn)了變量的實(shí)時(shí)在線決策控制，并且在不同時(shí)刻、天氣、季節(jié)等場(chǎng)景下均能有效處理。文獻(xiàn)[10]，[11]構(gòu)建了一個(gè)基于強(qiáng)化深度學(xué)習(xí)算法優(yōu)化的MG 平準(zhǔn)化電能成本的長(zhǎng)短期電能管理方案，從規(guī)劃和運(yùn)行的角度將深度學(xué)習(xí)算法融入到MG 的實(shí)時(shí)運(yùn)行與調(diào)度中。

本文首先建立了多MG 電能交易博弈模型，并將MG 的電能博弈定性描述為馬爾科夫過(guò)程。然后建立了基于強(qiáng)化深度學(xué)習(xí)的MG 電能交易模型，通過(guò)Hotbooting 技術(shù)獲得相似場(chǎng)景下的Q 學(xué)習(xí)算法的Q 值表和V 值表，大大減少了Q 學(xué)習(xí)算法的學(xué)習(xí)步長(zhǎng)，提高了算法的收斂性，且具有良好的學(xué)習(xí)效果。

1 MG 間電能交易博弈機(jī)制設(shè)定

本文考慮的MG 由風(fēng)光等新能源機(jī)組、電儲(chǔ)能系統(tǒng)、負(fù)載端需求響應(yīng)組成，各部分模型建模如下。

1.1 光伏發(fā)電模型

根據(jù)太陽(yáng)輻射強(qiáng)度，光伏陣列輸出功率為

式中：ηct為光伏陣列能量轉(zhuǎn)換效率；SCA為光伏陣列面積；Gt為某地t 時(shí)間段的實(shí)際太陽(yáng)輻射強(qiáng)度。

1.2 風(fēng)機(jī)發(fā)電模型

DG 的出力與環(huán)境風(fēng)速有著直接關(guān)系，一般采用二參數(shù)的威布爾分布描述風(fēng)速分布模型，風(fēng)電輸出功率表達(dá)式為

式中：vt，Pwt，t分別為t 時(shí)刻環(huán)境風(fēng)速、風(fēng)電輸出功率；Pwtr為風(fēng)電額定輸出功率；vin，vr，vout分別為切入風(fēng)速、額定風(fēng)速、切出風(fēng)速。

根據(jù)式（1）和（2），k 時(shí)刻的估計(jì)誤差為

1.3 多微網(wǎng)電能交易博弈模型

考慮到風(fēng)光電出力的不確定性，MG 須根據(jù)實(shí)際的風(fēng)電出力向上級(jí)電網(wǎng)進(jìn)行購(gòu)電以滿足轄區(qū)內(nèi)負(fù)荷需求。為減少M(fèi)G 與上級(jí)電網(wǎng)間的電量交易，本文設(shè)計(jì)了MG 間的電量交易機(jī)制，如圖1 所示。當(dāng)MGi 電量不足時(shí)，首先與MG 進(jìn)行信息交流，假設(shè)此時(shí)MGj 為電量盈余微網(wǎng)，則MGj 可以與MGi 進(jìn)行電能交易。此外，同一個(gè)時(shí)刻，往往會(huì)有多個(gè)MG 處于電量緊缺狀態(tài)，同時(shí)也會(huì)有多個(gè)MG 處于電量盈余狀態(tài)，于是MG 間的電量交易構(gòu)成博弈模型，在不考慮MG 間聯(lián)盟的前提下，可認(rèn)為這是一個(gè)非合作博弈模型，每個(gè)MG 以自身利益最大化參與電能交易。

圖1 多MG 電能交易場(chǎng)景示意圖Fig.1 Schematic diagram of multi microgrid electric energy trading scenario

為充分消納風(fēng)電等新能源出力，減輕MG 對(duì)于上級(jí)電網(wǎng)的依賴，應(yīng)盡可能地減少M(fèi)G 與上級(jí)電網(wǎng)的交易電量，從而減少煤炭等的使用以及污染氣體的排放。故應(yīng)當(dāng)讓系統(tǒng)優(yōu)先考慮MG 間的電能交易，MG 間的具體交易模型圖如圖2 所示。

圖2 多MG 電能交易模型圖Fig.2 Multi microgrid power trading model

在MG 間交易優(yōu)先的情況下，交易規(guī)則及步驟如下：

②MG 間優(yōu)先進(jìn)行交易，當(dāng)交易電量無(wú)法滿足時(shí)，再考慮從變電站進(jìn)行購(gòu)售電。

基于以上原則，雙方的交易規(guī)則可表示為

上述公式表明，MGi 與MGj 之間只存在一次交易，電能交易過(guò)程是電量守恒的，滿足對(duì)稱性。由此可推導(dǎo)MGi 與變電站之間的實(shí)際電量交易yii為

由上述公式可知，電量的變化必然導(dǎo)致MG的增益發(fā)生改變。為刻畫電量的增加對(duì)MG 收益帶來(lái)的影響，設(shè)置增益函數(shù)并對(duì)其具體表達(dá)式進(jìn)行研究。 MG 的增益主要取決于儲(chǔ)能設(shè)備儲(chǔ)電量的增加，故首先增益函數(shù)G（b）為單調(diào)增函數(shù)，其次，考慮到其余MG 的缺電量不可能無(wú)限增大，故當(dāng)儲(chǔ)電量達(dá)到一定值后，多余的電量只能以較低的價(jià)格出售給變電站。因此隨著電量的變化，G（b）的增長(zhǎng)速度應(yīng)逐漸減小。此處以對(duì)數(shù)函數(shù)刻畫增量函數(shù)[12]：

式中：βi為大于0 的系數(shù)，反映MGi 對(duì)內(nèi)部負(fù)荷的供電能力。

系統(tǒng)的效益函數(shù)為

進(jìn)而推導(dǎo)出MGi 的效益函數(shù)為

2 基于Hotbooting Q 學(xué)習(xí)的MG 電能交易

2.1 基于深度Q 學(xué)習(xí)算法的MG 電能交易

MG 與上級(jí)電網(wǎng)或者其余MG 進(jìn)行電量交易，將會(huì)影響下一時(shí)刻電量的存儲(chǔ)值以及其余MG 交易決策，因此，MG 的電能交易博弈可以馬爾克夫過(guò)程描述。在動(dòng)態(tài)博弈中，當(dāng)其余MG 的電量水平以及MG 自身的負(fù)荷需求未知時(shí)，MG 可使用深度Q 學(xué)習(xí)算法獲得滿足自身利益的電量交易策略。

MGi 的瞬時(shí)效益函數(shù)為

MGi 根據(jù)自身的交易策略，不斷地對(duì)Q 函數(shù)進(jìn)行實(shí)時(shí)更新，具體計(jì)算式如下：

至此，本文建立了基于深度Q 學(xué)習(xí)算法的MG 電能交易博弈模型。

2.2 Hotbooting 技術(shù)在深度Q 學(xué)習(xí)算法中的應(yīng)用

深度Q 學(xué)習(xí)算法在初始化Q 值表時(shí)往往將其中所有元素簡(jiǎn)單的化為0，每次在重復(fù)學(xué)習(xí)前將從0 開始進(jìn)行大量的探索與訓(xùn)練，極大地縮減了學(xué)習(xí)效率。如果能夠?qū)otbooting 技術(shù)與深度Q 學(xué)習(xí)算法相結(jié)合，則能大大縮短前期的訓(xùn)練時(shí)間，提高算法的收斂性。

根據(jù)以往電能交易的相似場(chǎng)景，在相似的環(huán)境下通過(guò)大規(guī)模的仿真實(shí)驗(yàn)獲取訓(xùn)練數(shù)據(jù)，在此訓(xùn)練數(shù)據(jù)的基礎(chǔ)上通過(guò)Hotbooting 技術(shù)對(duì)Q 值表和V 值表進(jìn)行初始化處理，用處理后的Q 值表和V 值表替代原來(lái)初始化的Q 值表和V 值表。

具體的模型求解步驟如下：

③通過(guò)數(shù)據(jù)篩選，得出合法的交易值；

⑤將交易策略及時(shí)匯報(bào)，并更新電量值，獲取下一時(shí)段狀態(tài)；

⑥使用Hotbooting 技術(shù)模擬交易，獲得模擬Q 值表、V 值表；

⑦深度Q 學(xué)習(xí)算法交易控制中心調(diào)整交易策略，獲得最佳預(yù)期效益。

系統(tǒng)的求解流程圖如圖3 所示。

圖3 基于Hotbooting Q 交易算法的求解流程圖Fig.3 Solution flow chart based on Hotbooting Q transaction algorithm

3 算例分析

本文建立了基于Hotbooting Q 學(xué)習(xí)的MG 電能交易算法，并通過(guò)MATLAB 編程完成了對(duì)上述模型的仿真計(jì)算。場(chǎng)景設(shè)定為智能電網(wǎng)下存在一個(gè)由變電站（PP）以及3 個(gè)MG 組成的博弈框架，研究四者之間的電能交易策略，設(shè)定MG 用戶為利益主導(dǎo)型，即每次迭代MG 均以自身利益最大化作為優(yōu)化目標(biāo)。

3.1 實(shí)驗(yàn)數(shù)據(jù)及案例描述

智能體采用貪婪算法以保證學(xué)習(xí)過(guò)程不陷入局部最優(yōu)解，即有1-ε 的概率選擇式（22）的策略，貪婪系數(shù)ε 取為0.8[10]，產(chǎn)生隨機(jī)動(dòng)作的概率為1-ε=0.2，同時(shí)更新并繼續(xù)計(jì)算新的Q值，直至實(shí)驗(yàn)結(jié)束。在強(qiáng)化學(xué)習(xí)中，α 取0.7，γ取0.8，設(shè)置學(xué)習(xí)步長(zhǎng)為5 000 步，學(xué)習(xí)次數(shù)為500 次。

3.2 算法效率及有效性測(cè)試

為了對(duì)不同的結(jié)果進(jìn)行對(duì)比，本文設(shè)置了3種仿真案例，分別作如下描述：

Case1：采用Hotbooting Q 交易算法對(duì)多MG電能交易博弈模型進(jìn)行求解；

Case2：采用深度Q 學(xué)習(xí)算法對(duì)多MG 電能交易博弈模型進(jìn)行求解；

Case3：采用Greedy 策略對(duì)多MG 電能交易博弈模型進(jìn)行求解。

圖4 為3 種案例下的MG 電能交易后的平均效益變化情況。從圖中可以看到：采用Hotbooting Q 交易算法和深度Q 學(xué)習(xí)算法時(shí)有一個(gè)明顯的學(xué)習(xí)過(guò)程；而從收斂速度上看，相比深度Q 學(xué)習(xí)算法，采用Hotbooting Q交易算法要快很多，在學(xué)習(xí)步長(zhǎng)進(jìn)行到500 步左右即可完成收斂，而深度Q學(xué)習(xí)算法要在3 500 步左右完成收斂。這主要得益于Hotbooting 技術(shù)在交易開始前便對(duì)相似場(chǎng)景下的數(shù)據(jù)進(jìn)行了大量的模擬，因此后續(xù)的學(xué)習(xí)探索階段的時(shí)間大大減少，可以較快掌握外界環(huán)境的交易規(guī)則以及交易規(guī)律。另外，如果交易過(guò)程單純使用Greedy 算法，并不能從交易數(shù)據(jù)中獲得經(jīng)驗(yàn)，沒有學(xué)習(xí)過(guò)程，且交易的效益也較差?？梢姡捎肏otbooting Q 交易算法對(duì)于提高整個(gè)算法的收斂性是有效的。

圖4 不同算法的MG 電量效益Fig.4 Power efficiency of microgrid with different algorithms

從MG 收益的角度分析，采用Greedy 算法交易策略的收益很不理想，其收益值為5.8 左右；采用深度Q 學(xué)習(xí)算法的收益值為10.5 左右，與Greedy 算法相比，收益值提高了44.76%；采用Hotbooting Q 交易算法的收益值最終穩(wěn)定在13左右，相較于深度Q 學(xué)習(xí)算法和Greedy 算法分別提高了15%和55.6%，且收斂速度明顯優(yōu)于深度Q 學(xué)習(xí)算法。因此，本文提出的Hotbooting Q 交易算法是行之有效的。

本文所提出的多MG 電能交易博弈模型的主要目的是為了減少M(fèi)G 從上級(jí)電網(wǎng)的購(gòu)電量，增加MG 間的交易電量，提高M(jìn)G 獨(dú)立運(yùn)行的安全性與穩(wěn)定性。圖5 展示了在學(xué)習(xí)步長(zhǎng)為5 000 步下的MG 從上級(jí)電網(wǎng)的購(gòu)電量曲線。與上述分析一致，在收斂速度上，Hotbooting Q 交易算法依然領(lǐng)先于深度Q 學(xué)習(xí)算法。從削減MG 向上級(jí)電網(wǎng)購(gòu)電量的角度來(lái)看，采用Hotbooting Q 交易算法時(shí)，在步長(zhǎng)為3 500 步（此時(shí)3 種算法均已收斂）時(shí)，MG 向上級(jí)電網(wǎng)的購(gòu)電量為0.08，而深度Q 學(xué)習(xí)算法的結(jié)果為0.15 左右，Greedy 算法維持在0.42 左右。可見，Hotbooting Q 交易算法不論在收斂速度上還是在最終的計(jì)算結(jié)果上，均能取得很好的效果，與深度Q 學(xué)習(xí)算法和Greedy 算法相比，MG 從上級(jí)電網(wǎng)的購(gòu)電量分別較少了75%和60%，達(dá)到了預(yù)期的效果。

圖5 MG 從上級(jí)電網(wǎng)購(gòu)買電量曲線Fig.5 Micro grid purchases electricity curve from superior grid

本文將一天24 h 設(shè)置為0：00-6：00，7：00-12：00，13：00-18：00 和19：00-24：00 4 個(gè)時(shí)段，每個(gè)時(shí)段進(jìn)行一次交易，考慮到用戶用電負(fù)荷的峰谷情況，預(yù)設(shè)在1～6 h 所有MG 的電量?jī)?chǔ)存值為0。同時(shí)設(shè)置4 個(gè)參考算例，具體算例描述如下：

Case1：MG 間不進(jìn)行交易；

Case2：采用Greedy 算法對(duì)多MG 電能交易博弈模型進(jìn)行求解；

Case3：采用深度Q 學(xué)習(xí)算法對(duì)多MG 電能交易博弈模型進(jìn)行求解；

Case4：采用Hotbooting Q 交易算法對(duì)多MG電能交易博弈模型進(jìn)行求解。

圖6 顯示了在4 個(gè)交易時(shí)段下，當(dāng)3 種算法均收斂時(shí)，MG 從上級(jí)電網(wǎng)購(gòu)電量的變化情況。

圖6 不同算法下MG 從上級(jí)電網(wǎng)購(gòu)電量對(duì)比Fig.6 Comparison chart of power purchase from microgrid to superior grid under different algorithms

從圖6 中可以看到：當(dāng)MG 間無(wú)法進(jìn)行電量交易時(shí)，MG 只能從上級(jí)電網(wǎng)進(jìn)行購(gòu)電，且購(gòu)電量在中間兩個(gè)負(fù)荷高峰時(shí)段較高；當(dāng)MG 間可進(jìn)行電量交易時(shí)，相對(duì)于Case1，3 種算法的購(gòu)電量均有不同程度的下降。 Greedy 算法由于訓(xùn)練效果較差，雖然購(gòu)電量有所下降，但是效果并不理想；深度Q 學(xué)習(xí)算法以及Hotbooting Q 交易算法效果較為理想?？梢娫诿總€(gè)時(shí)刻，后兩種算法均可以大幅度削減MG 向上級(jí)電網(wǎng)的購(gòu)電量，減少M(fèi)G 對(duì)上級(jí)電網(wǎng)的依賴性。

不同時(shí)段下的MG 平均收益值如圖7 所示。從圖中可以看到：在各個(gè)時(shí)刻，3 種算法在收益上的規(guī)律與上述分析也保持一致，Hotbooting Q 交易算法在各個(gè)時(shí)刻的計(jì)算結(jié)果均為最優(yōu)；在7：00-12：00 和19：00-24：00，MG 的收益顯然低于1：00-6：00 和13：00-18：00，這主要是因?yàn)檫@兩個(gè)時(shí)段負(fù)載需求上升，MG 需要從上級(jí)電網(wǎng)購(gòu)電，從而增大了購(gòu)電成本，導(dǎo)致收益有所下降。

圖7 3 種算法下的各時(shí)刻收益變化值Fig.7 Change graph of income at each time under three algorithms

由式（18）可知，增益系數(shù)的取值將會(huì)對(duì)MG的電能交易產(chǎn)生影響，而效益函數(shù)主要包括兩部分：MG 內(nèi)存儲(chǔ)電量的變化帶來(lái)的收益變化和MG交易方式的變化帶來(lái)的收益變化。通過(guò)調(diào)節(jié)參數(shù)可設(shè)置兩種收益的權(quán)重比。

設(shè)置β 值為[6，10]，從圖8 可以看到，隨著β值的增大，3 種算法下的MG 平均收益均有所增加，且深度Q 學(xué)習(xí)算法以及Greedy 算法下的MG收益值隨著β 的變化呈現(xiàn)出近似線性關(guān)系。在整個(gè)增益系數(shù)變化范圍內(nèi)，基于Hotbooting Q 交易算法的MG 收益值由9 增加到13.5，增幅為50%。此外，在不同的增益函數(shù)下，Hotbooting Q 交易算法的性能依然比深度Q 學(xué)習(xí)算法和Greedy算法優(yōu)秀。

圖8 MG 效益隨β 值變化情況Fig.8 Schematic diagram of MG benefit changing with β value

4 結(jié)論

①多MG 間的電能交易可有效提高M(jìn)G 用戶收益，減輕MG 對(duì)上級(jí)電網(wǎng)的依賴性，減少與上級(jí)電網(wǎng)的交易電量。

②Hotbooting Q 交易算法可加快算法的收斂速度，減少算法前期的學(xué)習(xí)以及探索時(shí)間，提高求解效率。

③與深度Q 學(xué)習(xí)算法以及Greedy 算法相比，Hotbooting Q 交易算法可顯著提高M(jìn)G 的收益，減少M(fèi)G 從上級(jí)電網(wǎng)的購(gòu)電量，所求得的結(jié)果在3 種算法中最優(yōu)。