亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Hotbooting Q 算法的多微網(wǎng)能量交易博弈模型

        2020-08-17 06:44:04余加喜吳清玉宋麗珠莫若慧
        可再生能源 2020年8期
        關(guān)鍵詞:電能深度模型

        李 聰, 余加喜, 姜 文, 吳清玉, 宋麗珠, 莫若慧, 吳 鋒

        (南網(wǎng)海南電網(wǎng)電力調(diào)度控制中心, 海南 ???570100)

        0 引言

        隨著分布式電源接入電網(wǎng)比例的不斷提高,其出力的隨機(jī)性和間歇性對(duì)電力系統(tǒng)的安全穩(wěn)定運(yùn)行構(gòu)成了威脅。 微網(wǎng)(MG)通過(guò)先進(jìn)的通信、計(jì)量和協(xié)調(diào)控制技術(shù),將分布式電源、儲(chǔ)能系統(tǒng)等多種分布式能源聚合,通過(guò)協(xié)調(diào)內(nèi)部各機(jī)組出力,極大地減小了分布式電源單獨(dú)并網(wǎng)對(duì)公網(wǎng)造成的沖擊,緩和了風(fēng)光等可再生能源的波動(dòng)性,實(shí)現(xiàn)了資源的優(yōu)化配置和協(xié)調(diào)管理,提高了市場(chǎng)競(jìng)爭(zhēng)力[1]~[3]。

        MG 參與電力市場(chǎng)交易可帶來(lái)諸多益處,其交易行為不可避免地會(huì)受到其余MG 以及上級(jí)電網(wǎng)的影響,博弈論是目前有效處理MG 電能交易的方法。文獻(xiàn)[4]考慮了多MG 參與配電市場(chǎng)競(jìng)標(biāo),并基于完全信息博弈求解不同策略下的MG投標(biāo)電量與投標(biāo)電價(jià),對(duì)MG 參與配電市場(chǎng)以及零售市場(chǎng)的交易機(jī)制進(jìn)行了驗(yàn)證。文獻(xiàn)[5]構(gòu)建了MG 間博弈交易模型以及MG 內(nèi)部博弈交易模型。 然而,對(duì)于競(jìng)爭(zhēng)的電力市場(chǎng),MG 間往往是競(jìng)爭(zhēng)關(guān)系而非合作關(guān)系,因此,非合作博弈模型在MG 能量交易中的使用更為合理。 文獻(xiàn)[6]提出了基于貢獻(xiàn)機(jī)制的電能交易策略, 當(dāng)負(fù)荷需求高峰、MG 內(nèi)部供電不足時(shí),貢獻(xiàn)值越高的MG 可優(yōu)先獲得上級(jí)電網(wǎng)的電量供應(yīng)。文獻(xiàn)[7]從非合作博弈理論出發(fā),設(shè)計(jì)了MG 剩余電量參與電力市場(chǎng)的價(jià)格競(jìng)爭(zhēng)機(jī)制,并從各MG 電能不足的概率角度,證明了所建立的非合作博弈模型存在唯一納什均衡點(diǎn)。

        上述文獻(xiàn)在對(duì)博弈模型的求解上多采用的是常規(guī)的迭代求解,對(duì)不確定性因素的處理多采用的是場(chǎng)景法或隨機(jī)規(guī)劃法,且決策往往是在日前進(jìn)行,難以做到實(shí)時(shí)分析與在線決策。 強(qiáng)化深度學(xué)習(xí)法能夠依托MG 的大量經(jīng)典數(shù)據(jù), 根據(jù)實(shí)際的調(diào)度要求與優(yōu)化目標(biāo),給出對(duì)應(yīng)的控制方案以及優(yōu)化策略,實(shí)現(xiàn)對(duì)大數(shù)據(jù)的處理,達(dá)到實(shí)時(shí)在線決策的目的。 文獻(xiàn)[8],[9]基于強(qiáng)化深度學(xué)習(xí)法對(duì)MG 內(nèi)部復(fù)合儲(chǔ)能調(diào)度進(jìn)行優(yōu)化, 實(shí)現(xiàn)了變量的實(shí)時(shí)在線決策控制,并且在不同時(shí)刻、天氣、季節(jié)等場(chǎng)景下均能有效處理。 文獻(xiàn)[10],[11]構(gòu)建了一個(gè)基于強(qiáng)化深度學(xué)習(xí)算法優(yōu)化的MG 平準(zhǔn)化電能成本的長(zhǎng)短期電能管理方案,從規(guī)劃和運(yùn)行的角度將深度學(xué)習(xí)算法融入到MG 的實(shí)時(shí)運(yùn)行與調(diào)度中。

        本文首先建立了多MG 電能交易博弈模型,并將MG 的電能博弈定性描述為馬爾科夫過(guò)程。然后建立了基于強(qiáng)化深度學(xué)習(xí)的MG 電能交易模型, 通過(guò)Hotbooting 技術(shù)獲得相似場(chǎng)景下的Q 學(xué)習(xí)算法的Q 值表和V 值表,大大減少了Q 學(xué)習(xí)算法的學(xué)習(xí)步長(zhǎng),提高了算法的收斂性,且具有良好的學(xué)習(xí)效果。

        1 MG 間電能交易博弈機(jī)制設(shè)定

        本文考慮的MG 由風(fēng)光等新能源機(jī)組、 電儲(chǔ)能系統(tǒng)、負(fù)載端需求響應(yīng)組成,各部分模型建模如下。

        1.1 光伏發(fā)電模型

        根據(jù)太陽(yáng)輻射強(qiáng)度,光伏陣列輸出功率為

        式中:ηct為光伏陣列能量轉(zhuǎn)換效率;SCA為光伏陣列面積;Gt為某地t 時(shí)間段的實(shí)際太陽(yáng)輻射強(qiáng)度。

        1.2 風(fēng)機(jī)發(fā)電模型

        DG 的出力與環(huán)境風(fēng)速有著直接關(guān)系, 一般采用二參數(shù)的威布爾分布描述風(fēng)速分布模型,風(fēng)電輸出功率表達(dá)式為

        式中:vt,Pwt,t分別為t 時(shí)刻環(huán)境風(fēng)速、 風(fēng)電輸出功率;Pwtr為風(fēng)電額定輸出功率;vin,vr,vout分別為 切入風(fēng)速、額定風(fēng)速、切出風(fēng)速。

        根據(jù)式(1)和(2),k 時(shí)刻的估計(jì)誤差為

        1.3 多微網(wǎng)電能交易博弈模型

        考慮到風(fēng)光電出力的不確定性,MG 須根據(jù)實(shí)際的風(fēng)電出力向上級(jí)電網(wǎng)進(jìn)行購(gòu)電以滿足轄區(qū)內(nèi)負(fù)荷需求。 為減少M(fèi)G 與上級(jí)電網(wǎng)間的電量交易,本文設(shè)計(jì)了MG 間的電量交易機(jī)制,如圖1 所示。 當(dāng)MGi 電量不足時(shí),首先與MG 進(jìn)行信息交流,假設(shè)此時(shí)MGj 為電量盈余微網(wǎng),則MGj 可以與MGi 進(jìn)行電能交易。 此外,同一個(gè)時(shí)刻,往往會(huì)有多個(gè)MG 處于電量緊缺狀態(tài), 同時(shí)也會(huì)有多個(gè)MG 處于電量盈余狀態(tài), 于是MG 間的電量交易構(gòu)成博弈模型,在不考慮MG 間聯(lián)盟的前提下,可認(rèn)為這是一個(gè)非合作博弈模型, 每個(gè)MG 以自身利益最大化參與電能交易。

        圖1 多MG 電能交易場(chǎng)景示意圖Fig.1 Schematic diagram of multi microgrid electric energy trading scenario

        為充分消納風(fēng)電等新能源出力, 減輕MG 對(duì)于上級(jí)電網(wǎng)的依賴, 應(yīng)盡可能地減少M(fèi)G 與上級(jí)電網(wǎng)的交易電量, 從而減少煤炭等的使用以及污染氣體的排放。 故應(yīng)當(dāng)讓系統(tǒng)優(yōu)先考慮MG 間的電能交易,MG 間的具體交易模型圖如圖2 所示。

        圖2 多MG 電能交易模型圖Fig.2 Multi microgrid power trading model

        在MG 間交易優(yōu)先的情況下, 交易規(guī)則及步驟如下:

        ②MG 間優(yōu)先進(jìn)行交易, 當(dāng)交易電量無(wú)法滿足時(shí),再考慮從變電站進(jìn)行購(gòu)售電。

        基于以上原則,雙方的交易規(guī)則可表示為

        上述公式表明,MGi 與MGj 之間只存在一次交易,電能交易過(guò)程是電量守恒的,滿足對(duì)稱性。由此可推導(dǎo)MGi 與變電站之間的實(shí)際電量交易yii為

        由上述公式可知, 電量的變化必然導(dǎo)致MG的增益發(fā)生改變。 為刻畫電量的增加對(duì)MG 收益帶來(lái)的影響,設(shè)置增益函數(shù)并對(duì)其具體表達(dá)式進(jìn)行研究。 MG 的增益主要取決于儲(chǔ)能設(shè)備儲(chǔ)電量的增加,故首先增益函數(shù)G(b)為單調(diào)增函數(shù),其次,考慮到其余MG 的缺電量不可能無(wú)限增大,故當(dāng)儲(chǔ)電量達(dá)到一定值后,多余的電量只能以較低的價(jià)格出售給變電站。 因此隨著電量的變化,G(b)的增長(zhǎng)速度應(yīng)逐漸減小。 此處以對(duì)數(shù)函數(shù)刻畫增量函數(shù)[12]:

        式中:βi為大于0 的系數(shù), 反映MGi 對(duì)內(nèi)部負(fù)荷的供電能力。

        系統(tǒng)的效益函數(shù)為

        進(jìn)而推導(dǎo)出MGi 的效益函數(shù)為

        2 基于Hotbooting Q 學(xué)習(xí)的MG 電能交易

        2.1 基于深度Q 學(xué)習(xí)算法的MG 電能交易

        MG 與上級(jí)電網(wǎng)或者其余MG 進(jìn)行電量交易,將會(huì)影響下一時(shí)刻電量的存儲(chǔ)值以及其余MG 交易決策, 因此,MG 的電能交易博弈可以馬爾克夫過(guò)程描述。 在動(dòng)態(tài)博弈中,當(dāng)其余MG 的電量水平以及MG 自身的負(fù)荷需求未知時(shí),MG 可使用深度Q 學(xué)習(xí)算法獲得滿足自身利益的電量交易策略。

        MGi 的瞬時(shí)效益函數(shù)為

        MGi 根據(jù)自身的交易策略,不斷地對(duì)Q 函數(shù)進(jìn)行實(shí)時(shí)更新,具體計(jì)算式如下:

        至此, 本文建立了基于深度Q 學(xué)習(xí)算法的MG 電能交易博弈模型。

        2.2 Hotbooting 技術(shù)在深度Q 學(xué)習(xí)算法中的應(yīng)用

        深度Q 學(xué)習(xí)算法在初始化Q 值表時(shí)往往將其中所有元素簡(jiǎn)單的化為0, 每次在重復(fù)學(xué)習(xí)前將從0 開始進(jìn)行大量的探索與訓(xùn)練, 極大地縮減了學(xué)習(xí)效率。 如果能夠?qū)otbooting 技術(shù)與深度Q 學(xué)習(xí)算法相結(jié)合, 則能大大縮短前期的訓(xùn)練時(shí)間,提高算法的收斂性。

        根據(jù)以往電能交易的相似場(chǎng)景,在相似的環(huán)境下通過(guò)大規(guī)模的仿真實(shí)驗(yàn)獲取訓(xùn)練數(shù)據(jù),在此訓(xùn)練數(shù)據(jù)的基礎(chǔ)上通過(guò)Hotbooting 技術(shù)對(duì)Q 值表和V 值表進(jìn)行初始化處理, 用處理后的Q 值表和V 值表替代原來(lái)初始化的Q 值表和V 值表。

        具體的模型求解步驟如下:

        ③通過(guò)數(shù)據(jù)篩選,得出合法的交易值;

        ⑤將交易策略及時(shí)匯報(bào),并更新電量值,獲取下一時(shí)段狀態(tài);

        ⑥使用Hotbooting 技術(shù)模擬交易, 獲得模擬Q 值表、V 值表;

        ⑦深度Q 學(xué)習(xí)算法交易控制中心調(diào)整交易策略,獲得最佳預(yù)期效益。

        系統(tǒng)的求解流程圖如圖3 所示。

        圖3 基于Hotbooting Q 交易算法的求解流程圖Fig.3 Solution flow chart based on Hotbooting Q transaction algorithm

        3 算例分析

        本文建立了基于Hotbooting Q 學(xué)習(xí)的MG 電能交易算法,并通過(guò)MATLAB 編程完成了對(duì)上述模型的仿真計(jì)算。 場(chǎng)景設(shè)定為智能電網(wǎng)下存在一個(gè)由變電站(PP)以及3 個(gè)MG 組成的博弈框架,研究四者之間的電能交易策略, 設(shè)定MG 用戶為利益主導(dǎo)型, 即每次迭代MG 均以自身利益最大化作為優(yōu)化目標(biāo)。

        3.1 實(shí)驗(yàn)數(shù)據(jù)及案例描述

        智能體采用貪婪算法以保證學(xué)習(xí)過(guò)程不陷入局部最優(yōu)解,即有1-ε 的概率選擇式(22)的策略,貪婪系數(shù)ε 取為0.8[10],產(chǎn)生隨機(jī)動(dòng)作的概率為1-ε=0.2, 同時(shí)更新并繼續(xù)計(jì)算新的Q值, 直至實(shí)驗(yàn)結(jié)束。 在強(qiáng)化學(xué)習(xí)中,α 取0.7,γ取0.8,設(shè)置學(xué)習(xí)步長(zhǎng)為5 000 步,學(xué)習(xí)次數(shù)為500 次。

        3.2 算法效率及有效性測(cè)試

        為了對(duì)不同的結(jié)果進(jìn)行對(duì)比, 本文設(shè)置了3種仿真案例,分別作如下描述:

        Case1: 采用Hotbooting Q 交易算法對(duì)多MG電能交易博弈模型進(jìn)行求解;

        Case2:采用深度Q 學(xué)習(xí)算法對(duì)多MG 電能交易博弈模型進(jìn)行求解;

        Case3: 采用Greedy 策略對(duì)多MG 電能交易博弈模型進(jìn)行求解。

        圖4 為3 種案例下的MG 電能交易后的平均效益變化情況。從圖中可以看到:采用Hotbooting Q 交易算法和深度Q 學(xué)習(xí)算法時(shí)有一個(gè)明顯的學(xué)習(xí)過(guò)程;而從收斂速度上看,相比深度Q 學(xué)習(xí)算法,采用Hotbooting Q交易算法要快很多,在學(xué)習(xí)步長(zhǎng)進(jìn)行到500 步左右即可完成收斂, 而深度Q學(xué)習(xí)算法要在3 500 步左右完成收斂。這主要得益于Hotbooting 技術(shù)在交易開始前便對(duì)相似場(chǎng)景下的數(shù)據(jù)進(jìn)行了大量的模擬,因此后續(xù)的學(xué)習(xí)探索階段的時(shí)間大大減少,可以較快掌握外界環(huán)境的交易規(guī)則以及交易規(guī)律。另外,如果交易過(guò)程單純使用Greedy 算法,并不能從交易數(shù)據(jù)中獲得經(jīng)驗(yàn),沒有學(xué)習(xí)過(guò)程,且交易的效益也較差??梢姡捎肏otbooting Q 交易算法對(duì)于提高整個(gè)算法的收斂性是有效的。

        圖4 不同算法的MG 電量效益Fig.4 Power efficiency of microgrid with different algorithms

        從MG 收益的角度分析,采用Greedy 算法交易策略的收益很不理想,其收益值為5.8 左右;采用深度Q 學(xué)習(xí)算法的收益值為10.5 左右,與Greedy 算法相比, 收益值提高了44.76%; 采用Hotbooting Q 交易算法的收益值最終穩(wěn)定在13左右,相較于深度Q 學(xué)習(xí)算法和Greedy 算法分別提高了15%和55.6%, 且收斂速度明顯優(yōu)于深度Q 學(xué)習(xí)算法。 因此,本文提出的Hotbooting Q 交易算法是行之有效的。

        本文所提出的多MG 電能交易博弈模型的主要目的是為了減少M(fèi)G 從上級(jí)電網(wǎng)的購(gòu)電量,增加MG 間的交易電量, 提高M(jìn)G 獨(dú)立運(yùn)行的安全性與穩(wěn)定性。 圖5 展示了在學(xué)習(xí)步長(zhǎng)為5 000 步下的MG 從上級(jí)電網(wǎng)的購(gòu)電量曲線。 與上述分析一致,在收斂速度上,Hotbooting Q 交易算法依然領(lǐng)先于深度Q 學(xué)習(xí)算法。 從削減MG 向上級(jí)電網(wǎng)購(gòu)電量的角度來(lái)看, 采用Hotbooting Q 交易算法時(shí),在步長(zhǎng)為3 500 步(此時(shí)3 種算法均已收斂)時(shí),MG 向上級(jí)電網(wǎng)的購(gòu)電量為0.08,而深度Q 學(xué)習(xí)算法的結(jié)果為0.15 左右,Greedy 算法維持在0.42 左右。 可見,Hotbooting Q 交易算法不論在收斂速度上還是在最終的計(jì)算結(jié)果上, 均能取得很好的效果, 與深度Q 學(xué)習(xí)算法和Greedy 算法相比,MG 從上級(jí)電網(wǎng)的購(gòu)電量分別較少了75%和60%,達(dá)到了預(yù)期的效果。

        圖5 MG 從上級(jí)電網(wǎng)購(gòu)買電量曲線Fig.5 Micro grid purchases electricity curve from superior grid

        本文將一天24 h 設(shè)置為0:00-6:00,7:00-12:00,13:00-18:00 和19:00-24:00 4 個(gè)時(shí)段,每個(gè)時(shí)段進(jìn)行一次交易, 考慮到用戶用電負(fù)荷的峰谷情況, 預(yù)設(shè)在1~6 h 所有MG 的電量?jī)?chǔ)存值為0。 同時(shí)設(shè)置4 個(gè)參考算例,具體算例描述如下:

        Case1:MG 間不進(jìn)行交易;

        Case2: 采用Greedy 算法對(duì)多MG 電能交易博弈模型進(jìn)行求解;

        Case3:采用深度Q 學(xué)習(xí)算法對(duì)多MG 電能交易博弈模型進(jìn)行求解;

        Case4: 采用Hotbooting Q 交易算法對(duì)多MG電能交易博弈模型進(jìn)行求解。

        圖6 顯示了在4 個(gè)交易時(shí)段下, 當(dāng)3 種算法均收斂時(shí),MG 從上級(jí)電網(wǎng)購(gòu)電量的變化情況。

        圖6 不同算法下MG 從上級(jí)電網(wǎng)購(gòu)電量對(duì)比Fig.6 Comparison chart of power purchase from microgrid to superior grid under different algorithms

        從圖6 中可以看到: 當(dāng)MG 間無(wú)法進(jìn)行電量交易時(shí),MG 只能從上級(jí)電網(wǎng)進(jìn)行購(gòu)電,且購(gòu)電量在中間兩個(gè)負(fù)荷高峰時(shí)段較高; 當(dāng)MG 間可進(jìn)行電量交易時(shí), 相對(duì)于Case1,3 種算法的購(gòu)電量均有不同程度的下降。 Greedy 算法由于訓(xùn)練效果較差,雖然購(gòu)電量有所下降,但是效果并不理想;深度Q 學(xué)習(xí)算法以及Hotbooting Q 交易算法效果較為理想??梢娫诿總€(gè)時(shí)刻,后兩種算法均可以大幅度削減MG 向上級(jí)電網(wǎng)的購(gòu)電量, 減少M(fèi)G 對(duì)上級(jí)電網(wǎng)的依賴性。

        不同時(shí)段下的MG 平均收益值如圖7 所示。從圖中可以看到: 在各個(gè)時(shí)刻,3 種算法在收益上的規(guī)律與上述分析也保持一致,Hotbooting Q 交易算法在各個(gè)時(shí)刻的計(jì)算結(jié)果均為最優(yōu);在7:00-12:00 和19:00-24:00,MG 的收益顯然低于1:00-6:00 和13:00-18:00, 這主要是因?yàn)檫@兩個(gè)時(shí)段負(fù)載需求上升,MG 需要從上級(jí)電網(wǎng)購(gòu)電,從而增大了購(gòu)電成本,導(dǎo)致收益有所下降。

        圖7 3 種算法下的各時(shí)刻收益變化值Fig.7 Change graph of income at each time under three algorithms

        由式(18)可知,增益系數(shù)的取值將會(huì)對(duì)MG的電能交易產(chǎn)生影響, 而效益函數(shù)主要包括兩部分:MG 內(nèi)存儲(chǔ)電量的變化帶來(lái)的收益變化和MG交易方式的變化帶來(lái)的收益變化。 通過(guò)調(diào)節(jié)參數(shù)可設(shè)置兩種收益的權(quán)重比。

        設(shè)置β 值為[6,10],從圖8 可以看到,隨著β值的增大,3 種算法下的MG 平均收益均有所增加,且深度Q 學(xué)習(xí)算法以及Greedy 算法下的MG收益值隨著β 的變化呈現(xiàn)出近似線性關(guān)系。 在整個(gè)增益系數(shù)變化范圍內(nèi), 基于Hotbooting Q 交易算法的MG 收益值由9 增加到13.5, 增幅為50%。此外,在不同的增益函數(shù)下,Hotbooting Q 交易算法的性能依然比深度Q 學(xué)習(xí)算法和Greedy算法優(yōu)秀。

        圖8 MG 效益隨β 值變化情況Fig.8 Schematic diagram of MG benefit changing with β value

        4 結(jié)論

        ①多MG 間的電能交易可有效提高M(jìn)G 用戶收益,減輕MG 對(duì)上級(jí)電網(wǎng)的依賴性,減少與上級(jí)電網(wǎng)的交易電量。

        ②Hotbooting Q 交易算法可加快算法的收斂速度,減少算法前期的學(xué)習(xí)以及探索時(shí)間,提高求解效率。

        ③與深度Q 學(xué)習(xí)算法以及Greedy 算法相比,Hotbooting Q 交易算法可顯著提高M(jìn)G 的收益,減少M(fèi)G 從上級(jí)電網(wǎng)的購(gòu)電量, 所求得的結(jié)果在3 種算法中最優(yōu)。

        猜你喜歡
        電能深度模型
        一半模型
        深度理解一元一次方程
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        蘋果皮可以產(chǎn)生電能
        電能的生產(chǎn)和運(yùn)輸
        海風(fēng)吹來(lái)的電能
        深度觀察
        深度觀察
        深度觀察
        亚洲性无码av在线| 天堂国精产品2023年| 成 人 色综合 综合网站| 久99久精品免费视频热77| 在线不卡精品免费视频| 成人无码一区二区三区| 18分钟处破好疼哭视频在线观看| 色综合另类小说图片区| 日韩十八禁在线观看视频| 天堂网av一区二区三区在线观看| 四虎影视免费永久在线观看| 欧美日韩精品乱国产| 一本色道久久综合亚州精品| 国产精品自线一区二区三区| 国产精品福利自产拍在线观看| 国产av成人精品播放| 蜜桃av一区二区三区| 久久久99精品成人片| 亚洲成av人片在线观看无码| 真人在线射美女视频在线观看| 亚洲一区二区三区福利久久蜜桃| 久久精品中文字幕| 国产在线无码一区二区三区| 第九色区Aⅴ天堂| 日本视频一中文有码中文| 久久精品无码一区二区三区免费| 亚洲国产福利精品一区二区| 在线亚洲精品一区二区三区 | 又硬又粗又大一区二区三区视频| 亚洲AV秘 片一区二区三区| 精品国产黄一区二区三区| 亚洲日产一线二线三线精华液| 天天综合久久| 国产三级视频在线观看国产| 国产一区二区三区四区三区| 国产a v无码专区亚洲av | 精品人无码一区二区三区| 日本激情久久精品人妻热| 亚洲av无码乱码精品国产| 亚洲综合久久成人a片| 青青草针对华人超碰在线|