謝昕怡,應(yīng)黎明,田書(shū)圣,朱貴琪
(武漢大學(xué)電氣與自動(dòng)化學(xué)院,武漢市 430072)
近年來(lái),隨著一系列推動(dòng)分布式能源、微電網(wǎng)發(fā)展政策的出臺(tái),微電網(wǎng)市場(chǎng)快速增長(zhǎng)。在此情況下,如何設(shè)計(jì)一種安全高效的微電網(wǎng)電能交易方法是近年來(lái)微電網(wǎng)改革的重點(diǎn)[1]。微電網(wǎng)電能交易一般采用第三方管理機(jī)構(gòu)參與的集中式交易模式,但這種交易模式可能會(huì)出現(xiàn)以下問(wèn)題:交易中心運(yùn)行以及維護(hù)成本高、交易自由度低,微電網(wǎng)的有效運(yùn)行難以得到保障;交易用戶(hù)與第三方管理機(jī)構(gòu)信任度低;交易中心內(nèi)用戶(hù)的隱私無(wú)法得到保障,交易信息不透明;交易中心始終存在數(shù)據(jù)丟失及數(shù)據(jù)被篡改的可能性[2]。
傳統(tǒng)集中式交易模式出現(xiàn)的一系列問(wèn)題使得能有效降低市場(chǎng)交易管理和運(yùn)營(yíng)成本的分散交易模式受到了廣泛關(guān)注,并被應(yīng)用于微電網(wǎng)市場(chǎng)研究中[3-5]。同時(shí)隨著“互聯(lián)網(wǎng)+”新業(yè)態(tài)的發(fā)展,學(xué)者們發(fā)現(xiàn)在電能交易中引入?yún)^(qū)塊鏈下的智能合約技術(shù)具有去中心化和防篡改的優(yōu)勢(shì),可降低電力市場(chǎng)運(yùn)營(yíng)成本、保證電能交易的安全性,并使電力市場(chǎng)交易過(guò)程更加透明[6-9]。大多數(shù)基于智能合約的研究都是對(duì)交易模型、框架結(jié)構(gòu)與代碼設(shè)計(jì)等內(nèi)容進(jìn)行探討,而真正實(shí)現(xiàn)微電網(wǎng)市場(chǎng)交易,除了要以先進(jìn)技術(shù)為支持外,還需要一種匹配的方法來(lái)開(kāi)發(fā)靈活的市場(chǎng)機(jī)制、設(shè)計(jì)具體的合約內(nèi)容[10-12]。文獻(xiàn)[10]將拉格朗日原理與維克瑞-克拉克-格羅夫斯規(guī)則應(yīng)用到智能合約實(shí)時(shí)部分;文獻(xiàn)[11]以用戶(hù)與代理商收益最大為目標(biāo)建立智能合約模型后,結(jié)合粒子群和遺傳算法對(duì)該智能合約模型進(jìn)行了求解;為解決分布式電能交易匹配過(guò)程中存在的訂單沖突問(wèn)題,文獻(xiàn)[12]提出了基于最大目標(biāo)函數(shù)和信譽(yù)值的沖突解決機(jī)制。研究微電網(wǎng)市場(chǎng)交易機(jī)制的關(guān)鍵是市場(chǎng)中不同利益相關(guān)者的相互競(jìng)爭(zhēng)行為,現(xiàn)有文獻(xiàn)多側(cè)重于智能合約下的市場(chǎng)機(jī)制問(wèn)題,對(duì)于智能合約下多微電網(wǎng)市場(chǎng)中各市場(chǎng)主體間的交易決策、利益分配問(wèn)題卻鮮有研究。
多微電網(wǎng)市場(chǎng)中的復(fù)雜決策問(wèn)題常通過(guò)建立市場(chǎng)參與者的博弈模型進(jìn)行求解[13-14],為了在求解博弈模型時(shí)能夠從環(huán)境中提取有效信息,并結(jié)合環(huán)境信息和主體目標(biāo)優(yōu)化主體策略,可考慮將人工智能算法引入其中[15-17]。在眾多人工智能算法中,深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning, DRL)將強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)結(jié)合,通過(guò)端到端學(xué)習(xí)實(shí)現(xiàn)從輸入數(shù)據(jù)到輸出決策的直接控制,成為了解決復(fù)雜決策問(wèn)題的有力工具之一[15]。為在不同決策空間中解決采樣效率低、收斂速度慢等問(wèn)題,一系列改進(jìn)深度強(qiáng)化學(xué)習(xí)算法逐漸被提出,其中,深度確定性策略梯度(deep deterministic policy gradient, DDPG)算法[16]由確定性策略梯度算法改進(jìn)而來(lái),可以輸出連續(xù)動(dòng)作,適用于復(fù)雜動(dòng)作空間和連續(xù)動(dòng)作空間,并保證了良好的收斂特性,在單一智能體環(huán)境中表現(xiàn)優(yōu)異,但其收斂速度和精度會(huì)隨著智能體數(shù)量的增多而下降。在實(shí)際微電網(wǎng)市場(chǎng)環(huán)境中,由于涉及到的市場(chǎng)主體數(shù)量多且復(fù)雜,為了貼合微網(wǎng)系統(tǒng)的實(shí)際運(yùn)營(yíng),為交易主體的博弈分析建立基礎(chǔ),可考慮將多智能體理念引入微電網(wǎng)市場(chǎng)交易中,利用多智能體深度確定性策略梯度(multi-agent deep deterministic policy gradient, MADDPG)算法滿(mǎn)足微電網(wǎng)市場(chǎng)向分布化和層次化發(fā)展的需求[17]。
基于上述背景,本文針對(duì)多微電網(wǎng)市場(chǎng)交易問(wèn)題,首先基于智能合約設(shè)計(jì)多微電網(wǎng)市場(chǎng)的去中心化交易機(jī)制,介紹具體的交易流程。然后在所設(shè)計(jì)交易機(jī)制的基礎(chǔ)上,將各智能體利益最大化這一復(fù)雜多目標(biāo)優(yōu)化問(wèn)題的求解部署到微電網(wǎng)智能合約,同時(shí)將MADDPG算法引入到微電網(wǎng)去中心化市場(chǎng)交易中,通過(guò)算例分析驗(yàn)證本文所提方法的實(shí)用性。
對(duì)于距離較近的微電網(wǎng),部分微電網(wǎng)由于內(nèi)部有間歇性能源或自身調(diào)控能力有限,其內(nèi)部發(fā)電量在單位時(shí)間內(nèi)不一定與自身負(fù)荷平衡,對(duì)外呈現(xiàn)一定的電量富余(稱(chēng)為“多電微電網(wǎng)”)或缺額(稱(chēng)為“少電微電網(wǎng)”)。少電微電網(wǎng)為保證自身負(fù)荷供電,需從多電微電網(wǎng)或配電網(wǎng)購(gòu)電;多電微電網(wǎng)為追求自身收益最大化,會(huì)將富余電量出售給少電微電網(wǎng)或者配電網(wǎng)。因此可考慮在配網(wǎng)末端的微電網(wǎng)系統(tǒng)引入市場(chǎng)機(jī)制,令微電網(wǎng)之間、微電網(wǎng)與配電網(wǎng)之間均可進(jìn)行電量交易?;谏鲜龇治觯晕⒕W(wǎng)系統(tǒng)內(nèi)存在的不同利益追求作為參考并結(jié)合實(shí)際情況,可將微電網(wǎng)系統(tǒng)劃分為以下3類(lèi)智能體:配電網(wǎng)、多電微電網(wǎng)、少電微電網(wǎng),相應(yīng)多智能體結(jié)構(gòu)如圖1所示。
圖1 微電網(wǎng)市場(chǎng)的多智能體結(jié)構(gòu)Fig.1 The multi-agent structure of the microgrid market
3類(lèi)智能體交互行為有:配電網(wǎng)與兩類(lèi)微電網(wǎng)直接進(jìn)行交易,交易價(jià)格以配電網(wǎng)銷(xiāo)售電價(jià)與回購(gòu)電價(jià)為準(zhǔn);微電網(wǎng)間交易以自身收益最大化為目標(biāo)進(jìn)行競(jìng)價(jià)博弈,博弈達(dá)到均衡后確定交易雙方電能的交易量與價(jià)格,交易達(dá)成后通過(guò)配電網(wǎng)絡(luò)實(shí)現(xiàn)電能傳遞,交易雙方平均分?jǐn)偱潆娋W(wǎng)收取的過(guò)網(wǎng)費(fèi)用。接下來(lái)構(gòu)建兩類(lèi)微電網(wǎng)的競(jìng)價(jià)模型:
1)多電微電網(wǎng)。
多電微電網(wǎng)通過(guò)向少電微電網(wǎng)售電獲得收益,計(jì)算公式如下:
(1)
多電微電網(wǎng)向配電網(wǎng)售電所得收益為:
(2)
多電微電網(wǎng)因與少電微電網(wǎng)交易,應(yīng)向配電網(wǎng)繳納的服務(wù)費(fèi)為:
(3)
式中:sd為配電網(wǎng)收取的單位服務(wù)費(fèi)。
多電微電網(wǎng)的富余電量主要來(lái)自風(fēng)力發(fā)電、光伏發(fā)電此類(lèi)間歇性能源發(fā)電,其發(fā)電成本為:
(4)
微電網(wǎng)實(shí)際發(fā)電量與廣播的富余電量存在偏差,且該偏差大于閾值A(chǔ)時(shí)記一次違規(guī),微電網(wǎng)需根據(jù)自身違規(guī)行為支付一定費(fèi)用。對(duì)于微電網(wǎng)日前電能交易,t時(shí)刻多電微電網(wǎng)j的違約成本計(jì)算參考每次交易日前一天交易的情況,計(jì)算公式為:
(5)
(6)
式中:fV為單位信譽(yù)值違約成本系數(shù);Vj為多電微電網(wǎng)j交易日前一天的信譽(yù)值;hj和Hj分別為交易日前一天多電微電網(wǎng)j無(wú)違規(guī)行為交易次數(shù)與實(shí)際成交次數(shù);Q′ej與Qej分別為多電微電網(wǎng)j交易日前一天實(shí)際發(fā)電量與上報(bào)的電量;|(Q′ej-Qej)/Qej|為其電量偏差程度。
2)少電微電網(wǎng)。
少電微電網(wǎng)需從多電微電網(wǎng)處購(gòu)電滿(mǎn)足自身電量缺額,其收益計(jì)算公式如下:
(7)
少電微電網(wǎng)從配電網(wǎng)處購(gòu)電所得收益如下:
(8)
考慮到少電微電網(wǎng)購(gòu)買(mǎi)的缺額電量主要來(lái)自風(fēng)光發(fā)電等新能源,政府可給予一定的購(gòu)電補(bǔ)貼:
(9)
少電微電網(wǎng)因與多電微電網(wǎng)交易,應(yīng)向配電網(wǎng)繳納的服務(wù)費(fèi)為:
(10)
少電微電網(wǎng)違約成本計(jì)算與多電微電網(wǎng)類(lèi)似:
(11)
(12)
式中:Vm為少電微電網(wǎng)m交易日前一天的信譽(yù)值;hm和Hm分別為交易日前一天少電微電網(wǎng)m無(wú)違規(guī)行為交易次數(shù)與實(shí)際成交次數(shù);Q′em與Qem分別為少電微電網(wǎng)m實(shí)際使用電量與上報(bào)的電量;|(Q′em-Qem)/Qem|為其電量偏差程度。
多電微電網(wǎng)與少電微電網(wǎng)在競(jìng)價(jià)過(guò)程中所申報(bào)電量與電價(jià)都需滿(mǎn)足一定范圍約束[19]。
在分布式電源滲透率較高的微網(wǎng)系統(tǒng)中,市場(chǎng)主體的供給與需求具有很強(qiáng)的隨機(jī)性與波動(dòng)性,需借助靈活的交易機(jī)制維持供求關(guān)系的實(shí)時(shí)平衡。由于智能合約下的市場(chǎng)交易中買(mǎi)賣(mài)雙方通過(guò)程序算法執(zhí)行合同以實(shí)現(xiàn)自治,且記錄交易過(guò)程以便追溯保證交易安全,能在一定程度上降低交易成本、提高交易效率、避免惡意行為對(duì)正常執(zhí)行智能合約造成不利影響。本文提出以智能合約為技術(shù)支撐的微電網(wǎng)去中心化市場(chǎng)交易機(jī)制。按照智能合約簽訂與部署執(zhí)行的時(shí)間順序,交易流程包括交易需求提交、確認(rèn)、驗(yàn)證與結(jié)算階段,對(duì)應(yīng)的交易流程如圖2所示。
圖2 智能合約下的微電網(wǎng)交易流程Fig.2 The process of microgrid transaction under smart contract
各市場(chǎng)主體在該階段主要發(fā)布供需信息,微電網(wǎng)確定好自身在市場(chǎng)開(kāi)放周期內(nèi)的狀態(tài)(電量缺額、電量盈余、電量平衡)后廣播市場(chǎng)需求信息,若申報(bào)電量為正表明該微電網(wǎng)為多電微電網(wǎng),為負(fù)表明該微電網(wǎng)為少電微電網(wǎng)。各主體除了上報(bào)電量信息外,還需上報(bào)自身初始報(bào)價(jià)、可接受電價(jià)范圍。若多電微電網(wǎng)可接受電價(jià)下限低于少電微電網(wǎng)可接受電價(jià)上限,市場(chǎng)主體開(kāi)始進(jìn)行交易匹配。
市場(chǎng)主體廣播自身信息并成功匹配后,以自身收益最大為目標(biāo)建立競(jìng)價(jià)模型,通過(guò)分布式優(yōu)化實(shí)現(xiàn)競(jìng)價(jià)均衡,在此過(guò)程中各主體可多次修改報(bào)價(jià)。在交易決策優(yōu)化過(guò)程完成后,市場(chǎng)主體同時(shí)將確定好的交易細(xì)節(jié)寫(xiě)入智能合約中,確定好合約內(nèi)容后簽約達(dá)成交易。
考慮到智能合約下的市場(chǎng)交易屬于雙邊交易且信息公開(kāi),本文在交易確認(rèn)階段將多買(mǎi)多賣(mài)的撮合交易規(guī)則以智能合約的形式記錄在區(qū)塊鏈中,具體執(zhí)行過(guò)程如下:在多方主體競(jìng)價(jià)的市場(chǎng)環(huán)境下,全節(jié)點(diǎn)根據(jù)報(bào)價(jià)由低到高的順序?qū)Χ嚯娢㈦娋W(wǎng)進(jìn)行優(yōu)先級(jí)排序,根據(jù)報(bào)價(jià)由高到低的順序?qū)ι匐娢㈦娋W(wǎng)進(jìn)行優(yōu)先級(jí)排序,首先撮合優(yōu)先級(jí)最高的多電微電網(wǎng)和少電微電網(wǎng)間的交易,交易的成交價(jià)格為交易雙方報(bào)價(jià)的平均值,成交電量為雙方公示電量中的較小值;若第一輪撮合完成后買(mǎi)方需求電量未滿(mǎn)足或賣(mài)方可供應(yīng)電量仍存在富余,在第二輪撮合中該交易方與優(yōu)先級(jí)次高的市場(chǎng)成員進(jìn)行交易,以此類(lèi)推[20-21];若全體微電網(wǎng)撮合交易完成后仍有微電網(wǎng)存在電量富余/缺額的情況,該微網(wǎng)自動(dòng)與配電網(wǎng)簽訂相關(guān)合約。市場(chǎng)主體對(duì)每一輪撮合的結(jié)果都應(yīng)作出適當(dāng)?shù)姆磻?yīng),調(diào)整自己的策略,優(yōu)化下一次競(jìng)標(biāo),促使自身收益最大化。
合約簽訂完成后,智能電表會(huì)上傳交易雙方的電能傳輸信息,即雙方實(shí)際供用電情況,智能合約根據(jù)上傳的電能傳輸信息對(duì)市場(chǎng)主體履約情況進(jìn)行驗(yàn)證并進(jìn)行微電網(wǎng)電能交易結(jié)算。若多電微電網(wǎng)供應(yīng)的電量小于智能合約約定的電量,智能合約將退還未履約電量對(duì)應(yīng)的代幣給少電微電網(wǎng),并將剩余的代幣支付給多電微電網(wǎng),同時(shí)更新多電微電網(wǎng)的信用值;若少電微電網(wǎng)使用的電量大于智能合約約定的電量,智能合約將合約內(nèi)所有的代幣支付給多電微電網(wǎng),并向少電微電網(wǎng)催收超出電量對(duì)應(yīng)的代幣,同時(shí)更新少電微電網(wǎng)的信用值,在交易過(guò)程中根據(jù)信用值大小給予違規(guī)市場(chǎng)主體一定的懲罰。
在微電網(wǎng)市場(chǎng)競(jìng)價(jià)智能合約中不可避免地會(huì)觸及一些細(xì)節(jié)問(wèn)題,如市場(chǎng)智能合約的調(diào)度問(wèn)題、用戶(hù)如果違約如何處理、競(jìng)價(jià)博弈所采用的競(jìng)價(jià)策略求解等,下文將基于MADDPG算法完成對(duì)微電網(wǎng)競(jìng)價(jià)策略的求解。
傳統(tǒng)微網(wǎng)交易環(huán)境中信息不完全公開(kāi),市場(chǎng)主體需花費(fèi)較大成本搜集信息,而上述智能合約下的微電網(wǎng)市場(chǎng)交易能為市場(chǎng)主體提供完全信息的博弈環(huán)境:市場(chǎng)主體在讀取相關(guān)信息后,以自身收益最大為目標(biāo)進(jìn)行電量/電價(jià)博弈并求解最終交易策略。MADDPG算法中各智能體制定自身策略時(shí)會(huì)考慮其他智能體的策略,可以很好地勝任完全信息環(huán)境下微電網(wǎng)市場(chǎng)主體交易決策優(yōu)化問(wèn)題。
多智能體系統(tǒng)的深度強(qiáng)化學(xué)習(xí)常用馬爾科夫博弈來(lái)描述,本文將用多元組(N,S,A,T,R)構(gòu)建微電網(wǎng)市場(chǎng)交易中的馬爾科夫博弈模型,其中N=J+M為多電微電網(wǎng)和少電微電網(wǎng)的總數(shù);S={s1,s2,…,sN}為各智能體的觀察狀態(tài)空間;A={a1S,a2S,…,aNS}為各智能體的動(dòng)作空間;T為狀態(tài)轉(zhuǎn)移函數(shù),即給定智能體當(dāng)前的狀態(tài)與聯(lián)合動(dòng)作時(shí),其下一狀態(tài)的概率分布;R={r1,r2,…,rN}為獎(jiǎng)勵(lì)函數(shù),即智能體在當(dāng)前狀態(tài)時(shí),采取聯(lián)合動(dòng)作后在下一狀態(tài)所得到的獎(jiǎng)勵(lì)。接下來(lái)對(duì)幾項(xiàng)關(guān)鍵元組進(jìn)行詳述:
1)狀態(tài)空間。
對(duì)于多電微電網(wǎng)而言,其自身狀態(tài)包含當(dāng)前時(shí)刻廣播的富余電量與電價(jià);對(duì)于少電微電網(wǎng)而言,其自身狀態(tài)包含當(dāng)前時(shí)刻廣播的缺額電量與電價(jià);每一個(gè)智能體的狀態(tài)空間由自身狀態(tài)與其他智能體狀態(tài)組成,即聯(lián)合狀態(tài)空間。
2)動(dòng)作空間。
通常情況下,微電網(wǎng)市場(chǎng)中智能體的動(dòng)作空間是一個(gè)二維的連續(xù)空間,但由于本文假設(shè)微電網(wǎng)每個(gè)時(shí)刻申報(bào)的電量為定值,動(dòng)作主要表現(xiàn)為交易雙方電能價(jià)格調(diào)整。依據(jù)各智能體初始限定的電能價(jià)格上下限,以步長(zhǎng)為1在上一輪價(jià)格基礎(chǔ)上浮動(dòng),第k+1次博弈可選擇動(dòng)作集合Ak+1={ak-1,ak,ak+1},ak表示第k次博弈所選動(dòng)作。根據(jù)當(dāng)前聯(lián)合狀態(tài)和動(dòng)作策略可確定聯(lián)合動(dòng)作空間A={a1S,a2S,…,aNS},其中a1S,a2S,…,aNS∈Ak+1分別為聯(lián)合狀態(tài)S下各交易主體所選動(dòng)作。
3)獎(jiǎng)勵(lì)函數(shù)。
微電網(wǎng)會(huì)對(duì)交易過(guò)程持續(xù)學(xué)習(xí)以?xún)?yōu)化各自效益函數(shù),且為了防止微電網(wǎng)最終報(bào)價(jià)超出自身提交的可接受電價(jià)范圍,可在智能體超出范圍時(shí)給予懲罰,則多電微電網(wǎng)和少電微電網(wǎng)強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)形式由收益與懲罰兩部分組成,分別如式(13)與(14)所示:
(13)
(14)
式中:hj(x)、hm(x)分別為多電微電網(wǎng)j與少電微電網(wǎng)m因電價(jià)策略超出設(shè)定范圍的懲罰函數(shù)。
MADDPG算法是一種基于多智能體環(huán)境的深度強(qiáng)化學(xué)習(xí)算法,由于在網(wǎng)絡(luò)架構(gòu)上采用了Actor-Critic的框架形式,每個(gè)智能體由需要全局信息的評(píng)論家(Critic)網(wǎng)絡(luò)和只需要局部觀測(cè)的動(dòng)作家(Actor)網(wǎng)絡(luò)組成。每個(gè)智能體的Actor網(wǎng)絡(luò)的輸入包含環(huán)境中所有智能體的動(dòng)作狀態(tài)信息,且由于采用集中訓(xùn)練、分散執(zhí)行的方式,能有效提高多智能體系統(tǒng)的穩(wěn)定性。
(15)
式中:E表示總獎(jiǎng)勵(lì)的期望值,由于每次狀態(tài)轉(zhuǎn)移都是隨機(jī)的,學(xué)習(xí)的目標(biāo)是各智能體執(zhí)行一系列動(dòng)作來(lái)獲得盡可能多的平均獎(jiǎng)勵(lì)值;θ為各智能體網(wǎng)絡(luò)參數(shù)集合;γ為獎(jiǎng)勵(lì)折扣系數(shù);ri為第i個(gè)智能體的獎(jiǎng)勵(lì)。
不同網(wǎng)絡(luò)更新參數(shù)的方式不同,Critic當(dāng)前網(wǎng)絡(luò)通過(guò)最小化每個(gè)智能體的損失函數(shù)來(lái)優(yōu)化更新參數(shù),損失函數(shù)計(jì)算公式如下:
(16)
(17)
Actor當(dāng)前網(wǎng)絡(luò)通過(guò)神經(jīng)網(wǎng)絡(luò)的梯度反向傳播來(lái)更新網(wǎng)絡(luò)參數(shù),梯度計(jì)算公式如下:
(18)
Actor目標(biāo)網(wǎng)絡(luò)和Critic目標(biāo)網(wǎng)絡(luò)均采用軟更新方式更新網(wǎng)絡(luò)參數(shù):
(19)
(20)
式中:τ為軟更新系數(shù),且τ?1。
此外,與普通的監(jiān)督學(xué)習(xí)算法不同,MADDPG算法訓(xùn)練過(guò)程中的訓(xùn)練樣本是通過(guò)不停地執(zhí)行動(dòng)作而動(dòng)態(tài)生成的。為了解決訓(xùn)練樣本間存在相關(guān)性、樣本概率分布不固定問(wèn)題,MADDPG算法采用了經(jīng)驗(yàn)回放機(jī)制,即先把執(zhí)行動(dòng)作構(gòu)造的訓(xùn)練樣本存儲(chǔ)到經(jīng)驗(yàn)回放池中,在訓(xùn)練網(wǎng)絡(luò)時(shí)每一回合從這個(gè)經(jīng)驗(yàn)回放池中均勻采集一個(gè)批次的數(shù)據(jù)作為訓(xùn)練樣本,新舊樣本被采集的概率是相等的,經(jīng)驗(yàn)回放池大小及每一回合采集的批次大小分別稱(chēng)為經(jīng)驗(yàn)回放池規(guī)模及采樣規(guī)模。由于MADDPG算法訓(xùn)練過(guò)程是通過(guò)產(chǎn)生的狀態(tài)和對(duì)應(yīng)的獎(jiǎng)勵(lì)函數(shù)判斷訓(xùn)練結(jié)果的好壞,其訓(xùn)練和測(cè)試使用的是同一套環(huán)境。
本節(jié)對(duì)上述微電網(wǎng)交易決策優(yōu)化過(guò)程進(jìn)行仿真研究。假設(shè)某區(qū)域配電網(wǎng)中有4個(gè)臨近的微電網(wǎng),彼此之間可以進(jìn)行電力交易,同時(shí)又可分別與配電網(wǎng)進(jìn)行電力交易,構(gòu)成一個(gè)多微網(wǎng)系統(tǒng),其相關(guān)參數(shù)如表1所示,微網(wǎng)1、2為多電微電網(wǎng),微網(wǎng)3、4為少電微電網(wǎng)。交易周期為1 h,對(duì)于微電網(wǎng)日前電能交易,可將一天內(nèi)每小時(shí)的微電網(wǎng)參數(shù)值以向量的形式輸入,為簡(jiǎn)化計(jì)算,本文僅研究微電網(wǎng)日前市場(chǎng)中某時(shí)刻t的交易情況。
表1 微電網(wǎng)相關(guān)參數(shù)Table 1 Related parameters of the microgrid
MADDPG算法中采用三層全連接神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),最大訓(xùn)練回合數(shù)為4 000,網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)見(jiàn)表2。
表2 MADDPG 算法中的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)Table 2 Parameters of network structure in MADDPG algorithm
4.2.1 不同場(chǎng)景下的微網(wǎng)群經(jīng)濟(jì)性分析
為驗(yàn)證本文設(shè)計(jì)的基于MADDPG與智能合約的微電網(wǎng)去中心化市場(chǎng)交易體系的實(shí)用性與經(jīng)濟(jì)性,對(duì)4種場(chǎng)景下的微網(wǎng)群交易結(jié)果進(jìn)行對(duì)比分析。
場(chǎng)景1:微電網(wǎng)直接與配電網(wǎng)進(jìn)行交易;
場(chǎng)景2:微電網(wǎng)之間優(yōu)先交易,但不采用智能合約下的MADDPG算法進(jìn)行決策優(yōu)化;
場(chǎng)景3:50%的微網(wǎng)供需量由微網(wǎng)間優(yōu)先交易滿(mǎn)足,剩余供需量由微網(wǎng)與配網(wǎng)直接交易滿(mǎn)足,且采用智能合約下的MADDPG算法進(jìn)行決策優(yōu)化;
場(chǎng)景4:微網(wǎng)供需量均由微網(wǎng)間優(yōu)先交易滿(mǎn)足,且采用智能合約下的MADDPG算法進(jìn)行決策優(yōu)化。
表3所示為不同場(chǎng)景下各微網(wǎng)制定的價(jià)格策略及收益情況。
由表3可知,場(chǎng)景1下各微網(wǎng)收益及整個(gè)微網(wǎng)市場(chǎng)收益偏低,這是因?yàn)榕渚W(wǎng)的回購(gòu)電價(jià)偏低、銷(xiāo)售電價(jià)偏高,若微網(wǎng)與配網(wǎng)直接進(jìn)行交易會(huì)導(dǎo)致各微網(wǎng)收益普遍偏低。場(chǎng)景2相比場(chǎng)景1多電微電網(wǎng)收益顯著提升,少電微電網(wǎng)收益變化不大,這是因?yàn)楸疚乃O(shè)微電網(wǎng)初始報(bào)價(jià)與配網(wǎng)銷(xiāo)售電價(jià)差別不大,但遠(yuǎn)高于配網(wǎng)回購(gòu)電價(jià),若微電網(wǎng)之間優(yōu)先交易,各微網(wǎng)間的成交電價(jià)均高于配網(wǎng)回購(gòu)電價(jià)、接近于配網(wǎng)銷(xiāo)售電價(jià),導(dǎo)致多電微電網(wǎng)收益遠(yuǎn)高于場(chǎng)景1、少電微電網(wǎng)收益與場(chǎng)景1相差不大;場(chǎng)景2整個(gè)微網(wǎng)市場(chǎng)收益仍要高于場(chǎng)景1,這說(shuō)明微網(wǎng)間優(yōu)先交易可通過(guò)促進(jìn)微網(wǎng)間電能消納提升微網(wǎng)市場(chǎng)的經(jīng)濟(jì)性。由于深度強(qiáng)化學(xué)習(xí)過(guò)程中各微電網(wǎng)收益均受其他智能體策略影響,難以獨(dú)自提高自身收益,隨著博弈的進(jìn)行,各微網(wǎng)會(huì)通過(guò)調(diào)整報(bào)價(jià)策略改變整個(gè)市場(chǎng)收益分配情況,場(chǎng)景3中各微網(wǎng)報(bào)價(jià)相較于場(chǎng)景2做了一些調(diào)整,經(jīng)報(bào)價(jià)調(diào)整,少電微電網(wǎng)收益有所提高,但由于僅50%的微網(wǎng)供需量由微網(wǎng)間優(yōu)先交易滿(mǎn)足,該場(chǎng)景下的整體微網(wǎng)市場(chǎng)收益高于場(chǎng)景1但低于場(chǎng)景2。場(chǎng)景4全部的微網(wǎng)供需量由微網(wǎng)間優(yōu)先交易滿(mǎn)足,導(dǎo)致微網(wǎng)報(bào)價(jià)策略調(diào)整幅度大于場(chǎng)景3,從而使微網(wǎng)1、微網(wǎng)2與微網(wǎng)4收益顯著上升,但微網(wǎng)3因電量缺額量較大,不管在什么情況下總有一部分電量從配網(wǎng)處購(gòu)入,微網(wǎng)3收益變化不大;此外,訓(xùn)練過(guò)程中系統(tǒng)在平衡收益分配情況的同時(shí)也在提高整個(gè)微網(wǎng)市場(chǎng)收益,故場(chǎng)景4下微網(wǎng)市場(chǎng)總收益上升為-53.875元。
表3 不同場(chǎng)景下各微網(wǎng)制定的價(jià)格策略及收益Table 3 The price strategy and revenue of each microgrid in different scenarios
場(chǎng)景3、場(chǎng)景4強(qiáng)化學(xué)習(xí)過(guò)程中各市場(chǎng)主體的累計(jì)獎(jiǎng)勵(lì)值變化曲線(xiàn)及整個(gè)市場(chǎng)的累計(jì)獎(jiǎng)勵(lì)值變化曲線(xiàn)分別如圖3、4所示。通過(guò)對(duì)圖3、4分析可知,訓(xùn)練初始階段算法對(duì)新環(huán)境探索不完全,多微電網(wǎng)系統(tǒng)尚未學(xué)習(xí)到最優(yōu)的動(dòng)作策略,故兩種場(chǎng)景下微網(wǎng)3和微網(wǎng)4的累計(jì)獎(jiǎng)勵(lì)值明顯低于微網(wǎng)1和微網(wǎng)2的累計(jì)獎(jiǎng)勵(lì)值,系統(tǒng)收益分配不均,且整個(gè)市場(chǎng)的累計(jì)獎(jiǎng)勵(lì)值較低,并處于波動(dòng)狀態(tài)。當(dāng)訓(xùn)練回合數(shù)增加到1 000次時(shí),各微電網(wǎng)的累計(jì)獎(jiǎng)勵(lì)值逐漸靠近,整個(gè)微電網(wǎng)市場(chǎng)的累計(jì)獎(jiǎng)勵(lì)值逐漸上升,表明多微電網(wǎng)系統(tǒng)在不斷學(xué)習(xí)的過(guò)程中會(huì)積累一定經(jīng)驗(yàn),導(dǎo)致交易主體在確定交易策略時(shí)能做出合理的決策。當(dāng)訓(xùn)練回合數(shù)增加到1 000次后,場(chǎng)景4中各微網(wǎng)及整個(gè)市場(chǎng)的累計(jì)獎(jiǎng)勵(lì)值趨于平緩,且呈收斂趨勢(shì),但場(chǎng)景3中存在一個(gè)較大的波動(dòng),當(dāng)訓(xùn)練回合數(shù)為1 500次后才整體趨于平緩,這是因?yàn)閳?chǎng)景3中不同報(bào)價(jià)下微網(wǎng)間的交易量以及微網(wǎng)與配網(wǎng)的直接交易量總是在不斷變化,導(dǎo)致MADDPG算法對(duì)新環(huán)境進(jìn)行探索時(shí)具有更強(qiáng)的隨機(jī)性,且受訓(xùn)練過(guò)程超參數(shù)的影響,1 300回合處該隨機(jī)性體現(xiàn)地尤為明顯。兩種場(chǎng)景下累計(jì)獎(jiǎng)勵(lì)值趨于平緩后仍存在一定波動(dòng),這是由于訓(xùn)練過(guò)程中存在隨機(jī)噪聲,訓(xùn)練時(shí)任何時(shí)刻都存在振蕩現(xiàn)象。此外,場(chǎng)景4各微網(wǎng)及整個(gè)市場(chǎng)趨于平緩后的累計(jì)獎(jiǎng)勵(lì)值均大于場(chǎng)景3趨于平緩后的累計(jì)獎(jiǎng)勵(lì)值,表明微網(wǎng)間優(yōu)先交易的交易方式能有效提高各微網(wǎng)及整個(gè)微網(wǎng)市場(chǎng)的經(jīng)濟(jì)性。
圖3 場(chǎng)景3中訓(xùn)練累計(jì)獎(jiǎng)勵(lì)值變化曲線(xiàn)Fig.3 The curve of training cumulative reward value in scenario 3
圖4 場(chǎng)景4中訓(xùn)練累計(jì)獎(jiǎng)勵(lì)值變化曲線(xiàn)Fig.4 The curve of training cumulative reward value in scenario 4
4.2.2 平均發(fā)電成本與信譽(yù)值對(duì)微網(wǎng)收益的影響
驗(yàn)證了場(chǎng)景4所用方法的實(shí)用性與經(jīng)濟(jì)性后,分析場(chǎng)景4下平均發(fā)電成本與信譽(yù)值對(duì)微電網(wǎng)收益的影響:以微網(wǎng)1為例,其他條件保持不變,分別改變微網(wǎng)1的平均發(fā)電成本及信譽(yù)值,得到訓(xùn)練過(guò)程中微網(wǎng)1的平均累計(jì)獎(jiǎng)勵(lì)值變化情況,如圖5所示。
從圖5中可以看出,隨著平均發(fā)電成本的增加,微網(wǎng)1的平均累計(jì)獎(jiǎng)勵(lì)值呈下降趨勢(shì),這表明由于平均發(fā)電成本增加后會(huì)使微電網(wǎng)發(fā)電成本增加,即使多微電網(wǎng)系統(tǒng)能通過(guò)學(xué)習(xí)訓(xùn)練對(duì)各主體策略進(jìn)行優(yōu)化,還是會(huì)導(dǎo)致微電網(wǎng)的收益下降;隨著信譽(yù)值的增加,微網(wǎng)1的平均累計(jì)獎(jiǎng)勵(lì)值呈上升趨勢(shì),且上升幅度較大,這表明信譽(yù)值增加后微電網(wǎng)需要支付的違約成本降低,收益增加,多智能體深度強(qiáng)化學(xué)習(xí)過(guò)程無(wú)法通過(guò)優(yōu)化微網(wǎng)報(bào)價(jià)策略完全改善微電網(wǎng)因信譽(yù)值下降導(dǎo)致收益受損的情況。
圖5 微網(wǎng)1平均累計(jì)獎(jiǎng)勵(lì)值變化情況Fig.5 Changes in the average cumulative reward value of microgrid 1
4.2.3 MADDPG算法性能評(píng)估
DDPG算法中每個(gè)智能體僅能觀測(cè)到自身狀態(tài)與所執(zhí)行的動(dòng)作,而MADDPG算法學(xué)習(xí)過(guò)程中使用的是全局信息,采用DDPG算法對(duì)場(chǎng)景4下微電網(wǎng)智能體進(jìn)行訓(xùn)練后得到各市場(chǎng)主體的累計(jì)獎(jiǎng)勵(lì)值變化曲線(xiàn)及整個(gè)市場(chǎng)的累計(jì)獎(jiǎng)勵(lì)值變化曲線(xiàn),如圖6所示。
圖6 DDPG算法下訓(xùn)練累計(jì)獎(jiǎng)勵(lì)值變化曲線(xiàn)Fig.6 The curve of training cumulative reward value under DDPG algorithm
從圖6可以看出隨著訓(xùn)練次數(shù)的增多,多微電網(wǎng)系統(tǒng)的累計(jì)獎(jiǎng)勵(lì)值呈上升趨勢(shì),但對(duì)比圖4可以發(fā)現(xiàn)DDPG算法在訓(xùn)練到1 500回合后累計(jì)獎(jiǎng)勵(lì)值才開(kāi)始趨于平穩(wěn),且訓(xùn)練初始階段累計(jì)獎(jiǎng)勵(lì)值波動(dòng)性較大,訓(xùn)練到3 500回合處累計(jì)獎(jiǎng)勵(lì)值又開(kāi)始下降。這是因?yàn)槎辔㈦娋W(wǎng)市場(chǎng)交易環(huán)境變化較大,若對(duì)每個(gè)微電網(wǎng)采用DDPG算法,在第i個(gè)微電網(wǎng)做出動(dòng)作時(shí)由于其余微電網(wǎng)的動(dòng)作未知,會(huì)導(dǎo)致第i個(gè)微電網(wǎng)獎(jiǎng)勵(lì)值不穩(wěn)定,且受采樣規(guī)模及經(jīng)驗(yàn)回放池規(guī)模大小的影響,即使各微網(wǎng)累計(jì)獎(jiǎng)勵(lì)值在一段時(shí)間內(nèi)趨于平穩(wěn),在訓(xùn)練回合數(shù)到達(dá)一定值后,仍會(huì)出現(xiàn)訓(xùn)練性能變差的可能性。與DDPG算法對(duì)比,MADDPG算法整體呈上升收斂趨勢(shì),沒(méi)有明顯的波動(dòng)變化趨勢(shì),說(shuō)明了MADDPG比DDPG算法具有更強(qiáng)的穩(wěn)定性和更快的收斂性,DDPG算法在多智能體環(huán)境中容易出現(xiàn)由于無(wú)法獲取足夠信息導(dǎo)致訓(xùn)練效果不好的問(wèn)題。MADDPG算法得到的微電網(wǎng)市場(chǎng)平均累計(jì)獎(jiǎng)勵(lì)值為-3 100.95,而DDPG算法得到的微電網(wǎng)市場(chǎng)平均累計(jì)獎(jiǎng)勵(lì)值為-3 323.7,這說(shuō)明采用MADDPG算法對(duì)智能合約下的微電網(wǎng)交易決策進(jìn)行優(yōu)化要比DDPG算法更能提高整個(gè)微網(wǎng)市場(chǎng)的收益。
本文提出了智能合約下的微電網(wǎng)去中心化交易機(jī)制,并將基于MADDPG算法的微電網(wǎng)競(jìng)價(jià)模型應(yīng)用到該機(jī)制的交易確認(rèn)階段,通過(guò)市場(chǎng)主體電量/電價(jià)的動(dòng)態(tài)博弈解決完全信息環(huán)境下微電網(wǎng)的交易決策優(yōu)化問(wèn)題,仿真結(jié)果表明:
1)基于MADDPG算法與智能合約的微電網(wǎng)去中心化市場(chǎng)交易體系可保證微電網(wǎng)市場(chǎng)主體合理的收益分配,在完全信息環(huán)境中通過(guò)反復(fù)探索與試錯(cuò)有效提高微電網(wǎng)市場(chǎng)的整體收益。
2)微電網(wǎng)在市場(chǎng)交易過(guò)程中可通過(guò)改變風(fēng)光平均發(fā)電成本、信譽(yù)值等調(diào)控手段,提高自身收益。
3)將MADDPG算法應(yīng)用于微電網(wǎng)交易決策優(yōu)化相對(duì)于DDPG算法具有更快的收斂速度與更高的學(xué)習(xí)效率。
本文側(cè)重于研究MADDPG算法在智能合約交易確認(rèn)階段對(duì)微電網(wǎng)市場(chǎng)主體決策優(yōu)化的實(shí)用性,后續(xù)可對(duì)智能合約環(huán)境下整套微電網(wǎng)去中心化交易流程中部署的相關(guān)機(jī)制進(jìn)行改進(jìn)。