包 濤 ,李昊飛 ,余 濤 ,張孝順
(1.廣東電網(wǎng)責(zé)任有限公司廣州供電局,廣東廣州 510620;2.華南理工大學(xué)電力學(xué)院,廣東廣州 510640;3.汕頭大學(xué)工學(xué)院,廣東汕頭 515063)
在電力系統(tǒng)的供需平衡中,需求側(cè)通常只是供給側(cè)電價(jià)的被動(dòng)接收者,其主動(dòng)作用經(jīng)常被忽視.近年來(lái),智能電網(wǎng)、能源互聯(lián)網(wǎng)、綜合能源系統(tǒng)等概念的提出和大量分布式電源、電動(dòng)汽車(chē)等新興事物的涌現(xiàn),為需求側(cè)參與供需互動(dòng)提供了強(qiáng)大的技術(shù)支持[1-3].目前綜合考慮供給側(cè)的經(jīng)濟(jì)調(diào)度和需求側(cè)響應(yīng)的電力系統(tǒng)供需互動(dòng)問(wèn)題也受到了國(guó)內(nèi)外學(xué)者的廣泛重視[4-7].伴隨著電力市場(chǎng)改革的不斷深入,多方利益實(shí)體的競(jìng)爭(zhēng)化模式使其不斷地尋求自身利潤(rùn)的最大化,而需求側(cè)的負(fù)荷聚合商之間有合作也有競(jìng)爭(zhēng),信息網(wǎng)絡(luò)拓?fù)鋸?fù)雜多變.電力市場(chǎng)參與主體逐漸增多,電力系統(tǒng)供需互動(dòng)問(wèn)題也日益復(fù)雜,因此需要提出新的方法對(duì)其實(shí)現(xiàn)精確建模和高效求解.
近年來(lái),越來(lái)越多的專(zhuān)家學(xué)者認(rèn)識(shí)到博弈論在解決擁有多主體特征的電力系統(tǒng)供需互動(dòng)問(wèn)題中的高效性[8].文獻(xiàn)[9]利用主從博弈的思想,搭建電動(dòng)汽車(chē)車(chē)主與極大化的小區(qū)代理商的互動(dòng)博弈模型.文獻(xiàn)[10]研究了電力零售商在現(xiàn)貨市場(chǎng)、雙邊合同市場(chǎng)的購(gòu)電策略,建立了發(fā)電商與大用戶(hù)之間的主從博弈模型.文獻(xiàn)[11]針對(duì)含有多個(gè)售電商的智能住宅小區(qū),建立了售電商和用戶(hù)之間的主從博弈模型.因此本文也采用Stackelberg博弈的框架建立考慮市場(chǎng)因素的供需互動(dòng)模型.但現(xiàn)有研究一般認(rèn)為需求側(cè)博弈主體的關(guān)系是全耦合或完全隨機(jī)的,但實(shí)際并非如此,因此如何描述需求側(cè)主體之間的不同博弈關(guān)系也是一大難點(diǎn).目前復(fù)雜網(wǎng)絡(luò)被廣泛應(yīng)用于電網(wǎng)問(wèn)題的研究,其可將主體的相互作用關(guān)系轉(zhuǎn)換為網(wǎng)絡(luò)拓?fù)涞拿枋龇绞絒12-17].但目前鮮少有文獻(xiàn)利用復(fù)雜網(wǎng)絡(luò)探究需求側(cè)個(gè)體的相互作用.因此,本文將復(fù)雜網(wǎng)絡(luò)與演化博弈結(jié)合用于描述需求側(cè)不同主體的互動(dòng)關(guān)系.
對(duì)于此類(lèi)供給側(cè)與需求側(cè)互動(dòng)問(wèn)題的求解方法有解析法和智能算法兩種.解析法通常是將需求側(cè)的優(yōu)化問(wèn)題轉(zhuǎn)化為等價(jià)的KKT條件[9-10],從而將雙層優(yōu)化問(wèn)題轉(zhuǎn)化為單層優(yōu)化問(wèn)題.但解析法對(duì)于模型的要求較高,求解非凸非連續(xù)的模型十分困難.而常用的智能算法例如遺傳算法(genetic algorithm,GA)、粒子群搜索算法(particle swarm optimization,PSO)和人工蜂群算法(artificial bee colony,ABC)等均為集中式算法,無(wú)法保證互動(dòng)主體信息的私密性.并且隨著電力系統(tǒng)供給側(cè)經(jīng)濟(jì)調(diào)度考慮的約束逐漸復(fù)雜,且在供需互動(dòng)中引入市場(chǎng)價(jià)格后,優(yōu)化問(wèn)題的可行域縮小,亟待提出一種新的分布式優(yōu)化算法用于求解考慮市場(chǎng)因素的電力系統(tǒng)供需互動(dòng)問(wèn)題.而強(qiáng)化學(xué)習(xí)具有收斂性好、收斂速度快和對(duì)模型的依賴(lài)性低的優(yōu)勢(shì),并且能夠存儲(chǔ)學(xué)習(xí)的知識(shí)[18],本文正是利用該類(lèi)算法的優(yōu)點(diǎn)實(shí)現(xiàn)對(duì)非凸非連續(xù)的電力系統(tǒng)供需互動(dòng)問(wèn)題的求解.
基于上述理論研究,本文將電力系統(tǒng)供需互動(dòng)的Stackelberg博弈與復(fù)雜網(wǎng)絡(luò)上反映需求側(cè)負(fù)荷聚合商互動(dòng)的演化博弈相結(jié)合,搭建基于博弈論的電力系統(tǒng)供需互動(dòng)混合博弈模型.并提出了全新的分布式算法—混合博弈強(qiáng)化學(xué)習(xí)算法(mixed game reinforcement learning,MGRL)對(duì)含有需求側(cè)復(fù)雜網(wǎng)絡(luò)的供需互動(dòng)模型進(jìn)行求解,該方法可以有效求解非凸非連續(xù)優(yōu)化問(wèn)題,并適用于分布式優(yōu)化框架,保證信息私密性.最后,以3機(jī)-6負(fù)荷系統(tǒng)和南方某一線(xiàn)城市為算例,對(duì)本文所提模型及算法進(jìn)行驗(yàn)證.
2.1.1 供給側(cè)模型
在供給側(cè),描述發(fā)電機(jī)的最經(jīng)典數(shù)學(xué)模型是線(xiàn)性函數(shù)和二次函數(shù),模型較為簡(jiǎn)單,且凸函數(shù)的求解難度較低,但此類(lèi)模型均沒(méi)有考慮閥點(diǎn)效應(yīng),導(dǎo)致了模型的精度受到了影響.本文考慮發(fā)電機(jī)組的“閥點(diǎn)效應(yīng)”,在二次煤耗特性曲線(xiàn)上疊加正弦修正分量[19],故發(fā)電成本函數(shù)變?yōu)?/p>
式中:ai,bi,ci,di和ei是模型中第i臺(tái)發(fā)電機(jī)的煤耗特性參數(shù);PGi是第i臺(tái)發(fā)電機(jī)的輸出功率;為第i臺(tái)發(fā)電機(jī)輸出功率下限.
約束條件方面,輸出功率應(yīng)在禁止運(yùn)行區(qū)域(prohibited operating zones,POZs)[20]之外,PGi應(yīng)滿(mǎn)足下述不等式約束:
式中:Ψ是考慮POZs的發(fā)電機(jī)集合;分別是第i臺(tái)發(fā)電機(jī)第z個(gè)POZs的下限和上限;Zi是第i臺(tái)發(fā)電機(jī)的POZs數(shù)量;為第i臺(tái)發(fā)電機(jī)有功功率上限.
本文考慮市場(chǎng)因素作用,引入發(fā)電商報(bào)價(jià),供給側(cè)的效益函數(shù)為式(3).發(fā)電商為追求其自身利益最大化,將調(diào)整其輸出功率直到邊際成本等于發(fā)電商報(bào)價(jià),如式(4)所示:
式中:Us,i為供給側(cè)效益函數(shù);ri為發(fā)電商報(bào)價(jià);)即為式(1)中發(fā)電機(jī)i的發(fā)電成本.
2.1.2 需求側(cè)模型
在需求側(cè),引入負(fù)荷聚合商,作為一個(gè)整體來(lái)整合與調(diào)整區(qū)域內(nèi)的負(fù)荷,通過(guò)評(píng)估該區(qū)域可協(xié)調(diào)負(fù)荷的最大值與最小值,參與到系統(tǒng)的供需互動(dòng)優(yōu)化中.為了與發(fā)電側(cè)的發(fā)電成本函數(shù)相匹配,本文采用了同樣能夠以金錢(qián)來(lái)衡量的效用函數(shù)來(lái)表示需求側(cè)用電客戶(hù)消耗電量后所獲取的滿(mǎn)意度水平,數(shù)學(xué)表達(dá)式如下:
在電力市場(chǎng)下,引入需求側(cè)的用戶(hù)報(bào)價(jià),則用戶(hù)側(cè)的效益變?yōu)槭?6).用戶(hù)為了追求其用電滿(mǎn)意度達(dá)到最大值,將持續(xù)不斷購(gòu)電.按照微觀經(jīng)濟(jì)學(xué)理論,最大值發(fā)生在邊際效用等于用戶(hù)報(bào)價(jià)的時(shí)候,該模式可用式(7)來(lái)描述.
式中:Ud,i為需求側(cè)效益函數(shù);rj是負(fù)荷聚合商j的用戶(hù)報(bào)價(jià);(PDi)為負(fù)荷聚合商j的效用函數(shù).
2.1.3 社會(huì)效益模型
電力市場(chǎng)調(diào)度模式下,在供給側(cè)和需求側(cè)引入電價(jià)信息,整個(gè)電力系統(tǒng)供需互動(dòng)采用社會(huì)效益最大化作為目標(biāo)函數(shù),則模型可表示為
若發(fā)電商報(bào)價(jià)ri固定不變,發(fā)電機(jī)i將改變其輸出功率,使得其邊際成本與ri相等.類(lèi)似地,用戶(hù)也將持續(xù)購(gòu)電,使得其邊際效用與用戶(hù)報(bào)價(jià)rj相等.同時(shí),必須根據(jù)功率約束和供需平衡約束條件來(lái)調(diào)整ri和rj.最終,ri和rj將相等并固定下來(lái).該均衡電價(jià)為[21]
式中:i=1,2,···,NG,j=1,2,···,ND,r?為當(dāng)供需平衡時(shí)市場(chǎng)的出清電價(jià).
2.2.1 演化博弈
演化博弈是在經(jīng)典博弈理論的基礎(chǔ)上提出來(lái)的,本文所描述的博弈者均是指理性的智能體Agent.在博弈的過(guò)程中,Agent會(huì)以一定的概率學(xué)習(xí)其他Agent的策略.一般來(lái)說(shuō),適應(yīng)度越大,被模仿學(xué)習(xí)的機(jī)會(huì)就越多[22].本文采用Fermi-Dirac函數(shù)[23]來(lái)制定博弈者之間的模仿學(xué)習(xí)規(guī)則.用?i(s)(?i(s)∈?i)代表Agenti的鄰居中采用策略s的Agent,則Agenti的策略從s變?yōu)閟′的概率:
式中T代表了博弈者的理性程度,是一個(gè)常數(shù).
2.2.2 復(fù)雜網(wǎng)絡(luò)
復(fù)雜網(wǎng)絡(luò)描述的是自然、社會(huì)和人工系統(tǒng)等中的復(fù)雜連接關(guān)系.不同的統(tǒng)計(jì)特征表示不同的節(jié)點(diǎn)及節(jié)點(diǎn)間連接特性和網(wǎng)絡(luò)結(jié)構(gòu).根據(jù)不同平均路徑長(zhǎng)度、聚類(lèi)系數(shù)、度和度分布可搭建出最經(jīng)典的4復(fù)雜網(wǎng)絡(luò),分別是規(guī)則網(wǎng)絡(luò)、隨機(jī)網(wǎng)絡(luò)、小世界網(wǎng)絡(luò)和無(wú)標(biāo)度網(wǎng)絡(luò),如圖1所示.
圖1 4種典型復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Four networks structures
2.2.3 需求側(cè)復(fù)雜網(wǎng)絡(luò)演化博弈
在復(fù)雜網(wǎng)絡(luò)的演化博弈中,節(jié)點(diǎn)表示Agent,邊表示節(jié)點(diǎn)間的博弈關(guān)系.在每次迭代過(guò)程中,Agent根據(jù)邊的關(guān)系與鄰居展開(kāi)博弈,再根據(jù)模仿規(guī)則更新其策略.
在本文討論的電力系統(tǒng)中,以網(wǎng)絡(luò)拓?fù)錈o(wú)向圖G來(lái)代表負(fù)荷聚合商間的博弈關(guān)系或通過(guò)通訊線(xiàn)路進(jìn)行信息交互的路徑.定義G=(V,E,A),V={v1,v2,···,vn}為頂點(diǎn)集合,為有限的非空集合,也稱(chēng)為頂點(diǎn)集.E為V中元素構(gòu)成的無(wú)序二元組的集合,稱(chēng)為邊集.圖G的頂點(diǎn)代表博弈者,邊代表博弈者間的信息傳遞關(guān)系和博弈關(guān)系.A=[aih]∈RNB×NB為該圖的鄰接矩陣,NB表示系統(tǒng)中博弈者的個(gè)數(shù).元素aih表示頂點(diǎn)i,h之間的邊的權(quán)重.如果頂點(diǎn)i能收到頂點(diǎn)h的信息,則稱(chēng)頂點(diǎn)h為頂點(diǎn)i的鄰居.Ni表示頂點(diǎn)i的鄰居的集合(包括頂點(diǎn)i),基數(shù)di=|Ni|.本文的分塊是指,與節(jié)點(diǎn)vi相連接的節(jié)點(diǎn)構(gòu)成的一個(gè)集合,表示為?i={vh ∈V|(vi,vh)∈E},vh稱(chēng)為節(jié)點(diǎn)vi的鄰居.假設(shè)通信拓?fù)鋱D的邊滿(mǎn)足雙向并且等權(quán)重,定義鄰接矩陣A的元素aih為
本文搭建的混合博弈模型,上層是以Stackelberg博弈為框架,下層需求側(cè)內(nèi)部參與復(fù)雜網(wǎng)絡(luò)上的演化博弈,如圖2所示.
圖2 電力系統(tǒng)供需互動(dòng)框架Fig.2 Interaction framework of supply-demand in power system
在模型的上層,發(fā)電機(jī)組與負(fù)荷聚合商在領(lǐng)導(dǎo)者平衡機(jī)組的帶領(lǐng)下,參與電力系統(tǒng)供需互動(dòng)Stackelberg博弈.平衡機(jī)組一般會(huì)挑選調(diào)節(jié)范圍較大的發(fā)電機(jī)組,它可以作為主從博弈中的Leader,在迭代過(guò)程中,與其余Agent交換功率信息,并只選取最優(yōu)策略.在模型的下層的需求側(cè),因?yàn)閺?fù)雜網(wǎng)絡(luò)的存在,負(fù)荷聚合商將參與分塊協(xié)同演化博弈,并通過(guò)MGRL算法得到最優(yōu)策略.
每個(gè)Follower在觀察到Leader和其余Follower的當(dāng)前最優(yōu)策略后,將追求全局最優(yōu)來(lái)改變自身策略:
式中:i=1,2,···,n,p為領(lǐng)導(dǎo)者的可選策略;Uleader為領(lǐng)導(dǎo)者的社會(huì)效益函數(shù);Ui為第i個(gè)跟隨者的社會(huì)效益函數(shù);為領(lǐng)導(dǎo)者的最優(yōu)策略;為在領(lǐng)導(dǎo)者采用策略p后跟隨者的最優(yōu)策略集合;為第i個(gè)跟隨者的最優(yōu)策略;為所有跟隨者的最優(yōu)策略;Ai為跟隨者的策略域.
式中:si →sh表示當(dāng)需求側(cè)的第h個(gè)Agent與第i個(gè)Agent之間有拓?fù)潢P(guān)聯(lián)時(shí),第i個(gè)Agent的策略從si變?yōu)閟h的概率.
在目標(biāo)函數(shù)的設(shè)計(jì)中,參與市場(chǎng)的每個(gè)博弈者均須加上電價(jià)因素.第t個(gè)跟隨者的目標(biāo)函數(shù)為
除去平衡機(jī)組和第t個(gè)跟隨者后,其余發(fā)電機(jī)的發(fā)電成本為
在該模型中,Leader平衡機(jī)組的目標(biāo)函數(shù)為
同時(shí),除了滿(mǎn)足容量與平衡約束外,涵蓋電價(jià)因素的供需兩側(cè)效益必須大于零,如下式所示:
當(dāng)達(dá)到博弈均衡時(shí),同時(shí)滿(mǎn)足約束條件,此時(shí)罰函數(shù)為0,用戶(hù)報(bào)價(jià)和發(fā)電商報(bào)價(jià)穩(wěn)定在出清價(jià)格,Fleader達(dá)到最小值,即系統(tǒng)社會(huì)總效益U取得最大值.
對(duì)于考慮市場(chǎng)因素的電力系統(tǒng)供需互動(dòng)模型,不僅僅有考慮發(fā)電機(jī)閥點(diǎn)效應(yīng)和機(jī)組禁止運(yùn)行區(qū)域后導(dǎo)致模型的非凸特性,并且由于考慮了電價(jià)因素,導(dǎo)致求解的可行域極大地縮小了,增加了運(yùn)算收斂的難度.因此亟待提出一種能夠快速求解該非凸優(yōu)化問(wèn)題的分布式優(yōu)化算法.
本文基于Q學(xué)習(xí)算法,在Stackelberg博弈的框架下,在需求側(cè)實(shí)行分塊協(xié)同演化博弈機(jī)制,提出了全新的分布式算法—混合博弈強(qiáng)化學(xué)習(xí)算法.在該算法中,各發(fā)電機(jī)組和負(fù)荷聚合商的有功功率策略將匯集到Leader中集中發(fā)布.在每次迭代前,各Follower都能獲知在前一次博弈場(chǎng)中其他博弈者的策略信息;迭代結(jié)束時(shí),各Follower都要向Leader上傳對(duì)應(yīng)的Agenti的策略.Leader在得知各發(fā)電機(jī)的出力策略或負(fù)荷聚合商的負(fù)荷策略后,可以得到本次迭代的社會(huì)效益,并通過(guò)判斷優(yōu)化結(jié)果是否比上一次迭代的好,來(lái)選擇是否更新發(fā)布的出力或者負(fù)荷策略,最終收斂到最優(yōu)值.
Q學(xué)習(xí)算法關(guān)鍵是通過(guò)對(duì)狀態(tài)-動(dòng)作對(duì)的值函數(shù)Q(s,a)矩陣進(jìn)行優(yōu)化迭代獲得最優(yōu)解[24].本文首先對(duì)Q矩陣進(jìn)行二進(jìn)制編碼,Qim(2@2)是Agenti的第m個(gè)二進(jìn)制位的Q矩陣,該Q矩陣的動(dòng)作空間Aim與下一個(gè)Q矩陣的狀態(tài)空間Si,m+1相等,Agenti的Q矩陣Qim更新式如下所示:
式中:m=1,2,···,M;j=1,2,···,J;μ是學(xué)習(xí)因子;η是折扣因子;上標(biāo)k和j分別表示第k次迭代和第j個(gè)個(gè)體;下標(biāo)i和m分別表示第i個(gè)智能體和第m個(gè)二進(jìn)制位;M是二進(jìn)制串的長(zhǎng)度;?Q是知識(shí)增量;J為一次迭代中的種群大小;(s,a)表示狀態(tài)-動(dòng)作對(duì);R(,sk+1,ak)是在動(dòng)作ak發(fā)生時(shí)從狀態(tài)sk轉(zhuǎn)換到狀態(tài)ak+1的獎(jiǎng)勵(lì)函數(shù);aim是可選動(dòng)作.
本文根據(jù)蟻群算法的合作機(jī)制[25-27]設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)R,用于對(duì)Q矩陣的策略更新,并控制迭代的收斂速度,如下所示:
在需求側(cè),分塊?i可表示與Agenti有邊的鄰居和Agenti本身.?i儲(chǔ)存了對(duì)應(yīng)Agenti的Qii矩陣及同一個(gè)分塊內(nèi)鄰居Agenth的Qih矩陣(h∈?i),相當(dāng)于Q算法中的智能體.它在每次迭代的過(guò)程中,都會(huì)對(duì)內(nèi)部的知識(shí)矩陣及其對(duì)應(yīng)的策略進(jìn)行優(yōu)化;同時(shí),因?yàn)锳genti有可能分布在不同的分塊中,此時(shí),Agenti的知識(shí)矩陣將被不同的分塊同時(shí)優(yōu)化,其實(shí)也就是一個(gè)分塊同時(shí)優(yōu)化了多個(gè)知識(shí)矩陣.
各發(fā)電機(jī)組和負(fù)荷聚合商的有功功率策略將匯集到Leader中集中發(fā)布.在迭代前,分塊?i將獲知前一輪在博弈場(chǎng)上的策略信息,并且獲取分塊?i內(nèi)的鄰居Agenth的Qih矩陣(h ∈?i)在其他分塊中的Q矩陣和社會(huì)效益信息;每輪迭代結(jié)束后,分塊?i需告知Leader對(duì)應(yīng)的Agenti的負(fù)荷策略.Leader在獲知各負(fù)荷聚合商的策略后,再結(jié)合供給側(cè)各發(fā)電機(jī)組的策略,便可求取本輪的社會(huì)效益.如果此次的結(jié)果比上一次好,則更新本輪的優(yōu)化策略,否則就選擇保留上一輪的更新結(jié)果,并體現(xiàn)在獎(jiǎng)勵(lì)函數(shù)R中,并改變下一輪的更新策略方向,最終收斂到最優(yōu)值.以“1-2-3”的三智能體簡(jiǎn)單拓?fù)錇槔?圖3為需求側(cè)Q矩陣的分塊協(xié)同演化博弈框架.
圖3 Q矩陣的分塊協(xié)同演化博弈框架Fig.3 A block co-evolutionary game framework for Q matrices
而對(duì)于每一個(gè)Agent 來(lái)說(shuō),均有可能與其他的Agent產(chǎn)生聯(lián)系,在拓?fù)渲畜w現(xiàn)為有邊的連接,此時(shí)該Agent的分塊中就含有不止一個(gè)知識(shí)矩陣.所以Agenti的Qii迭代更新變成如下所示:
第i個(gè)Agent的第i個(gè)知識(shí)矩陣的獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)如下所示:
在本文算法中,節(jié)點(diǎn)與其所有鄰居在每次迭代過(guò)程中進(jìn)行博弈,積累博弈得到的收益,再依據(jù)策略演化更新規(guī)則實(shí)施策略更新.采用式(10)的策略更新規(guī)則,Agenti模仿鄰居Agenth策略的概率為
算法在每次迭代過(guò)程中,會(huì)在分塊i中尋找與i有連接的獲得最大社會(huì)效益的智能體h.當(dāng)Uh>Ui時(shí),則以概率ηi直接復(fù)制分塊h內(nèi)博弈者i的知識(shí)矩陣矩陣.
傳統(tǒng)的Q學(xué)習(xí)是智能體通過(guò)相應(yīng)變量的Q矩陣來(lái)尋優(yōu)的,與此不同的是,在本文的分塊協(xié)同中,不同分塊儲(chǔ)存的對(duì)應(yīng)于同一個(gè)節(jié)點(diǎn)i的矩陣,會(huì)進(jìn)行交互學(xué)習(xí),得到分塊內(nèi)節(jié)點(diǎn)i對(duì)應(yīng)的協(xié)同Qii矩陣,用于指導(dǎo)動(dòng)作選擇.按照二進(jìn)制位進(jìn)行迭代的公式具體如下:
式中θ為分塊協(xié)同的權(quán)重值,不同網(wǎng)絡(luò)拓?fù)湎碌臋?quán)重值不同,反映了拓?fù)涞慕Y(jié)構(gòu)和性質(zhì).
式中:q0是0到1之間的隨機(jī)數(shù);ε是采取貪婪尋優(yōu)法則策略的概率;arand是采取隨機(jī)尋優(yōu)策略的概率.
而對(duì)于供給側(cè)的發(fā)電機(jī)組,由于拓?fù)涫枪潭ǖ?每一臺(tái)均是獨(dú)立且相互博弈的個(gè)體,所以此時(shí)的分塊只含有本身智能體的知識(shí)矩陣,即相當(dāng)于沒(méi)有演化博弈的過(guò)程.
本文所提的混合博弈強(qiáng)化學(xué)習(xí)算法的求解流程如圖4所示.其中kmax是最大迭代次數(shù).
由圖4流程圖可知,每次迭代前,各智能體都會(huì)獲取上一次所有博弈者的策略信息;每次迭代結(jié)束后,各智能體都要向領(lǐng)導(dǎo)者上傳對(duì)應(yīng)的博弈者i的策略.領(lǐng)導(dǎo)者在得知各智能體的功率策略后,可以得到本次迭代的社會(huì)效益,并通過(guò)判斷優(yōu)化結(jié)果是否比上一次迭代的好,來(lái)選擇是否更新發(fā)布的功率策略,最終收斂到了最優(yōu)值.
本文所提的混合博弈強(qiáng)化學(xué)習(xí)算法的優(yōu)點(diǎn)主要有以下3個(gè)方面:
1)該算法可以有效求解非凸優(yōu)化問(wèn)題.混合博弈強(qiáng)化學(xué)習(xí)算法基于Q學(xué)習(xí)算法,以Q矩陣來(lái)描述策略,對(duì)模型依賴(lài)程度低,可以有效求解本文所研究的含閥點(diǎn)效應(yīng)多智能體系統(tǒng)的非凸供需互動(dòng)模型.
2)該算法適應(yīng)于分布式優(yōu)化計(jì)算框架.混合博弈強(qiáng)化學(xué)習(xí)算法是在Stackelberg博弈與演化博弈的混合博弈框架下提出來(lái)的,能夠充分調(diào)動(dòng)多智能體的互動(dòng),并把復(fù)雜的總?cè)蝿?wù)分配到下層每個(gè)智能體的子任務(wù)中,既保證了私密性和可靠性,也極大地提高了優(yōu)化速度.
3)該算法能夠充分利用不同形式的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)進(jìn)行有效求解.混合博弈強(qiáng)化學(xué)習(xí)算法利用了圖論來(lái)研究智能體直接的關(guān)系,并利用了分塊協(xié)同和演化博弈來(lái)進(jìn)行優(yōu)化,充分實(shí)現(xiàn)并利用了網(wǎng)絡(luò)拓?fù)渲懈髦悄荏w之間所形成的知識(shí)矩陣信息互動(dòng),通過(guò)多個(gè)智能體的協(xié)同優(yōu)化明顯提升了算法的尋優(yōu)性能,并且能夠在任何形式的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)下進(jìn)行有效求解,具有很強(qiáng)的適應(yīng)性和推廣性.
為了驗(yàn)證MGRL算法的可行性與優(yōu)越性,本文搭建了基于上文所描述的4種經(jīng)典復(fù)雜網(wǎng)絡(luò)的3機(jī)-6負(fù)荷系統(tǒng)用于仿真,同時(shí)把仿真擴(kuò)大到在需求側(cè)含有無(wú)標(biāo)度網(wǎng)絡(luò)的南方某一線(xiàn)城市電網(wǎng)算例中.MGRL算法的參數(shù)如表1所示.
因?yàn)殡娏κ袌?chǎng)環(huán)境下考慮需求側(cè)復(fù)雜網(wǎng)絡(luò)的電力系統(tǒng)供需互動(dòng)問(wèn)題的非凸性,本文分別采用了人工蜂群算法(ABC)、遺傳算法(GA)、生物地理學(xué)優(yōu)化算法(biogeography-based optimization,BBO)、群搜索算法(group search optimizer,GSO)、磷蝦群算法(krill herd,KH)及粒子群算法(PSO)算法共6種集中式人工智能算法與混合博弈強(qiáng)化學(xué)習(xí)算法進(jìn)行對(duì)比,這些算法均可以求解非凸模型.
為了兼顧算法最佳性能和公平性,本文經(jīng)過(guò)大量測(cè)試,確定了最優(yōu)的參數(shù)配置,如表2所示.所有算法的迭代步數(shù)均設(shè)置為300,種群規(guī)模均設(shè)置為50.仿真計(jì)算均在CPU為英特爾i7-4710MQ、主頻2.5 GHz、內(nèi)存(RAM)8 GB的計(jì)算機(jī)運(yùn)行.
表2 對(duì)比算法最優(yōu)參數(shù)配置Table 2 Optimal parameters of the comparative algorithms
4.1.1 仿真模型
表3-4分別給出了3機(jī)-6負(fù)荷系統(tǒng)的燃煤發(fā)電機(jī)的主要參數(shù)和負(fù)荷參數(shù).
表3 3機(jī)-6負(fù)荷系統(tǒng)燃煤發(fā)電機(jī)的主要參數(shù)Table 3 Main parameters of coal-fired generators of 3-generator 6-load system
表4 3機(jī)-6負(fù)荷系統(tǒng)的負(fù)荷參數(shù)Table 4 Load parameters of 3-generator 6-load system
表3-4中,機(jī)組3的容量范圍最大,選為平衡機(jī)組.圖5根據(jù)上文給出的經(jīng)典復(fù)雜網(wǎng)絡(luò)模型搭建了6負(fù)荷規(guī)則網(wǎng)絡(luò)、6負(fù)荷隨機(jī)網(wǎng)絡(luò)、6負(fù)荷小世界網(wǎng)絡(luò)和6負(fù)荷無(wú)標(biāo)度網(wǎng)絡(luò).分別對(duì)基于復(fù)雜網(wǎng)絡(luò)的4類(lèi)3機(jī)-6負(fù)荷系統(tǒng)使用MGRL算法和其他6種智能算法分別獨(dú)立計(jì)算100次.
圖5 4種6負(fù)荷網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Four networks of 6 load
4.1.2 仿真結(jié)果分析
利用混合博弈強(qiáng)化學(xué)習(xí)算法計(jì)算的仿真收斂圖如圖6所示.尋優(yōu)結(jié)果,即社會(huì)效益最優(yōu)值、出清價(jià)格及其對(duì)應(yīng)的機(jī)組出力和負(fù)荷策略,如表5所示.
圖6 MGRL算法在3機(jī)-6負(fù)荷系統(tǒng)的仿真收斂圖Fig.6 Simulation convergence diagram of MGRL algorithm in 3-generator 6-load system
表5 混合博弈強(qiáng)化學(xué)習(xí)算法在3機(jī)-6負(fù)荷系統(tǒng)的優(yōu)化結(jié)果Table 5 Optimization results of MGRL algorithm in 3-generator 6-load system
從圖6和表5可以明顯地看出,混合博弈強(qiáng)化學(xué)習(xí)算法在該模型中的第50次迭代步數(shù)之前就已經(jīng)收斂到了最優(yōu)值297.5986$/h,收斂速度較快,而且收斂效果較好.
為了驗(yàn)證混合博弈強(qiáng)化學(xué)習(xí)算法的性能,本文把混合博弈強(qiáng)化學(xué)習(xí)算法(MGRL)、人工蜂群算法(ABC)、遺傳算法(GA)、生物地理學(xué)優(yōu)化算法(biogeography-based optimization,BBO)、群搜索算法(group search optimizer,GSO)、磷蝦群算法(krill herd,KH)及粒子群算法(PSO)在3機(jī)-6負(fù)荷系統(tǒng)中計(jì)算100次后得到的社會(huì)效益最大值、平均值和最小值放在了表6進(jìn)行了比較.其中,除了混合博弈強(qiáng)化學(xué)習(xí)算法是分布式算法之外,其余的6種算法都是集中式的算法.
表6 7種算法在3機(jī)-6負(fù)荷系統(tǒng)計(jì)算100次后的結(jié)果比較Table 6 Comparison of results after calculating one hundred times by 7 different algorithms in 3-generator 6-load system
從表6可以明顯看出,MGRL算法的社會(huì)效益最大值僅比在這方面表現(xiàn)最優(yōu)的GA算法大約低了0.7%,幾乎達(dá)到了最優(yōu),排名可達(dá)前3名.而MGRL算法的社會(huì)效益最小值和平均值均排名第一.另一方面,若只觀察MGRL算法在4種網(wǎng)絡(luò)拓?fù)渲械膶?yōu)結(jié)果,可以明顯看出,該算法在這4類(lèi)復(fù)雜網(wǎng)絡(luò)中的仿真結(jié)果非常相近.
4.2.1 仿真模型
在南方某一線(xiàn)城市電網(wǎng)中,一共含有110 kV及以上的節(jié)點(diǎn)279個(gè),發(fā)電廠一共有12個(gè),支路有375條,裝機(jī)容量一共為13120 MW.在該城市電網(wǎng)中、核電站、天然氣發(fā)電廠和垃圾發(fā)電廠共6臺(tái)由于被用于滿(mǎn)足剛性負(fù)荷需求中,必須實(shí)時(shí)滿(mǎn)足,所以不參與到本文討論的實(shí)時(shí)供需互動(dòng)優(yōu)化中.而其他6臺(tái)燃煤發(fā)電機(jī)則用來(lái)平衡需求側(cè)的柔性負(fù)載.同樣地,機(jī)組6由于容量約束范圍最大,被挑選為平衡機(jī)組.另外,該電網(wǎng)含有110 kV及以上的柔性負(fù)荷共71個(gè),它們都參與實(shí)時(shí)供需互動(dòng)優(yōu)化.
同時(shí),由第1個(gè)算例可知,不同的復(fù)雜網(wǎng)絡(luò)幾乎不影響MGRL算法的性能.而由上文復(fù)雜網(wǎng)絡(luò)理論可知,大多數(shù)大規(guī)模真實(shí)網(wǎng)絡(luò)通常使用幕率分布來(lái)描述度分布更為準(zhǔn)確,幕率分布的節(jié)點(diǎn)基本上只有少量的連接,而少量的節(jié)點(diǎn)則有著大量的連接,而由于無(wú)標(biāo)度網(wǎng)絡(luò)的度分布呈現(xiàn)冪律分布的特性,這與未來(lái)電力市場(chǎng)環(huán)境下,需求側(cè)負(fù)荷聚合商最終演化成的多寡頭少聯(lián)系的關(guān)系相適應(yīng).所以,在本小節(jié)的算例中,本文利用該南方某一線(xiàn)城市電網(wǎng)中的71負(fù)荷,構(gòu)建了無(wú)標(biāo)度網(wǎng)絡(luò),如圖7所示.為了驗(yàn)證MGRL算法在較大規(guī)模的推廣性,本文利用上述的7種算法對(duì)該大型電網(wǎng)算例進(jìn)行了仿真.同樣的,為了排除偶然性,本文的每類(lèi)算法均分別計(jì)算100次.
圖7 71負(fù)荷無(wú)標(biāo)度網(wǎng)絡(luò)Fig.7 Scale-free network of 71 load
4.2.2 仿真結(jié)果分析
混合博弈強(qiáng)化學(xué)習(xí)算法的仿真收斂過(guò)程如圖8所示.觀察圖8可知,在約第40次迭代步數(shù)之前,該算法就已經(jīng)收斂了.從收斂所耗費(fèi)的時(shí)間來(lái)看是比較短的,而從效果來(lái)看也是比較好的.最后收斂達(dá)到的總經(jīng)濟(jì)效益是213912$/h.與算例1類(lèi)似的,7種算法的尋優(yōu)結(jié)果如表7所示.
圖8 MGRL算法在南方某一線(xiàn)城市電網(wǎng)的仿真收斂圖Fig.8 Simulation convergence diagram of MGRL algorithm on a first-tier city power grid in the southern China
從表7可以明顯看出,從表格的最大值一列可看出,MGRL算法在社會(huì)效益最大值方面僅僅比PSO差了0.02%,幾乎已經(jīng)是最優(yōu)值,排名第3名.而在社會(huì)效益的最小值和平均值方面,MGRL算法的表現(xiàn)也不差,分別為第4名和第3名.而且從絕對(duì)值來(lái)看,與最好的收斂值也是非常相近的.從表7的仿真結(jié)果來(lái)看,該算例充分驗(yàn)證了MGRL算法對(duì)實(shí)際的大規(guī)模智能電網(wǎng)供需互動(dòng)模型優(yōu)化的可行性和高效性.
表7 7種算法在南方某一線(xiàn)城市電網(wǎng)計(jì)算100次后的結(jié)果比較Table 7 Comparison of results after calculating one hundred times by 7 different algorithms on a first-tier city power grid in the southern China
從前面兩個(gè)算例的仿真結(jié)果可以得出,分布式的混合博弈強(qiáng)化學(xué)習(xí)算法的尋優(yōu)性能比大部分的集中式智能算法優(yōu)越,并且在4類(lèi)復(fù)雜網(wǎng)絡(luò)中,該算法的收斂結(jié)果非常接近.由于本文研究的是電力市場(chǎng)環(huán)境下的電力系統(tǒng)供需互動(dòng)問(wèn)題,集中式的智能算法由于無(wú)法保證參與博弈的市場(chǎng)主體的私密性,所以不適用于該框架.而本文提出的全新的混合博弈強(qiáng)化學(xué)習(xí)算法屬于分布式算法,算法性能非常接近集中式智能算法的最優(yōu)值,表明了該算法可以有效地求解決考慮市場(chǎng)因素的電力系統(tǒng)供需互動(dòng)問(wèn)題.
另一方面,由第1個(gè)算例可知,混合博弈強(qiáng)化學(xué)習(xí)算法在不同的復(fù)雜網(wǎng)絡(luò)中都可以保證良好的仿真結(jié)果,而這4種典型的復(fù)雜網(wǎng)絡(luò)基本涵蓋了所有類(lèi)型的網(wǎng)絡(luò)拓?fù)?因此說(shuō)明了混合博弈強(qiáng)化學(xué)習(xí)算法在不同的網(wǎng)絡(luò)中具有較強(qiáng)的適應(yīng)性和穩(wěn)定性.
顯然,混合博弈強(qiáng)化學(xué)習(xí)算法優(yōu)異的尋優(yōu)性能是由其算法機(jī)理決定的.正是因?yàn)樵撍惴ㄔ趫D論的基礎(chǔ)上,引入了分塊協(xié)同和演化博弈機(jī)制.這種機(jī)制使得鄰居之間互動(dòng)博弈關(guān)系所形成的知識(shí)矩陣信息互動(dòng)得到了充分的利用,再通過(guò)多個(gè)智能體的協(xié)同優(yōu)化明顯提升了算法的尋優(yōu)性能.
本文提出一種基于Q學(xué)習(xí)理論的混合博弈強(qiáng)化學(xué)習(xí)算法,用于求解考慮機(jī)組閥點(diǎn)效應(yīng),禁止運(yùn)行區(qū)域、考慮電價(jià)因素及需求側(cè)復(fù)雜網(wǎng)絡(luò)的非凸電力系統(tǒng)供需互動(dòng)模型.所得結(jié)論如下:
1)本文所搭建得考慮需求側(cè)復(fù)雜網(wǎng)絡(luò)的電力系統(tǒng)供需互動(dòng)混合博弈模型可與未來(lái)電力市場(chǎng)環(huán)境下需求側(cè)負(fù)荷聚合商之間多變的關(guān)系和復(fù)雜的信息網(wǎng)絡(luò)拓?fù)湎嗥ヅ?
2)本文所提出的分布式MGRL算法相較于集中式的智能算法更是適應(yīng)于電力市場(chǎng)環(huán)境下多主體的供需互動(dòng)框架,并且相較與多數(shù)集中式智能算法,其尋優(yōu)性能更好.
3)本文所提出的MGRL算法由于在圖論的基礎(chǔ)上引入分塊協(xié)同和演化博弈機(jī)制,使得知識(shí)矩陣信息可以充分利用,因此對(duì)于不同的復(fù)雜網(wǎng)絡(luò)拓?fù)渚@示了良好的尋優(yōu)效果.3機(jī)-6負(fù)荷系統(tǒng)算例和南方某一線(xiàn)城市電網(wǎng)算例兩個(gè)仿真結(jié)果表明算法具有較好的適應(yīng)性和穩(wěn)定性.
在下一步的研究中,筆者將對(duì)加入需求側(cè)負(fù)荷的精細(xì)化建模,并進(jìn)行多時(shí)段耦合仿真分析,進(jìn)一步完善混合博弈強(qiáng)化學(xué)習(xí)算法的計(jì)算性能.