孫 勇, 王惠鋒, 孟祥東, 李寶聚, 王大亮, 王 堯, 胡 梟, 陳厚合
(1. 國網(wǎng)吉林省電力有限公司, 吉林 長春 130022; 2. 東北電力大學(xué)電氣工程學(xué)院, 吉林省 吉林市 132012; 3. 國網(wǎng)吉林省電力有限公司電力科學(xué)研究院, 吉林 長春 130021; 4. 國網(wǎng)吉林省電力有限公司長春供電公司, 吉林 長春 130021)
需求響應(yīng)(Demand Response, DR)作為智能電網(wǎng)框架下的重要互動(dòng)資源,對(duì)于維護(hù)系統(tǒng)穩(wěn)定性、減少電網(wǎng)公司投資、促進(jìn)新能源消納等方面起到積極作用。由于用戶側(cè)多能負(fù)荷的耦合程度日漸加深,且可調(diào)控資源潛力和用戶用能偏好都與系統(tǒng)的高效運(yùn)行息息相關(guān),因此用戶參與需求響應(yīng)收益的準(zhǔn)確建模、利益分配機(jī)制的選擇和博弈過程分析都對(duì)于繼續(xù)推進(jìn)電力市場(chǎng)化改革以及良性的電力現(xiàn)貨市場(chǎng)建設(shè)具有重要意義。
受惠于電力市場(chǎng)化進(jìn)程早、電力金融體系相對(duì)完備和市場(chǎng)化自由度較高,國外在需求響應(yīng)的研究中很早就使用了博弈論作為研究手段,并且展望了不同類型博弈在電力市場(chǎng)中不同領(lǐng)域的應(yīng)用前景[1-4],國內(nèi)相關(guān)研究也緊隨其后。文獻(xiàn)[5]結(jié)合非合作博弈探討了需求響應(yīng)在無功支撐和改善電網(wǎng)性能方面的影響,但對(duì)經(jīng)濟(jì)方面的考量則較為模糊。文獻(xiàn)[6]以經(jīng)濟(jì)角度作為主要出發(fā)點(diǎn),通過對(duì)售電商需求響應(yīng)策略和補(bǔ)貼價(jià)格的制定,論證了在其模型下參與響應(yīng)的各方都能夠因此獲利;在此基礎(chǔ)上,文獻(xiàn)[7]繼續(xù)結(jié)合經(jīng)濟(jì)因素,針對(duì)風(fēng)險(xiǎn)厭惡型能源,考慮市場(chǎng)價(jià)格不確定性,提出一種雙層兩階段模型以探尋電力零售商競(jìng)價(jià)策略和能源定價(jià)問題;文獻(xiàn)[8]通過光熱聚合商、多能運(yùn)營商和用戶三方的利益均衡,采用主從博弈架構(gòu),在有效提升用戶側(cè)用能滿意度的同時(shí),也在一定幅度上提高了系統(tǒng)的經(jīng)濟(jì)效益。文獻(xiàn)[9]轉(zhuǎn)而從發(fā)電側(cè)角度出發(fā),在模型方面作出改進(jìn),選擇主從博弈與討價(jià)還價(jià)博弈共同組成了雙層模型,論證了機(jī)制上的部分改動(dòng)可以進(jìn)一步使博弈各方的經(jīng)濟(jì)效益顯著提升,然而一定程度上忽略了用電側(cè)作為需求響應(yīng)主體的重要地位。文獻(xiàn)[10,11]從家庭角度,使用了多周期微分博弈建立模型,采用0-1混合線性規(guī)劃計(jì)算納什均衡,給出了個(gè)人房主與電力供應(yīng)商之間參與需求響應(yīng)的博弈策略;文獻(xiàn)[12]則完全從用戶角度切入,設(shè)計(jì)了家庭之間的點(diǎn)對(duì)點(diǎn)能源交易,結(jié)合非合作博弈探討了該交易下的動(dòng)態(tài)定價(jià)策略,不過由于家庭用電只占電力負(fù)荷比重中較小的部分,意義上仍較為有限;文獻(xiàn)[13,14]雖聚焦于需求側(cè),提出了多層博弈競(jìng)標(biāo)模型和主從架構(gòu)下的多微網(wǎng)綜合需求響應(yīng)方法,但具體到策略刻畫上較為模糊;文獻(xiàn)[15-19]雖主要聚焦于工業(yè)用戶,采用了主從博弈來描述聚合商與用戶之間的博弈關(guān)系并探尋了二者在此架構(gòu)下交互的收益問題,但其中部分背景環(huán)境與國內(nèi)電力市場(chǎng)現(xiàn)狀仍客觀上存在有一定差異,在參考價(jià)值方面具備一定的局限性。
總體而言,現(xiàn)有的研究在用戶主動(dòng)響應(yīng)決策方面的描述尚不全面。譬如在目標(biāo)群體選擇上,大部分文獻(xiàn)僅針對(duì)單一用戶的響應(yīng)策略,且忽略了用戶在制定其響應(yīng)策略時(shí)的有限理性;在用戶用能消費(fèi)的決策方面,現(xiàn)有研究通常通過考慮用戶用能時(shí)的購買成本、參與需求響應(yīng)的收益、補(bǔ)貼、市場(chǎng)消費(fèi)剩余等因素來量化用戶用能消費(fèi)的估值,建立用戶用能決策模型,但對(duì)于參與需求響應(yīng)行為反映在用戶自身之影響的刻畫仍較為粗糙[20,21]。
本文引入Bayes博弈理論來研究用戶參與需求側(cè)響應(yīng)的博弈行為,在按容量區(qū)分不同體量用戶的基礎(chǔ)上建立雙層模型,構(gòu)建了層間交互關(guān)系,設(shè)計(jì)了聚合商與用戶的收益分配機(jī)制;最后通過算例分析,得到了在聚合商不同利益分配機(jī)制下,用戶的合作策略傾向以及聚合商參與需求響應(yīng)的價(jià)格和容量申報(bào)策略,分析了園區(qū)內(nèi)需求響應(yīng)對(duì)用戶側(cè)資源調(diào)控具有重要作用和意義,一定程度上可為工業(yè)園區(qū)內(nèi)有意愿參與需求響應(yīng)的各級(jí)各利益主體策略決策的制定提供部分參考和依據(jù)。
需求響應(yīng)的參與者包括執(zhí)行者與運(yùn)營商兩部分;執(zhí)行者為用戶側(cè)的各類可控負(fù)荷,運(yùn)營商可按角色分為三個(gè)主體:負(fù)荷聚合商、電力調(diào)度中心與電力交易中心。負(fù)荷聚合商負(fù)責(zé)聚合各類電力用戶需求響應(yīng)資源,參與市場(chǎng)化需求響應(yīng),為年用電量5 GW·h以上的用戶(批發(fā)用戶)和5 GW·h以下的用戶(零售用戶)提供服務(wù);電力調(diào)度中心負(fù)責(zé)組織市場(chǎng)主體注冊(cè)的安全校核、交易出清、評(píng)價(jià)考核、建設(shè)運(yùn)維;而電力交易中心負(fù)責(zé)需求響應(yīng)市場(chǎng)主體的注冊(cè)申報(bào)、合同管理、信息披露、出具結(jié)算等[22]。運(yùn)營商各主體間交互狀況可從信息層和物理層兩個(gè)層面上進(jìn)行描述,如圖1和圖2所示。
圖1 工業(yè)園區(qū)需求響應(yīng)的信息層交互結(jié)構(gòu)Fig.1 Information layer interaction structure for demand response in industrial parks
圖2 工業(yè)園區(qū)需求響應(yīng)的物理層交互結(jié)構(gòu)Fig.2 Physical layer interaction structure for demand response in industrial parks
信息層交互是指整個(gè)系統(tǒng)內(nèi)參與需求響應(yīng)的全部主體,其信息流動(dòng)的交互狀況。如圖1所示,園區(qū)內(nèi)存在多個(gè)規(guī)模不同的負(fù)荷聚合商,每個(gè)負(fù)荷聚合商各自與園區(qū)內(nèi)有意向參與需求響應(yīng)的用戶簽訂服務(wù)合同,在合同有效期內(nèi),聚合商代行參與需求響應(yīng)。需要說明的是,大用戶(批發(fā)用戶)可以繞過負(fù)荷聚合商,直接參與負(fù)荷響應(yīng)。
物理層交互則是考慮到了負(fù)荷聚合商的特殊屬性——無實(shí)體。由于聚合商本身不提供任何負(fù)荷,只是其所代理的全部用戶的負(fù)荷集合,因此在物理層面上實(shí)際只有一類節(jié)點(diǎn),即電力用戶,包括批發(fā)用戶和零售用戶。
綜上所述,調(diào)度中心和交易中心可視為供電公司在參與需求響應(yīng)管理過程中在物理層和信息層的兩種表現(xiàn)形式;相對(duì)而言,前者更關(guān)注需求響應(yīng)過程中的響應(yīng)執(zhí)行行為本身,而后者則更側(cè)重于在經(jīng)濟(jì)層面對(duì)市場(chǎng)內(nèi)用戶的激勵(lì)及其所產(chǎn)生的正面引導(dǎo)作用。
本文根據(jù)我國現(xiàn)行工業(yè)園區(qū)中需求響應(yīng)的商業(yè)模式,即交易中心-聚合商-用戶三層結(jié)構(gòu),設(shè)定了需求響應(yīng)采取邀約制,即:在用電高峰時(shí),由于電力供應(yīng)緊張,交易中心發(fā)出邀約在市場(chǎng)中尋求提供更多可用電能,試圖彌補(bǔ)用電缺口;而在用電低谷時(shí),由于供電能力盈余,交易中心發(fā)出邀約在市場(chǎng)中尋求消耗更多電能,以保證電網(wǎng)的經(jīng)濟(jì)運(yùn)行。設(shè)置邀約在響應(yīng)執(zhí)行日2天前的上午發(fā)布,在需求發(fā)布后,各負(fù)荷聚合商和批發(fā)用戶各自決定申報(bào)容量和申報(bào)價(jià)格,在邀約發(fā)布后12 h內(nèi)完成市場(chǎng)申報(bào),隨后在市場(chǎng)出清過程中,按申報(bào)價(jià)格由低到高依次調(diào)用,報(bào)價(jià)相同時(shí)按截止時(shí)間前、最近一次申報(bào)時(shí)間的先后順序依次調(diào)用,直至滿足響應(yīng)容量需求。出清容量按照全量中標(biāo),次日?qǐng)?zhí)行響應(yīng);在響應(yīng)執(zhí)行后、結(jié)果申訴前,還會(huì)進(jìn)行響應(yīng)評(píng)價(jià)并作出結(jié)算[22],該過程如圖3所示。
圖3 需求響應(yīng)邀約機(jī)制Fig.3 Demand response invitation mechanism
圖3中,申報(bào)和出清兩個(gè)步驟意味著不同的負(fù)荷聚合商之間必然存在利益沖突。且因?yàn)橛脩艟哂凶灾鬟x擇簽約聚合商的權(quán)利,故對(duì)于聚合商而言應(yīng)在博弈過程中盡可能多地?fù)魯∑渌酆仙?從而謀求獲得更多的用戶資源,并通過合理的利益分配機(jī)制將簽約用戶保持在自己名下從而最大化自身利益,這體現(xiàn)了聚合商作為商業(yè)機(jī)構(gòu)本征存在的逐利性。聚合商、批發(fā)用戶和零售用戶三類博弈參與者參與需求響應(yīng)的一般狀態(tài)模式如圖4所示,粗直線表示與交易中心進(jìn)行需求響應(yīng)行為時(shí)各參與者的利益邊界,在博弈過程中會(huì)被不斷推動(dòng),直至博弈達(dá)到均衡點(diǎn)時(shí)停止。
圖4 參與需求響應(yīng)的一般狀態(tài)Fig.4 General state of participation in demand response
實(shí)際上,圖4中的利益邊界并非一種具象化的、物理存在的實(shí)體邊界,而是用以表達(dá)需求響應(yīng)過程中不同參與者收益流動(dòng)的交互邊界。圖4中任意兩條相鄰的利益邊界所夾圍成的區(qū)域都可視為上層博弈中的一個(gè)對(duì)象整體,且該區(qū)域的全部收益來源均由交易中心提供,各扇區(qū)圓心角的比值即為園區(qū)內(nèi)對(duì)應(yīng)區(qū)域的市場(chǎng)份額之比。
在利益邊界的動(dòng)止問題上,本文擬通過不滿意度機(jī)制的設(shè)置對(duì)用戶與聚合商的合約關(guān)系進(jìn)行更新,這意味著一旦合約關(guān)系發(fā)生變化,圖4中某些區(qū)域原有的合作關(guān)系便不再能夠維持原狀(這表征為區(qū)域元素的變動(dòng)),此即為驅(qū)動(dòng)利益邊界推動(dòng)的原動(dòng)力;而邊界的推動(dòng)過程本身則在次月的需求響應(yīng)行為中體現(xiàn),并且由于次月的合約關(guān)系表很大可能仍會(huì)發(fā)生變化,這意味著在次次月,邊界仍會(huì)被再次推動(dòng);當(dāng)且僅當(dāng)達(dá)到博弈的均衡點(diǎn),即所有用戶都沒有在次月改變運(yùn)營商的動(dòng)機(jī)(因?yàn)槿魏螁畏矫娴母膭?dòng)都無法獲得更多收益)時(shí),邊界失去驅(qū)動(dòng)力,變動(dòng)停止。
整體博弈架構(gòu)如圖5所示,由于上層博弈中的所有參與者都直接從交易中心獲取收益,而所獲收益的總額取決于該次響應(yīng)的出清價(jià)格,出清價(jià)格又與各參與者的策略決策(也即響應(yīng)申報(bào)容量和申報(bào)價(jià)格)二者強(qiáng)相關(guān),故任一參與者在參與響應(yīng)的過程中,其策略決策都會(huì)影響其他參與者的收益,這是一種典型的多方非合作博弈[23]。又因?yàn)閷?shí)際的出清結(jié)果中只公開中標(biāo)容量和中標(biāo)單價(jià),競(jìng)爭(zhēng)對(duì)手的其他信息對(duì)于博弈參與者而言是缺失的,無法對(duì)其申報(bào)策略產(chǎn)生明確的引導(dǎo)方向,故而該博弈是一種不完全信息博弈。
圖5 園區(qū)需求響應(yīng)雙層博弈架構(gòu)Fig.5 Bi-level game structure of demand response in park
而在亞結(jié)構(gòu)視角的博弈下層,由于批發(fā)用戶本身不具備組織其他用戶參與需求響應(yīng)的能力,零售用戶若想要獲得需求響應(yīng)的收益必須與聚合商結(jié)盟;又因?yàn)榫酆仙滩⒎菆@區(qū)內(nèi)的用戶,自身無法提供任何其所申報(bào)的響應(yīng)容量,本質(zhì)上其僅是一個(gè)由眾多用戶組成的聯(lián)盟代理,以與用戶簽訂合約的方式為聯(lián)盟提供協(xié)議約束力,并對(duì)所獲得的收益進(jìn)行再分配,而后下發(fā)給其名下用戶。這意味著在博弈下層,每一負(fù)荷聚合商的名下,都形成了支付可轉(zhuǎn)移的合作博弈,也即在下層形成了多個(gè)合作博弈格局[24]。至此,一個(gè)由Bayes博弈作為上層、數(shù)個(gè)合作博弈作為下層的雙層博弈模型得以構(gòu)建。
3.1節(jié)提及推動(dòng)利益邊界的原動(dòng)力是下層博弈中用戶合約的改變,而促成該變化的原因涉及模型的層間交互過程以及不滿意度機(jī)制的設(shè)計(jì),其中用戶的不滿意度直接影響下層所形成的合作聯(lián)盟。如表1所示,數(shù)字1表示對(duì)應(yīng)行的用戶與對(duì)應(yīng)列的負(fù)荷聚合商締結(jié)了聯(lián)盟關(guān)系,否則使用數(shù)字0表示;合作聯(lián)盟一旦形成,僅在本月全部單次響應(yīng)完成后、下月需求響應(yīng)開始前允許變更。
表1 下層合約關(guān)系表Tab.1 Lower level contract relationship table
當(dāng)初始的下層合約關(guān)系表給定后,各聚合商的可響應(yīng)容量上限隨即確定。對(duì)用戶而言,自身的博弈策略表現(xiàn)為合作對(duì)象的選擇,而用戶所提供的可響應(yīng)容量會(huì)直接影響聚合商在上層博弈中的收益。當(dāng)輪Bayes博弈后所產(chǎn)生的上層收益表見表2,表2中,r為用戶的收益,R為聚合商的收益。
表2 上層收益矩陣表Tab.2 Upper level income matrix table
表1中,任意一個(gè)用戶只能與一個(gè)聚合商在本月簽訂合約,表示與該聚合商名下的全部其他用戶組成聯(lián)盟,然后開始第i次迭代過程。由于在第i次迭代過程中的上層博弈時(shí),申報(bào)的響應(yīng)容量上限受制于第i次的合約關(guān)系表,而響應(yīng)容量上限又會(huì)影響聚合商的申報(bào)策略,這進(jìn)一步影響了其收益,改變了上層收益矩陣表中的元素,這就形成了下層博弈對(duì)上層博弈的影響。而在當(dāng)次響應(yīng)過程結(jié)束后,聚合商通過對(duì)已獲得收益的再分配,來直接影響其聯(lián)盟內(nèi)每個(gè)用戶的收益;若用戶對(duì)分得的該收益不滿意,就會(huì)在合約到期時(shí)改變其聯(lián)盟對(duì)象,轉(zhuǎn)投其他聚合商尋求合作,就會(huì)導(dǎo)致下層合約關(guān)系表中的元素的變化,形成了上層博弈對(duì)下層博弈的影響。
通過這種相互影響和不斷迭代,兩層博弈通過該機(jī)制建立起了內(nèi)在關(guān)聯(lián),如圖6所示。最終在經(jīng)歷多個(gè)子博弈均衡后,可以達(dá)到穩(wěn)固的聯(lián)盟關(guān)系,在該關(guān)系中,任一參與者脫離聯(lián)盟都無法單方面獲得較之前更高的收益,這一狀態(tài)即為該博弈的一個(gè)Nash均衡點(diǎn)。而對(duì)任一聚合商而言,此時(shí)其即將采用的申報(bào)容量和申報(bào)價(jià)格,即是其全部動(dòng)作策略的最佳反應(yīng),也稱最優(yōu)決策。
圖6 層間迭代關(guān)系Fig.6 Iterative relationship between layers
由于用戶對(duì)經(jīng)負(fù)荷聚合商再分配后的、自身分得的利益未必達(dá)到預(yù)期收益值,因此可能會(huì)在次月更換其他合作聚合商以圖獲取更多收益,具體表現(xiàn)為用戶對(duì)當(dāng)前對(duì)象不滿意度的積累到達(dá)一定程度時(shí),對(duì)自身在下層合約關(guān)系表中相應(yīng)的元素作出變更,以不滿意度函數(shù)zk作為用戶做出該變更行為的概率。不滿意度函數(shù)如式(1)所示:
ak<1,bk>0
(1)
式中,ak和bk為不滿意度函數(shù)參數(shù),用來調(diào)節(jié)不滿意度的影響權(quán)重;∑r(i)為用戶i在本月內(nèi)實(shí)際獲得的全部響應(yīng)收益;∑Er(i)為用戶i在本月內(nèi)期望獲得的響應(yīng)收益(與某用戶自己響應(yīng)容量絕對(duì)值最小的5位其他用戶收益的算數(shù)平均值);ReLU(·)函數(shù)即線性整流函數(shù)作為激活函數(shù)對(duì)非正部分進(jìn)行歸零處理。例如當(dāng)用戶i在本月內(nèi)實(shí)際共獲得3萬元,ak取0.8、bk取1時(shí),隨期望獲得收益不同而引起的其不滿意度的變化如圖7所示。當(dāng)且僅當(dāng)博弈達(dá)到均衡點(diǎn)處且無外部條件改變時(shí),所有用戶都不會(huì)在次月主動(dòng)改變自己的合作策略。
圖7 期望收益變化引起的其不滿意度的變化Fig.7 Changes in dissatisfaction caused by changes in expected earnings
由于用戶的收益實(shí)質(zhì)上依賴于聚合商所獲收益后再分配的過程,因此分配機(jī)制直接決定了用戶收益和不滿意度。本文在下層模型中的支付可轉(zhuǎn)移的合作博弈中,擬設(shè)置五種利益分配方式:等分、按容量比例分配、按Shapley值分配、按核仁分配和等MDP(Modified Disruption Propensity, MDP)指標(biāo)[25]分配五種。
(1)等分:聯(lián)盟下每位參與者平等分割該聯(lián)盟的聯(lián)盟價(jià)值。
(2)按容量比例分配:參與者分得的收益與其組成聯(lián)盟的容量成正比。
(3)按Shapley值分配:通過加權(quán)因子的控制,按照參與者的邊際貢獻(xiàn)進(jìn)行分配。Shapley值具體計(jì)算如式(2)所示,式中變量詳釋見參考文獻(xiàn)[25]:
[v(s)-v(s{i})]
(2)
(4)按核仁分配:通過對(duì)核的幾何中心的求取,將表征核仁的向量映射回三維坐標(biāo)。由于核的存在性滿足了穩(wěn)定分配的最低要求,保證了所有參與者在該分配下都不會(huì)脫離聯(lián)盟,選擇通過犧牲一定的經(jīng)濟(jì)性來確保聯(lián)盟的穩(wěn)定。
(5)等MDP指標(biāo)分配:MDP指標(biāo)是一種改進(jìn)的破壞聯(lián)盟傾向指標(biāo),用來表示某參與者拒絕合作所帶給其他參與者的人均損失與自身損失之比,其核心思路是考慮讓所有參與者的這種破壞聯(lián)盟的傾向相等,來保證對(duì)分配的接受程度一致。具體公式如式(3)所示,式中變量詳釋見參考文獻(xiàn)[25]:
(3)
對(duì)于用戶收益分配機(jī)制的對(duì)比和分析將在算例部分進(jìn)一步闡明。
聚合商收益RLA采用日清月結(jié)的方式,其收益包括三個(gè)部分,分別為日前邀約需求響應(yīng)收益RRI、可中斷負(fù)荷交易響應(yīng)收益RIL以及零售分成電費(fèi)收益RRS,如式(4)所示:
RLA=RRI+RIL+RRS
(4)
其中RRI和RIL作為獎(jiǎng)勵(lì)響應(yīng)收益,分別來自于兩種不同的交易類型,而零售分成電費(fèi)的收益RRS,則是來自于未參與響應(yīng),但享受了響應(yīng)所帶來的便利的各個(gè)用戶所繳納電費(fèi)中的一部分。
如式(5)所示,日前邀約需求響應(yīng)收益,主要是響應(yīng)費(fèi)用RRIDR和考核費(fèi)用RRIA兩部分構(gòu)成,兩項(xiàng)分別主要是圍繞有效響應(yīng)容量和無效響應(yīng)容量來構(gòu)建,本節(jié)各式中部分參數(shù)含義見附表1。
附表1 《廣東省市場(chǎng)化需求響應(yīng)實(shí)施細(xì)則(試行)》中部分參數(shù)設(shè)置App.Tab.1 Partial parameter in commercialized demand response implementation rules of Guangdong province (trial)
RRI=RRIDR-RRIA
=∑QECRI+∑[QI·max(M1CRI,P3)]
(5)
總體而言根據(jù)有效響應(yīng)容量獲得正的收益,根據(jù)無效響應(yīng)容量獲得懲罰,也就是所謂的考核費(fèi)用。在約束上則要滿足日前邀約的可響應(yīng)容量能力約束,和日前邀約的非虛假申報(bào)約束如式(6)所示:
(6)
可中斷負(fù)荷交易響應(yīng)收益則是由備用費(fèi)用RSP和調(diào)用費(fèi)用RTR兩部分組成的,如式(7)所示:
(7)
由于在單次響應(yīng)過程中,如果某聚合商被當(dāng)次調(diào)用,則備用費(fèi)用部分不會(huì)獲得收益,這意味著兩部分收益不可能同時(shí)存在,故而使用調(diào)用狀態(tài)函數(shù)u,令u=1表示調(diào)用,u=0表示未調(diào)用。約束方面則要滿足可中斷負(fù)荷的可響應(yīng)容量能力約束和可中斷負(fù)荷的非虛假申報(bào)約束,如式(8)所示:
(8)
以上各式中的無效響應(yīng)容量QI和有效響應(yīng)容量QE則按照式(9)計(jì)算:
(9)
式中,QF為實(shí)際響應(yīng)容量;QBL為結(jié)算基線負(fù)荷;QR為實(shí)測(cè)負(fù)荷。在之前的實(shí)際響應(yīng)容量求取當(dāng)中,需要用到結(jié)算基線負(fù)荷,即未實(shí)施需求響應(yīng)和有序用電時(shí)響應(yīng)資源的用電負(fù)荷。進(jìn)一步可以劃分為五種制定類型,主要區(qū)別在于負(fù)荷樣本數(shù)不同,其制定標(biāo)準(zhǔn)參考文獻(xiàn)[22]中的附錄部分。
零售分成電費(fèi)由全月需求地區(qū)電力用戶分?jǐn)傎M(fèi)用與地區(qū)電力用戶月度實(shí)際用電量的比值確定:
(10)
由于度電分?jǐn)傎M(fèi)用無限增加是不現(xiàn)實(shí)的,所以在此基礎(chǔ)之上設(shè)置度電分?jǐn)偵舷轈T。在用戶分?jǐn)傎M(fèi)用RZU>CT時(shí),當(dāng)月不再組織日前邀約和可中斷負(fù)荷交易,并且要按照折算系數(shù)K去等比例地調(diào)整響應(yīng)收益。K具體值如式(11)所示:
(11)
對(duì)于聚合商之間的非合作關(guān)系,該Bayes博弈模型可以使用五元組Γ=〈N,S,Θ,p,u〉描述為:
i∈N+
(12)
在均衡解的存在性證明方面,Nash在Kakutani定理和Berge定理的基礎(chǔ)之上給出了混合策略Nash均衡存在性定理,即:對(duì)策略式博弈G={N;S1,…,Sn,u1,…,un},若策略集合Si為Euclid空間的非空緊子集,支付函數(shù)ui關(guān)于策略組合s連續(xù),則該博弈存在混合策略Nash均衡[25]。對(duì)于本文的博弈模型,由于策略集合來源于申報(bào)價(jià)格和申報(bào)容量兩種不相干動(dòng)作組成的二維策略空間,且二者在各自維度上均是連續(xù)的,故而其組成的二維策略空間也是稠密且連續(xù)的,所以策略集合顯然為Euclid空間的非空緊子集;對(duì)于式(4)的收益函數(shù),由于其三部分RRI、RIL、RRS都是連續(xù)的,故而其和也是連續(xù)的,滿足該定理的全部條件,從而該博弈均衡解的存在性得證。
在均衡解求取方面,本文提出一種改進(jìn)的虛擬遺憾最小化[26,27]算法,在動(dòng)作空間內(nèi)隨機(jī)一個(gè)出來作為行動(dòng)策略,依靠出清信息與實(shí)際收益來確定虛擬遺憾值,通過虛擬遺憾的梯度最速下降方向來對(duì)本輪內(nèi)的、先前生成的策略來進(jìn)行獎(jiǎng)勵(lì)與懲罰,獎(jiǎng)勵(lì)與懲罰的具體權(quán)重按照生成策略與出清信息的歐式空間距離來確定。當(dāng)最小化平均整體遺憾值趨于0時(shí),其所得的平均策略通過2ε-均衡定理認(rèn)為近似收斂到納什均衡策略[28]。該算法流程如圖8所示。
圖8 改進(jìn)的虛擬遺憾最小化算法流程圖Fig.8 Flow chart of improved counterfactual regret minimization
本文所提算法通過對(duì)策略使用遺憾值進(jìn)行獎(jiǎng)勵(lì)或懲罰來不斷自我學(xué)習(xí),從而引導(dǎo)策略的生成傾向以較快的速度逼近平均整體遺憾更小的方向,并保證模型收斂性與求解效率。
本文算例采取2020和2021年廣東省某工業(yè)園區(qū)邀約響應(yīng)的實(shí)際數(shù)據(jù)。在收益模型部分,對(duì)第3節(jié)公式中的全部參數(shù)設(shè)置見附表1,其中,共統(tǒng)計(jì)了28個(gè)聚合商在2020和2021兩個(gè)年度在本園區(qū)內(nèi)共計(jì)1 585次需求響應(yīng)中隨機(jī)抽取5名聚合商響應(yīng)的實(shí)際收益平均值,并在表3中給出了此5名聚合商若采用本文給出的策略所能取得的預(yù)期收益,而后將二者進(jìn)行了對(duì)比。此外,全部28個(gè)聚合商的平均每次響應(yīng)收益增長和平均每次響應(yīng)收益增幅如圖9所示。通過分析可以認(rèn)為總體而言,多數(shù)聚合商如果采用了本文提出的策略,其平均收益對(duì)比采用策略前均會(huì)有所提升,僅有少數(shù)聚合商的收益一定程度上下降。
表3 部分聚合商實(shí)際收益與采用本文策略后的預(yù)期收益及對(duì)比Tab.3 Actual income of some aggregators and expected income after adopting strategies in this paper
圖9 全部聚合商的平均每次響應(yīng)收益增長和平均每次響應(yīng)收益增幅Fig.9 Average revenue per response growth and average revenue per response growth across all aggregators
在策略曲線的變化趨勢(shì)方面,以聚合商1為例,其申報(bào)策略曲線如圖10所示。每個(gè)需求場(chǎng)景下,都包含其之前全部場(chǎng)景的歷史數(shù)據(jù),由圖10可知,該聚合商的申報(bào)價(jià)格策略在第300次邀約響應(yīng)場(chǎng)景附近開始趨于平穩(wěn),在經(jīng)歷了全部1 585次邀約響應(yīng)的場(chǎng)景后最終在800元/(MW·h)附近小幅度波動(dòng);其申報(bào)容量策略在第380次邀約響應(yīng)的場(chǎng)景附近開始趨于平穩(wěn),在經(jīng)歷了全部1 585次邀約響應(yīng)的場(chǎng)景后,最終在3.5 MW·h附近波動(dòng)但幅度較大,這是由于前文提出的不滿意度機(jī)制作為一種變更合作關(guān)系的概率,會(huì)在一定程度上導(dǎo)致申報(bào)策略的波動(dòng)。根據(jù)多次學(xué)習(xí)結(jié)果的統(tǒng)計(jì),伴隨著訓(xùn)練集數(shù)量的提升,其策略波動(dòng)性會(huì)在一定程度上漸趨于平緩。
圖10 1 585個(gè)需求響應(yīng)場(chǎng)景下聚合商1申報(bào)策略曲線Fig.10 Curve of declaration strategy of aggregator 1 under 1 585 demand response scenarios
對(duì)于下層博弈的利益分配機(jī)制,為便于對(duì)比分析,現(xiàn)進(jìn)行4處理想化處理:
(1)為排除用戶在下層博弈中不完全理性所帶來的對(duì)結(jié)果的不確定性影響,假設(shè)用戶完全理性,即式(1)中的概率性不滿意度zk使用式(13)中的確定性不滿意度zk′來進(jìn)行簡(jiǎn)化替代,概率性不滿意度zk在此僅作為評(píng)價(jià)指標(biāo):
(13)
(2)用戶i每月提供的響應(yīng)容量上限恒定不變,即不隨月份發(fā)生變化。
(3)聚合商用以分配給用戶的總支付,占其全部收益的百分比固定不變,本文按照75%取值。
(4)不滿意度冷卻:用戶不會(huì)在離開某聚合商名下后的相鄰兩個(gè)月內(nèi)再回到該聚合商名下。
在此前提下,為方便對(duì)利益分配機(jī)制的分析,此處設(shè)置一新算例,選用表3中的五名聚合商作為園區(qū)內(nèi)全部的可選聚合商,將每個(gè)聚合商都分配一種不同的收益分配機(jī)制,即在此場(chǎng)景下,園區(qū)內(nèi)全部137名用戶同一時(shí)間僅能選擇這五名聚合商中的某一個(gè)進(jìn)行合作。為了方便比對(duì),這五類分配機(jī)制下的初始合作用戶數(shù)量應(yīng)盡可能保持一致,具體見表4。
表4 所選聚合商及其對(duì)應(yīng)的收益分配機(jī)制Tab.4 Selected aggregators and their corresponding income distribution mechanism
圖11和圖12分別展示了五種不同分配方式下用戶數(shù)量變化趨勢(shì)和用戶平均不滿意度變化趨勢(shì)?,F(xiàn)對(duì)5種收益分配機(jī)制分析如下:
圖11 不同分配方式下聚合商名下用戶數(shù)量變化趨勢(shì)Fig.11 Change trend of number of users under aggregator name with different allocation methods
圖12 不同分配方式下聚合商名下用戶平均不滿意度變化趨勢(shì)Fig.12 Change trend of average user dissatisfaction of aggregators with different distribution methods
等分:在該園區(qū)用戶數(shù)量的規(guī)模下,由于初始合作的用戶體量差異客觀存在,而等分的利益分配方式總會(huì)妨害部分用戶利益,使其不滿意度維持較高狀態(tài),并且隨時(shí)間的推移該變化呈升高趨勢(shì),引起客戶持續(xù)流失直至用戶數(shù)量下降至足夠低的水平,此時(shí)采用該分配方式的聚合商被迫以極低的響應(yīng)容量上限參與需求響應(yīng),其收益也持續(xù)走低。在此情形下,一旦用戶所能提供的響應(yīng)容量上限小于上層博弈中聚合商參與需求響應(yīng)的響應(yīng)下限時(shí),該聚合商便不再滿足需求響應(yīng)的基本條件,失去次月參與上層博弈的資格,進(jìn)而不再能獲得任何收益,最終導(dǎo)致采用該分配方式的聚合商退市。
按容量比例分配:相比于等分的分配方式,按容量比例分配會(huì)在一定程度上降低用戶的總體不滿意度,但算例中受制于用戶完全理性的理想化條件,用戶數(shù)量流失速度并未有明顯改善??傮w而言可以認(rèn)為在足夠長的時(shí)間尺度內(nèi),機(jī)械地按照容量比例的分配方式仍會(huì)流失全部用戶,直至聚合商退市。從博弈論中核仁這一概念的視角下來看,意味著前兩種分配方式下的分配策略必然不在核中,即策略元素不是核范圍內(nèi)的元素。
按Shapley值分配:按Shapley值分配的方式實(shí)際上是按照參與者的邊際貢獻(xiàn)來進(jìn)行分配的,作為一種平均主義思想的分配方式,對(duì)于用戶而言相對(duì)較為公平。圖12中該分配方式下的平均不滿意度水平在全部五種方式中處于相對(duì)較低水平??傮w來看其在用戶組成上雖未必穩(wěn)定,但能夠提供的響應(yīng)容量上限和與之強(qiáng)相關(guān)的收益必然相對(duì)平穩(wěn),可以認(rèn)為是一種較為公平的分配方式。
按核仁分配:如圖12所示,按核仁分配最為明顯的特點(diǎn)是用戶的平均不滿意度能夠維持在相對(duì)較低的水平,并且有緩慢下降的趨勢(shì)。然而雖然其用戶數(shù)量的增長水平較高,但仍以規(guī)模較小的小容量用戶為主,其總提供容量上限的趨勢(shì)仍不明朗。這意味著按照核仁分配收益的方式,雖在物理意義上較為明確(最小化最大剩余思想),也相對(duì)較為符合多數(shù)用戶的決策理念,但隨著其他分配方式下壟斷聯(lián)盟的形成,其穩(wěn)定度在長時(shí)間尺度下也必然會(huì)下降,依然將存在退市風(fēng)險(xiǎn)。然而在理論上,如果在長時(shí)間內(nèi)其他聚合商未能形成體量足夠的聯(lián)盟,該分配方式仍可認(rèn)為表現(xiàn)優(yōu)異,并在適宜條件下可以保持規(guī)模的緩步增長。
按等MDP指標(biāo)分配:在該分配方式下,用戶平均不滿意度水平較高。由于該方式著眼于退出聯(lián)盟給他人帶來的損失與給自身帶來損失的比值,意味著對(duì)于體量較大的用戶通常能獲得更低的不滿意度,也即自身持有較高容量的用戶更傾向于選擇在該規(guī)則下與聚合商達(dá)成合作。實(shí)際上在本算例的限制條件下,該分配方式的優(yōu)越性較難體現(xiàn),但若用戶池中不同用戶持有容量的方差較大,且聚合商在上層博弈中的響應(yīng)容量上限不會(huì)被限制在較低的水平時(shí),則若采用該分配方式將會(huì)逐漸自發(fā)擴(kuò)大其聯(lián)盟的規(guī)模,并不斷擠壓其他聚合商的生存空間,如圖13所示,在經(jīng)歷足夠長的時(shí)間后將可能會(huì)形成壟斷地位。
圖13 取消響應(yīng)容量上限前后使用等MDP指標(biāo)分配對(duì)用戶數(shù)量的影響Fig.13 Impact on number of users of MDP indicator allocation before and after canceling response capacity ceiling
綜上所述,在園區(qū)內(nèi)的聚合商僅有上述5類收益分配方式且滿足前述4種理想化條件的場(chǎng)景下,等分和按容量比例分配的收益分配方式均會(huì)以不同的速度流失用戶,造成聯(lián)盟崩解導(dǎo)致對(duì)應(yīng)的上位聚合商被迫退市,而其他3種利益分配方式能夠在稍長的時(shí)間里維持相對(duì)穩(wěn)定的運(yùn)營狀況,且各自有其特點(diǎn);其中,按核仁分配在用戶不滿意度方面表現(xiàn)較好,按等MDP指標(biāo)分配則可以在滿足一定條件(較大的用戶容量方差、申報(bào)響應(yīng)容量上限足夠高)時(shí)發(fā)揮優(yōu)勢(shì)形成壟斷地位,而按Shapley值分配能在用戶平均不滿意度水平維持在較低水平的同時(shí)一定程度上緩和用戶流失,是一種較為平衡的可選分配方式。
本文從不同利益視角下出發(fā),通過提出園區(qū)內(nèi)全部需求響應(yīng)參與者參與至需求響應(yīng)過程中的利益關(guān)系并構(gòu)建博弈架構(gòu),算例驗(yàn)證了所提方法的可行性與有效性,并得到以下結(jié)論:
(1)通過理論分析與推導(dǎo),證明所提出的Bayes博弈模型存在均衡解,并應(yīng)用一種改進(jìn)的虛擬遺憾最小化方法求解,結(jié)果表明該算法具有較好的收斂效果,可以在部分信息不公開的情況下對(duì)博弈策略的生成進(jìn)行引導(dǎo)。
(2)算例仿真結(jié)果說明本文通過引入博弈架構(gòu)描述聚合商與用戶在參與需求響應(yīng)過程中的關(guān)系,能夠提高聚合商的收益,通過收益維持已參與需求響應(yīng)的用戶繼續(xù)參與需求響應(yīng),吸引未參與需求響應(yīng)的用戶參與到需求響應(yīng)中來,改善用戶用電模式,達(dá)到削峰填谷的作用。
(3)從聚合商視角下審視收益分配制度,若采用等分和容量比例方式均會(huì)在較短時(shí)間內(nèi)發(fā)生退市,而隨著用戶容量方差、申報(bào)響應(yīng)容量上限等外部條件的不同,按Shapley值分配、按核仁分配和等MDP指標(biāo)分配三種分配方式各有優(yōu)劣,仍需結(jié)合具體環(huán)境下的具體條件進(jìn)一步計(jì)算才能保證所選擇的收益分配方式可以持續(xù)運(yùn)營。
附錄