鄭海林,朱振山,溫步瀛,翁智敏
(福州大學(xué)電氣工程與自動(dòng)化學(xué)院,福建 福州 350108)
隨著“碳達(dá)峰”與“碳中和”目標(biāo)的提出,要實(shí)現(xiàn)中國(guó)能源結(jié)構(gòu)的轉(zhuǎn)變,可再生能源機(jī)組的裝機(jī)必將逐步增長(zhǎng),未來(lái)風(fēng)電也將大量接入電網(wǎng)。但風(fēng)力發(fā)電的波動(dòng)性、間歇性以及隨機(jī)性為其大規(guī)模并網(wǎng)帶來(lái)了極大的挑戰(zhàn)[1-2]。受政策補(bǔ)貼的影響,電網(wǎng)公司優(yōu)先保證風(fēng)電上網(wǎng)[3-4],但隨著2016年來(lái)中國(guó)陸上風(fēng)電4類風(fēng)區(qū)上網(wǎng)指導(dǎo)價(jià)連續(xù)4次下調(diào),風(fēng)電的政策補(bǔ)貼紅利逐步減少,參與競(jìng)爭(zhēng)性電力市場(chǎng)成為未來(lái)風(fēng)電的發(fā)展趨勢(shì)。因此,考慮多方投資主體博弈下的風(fēng)電調(diào)度策略成為當(dāng)今重點(diǎn)關(guān)注的研究方向之一。
近年來(lái),為了平抑風(fēng)電出力的波動(dòng)性與不確定性,中國(guó)各省份陸續(xù)出臺(tái)了一系列強(qiáng)制風(fēng)電企業(yè)配置儲(chǔ)能的政策,但儲(chǔ)能高昂的配置成本、運(yùn)行成本以及輔助服務(wù)市場(chǎng)尚未完全建成一定程度上影響了風(fēng)電投資主體配置儲(chǔ)能的積極性。此外,電動(dòng)汽車(electric vehicle,EV)因其環(huán)保、經(jīng)濟(jì)等優(yōu)勢(shì)而被廣泛應(yīng)用[5],極大地推動(dòng)了電動(dòng)汽車充電站和充電樁的建設(shè)[6]。相比于短時(shí)間內(nèi)為風(fēng)電場(chǎng)配置大量成本高昂的儲(chǔ)能,利用已有的電動(dòng)汽車充電站資源參與風(fēng)電場(chǎng)聯(lián)合調(diào)度的思路更具有可行性[7]。
目前關(guān)于風(fēng)電優(yōu)化調(diào)度的研究主要有2類:一類是從風(fēng)電運(yùn)行效益的角度設(shè)定目標(biāo)函數(shù),建立優(yōu)化調(diào)度模型,從而優(yōu)化風(fēng)電運(yùn)行,如:可再生能源棄電量最小化[8-9]、風(fēng)電波動(dòng)與預(yù)測(cè)偏差的最小化[10-11]、可再生能源的環(huán)境效益[12]以及政策補(bǔ)貼[13]等;另一類將風(fēng)電視作電網(wǎng)的一部分,從電網(wǎng)運(yùn)行效益的角度設(shè)定運(yùn)行目標(biāo),從而優(yōu)化風(fēng)電調(diào)度策略,如:電網(wǎng)運(yùn)行成本最小化[14]與用戶的用電成本最小化[15]、電網(wǎng)的環(huán)境效益[16]以及電網(wǎng)的電壓穩(wěn)定性[17]等。但由于電網(wǎng)中的發(fā)電設(shè)施是由不同的投資主體建設(shè)的,將電網(wǎng)視為整體進(jìn)行調(diào)度,未能充分考慮各投資主體的效益,不利于調(diào)動(dòng)各方的積極性。從風(fēng)電角度優(yōu)化風(fēng)電調(diào)度策略的文獻(xiàn)僅考慮了風(fēng)電場(chǎng)投資方效益的最大化,忽視了其他投資主體的效益,無(wú)法反映風(fēng)電進(jìn)入電力市場(chǎng)后的真實(shí)效益。從長(zhǎng)遠(yuǎn)的角度來(lái)看,不利于風(fēng)電場(chǎng)進(jìn)入競(jìng)爭(zhēng)性電力市場(chǎng)后的可持續(xù)發(fā)展。
考慮到風(fēng)電機(jī)組出力的不確定性以及電網(wǎng)內(nèi)各方投資主體決策的相互影響,無(wú)法通過(guò)簡(jiǎn)單的優(yōu)化方法來(lái)獲得最佳的運(yùn)行策略?,F(xiàn)有文獻(xiàn)通過(guò)Nash均衡博弈與強(qiáng)化學(xué)習(xí)的結(jié)合,采用多智能體強(qiáng)化學(xué)習(xí)來(lái)求解這一復(fù)雜問題。文獻(xiàn)[18-19]引入多智能體強(qiáng)化學(xué)習(xí)方法來(lái)求解多智能體博弈問題,從而優(yōu)化電網(wǎng)內(nèi)多方主體的調(diào)度策略;文獻(xiàn)[20]在這一基礎(chǔ)上,通過(guò)強(qiáng)化學(xué)習(xí)Q矩陣的遷移從而提高算法的在線學(xué)習(xí)速度;文獻(xiàn)[21]引入資格跡更新技術(shù)提高多智能體博弈和遷移學(xué)習(xí)的收斂速度。以上文獻(xiàn)所采用的多智能體強(qiáng)化學(xué)習(xí)算法中,智能體的學(xué)習(xí)往往局限在自身的學(xué)習(xí)經(jīng)驗(yàn),對(duì)外界環(huán)境不敏感,使得收斂速度較慢,會(huì)產(chǎn)生較大的計(jì)算成本。
因此,針對(duì)現(xiàn)有研究的不足,本文提出一種多主體博弈環(huán)境下基于改進(jìn)NashQ算法的風(fēng)電調(diào)度策略,綜合考慮風(fēng)電場(chǎng)、火電廠、儲(chǔ)能電站以及電動(dòng)汽車充電站各方的效益,兼顧風(fēng)電場(chǎng)的預(yù)測(cè)偏差考核、綠證收益與售電效益,構(gòu)建多方博弈下風(fēng)電場(chǎng)調(diào)度、風(fēng)—儲(chǔ)聯(lián)合調(diào)度與風(fēng)—車聯(lián)合調(diào)度的優(yōu)化模型。采用多智能體強(qiáng)化學(xué)習(xí)算法進(jìn)行求解,并引入JS(Jensen-Shannon)散度對(duì)比Nash均衡分布與歷史經(jīng)驗(yàn)分布來(lái)優(yōu)化NashQ算法中各智能體學(xué)習(xí)率,提升算法的求解效率,用以求解多主體序貫決策問題。此外,通過(guò)對(duì)算法中Q矩陣的訓(xùn)練,提升算法在線求解的速度,使得算法可以靈活適應(yīng)不同博弈環(huán)境。算例仿真結(jié)果驗(yàn)證本文算法的求解性能以及風(fēng)電場(chǎng)與電動(dòng)汽車充電站聯(lián)合調(diào)度策略的優(yōu)越性。
電網(wǎng)系統(tǒng)結(jié)構(gòu)主要由火電廠、風(fēng)電場(chǎng)、儲(chǔ)能電站以及電動(dòng)汽車充電站和其他用電負(fù)荷等組成,本文所討論的電網(wǎng)系統(tǒng)為輸電網(wǎng)層級(jí),其結(jié)構(gòu)如圖1所示。
圖1 輸電網(wǎng)系統(tǒng)結(jié)構(gòu)Figure 1 Schematic diagram of transmission network
1)風(fēng)電場(chǎng)主體。
為了保證電網(wǎng)內(nèi)功率動(dòng)態(tài)實(shí)時(shí)平衡,要求可再生能源電站的實(shí)際出力與預(yù)測(cè)出力曲線應(yīng)基本一致,偏差的發(fā)電量或電量不足需要繳納較高的罰金。風(fēng)電場(chǎng)主體獨(dú)立運(yùn)行時(shí)目標(biāo)函數(shù)為
(1)
Sw,t=(pw+pgr)·(Pw,t-Paba,t)·Δt
(2)
Cw,t=((Pw,t-Paba,t)·pwo+|Pw,t-
Paba,t-Ppre,t|pwη)·Δt
(3)
式(1)~(3)中Sw,t為風(fēng)電場(chǎng)的售電效益;;Cw,t為風(fēng)電場(chǎng)的成本;Cws為風(fēng)電場(chǎng)分?jǐn)偟臑轱L(fēng)電場(chǎng)分?jǐn)偟妮o助服務(wù)費(fèi)用;Pw,t為風(fēng)電場(chǎng)t時(shí)刻氣象條件下最大出力;Paba,t為t時(shí)刻風(fēng)電場(chǎng)棄風(fēng)功率;(Pw,t-Paba,t)·pwo為風(fēng)電場(chǎng)的運(yùn)行成本;|Pw,t-Paba,t-Ppre,t|pwη為風(fēng)電場(chǎng)實(shí)際出力與計(jì)劃出力偏差的懲罰,風(fēng)電場(chǎng)的實(shí)際出力等于在該時(shí)刻風(fēng)速下的風(fēng)電場(chǎng)最大出力減去風(fēng)電場(chǎng)棄風(fēng)功率;pwo為風(fēng)電運(yùn)維成本;Ppre,t為t時(shí)刻的預(yù)測(cè)風(fēng)電出力;pw為風(fēng)電上網(wǎng)的價(jià)格;pgr為風(fēng)電的綠證價(jià)格;η為偏差考核比例;風(fēng)電的棄風(fēng)比例應(yīng)不超過(guò)μ,限制條件為Paba,t≤Pw,t·μ。
2)電動(dòng)汽車充電站主體。
當(dāng)電網(wǎng)內(nèi)發(fā)電機(jī)組出力不足以滿足負(fù)荷需求時(shí),充電站通過(guò)補(bǔ)助EV用戶,削減充電需求,滿足電網(wǎng)供需平衡。充電站的目標(biāo)函數(shù)為
(pe1-Δpt)-pevo)·Δt
(4)
pevo=plc+psc
(5)
3)火電廠主體。
火電廠的收益一部分為直接售電的效益,另一部分則是火電機(jī)組響應(yīng)電網(wǎng)內(nèi)功率需求調(diào)整自身出力提供AGC服務(wù)的收益,目標(biāo)函數(shù)為
(6)
式中SMT,t為火電機(jī)組的運(yùn)行收益;CMT,t為火電機(jī)組的運(yùn)行成本;CMTs為火電機(jī)組分?jǐn)偟妮o助服務(wù)費(fèi)用。
成本函數(shù)為
(7)
式中 第1項(xiàng)為機(jī)組的發(fā)電成本;第2項(xiàng)為機(jī)組的爬坡成本[21];第3項(xiàng)為機(jī)組的啟停成;a、b、c為微型火電系統(tǒng)發(fā)電成本系數(shù);PMTi,t為微型火電系統(tǒng)第i臺(tái)機(jī)組t時(shí)刻發(fā)電量;i=1,2,…,N為微型火電機(jī)組數(shù);ΔPMTui,t、ΔPMTdi,t為微型火電機(jī)組上、下爬坡成本;pup、pdown為微型火電機(jī)組上、下爬坡量;hi,t為第i臺(tái)機(jī)組t時(shí)刻的啟停狀態(tài),1為啟機(jī),0為停機(jī);pon、poff為啟停機(jī)成本。
火電廠的收益為
pAGC·ΔPAGC,t
(8)
式中 第1項(xiàng)為火電機(jī)組的售電效益;第2項(xiàng)為火電機(jī)組響應(yīng)AGC服務(wù)補(bǔ)償;pMT為火電機(jī)組上網(wǎng)電價(jià);pAGC為AGC輔助服務(wù)單位電量補(bǔ)貼,當(dāng)火電的出力調(diào)整與電網(wǎng)中功率偏差相反時(shí),ΔPAGC,t取為正,即火電機(jī)組獲取AGC響應(yīng)補(bǔ)償;反之則取為負(fù),作為調(diào)節(jié)偏差的懲罰。
火電機(jī)組運(yùn)行需要滿足機(jī)組的爬坡約束以及機(jī)組最大、最小功率的約束,即
(9)
式中PMTi,min、PMTi,max分別為微型火電機(jī)組功率最小、最大值;ΔPMTi,max為機(jī)組爬坡功率上限。
4)儲(chǔ)能電站主體。
儲(chǔ)能電站的目標(biāo)函數(shù)為
(10)
儲(chǔ)能電站的收益為
(11)
儲(chǔ)能電站的成本為
(12)
式中 第1項(xiàng)儲(chǔ)能充放電損耗成本;第2項(xiàng)為儲(chǔ)能全壽命周期成本;ηcha、ηdis為電池儲(chǔ)能的充放電效率;d為貼現(xiàn)率;n為電池使用年限;Ces為電池本體成本;Lmax為電池年平均最大使用次數(shù)。
電池儲(chǔ)能系統(tǒng)運(yùn)行需要滿足充放電最大功率、荷電狀態(tài)約束,約束條件為
(13)
5)輔助服務(wù)費(fèi)用分?jǐn)偰P汀?/p>
電網(wǎng)內(nèi)的輔助服務(wù)費(fèi)用由發(fā)電企業(yè)按發(fā)電量進(jìn)行分?jǐn)俒23],即
Δt+Sev+pet|Pet,t|)
(14)
式中 第1項(xiàng)為火電機(jī)組AGC服務(wù)補(bǔ)償,第2項(xiàng)為儲(chǔ)能調(diào)頻服務(wù)補(bǔ)償,第3項(xiàng)為EV用戶調(diào)節(jié)需求響應(yīng)補(bǔ)償,第4項(xiàng)為聯(lián)絡(luò)線功率傳輸費(fèi)用;Pet,t為t時(shí)刻電網(wǎng)內(nèi)功率不平衡引起的聯(lián)絡(luò)線上功率響應(yīng),本文設(shè)定聯(lián)絡(luò)線的傳輸容量約束為2 MW;pet為t單位功率傳輸成本。
常規(guī)火電系統(tǒng)承擔(dān)費(fèi)用CMTs與風(fēng)電場(chǎng)承擔(dān)費(fèi)用Cws為
(15)
式中W為發(fā)電企業(yè)的總發(fā)電量。
1)多主體博弈模式。各主體基于某一時(shí)刻下各方的狀態(tài),決策下一時(shí)刻動(dòng)作,且各主體的策略受到其他主體影響,為混合策略博弈。
模式1 風(fēng)電場(chǎng)與電動(dòng)汽車充電站聯(lián)合參與多主體博弈,參與博弈的主體有火電站、儲(chǔ)能電站以及風(fēng)—車聯(lián)合運(yùn)行主體。風(fēng)—車聯(lián)合運(yùn)行的優(yōu)勢(shì)在于當(dāng)風(fēng)電出力小于預(yù)測(cè)出力時(shí),可以通過(guò)減少EV充電需求來(lái)減少風(fēng)電的預(yù)測(cè)偏差懲罰。
模式2 風(fēng)電場(chǎng)配置對(duì)應(yīng)的儲(chǔ)能聯(lián)合參與多主體博弈,參與博弈的主體有火電站、儲(chǔ)能電站以及風(fēng)—儲(chǔ)聯(lián)合運(yùn)行主體。當(dāng)風(fēng)電出力小于預(yù)測(cè)出力時(shí),電池儲(chǔ)能對(duì)外放電;反之則對(duì)儲(chǔ)能電池充電。
2)風(fēng)—車聯(lián)合運(yùn)行模型。風(fēng)—車聯(lián)合運(yùn)行效益為
(16)
式中 第1項(xiàng)為EV減少充電需求后風(fēng)電場(chǎng)等效出力下的運(yùn)行效益,第2項(xiàng)為電動(dòng)汽車充電站減少風(fēng)電場(chǎng)預(yù)測(cè)偏差后的調(diào)節(jié)補(bǔ)償;Pw′,t為風(fēng)—車聯(lián)合運(yùn)行下風(fēng)電場(chǎng)實(shí)際出力,Pw′,t=Pw,t+Pev1,t,其中Pev1,t為EV減少充電需求用于減少風(fēng)電出力偏差部分;Pev′為風(fēng)—車聯(lián)合運(yùn)行下充電站的實(shí)際調(diào)節(jié)電量,Pev′,t=PEV·N·Pev,t-Pev1,t。參與博弈的主體效用函數(shù)包括式(6)、(10)、(16)。
3)風(fēng)—儲(chǔ)聯(lián)合運(yùn)行模型。風(fēng)—儲(chǔ)聯(lián)合運(yùn)行效益為
(17)
式中 第1項(xiàng)為儲(chǔ)能參與減少風(fēng)電預(yù)測(cè)偏差后風(fēng)電場(chǎng)等效出力下的運(yùn)行效益,第2項(xiàng)為電池儲(chǔ)能減少風(fēng)電場(chǎng)預(yù)測(cè)偏差后的峰谷套利與調(diào)頻補(bǔ)償帶來(lái)的收益,第3項(xiàng)為電池儲(chǔ)能充放電產(chǎn)生的成本;Pw″,t為風(fēng)—儲(chǔ)聯(lián)合運(yùn)行下風(fēng)電場(chǎng)實(shí)際出力,Pw″,t=Pw,t+Pcha1,tηcha+Pdis1,t/ηdis,其中Pcha1,t、Pdis1,t為電池儲(chǔ)能用于滿足風(fēng)電出力偏差部分;Pes′,t={Pcha′,t;Pdis′,t}={Pcha,t-Pcha1,t;Pdis,t-Pdis1,t},{Pcha′,t;Pdis′,t}為風(fēng)—儲(chǔ)聯(lián)合運(yùn)行下儲(chǔ)能電池的實(shí)際充放電電量。參與博弈的主體效用函數(shù)包括式(6)、(10)、(17)。
強(qiáng)化學(xué)習(xí)是學(xué)習(xí)狀態(tài)與行為之間的映射關(guān)系,通過(guò)感知環(huán)境狀態(tài)以及獎(jiǎng)勵(lì)學(xué)習(xí)和決策的過(guò)程。Q學(xué)習(xí)是一種普遍應(yīng)用的強(qiáng)化學(xué)習(xí)算法,其遞歸方程為
Q(s,a)t+1=(1-α)Q(s,a)t+
(18)
當(dāng)博弈中其他智能體的策略均給定時(shí),智能體不再改變自身策略,即為Nash均衡,有
(19)
引入多智能體博弈環(huán)境,Q值的值函數(shù)及迭代公式為
Qi(s,a1,a2…,aN)t+1=(1-α)·
Qi(s,a1,a2…,an)t+α·
(20)
學(xué)習(xí)率會(huì)影響智能體的學(xué)習(xí)速度,當(dāng)學(xué)習(xí)率取值較大時(shí),智能體對(duì)于新嘗試結(jié)果的占比越高,對(duì)于歷史經(jīng)驗(yàn)遺忘率也就越高;當(dāng)學(xué)習(xí)率取值較小時(shí),智能體接受新嘗試結(jié)果比例較小,使得學(xué)習(xí)效率下降。而大多數(shù)研究強(qiáng)化學(xué)習(xí)的文獻(xiàn)往往將學(xué)習(xí)率取為定值,把較優(yōu)的學(xué)習(xí)經(jīng)驗(yàn)與較差的學(xué)習(xí)經(jīng)驗(yàn)混合,大大降低了學(xué)習(xí)速度,影響智能體的收斂速度。
KL散度(kullback-leibler divergence)又稱為相對(duì)熵,是2個(gè)概率分布P和Q差別的非對(duì)稱性的度量,用于衡量2種分布的相似度。由于KL散度是不對(duì)稱的且不滿足三角不等式,故
DKL(P,Q)≠DKL(Q,P)
(21)
DKL(P,Q)>DKL(Q,S)+DKL(S,Q)
(22)
JS散度是KL散度基礎(chǔ)上的變體,可以有效地解決KL散度存在的問題。當(dāng)2個(gè)概率分布較遠(yuǎn)時(shí),KL散度沒有意義,而JS散度仍可以衡量2個(gè)概率分布的相似度。
引入JS散度優(yōu)化各智能的學(xué)習(xí)率后的NashQ算法流程如圖2所示。引入JS散度優(yōu)化各智能體的學(xué)習(xí)率αi,t,即
圖2 改進(jìn)NashQ算法流程Figure 2 The process of improved NashQ algorithm
(23)
(24)
(25)
改進(jìn)NashQ算法中采用ε-greedy貪婪算法對(duì)動(dòng)作空間進(jìn)行探索,動(dòng)作的探索為
(26)
式中ε0∈[0,1]為貪婪搜索算法的探索率,取較小正數(shù);ai,rand為智能體i隨機(jī)選擇的動(dòng)作。
判斷多智能體強(qiáng)化學(xué)習(xí)過(guò)程中各個(gè)智能體的收益是否趨于收斂,收斂判據(jù)為
(27)
其中,σ為較小正數(shù),本文取為0.015;Qi,t為第i個(gè)智能體第t次循環(huán)得到的Q值表。若各個(gè)智能體Q矩陣均收斂則結(jié)束學(xué)習(xí),輸出最優(yōu)策略;反之則繼續(xù)循環(huán)。
基于改進(jìn)NashQ的風(fēng)電調(diào)度策略的流程如圖3所示。
圖3 風(fēng)電調(diào)度策略的流程Figure 3 The process of wind power dispatching strategy
本文以某個(gè)風(fēng)電場(chǎng)所在地區(qū)的電網(wǎng)為例,由250 MW風(fēng)電場(chǎng)、8 MW·h儲(chǔ)能電站、2臺(tái)火電機(jī)組的火電廠以及1個(gè)電動(dòng)汽車充電站組成,輔助服務(wù)補(bǔ)償價(jià)格、電網(wǎng)分時(shí)電價(jià)以及各設(shè)備參數(shù)分別如表1~3所示;算法參數(shù)設(shè)置如表4所示;算法典型日風(fēng)電、預(yù)測(cè)以及用戶負(fù)荷曲線如圖4所示。
表1 輔助服務(wù)補(bǔ)償價(jià)格Table 1 Auxiliary service compensation price
表2 電網(wǎng)分時(shí)電價(jià)Table 2 Time-of-use tariff 元/(kW·h)
表3 設(shè)備參數(shù)Table 3 Equipment parameters
表4 算法參數(shù)Table 4 Algorithm parameters
圖4 典型日風(fēng)電、預(yù)測(cè)以及負(fù)荷曲線Figure 4 Typical daily curve of wind power,forecast and load
將可再生能源功能狀態(tài)按照可再生能源出力/電網(wǎng)內(nèi)負(fù)荷需求之比、風(fēng)電最大出力上限以及預(yù)測(cè)出力偏差量對(duì)其定義,劃分為1天96個(gè)狀態(tài),火電機(jī)組包含啟機(jī)與停機(jī)2種狀態(tài)、儲(chǔ)能包含充電/閑置/放電3種狀態(tài)?;痣姀S、風(fēng)電場(chǎng)、儲(chǔ)能電站以及充電站的動(dòng)作離散為9、6、6、11個(gè)離散空間。
NashQ算法收斂的具體證明過(guò)程可參考文獻(xiàn)[24]。為了保證NashQ算法能夠找到Nash均衡解,則對(duì)于任一時(shí)間與狀態(tài)下,各個(gè)智能體均能尋找到一個(gè)全局最優(yōu)點(diǎn)或者鞍點(diǎn),可用于更新Q矩陣。由于在電網(wǎng)中風(fēng)電出力具有不確定性,無(wú)法保證每個(gè)時(shí)刻均可以找到全局最優(yōu)點(diǎn),在部分時(shí)刻僅存在鞍點(diǎn),但鞍點(diǎn)的數(shù)目往往不止一個(gè)。
1)傳統(tǒng)的NashQ算法在存在鞍點(diǎn)的算例中容易出現(xiàn)運(yùn)算結(jié)果在幾個(gè)鞍點(diǎn)中徘徊選擇,容易導(dǎo)致最終結(jié)果出現(xiàn)數(shù)個(gè)結(jié)果的情況。
2)文獻(xiàn)[21]中引入資格跡,提出NETRL算法,通過(guò)智能體自身對(duì)于某一狀態(tài)、動(dòng)作的訪問次數(shù)來(lái)優(yōu)化Q值表的更新,雖然提高了智能體自身經(jīng)驗(yàn)的感知,但忽視了智能體對(duì)于外部環(huán)境的感知,學(xué)習(xí)的效果有所提升但提升的有限。
3)本文提出的改進(jìn)NashQ算法則可以較好地避免這一結(jié)果,在NETRL算法的基礎(chǔ)上,通過(guò)JS散度對(duì)比智能體的自身經(jīng)驗(yàn)與外部環(huán)境,提升智能體對(duì)外部環(huán)境的感知。
本文采用 Matlab2020a 軟件進(jìn)行編程求解,在 Intel i5-6300HQ(主頻為2.30 GHz)、內(nèi)存16 GB 的計(jì)算機(jī)上運(yùn)行。利用風(fēng)電發(fā)電系統(tǒng)智能體的收斂判據(jù)對(duì)比3種算法的收斂結(jié)果,收斂所需時(shí)間如表5所示,可以看出,本文所提出的改進(jìn)NashQ算法求解所需時(shí)間為NashQ算法的37.3%,也是文獻(xiàn)[21]中NETRL算法的46.9%,從而驗(yàn)證了本文所提出的改進(jìn)NashQ算法的快速收斂性。收斂曲線如圖5所示。
表5 3個(gè)算法收斂所需時(shí)間Table 5 Converge time of the three algorithms
圖5 不同算法的收斂曲線Figure 5 Convergence curves of different algorithms
為對(duì)比風(fēng)電不同運(yùn)行方式下的經(jīng)濟(jì)效益,設(shè)定3種風(fēng)電運(yùn)行場(chǎng)景,并針對(duì)高比例可再生能源電網(wǎng)系統(tǒng)運(yùn)行模式給出優(yōu)化風(fēng)電的調(diào)度策略:①電網(wǎng)中風(fēng)電場(chǎng)、電動(dòng)汽車充電站、火電廠以及儲(chǔ)能電站系統(tǒng)共同博弈;②風(fēng)力發(fā)電系統(tǒng)與電動(dòng)汽車充電站系統(tǒng)聯(lián)合參與電網(wǎng)中的博弈;③電動(dòng)汽車充電站轉(zhuǎn)化為同等容量?jī)?chǔ)能電池,風(fēng)儲(chǔ)聯(lián)合參與電網(wǎng)中博弈。
3種場(chǎng)景下風(fēng)電場(chǎng)的棄風(fēng)電量與減少的偏差考核如表6所示,風(fēng)—車聯(lián)合運(yùn)行、風(fēng)—儲(chǔ)聯(lián)合運(yùn)行均能減少風(fēng)電場(chǎng)的偏差考核,其中風(fēng)—儲(chǔ)聯(lián)合運(yùn)行下有著顯著的優(yōu)勢(shì)。對(duì)比風(fēng)電獨(dú)立運(yùn)行下棄風(fēng)電量,風(fēng)—車聯(lián)合運(yùn)行下減少了43.4%,風(fēng)—儲(chǔ)聯(lián)合運(yùn)行減少了44.7%。可以看出,風(fēng)—儲(chǔ)聯(lián)合運(yùn)行可以提高風(fēng)力資源的利用率。
表6 3種場(chǎng)景下優(yōu)化運(yùn)行結(jié)果Table 6 Optimization results under three scenarios
各個(gè)投資主體的經(jīng)濟(jì)性如表7所示,對(duì)比可以看出,風(fēng)—車聯(lián)合運(yùn)行的經(jīng)濟(jì)效益優(yōu)于風(fēng)電場(chǎng)獨(dú)立參與電網(wǎng)系統(tǒng)中多主體博弈的經(jīng)濟(jì)效益,提高收益20 775.1元。由于充電站系統(tǒng)的補(bǔ)貼成本比風(fēng)力發(fā)電系統(tǒng)的偏差考核懲罰成本低,同時(shí)還能為其帶來(lái)額外的售電效益。因此,風(fēng)力發(fā)電系統(tǒng)與電動(dòng)汽車充電站系統(tǒng)的聯(lián)合運(yùn)行具有實(shí)際意義。
表7 3種場(chǎng)景下各投資主體經(jīng)濟(jì)性Table 7 Economics of investment subject under three scenarios
3種場(chǎng)景下風(fēng)電場(chǎng)調(diào)度策略分別如圖6~8所示。風(fēng)—儲(chǔ)聯(lián)合運(yùn)行由于儲(chǔ)能電池系統(tǒng)較高昂的配置成本與運(yùn)行成本,其經(jīng)濟(jì)效益甚至低于場(chǎng)景1中風(fēng)電場(chǎng)獨(dú)立運(yùn)行的經(jīng)濟(jì)效益,在不考慮電廠側(cè)儲(chǔ)能參與輔助服務(wù)市場(chǎng)時(shí),該風(fēng)電場(chǎng)配置儲(chǔ)能的運(yùn)行模式難以吸引風(fēng)力發(fā)電投資者為風(fēng)電場(chǎng)配置儲(chǔ)能。
圖6 風(fēng)電運(yùn)行調(diào)度策略(場(chǎng)景1)Figure 6 The operation scheduling strategy of wind power(Scenario 1)
圖7 風(fēng)—車聯(lián)合運(yùn)行調(diào)度策略及回購(gòu)電能加價(jià)曲線(場(chǎng)景2)Figure 7 The operation scheduling strategy for the wind-mill(Scenario 2)
圖8 風(fēng)—儲(chǔ)聯(lián)合運(yùn)行調(diào)度策略及儲(chǔ)能荷電狀態(tài)曲線(場(chǎng)景3)Figure 8 The operation scheduling strategy for the wind-storage(Scenario 3)
本文基于2020年每個(gè)月抽取3 d的數(shù)據(jù)作為離線訓(xùn)練數(shù)據(jù),訓(xùn)練集內(nèi)選取6組數(shù)據(jù)(X1~X6),訓(xùn)練集外選取6組數(shù)據(jù)(C1~C6),檢測(cè)本文算法的在線決策能力。在線學(xué)習(xí)與離線訓(xùn)練的對(duì)比如圖9所示,可以看出,訓(xùn)練、非訓(xùn)練集數(shù)據(jù)在線學(xué)習(xí)所需平均時(shí)間分別為319.21、427.07 s,相較于離線訓(xùn)練的所需平均時(shí)間(507.25 s)分別減少了37.07%、15.81%。因此,通過(guò)Q值表的離線訓(xùn)練可以顯著提升在線學(xué)習(xí)的求解效率。
圖9 離線訓(xùn)練與在線學(xué)習(xí)的平均收斂時(shí)間對(duì)比Figure 9 Comparison of average convergence time between off-line training and online learning
本文以風(fēng)電場(chǎng)作為研究對(duì)象,提出一種多主體博弈下基于改進(jìn)NashQ算法的風(fēng)電調(diào)度策略,分析對(duì)比了不同場(chǎng)景下的風(fēng)力發(fā)電系統(tǒng)的效益。
1)綜合考慮電網(wǎng)系統(tǒng)內(nèi)不同投資主體的利益訴求,兼顧風(fēng)電場(chǎng)的偏差考核、綠證效益以及售電效益,充分挖掘風(fēng)電場(chǎng)、火電廠、儲(chǔ)能電站與電動(dòng)汽車充電站的調(diào)節(jié)能力,最大化風(fēng)電場(chǎng)經(jīng)濟(jì)效益;2)提出的改進(jìn)NashQ算法與NashQ、NETRL算法對(duì)比,收斂所需時(shí)間分別縮短了62.7%、53.1%,驗(yàn)證了改進(jìn)NashQ算法的有效性;同時(shí),采用離線訓(xùn)練方式訓(xùn)練Q值表可以顯著提高在線學(xué)習(xí)的收斂效率,縮短收斂所需時(shí)間;3)仿真結(jié)果表明,風(fēng)—儲(chǔ)、風(fēng)—車的聯(lián)合運(yùn)行相較于風(fēng)電池獨(dú)立運(yùn)行可以分別減少44.7%、43.4%的棄風(fēng)電量,但由于儲(chǔ)能的高昂配置、運(yùn)行成本,風(fēng)—儲(chǔ)聯(lián)合運(yùn)行經(jīng)濟(jì)效益較差;而風(fēng)—車聯(lián)合運(yùn)行在減少棄風(fēng)電量的同時(shí),還提升了二者的經(jīng)濟(jì)效益,對(duì)于風(fēng)電投資方與充電站投資方具有一定的吸引力。
后續(xù)研究會(huì)進(jìn)一步考慮輔助服務(wù)市場(chǎng)中有償提供輔助服務(wù)對(duì)于風(fēng)電調(diào)度經(jīng)濟(jì)型的影響,為參與競(jìng)爭(zhēng)電力市場(chǎng)的風(fēng)電運(yùn)營(yíng)模式提供參考。
電力科學(xué)與技術(shù)學(xué)報(bào)2022年6期