亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于態(tài)勢(shì)利導(dǎo)的需求響應(yīng)自學(xué)習(xí)優(yōu)化調(diào)度方法

        2022-12-13 09:29:44明威宇程時(shí)杰王少榮
        電力系統(tǒng)自動(dòng)化 2022年23期
        關(guān)鍵詞:群組態(tài)勢(shì)調(diào)度

        明威宇,李 妍,程時(shí)杰,龍 禹,徐 菁,王少榮

        (強(qiáng)電磁工程與新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,華中科技大學(xué),湖北省武漢市 430074)

        0 引言

        隨著中國(guó)電力市場(chǎng)化改革的快速推進(jìn)[1],用戶可選擇需求響應(yīng)(consumer choice resource,CCR)基于自身意愿主動(dòng)參與到電力市場(chǎng)各項(xiàng)業(yè)務(wù)中[2-3]。通過對(duì)CCR 的調(diào)度,可以將負(fù)荷側(cè)資源配合電網(wǎng)運(yùn)行加以充分利用,從而減少網(wǎng)損[4]、提升設(shè)備使用壽命[5]、改善用戶的用電體驗(yàn)[6],在滿足網(wǎng)側(cè)精益化管理的同時(shí)實(shí)現(xiàn)用戶側(cè)降費(fèi)提質(zhì)的需求。但CCR 受用戶主觀意愿和負(fù)荷動(dòng)態(tài)物理特性等多因素影響[7-8],其優(yōu)化調(diào)度需要考慮多目標(biāo)綜合優(yōu)化和系統(tǒng)運(yùn)行的安全約束,協(xié)同眾多變量?jī)?yōu)化求解,其優(yōu)化問題為具有復(fù)雜動(dòng)態(tài)約束的混合整數(shù)非線性規(guī)劃模型,在配電網(wǎng)隨機(jī)運(yùn)行方式下求解時(shí),存在場(chǎng)景組合激增的問題,求解的復(fù)雜度隨求解時(shí)段數(shù)成指數(shù)增長(zhǎng),難以找到最優(yōu)解[9-10]。

        隨著近年來數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)方法的發(fā)展[11-12],深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)在多個(gè)領(lǐng)域的序貫決策優(yōu)化問題中得到了廣泛應(yīng)用[13-15]。已有不少學(xué)者利用DRL 將電力系統(tǒng)隨機(jī)優(yōu)化決策問題映射至馬爾可夫決策過程(Markov decision process,MDP)模型,以自學(xué)習(xí)方式予以求解。文獻(xiàn)[16]對(duì)DRL 應(yīng)用于需求響應(yīng)業(yè)務(wù)的可行性與方法進(jìn)行了探討,提出了基于DRL 的需求響應(yīng)業(yè)務(wù)開展架構(gòu)。文獻(xiàn)[17-18]關(guān)注到需求響應(yīng)業(yè)務(wù)側(cè)負(fù)荷的聯(lián)合競(jìng)價(jià)及定價(jià)問題,利用基于DRL 的深度確定性策略梯度方法[18],基于MDP 對(duì)負(fù)荷的聯(lián)合競(jìng)價(jià)及定價(jià)問題進(jìn)行建模,建立動(dòng)態(tài)競(jìng)價(jià)響應(yīng)函數(shù),通過自學(xué)習(xí)歷史數(shù)據(jù)優(yōu)化終端用戶用電行為。文獻(xiàn)[19]利用改進(jìn)深度確定性策略梯度算法計(jì)算樓宇級(jí)控制策略,建立調(diào)度中心-負(fù)荷聚集商-樓宇級(jí)控制單元-用戶的調(diào)度架構(gòu),將電采暖動(dòng)作、用戶費(fèi)用及調(diào)度成本等納入MDP,從而基于DRL 調(diào)度用電采暖參與需求響應(yīng)。文獻(xiàn)[20]依托演員-批評(píng)家結(jié)構(gòu)的DRL 算法,將工業(yè)設(shè)施中儲(chǔ)能設(shè)備的電能狀態(tài)、工業(yè)設(shè)備動(dòng)作情況納入MDP,利用DRL 制定工業(yè)設(shè)施的最佳能源管理策略,實(shí)現(xiàn)需求響應(yīng)側(cè)業(yè)務(wù)優(yōu)化管理。文獻(xiàn)[21]基于DRL 將用戶不滿意度、售電商經(jīng)濟(jì)收益納入MDP,實(shí)現(xiàn)了激勵(lì)型需求響應(yīng)的補(bǔ)貼價(jià)格決策優(yōu)化。文獻(xiàn)[22]將電動(dòng)汽車作為需求響應(yīng)資源,將電動(dòng)汽車充放電動(dòng)作、電網(wǎng)功率波動(dòng)值等情況納入MDP,基于DRL 實(shí)現(xiàn)了需求響應(yīng)的優(yōu)化決策。綜上所述,DRL 求解CCR 優(yōu)化問題的有效性已得到廣泛關(guān)注。

        本文基于態(tài)勢(shì)利導(dǎo)的需求響應(yīng)自學(xué)習(xí)優(yōu)化調(diào)度方法,首先,分析以電壓安全運(yùn)行為約束條件,以供電公司經(jīng)濟(jì)補(bǔ)償和停電次數(shù)最小為目標(biāo)的CCR 群組節(jié)點(diǎn)優(yōu)化調(diào)度數(shù)學(xué)模型;然后,構(gòu)建MDP 模型的CCR 群組節(jié)點(diǎn)態(tài)勢(shì)感知元組和態(tài)勢(shì)利導(dǎo)函數(shù);進(jìn)而,通過對(duì)歷史負(fù)荷數(shù)據(jù)曲線的泛化處理,DRL 算法在ε-greedy 策略和經(jīng)驗(yàn)池機(jī)制下訓(xùn)練態(tài)勢(shì)利導(dǎo)函數(shù),以預(yù)測(cè)電網(wǎng)運(yùn)行狀態(tài)以及模擬用戶行為,通過自趨優(yōu)決策實(shí)現(xiàn)多組待選CCR 群組的優(yōu)選及其所包含節(jié)點(diǎn)的優(yōu)化調(diào)度;最后,以IEEE 33 節(jié)點(diǎn)為算例,對(duì)比分析競(jìng)爭(zhēng)深度Q 網(wǎng)絡(luò)(dueling deep Q network,DDQN)結(jié) 構(gòu) 和 深 度Q 網(wǎng) 絡(luò)(deep Q network,DQN)結(jié)構(gòu)的CCR 群組優(yōu)選求解策略,體現(xiàn)了DDQN 結(jié)構(gòu)DRL 算法的優(yōu)越性,對(duì)比DDQN 結(jié)構(gòu)下不同規(guī)模的樣本數(shù)量的CCR 群組優(yōu)選求解策略,驗(yàn)證了所提方法適應(yīng)多時(shí)間斷面復(fù)雜場(chǎng)景的有效性。

        1 需求響應(yīng)優(yōu)化調(diào)度的數(shù)學(xué)模型

        在保證CCR 群組節(jié)點(diǎn)響應(yīng)后電壓運(yùn)行在安全范圍的前提下,供電公司因CCR 群組節(jié)點(diǎn)調(diào)度給予用戶經(jīng)濟(jì)補(bǔ)償將影響其售電利潤(rùn),且用戶側(cè)停電次數(shù)不能過多,因此優(yōu)化模型目標(biāo)為電網(wǎng)經(jīng)濟(jì)補(bǔ)償與停電次數(shù)最小。優(yōu)化調(diào)度的目標(biāo)函數(shù)如式(1)所示,其中第1 項(xiàng)為供電公司經(jīng)濟(jì)補(bǔ)償函數(shù),第2 項(xiàng)為停電次數(shù)懲罰函數(shù),由于兩者量綱不同,且數(shù)值存在數(shù)量級(jí)差距,故將其歸一化處理??紤]到當(dāng)CCR 群組節(jié)點(diǎn)響應(yīng)后,電網(wǎng)節(jié)點(diǎn)電壓應(yīng)運(yùn)行在合理范圍內(nèi),電壓運(yùn)行懲罰函數(shù)如式(2)所示。

        式中:NCCR為CCR 群組節(jié)點(diǎn)集合。本文定義響應(yīng)狀態(tài)集合為{響應(yīng),未響應(yīng)}。

        在日調(diào)度周期T中,CCR 群組節(jié)點(diǎn)(即功率可觀測(cè)節(jié)點(diǎn))有n個(gè),在其響應(yīng)后對(duì)c個(gè)節(jié)點(diǎn)電壓進(jìn)行觀測(cè),在每個(gè)時(shí)間斷面的運(yùn)行方式所滿足的潮流約束見附錄A,針對(duì)c個(gè)節(jié)點(diǎn)的電壓,需要針對(duì)2n個(gè)數(shù)據(jù)樣本,在2n個(gè)狀態(tài)空間中選擇一組優(yōu)化狀態(tài)。況且日調(diào)度周期T中如果有w個(gè)時(shí)間斷面,考慮到相鄰時(shí)間斷面的停電次數(shù)和供電公司售電利潤(rùn)的優(yōu)化目標(biāo),故在一個(gè)周期內(nèi),需針對(duì)2nw個(gè)數(shù)據(jù)樣本,在2nw個(gè)狀態(tài)空間中選擇一組優(yōu)化狀態(tài)。因此,電網(wǎng)運(yùn)行狀態(tài)隨機(jī)性會(huì)導(dǎo)致場(chǎng)景組合激增,求解的復(fù)雜度隨求解時(shí)段數(shù)呈指數(shù)增長(zhǎng),優(yōu)化模型難以找到最優(yōu)解。

        2 態(tài)勢(shì)感知元組及態(tài)勢(shì)利導(dǎo)函數(shù)

        本章基于MDP 建立自學(xué)習(xí)智能體態(tài)勢(shì)感知元組(S,A,R),其中S為態(tài)勢(shì)感知獲取的狀態(tài)集,A為響應(yīng)狀態(tài)動(dòng)作集,R為環(huán)境理解函數(shù),基于態(tài)勢(shì)感知元組構(gòu)建態(tài)勢(shì)利導(dǎo)函數(shù),通過自趨優(yōu)態(tài)勢(shì)利導(dǎo)實(shí)現(xiàn)CCR 群組的優(yōu)選及其所包含節(jié)點(diǎn)的調(diào)度優(yōu)化。

        1)態(tài)勢(shì)感知獲取的狀態(tài)集S

        以配電網(wǎng)節(jié)點(diǎn)電壓和CCR 群組節(jié)點(diǎn)的響應(yīng)功率為感知量,配電網(wǎng)狀態(tài)和CCR 群組中節(jié)點(diǎn)的狀態(tài)構(gòu)成狀態(tài)集S,如式(4)所示。

        3)環(huán)境理解函數(shù)R

        為實(shí)現(xiàn)CCR 群組優(yōu)化調(diào)度目標(biāo),建立的環(huán)境理解函數(shù)R包括供電公司售電利潤(rùn)函數(shù)、響應(yīng)狀態(tài)函數(shù)以及電壓運(yùn)行回報(bào)函數(shù),如式(5)所示。

        式中:Rt+1為在t+1 時(shí)刻的環(huán)境理解函數(shù)值,反映上一時(shí)刻響應(yīng)狀態(tài)的優(yōu)劣。

        4)態(tài)勢(shì)利導(dǎo)函數(shù)

        在態(tài)勢(shì)感知的基礎(chǔ)上建立態(tài)勢(shì)利導(dǎo)函數(shù),自學(xué)習(xí)智能體通過環(huán)境理解函數(shù)的激勵(lì)與懲罰實(shí)現(xiàn)決策優(yōu)劣的訓(xùn)練學(xué)習(xí),從而逐步實(shí)現(xiàn)自趨優(yōu)決策。態(tài)勢(shì)利導(dǎo)函數(shù)如式(10)所示。

        式中:p為控制策略;ω和b為DRL 算法參數(shù);m為經(jīng)驗(yàn)池容量;st∈S為t時(shí)刻環(huán)境的狀態(tài);at∈A為t時(shí)刻CCR 群組節(jié)點(diǎn)的響應(yīng)狀態(tài)。

        式中:|A|為響應(yīng)狀態(tài)總數(shù);Relu(x)=max(0,x)為線性整流函數(shù);ω0為價(jià)值函數(shù)中與配電網(wǎng)狀態(tài)相關(guān)的參數(shù);ω1為價(jià)值函數(shù)中的結(jié)構(gòu)參數(shù);ω2為優(yōu)勢(shì)函數(shù)中與配電網(wǎng)狀態(tài)相關(guān)的參數(shù);ω3為優(yōu)勢(shì)函數(shù)中與響應(yīng)狀態(tài)相關(guān)的參數(shù);b0至b3為偏置量。

        3 多隨機(jī)場(chǎng)景下CCR 的優(yōu)化調(diào)度決策

        配電網(wǎng)隨機(jī)運(yùn)行方式下求解時(shí),為適應(yīng)多時(shí)間斷面下的復(fù)雜場(chǎng)景,本章對(duì)歷史負(fù)荷數(shù)據(jù)曲線進(jìn)行泛化,基于泛化后的數(shù)據(jù),通過時(shí)序差分法更新迭代預(yù)設(shè)值矩陣,利用ε-greedy 策略選取最優(yōu)動(dòng)作,并引入經(jīng)驗(yàn)池機(jī)制保證神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)最新的觀測(cè)狀態(tài)。

        1)負(fù)荷數(shù)據(jù)曲線泛化

        本文在初始負(fù)荷的基礎(chǔ)上,對(duì)非CCR 群組節(jié)點(diǎn),根據(jù)其節(jié)點(diǎn)峰谷功率差值進(jìn)行疊加隨機(jī)負(fù)荷,疊加基礎(chǔ)值ΔPl,t如式(15)所示:

        式中:ΔPl,d為節(jié)點(diǎn)l的峰谷功率差值;PL,t為t時(shí)刻系統(tǒng)負(fù)荷需求;PG,t為t時(shí)刻根節(jié)點(diǎn)輸入功率;Nnode為配電網(wǎng)的節(jié)點(diǎn)集合。

        假設(shè)非CCR 群組節(jié)點(diǎn)中節(jié)點(diǎn)π峰谷功率差值ΔPπ,d最大,將其作為平衡節(jié)點(diǎn),其他非π節(jié)點(diǎn)且非CCR 群組節(jié)點(diǎn)l'可疊加的功率ΔP'l',t如式(16)所示:

        式中:l'∈Nnode∩l'?NCCR,l'≠π;μ為[-1,1]區(qū)間內(nèi)的均勻分布值;ΔPl',d為節(jié)點(diǎn)l'的峰谷功率差值。

        負(fù)荷數(shù)據(jù)曲線泛化后,各非CCR 群組節(jié)點(diǎn)功率如式(17)所示:

        式中:l'∈Nnode∩l'?NCCR,l'≠π;Pl',t和P'l',t分別為泛化前、后節(jié)點(diǎn)l'在t時(shí)刻的功率;Pπ,t和P'π,t分別為泛化前、后節(jié)點(diǎn)π在t時(shí)刻的功率。

        2)時(shí)序差分法機(jī)制

        時(shí)序差分法搜索CCR 群組優(yōu)化調(diào)度策略如圖1所示。階段①初始狀態(tài)s1經(jīng)過動(dòng)作ay至狀態(tài)sy,由式(5)計(jì)算R,并根據(jù)式(11)更新預(yù)設(shè)值矩陣,進(jìn)入階段②,并重復(fù)上述計(jì)算過程?;赒-learning 算法[23],當(dāng)已知優(yōu)化響應(yīng)狀態(tài)空間與訓(xùn)練次數(shù)逐漸增大時(shí),算法將逐步收斂,預(yù)設(shè)值矩陣迭代更新過程如式(18)所示。預(yù)設(shè)值及歷史訓(xùn)練樣本生成流程圖如附錄B 圖B1 所示。

        圖1 時(shí)序差分法搜索機(jī)制Fig.1 Searching mechanism of temporal difference method

        3)ε-greedy 策略

        訓(xùn)練過程中,學(xué)習(xí)初期隨機(jī)選擇動(dòng)作從而積累觀察樣本,ε-greedy 策略如式(19)所示:

        式中:randomA表示從響應(yīng)狀態(tài)動(dòng)作集A中隨機(jī)選取 動(dòng) 作;Ttr為 訓(xùn) 練 總 次 數(shù);ttr為 當(dāng) 前 訓(xùn) 練 次 數(shù);β為[0,1]之間的隨機(jī)數(shù);ε為固定常數(shù)。

        4)經(jīng)驗(yàn)池設(shè)定

        為了加快DRL 算法訓(xùn)練速度與精確度,對(duì)經(jīng)驗(yàn)池采取以下設(shè)定:

        (1)經(jīng)驗(yàn)池設(shè)置容量上限,從而消除樣本采集時(shí)間接近而造成的強(qiáng)相關(guān)性。當(dāng)產(chǎn)生樣本數(shù)量超過經(jīng)驗(yàn)池容量時(shí),則剔除掉最早的觀察樣本再存入新樣本。

        (2)經(jīng)驗(yàn)池設(shè)置觀察值,當(dāng)訓(xùn)練次數(shù)小于觀察值時(shí),不抽取訓(xùn)練樣本。當(dāng)經(jīng)驗(yàn)池中樣本數(shù)超過觀察值時(shí),則從中隨機(jī)抽取小批量的觀測(cè)樣本,開展人工訓(xùn)練。

        5)CCR 群組優(yōu)化調(diào)度策略求解

        當(dāng)觀測(cè)狀態(tài)由st變?yōu)閟t+1,進(jìn)行以下3 個(gè)判斷步驟得到供電公司售電利潤(rùn)函數(shù)、響應(yīng)狀態(tài)函數(shù)以及電壓運(yùn)行回報(bào)函數(shù)的數(shù)值。首先,判斷U(i)END,t+1是否大于0.93Ue,根據(jù)式(6)計(jì)算電壓運(yùn)行回報(bào)函數(shù)

        式中:x=0,1,2,3。

        在高維數(shù)據(jù)場(chǎng)景下態(tài)勢(shì)利導(dǎo)函數(shù)趨于收斂時(shí),算法給出的CCR 群組節(jié)點(diǎn)狀態(tài)響應(yīng)空間可被視為該組CCR 群組節(jié)點(diǎn)在配電網(wǎng)調(diào)度下的最優(yōu)狀態(tài)空間。優(yōu)化求解流程圖如附錄B 圖B2 所示。

        4 算例分析

        4.1 隨機(jī)場(chǎng)景

        本文基于IEEE 33 節(jié)點(diǎn)系統(tǒng)分析隨機(jī)場(chǎng)景,如圖2 所示。算例分析將分別針對(duì)15 min 采樣間隔和30 min 采樣間隔進(jìn)行優(yōu)化策略求解,通過不同采樣間隔形成不同規(guī)模的樣本數(shù)量,驗(yàn)證所提方法的有效性。在圖1 中,節(jié)點(diǎn)17、21、24、32 處安裝電壓量測(cè)裝置,節(jié)點(diǎn)13、14、16、29、30 以及31 作為CCR 群組節(jié)點(diǎn)與供電公司簽訂合同構(gòu)成CCR 群組,根節(jié)點(diǎn)及CCR 群組節(jié)點(diǎn)安裝功率量測(cè)裝置。在日調(diào)度周期中,針對(duì)4 個(gè)節(jié)點(diǎn)的電壓,需要在64 個(gè)狀態(tài)空間中選擇一組優(yōu)化狀態(tài)。當(dāng)量測(cè)裝置數(shù)據(jù)采樣間隔為15 min 時(shí),日調(diào)度周期中存在96 個(gè)時(shí)間斷面,需在日周期內(nèi)的2576個(gè)樣本數(shù)據(jù)中,從2576個(gè)狀態(tài)空間中進(jìn)行策略優(yōu)選。當(dāng)數(shù)據(jù)采樣間隔為30 min 時(shí),日調(diào)度周期中存在48 個(gè)時(shí)間斷面,需在日周期內(nèi)的2288個(gè)樣本數(shù)據(jù)中,從2288個(gè)狀態(tài)空間中進(jìn)行策略優(yōu)選。

        圖2 基于DDQN 結(jié)構(gòu)的CCR 群組節(jié)點(diǎn)的優(yōu)化調(diào)度Fig.2 Optimal scheduling of nodes in CCR group based on DDQN structure

        配電網(wǎng)的分時(shí)電價(jià)(購(gòu)電和售電)以及所簽訂的合同內(nèi)容分別見附錄C 表C1 及表C2,CCR 群組見表C3。為了盡量模擬用戶用電的真實(shí)場(chǎng)景,體現(xiàn)用戶負(fù)荷運(yùn)行方式的多樣性,算例模型中節(jié)點(diǎn)的實(shí)際日負(fù)荷曲線來源于IEEE 歐洲低壓試驗(yàn)饋線[24]。

        4.2 算法參數(shù)及分析

        1)算法參數(shù)

        2)態(tài)勢(shì)利導(dǎo)函數(shù)收斂分析

        分別采用DDQN 結(jié)構(gòu)與DQN 結(jié)構(gòu)的DRL 算法的態(tài)勢(shì)利導(dǎo)函數(shù)衰減對(duì)比如附錄D 圖D1 所示。相比DQN 結(jié)構(gòu),DDQN 結(jié)構(gòu)的態(tài)勢(shì)利導(dǎo)函數(shù)衰減速度更快,衰減過程中波動(dòng)更小,說明DDQN 具有更優(yōu)越的自學(xué)習(xí)能力。

        3)學(xué)習(xí)率取值分析

        學(xué)習(xí)率取值對(duì)比見附錄D 圖D2。當(dāng)學(xué)習(xí)率α為0.007 時(shí),態(tài)勢(shì)利導(dǎo)函數(shù)收斂最快且收斂值最小,即此時(shí)DRL 算法訓(xùn)練效果相對(duì)較優(yōu)。

        4.3 優(yōu)選群組及優(yōu)化策略分析

        數(shù)據(jù)采樣間隔為15 min 的情況下,各CCR 群組的計(jì)算值箱形圖如圖3 所示,N5 群組計(jì)算值最大,即為優(yōu)選群組,該計(jì)算值對(duì)應(yīng)的節(jié)點(diǎn)響應(yīng)狀態(tài)即為最優(yōu)狀態(tài)響應(yīng)空間。

        圖3 N1 至N8 群組計(jì)算值箱形圖Fig.3 Box-plot of calculated values for groups N1 to N8

        針對(duì)N5 群組基于DQN 和DDQN 的最優(yōu)響應(yīng)狀態(tài)空間(a(13)t,a(16)t,a(29)t,a(31)t)見表1。相對(duì)于基于DQN 的最優(yōu)決策,基于DDQN 的最優(yōu)決策累計(jì)停電次數(shù)更小。最優(yōu)響應(yīng)狀態(tài)下N5 群組節(jié)點(diǎn)核定削減負(fù)荷功率曲線如圖4 所示。

        圖4 最優(yōu)響應(yīng)狀態(tài)下N5 群組節(jié)點(diǎn)核定削減負(fù)荷功率曲線Fig.4 Approved load reduction power curve of group N5 nodes in optimal response state

        表1 基于DQN 和DDQN 的最優(yōu)響應(yīng)狀態(tài)空間Table 1 Optimal response state space based on DDQN and DQN

        不同策略下的節(jié)點(diǎn)電壓標(biāo)幺值如表2 所示,節(jié)點(diǎn)17、32 的電壓經(jīng)過基于DDQN 和DQN 的DRL 算法訓(xùn)練優(yōu)化CCR 群組節(jié)點(diǎn)的動(dòng)作后,情況明顯得到改善。

        表2 不同策略下的節(jié)點(diǎn)電壓標(biāo)幺值Table 2 Per unit value of node voltage with different strategies

        供電公司在CCR 群組節(jié)點(diǎn)的售電利潤(rùn)以及單組CCR 的補(bǔ)償見表3。相對(duì)基于DQN 的最優(yōu)決策結(jié)果,基于DDQN 的最優(yōu)決策CCR 群組節(jié)點(diǎn)停電次數(shù)較少,改善了電壓運(yùn)行狀態(tài)的同時(shí),增大了供電公司的利潤(rùn),減小了補(bǔ)償費(fèi)用。

        表3 供電公司的售電利潤(rùn)以及CCR 補(bǔ)償費(fèi)用Table 3 Electricity sale profit of power supply company and CCR compensation cost

        采樣間隔為30 min 時(shí),針對(duì)N5 群組基于DDQN 的最優(yōu)響應(yīng)狀態(tài)空間(a(13)t,a(16)t,a(29)t,a(31)t)見表4,節(jié)點(diǎn)電壓標(biāo)幺值如表5 所示。由表4 和表5 可以看出,數(shù)據(jù)樣本減少時(shí)策略仍然有效。

        表4 基于DDQN 的最優(yōu)響應(yīng)狀態(tài)空間(30 min 采樣間隔)Table 4 Optimal response state space based on DDQN(sampling interval of 30 min)

        表5 節(jié)點(diǎn)電壓標(biāo)幺值(30 min 采樣間隔)Table 5 Per unit value of node voltage(sampling interval of 30 min)

        5 結(jié)語

        本文提出基于態(tài)勢(shì)利導(dǎo)的需求響應(yīng)自學(xué)習(xí)優(yōu)化調(diào)度方法,實(shí)現(xiàn)了多隨機(jī)場(chǎng)景下CCR 群組的優(yōu)選及對(duì)應(yīng)節(jié)點(diǎn)的優(yōu)化調(diào)度。主要工作如下:

        1)針對(duì)需求響應(yīng)的顯著不確定性,本文基于MDP 將其數(shù)學(xué)模型映射至態(tài)勢(shì)感知元組,利用DRL 算法自適應(yīng)用戶行為和電網(wǎng)運(yùn)行狀態(tài)的不確定性。

        2)自學(xué)習(xí)智能體基于態(tài)勢(shì)利導(dǎo)函數(shù),通過環(huán)境理解函數(shù)的激勵(lì)與懲罰實(shí)現(xiàn)決策優(yōu)劣的訓(xùn)練學(xué)習(xí),針對(duì)不同數(shù)量的數(shù)據(jù)樣本實(shí)現(xiàn)了自趨優(yōu)決策。

        3)本文設(shè)置負(fù)荷數(shù)據(jù)曲線泛化機(jī)制、ε-greedy貪婪策略和經(jīng)驗(yàn)池機(jī)制,針對(duì)多隨機(jī)場(chǎng)景不同樣本,分別在DQN 和DDQN 架構(gòu)下開展自學(xué)習(xí),驗(yàn)證了所提機(jī)制在隨機(jī)復(fù)雜場(chǎng)景下的性能優(yōu)越。

        在雙碳戰(zhàn)略背景下,本文方法可為平抑規(guī)?;尤敕植际侥茉磶淼膹?qiáng)隨機(jī)性提供參考,下一步將深入開展用戶側(cè)可再生能源發(fā)電的隨機(jī)性建模,探索新型電力系統(tǒng)需求側(cè)響應(yīng)隨機(jī)優(yōu)化運(yùn)行的調(diào)度策略,為中國(guó)新型電力系統(tǒng)供需平衡、安全穩(wěn)定運(yùn)行提供技術(shù)保障。

        附錄見本刊網(wǎng)絡(luò)版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網(wǎng)絡(luò)全文。

        猜你喜歡
        群組態(tài)勢(shì)調(diào)度
        2019年12月與11月相比汽車產(chǎn)銷延續(xù)了增長(zhǎng)態(tài)勢(shì)
        汽車與安全(2020年1期)2020-05-14 13:27:19
        《調(diào)度集中系統(tǒng)(CTC)/列車調(diào)度指揮系統(tǒng)(TDCS)維護(hù)手冊(cè)》正式出版
        匯市延續(xù)小幅震蕩態(tài)勢(shì)
        一種基于負(fù)載均衡的Kubernetes調(diào)度改進(jìn)算法
        虛擬機(jī)實(shí)時(shí)遷移調(diào)度算法
        我國(guó)天然氣供需呈現(xiàn)緊平衡態(tài)勢(shì)
        關(guān)系圖特征在敏感群組挖掘中的應(yīng)用研究
        基于統(tǒng)計(jì)模型的空間群組目標(biāo)空間位置計(jì)算研究
        縣鄉(xiāng)一體化探索呈加速態(tài)勢(shì)
        SVC的RTP封裝及其在NS2包調(diào)度中的應(yīng)用研究
        美女视频很黄很a免费国产| 欧美人牲交| 亚洲人成色777777老人头| 亚洲国产99精品国自产拍| 在线视频日韩精品三区| 亚洲毛片在线免费视频| 中文字幕乱偷无码av先锋蜜桃| 国产精品密播放国产免费看| 日本精品极品视频在线| 国产免费一区二区在线视频| 日韩精品极品视频在线观看免费 | 亚洲丝袜美腿精品视频| 人人爽久久久噜人人看| 性色av无码一区二区三区人妻| 久久中文字幕日韩无码视频| 国产一区二区在线中文字幕| 成年美女黄的视频网站| 又色又爽又黄又硬的视频免费观看 | 少妇内射视频播放舔大片| 久久精品国产精品亚洲艾| 免费看黄片的视频在线观看| 久久精品中文字幕大胸| 国产精品自在线免费| 又爽又猛又大又湿的视频| 国产精品一区二区日本| 天天躁日日躁狠狠躁av| 日本口爆吞精在线视频| 日本老熟妇五十路一区二区三区 | 亚洲日韩中文字幕在线播放| 久久久久亚洲精品无码网址| 激,情四虎欧美视频图片| 美艳善良的丝袜高跟美腿| 色综合久久久久久久久久| 久久这里只有精品9| 日韩视频午夜在线观看| 艳妇臀荡乳欲伦交换h在线观看| 亚洲 欧美 影音先锋| 淫欲一区二区中文字幕| 少妇无套裸按摩呻吟无呜| 中文字幕久无码免费久久| 色婷婷色99国产综合精品|