亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于混合強(qiáng)化學(xué)習(xí)的主動(dòng)配電網(wǎng)故障恢復(fù)方法

        2024-05-07 10:11:08陳嘉岳馬天祥
        關(guān)鍵詞:配電網(wǎng)動(dòng)作智能

        徐 巖,陳嘉岳,馬天祥

        (1.華北電力大學(xué)電氣與電子工程學(xué)院,保定 071003;2.國(guó)網(wǎng)河北省電力有限公司電力科學(xué)研究院,石家莊 050021)

        配電網(wǎng)連接電網(wǎng)和終端用戶,直接影響用戶的供電可靠性,如果發(fā)生故障,會(huì)對(duì)用戶產(chǎn)生較大的影響。而在配電網(wǎng)自動(dòng)化故障管理系統(tǒng)中,故障恢復(fù)占據(jù)重要地位[1-2]。隨著經(jīng)濟(jì)發(fā)展和技術(shù)水平提升,對(duì)配電網(wǎng)可靠性的要求越來越高,而分布式電源接入比例的提升,也給配電網(wǎng)故障恢復(fù)帶來了巨大挑戰(zhàn)。

        配電網(wǎng)故障恢復(fù)作為電力系統(tǒng)的重要研究方法,受到了研究人員的廣泛關(guān)注。目前主要是使用經(jīng)典算法或智能算法進(jìn)行恢復(fù)。文獻(xiàn)[3]采用魯棒優(yōu)化理論建立故障恢復(fù)方法,將風(fēng)光出力和故障恢復(fù)方案分別作為自然決策者和系統(tǒng)決策者,令兩者進(jìn)行博弈,具有較好的魯棒性;文獻(xiàn)[4]利用網(wǎng)絡(luò)拓?fù)浞謱觿澐痔囟ňW(wǎng)絡(luò)的自愈單元組,再根據(jù)自愈單元的基本環(huán)路矩陣確定非故障失電區(qū)范圍和復(fù)電方式,顯著減少了拓?fù)浔闅v的復(fù)雜度,加快了運(yùn)算速度;文獻(xiàn)[5]提出了一種基于生物體免疫機(jī)制的故障恢復(fù)方法,通過模擬生物體對(duì)外部微生物的免疫行為,能快速獲得恢復(fù)方案,對(duì)配電網(wǎng)故障進(jìn)行有效恢復(fù),這種方法在分布式電源接入的情況下有顯著優(yōu)勢(shì);文獻(xiàn)[6]使用二進(jìn)制粒子群算法對(duì)交直流混合配電網(wǎng)故障進(jìn)行恢復(fù),對(duì)所建立的模型設(shè)計(jì)兩階段優(yōu)化求解流程,能有效降低求解難度、提高求解效率。

        強(qiáng)化學(xué)習(xí)作為一種新興的機(jī)器學(xué)習(xí)方法,近年來受到了廣泛關(guān)注。不同于監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí),強(qiáng)化學(xué)習(xí)不需要事先給定數(shù)據(jù),而是通過智能體接受環(huán)境反饋,并利用反饋學(xué)習(xí)信息更新模型參數(shù)。目前,已有學(xué)者使用強(qiáng)化學(xué)習(xí)方法來解決電力系統(tǒng)相關(guān)問題。針對(duì)故障檢測(cè)和恢復(fù)問題,也有學(xué)者提出了相關(guān)解決方法。文獻(xiàn)[7]通過提取孤島微電網(wǎng)的故障特征,基于深度強(qiáng)化學(xué)習(xí)方法,深度跟蹤電網(wǎng)故障信息,通過三端行波測(cè)距法,判定孤島微電網(wǎng)故障區(qū)域;文獻(xiàn)[8]把恢復(fù)問題轉(zhuǎn)化為一個(gè)順序決策問題,在電源側(cè)和負(fù)載側(cè)實(shí)現(xiàn)了雙重最優(yōu)控制策略,提高了系統(tǒng)的恢復(fù)能力;文獻(xiàn)[9]提出了一種基于改進(jìn)深度確定性策略梯度DDPG(deep deterministic policy gradient)算法的服務(wù)恢復(fù)方法,來輔助孤島微電網(wǎng)的服務(wù)恢復(fù),該方法能可靠收斂,學(xué)習(xí)性能較高。但目前已有研究較少涉及主動(dòng)配電網(wǎng)的故障恢復(fù),同時(shí)針對(duì)高比例新能源配電網(wǎng),故障恢復(fù)時(shí)較少考慮分布式電源的調(diào)控問題。

        基于此,本文提出一種基于混合強(qiáng)化學(xué)習(xí)的主動(dòng)配電網(wǎng)故障恢復(fù)方法。將配電網(wǎng)故障恢復(fù)問題轉(zhuǎn)化為規(guī)劃問題,以故障損失最小為目標(biāo)、電網(wǎng)安全運(yùn)行條件為約束,建立馬爾可夫模型,構(gòu)建智能體和配電網(wǎng)交互環(huán)境?;謴?fù)模型中動(dòng)作空間既有離散動(dòng)作又有連續(xù)動(dòng)作,現(xiàn)有方法是將連續(xù)動(dòng)作轉(zhuǎn)化為離散動(dòng)作,再進(jìn)行處理,該方法會(huì)增加恢復(fù)過程的計(jì)算量,減慢恢復(fù)速度。因此,本文將競(jìng)爭(zhēng)架構(gòu)雙深度Q 網(wǎng)絡(luò)D3QN(dueling double deep Q network)和DDPG算法進(jìn)行混合,使用D3QN算法處理離散部分、DDPG算法處理連續(xù)部分,很好地解決了計(jì)算量大、恢復(fù)速度慢的問題。通過仿真實(shí)驗(yàn)驗(yàn)證了本文方法比傳統(tǒng)算法或單一強(qiáng)化學(xué)習(xí)算法能顯著減少恢復(fù)時(shí)間,提升恢復(fù)效果。

        1 主動(dòng)配電網(wǎng)故障恢復(fù)模型

        在配電網(wǎng)故障發(fā)生時(shí),應(yīng)盡可能使損失最小,并將停電對(duì)用戶的影響降到最低。故障恢復(fù)過程中,應(yīng)保證各項(xiàng)參數(shù)在允許范圍內(nèi),確保配電網(wǎng)安全有序恢復(fù)。本文由此構(gòu)造目標(biāo)函數(shù)和約束條件,建立恢復(fù)模型。

        1.1 目標(biāo)函數(shù)

        以故障綜合損失最小為目標(biāo),構(gòu)建主動(dòng)配電網(wǎng)恢復(fù)模型,定義恢復(fù)目標(biāo)函數(shù)為

        式中:g1為總失電負(fù)荷;g2為開關(guān)動(dòng)作次數(shù);g3為恢復(fù)成本;g4為網(wǎng)絡(luò)損耗;g5為電壓波動(dòng);g6為用戶總停電時(shí)長(zhǎng);k1、k2、k3、k4、k5、k6分別為子函數(shù)對(duì)應(yīng)的權(quán)重;g1、g2、g3為恢復(fù)效果目標(biāo);g4、g5、g6為電能質(zhì)量目標(biāo)。g1、g2、g3、g4、g5、g6可分別表示為

        式中:ωi為節(jié)點(diǎn)i的負(fù)荷重要度系數(shù);Di,t為節(jié)點(diǎn)i在t時(shí)刻的負(fù)荷時(shí)變需求系數(shù);Li,t為節(jié)點(diǎn)i在t時(shí)刻負(fù)荷需求量;N為節(jié)點(diǎn)總數(shù);xi,t和si,t分別為節(jié)點(diǎn)和支路的接入狀態(tài),其為0-1變量,當(dāng)取值為1時(shí)表示節(jié)點(diǎn)或支路接入;Δsi,t=si,t-si,t-1;cG、cDESS、cPV、cWT分別為火電機(jī)組、儲(chǔ)能設(shè)備、分布式光伏和風(fēng)電機(jī)組的運(yùn)行成本;NG、NDESS、NPV、NWT分別為配電網(wǎng)中火電機(jī)組、儲(chǔ)能設(shè)備、分布式光伏和風(fēng)電機(jī)組的數(shù)量;T為故障恢復(fù)總時(shí)間;M為支路集合;Rs為支路s的阻抗;Ps、Qs、Us分別為支路s末端節(jié)點(diǎn)的有功功率、無功功率和電壓幅值;為節(jié)點(diǎn)i在t時(shí)刻的電壓幅值;為節(jié)點(diǎn)i的電壓額定幅值;α為停電時(shí)間損失系數(shù),取a>1。

        1.2 約束條件

        本文模型考慮潮流約束、儲(chǔ)能約束、分布式電源約束和恢復(fù)時(shí)間約束。運(yùn)行的電力系統(tǒng)應(yīng)滿足基本的有功功率和無功功率平衡約束,即

        式中:Pi,t、Qi,t分別為t時(shí)刻節(jié)點(diǎn)i流入的有功、無功功率;、分別為t時(shí)刻節(jié)點(diǎn)i發(fā)電機(jī)有功、無功功率;、分別為t時(shí)刻節(jié)點(diǎn)i儲(chǔ)能裝置的充、放電功率;、分別為t時(shí)刻節(jié)點(diǎn)i光伏設(shè)備的有功、無功輸出;、分別為t時(shí)刻節(jié)點(diǎn)i風(fēng)力發(fā)電機(jī)的有功、無功輸出;、分別為t時(shí)刻節(jié)點(diǎn)i負(fù)荷消耗的有功、無功功率。

        故障恢復(fù)過程中,為保證電能質(zhì)量,配電網(wǎng)各節(jié)點(diǎn)電壓和功率不應(yīng)超出允許的最大范圍,即

        式中:Ui,t為t時(shí)刻節(jié)點(diǎn)i處的電壓;Ui_min和Ui_max為節(jié)點(diǎn)i處的電壓下限和上限;Pi_min、Pi_max、Qi_min、Qi_max分別為節(jié)點(diǎn)i處的有功功率和無功功率的下限和上限。

        儲(chǔ)能設(shè)備工作時(shí),應(yīng)滿足如下功率約束條件:

        式中:為t時(shí)刻節(jié)點(diǎn)i儲(chǔ)能設(shè)備的總功率;ηDESS為儲(chǔ)能設(shè)備的充放電效率;和分別為儲(chǔ)能設(shè)備總功率的下限和上限;和分別為充電功率的下限和上限;和分別為放電功率的下限和上限。

        同時(shí),儲(chǔ)能設(shè)備應(yīng)滿足如下容量約束條件:

        式中:為t時(shí)刻節(jié)點(diǎn)i儲(chǔ)能設(shè)備的容量,kW·h;和分別為儲(chǔ)能設(shè)備容量的下限和上限。

        新能源配電網(wǎng)通常有高比例分布式電源接入,接入的分布式光伏電站和風(fēng)力發(fā)電機(jī)組應(yīng)滿足如下約束條件:

        式中:η為光電轉(zhuǎn)化效率;APV為光伏組件受光面積;I為輻照強(qiáng)度;vt為t時(shí)刻的風(fēng)速;vci、vfi、vrate分別為風(fēng)電機(jī)組的切入、切出、額定風(fēng)速;b1、b2為常系數(shù);Pr為風(fēng)電機(jī)組額定功率;為光伏設(shè)備的最大有功功率;為風(fēng)電機(jī)組的最大有功功率。

        為確保終端用戶的供電質(zhì)量,需要對(duì)恢復(fù)時(shí)長(zhǎng)進(jìn)行約束。設(shè)用戶可接受的最大停電時(shí)長(zhǎng)為Tmax,則恢復(fù)時(shí)間T應(yīng)滿足

        配電網(wǎng)恢復(fù)過程應(yīng)充分考慮以上約束條件。以式(11)為目標(biāo)函數(shù)、式(8)~(22)為約束條件,將主動(dòng)配電網(wǎng)故障恢復(fù)問題構(gòu)建為一個(gè)混合整數(shù)二次規(guī)劃MIQP(mixed integer quadratic programming)問題。

        2 用于配電網(wǎng)恢復(fù)的強(qiáng)化學(xué)習(xí)過程

        強(qiáng)化學(xué)習(xí)的本質(zhì)是構(gòu)建一個(gè)智能體,令智能體和環(huán)境進(jìn)行交互。在這一過程中,智能體會(huì)得到環(huán)境的反饋,并通過反饋調(diào)整下一步的動(dòng)作,進(jìn)而完成對(duì)環(huán)境的最優(yōu)響應(yīng)。強(qiáng)化學(xué)習(xí)解決的實(shí)際問題規(guī)模較大,在解決問題過程中,通常假設(shè)狀態(tài)轉(zhuǎn)化過程具有馬爾可夫性,故這種決策過程被稱為馬爾科夫決策過程。該決策過程可把配電網(wǎng)故障恢復(fù)問題拆分成一系列單階段問題進(jìn)行求解。馬爾可夫決策過程可以描述為五元組形式,即

        式中:S為狀態(tài)空間,st為狀態(tài)空間集中的某一個(gè)狀態(tài);A為動(dòng)作空間,at為動(dòng)作空間集中某一個(gè)動(dòng)作;R為環(huán)境獎(jiǎng)勵(lì),rt為其中某一個(gè)獎(jiǎng)勵(lì);γ為獎(jiǎng)勵(lì)衰減因子,表示當(dāng)前延時(shí)獎(jiǎng)勵(lì)和后續(xù)狀態(tài)獎(jiǎng)勵(lì)之間的權(quán)重關(guān)系,γ∈[0,1];π為個(gè)體策略,表示個(gè)體采取動(dòng)作的依據(jù),即個(gè)體會(huì)依據(jù)策略概率π來選擇動(dòng)作。通常采用條件概率分布π(a|s)=p(A=at|S=st)來表示個(gè)體策略,即在狀態(tài)st時(shí)采取動(dòng)作at的概率。

        在智能體和環(huán)境的交互過程中,智能體會(huì)根據(jù)t時(shí)刻環(huán)境狀態(tài)st、接收獎(jiǎng)勵(lì)rt及個(gè)體策略π來選擇合適的動(dòng)作at;然后將環(huán)境狀態(tài)從st轉(zhuǎn)換到st+1,智能體獲得動(dòng)作at的延時(shí)獎(jiǎng)勵(lì)rt+1=r(st,at,st+1)。馬爾可夫決策過程如圖1所示。

        圖1 馬爾可夫決策過程Fig.1 Markov decision process

        在馬爾可夫決策過程中,智能體會(huì)通過迭代學(xué)習(xí)過程獲得決策能力,決策目標(biāo)為給定狀態(tài)和動(dòng)作(s,a)時(shí),動(dòng)作價(jià)值函數(shù)Qπ(s,a)的期望值最大,即

        式中:Eπ為智能體依據(jù)π選擇動(dòng)作at所獲得的期望價(jià)值函數(shù);RT為截至到T時(shí)刻累計(jì)的獎(jiǎng)勵(lì)總和。

        2.1 用于故障恢復(fù)的強(qiáng)化學(xué)習(xí)模型

        根據(jù)第1 節(jié)所述的目標(biāo)函數(shù)和約束條件,構(gòu)建配電網(wǎng)恢復(fù)問題的馬爾可夫模型。

        2.1.1 動(dòng)作空間

        配電網(wǎng)故障恢復(fù)過程中,需要同時(shí)操作斷路器和調(diào)節(jié)電源出力。斷路器的狀態(tài)只有打開和閉合兩種狀態(tài)且動(dòng)作空間離散,而電源出力是一個(gè)連續(xù)調(diào)節(jié)的過程且動(dòng)作空間連續(xù)。因此,分別將這兩個(gè)動(dòng)作空間記為Ad和Ac,即

        設(shè)斷路器t時(shí)刻的動(dòng)作為0-1 狀態(tài)變量os,其中os=0 表示未對(duì)斷路器進(jìn)行操作,保持t-1 時(shí)刻狀態(tài);os=1 表示對(duì)斷路器進(jìn)行操作,與t-1 時(shí)刻開關(guān)狀態(tài)相反。將離散狀態(tài)空間Ad用os表示,即

        式中:Np為配電網(wǎng)中可操作斷路器的數(shù)量;os,i為第i個(gè)斷路器的動(dòng)作狀態(tài);τ為斷路器集合。

        將恢復(fù)過程的電源出力以連續(xù)狀態(tài)表示,即

        式中:Nq為配電網(wǎng)中可控電源的數(shù)量;Ps,i和Qs,i分別為節(jié)點(diǎn)i處可控電源的有功和無功功率;σ為可控電源集合。

        2.1.2 狀態(tài)空間

        在配電網(wǎng)模型中,任意時(shí)刻系統(tǒng)的狀態(tài)S可由系統(tǒng)觀測(cè)狀態(tài)和系統(tǒng)運(yùn)行約束兩部分組成。分別構(gòu)建觀測(cè)狀態(tài)空間SO和約束狀態(tài)空間SC,即

        在配電網(wǎng)運(yùn)行時(shí),若配電網(wǎng)的約束條件不變,則狀態(tài)空間可以簡(jiǎn)化為SO,而SC作為已知常量輸入智能體。

        2.1.3 獎(jiǎng)勵(lì)空間

        獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)直接影響智能體的決策,設(shè)計(jì)過程中需充分考慮目標(biāo)函數(shù)和約束條件。智能體在動(dòng)作集A中選擇任一動(dòng)作后,環(huán)境會(huì)根據(jù)智能體的完成情況給予不同的獎(jiǎng)勵(lì)值。在本文中,若配電網(wǎng)故障得到恢復(fù),則智能體獲得正向獎(jiǎng)勵(lì);反之,若故障恢復(fù)失敗,則對(duì)智能體進(jìn)行懲罰。

        由于配電網(wǎng)不同約束條件對(duì)應(yīng)不同的重要程度,設(shè)置懲罰函數(shù)包括軟約束懲罰和硬約束懲罰,則獎(jiǎng)勵(lì)函數(shù)和懲罰函數(shù)分別為

        式中:rk1為獎(jiǎng)勵(lì)函數(shù);rk2和rk3分別為軟約束懲罰和硬約束懲罰;N1為收到獎(jiǎng)勵(lì)的動(dòng)作數(shù);N2和N3分別為收到軟約束懲罰和硬約束懲罰的動(dòng)作數(shù);ξ0、ξ1、ξ2為獎(jiǎng)懲常數(shù),可根據(jù)電網(wǎng)恢復(fù)需求設(shè)定;ξ′為很大的懲罰系數(shù),代表違反硬約束的懲罰;ai為智能體動(dòng)作;k1、k2、k3為智能體所屬的動(dòng)作空間;ci為常系數(shù)。這里軟約束條件可以被突破,智能體會(huì)被施加懲罰;而若硬約束條件被違反,則恢復(fù)過程終止。

        2.2 混合強(qiáng)化學(xué)習(xí)算法

        由式(26)~(31)可知,本文擬解決的問題為狀態(tài)空間連續(xù)且動(dòng)作空間兼具離散與連續(xù)的混合問題。目前,常用的解決方法是將動(dòng)作空間中連續(xù)部分轉(zhuǎn)換成離散部分,使用深度Q網(wǎng)絡(luò)DQN(deep Q-learning network)等算法加以求解,但會(huì)增加計(jì)算量,減慢計(jì)算速度。為解決此問題,本文提出了一種混合強(qiáng)化學(xué)習(xí)算法,將D3QN和DDPG算法相結(jié)合,使用D3QN 算法處理動(dòng)作空間離散部分,DDPG 算法處理動(dòng)作空間連續(xù)部分,達(dá)到精簡(jiǎn)動(dòng)作空間的目的。

        2.2.1 雙深度Q 網(wǎng)絡(luò)

        Q-learning方法是一種常用的強(qiáng)化學(xué)習(xí)方法,適用于解決配電網(wǎng)中離散變量的決策問題,是一種廣泛應(yīng)用的強(qiáng)化學(xué)習(xí)方法。此方法根據(jù)當(dāng)前狀態(tài)st由智能體決策得到動(dòng)作at。Q值函數(shù)可以表示為

        式中:μ為折扣因子;st和ad,t分別為t時(shí)刻狀態(tài)值和離散動(dòng)作值;Q(st,ad,t)為當(dāng)前狀態(tài)和動(dòng)作對(duì)應(yīng)的Q 值;Q′(st,ad,t)為上次迭代獲得的Q 值;r(st,ad,t)為智能體在當(dāng)前狀態(tài)和動(dòng)作獲得的獎(jiǎng)勵(lì)。為解決高維度運(yùn)算存在的內(nèi)存溢出問題,采用神經(jīng)網(wǎng)絡(luò)逼近Q值的DQN算法。

        在DQN算法中,定義Q值函數(shù)為

        式中,θ為神經(jīng)網(wǎng)絡(luò)的訓(xùn)練權(quán)值。DQN有兩個(gè)結(jié)構(gòu)相同的神經(jīng)網(wǎng)絡(luò),其中一個(gè)用于計(jì)算目標(biāo)Q 值,另一個(gè)用于估計(jì)當(dāng)前狀態(tài)的Q 值。DQN 算法的目標(biāo)是訓(xùn)練合適的權(quán)重,使得目標(biāo)Q值相對(duì)于當(dāng)前狀態(tài)Q值的損失最小化。yd,t為DQN算法中離散動(dòng)作目標(biāo)網(wǎng)絡(luò)的Q值,可表示為

        式中,θ′為目標(biāo)網(wǎng)絡(luò)的權(quán)值。

        DQN算法普遍存在高估問題,會(huì)導(dǎo)致訓(xùn)練結(jié)果偏離期望值。為解決這一問題,文獻(xiàn)[10]提出了Double DQN算法,對(duì)目標(biāo)網(wǎng)絡(luò)的動(dòng)作選擇和評(píng)估進(jìn)行解耦,從估計(jì)網(wǎng)絡(luò)中選擇Q值最大的動(dòng)作。Double DQN 與DQN 算法的區(qū)別僅在于目標(biāo)Q 值的計(jì)算。Double DQN 算法中離散動(dòng)作目標(biāo)網(wǎng)絡(luò)的Q 值可表示為

        為了保證動(dòng)作選擇在特定狀態(tài)下的支配性,文獻(xiàn)[11]提出了Dueling DQN 算法。Dueling 網(wǎng)絡(luò)的結(jié)構(gòu)如圖2 所示。Dueling 神經(jīng)網(wǎng)絡(luò)的狀態(tài)輸出為狀態(tài)值函數(shù)V(st)和動(dòng)作優(yōu)勢(shì)度函數(shù)A(st,ad,t)的組合,然后將兩者耦合到每個(gè)動(dòng)作的Q 值函數(shù)。此時(shí)Q值函數(shù)可以表示為

        圖2 Dueling 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Structure of dueling neural network

        式中:|A|為可執(zhí)行動(dòng)作的數(shù)量;為動(dòng)作優(yōu)勢(shì)度函數(shù)中的離散動(dòng)作值。

        D3QN 算法在Double DQN 的基礎(chǔ)上改進(jìn)了網(wǎng)絡(luò)結(jié)構(gòu),其余部分并無差異。在將D3QN 算法應(yīng)用于故障恢復(fù)模型時(shí),V(st)僅與配電網(wǎng)狀態(tài)有關(guān),A(st,ad,t)與配電網(wǎng)狀態(tài)和斷路器動(dòng)作狀態(tài)有關(guān)。這種處理減少了訓(xùn)練中錯(cuò)誤動(dòng)作對(duì)Q值計(jì)算的影響,能有效提升收斂速度。

        2.2.2 深度確定性策略梯度

        DDPG 是一種基于行動(dòng)者-批評(píng)家架構(gòu)的強(qiáng)化學(xué)習(xí)算法,適用于解決配電網(wǎng)中連續(xù)變量的決策問題,本文使用DDPG 算法來調(diào)節(jié)各節(jié)點(diǎn)上的電源功率。在DDPG 算法中,使用兩個(gè)網(wǎng)絡(luò)對(duì)智能體進(jìn)行訓(xùn)練,行動(dòng)者估計(jì)網(wǎng)絡(luò)β用來近似策略函數(shù),神經(jīng)網(wǎng)絡(luò)參數(shù)為θβ;批評(píng)家估計(jì)網(wǎng)絡(luò)ψ用于評(píng)價(jià)當(dāng)前狀態(tài)下動(dòng)作效果,神經(jīng)網(wǎng)絡(luò)參數(shù)為θψ。為了提高訓(xùn)練的穩(wěn)定性和收斂性,DDPG 算法還引入了行動(dòng)者目標(biāo)網(wǎng)絡(luò)β′和批評(píng)家目標(biāo)網(wǎng)絡(luò)ψ′,對(duì)應(yīng)的參數(shù)分別為θβ′和θψ′。

        行動(dòng)者估計(jì)網(wǎng)絡(luò)參數(shù)θβ的更新是沿著使Q 值更大的方向進(jìn)行的,即

        式中:?θJ為在優(yōu)化目標(biāo)函數(shù)J中對(duì)θ的梯度;?acQ和?θββ分別為對(duì)θψ和θβ的梯度;ac為連續(xù)動(dòng)作值。

        批評(píng)家估計(jì)網(wǎng)絡(luò)參數(shù)θψ使用最小化損失函數(shù)來更新,即

        式中:yc,t為連續(xù)動(dòng)作目標(biāo)網(wǎng)絡(luò)的Q值;ac,t為第t次循環(huán)對(duì)應(yīng)的連續(xù)動(dòng)作值;rc,t為第t次循環(huán)連續(xù)動(dòng)作獲得的獎(jiǎng)勵(lì)值。

        2.2.3 基于混合強(qiáng)化學(xué)習(xí)的恢復(fù)方法

        本文提出的混合強(qiáng)化學(xué)習(xí)算法采用D3QN 控制離散動(dòng)作、DDPG控制連續(xù)動(dòng)作,來實(shí)現(xiàn)故障的快速恢復(fù)。兩種算法在訓(xùn)練過程中獨(dú)立與環(huán)境交互,并從環(huán)境中更新同一狀態(tài),當(dāng)其中一個(gè)算法在訓(xùn)練時(shí),將另一個(gè)算法參數(shù)固定,作為訓(xùn)練環(huán)境的一部分。本文提出的算法流程如圖3 所示。其中,ad,i和ac,i分別為數(shù)組中第i個(gè)離散動(dòng)作和連續(xù)動(dòng)作,rd,i和rc,i分別為數(shù)組中第i個(gè)離散動(dòng)作獎(jiǎng)勵(lì)值和連續(xù)動(dòng)作獎(jiǎng)勵(lì)值。

        圖3 混合強(qiáng)化學(xué)習(xí)算法流程Fig.3 Flow chart of hybrid reinforcement learning algorithm

        以圖3所示的流程在給定的配電網(wǎng)拓?fù)浣Y(jié)構(gòu)中進(jìn)行訓(xùn)練,訓(xùn)練完成的智能體可用于配電網(wǎng)故障恢復(fù)。

        3 算例分析

        通過IEEE33節(jié)點(diǎn)配電網(wǎng)系統(tǒng),驗(yàn)證本文算法的有效性。本文計(jì)算機(jī)配置為Intel Core i5-1130 CPU,16 GB RAM,軟件采用python 3.10.6。分別使用D3QN算法、DQN+DDPG混合算法、D3QN+DDPG混合算法(本文算法)及傳統(tǒng)粒子群算法對(duì)系統(tǒng)進(jìn)行故障恢復(fù)。

        仿真所用IEEE33節(jié)點(diǎn)配電網(wǎng)如圖4所示,首段基準(zhǔn)電壓取12.66 kV,在節(jié)點(diǎn)12和節(jié)點(diǎn)23節(jié)點(diǎn)接入分布式光伏,節(jié)點(diǎn)7接入風(fēng)電機(jī),節(jié)點(diǎn)29接入儲(chǔ)能裝置。

        圖4 算例用IEEE33 節(jié)點(diǎn)配電網(wǎng)示意Fig.4 Schematic of IEEE33-node distribution network in example

        3.1 模型訓(xùn)練

        模型訓(xùn)練過程中的相關(guān)參數(shù)設(shè)置如表1 所示。訓(xùn)練獎(jiǎng)勵(lì)-步長(zhǎng)曲線如圖5所示。由圖5可知,3 種算法均能有效收斂,其中本文算法比D3QN 算法收斂速度更快,比DQN+DDPG 算法在收斂穩(wěn)定性上更具優(yōu)勢(shì)。這表明Double DQN 和Dueling network的引入能提升收斂穩(wěn)定性,本文算法在訓(xùn)練效果上優(yōu)于其他強(qiáng)化學(xué)習(xí)方法。

        表1 算例參數(shù)設(shè)置Tab.1 Parameter setting for example

        圖5 訓(xùn)練獎(jiǎng)勵(lì)-步長(zhǎng)曲線Fig.5 Curve of training reward vs step length

        3.2 恢復(fù)效果

        將訓(xùn)練好的模型進(jìn)行保存,并對(duì)IEEE33節(jié)點(diǎn)配電網(wǎng)進(jìn)行恢復(fù),分別設(shè)定4種情況的仿真參數(shù)如下。情況1:恢復(fù)步長(zhǎng)為20、離散變量數(shù)為420、連續(xù)變量數(shù)為400;情況2:恢復(fù)步長(zhǎng)為40、離散變量數(shù)為840、連續(xù)變量數(shù)為800;情況3:恢復(fù)步長(zhǎng)為60、離散變量數(shù)為1 260、連續(xù)變量數(shù)為1 200;情況4:恢復(fù)步長(zhǎng)為80、離散變量數(shù)為1 680、連續(xù)變量數(shù)為1 600。將本文算法與D3QN 算法、DQN+DDPG 混合算法、粒子群算法進(jìn)行對(duì)比,恢復(fù)效果如圖6和表2所示。

        表2 恢復(fù)效果對(duì)比Tab.2 Comparison of recovery result

        圖6 恢復(fù)過程相關(guān)參數(shù)Fig.6 Related parameters of recovery process

        圖6 給出了恢復(fù)過程失負(fù)荷量、網(wǎng)絡(luò)損耗、儲(chǔ)能裝置功率、光伏功率和風(fēng)機(jī)功率的變化情況??梢钥闯?,對(duì)于失負(fù)荷量,本文算法的曲線前段下降迅速,在恢復(fù)速度上優(yōu)于其他算法,同時(shí)3 種強(qiáng)化學(xué)習(xí)算法恢復(fù)后的失負(fù)荷量均優(yōu)于粒子群算法,其中本文算法略優(yōu)于D3QN算法和DQN+DDPG算法;對(duì)于網(wǎng)絡(luò)損耗,本文算法優(yōu)于DQN+DDPG 算法和粒子群算法,這是因?yàn)镈3QN 算法在網(wǎng)絡(luò)損耗控制方面表現(xiàn)更好,降低了恢復(fù)過程的網(wǎng)絡(luò)損耗;對(duì)于儲(chǔ)能裝置功率,本文算法中儲(chǔ)能裝置的平均功率最小,功率波動(dòng)平緩,有些時(shí)段還可利用盈余功率進(jìn)行充電,這樣可有效減少儲(chǔ)能設(shè)備的裝機(jī)容量,延長(zhǎng)裝置壽命,降低裝設(shè)成本;對(duì)于光伏和風(fēng)機(jī)功率,本文算法中光伏和風(fēng)機(jī)的平均功率高于其他算法,功率曲線更為平緩,這表明本文算法在分布式電源調(diào)控方面具有優(yōu)勢(shì)。

        表2給出了恢復(fù)過程中4種算法的最優(yōu)目標(biāo)函數(shù)值和恢復(fù)時(shí)間的對(duì)比??梢钥闯?,對(duì)于最優(yōu)目標(biāo)函數(shù)值,4 種仿真情況下本文算法的最優(yōu)目標(biāo)函數(shù)值均最小,恢復(fù)效果最優(yōu),而且隨著離散變量和連續(xù)變量數(shù)量及步長(zhǎng)的增加,本文算法的恢復(fù)效果的優(yōu)勢(shì)更為明顯。此外,3 種強(qiáng)化學(xué)習(xí)算法的恢復(fù)效果均優(yōu)于粒子群算法且優(yōu)勢(shì)明顯。對(duì)于恢復(fù)時(shí)間,3種強(qiáng)化學(xué)習(xí)算法的恢復(fù)速度均明顯優(yōu)于粒子群算法,這是因?yàn)閺?qiáng)化學(xué)習(xí)算法在訓(xùn)練完成后,保存的智能體可以直接用于恢復(fù),在同一拓?fù)浣Y(jié)構(gòu)下無需重新訓(xùn)練。本文算法的恢復(fù)時(shí)間最短,同時(shí)隨著離散變量和連續(xù)變量數(shù)量及步長(zhǎng)的增加,幾乎沒有造成恢復(fù)時(shí)間的延長(zhǎng)。而粒子群算法隨著離散變量和連續(xù)變量數(shù)量及步長(zhǎng)的增加,恢復(fù)時(shí)間會(huì)明顯延長(zhǎng),在步長(zhǎng)為80 時(shí)粒子群算法恢復(fù)時(shí)間是本文算法的2 300倍。上述結(jié)果驗(yàn)證了本文算法在恢復(fù)速度方面也優(yōu)于傳統(tǒng)算法。

        4 結(jié) 論

        本文提出了一種基于混合強(qiáng)化學(xué)習(xí)的主動(dòng)配電網(wǎng)故障恢復(fù)方法,主要結(jié)論如下。

        (1)本文針對(duì)主動(dòng)配電網(wǎng)故障恢復(fù)問題,構(gòu)建了配電網(wǎng)故障恢復(fù)模型,同時(shí)模型中還考慮了高比例新能源接入的情況。

        (2)選取D3QN+DDPG 混合算法作為訓(xùn)練算法,解決了傳統(tǒng)強(qiáng)化學(xué)習(xí)方法只能處理單一動(dòng)作空間的問題。結(jié)果表明,本文算法在訓(xùn)練時(shí)收斂穩(wěn)定性高,恢復(fù)過程網(wǎng)絡(luò)損耗控制良好,分布式電源出力平穩(wěn),對(duì)儲(chǔ)能裝置依賴也較小,同時(shí)在恢復(fù)速度和恢復(fù)效果上優(yōu)勢(shì)明顯,驗(yàn)證了本文算法的有效性和優(yōu)越性。

        猜你喜歡
        配電網(wǎng)動(dòng)作智能
        智能前沿
        文苑(2018年23期)2018-12-14 01:06:06
        配電網(wǎng)自動(dòng)化的應(yīng)用與發(fā)展趨勢(shì)
        智能前沿
        文苑(2018年19期)2018-11-09 01:30:14
        智能前沿
        文苑(2018年17期)2018-11-09 01:29:26
        智能前沿
        文苑(2018年21期)2018-11-09 01:22:32
        動(dòng)作描寫要具體
        畫動(dòng)作
        動(dòng)作描寫不可少
        基于IEC61850的配電網(wǎng)數(shù)據(jù)傳輸保護(hù)機(jī)制
        配電網(wǎng)不止一步的跨越
        河南電力(2016年5期)2016-02-06 02:11:24
        国产精品亚洲一级av第二区| 久久精品国产一区二区蜜芽| 日产精品一区二区三区免费| 狼狼色丁香久久女婷婷综合| 中文字幕在线观看| 无码国产午夜福利片在线观看| 久热香蕉av在线爽青青| 国成成人av一区二区三区| 日本丰满老妇bbw| 人妻少妇被猛烈进入中文字幕 | 亚洲一区二区三区18| 色天使久久综合网天天| 亚洲av无码不卡| 99久久久精品免费| 最近中文字幕精品在线| 日本成本人片免费网站| 两个黑人大战嫩白金发美女| 色人阁第四色视频合集网 | 日本一区二区久久精品亚洲中文无| 免费av日韩一区二区| 欧美日韩国产码高清综合人成| 午夜三级网| 国产av精品久久一区二区| 中文字幕无码成人片| 国产精品美女一区二区三区| 亚洲色欲色欲大片WWW无码| 久久亚洲乱码中文字幕熟女 | 久久精品国产亚洲av影院| 久久国产A√无码专区亚洲| 精品国产乱码一区二区三区| 成人av片在线观看免费| 国产在线不卡一区二区三区| 欧美日本视频一区| 偷拍综合在线视频二区日韩| 国产99久久久国产精品免费看| 欧美人与动zozo| 亚洲国产精品久久性色av| 成人免费无码大片a毛片| 中国精学生妹品射精久久| 女同国产日韩精品在线| 午夜影视免费|