亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度強(qiáng)化學(xué)習(xí)的暫態(tài)穩(wěn)定緊急控制決策方法

        2023-03-23 02:22:38李宏浩
        電力系統(tǒng)自動(dòng)化 2023年5期
        關(guān)鍵詞:控制策略發(fā)電機(jī)動(dòng)作

        李宏浩,張 沛,劉 曌

        (北京交通大學(xué)電氣工程學(xué)院,北京市 100044)

        0 引言

        隨著新型電力系統(tǒng)的建設(shè),電力系統(tǒng)的動(dòng)態(tài)行為日益復(fù)雜,給電力系統(tǒng)暫態(tài)穩(wěn)定控制帶來了挑戰(zhàn)[1-2],而暫態(tài)失穩(wěn)事故是造成國(guó)民經(jīng)濟(jì)損失和社會(huì)損失的重要原因[3-4]。電力系統(tǒng)緊急控制是電力系統(tǒng)安全穩(wěn)定控制的第二道防線,通常采取切機(jī)、切負(fù)荷的控制手段降低電網(wǎng)受擾后的不平衡功率,對(duì)保持系統(tǒng)暫態(tài)穩(wěn)定、避免大停電事故、保障電力系統(tǒng)安全經(jīng)濟(jì)運(yùn)行具有重要意義[5-7]。目前,廣域測(cè)量系統(tǒng)(wide-area measurement system,WAMS)和相量測(cè)量單元(phasor measurement unit,PMU)的廣泛應(yīng)用,使現(xiàn)代電力系統(tǒng)可觀性得到巨大提升,為“實(shí)時(shí)決策、實(shí)時(shí)匹配”的暫態(tài)穩(wěn)定分析與控制研究提供了數(shù)據(jù)基礎(chǔ)。

        現(xiàn)有的暫態(tài)穩(wěn)定緊急控制的研究主要分為基于時(shí)域仿真的方法、基于廣域響應(yīng)的方法和基于人工智能的方法3 類。在基于時(shí)域仿真的方法中,文獻(xiàn)[8]提出以控制參數(shù)化方法將最優(yōu)切機(jī)切負(fù)荷問題轉(zhuǎn)化為一般規(guī)劃問題后求解。文獻(xiàn)[9]基于支持向量機(jī)挖掘規(guī)則將穩(wěn)定性約束線性化,實(shí)現(xiàn)緊急控制模型的快速求解。文獻(xiàn)[10]建立一種包含暫態(tài)方程約束的暫態(tài)穩(wěn)定最優(yōu)控制模型,通過基于有限元正交配置的序貫優(yōu)化算法求解控制策略。在基于廣域響應(yīng)的方法中,文獻(xiàn)[11]提出一種基于廣域測(cè)量數(shù)據(jù)的在線暫態(tài)穩(wěn)定緊急控制方法,以安全經(jīng)濟(jì)綜合指標(biāo)形成切機(jī)控制決策。文獻(xiàn)[12]提出一種綜合能量管理系統(tǒng)(energy management system,EMS)、WAMS 等的電網(wǎng)預(yù)防控制和緊急控制一體化框架。文獻(xiàn)[13]提出一種基于相對(duì)動(dòng)能的緊急控制方法,依據(jù)WAMS 數(shù)據(jù)和等面積準(zhǔn)則定量求解切機(jī)量。文獻(xiàn)[14]提出以WAMS 的電氣量定位電網(wǎng)薄弱臨界斷面,識(shí)別關(guān)鍵支路用于指導(dǎo)緊急控制。在基于人工智能的方法中,文獻(xiàn)[15]提出通過深度學(xué)習(xí)提取電網(wǎng)與環(huán)境信息特征,并采用Q 學(xué)習(xí)算法訓(xùn)練最優(yōu)的切機(jī)控制策略。文獻(xiàn)[16]提出一種暫態(tài)穩(wěn)定裕度評(píng)估與緊急控制相結(jié)合的方法,通過切機(jī)、切負(fù)荷靈敏度確定最優(yōu)緊急控制策略。文獻(xiàn)[17]提出通過改進(jìn)AlexNet 網(wǎng)絡(luò)預(yù)測(cè)功角變化,并建立緊急控制優(yōu)化模型求解控制策略。上述研究在形成控制策略的過程中,往往需要對(duì)部分約束條件做線性化處理,或在較小的控制集上求解,且易忽略未來系統(tǒng)的運(yùn)行狀態(tài)使結(jié)果不夠精確。此外,廣域響應(yīng)信號(hào)在采集、路由、傳輸和處理過程中存在數(shù)十到數(shù)百毫秒的時(shí)滯[18-19],這將對(duì)系統(tǒng)狀態(tài)產(chǎn)生不確定性影響,導(dǎo)致控制策略難以應(yīng)用。

        電力系統(tǒng)是一個(gè)典型的時(shí)滯動(dòng)力系統(tǒng),暫態(tài)穩(wěn)定緊急控制需要考慮系統(tǒng)的時(shí)滯不確定性影響和系統(tǒng)的未來運(yùn)行狀態(tài)。相對(duì)而言,深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)可通過價(jià)值函數(shù)近似考慮不確定性因素下未來系統(tǒng)的運(yùn)行狀態(tài),在考慮發(fā)電機(jī)以及負(fù)荷等離散變量的情況下解決最優(yōu)控制問題[20-22],有望形成更有效的控制策略。

        為實(shí)現(xiàn)時(shí)滯不確定性下的緊急控制問題的求解和減輕DRL 負(fù)擔(dān),本文提出一種結(jié)合深度Q 網(wǎng)絡(luò)(deep Q-learning network,DQN)的DRL 與暫態(tài)能量函數(shù)的緊急控制方法。首先,構(gòu)建了DRL 框架,將暫態(tài)能量函數(shù)的勢(shì)能指數(shù)加入獎(jiǎng)勵(lì)函數(shù)中,提升學(xué)習(xí)過程的效率;然后,采用離散型DQN 求解算法,將在線運(yùn)行的計(jì)算負(fù)擔(dān)轉(zhuǎn)移至離線訓(xùn)練過程,在交互中學(xué)習(xí)得到切機(jī)和切負(fù)荷的緊急控制策略;最后,采用IEEE 39 節(jié)點(diǎn)系統(tǒng)對(duì)緊急控制模型和控制策略的有效性進(jìn)行驗(yàn)證。

        1 基于DRL 的緊急控制模型

        1.1 馬爾可夫決策與緊急控制

        電力系統(tǒng)在遭受到嚴(yán)重?cái)_動(dòng)后,若第一道防線不能保證系統(tǒng)穩(wěn)定性,則安全穩(wěn)定控制中心將采取準(zhǔn)確、精準(zhǔn)的緊急控制措施,維持系統(tǒng)穩(wěn)定并防止事故蔓延。暫態(tài)穩(wěn)定緊急控制的目的是以最小的控制代價(jià)保證系統(tǒng)能夠繼續(xù)穩(wěn)定運(yùn)行。緊急控制中需要根據(jù)系統(tǒng)狀態(tài)形成離散化切機(jī)和切負(fù)荷的動(dòng)作序列,隨著控制動(dòng)作組合的數(shù)量增加,控制變量維度將大幅提升。因此,緊急控制是一個(gè)含離散變量的高維序貫決策問題。此外,每種不同的決策不僅影響當(dāng)前狀態(tài),還會(huì)影響若干時(shí)間后系統(tǒng)的暫態(tài)穩(wěn)定性。同時(shí),考慮到暫態(tài)過程響應(yīng)非常迅速,整個(gè)控制過程中的時(shí)滯隨機(jī)性將會(huì)導(dǎo)致后續(xù)決策時(shí)系統(tǒng)狀態(tài)的不確定性。因此,傳統(tǒng)優(yōu)化問題難以得出最優(yōu)控制決策。

        馬爾可夫決策過程(Markov decision process,MDP)可由狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)、轉(zhuǎn)移概率和折扣因子S,A,R,P,γ五元組表示,其中,P以概率的形式刻畫了環(huán)境的動(dòng)態(tài)特性,折扣因子γ則反映了對(duì)未來獎(jiǎng)勵(lì)影響的關(guān)注程度[23]。由于包含不確定性因素的電力系統(tǒng)環(huán)境的轉(zhuǎn)移概率無法精確建模,可采用無模型的強(qiáng)化學(xué)習(xí)方法,通過ε-greedy 策略和大量交互訓(xùn)練的方式學(xué)習(xí)環(huán)境狀態(tài)間的轉(zhuǎn)移規(guī)則,尋找使累計(jì)回報(bào)最大的控制決策策略。因此,本文考慮將時(shí)滯不確定性的暫態(tài)穩(wěn)定緊急控制問題建模為MDP 問題,通過強(qiáng)化學(xué)習(xí)方法實(shí)現(xiàn)廣域量測(cè)信息到緊急控制決策的映射。

        強(qiáng)化學(xué)習(xí)的過程如圖1 所示。智能體將觀測(cè)環(huán)境的狀態(tài)st作為輸入,同時(shí)求解最優(yōu)動(dòng)作at,環(huán)境接受動(dòng)作后將轉(zhuǎn)移到下一步狀態(tài)st+1,通過對(duì)智能體動(dòng)作進(jìn)行評(píng)價(jià)反饋獎(jiǎng)勵(lì)rt+1。通過智能體和環(huán)境的不斷交互,引導(dǎo)智能體沿著最大化預(yù)期獎(jiǎng)勵(lì)的方式學(xué)習(xí),最終形成特定目標(biāo)下的最優(yōu)控制策略[24]。

        圖1 強(qiáng)化學(xué)習(xí)交互過程Fig.1 Interaction process of reinforcement learning

        DRL 是一種端對(duì)端的感知與控制系統(tǒng),具有很強(qiáng)的通用性[25],目前,主流的DRL 方法包括基于價(jià)值和基于策略的DRL 方法,前者會(huì)評(píng)估不同動(dòng)作的預(yù)期收益并選擇最優(yōu)收益所對(duì)應(yīng)的動(dòng)作,而后者是直接求取使目標(biāo)最優(yōu)的動(dòng)作概率。相較于基于策略梯度類型等算法,基于價(jià)值的DRL 方法更直觀、易于理解、方便調(diào)參且能夠更好地解決離散決策問題?;趦r(jià)值的方法使用價(jià)值函數(shù)來評(píng)估智能體在給定狀態(tài)下未來回報(bào)收益期望的大小,其中,動(dòng)作價(jià)值函數(shù)是狀態(tài)s與動(dòng)作a二元組的函數(shù),在策略π下的表達(dá)式如下:

        式 中:E(·)表 示 求 期 望;St為t時(shí) 刻 狀 態(tài);At為t時(shí) 刻動(dòng)作;Rt+β+1為t時(shí)刻后第β步的獎(jiǎng)勵(lì)。

        在強(qiáng)化學(xué)習(xí)中通常采用ε-greedy 策略來確定每次選擇執(zhí)行的動(dòng)作,即決策時(shí)大部分情況采取已有經(jīng)驗(yàn)中動(dòng)作價(jià)值最優(yōu)的動(dòng)作,其余情況會(huì)以較小的概率ε隨機(jī)選擇一個(gè)動(dòng)作。其對(duì)應(yīng)的表達(dá)式如下:

        式中:π(a|s)表示智能體在狀態(tài)s下采取動(dòng)作a的概率;q*(s,a)為最優(yōu)動(dòng)作值函數(shù)。

        1.2 緊急控制的DRL 模型

        在將電力系統(tǒng)緊急控制問題建模為DRL 問題的過程中,智能體狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)函數(shù)的設(shè)置直接決定了模型性能的好壞。

        1.2.1 狀態(tài)空間

        狀態(tài)空間描述智能體感知到的環(huán)境信息。在暫態(tài)穩(wěn)定分析中,發(fā)電機(jī)機(jī)組功角搖擺以及系統(tǒng)網(wǎng)絡(luò)節(jié)點(diǎn)的電壓等特征能夠反映系統(tǒng)的暫態(tài)穩(wěn)定性。因此,本文選擇發(fā)電機(jī)功角、發(fā)電機(jī)轉(zhuǎn)子轉(zhuǎn)速、網(wǎng)絡(luò)節(jié)點(diǎn)電壓幅值和相位作為智能體的狀態(tài)空間。若系統(tǒng)有n個(gè)節(jié)點(diǎn)、m臺(tái)發(fā)電機(jī)和l個(gè)負(fù)荷,則智能體狀態(tài)空間S如下式所示:

        式中:δGi為第i臺(tái)發(fā)電機(jī)的功角,i=1,2,…,m;ωGi為第i臺(tái)發(fā)電機(jī)的轉(zhuǎn)子角速度;VNj為第j個(gè)節(jié)點(diǎn)的電壓幅值,j=1,2,…,n;θNj為第j個(gè)節(jié)點(diǎn)的電壓相位。

        1.2.2 動(dòng)作空間

        動(dòng)作空間描述了智能體全部的控制方式。在暫態(tài)穩(wěn)定緊急控制中,切除發(fā)電機(jī)可以降低系統(tǒng)機(jī)械功率的輸入,而當(dāng)系統(tǒng)負(fù)荷過重時(shí)則需要切除負(fù)荷。為使結(jié)果更具一般性,本文選擇切機(jī)和切負(fù)荷的動(dòng)作,則智能體動(dòng)作空間A如下所示:

        式中:PGi為第i臺(tái)發(fā)電機(jī)的切除量,i=1,2,…,m;PLk為第k個(gè)負(fù)荷的切除量,k=1,2,…,l。

        為方便強(qiáng)化學(xué)習(xí)的訓(xùn)練,本文將切機(jī)與切負(fù)荷的控制動(dòng)作空間進(jìn)行離散化處理,并統(tǒng)一對(duì)離散化動(dòng)作編號(hào)。切機(jī)控制一般將整臺(tái)發(fā)電機(jī)切除,故每臺(tái)發(fā)電機(jī)設(shè)置一個(gè)動(dòng)作序號(hào);切負(fù)荷控制通常按一定的比例切除負(fù)荷,故每個(gè)負(fù)荷設(shè)置間隔均等的h組動(dòng)作號(hào)。同時(shí)計(jì)不動(dòng)作的序號(hào)為0,則智能體離散化后的動(dòng)作序號(hào)Ac表示為:

        式中:c為自然數(shù)表示的動(dòng)作序號(hào);PG表示切機(jī)控制,共有m組動(dòng)作;PL表示切負(fù)荷控制,共有hl組動(dòng)作。

        1.2.3 獎(jiǎng)勵(lì)函數(shù)

        獎(jiǎng)勵(lì)函數(shù)用于評(píng)價(jià)智能體動(dòng)作的好壞,引導(dǎo)智能體調(diào)節(jié)其參數(shù)達(dá)到預(yù)期獎(jiǎng)勵(lì)最大化,是最終形成控制決策的關(guān)鍵。本文將獎(jiǎng)勵(lì)函數(shù)劃分為短期獎(jiǎng)勵(lì)和長(zhǎng)期獎(jiǎng)勵(lì)兩部分:短期獎(jiǎng)勵(lì)用于反映系統(tǒng)狀態(tài)是否在約束范圍內(nèi);長(zhǎng)期獎(jiǎng)勵(lì)用于反映控制后系統(tǒng)是否穩(wěn)定,是訓(xùn)練過程中決定每步?jīng)Q策的最重要因素。獎(jiǎng)勵(lì)函數(shù)Rt的制定規(guī)則如下式所示:

        式中:st為智能體的狀態(tài)集合;Tstable為穩(wěn)定下的狀態(tài)集合;RC為控制最終達(dá)到穩(wěn)定后的獎(jiǎng)勵(lì)值,通常取一個(gè)較大的正數(shù)[26];RP為控制后失穩(wěn)的懲罰值,通常取一個(gè)負(fù)數(shù);Tconstraint為約束狀態(tài)集合,目的是使控制后系統(tǒng)狀態(tài)處在約束范圍內(nèi);RF為每一步控制動(dòng)作的短期獎(jiǎng)勵(lì)函數(shù)。

        本文將短期獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)為包含能量獎(jiǎng)勵(lì)函數(shù)re、控制成本獎(jiǎng)勵(lì)函數(shù)rc、有功功率約束獎(jiǎng)勵(lì)函數(shù)rg、電壓約束獎(jiǎng)勵(lì)函數(shù)rv、控制步數(shù)約束獎(jiǎng)勵(lì)函數(shù)rn五部分,即

        1)能量獎(jiǎng)勵(lì)函數(shù)

        暫態(tài)能量函數(shù)能夠衡量系統(tǒng)穩(wěn)定裕度。當(dāng)系統(tǒng)狀態(tài)動(dòng)態(tài)變化時(shí),各類參數(shù)會(huì)相對(duì)穩(wěn)定狀態(tài)產(chǎn)生較大的偏移,可以依托量測(cè)數(shù)據(jù)實(shí)時(shí)求出,故通過勢(shì)能指數(shù)表征系統(tǒng)動(dòng)態(tài)響應(yīng)中的能量變化趨勢(shì)[27]。受此啟發(fā),本文定義能量函數(shù)勢(shì)能指數(shù),以一個(gè)單值函數(shù)變量值來描述初始工作點(diǎn)控制前后的能量變化。根據(jù)多機(jī)系統(tǒng)的節(jié)點(diǎn)收縮等效模型構(gòu)造暫態(tài)能量函數(shù),選擇系統(tǒng)轉(zhuǎn)子位置勢(shì)能和系統(tǒng)磁場(chǎng)勢(shì)能構(gòu)成勢(shì)能指數(shù)FVp,如下所示:

        式中:Vp1和Vp2分別為轉(zhuǎn)子位置勢(shì)能指數(shù)和磁場(chǎng)勢(shì)能指數(shù),λ1和λ2為兩者的權(quán)重,本文分別取0.1 和1;Pmx為第x臺(tái)發(fā)電機(jī)輸入的機(jī)械功率;Ex為第x臺(tái)發(fā)電機(jī)的電勢(shì);δx為第x臺(tái)發(fā)電機(jī)的功角;Gxx和Bxy分別為收縮節(jié)點(diǎn)導(dǎo)納矩陣的實(shí)部和虛部元素;δxy為兩臺(tái)發(fā)電機(jī)間的相對(duì)功角;δsx和δsxy分別為初始工作點(diǎn)的發(fā)電機(jī)功角和相對(duì)功角。

        能量函數(shù)勢(shì)能指數(shù)的大小能夠反映當(dāng)前運(yùn)行點(diǎn)與初始運(yùn)行點(diǎn)的勢(shì)能的距離,體現(xiàn)控制決策前后的系統(tǒng)勢(shì)能變化趨勢(shì)。將其納入獎(jiǎng)勵(lì)函數(shù)中,旨在減少學(xué)習(xí)過程中不利于穩(wěn)定的控制動(dòng)作,有利于指導(dǎo)智能體向降低系統(tǒng)能量的方向探索,提高學(xué)習(xí)效率。能量獎(jiǎng)勵(lì)函數(shù)表達(dá)式如下:

        式中:Ft為當(dāng)前時(shí)刻的勢(shì)能指數(shù)值;F0為參考的勢(shì)能指數(shù)值;ce為能量函數(shù)懲罰系數(shù)。

        2)控制成本獎(jiǎng)勵(lì)函數(shù)

        控制成本獎(jiǎng)勵(lì)函數(shù)反映了切機(jī)和切負(fù)荷的成本,根據(jù)切除量的加權(quán)和給予懲罰。表達(dá)式如下:

        式中:cG為切機(jī)懲罰系數(shù);cL為切負(fù)荷懲罰系數(shù)。

        3)有功功率約束獎(jiǎng)勵(lì)函數(shù)

        發(fā)電機(jī)有功功率約束是為了限制控制后各臺(tái)發(fā)電機(jī)的出力,使其在上下限值約束范圍內(nèi)。本文根據(jù)超出限值的大小給予懲罰,表達(dá)式如下:

        式中:cg為有功越限懲罰系數(shù);rpg,i為第i臺(tái)發(fā)電機(jī)功率的越限值;為第i臺(tái)發(fā)電機(jī)的有功功率;和分別為第i臺(tái)發(fā)電機(jī)功率的上限和下限。

        4)電壓約束獎(jiǎng)勵(lì)函數(shù)

        節(jié)點(diǎn)電壓約束獎(jiǎng)勵(lì)函數(shù)是為了限制控制后各節(jié)點(diǎn)電壓,并根據(jù)超出上下限值的大小給予懲罰,表達(dá)式如下:

        式中:cv為電壓越限懲罰系數(shù);rnv,j為節(jié)點(diǎn)j電壓的越限值;為第j個(gè)節(jié)點(diǎn)的電壓值;和分別為節(jié)點(diǎn)j電壓幅值的上限和下限。

        5)控制步數(shù)約束獎(jiǎng)勵(lì)函數(shù)

        控制步數(shù)約束獎(jiǎng)勵(lì)函數(shù)是為了限制每次控制動(dòng)作的總次數(shù),指導(dǎo)智能體以最少的動(dòng)作次數(shù)完成控制目標(biāo),根據(jù)控制次數(shù)的多少給予懲罰。表達(dá)式如下:

        式中:cn為控制步數(shù)懲罰系數(shù);Nstep為控制次數(shù),Nstep=1,2,…,Nmax,其中,Nmax為最大控制次數(shù)。

        需要注意的是,短期獎(jiǎng)勵(lì)函數(shù)在每一步(step)動(dòng)作后更新并累加,長(zhǎng)期獎(jiǎng)勵(lì)函數(shù)僅在每一幕(episode)結(jié)束后計(jì)算。獎(jiǎng)勵(lì)函數(shù)正的獎(jiǎng)勵(lì)值應(yīng)當(dāng)大于負(fù)的獎(jiǎng)勵(lì)值,即長(zhǎng)期穩(wěn)定的正值獎(jiǎng)勵(lì)大于控制中負(fù)值懲罰,以保證每次成功的控制動(dòng)作能夠被智能體學(xué)習(xí)。此外,能量函數(shù)獎(jiǎng)勵(lì)在系統(tǒng)失穩(wěn)后會(huì)有很大的懲罰值,若此項(xiàng)持續(xù)過高,則智能體可能會(huì)直接選擇使系統(tǒng)失穩(wěn)的動(dòng)作以提前結(jié)束運(yùn)行,難以繼續(xù)訓(xùn)練。為此,本文對(duì)式(11)的能量獎(jiǎng)勵(lì)函數(shù)進(jìn)行最值強(qiáng)制約束,所使用的實(shí)際獎(jiǎng)勵(lì)函數(shù)r′e為:

        式中:re0為一個(gè)正數(shù),表示強(qiáng)制約束的限值。

        2 DQN 算法和緊急控制決策框架

        2.1 DQN 算法

        DRL 主要是依托深度神經(jīng)網(wǎng)絡(luò)和Q 學(xué)習(xí)在訓(xùn)練的過程中做出決策,深度神經(jīng)網(wǎng)絡(luò)建立了輸入數(shù)據(jù)和輸出動(dòng)作的關(guān)系,Q 學(xué)習(xí)則從環(huán)境信息中調(diào)整網(wǎng)絡(luò)參數(shù),不斷更新最優(yōu)動(dòng)作以獲取最大回報(bào)。DQN 算法可以解決Q 學(xué)習(xí)算法中狀態(tài)空間的維度爆炸問題,將每一狀態(tài)和動(dòng)作下的動(dòng)作值函數(shù)Q值由一個(gè)帶有參數(shù)w的神經(jīng)網(wǎng)絡(luò)擬合得出,該參數(shù)表示神經(jīng)網(wǎng)絡(luò)中的權(quán)重和偏差。在DRL 中,智能體通過學(xué)習(xí)更新參數(shù)w以實(shí)現(xiàn)最優(yōu)策略。當(dāng)神經(jīng)網(wǎng)絡(luò)參數(shù)收斂后,可以獲得近似的Q值。

        1)估計(jì)網(wǎng)絡(luò)與目標(biāo)網(wǎng)絡(luò)

        在智能體訓(xùn)練過程中使用估計(jì)網(wǎng)絡(luò)(evaluation network)和目標(biāo)網(wǎng)絡(luò)(target network)兩個(gè)神經(jīng)網(wǎng)絡(luò)共同完成動(dòng)作值函數(shù)Q值的迭代更新。估計(jì)網(wǎng)絡(luò)負(fù)責(zé)擬合從狀態(tài)到Q值的映射關(guān)系,目標(biāo)網(wǎng)絡(luò)則生成Q值用于構(gòu)建學(xué)習(xí)目標(biāo)。若智能體基于狀態(tài)st、選擇動(dòng)作at、得到獎(jiǎng)勵(lì)rt+1,并進(jìn)入下一步狀態(tài)st+1,則該時(shí)刻的目標(biāo)網(wǎng)絡(luò)Q值為:

        式中:a′表示下一步動(dòng)作;w-表示目標(biāo)網(wǎng)絡(luò)中的參數(shù);Q(st+1,a′;w-)表 示 下 一 步 狀 態(tài) 目 標(biāo) 網(wǎng) 絡(luò) 擬 合的Q值。

        目標(biāo)網(wǎng)絡(luò)結(jié)構(gòu)與估計(jì)網(wǎng)絡(luò)結(jié)構(gòu)相同,其每隔一段時(shí)間后以最新的估計(jì)網(wǎng)絡(luò)參數(shù)更新,并在間隔期間保持參數(shù)不變,使整體的迭代過程更加穩(wěn)定,提升算法的收斂性。估計(jì)網(wǎng)絡(luò)的更新迭代量ΔQ(st,at)的表達(dá)式如下:

        式中:wt為估計(jì)網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù);α為學(xué)習(xí)率。

        2)經(jīng)驗(yàn)回放機(jī)制與時(shí)序差分誤差

        智能體每次與環(huán)境交互后,都會(huì)將樣本st,at,rt+1,st+1存儲(chǔ)到樣本記憶庫(kù)之中。為打亂樣本間的相關(guān)性,每次將在樣本記憶庫(kù)中隨機(jī)抽取小批量樣本用于訓(xùn)練估計(jì)神經(jīng)網(wǎng)絡(luò)。DQN 估計(jì)網(wǎng)絡(luò)迭代前后Q值的差稱為時(shí)序差分誤差,訓(xùn)練中通常以該項(xiàng)誤差的平方作為損失函數(shù)L,表達(dá)式如下:

        3)DQN 算法改善

        DQN 算法中為了解決Q值過高估計(jì)的問題,常采用Double DQN 方法將動(dòng)作選擇和價(jià)值估計(jì)進(jìn)行分離,即從估計(jì)網(wǎng)絡(luò)中產(chǎn)生能獲得最大Q值的動(dòng)作,而該動(dòng)作對(duì)應(yīng)Q值由目標(biāo)網(wǎng)絡(luò)計(jì)算。為解決某些狀態(tài)本身對(duì)狀態(tài)轉(zhuǎn)移的影響,將采用Dueling DQN 方法來引入狀態(tài)評(píng)級(jí)值,將估計(jì)網(wǎng)絡(luò)的輸出層改為2 個(gè)分支狀態(tài)評(píng)價(jià)值和動(dòng)作優(yōu)勢(shì)評(píng)價(jià)值,以此改善算法的收斂效果。此外,為解決數(shù)據(jù)量級(jí)差別較大而產(chǎn)生訓(xùn)練困難的問題,一般需要對(duì)樣本的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化預(yù)處理。

        2.2 緊急控制決策模型流程

        智能體與環(huán)境的交互過程中,需要制定一個(gè)指標(biāo)來衡量系統(tǒng)的暫態(tài)功角穩(wěn)定程度。因此,本文選擇暫態(tài)穩(wěn)定系數(shù)(transient stability index,TSI)為指標(biāo)[28],以受擾后各發(fā)電機(jī)的相對(duì)功角值來判斷暫態(tài)穩(wěn)定性。表達(dá)式如下:

        式中:ITSI為TSI 值;Δδmax為仿真時(shí)長(zhǎng)內(nèi)任意兩臺(tái)發(fā)電機(jī)中最大相對(duì)功角差。

        當(dāng)ITSI>0 時(shí),系統(tǒng)穩(wěn)定,并且該數(shù)值越大,系統(tǒng)穩(wěn)定程度越高;ITSI<0 時(shí),系統(tǒng)失穩(wěn),并且該數(shù)值越小,系統(tǒng)失穩(wěn)程度越高。

        在整個(gè)訓(xùn)練過程中,受時(shí)滯因素的影響,智能體每幕學(xué)習(xí)所面臨的系統(tǒng)狀態(tài)是不確定的,需要設(shè)置多幕循環(huán)來實(shí)現(xiàn)。在每一幕中,智能體會(huì)選擇多步的控制動(dòng)作來使系統(tǒng)恢復(fù)穩(wěn)定。智能體每幕中的學(xué)習(xí)流程如圖2 所示。

        圖2 智能體緊急控制學(xué)習(xí)流程圖Fig.2 Flow chart of agent emergency control learning

        首先,初始化模型和訓(xùn)練環(huán)境,智能體觀察電力系統(tǒng)環(huán)境功角、轉(zhuǎn)速、電壓幅值和相位的狀態(tài),采用ε-greedy 策略選擇動(dòng)作,并將該動(dòng)作與環(huán)境進(jìn)行交互,獲得下一時(shí)刻狀態(tài),計(jì)算短期獎(jiǎng)勵(lì)函數(shù)。同時(shí),存儲(chǔ)狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)的樣本到記憶庫(kù)中,以便于后續(xù)訓(xùn)練。然后,智能體更新Q值并計(jì)算損失函數(shù),采用梯度下降法更新內(nèi)部深度神經(jīng)網(wǎng)絡(luò)的權(quán)重,完成本步動(dòng)作的學(xué)習(xí)。

        每一步學(xué)習(xí)結(jié)束后,智能體會(huì)根據(jù)暫態(tài)穩(wěn)定系數(shù)判斷受擾后的長(zhǎng)期穩(wěn)定性,如果穩(wěn)定,則認(rèn)為控制有效并完成本幕訓(xùn)練;如果不穩(wěn)定,則需繼續(xù)交互,直至達(dá)到控制步數(shù)的上限才結(jié)束該幕訓(xùn)練。經(jīng)過多輪幕的循環(huán)迭代后,神經(jīng)網(wǎng)絡(luò)中的參數(shù)收斂,最終智能體可形成穩(wěn)定的緊急控制策略。離線訓(xùn)練結(jié)束后的智能體可用于在線緊急控制,將電網(wǎng)緊急狀態(tài)下的實(shí)時(shí)數(shù)據(jù)輸入智能體,可直接輸出最優(yōu)緊急控制策略,使系統(tǒng)恢復(fù)穩(wěn)定。

        3 算例分析

        3.1 算例基本介紹

        本文仿真驗(yàn)證采用IEEE 39 節(jié)點(diǎn)電力系統(tǒng),該系統(tǒng)中包含10 臺(tái)發(fā)電機(jī)、19 個(gè)負(fù)荷以及34 條傳輸支路。系統(tǒng)中所有發(fā)電機(jī)均采用經(jīng)典次暫態(tài)模型,考慮勵(lì)磁系統(tǒng)作用,負(fù)荷采用恒阻抗模型,由PSS/E仿真軟件作為交互的電力系統(tǒng)動(dòng)態(tài)環(huán)境。DRL 模型及訓(xùn)練基于TensorFlow2.6 搭建,編程采用Python 語(yǔ)言。模型狀態(tài)空間包括10 臺(tái)發(fā)電機(jī)的功角和轉(zhuǎn)子角速度、39 個(gè)節(jié)點(diǎn)的母線電壓和相位角,故狀態(tài)空間維度數(shù)為98。設(shè)置分段切除負(fù)荷的比例為10%,動(dòng)作空間包括10 個(gè)切機(jī)動(dòng)作和190 個(gè)切負(fù)荷動(dòng)作,故動(dòng)作空間維度數(shù)為201。DQN 設(shè)置為5 層全連接的神經(jīng)網(wǎng)絡(luò),折扣因子為0.90,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)率為0.000 5,智能體采用ε-greedy 策略,探索率隨訓(xùn)練步數(shù)降低且最小為0.01。

        3.2 算例結(jié)果

        初始時(shí)刻系統(tǒng)處于穩(wěn)定狀態(tài),設(shè)置離線學(xué)習(xí)故障場(chǎng)景為母線16、17、26 處發(fā)生三相短路故障,故障持續(xù)時(shí)間為70 ms,考慮控制過程中隨機(jī)時(shí)滯對(duì)系統(tǒng)狀態(tài)的不確定性影響,設(shè)置每次交互控制的隨機(jī)時(shí)滯服從均值為10 ms、標(biāo)準(zhǔn)差為20 ms 的正態(tài)分布[18]。設(shè)置學(xué)習(xí)的長(zhǎng)期穩(wěn)定目標(biāo)為5 s 內(nèi)保持暫態(tài)穩(wěn)定。

        設(shè)置訓(xùn)練循環(huán)10 000 幕,并且每幕的控制不超過5 次,圖3 展示了智能體訓(xùn)練過程中獎(jiǎng)勵(lì)函數(shù)的變化。本次訓(xùn)練先經(jīng)過約4 500 幕的探索過程,而后經(jīng)過約1 000 幕達(dá)到收斂。由于考慮了隨機(jī)時(shí)滯的影響,智能體在初期訓(xùn)練更多選擇探索動(dòng)作,并同步訓(xùn)練內(nèi)部的策略網(wǎng)絡(luò),因而獎(jiǎng)勵(lì)函數(shù)表現(xiàn)出一定范圍的波動(dòng),而隨著訓(xùn)練過程的收斂,獎(jiǎng)勵(lì)函數(shù)也呈現(xiàn)出收斂的趨勢(shì),表明最終學(xué)習(xí)到穩(wěn)定的控制策略。在DRL 智能體模型訓(xùn)練中,僅調(diào)用不到6 000 幕仿真便能得到較為穩(wěn)定的控制策略,在離線訓(xùn)練也有較好的收斂性。

        圖3 隨機(jī)時(shí)滯下的獎(jiǎng)勵(lì)函數(shù)曲線Fig.3 Reward function curve with random time delay

        設(shè)置線路16-17 的10%處發(fā)生三相短路,故障后跳開本線路,根據(jù)DRL 模型可得此場(chǎng)景下的緊急控制策略如表1 所示。為驗(yàn)證緊急控制策略的有效性,在仿真中應(yīng)用該控制決策所得的發(fā)電機(jī)功角曲線如圖4 所示。這表明該模型形成的緊急控制策略能夠有效解決隨機(jī)時(shí)滯影響下的緊急控制問題。

        表1 線路16-17 故障下緊急控制策略結(jié)果Table 1 Results of emergency control strategy under fault on line 16-17

        圖4 線路16-17 故障下緊急控制后的功角曲線Fig.4 Rotor angle curves after emergency control under fault on line 16-17

        圖5 所示為智能體模型中能量獎(jiǎng)勵(lì)函數(shù)的訓(xùn)練結(jié)果。在初期探索中,智能體一旦發(fā)現(xiàn)更好的動(dòng)作,將會(huì)獲得較高的獎(jiǎng)勵(lì),因此,該部分獎(jiǎng)勵(lì)會(huì)指導(dǎo)模型向著更有利于能量降低的方向?qū)W習(xí),降低無用的探索動(dòng)作和學(xué)習(xí)時(shí)間,使獎(jiǎng)勵(lì)快速上升,從而提高模型學(xué)習(xí)的效率,滿足快速性的要求。

        圖5 能量獎(jiǎng)勵(lì)函數(shù)曲線Fig.5 Curve of energy reward function

        3.3 模型泛化分析

        為說明模型具有一定的泛化能力,選擇一個(gè)未參與訓(xùn)練的新故障場(chǎng)景來驗(yàn)證緊急控制決策的有效性。故障場(chǎng)景選擇母線27 發(fā)生三相短路故障,將系統(tǒng)的狀態(tài)量輸入DRL 模型中,所得到的緊急控制策略如表2 所示,控制后的發(fā)電機(jī)功角曲線如圖6 所示。可見,該DRL 模型具備一定的泛化能力。

        表2 母線27 故障下緊急控制策略結(jié)果Table 2 Results of emergency control strategy under fault on bus 27

        圖6 母線27 故障下緊急控制后的功角曲線Fig.6 Rotor angle curves after emergency control under fault on bus 27

        3.4 算例對(duì)比

        選擇隨機(jī)20 000 幕場(chǎng)景,分別統(tǒng)計(jì)本文方法和傳統(tǒng)的策略表搜索方法生成緊急控制策略的總耗時(shí)和平均耗時(shí),結(jié)果如表3 所示。策略表搜索法形成控制策略的平均耗時(shí)為2.716 s,而本文方法在訓(xùn)練過程中形成策略的平均耗時(shí)為0.566 s,節(jié)省79.16%。此外,該模型在離線訓(xùn)練結(jié)束后可直接應(yīng)用于在線決策,即通過廣域量測(cè)信息直接生成緊急控制策略,解決不確定性狀態(tài)下的緊急控制問題。

        表3 總計(jì)算時(shí)間對(duì)比Table 3 Comparison of total computation time

        為驗(yàn)證本文所提方法在時(shí)滯不確定影響下的效果,針對(duì)同一失穩(wěn)場(chǎng)景對(duì)比有時(shí)滯情況下兩種方法的緊急控制策略結(jié)果。故障線路為16-17,故障持續(xù)至1.12 s 清除,系統(tǒng)運(yùn)行至1.30 s 需要進(jìn)行緊急控制。策略表搜索方法的緊急控制策略為依次切除發(fā)電機(jī)G36 和切除母線31 處負(fù)荷50%,在無時(shí)滯情況下可使系統(tǒng)穩(wěn)定,但考慮隨機(jī)時(shí)滯因素后該緊急控制策略失效。采用本文所提方法,緊急控制策略為切除發(fā)電機(jī)G34 和切除母線12 處負(fù)荷10%,控制效果如圖7 所示??梢?,本文方法所得的緊急控制策略能適應(yīng)隨機(jī)時(shí)滯的不確定性。

        圖7 DRL 方法下的緊急控制功角曲線Fig.7 Rotor angle curves of emergency control with DRL method

        4 結(jié)語(yǔ)

        本文將緊急控制問題視為序貫決策問題,考慮緊急控制決策中時(shí)滯不確定性的影響,通過DRL 模型和DQN 算法解決切機(jī)切負(fù)荷的控制問題,為“實(shí)時(shí)控制,實(shí)時(shí)決策”的在線緊急控制提供了新思路。針對(duì)訓(xùn)練過程中無意義探索占時(shí)過長(zhǎng)和學(xué)習(xí)負(fù)擔(dān)重的問題,本文利用暫態(tài)能量函數(shù)的專家知識(shí),將勢(shì)能指數(shù)納入獎(jiǎng)勵(lì)函數(shù)中,提升了訓(xùn)練初期智能體學(xué)習(xí)速度。同時(shí),借助Double DQN 和Dueling DQN 技術(shù)提升DQN 算法的收斂性,提升模型訓(xùn)練效率。最后,算例結(jié)果表明本文提出的緊急控制的DRL 模型可以在隨機(jī)時(shí)滯下獲得有效的控制策略,能夠應(yīng)對(duì)實(shí)際電力系統(tǒng)中時(shí)滯不確定性的問題,借助廣域測(cè)量信息可實(shí)現(xiàn)在線快速生成緊急控制策略,解決電網(wǎng)緊急控制問題。

        本文所建立的緊急控制模型僅考慮了暫態(tài)功角穩(wěn)定的緊急控制場(chǎng)景,所選擇的決策變量的維數(shù)有限,需要繼續(xù)深入研究更多故障場(chǎng)景以及控制措施下的緊急控制策略,考慮借助圖神經(jīng)網(wǎng)絡(luò)等提取網(wǎng)絡(luò)拓?fù)涮卣饔糜谟?xùn)練學(xué)習(xí),研究如何進(jìn)一步提升模型學(xué)習(xí)和訓(xùn)練效率,以適應(yīng)更為復(fù)雜的場(chǎng)景。

        猜你喜歡
        控制策略發(fā)電機(jī)動(dòng)作
        考慮虛擬慣性的VSC-MTDC改進(jìn)下垂控制策略
        能源工程(2020年6期)2021-01-26 00:55:22
        工程造價(jià)控制策略
        山東冶金(2019年3期)2019-07-10 00:54:04
        現(xiàn)代企業(yè)會(huì)計(jì)的內(nèi)部控制策略探討
        動(dòng)作描寫要具體
        畫動(dòng)作
        大型發(fā)電機(jī)勵(lì)磁用旋轉(zhuǎn)變換器的開發(fā)和應(yīng)用
        動(dòng)作描寫不可少
        隨身攜帶的小發(fā)電機(jī)
        軍事文摘(2016年16期)2016-09-13 06:15:49
        容錯(cuò)逆變器直接轉(zhuǎn)矩控制策略
        非同一般的吃飯動(dòng)作
        亚洲一区二区在线视频播放| 手机在线免费观看的av| 爆操丝袜美女在线观看| 无码成人一区二区| 看黄网站在线| 精品中文字幕手机在线| 久久99热只有频精品8国语| aⅴ精品无码无卡在线观看| 97精品伊人久久大香线蕉app| 无码国产精品一区二区免费式芒果| 国产精品亚洲一区二区三区在线| 国模冰莲极品自慰人体| 亚洲精品久久久久久| 欧美人与动牲交片免费播放| 美女脱掉内裤扒开下面让人插| 吃奶呻吟打开双腿做受视频 | 99久久99久久精品国产片果冻| AⅤ无码精品视频| 免费在线国产不卡视频| 久久精品国产亚洲7777| 国产国拍亚洲精品mv在线观看| 欧美日韩精品一区二区三区高清视频| 国产精品亚洲一区二区三区妖精| 又黄又刺激的网站久久| 白又丰满大屁股bbbbb| 韩国一级成a人片在线观看| 中文字幕东京热一区二区人妻少妇| 国产精品白浆在线观看免费| 丰满人妻妇伦又伦精品国产| 亚洲不卡av不卡一区二区| 亚洲乱码av乱码国产精品| 欧美黑人性暴力猛交喷水黑人巨大 | 日韩精品成人一区二区在线观看| 国产午夜视频在线观看免费| 日躁夜躁狠狠躁2001| 国产三级黄色在线观看| 国产亚洲一二三区精品| 99久久精品费精品国产一区二| 国产精品自在拍在线播放| 在线无码免费看黄网站| 亚洲国产精品中文字幕久久|