戴禮國,楊浩,陳力,張敏,許祖峰,孫建萍,馮雙
(1.東南大學軟件學院,江蘇南京 211189;2.東南大學電氣工程學院,江蘇南京 210096;3.智能電網(wǎng)保護和運行控制國家重點實驗室(南瑞集團(國家電力科學研究院)有限公司 江蘇南京 211106)
以風力發(fā)電為代表的新能源發(fā)電近年來發(fā)展迅猛[1-4],截至2022 年2 月底,我國風電裝機容量約3.3億千瓦。柔性直流輸電技術(shù)(Voltage Source Converter Based High Voltage Direct Current Transmission,VSCHVDC)作為一種新型輸電技術(shù),因其能夠?qū)τ泄?、無功進行獨立解耦、無需換相電壓,且具有較強的故障穿越能力,成為風力發(fā)電遠距離接入電網(wǎng)的重要傳輸方式[5-6]。然而,柔直換流站與風電機組間的相互作用可能引發(fā)系統(tǒng)的次同步振蕩問題(Subsynchronous Oscillation,SSO)[7-9]。我國上海南匯與廣東南澳柔直輸電工程在風電場出力逐漸增大時曾出現(xiàn)SSO 現(xiàn)象[10]。此類振蕩具有時變性強,形成機制復(fù)雜的特點,一旦發(fā)生可能引起風機停機、設(shè)備損壞等嚴重問題[11-12]。因此,針對海上風電柔直并網(wǎng)系統(tǒng)的次同步振蕩問題,研究相應(yīng)的抑制策略具有重要意義。
目前,已有一些針對風電柔直并網(wǎng)系統(tǒng)的次同步振蕩抑制策略的研究[13]。(1)設(shè)備參數(shù)優(yōu)化。文獻[14]基于阻抗穩(wěn)定分析方法提出了一種控制器參數(shù)優(yōu)化設(shè)計方法,但對于高度非線性化的風電柔直并網(wǎng)系統(tǒng),該方法性能會受較大影響。文獻[15]將非線性參數(shù)優(yōu)化算法引入到抑制風電場次同步振蕩的串聯(lián)可控補償非線性參數(shù)的優(yōu)化,對根據(jù)原系統(tǒng)設(shè)計的參數(shù)進行修改可能會對系統(tǒng)的動態(tài)性能造成一定影響。(2)附加阻尼控制。文獻[16]對風電場并網(wǎng)側(cè)換流站控制進行改進,實現(xiàn)次同步振蕩抑制;文獻[17]基于信號測試法提出了一種附加阻尼控制的雙饋風電機組附加勵磁阻尼控制器與柔性直流輸電系統(tǒng)次同步阻尼控制器協(xié)同抑制措施。然而,文獻[14-17]中的抑制方法都是基于風電并網(wǎng)系統(tǒng)在某種運行工況下的模型設(shè)計的,考慮到次同步振蕩的時變性,難以保證其在多變運行工況下的抑制效果。
為了提高振蕩抑制方法在多變運行工況下的抑制效果,文獻[18]在靜止同步補償器的設(shè)計中建立了基于H∞理論的魯棒控制器,通過最小化H∞范數(shù)的靈敏度,保證控制器的魯棒性。但是在正常情況下不能充分利用控制器的性能。文獻[19]提出了一種自適應(yīng)參數(shù)優(yōu)化方法,然而所得到的每組參數(shù)僅適用于一種狀態(tài),一旦系統(tǒng)狀態(tài)發(fā)生變化,參數(shù)必須更新,并且參數(shù)的自適應(yīng)調(diào)節(jié)過程時間較長,難以在短時間內(nèi)達到理想效果[20]。
本文提出了一種基于深度強化學習(DeepReinforcement Learning,DRL)的風電柔直并網(wǎng)系統(tǒng)的振蕩抑制方法。首先,基于柔直送端變流器的數(shù)學模型和機理將次同步振蕩抑制問題轉(zhuǎn)化成馬爾可夫決策過程,并對振蕩抑制方法整體框架、環(huán)境狀態(tài)集、可行動作集、獎勵函數(shù)進行設(shè)計。該方法對附加控制變量進行實時控制,并且考慮到所設(shè)計的環(huán)境狀態(tài)合集中的電流變量及電壓變量均為連續(xù)量,因此采用深度確定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)對馬爾可夫決策過程求解。其次,采用多樣本訓練的訓練方法,在不同風速的運行情況下,對智能體進行訓練,獲得最佳動作策略。最后,通過風電柔直并網(wǎng)系統(tǒng)在多運行工況下的仿真驗證了所提出的次同步振蕩抑制策略的有效性和優(yōu)越性。
風電柔直并網(wǎng)系統(tǒng)中的風電機組與柔直換流站之間的相互作用可能會引起SSO 現(xiàn)象。但是,由于對單個風力發(fā)電機組進行改進控制會造成風力發(fā)電機組間的相互影響,且若計及該影響,對次同步振蕩的抑制會變得異常困難。因此,本文提出了對VSC-HVDC 送端控制器進行改進的基于DRL 的風電柔直并網(wǎng)系統(tǒng)的次同步振蕩抑制方法,利用DDPG 算法對加在VSC-HVDC 送端控制器的附加控制變量進行動作決策控制,提高整個系統(tǒng)的穩(wěn)定性。
VSC-HVDC 送端控制器的控制框圖如圖1 中所示。圖1中LfH為VSC-HVDC 送端換流站的濾波電感;mH為VSC-HVDC送端變流器的調(diào)制信號;udcH為VSC-HVDC送端換流站的直流側(cè)電壓;θ為柔直送端控制器給定相角;udHC,uqHC,idHC,iqHC為旋轉(zhuǎn)同步坐標系(dq坐標系)下的VSC-HVDC 送端變流器的電壓、電流變量;udHP,uqHP為在dq坐標系下的VSCHVDC 送端換流站電壓的參考值;idHP,iqHP為電流內(nèi)環(huán)控制的電流給定值;EdHP,EqHP為VSC-HVDC 送端換流站的內(nèi)電勢在dq坐標系下的內(nèi)電勢的參考值。
圖1 VSC-HVDC送端控制器控制框圖Fig.1 Control block diagram of VSC-HVDC sender controller
風電場的正常工作需要交流線路提供穩(wěn)定的交流電壓,所以VSC-HVDC 送端換流站控制器外環(huán)控制采用定交流電壓控制[21],通過對udHC,uqHC進行閉環(huán)控制產(chǎn)生VSC-HVDC 送端換流站控制的idHP,iqHP:
式中:GuH(s)為交流電壓外環(huán)PI 控制器的傳遞函數(shù)。
VSC-HVDC 送端變流器交流側(cè)電壓在dq坐標系下的電路方程為:
式中:RfH為VSC-HVDC 送端換流站的濾波電阻;EdH,EqH為在dq坐標系下的VSC-HVDC 送端換流站的內(nèi)電勢;t為時間量度。
式(2)中udHC,uqHC為可以控制的變量,idHC,iqHC為受控對象,其余為擾動項,所以VSC-HVDC 送端換流站的內(nèi)電勢dq坐標系下的期望值為:
式中:GiH(s)為VSC-HVDC 送端變流器電流環(huán)PI 控制器參數(shù)。
由式(1)和式(3)可得,對VSC-HVDC 送端控制器中的idHC,iqHC進行控制,既可以改變VSC-HVDC送端變流器電流環(huán)中的各電氣量,也可以影響定交流電壓控制所產(chǎn)生的VSC-HVDC 送端換流站控制的idHP和iqHP。
強化學習是一種智能體在與環(huán)境交互過程中以“試錯”的方式得到最優(yōu)策略的自學習方法[22],其過程示意圖如圖2 所示。
圖2 強化學習過程示意圖Fig.2 Schematic diagram of reinforcement learning process
強化學習的目標是在學習的過程中得到動作策略以獲得最大化的平均回報。值函數(shù)可以用來評估一個策略p的期望回報,狀態(tài)值函數(shù)Vp(s)表示從狀態(tài)s開始,執(zhí)行策略p得到的期望總回報:
式中:γ為折扣因子;rt為t時刻的回報;st為t時刻的狀態(tài);k為步長。
狀態(tài)動作值函數(shù)Qπ(s,a)表示初始狀態(tài)為s并執(zhí)行動作a,然后執(zhí)行策略π得到的期望總回報:
狀態(tài)值函數(shù)Vπ(s)是函數(shù)Qπ(s,a)關(guān)于動作a的期望函數(shù):
Qπ(s,a)是狀態(tài)值函數(shù)Vp(s)與動作獎勵反饋值的和的期望:
傳統(tǒng)的強化學習方法在處理連續(xù)狀態(tài)變量任務(wù)時隨著空間維度的增加,其離散化得到的狀態(tài)數(shù)量呈指數(shù)級增長,即存在維數(shù)災(zāi)問題[23],無法進行有效學習。本文所研究的風電柔直并網(wǎng)系統(tǒng)的環(huán)境狀態(tài)變量均為連續(xù)量,傳統(tǒng)的強化學習方法無法有效求解。
因此,本文采用DDPG 算法,其使用演員-評論家(Actor-Critic)的算法架構(gòu),并且引入深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)[24],保證了動作空間和狀態(tài)空間的連續(xù)性,且有效地避免了維數(shù)災(zāi)問題。
如圖3 所示,其網(wǎng)絡(luò)結(jié)構(gòu)包括4 個深度神經(jīng)網(wǎng)絡(luò):Actor 在線策略網(wǎng)絡(luò)、Actor 目標策略網(wǎng)絡(luò)、Critic在線Q值網(wǎng)絡(luò)和Critic 目標Q值網(wǎng)絡(luò),其中在線網(wǎng)絡(luò)與目標網(wǎng)絡(luò)具有相同的架構(gòu)。
圖3 基于DDPG的風電柔直并網(wǎng)系統(tǒng)的振蕩抑制方法的算法流程示意圖Fig.3 Schematic diagram of the algorithm flow of oscillation suppression method for flexible direct grid-connectedoffshore wind power system based on DDPG
在訓練過程中,Actor 在線網(wǎng)絡(luò)和Critic 在線網(wǎng)絡(luò)參數(shù)θ,ω的更新分別通過損失函數(shù)梯度下降和最小化損失函數(shù)實現(xiàn)。Actor 在線網(wǎng)絡(luò)的目標是使價值函數(shù)最大化,則網(wǎng)絡(luò)參數(shù)θ的損失函數(shù)J(θ)和損失函數(shù)梯度?J(θ)為:
式中:Q(si,ai,ω)為當前Q值;si,ai分別為i時刻的狀態(tài)量與動作量;m為每次從經(jīng)驗池中采樣的樣本數(shù)。
Critic 在線網(wǎng)絡(luò)的目標是逼近價值函數(shù),損失函數(shù)可以由當前Q值與式(11)的目標Q值Q(si+1,ai+1,ω')的均方誤差J(ω)表示為:
Actor 目標網(wǎng)絡(luò)和Critic 目標網(wǎng)絡(luò)的參數(shù)θ',ω'通過線上網(wǎng)絡(luò)參數(shù)進行軟更新(Soft Update):
式中:τ為更新系數(shù),一般取0<τ<<1。
為了增加DDPG 算法在與環(huán)境交互過程中的探索能力,DDPG 算法在輸出動作值πθ(s)上疊加了隨機噪聲N,其輸出的真實動作值atrue為:
本文采用奧恩斯坦—烏倫貝克(Uhlenbeck-Ornstein,UO)噪聲,在隨機過程產(chǎn)生疊加噪聲,進行更優(yōu)化的動作策略探索。
本節(jié)根據(jù)VSC-HVDC 送端控制器與深度確定性策略梯度算法相關(guān)原理,確立了基于DDPG 的風電柔直并網(wǎng)系統(tǒng)的次同步振蕩抑制方法的整體框架,并對框架中的環(huán)境狀態(tài)集S和可行動作集A的選取及獎勵函數(shù)進行設(shè)計。
從風電柔直并網(wǎng)系統(tǒng)測量VSC-HVDC 送端控制器中各受控電氣量,并將其作為狀態(tài)量輸入智能體。智能體根據(jù)狀態(tài)量及所得到的獎勵回報決定動作量即附加阻尼控制信號的輸出,最終得到附加阻尼控制信號的最佳動作策略。
圖4 為本文提出的基于DDPG 的風電柔直并網(wǎng)系統(tǒng)的次同步振蕩抑制方法整體框架[25]。圖4中ΔudHC(t),ΔuqHC(t)為t時刻下旋轉(zhuǎn)同步坐標系VSCHVDC 送端控制器的電壓振蕩幅值;ΔidHC(t),ΔiqHC(t)為t時刻下旋轉(zhuǎn)同步坐標系VSC-HVDC送端控制器的電流振蕩幅值;idHC.Add(t),iqHC.Add(t)為t時刻下旋轉(zhuǎn)同步坐標系VSC-HVDC 送端控制器的電流idHC,iqHC的附加控制變量;ΔudcH(t)為t時刻下VSC-HVDC 送端換流站的直流側(cè)電壓;λ1,λ2,λ3,λ4,λ5為獎勵函數(shù)中各部分相互權(quán)衡的系數(shù)。
圖4 振蕩抑制方法整體框架Fig.4 Overall framework of oscillation suppression method
2.1.1 環(huán)境狀態(tài)集
狀態(tài)是環(huán)境反應(yīng)給智能體的感知信息,對于本文的風電柔直并網(wǎng)系統(tǒng)的次同步振蕩抑制問題,次同步振蕩在VSC-HVDC 送端控制器中的各電氣量比較明顯,所以環(huán)境狀態(tài)可定義為VSC-HVDC 送端控制器各電氣量的振蕩幅值,設(shè)置環(huán)境狀態(tài)集合為:
2.1.2 可行動作集
為抑制風電柔直并網(wǎng)系統(tǒng)的振蕩,可對VSCHVDC 送端控制器進行改進,增加附加阻尼控制,向控制系統(tǒng)中注入附加阻尼控制信號。根據(jù)1.1 節(jié),選擇對VSC-HVDC 中的idHC,iqHC進行附加控制,所以動作集合可被定義為向控制系統(tǒng)中注入的附加阻尼控制信號??尚袆幼骷O(shè)置為:
2.1.3 獎勵函數(shù)設(shè)計
獎勵函數(shù)是智能體完成最佳動作策略探索的重要驅(qū)動信號,其中VSC-HVDC 控制器中各受控電氣量的振蕩幅值為振蕩抑制的關(guān)鍵,因此設(shè)計智能體獎勵函數(shù)為:
其中λ1,λ2,λ3,λ4,λ5需要在訓練過程中不斷嘗試并修改。
根據(jù)2.1 節(jié),基于DDPG 的風電柔直并網(wǎng)系統(tǒng)的振蕩抑制方法的算法流程如圖3 所示。訓練時,DDPG 算法中的Actor 在線網(wǎng)絡(luò)輸入為狀態(tài)集合st={ΔudHC(t),ΔuqHC(t),ΔidHC(t),ΔiqHC(t)},輸出為動作集合at={idHC.Add(t),iqHC.Add(t)};并且與環(huán)境交互之后產(chǎn)生下一時刻狀態(tài)集合st+1與及時獎勵Rt。
由于智能體與環(huán)境得到的訓練樣本相互關(guān)聯(lián),并不是獨立同分布的,所以DDPG 算法采用了經(jīng)驗回放機制,其利用一個經(jīng)驗回放池,存儲每個時段的經(jīng)驗et=(st,at,Rt,st+1)形成回放記憶序列。訓練時,從經(jīng)驗回放池中隨機采樣m個樣本,降低了數(shù)據(jù)相關(guān)性且經(jīng)驗回放池中的樣本還可重復(fù)使用,提高了學習效率。
Actor 在線策略網(wǎng)絡(luò)根據(jù)當前狀態(tài)st={ΔudHC(t),ΔuqHC(t),ΔidHC(t),ΔiqHC(t)}選擇動作at,與環(huán)境交互后產(chǎn)生下一狀態(tài)st+1和即時獎勵r,四者均將存入經(jīng)驗回放池中,根據(jù)損失函數(shù)梯度更新網(wǎng)絡(luò)參數(shù)θ。
Actor 目標策略網(wǎng)絡(luò)根據(jù)經(jīng)驗回放池中的下一個狀態(tài)集合st+1={ΔudHC(t+1),ΔuqHC(t+1),ΔidHC(t+1),ΔiqHC(t+1)}選擇下個動作集合at+1={idHC.Add(t+1),iqHC.Add(t+1)},并且實時更新網(wǎng)絡(luò)參數(shù)θ'。
Critic 在線Q 網(wǎng)絡(luò)的輸入為狀態(tài)st和動作at,輸出為動作-值函數(shù)即Q(st,at,ω),Critic 目標Q網(wǎng)絡(luò)根據(jù)下一狀態(tài)st+1和下一動作at+1計算目標Q值并實時更新網(wǎng)絡(luò)參數(shù)ω'。
訓練結(jié)束后,DDPG 網(wǎng)絡(luò)參數(shù)將被確定。當振蕩發(fā)生時,根據(jù)當前系統(tǒng)環(huán)境狀態(tài),利用訓練好的DDPG 智能體對附加阻尼信號進行決策控制,得到風電柔直并網(wǎng)系統(tǒng)的次同步振蕩抑制策略。
在Matlab/Simulink 仿真系統(tǒng)中搭建風電并網(wǎng)系統(tǒng),如圖3 中風電柔直并網(wǎng)系統(tǒng)所示。風電機組經(jīng)VSC 變流器后由變壓器升壓至35 kV,并由交流線路輸送至匯流母線,經(jīng)海上換流站升壓變壓器接入VSC-HVDC 送端,VSC-HVDC 的受端換流站與陸上交流大電網(wǎng)相連。目前,各省電網(wǎng)以及中國電科院都在建立新能源發(fā)電系統(tǒng)的電磁暫態(tài)仿真平臺,為本文所提方法在實際系統(tǒng)中的應(yīng)用提供了有力的支撐[26]。
在本算例仿真中,采用由VSC-HVDC 送端控制器電壓外環(huán)控制器參數(shù)與電流內(nèi)環(huán)控制器參數(shù)主導(dǎo)的頻率為18 Hz 的振蕩模態(tài)作為訓練樣本。每個回合(episode)的訓練時長設(shè)置為2 s,每一步(step)時長設(shè)置為0.01 s,為實現(xiàn)DDPG 智能體能夠適應(yīng)風電柔直并網(wǎng)系統(tǒng)的多風速運行環(huán)境,在10 m/s 到12 m/s 之間每間隔0.1 m/s 風速選取20 個不同的風速下進行訓練。用初始環(huán)境配置函數(shù)在每一回合訓練結(jié)束對海上風電并網(wǎng)系統(tǒng)的運行風速進行隨機配置,以達到多訓練樣本對DDPG 智能體進行訓練的目的。
對于DDPG 算法中的DNN,本文采用的Critic網(wǎng)絡(luò)和Actor 網(wǎng)絡(luò)的隱藏層層數(shù)均為3 層,每層包含的神經(jīng)元個數(shù)分別為50,25 和50。在訓練過程中,對DDPG 算法網(wǎng)絡(luò)的超參數(shù)不斷進行調(diào)整,最終的參數(shù)選擇如下:Critic 網(wǎng)絡(luò)學習率為0.001,Actor 網(wǎng)絡(luò)學習率為0.000 1,經(jīng)驗回訪池容量(無量綱)設(shè)置為1×105,經(jīng)驗回放訓練批次為64,折舊因子為0.99,軟更新系數(shù)為0.001。
在風電柔直并網(wǎng)系統(tǒng)的風電場側(cè)風速為12 m/s的運行環(huán)境下,在0 s 時加入風速擾動的情況下驗證DDPG 智能體參與控制的振蕩抑制效果。
由圖5 可知,在風速擾動加入0.2 s 之后,VSCHVDC 送端控制器的d軸電壓、電流的振幅大幅度減小。在風速擾動加入0.15 s 左右風機側(cè)并網(wǎng)控制器中d軸電壓、電流的振蕩幅度開始由減小趨勢,且在0.2 s 之后,振幅迅速減小,且保持相對穩(wěn)定。在擾動發(fā)生0.2 s 之后,VSC-HVDC 受端控制器中d軸電壓、電流的振蕩幅度明顯減小。
圖5 12 m/s風速下采用控制策略與未采用控制策略各電氣量振蕩對比圖Fig.5 Comparison diagram of electrical quantities oscillation with and without control strategy at 12 m/s wind speed
綜上所述,在風機側(cè)發(fā)生風速擾動時,DDPG智能體參與VSC-HVDC 送端控制器中電氣量的控制,不僅能夠提高VSC-HVDC 送端控制器中各電氣量的穩(wěn)定性,也能夠提高海上風機并網(wǎng)側(cè)與VSCHVDC 受端控制器的穩(wěn)定性,保證風電柔直并網(wǎng)系統(tǒng)安全穩(wěn)定運行。
分別在風電柔直并網(wǎng)系統(tǒng)的風電場側(cè)風速為10 m/s,11 m/s,11.45m/s的運行環(huán)境下,其中11.45m/s 為非訓練風速。在0 s 時加入風速擾動的情況下,對DDPG 智能體參與控制的振蕩抑制效果與傳統(tǒng)附加阻尼控制器的振蕩抑制效果進行對比。
由圖6(a)可知,在DDPG 智能體參與控制的情況下,振蕩幅值在短時間內(nèi)大幅減小,而傳統(tǒng)附加阻尼控制器對振蕩的抑制在1.0 s 左右才有一定的效果。由圖6(b)可知,在11 m/s 的情況下,DDPG 智能體參與控制的情況下,振蕩幅值迅速減小。但是傳統(tǒng)附加阻尼控制器對振蕩的抑制過程時間較長。由圖6(c)可知,在非訓練風速下抑制策略仍然有效。
圖6 不同風速下振蕩對比圖Fig.6 Oscillation comparison diagram at different wind speeds
綜上所述,在風電柔直并網(wǎng)系統(tǒng)多風速運行的條件下,DDPG 智能體均能夠較為快速地對振蕩進行有效抑制。
本文針對風電柔直并網(wǎng)系統(tǒng)的次同步振蕩問題,建立了基于DDPG 的振蕩抑制方法,利用深度確定性策略對動作量即附加阻尼控制變量進行決策探索。通過仿真驗證該方法有效性,結(jié)果表明,在風機側(cè)發(fā)生風速擾動時,所提方法不僅能夠提高風電柔直并網(wǎng)系統(tǒng)的穩(wěn)定性,還能夠?qū)Σ煌L速下的振蕩進行有效抑制。
本文所提方法初步探索了深度強化學習在柔直并網(wǎng)系統(tǒng)次同步振蕩抑制的可能性。由于深度強化學習算法學習過程中訓練時間較長以及對大量訓練樣本的依賴性較強,現(xiàn)階段該方法在實際工程中的應(yīng)用仍存在一些挑戰(zhàn)。在未來的研究工作中,需進一步探索解決,以更好地將深度強化學習應(yīng)用到實際系統(tǒng)中。