李 靖,余 濤,王克英,唐 捷
(1.華南理工大學,廣東廣州510640;2.廣東電網(wǎng)公司韶關供電局,廣東韶關512026)
變速恒頻雙饋發(fā)電是目前風力發(fā)電普遍采用的一種發(fā)電方式,其發(fā)電機采用雙饋感應電機[1]。當機組工作在額定風速以下時,通過調節(jié)發(fā)電機轉子轉速,保持最佳葉尖速比,實現(xiàn)對風能的最大捕獲。其控制系統(tǒng)常采用基于定子磁場定向的矢量控制,實現(xiàn)發(fā)電機有功、無功功率的解耦控制。
由于風能具有強烈的隨機性、時變性,且系統(tǒng)含有未建?;驘o法準確建模的動態(tài)部分,使雙饋發(fā)電系統(tǒng)成為一個多變量、非線性、強耦合系統(tǒng),因此僅采用傳統(tǒng)矢量控制難以滿足控制系統(tǒng)對高適應性和高魯棒性的要求[2]。文獻[3]采用神經(jīng)網(wǎng)絡控制方案,改善了控制性能,但穩(wěn)態(tài)誤差較大。文獻[4]提出了模糊滑??刂撇呗裕瑢⒛:刂坪突?刂葡嘟Y合,取得了良好的控制效果,但實現(xiàn)較復雜。
本文提出一種基于強化學習的雙饋風力發(fā)電機自校正控制策略。強化學習控制算法對被控對象的數(shù)學模型和運行狀態(tài)不敏感,其自學習能力對參數(shù)變化或外部干擾具有較強的自適應性和魯棒性。仿真結果表明,該自校正控制器能夠快速自動地優(yōu)化風機控制系統(tǒng)的輸出,不僅實現(xiàn)了對風能的最大追蹤,而且具有良好的動態(tài)性能,顯著增強了控制系統(tǒng)的魯棒性和適應性。
當定子取發(fā)電機慣例、轉子取電動機慣例時,三相對稱系統(tǒng)中具有均勻氣隙的雙饋感應發(fā)電機在兩相同步旋轉dq坐標系下的數(shù)學模型:[5]
式中:下標d和q分別表示d軸和q軸分量;下標s和 r分別表示定子和轉子分量;U、i、ψ、Te、P、Q 分別表示電壓、電流、磁鏈、電磁轉矩、有功和無功功率;R、L分別表示電阻和電感;ω1為同步轉速;ωs為轉差電角速度,ωs=ω1-ωr=sω1;ωr為發(fā)電機轉子電角速度,s為轉差率;p為極對數(shù);p為微分算子。
采用定子磁鏈定向矢量控制,將定子磁鏈矢量定向于d軸上,有ψds=ψs,ψqs=0。穩(wěn)態(tài)運行時,定子磁鏈保持恒定,忽略定子繞組電阻壓降,則Uds=0,Uqs=ω1ψs=Us,Us為定子電壓矢量幅值。
由式(6)得:
由式(3)得:
由式(4)得:
再由式(2)得:
通過式(7)~式(10)可設計出雙饋感應風力發(fā)電系統(tǒng)在定子磁鏈定向下的基于PI控制的矢量控制系統(tǒng)。
強化學習[6](以下簡稱RL)是系統(tǒng)從環(huán)境狀態(tài)到動作映射的學習,是一種試探評價的學習過程,可用圖1來描述[7]。Agent根據(jù)學習算法選擇一個動作作用于環(huán)境(即系統(tǒng)),引起環(huán)境狀態(tài)s的變化,環(huán)境再反饋一個立即強化信號(獎或罰)給Agent,A-gent根據(jù)強化信號及環(huán)境的新狀態(tài)s'再選擇下一個動作。近年來,RL理論在電力系統(tǒng)中用于調度、無功優(yōu)化和電力市場等領域的應用研究成果顯著[8]。
圖1 強化學習系統(tǒng)
Q學習算法是一種從長期的觀點通過試錯與環(huán)境交互來改進控制策略的強化學習算法,其顯著特點之一是對象模型的無關性[9]。通過優(yōu)化一個可迭代計算的狀態(tài)-動作對值函數(shù)Q(s,a)來在線求取最優(yōu)控制策略。Tsitsiklis等人證明了Q學習算法的收斂性[10]。
Q學習的目的是估計最優(yōu)控制策略的Q值。設Qk表示最優(yōu)值函數(shù)Q*的第k次迭代值,Q值按迭代公式(11)更新[9]:
動作選擇策略是Q學習控制算法的關鍵。定義Agent在狀態(tài)s下選擇具有最高Q值的動作稱為貪婪策略p*,其動作稱為貪婪動作。
若Agent每次迭代都選取Q值最高的動作,會導致收斂于局部最優(yōu),因為總是執(zhí)行相同的動作鏈而未搜索其他動作。為避免這種情況,本文利用一種追蹤算法[11]來設計動作選擇策略。該算法基于概率分布,初始化時,賦予各狀態(tài)下每個可行動作相等的被選概率,隨著迭代的進行,概率隨Q值表格的變化而變化,更新公式如下:
以固定增益的PI控制器構建的現(xiàn)有雙饋感應風機控制系統(tǒng),當系統(tǒng)工況改變時,控制性能會下降。而Q學習控制算法具有的對象模型無關性,以及對參數(shù)變化或外部干擾的自適應性和魯棒性的特點,為改善風機的控制性能提供了一種思路。
本文提出一種自校正控制架構,如圖2所示。在原PI控制器的基礎上附加一個RL控制器,來動態(tài)校正PI控制器的輸出,其中RL-P和RL-Q控制器分別對有功和無功功率控制信號校正。RL控制器在運行過程一直處于在線學習狀態(tài),被控量一旦偏離控制目標(比如參數(shù)變化或外部擾動所致),便自動調整控制策略,從而增加原控制系統(tǒng)的自適應和自學習能力。
圖2 雙饋風力發(fā)電系統(tǒng)自校正控制框圖
狀態(tài)和動作空間的離散化是設計基于Q學習算法的風機自校正控制器的首要步驟也是關鍵之一。RL-P控制器的狀態(tài)集合S包括(-∞,-0.1)、[-0.1,-0.06)、[-0.06,-0.03)、[-0.03,-0.02)、[-0.02,-0.005)、[-0.005,0.005]、(0.005,0.02]、(0.02,0.03]、(0.03,0.06]、(0.06,0.1]、(0.1,+ ∞)共 11 個不同狀態(tài);所允許的輸出為離散動作集合 A,包括[0.06,0.04,0.03,0.02,0.01,0,-0.01,-0.02,-0.03,- 0.04,-0.06]共11個動作值,被選擇的動作與PI控制器的信號相疊加。RL-Q控制器的狀態(tài)劃分和允許離散動作集合與RL-P控制器相同。
第k步時刻的立即強化信號r由被控量的方差及帶權值的相應動作變化量的平方之和組成,考慮到控制目標是使功率偏差盡可能小,故取其負值,即:
獎勵函數(shù)中引入動作變化項是為了減少控制信號的波動,從而減少機械應力。式中αk值是動作集合A的指針,而不是實際的輸出值,μ1和μ2為平衡前后各平方項的權重值。
在確定了狀態(tài)集、動作集和獎勵函數(shù)后,即可進行強化學習控制器在線自學習和動態(tài)優(yōu)化。由于在最開始階段缺乏經(jīng)驗,控制器需經(jīng)歷一段隨機動作探索的預學習過程。此過程完成后,稱其為PI/RL控制器,可投入實際系統(tǒng)參與運行控制?;赒學習算法的自校正強化學習流程圖如圖3所示。
圖3 自校正學習流程圖
為驗證本文所設計的控制器的正確性和有效性,選擇如下參數(shù)進行仿真驗證:雙饋風力發(fā)電機額定功率為P=6×1.5 MW=9 MW,=0.007,=0.005,=3.071,=3.056,=2.9,p=3。
無功功率初始給定為0.9 Mvar,1 s時降為零,2 s后再次上升0.9 Mvar,3 s時仿真結束。仿真期間,保持風速為10 m/s不變,仿真結果如圖4所示。由圖4(a)可看出,基于強化學習算法的自校正控制動態(tài)性能優(yōu)于傳統(tǒng)矢量控制。圖4(b)是強化學習控制器基于無功功率偏差輸出的校正控制信號。由圖4(c)可看出,在無功功率調節(jié)過程中,有功功率始終保持不變,很好地實現(xiàn)了解耦。
圖4 無功功率調節(jié)過程系統(tǒng)響應
風速初始給定為10 m/s,2 s時上升為11 m/s,30 s時仿真結束。仿真期間,設定無功功率為零,仿真結果如圖5所示。由圖5(a)可看出,基于強化學習算法的自校正控制和傳統(tǒng)矢量控制有功功率響應曲線基本重合。這是因為基于最大風能捕獲原理,當風速突變時,有功功率參考值不突變而是按照最佳功率曲線變化[13],功率偏差始終很小,未達到強化學習設定最小動作值的狀態(tài),故強化學習控制器輸出控制信號為零,從而兩條曲線重合。由圖5(c)可看出,在有功功率調節(jié)過程中,無功功率不受影響,實現(xiàn)了解耦。
圖5 有功功率調節(jié)過程系統(tǒng)響應
圖6 參數(shù)變化時動態(tài)響應
為考察系統(tǒng)對電機參數(shù)變化的魯棒性,假設風速為10 m/s不變,在t=2 s時b增大一倍。圖6給出了參數(shù)變化后,相同條件下傳統(tǒng)矢量控制與基于強化學習算法的自校正控制的動態(tài)響應曲線。由圖6(c)和圖6(d)可看出,當參數(shù)變化導致有功和無功功率與參考值出現(xiàn)偏差后,強化學習控制器根據(jù)偏差值立即輸出校正控制信號,來補償參數(shù)變化的影響。由圖6(a)和圖6(b)可看出,采用自校正控制,超調較小,改善了動態(tài)品質,提高了控制性能。
雙饋風力發(fā)電系統(tǒng)具有多變量、非線性、受參數(shù)變化和外部干擾顯著的特點,利用強化學習算法具有的在線自學習能力和模型無關性特點,設計了風機自校正控制器,可有效提高其控制系統(tǒng)的魯棒性和自適應性。此外,該控制策略無需改變原PI控制器的結構和參數(shù),只需增加一個自校正模塊,工程實現(xiàn)十分簡便。同時,在研究中筆者發(fā)現(xiàn),由于RL控制器的控制信號為離散動作值,易導致超調,后續(xù)研究中可考慮結合模糊控制對輸入輸出信號模糊化。
[1]劉吉宏,徐大平,呂躍剛.雙饋感應發(fā)電機轉速的非線性模型預測 控制[J].電網(wǎng)技術,2011,35(4):159 -163.
[2]王君瑞,鐘彥儒,宋衛(wèi)章.基于無源性與自適應降階觀測器的雙饋風力發(fā)電機控制[J].中國電機工程學報,2011,31(33):159-168.
[3]Li H,Shi K L,Mclaren P G.Neural- Network - Based Sensorless Maximum Wind Energy Capture with Compensated Power Coefficient[J].IEEE Transactions on Industry Applications,2005,41(6):1548-1556.
[4]孔屹剛,王志新.大型風電機組模糊滑模魯棒控制器設計與仿真[J].中國電機工程學報,2008,28(14):136 -141.
[5]辜承林,韋忠朝,黃聲華,等.對轉子交流勵磁電流實行矢量控制的變速恒頻發(fā)機[J].中國電機工程學報,2001,21(12):119-124.
[6]Sutton R S,Barto A G.Reinforcement Learning:an Introduction[M].Cambridge:MIT Press,1998.
[7]張汝波.強化學習理論及應用[M].哈爾濱:哈爾濱工程大學出版社,2001.
[8]余濤,周斌,甄衛(wèi)國.強化學習理論在電力系統(tǒng)中的應用及展望[J].電力系統(tǒng)保護與控制,2009,37(14):122 -128.
[9]Watkins J C H,Dayan Peter.Q - learning[J].Machine Learning,1992(8):279-292.
[10]Tsitsiklis,John N.Asynchronous Stochastic Approximation and Q- learning[J].Machine Leaning,1994,16(3):185 -202.
[11]Richard S.Sutton,Andrew G.Barto.Reinforcement Learning:An In - troduction[M].Cambridge:MIT Press,1988.
[12]余濤,胡細兵,劉靖.基于多步回溯Q(λ)學習算法的多目標最優(yōu)潮流計算[J].華南理工大學學報(自然科學版),2010,38(10):139-145.
[13]劉其輝,賀益康,張建華.交流勵磁變速恒頻風力發(fā)電機的運行控制及建模仿真[J].中國電機工程學報,2006,26(5):43-50.