亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于強化學習算法的雙饋感應風力發(fā)電機自校正控制

2013-06-19 09:09:14王克英

微特電機 2013年3期

李靖，余濤，王克英，唐捷

(1.華南理工大學，廣東廣州510640;2.廣東電網(wǎng)公司韶關供電局，廣東韶關512026)

0 引言

變速恒頻雙饋發(fā)電是目前風力發(fā)電普遍采用的一種發(fā)電方式，其發(fā)電機采用雙饋感應電機［1］。當機組工作在額定風速以下時，通過調節(jié)發(fā)電機轉子轉速，保持最佳葉尖速比，實現(xiàn)對風能的最大捕獲。其控制系統(tǒng)常采用基于定子磁場定向的矢量控制，實現(xiàn)發(fā)電機有功、無功功率的解耦控制。

由于風能具有強烈的隨機性、時變性，且系統(tǒng)含有未建?；驘o法準確建模的動態(tài)部分，使雙饋發(fā)電系統(tǒng)成為一個多變量、非線性、強耦合系統(tǒng)，因此僅采用傳統(tǒng)矢量控制難以滿足控制系統(tǒng)對高適應性和高魯棒性的要求［2］。文獻［3］采用神經(jīng)網(wǎng)絡控制方案，改善了控制性能，但穩(wěn)態(tài)誤差較大。文獻［4］提出了模糊滑?？刂撇呗裕瑢⒛：刂坪突？刂葡嘟Y合，取得了良好的控制效果，但實現(xiàn)較復雜。

本文提出一種基于強化學習的雙饋風力發(fā)電機自校正控制策略。強化學習控制算法對被控對象的數(shù)學模型和運行狀態(tài)不敏感，其自學習能力對參數(shù)變化或外部干擾具有較強的自適應性和魯棒性。仿真結果表明，該自校正控制器能夠快速自動地優(yōu)化風機控制系統(tǒng)的輸出，不僅實現(xiàn)了對風能的最大追蹤，而且具有良好的動態(tài)性能，顯著增強了控制系統(tǒng)的魯棒性和適應性。

1 定子磁鏈定向矢量控制

當定子取發(fā)電機慣例、轉子取電動機慣例時，三相對稱系統(tǒng)中具有均勻氣隙的雙饋感應發(fā)電機在兩相同步旋轉dq坐標系下的數(shù)學模型:［5］

式中:下標d和q分別表示d軸和q軸分量;下標s和 r分別表示定子和轉子分量;U、i、ψ、Te、P、Q 分別表示電壓、電流、磁鏈、電磁轉矩、有功和無功功率;R、L分別表示電阻和電感;ω1為同步轉速;ωs為轉差電角速度，ωs=ω1－ωr=sω1;ωr為發(fā)電機轉子電角速度，s為轉差率;p為極對數(shù);p為微分算子。

采用定子磁鏈定向矢量控制，將定子磁鏈矢量定向于d軸上，有ψds=ψs，ψqs=0。穩(wěn)態(tài)運行時，定子磁鏈保持恒定，忽略定子繞組電阻壓降，則Uds=0，Uqs=ω1ψs=Us，Us為定子電壓矢量幅值。

由式(6)得:

由式(3)得:

由式(4)得:

再由式(2)得:

通過式(7)～式(10)可設計出雙饋感應風力發(fā)電系統(tǒng)在定子磁鏈定向下的基于PI控制的矢量控制系統(tǒng)。

2 強化學習自校正控制器設計

2.1 強化學習算法原理

強化學習［6］(以下簡稱RL)是系統(tǒng)從環(huán)境狀態(tài)到動作映射的學習，是一種試探評價的學習過程，可用圖1來描述［7］。Agent根據(jù)學習算法選擇一個動作作用于環(huán)境(即系統(tǒng))，引起環(huán)境狀態(tài)s的變化，環(huán)境再反饋一個立即強化信號(獎或罰)給Agent，A-gent根據(jù)強化信號及環(huán)境的新狀態(tài)s'再選擇下一個動作。近年來，RL理論在電力系統(tǒng)中用于調度、無功優(yōu)化和電力市場等領域的應用研究成果顯著［8］。

圖1 強化學習系統(tǒng)

Q學習算法是一種從長期的觀點通過試錯與環(huán)境交互來改進控制策略的強化學習算法，其顯著特點之一是對象模型的無關性［9］。通過優(yōu)化一個可迭代計算的狀態(tài)－動作對值函數(shù)Q(s，a)來在線求取最優(yōu)控制策略。Tsitsiklis等人證明了Q學習算法的收斂性［10］。

Q學習的目的是估計最優(yōu)控制策略的Q值。設Qk表示最優(yōu)值函數(shù)Q*的第k次迭代值，Q值按迭代公式(11)更新［9］:

動作選擇策略是Q學習控制算法的關鍵。定義Agent在狀態(tài)s下選擇具有最高Q值的動作稱為貪婪策略p*，其動作稱為貪婪動作。

若Agent每次迭代都選取Q值最高的動作，會導致收斂于局部最優(yōu)，因為總是執(zhí)行相同的動作鏈而未搜索其他動作。為避免這種情況，本文利用一種追蹤算法［11］來設計動作選擇策略。該算法基于概率分布，初始化時，賦予各狀態(tài)下每個可行動作相等的被選概率，隨著迭代的進行，概率隨Q值表格的變化而變化，更新公式如下:

2.2 自校正控制器的結構

以固定增益的PI控制器構建的現(xiàn)有雙饋感應風機控制系統(tǒng)，當系統(tǒng)工況改變時，控制性能會下降。而Q學習控制算法具有的對象模型無關性，以及對參數(shù)變化或外部干擾的自適應性和魯棒性的特點，為改善風機的控制性能提供了一種思路。

本文提出一種自校正控制架構，如圖2所示。在原PI控制器的基礎上附加一個RL控制器，來動態(tài)校正PI控制器的輸出，其中RL－P和RL－Q控制器分別對有功和無功功率控制信號校正。RL控制器在運行過程一直處于在線學習狀態(tài)，被控量一旦偏離控制目標(比如參數(shù)變化或外部擾動所致)，便自動調整控制策略，從而增加原控制系統(tǒng)的自適應和自學習能力。

圖2 雙饋風力發(fā)電系統(tǒng)自校正控制框圖

2.3 自校正控制器的設計

狀態(tài)和動作空間的離散化是設計基于Q學習算法的風機自校正控制器的首要步驟也是關鍵之一。RL－P控制器的狀態(tài)集合S包括(－∞，－0.1)、［－0.1，－0.06)、［－0.06，－0.03)、［－0.03，－0.02)、［－0.02，－0.005)、［－0.005，0.005］、(0.005，0.02］、(0.02，0.03］、(0.03，0.06］、(0.06，0.1］、(0.1，+ ∞)共 11 個不同狀態(tài);所允許的輸出為離散動作集合 A，包括［0.06，0.04，0.03，0.02，0.01，0，－0.01，－0.02，－0.03，－ 0.04，－0.06］共11個動作值，被選擇的動作與PI控制器的信號相疊加。RL－Q控制器的狀態(tài)劃分和允許離散動作集合與RL－P控制器相同。

第k步時刻的立即強化信號r由被控量的方差及帶權值的相應動作變化量的平方之和組成，考慮到控制目標是使功率偏差盡可能小，故取其負值，即:

獎勵函數(shù)中引入動作變化項是為了減少控制信號的波動，從而減少機械應力。式中αk值是動作集合A的指針，而不是實際的輸出值，μ1和μ2為平衡前后各平方項的權重值。

在確定了狀態(tài)集、動作集和獎勵函數(shù)后，即可進行強化學習控制器在線自學習和動態(tài)優(yōu)化。由于在最開始階段缺乏經(jīng)驗，控制器需經(jīng)歷一段隨機動作探索的預學習過程。此過程完成后，稱其為PI/RL控制器，可投入實際系統(tǒng)參與運行控制?；赒學習算法的自校正強化學習流程圖如圖3所示。

圖3 自校正學習流程圖

3 仿真結果與分析

為驗證本文所設計的控制器的正確性和有效性，選擇如下參數(shù)進行仿真驗證:雙饋風力發(fā)電機額定功率為P=6×1.5 MW=9 MW，=0.007，=0.005，=3.071，=3.056，=2.9，p=3。

3.1 無功功率調節(jié)

無功功率初始給定為0.9 Mvar，1 s時降為零，2 s后再次上升0.9 Mvar，3 s時仿真結束。仿真期間，保持風速為10 m/s不變，仿真結果如圖4所示。由圖4(a)可看出，基于強化學習算法的自校正控制動態(tài)性能優(yōu)于傳統(tǒng)矢量控制。圖4(b)是強化學習控制器基于無功功率偏差輸出的校正控制信號。由圖4(c)可看出，在無功功率調節(jié)過程中，有功功率始終保持不變，很好地實現(xiàn)了解耦。

圖4 無功功率調節(jié)過程系統(tǒng)響應

3.2 有功功率調節(jié)

風速初始給定為10 m/s，2 s時上升為11 m/s，30 s時仿真結束。仿真期間，設定無功功率為零，仿真結果如圖5所示。由圖5(a)可看出，基于強化學習算法的自校正控制和傳統(tǒng)矢量控制有功功率響應曲線基本重合。這是因為基于最大風能捕獲原理，當風速突變時，有功功率參考值不突變而是按照最佳功率曲線變化［13］，功率偏差始終很小，未達到強化學習設定最小動作值的狀態(tài)，故強化學習控制器輸出控制信號為零，從而兩條曲線重合。由圖5(c)可看出，在有功功率調節(jié)過程中，無功功率不受影響，實現(xiàn)了解耦。

圖5 有功功率調節(jié)過程系統(tǒng)響應

3.3 擾動分析

圖6 參數(shù)變化時動態(tài)響應

為考察系統(tǒng)對電機參數(shù)變化的魯棒性，假設風速為10 m/s不變，在t=2 s時b增大一倍。圖6給出了參數(shù)變化后，相同條件下傳統(tǒng)矢量控制與基于強化學習算法的自校正控制的動態(tài)響應曲線。由圖6(c)和圖6(d)可看出，當參數(shù)變化導致有功和無功功率與參考值出現(xiàn)偏差后，強化學習控制器根據(jù)偏差值立即輸出校正控制信號，來補償參數(shù)變化的影響。由圖6(a)和圖6(b)可看出，采用自校正控制，超調較小，改善了動態(tài)品質，提高了控制性能。

4 結語

雙饋風力發(fā)電系統(tǒng)具有多變量、非線性、受參數(shù)變化和外部干擾顯著的特點，利用強化學習算法具有的在線自學習能力和模型無關性特點，設計了風機自校正控制器，可有效提高其控制系統(tǒng)的魯棒性和自適應性。此外，該控制策略無需改變原PI控制器的結構和參數(shù)，只需增加一個自校正模塊，工程實現(xiàn)十分簡便。同時，在研究中筆者發(fā)現(xiàn)，由于RL控制器的控制信號為離散動作值，易導致超調，后續(xù)研究中可考慮結合模糊控制對輸入輸出信號模糊化。

［1］劉吉宏，徐大平，呂躍剛.雙饋感應發(fā)電機轉速的非線性模型預測控制［J］.電網(wǎng)技術，2011，35(4):159 －163.

［2］王君瑞，鐘彥儒，宋衛(wèi)章.基于無源性與自適應降階觀測器的雙饋風力發(fā)電機控制［J］.中國電機工程學報，2011，31(33):159－168.

［3］Li H，Shi K L，Mclaren P G.Neural－ Network － Based Sensorless Maximum Wind Energy Capture with Compensated Power Coefficient［J］.IEEE Transactions on Industry Applications，2005，41(6):1548－1556.

［4］孔屹剛，王志新.大型風電機組模糊滑模魯棒控制器設計與仿真［J］.中國電機工程學報，2008，28(14):136 －141.

［5］辜承林，韋忠朝，黃聲華，等.對轉子交流勵磁電流實行矢量控制的變速恒頻發(fā)機［J］.中國電機工程學報，2001，21(12):119－124.

［6］Sutton R S，Barto A G.Reinforcement Learning:an Introduction［M］.Cambridge:MIT Press，1998.

［7］張汝波.強化學習理論及應用［M］.哈爾濱:哈爾濱工程大學出版社，2001.

［8］余濤，周斌，甄衛(wèi)國.強化學習理論在電力系統(tǒng)中的應用及展望［J］.電力系統(tǒng)保護與控制，2009，37(14):122 －128.

［9］Watkins J C H，Dayan Peter.Q － learning［J］.Machine Learning，1992(8):279－292.

［10］Tsitsiklis，John N.Asynchronous Stochastic Approximation and Q－ learning［J］.Machine Leaning，1994，16(3):185 －202.

［11］Richard S.Sutton，Andrew G.Barto.Reinforcement Learning:An In － troduction［M］.Cambridge:MIT Press，1988.

［12］余濤，胡細兵，劉靖.基于多步回溯Q(λ)學習算法的多目標最優(yōu)潮流計算［J］.華南理工大學學報(自然科學版)，2010，38(10):139－145.

［13］劉其輝，賀益康，張建華.交流勵磁變速恒頻風力發(fā)電機的運行控制及建模仿真［J］.中國電機工程學報，2006，26(5):43－50.