亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于狼爬山快速多智能體學(xué)習(xí)策略的電力系統(tǒng)智能發(fā)電控制方法

        2015-10-25 02:34:10席磊余濤張孝順張澤宇譚敏
        電工技術(shù)學(xué)報(bào) 2015年23期
        關(guān)鍵詞:混合策略模糊化爬山

        席磊余濤張孝順張澤宇譚敏

        (華南理工大學(xué)電力學(xué)院廣州510641)

        基于狼爬山快速多智能體學(xué)習(xí)策略的電力系統(tǒng)智能發(fā)電控制方法

        席磊余濤張孝順張澤宇譚敏

        (華南理工大學(xué)電力學(xué)院廣州510641)

        為了解決互聯(lián)復(fù)雜電力系統(tǒng)環(huán)境下自動(dòng)發(fā)電協(xié)調(diào)控制問題,提出了一種多智能體智能發(fā)電控制策略。提出了一種具有多步回溯及變學(xué)習(xí)率的多智能體新算法——“狼爬山”算法。該算法可根據(jù)據(jù)CPS標(biāo)準(zhǔn)求解各種復(fù)雜運(yùn)行環(huán)境下的平均策略?;诨旌喜呗约捌骄呗裕怂惴ú粌H在非馬爾可夫環(huán)境及大時(shí)延系統(tǒng)中具有高度適應(yīng)性,而且能解決新能源電源接入所帶來的互聯(lián)復(fù)雜電力系統(tǒng)環(huán)境下自動(dòng)發(fā)電協(xié)調(diào)控制問題。對(duì)標(biāo)準(zhǔn)兩區(qū)域負(fù)荷頻率控制電力系統(tǒng)模型及南網(wǎng)模型進(jìn)行仿真,結(jié)果顯示該算法能獲得最優(yōu)平均策略,閉環(huán)系統(tǒng)性能優(yōu)異,與已有智能算法相比具有更高的學(xué)習(xí)能力及快速收斂速率。

        智能發(fā)電控制狼爬山變學(xué)習(xí)率平均策略

        3 引言

        互聯(lián)電網(wǎng)自動(dòng)發(fā)電控制(Automatic Generation Control,AGC)是電網(wǎng)能量管理系統(tǒng)的基本功能之一,是保證電力系統(tǒng)有功功率平衡和頻率穩(wěn)定的基本手段[1-3]。研究模型一般是以經(jīng)典的兩區(qū)域IEEE負(fù)荷頻率控制(Load-Frequency Control,LFC)為基礎(chǔ)的頻域線性模型,電力系統(tǒng)LFC問題同時(shí)也是控制理論界研究的一個(gè)經(jīng)典問題,控制理論新方法也常會(huì)被引入到LFC問題中來,文獻(xiàn)[4]對(duì)半個(gè)世紀(jì)以來LFC在理論與技術(shù)研究中的進(jìn)展進(jìn)行了全面的回顧。為了計(jì)算區(qū)域發(fā)電速率,近兩年,歐美電力系統(tǒng)開始采用區(qū)域控制誤差(Area Control Error,ACE)差異互換(ACE Diversity Interchange,ADI)方法[5]。2000年以來,國(guó)內(nèi)兩大電網(wǎng)公司開始采用北美電力可靠性委員會(huì)建議的CPS標(biāo)準(zhǔn),以對(duì)所有控制區(qū)域進(jìn)行協(xié)調(diào)。在智能電網(wǎng)發(fā)展的大背景下,開發(fā)具有自主學(xué)習(xí)能力和廠網(wǎng)協(xié)調(diào)能力的智能發(fā)電控制(Smart Generation Control,SGC)逐漸成為一種趨勢(shì)[6-8]。

        近幾年來,多智能體強(qiáng)化學(xué)習(xí)算法已成為機(jī)器學(xué)習(xí)領(lǐng)域研究的熱點(diǎn),特別是基于經(jīng)典Q學(xué)習(xí)的算法框架體系得到了不斷充實(shí)和發(fā)展。文獻(xiàn)[9,10]已經(jīng)用多個(gè)應(yīng)用實(shí)例證明了多智能強(qiáng)化學(xué)習(xí)中的每個(gè)智能體能追蹤其他智能體的決策以動(dòng)態(tài)協(xié)調(diào)自身動(dòng)作。數(shù)種以博弈論為基礎(chǔ),并用Q學(xué)習(xí)方法來實(shí)現(xiàn)的分布式強(qiáng)化學(xué)習(xí)方法被陸續(xù)提出,如Minimax-Q[11]、Nash-Q[12]和Friend-or-Foe Q[13]。然而由于Minimax_Q是零和博弈、Nash-Q占用空間大、FF-Q的Agent必須知道其他Agent是敵是友使得FF-Q只具有個(gè)體理性等缺陷,限制了這些算法的應(yīng)用。文獻(xiàn)[14]提出了一種基于相關(guān)均衡的分布式多智能體學(xué)習(xí)算法——DCE Q(λ)算法,以解決互聯(lián)電網(wǎng)AGC協(xié)調(diào)控制問題,取得了較為滿意的控制效果。然而,當(dāng)智能體數(shù)量增加時(shí),DCE Q(λ)算法在搜索多智能體均衡解時(shí)間呈幾何數(shù)增加,限制了其方法在更大規(guī)模的電網(wǎng)系統(tǒng)中廣泛應(yīng)用。文獻(xiàn)[15]于2002年開發(fā)了“贏”或“快速學(xué)習(xí)”的爬山策略算法(Win or Learn Fast Policy Hill-Climbing,WoLFPHC)。學(xué)習(xí)中,每個(gè)Agent采用混合策略,且只保存自身的Q值表。所以,一方面,它避免了一般Q學(xué)習(xí)中需要解決的探索和利用這一矛盾問題;另一方面,它可解決多Agent系統(tǒng)的異步?jīng)Q策問題。

        本文融合了WoLF-PHC算法、資格跡[16]和SARSA算法[17],提出了分布式WoLF-PHC(λ)算法,即Distributed WoLF-PHC(λ)(稱為“狼爬山”算法),并將該方法應(yīng)用于求解多智能體SGC中的均衡解。標(biāo)準(zhǔn)兩區(qū)域負(fù)荷頻率控制的電力系統(tǒng)模型及南網(wǎng)模型的兩個(gè)實(shí)例研究證明了此算法的有效性。由于WoLF學(xué)習(xí)率隨環(huán)境適應(yīng)性地變化,與其他SGC方法相比,狼爬山算法具有更高的快速收斂速率。

        3 狼爬山算法

        1.1Q(λ)學(xué)習(xí)

        狼爬山算法可以基于Q學(xué)習(xí)和TD等強(qiáng)化學(xué)習(xí)算法。所提出的方法也是基于經(jīng)典Q學(xué)習(xí)算法框架體系。Q學(xué)習(xí)算法是由文獻(xiàn)[18]提出的具有普遍性的強(qiáng)化學(xué)習(xí)算法,其中狀態(tài)動(dòng)作對(duì)由值函數(shù)Q(s,a)進(jìn)行評(píng)估。最優(yōu)目標(biāo)值函數(shù)Vπ*(s)及策略π*(s)為

        式中A為動(dòng)作集。

        資格跡(Eligibility Trace)詳細(xì)記錄各聯(lián)合動(dòng)作策略發(fā)生的頻率,并依此對(duì)各動(dòng)作策略的迭代Q值進(jìn)行更新。在每次迭代過程中,聯(lián)合狀態(tài)與動(dòng)作會(huì)被記錄到資格跡中,對(duì)于學(xué)習(xí)過程中多步歷史決策給予獎(jiǎng)勵(lì)和懲罰。Q函數(shù)與資格跡以二維狀態(tài)動(dòng)作對(duì)的形式被記錄下來。資格跡將歷史決策過程的頻度及漸新度聯(lián)系在一起,以獲得AGC控制器的最優(yōu)Q函數(shù)。Q函數(shù)的多步信息更新機(jī)制是通過資格跡的后向評(píng)估來獲得。常用的資格跡算法有4種:TD(λ)[19]、SARSA(λ)[17]、Watkin's Q(λ)[18]和Peng's Q(λ)[16]。由于計(jì)算量的限制,選擇基于SARSA(λ)的資格跡

        式中:ek(s,a)為在狀態(tài)s動(dòng)作a下第k步迭代的資格跡;γ為折扣因子;λ為跡衰減因子。Q(λ)值函數(shù)的回溯更新規(guī)則利用資格跡來獲取控制器行為的頻度和漸新度兩種啟發(fā)信息。當(dāng)前值函數(shù)誤差的評(píng)估分別由式(4)和式(5)計(jì)算。

        式中:R(sk,sk+1,ak)為在選定的動(dòng)作ak下,狀態(tài)從sk到sk+1的智能體獎(jiǎng)勵(lì)函數(shù);ag為貪婪動(dòng)作策略;ρk為智能體在第k步迭代過程中的Q函數(shù)誤差;δk為Q函數(shù)誤差的評(píng)估。Q函數(shù)更新為

        式中α為Q學(xué)習(xí)率。隨著充分的試錯(cuò)迭代,狀態(tài)值函數(shù)Qk(s,a)能收斂到由具有概率1的Q*矩陣表示的最優(yōu)聯(lián)合動(dòng)作策略。

        1.2狼爬山算法原理

        1.2.1WoLF原理

        學(xué)者們已經(jīng)對(duì)具有啟發(fā)式方法的WoLF原理在對(duì)手問題上的應(yīng)用進(jìn)行了深入研究,失敗時(shí)加快學(xué)習(xí)速度,贏時(shí)降低學(xué)習(xí)速度[15]。和其他智能體當(dāng)前策略相反的平均策略相比,如果一個(gè)游戲者更喜歡當(dāng)前策略,或當(dāng)前的期望獎(jiǎng)勵(lì)比博弈的均衡值大,那么游戲者便贏了。然而文獻(xiàn)[15]對(duì)WoLF原理的游戲者所需要的知識(shí)給出了嚴(yán)格要求,這也限制了WoLF原理的普適性。

        1.2.2PHC

        爬山策略(Policy Hill-Climbing,PHC)算法是WoLF原理的擴(kuò)展,以使其更具普適性,根據(jù)爬山策略算法,Q學(xué)習(xí)能獲得混合策略以及保存Q值。由于PHC具有理性及收斂特性,當(dāng)其他智能體選擇固定策略時(shí),它能獲得最優(yōu)解。文獻(xiàn)[15]已經(jīng)證明通過合適的探索策略,Q值會(huì)收斂到最優(yōu)值Q*,并且通過貪婪策略Q*,U能獲得最優(yōu)解。雖然此方法是理性且能獲得混合策略,但其收斂特性不明顯。

        1.2.3WoLF-PHC

        文獻(xiàn)[15]于2002年提出了具有變學(xué)習(xí)率φ的WoLF-PHC算法,與此同時(shí)滿足理性和收斂特性。兩個(gè)學(xué)習(xí)參數(shù)φlose和φwin用來表明智能體的贏與輸。WoLF-PHC是基于虛擬博弈,它能通過近似均衡的平均貪婪策略取代未知的均衡策略。

        對(duì)于一個(gè)已知的智能體,基于混合策略集U(sk,ak),它會(huì)在狀態(tài)sk過渡到sk+1,且具有獎(jiǎng)勵(lì)函數(shù)R的情況下執(zhí)行探索動(dòng)作ak,Q函數(shù)將根據(jù)式(6)和式(7)進(jìn)行更新,U(sk,ak)的更新律為

        式中φi為變學(xué)習(xí)率,且φlose>φwin。如果平均混合策略值比當(dāng)前的策略值低,則智能體贏了,選擇φwin,否則選擇φlose。它的更新律為

        執(zhí)行動(dòng)作ak后,對(duì)sk狀態(tài)下所有動(dòng)作的混合策略表進(jìn)行更新

        式中visit(sk)為從初始狀態(tài)到當(dāng)前狀態(tài)所經(jīng)歷的sk次數(shù)。

        3 基于多智能強(qiáng)化學(xué)習(xí)的SGC設(shè)計(jì)

        設(shè)計(jì)一種新穎的基于多智能強(qiáng)化學(xué)習(xí)的狼爬山算法,以尋求自適應(yīng)協(xié)調(diào)的SGC。在每個(gè)迭代步,每個(gè)控制區(qū)域的狼爬山都將在線觀察當(dāng)前的運(yùn)行狀態(tài)以更新值函數(shù)和Q函數(shù),然后執(zhí)行一個(gè)基于平均混合策略的動(dòng)作。設(shè)計(jì)包括獎(jiǎng)勵(lì)函數(shù)的選擇、動(dòng)作間隔的模糊化和參數(shù)設(shè)置等。

        2.1獎(jiǎng)勵(lì)函數(shù)的選擇

        本文中智能控制器所追求的是CPS控制長(zhǎng)期收益最大和盡可能避免頻繁大幅度升降調(diào)節(jié)功率兩個(gè)目標(biāo),獎(jiǎng)勵(lì)函數(shù)中需綜合考慮這兩種指標(biāo)的線性加權(quán)和。某i區(qū)域電網(wǎng)的評(píng)價(jià)獎(jiǎng)勵(lì)函數(shù)Ri詳見文獻(xiàn)[14]。

        2.2動(dòng)作間隔的模糊化

        動(dòng)作區(qū)間模糊化能加快狼爬山算法收斂速度,避免不必要的學(xué)習(xí)。動(dòng)作模糊化規(guī)則參見表1,表中各符號(hào)表示為負(fù)大(NB)、負(fù)中(NM)、負(fù)?。∟S)、零(Z)、正小(PS)、正中(PM)和正大(PB)。

        表1 動(dòng)作模糊化部分具體規(guī)則Tab.1 Specific rule for the action fuzzification

        實(shí)際應(yīng)用中,需要規(guī)定各區(qū)域各自狀態(tài)、動(dòng)作所代表符號(hào)的含義,并根據(jù)動(dòng)作上下限確定區(qū)間動(dòng)作數(shù)和各動(dòng)作值。南網(wǎng)模型仿真實(shí)例中,動(dòng)作區(qū)間模糊化共有49條規(guī)則,每條規(guī)則規(guī)定有7個(gè)離散動(dòng)作,僅列取7條規(guī)則,如表1所示。表1中,最后一條規(guī)則NB/PB不需要學(xué)習(xí)即可判斷最優(yōu)動(dòng)作為0,因此動(dòng)作空間均為0,NB、NM等輸入狀態(tài)符號(hào)的定義見表2。

        表2 動(dòng)作模糊化ACE狀態(tài)劃分Tab.2 The fuzzy rules of the state division of ACE

        2.3參數(shù)設(shè)置

        如前文所述,控制系統(tǒng)的設(shè)計(jì)需要對(duì)4個(gè)參數(shù)λ、γ、α、和φ進(jìn)行合理設(shè)置[15-17,20]。

        資格跡衰減因子λ設(shè)置為0<λ<1,其作用是在狀態(tài)動(dòng)作對(duì)間分配信譽(yù)。對(duì)于長(zhǎng)時(shí)延系統(tǒng),它影響收斂速度及非馬爾可夫效果。一般來說,回溯法中λ能被看作為時(shí)間標(biāo)度因素。對(duì)于Q函數(shù)誤差來說,小的λ意味著很少的信譽(yù)被賦予到歷史狀態(tài)動(dòng)作對(duì),而大的λ表明分配到了更多的信譽(yù)。

        折扣因子γ設(shè)置為0<γ<1,為Q函數(shù)將來的獎(jiǎng)勵(lì)提供折扣。在以熱電廠為主導(dǎo)的LFC控制過程中,由于最新的獎(jiǎng)勵(lì)最重要,所以應(yīng)該選取近似1的值[20]。實(shí)驗(yàn)證明0.6<γ<0.95具有更好的效果,選取γ=0.9。

        Q學(xué)習(xí)率α設(shè)置為0<α<1,對(duì)Q函數(shù)的收斂速率即算法穩(wěn)定性進(jìn)行權(quán)衡。更大的α可以加快學(xué)習(xí)速度,而更小的α能提高系統(tǒng)的穩(wěn)定性。在預(yù)學(xué)習(xí)過程中,我們選擇α的初始值為0.1,以獲得總體的探索[17],然后為了逐漸提高系統(tǒng)的穩(wěn)定性,它將以線性方式減少。

        2.4狼爬山算法流程

        狼爬山算法流程如圖1所示,嵌入了狼爬山算法的SGC控制器具有如下特性:①某一區(qū)域的控制策略僅在本區(qū)域有效;②在所有區(qū)域不能與此同時(shí)更新值函數(shù)Qk+1(s,a),因此對(duì)于所獲得的最優(yōu)策略不可避免地產(chǎn)生了時(shí)延。

        圖1 基于狼爬山的第i個(gè)智能體的SGC執(zhí)行流程Fig.1 Execution steps of the DWoLF-PHC(λ)-based SGC for agent i

        3 算例研究

        3.1兩區(qū)域LFC電力系統(tǒng)

        所提出的多智能體SGC策略已在兩區(qū)域LFC電力系統(tǒng)中進(jìn)行了測(cè)試[20],系統(tǒng)參數(shù)設(shè)置可參見文獻(xiàn)[21]。SCG的運(yùn)行周期是3 s,且在二次調(diào)頻中具有20 s時(shí)延Ts。對(duì)于狼爬山來說,在最終的在線運(yùn)行之前通過離線試錯(cuò)而進(jìn)行充分的預(yù)學(xué)習(xí)是必要的,包括在CPS狀態(tài)空間中的大量探索以優(yōu)化Q函數(shù)和狀態(tài)值函數(shù)[22]。圖2為由一個(gè)連續(xù)10 min正弦擾動(dòng)而產(chǎn)生的每個(gè)區(qū)域的預(yù)學(xué)習(xí)。由圖可發(fā)現(xiàn)狼爬山收斂到兩個(gè)區(qū)域都具有合格CPS1(CPS1的10 min平均值)和EAVE-10-min(ACE的10 min平均值)的最優(yōu)策略。

        然而使用一個(gè)2范數(shù)的Q矩陣‖Qik(s,a)-Qi(k-1)(s,a)‖2≤ζ(ζ為已知常量)作為最優(yōu)策略預(yù)學(xué)習(xí)的終止標(biāo)準(zhǔn)[20]。圖3為預(yù)學(xué)習(xí)期間A區(qū)域Q函數(shù)差分的收斂結(jié)果。與DCE Q(λ)相比收斂速度提高了40%。

        圖2 兩區(qū)域所獲得的狼爬山的預(yù)學(xué)習(xí)Fig.2 The pre-learning of DWoLF-PHC(λ)obtained in two area

        圖3 預(yù)學(xué)習(xí)期間A區(qū)域Q函數(shù)差分的收斂結(jié)果Fig.3 Q-function differences convergence result obtained in area A during the pre-learning

        為了評(píng)估算法的魯棒性,A區(qū)域在階躍負(fù)荷擾動(dòng)下,對(duì)Q學(xué)習(xí)、Q(λ)學(xué)習(xí)、DCE Q(λ)和WoLF-PHC與狼爬山進(jìn)行對(duì)比分析。對(duì)于狼爬山算法,在兩個(gè)區(qū)域中根據(jù)式(11)選擇相同的獎(jiǎng)勵(lì)函數(shù),權(quán)重因子選取為η1=1,η2=10,μ1=μ2=10。圖4a顯示它們的超調(diào)量分別為22.5%、18%、6%、2.5%和0%,并且它們的穩(wěn)態(tài)時(shí)間分別為450 s、350 s、320 s、150 s和100 s,與DCE Q(λ)相比,狼爬山的收斂速度提高68%。圖4b和圖4c顯示CPS1和ACE的最小值也是狼爬山算法表現(xiàn)最佳。

        圖4 5種SGC控制器的控制性能對(duì)比圖Fig.4 Control performance obtained by five SGC controllers

        表3列出了A、B區(qū)域不同的非馬爾可夫環(huán)境下每個(gè)算法的控制性能,選取具有不同二次調(diào)頻時(shí)延Ts及不同爬坡速率(Generation Rate Constraint,GRC)的8個(gè)火電機(jī)組進(jìn)行測(cè)試。表中,Tc為預(yù)學(xué)習(xí)的平均收斂時(shí)間,ΔF和CPS1取預(yù)學(xué)習(xí)之后24 h的平均值,(CPS2)表示1 min ACE絕對(duì)值的平均值。由表3可看出,隨著Ts的變大Tc明顯增長(zhǎng),因此需要更多的迭代次數(shù)以獲得最優(yōu)策略。然而,當(dāng)Ts增加或GRC較少時(shí),CPS指標(biāo)僅輕微地弱化,因此火電占優(yōu)的非馬爾可夫LFC問題可有效得到解決。

        表3 不同時(shí)延所獲得的統(tǒng)計(jì)特性Tab.3 Statistic performances obtained under different time-delays

        3.2南方電網(wǎng)模型

        采用的南方電網(wǎng)四省區(qū)互聯(lián)負(fù)荷頻率響應(yīng)模型可參見文獻(xiàn)[14,20,23,24]。通過超過30天的擾動(dòng)統(tǒng)計(jì)實(shí)驗(yàn)對(duì)多智能體SGC的長(zhǎng)期性能進(jìn)行評(píng)估。分別對(duì)4種控制器,即Q(λ)學(xué)習(xí)、R(λ)[22]學(xué)習(xí)、DCE Q(λ)和狼爬山進(jìn)行測(cè)試。表4和表5分別列出了在標(biāo)稱參數(shù)和擾動(dòng)參數(shù)下所獲得的統(tǒng)計(jì)結(jié)果。

        為了設(shè)計(jì)變學(xué)習(xí)率以獲得SGC協(xié)調(diào),多智能體SGC提供了平均策略值。根據(jù)Tc、CPS值、順調(diào)次數(shù)、反調(diào)次數(shù),從表4和表5可發(fā)現(xiàn),狼爬山與其他算法相比具有更優(yōu)的控制性能。

        表4 南網(wǎng)模型在標(biāo)稱參數(shù)下所獲得的統(tǒng)計(jì)性能Tab.4 Statistic experiment results obtained under the nominal parameter in the CSGmodel

        3 結(jié)論

        對(duì)于狼爬山算法,每個(gè)區(qū)域智能體不會(huì)減少與其他智能體之間的信息交換,而是時(shí)刻感知到其他智能體的動(dòng)作引起的狀態(tài)變化。控制系統(tǒng)是多智能體系統(tǒng),每個(gè)區(qū)域都嵌入了狼爬山算法,與DCE Q算法相比,看似Q學(xué)習(xí)一樣的單智能體算法,每個(gè)算法中都只有一個(gè)智能體,其他智能體動(dòng)作會(huì)對(duì)當(dāng)前的狀態(tài)及下一時(shí)刻狀態(tài)產(chǎn)生影響,這也就是所謂的智能體聯(lián)合動(dòng)作,而智能體會(huì)隨狀態(tài)的變化而隨時(shí)變化學(xué)習(xí)率,這是狼爬山比Q學(xué)習(xí)優(yōu)越的地方。事實(shí)上,如前言中所列舉的Minimax-Q、Nash-Q、Friend-or-Foe Q和DCE Q等多智能體學(xué)習(xí)算法本質(zhì)上都是屬于多智能體之間的博弈,都可以歸納為納什均衡博弈。但不同于靜態(tài)博弈場(chǎng)景,對(duì)于屬于動(dòng)態(tài)博弈的控制過程,納什均衡解在每個(gè)控制時(shí)間間隔的搜索速度并不一定都能滿足控制的實(shí)時(shí)性要求。所提出的狼爬山方法是通過平均策略取代多智能體動(dòng)態(tài)博弈的均衡點(diǎn)求解,因此從博弈論的觀點(diǎn)來看,狼爬山方法可以看作是一種高效、獨(dú)立的自我博弈,降低了與其他智能體之間實(shí)時(shí)信息交換和聯(lián)合控制策略的求解難度??偟膩碚f,主要貢獻(xiàn)如下:

        表5 南網(wǎng)模型在10%白噪聲參數(shù)下所獲得的統(tǒng)計(jì)性能Tab.5 Statistic experiment results obtained under a 10%white noise parameter perturbation in the CSGmodel

        1)基于WoLF-PHC,融合SARSA(λ)和資格跡開發(fā)了一種新穎的狼爬山算法,能有效解決隨機(jī)博弈求解和在非馬爾可夫環(huán)境的應(yīng)用問題。

        2)通過隨機(jī)動(dòng)態(tài)博弈的一種合適的贏輸標(biāo)準(zhǔn),引入變學(xué)習(xí)率及平均策略以提高狼爬山動(dòng)態(tài)性能。

        3)基于標(biāo)準(zhǔn)兩區(qū)域負(fù)荷頻率控制電力系統(tǒng)模型及南網(wǎng)模型,對(duì)多種智能算法進(jìn)行了SGC協(xié)調(diào)的仿真實(shí)例研究。仿真結(jié)果表明,與其他智能算法相比,狼爬山能夠獲得快速的收斂特性及學(xué)習(xí)效率,在多區(qū)域強(qiáng)隨機(jī)互聯(lián)復(fù)雜電網(wǎng)環(huán)境下具有高度適應(yīng)性和魯棒性。

        [1]溫步瀛.計(jì)及調(diào)速器死區(qū)影響的兩區(qū)域互聯(lián)電力系統(tǒng)AGC研究[J].電工技術(shù)學(xué)報(bào),2010,25(9):176-182.

        Wen Buying.Research on AGC of two-area interconnected power system considering the effect of the governor dead band[J].Transactions of China Electrotechnical Society,2010,25(9):176-182.

        [2]付鵬武,周念成,王強(qiáng)鋼,等.基于時(shí)滯模型預(yù)測(cè)控制算法的網(wǎng)絡(luò)化AGC研究[J].電工技術(shù)學(xué)報(bào),2014,29(4):188-195.

        Fu Pengwu,Zhou Niancheng,Wang Qianggang,et al. Research on networked AGC system based on delay model predictive control algorithm[J].Transactions of China Electrotechnical Society,2014,29(4):188-195.

        [3]趙旋宇.南方電網(wǎng)直調(diào)機(jī)組AGC研究[J].電力系統(tǒng)保護(hù)與控制,2008,36(7):54-58.

        Zhao Xuanyu.Research on AGC for generations directly controlled by CSG[J].Power System Protection and Control,2008,36(7):54-58.

        [4]Pandey S K,Mohanty S R,Kishor N.A literature survey on load-frequency control for conventional and distribution generation power systems[J].Renewable and Sustainable Energy Reviews,2013,25(5):318-334.

        [5]Oneal A R.A simplemethod for improving control area performance:area control error(ACE)diversity interchange[J].IEEE Transactions on Power Systems,1995,10(2):1071-1076.

        [6]杜貴和,王正風(fēng).智能電網(wǎng)調(diào)度一體化設(shè)計(jì)與研究[J].電力系統(tǒng)保護(hù)與控制,2010,38(15):127-131.

        Du Guihe,Wang Zhengfeng.Design and research on power network dispatching integration of smart grid[J]. Power System Protection and Control,2010,38(15):127-131.

        [7]吳國(guó)沛,劉育權(quán).智能配電網(wǎng)技術(shù)支持系統(tǒng)的研究與應(yīng)用[J].電力系統(tǒng)保護(hù)與控制,2010,38(21):162-166,172.

        Wu Guopei,Liu Yuquan.Research and application of technology support system for smart distribute grid[J]. Power System Protection and Control,2010,38(21):162-166,172.

        [8]尹明,王成山,葛旭波,等.中德風(fēng)電發(fā)展的比較與分析[J].電工技術(shù)學(xué)報(bào),2010,25(9):157-163.

        Yin Ming,Wang Chengshan,Ge Xubo,et al. Comparison and analysis of wind power development between China and Germany[J].Transactions of China Electrotechnical Society,2010,25(9):157-163.

        [9]Daneshfar F,Bevrani H.Load-frequency control:a GA-based multi-agent reinforcement learning[J].IET Generation Transmission&Distribution,2010,4(1):13-26.

        [10]Bevrani H,Daneshfar F,Hiyama T.A new intelligent agent-based AGC design with real-time application[J]. IEEE Transactions on Systems,Man,and Cybernetics,Part C:Applications and Reviews,2012,42(6):994-1002.

        [11]Littman M.A generalized reinforcement-learningmodel:convergence and applications[C].Proceedings of the 13th International Conference on Machine Learning,Bari,Italy,1996:310-318.

        [12]Hu J,Wellman M P.Multiagent reinforcement learning:Theoretical framework and an algorithm[C].Proceedings of 15th International Conference on Machine Learning,Madison,1999:242-250.

        [13]Littman M L.Friend or foe Q-learning in general-sum Markov games[C].Proceedings of the 18th International Conference on Machine Learning,Williamstown,Massachusetts,2001:322-328.

        [14]Yu Tao,Xi Lei,Yang Bo,et al.Multi-agent stochastic dynamic game for smart generation control[J].Journal of Energy Engineering,2015,DOI:10.1061/(ASCE)EY.1943-7897.0000275:04015012.

        [15]Bowling M,Veloso M.Multiagent learning using a variable learning rate[J].Artificial Intelligence,2002,136(2):215-250.

        [16]Peng Jing,Williams R J.Incremental multi-step Q-learning[J].Machine Learning,1996,22(1-3):283-290.

        [17]Sutton R S,Barto A G.Reinforcement Learning:An Introduction[M].Cambridge:MIT Press,1998.

        [18]Watkins C J H,Dayan P.Q-learning[J].Machine Learning,1992,8(3/4):279-292.

        [19]Sutton R S.Learning to predict by the methods of temporal differences[J].Machine Learning,1988,3(1):9-44.

        [20]Yu T,Zhou B,Chan K W,et al.Stochastic optimal relaxed automatic generation control in Non-Markov environment based on multi-step Q(λ)learning[J]. IEEE Transactions on Power Systems,2011,26(3):1272-1282.

        [21]Elgerd O I.Electric Energy System Theory-An Introduction[M].2nd ed.New York:McGraw-Hill,1982.

        [22]Ernst D,Glavic M,Wehenkel L.Power systems stability control:reinforcement learning framework[J]. IEEE Transactions on Power Systems,2004,19(1):427-435.

        [23]Yu T,Zhou B,Chan K W,et al.R(λ)imitation learning for automatic generation control of interconnected power grids[J].Automatica,2012,48(9):2130-2136.

        [24]Xi Lei,Yu Tao,Yang Bo,et al.A novelmulti-agent decentralized win or learn fast policy hill-climbing with eligibility trace algorithm for smart generation control of interconnected complex power grids[J].Energy Conversion and Management,2015,103(10):82-93.

        A Fast M ulti-agent Learning Strategy Base on DW oLF-PHC(λ)for Smart Generation Control of Power System s

        Xi Lei Yu Tao Zhang Xiaoshun Zhang Zeyu Tan Min
        (School of Electric Power South China University of Technology Guangzhou 510641 China)

        This paper proposes amulti-agent(MA)smart generation control scheme for the coordination of automatic generation control(AGC)in the power grid with system uncertainties.A novel MA new algorithm,i.e.DWoLF-PHC(λ)with a multi-step backtracking and a variable learning rate,is developed,which can effectively identify the optimal average policies under various operating conditions by the control performance standard(CPS).Based on the mixed strategy and the average policy,the algorithm is highly adaptive in stochastic Non-Markov environments and large time-delay systems and can also achieve AGC coordination in interconnected complex power systems in the presence of increasing penetration of renewable energies.Simulation studies on both a two-area load-frequency control(LFC)power system and the China Southern Power Grid model have been done respectively.The results show that the algorithm can achieve the optimal average policies,the closed-loop system has excellent properties,and the algorithm has a fast convergence rate and a higher learning ability compared with other existing intelligentmethods.

        Smart generation control,DWoLF-PHC(λ),variable learning rate,average policy

        TM732

        席磊男,1982年生,博士研究生,研究方向?yàn)殡娏ο到y(tǒng)優(yōu)化運(yùn)行與控制。(通信作者)

        余濤男,1974年生,教授,博士生導(dǎo)師,研究方向?yàn)閺?fù)雜電力系統(tǒng)的非線性控制理論和仿真。

        國(guó)家自然科學(xué)基金(51177051、51477055)、國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展(973)計(jì)劃項(xiàng)目(2013CB228205)和廣東省綠色能源技術(shù)重點(diǎn)實(shí)驗(yàn)室項(xiàng)目(2008A060301002)資助。

        2015-01-05改稿日期2015-08-24

        猜你喜歡
        混合策略模糊化爬山
        ([0,1],[0,1])-模糊擬陣的基和秩函數(shù)
        餐飲娛樂空間的“邊界模糊化”態(tài)勢(shì)探討——餐飲娛樂空間設(shè)計(jì)專輯
        難忘那次爬山
        三角模糊數(shù)去模糊化對(duì)VIKOR妥協(xié)解的影響研究
        爬山
        爬山
        混合策略的漢維輔助翻譯系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
        注冊(cè)制背景下上市公司與投資者的博弈分析
        有趣的爬山
        基于混合策略博弈的我國(guó)工業(yè)碳減排分析
        久久国产精品国产精品久久| 亚洲综合色自拍一区| 成年女人永久免费看片| 999久久久免费精品国产牛牛| 日产精品毛片av一区二区三区| 亚洲乱码中文在线观看| 麻豆成人精品国产免费| 国产免费av片在线观看麻豆| 国产精品毛片大尺度激情| 国产精品一区二区黄色| 777精品久无码人妻蜜桃| 午夜一级韩国欧美日本国产| 精品久久久亚洲中文字幕| 色综合悠悠88久久久亚洲| 国产一区二区三区在线电影| 好爽…又高潮了毛片免费看| 亚洲一区二区三区免费av在线| 男女调情视频在线观看| 网禁拗女稀缺资源在线观看| 热99re久久精品这里都是免费| 国产亚洲一区二区三区成人 | 亚洲高清中文字幕视频| 中出人妻中文字幕无码| 欧美成人中文字幕| 亚洲伊人伊成久久人综合| 国产av熟女一区二区三区| 99久久国产综合精品麻豆 | 草草网站影院白丝内射| 亚洲视频一区二区久久久| 女同视频一区二区在线观看| 成人免费一区二区三区| 中文字幕精品一二三区| 久久精品国产亚洲av天美| 亚洲国产成人精品无码区在线秒播| 国产极品美女高潮无套在线观看 | 亚洲国产成人一区二区精品区| 青青草国产成人99久久| 久久免费精品视频老逼| 日本精品一区二区三区二人码| 东方aⅴ免费观看久久av| 久久精品国产亚洲AV古装片|