亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度Q學習的強魯棒性智能發(fā)電控制器設(shè)計

        2018-05-16 07:45:59殷林飛
        電力自動化設(shè)備 2018年5期
        關(guān)鍵詞:動作區(qū)域智能

        殷林飛,余 濤

        (華南理工大學 電力學院,廣東 廣州 510640)

        0 引言

        隨著互聯(lián)電網(wǎng)智能化的發(fā)展(即智能電網(wǎng)(smart grids)[1]),參與自動發(fā)電控制AGC(Automatic Gene-ration Control)二次調(diào)頻的機組在不斷動態(tài)變化,從而逐漸發(fā)展了智能發(fā)電控制SGC(Smart Generation Control)技術(shù)[2]。與此同時,各種新能源和間歇性能源的接入,也給智能電網(wǎng)的控制問題帶來了新的挑戰(zhàn),不僅外部擾動不斷變化,而且系統(tǒng)內(nèi)部參數(shù)也在不斷變化。

        對于SGC,依賴于模型的最優(yōu)策略或算法不能應(yīng)用于動態(tài)模型中,主要在電網(wǎng)環(huán)境方面(間歇性新能源的加入[3- 4]、電動汽車的接入給電網(wǎng)帶來了較大挑戰(zhàn))[5-6]、電力市場(供求關(guān)系、市場實時電價與控制區(qū)域之間的博弈)、運行方式(運行方式切換時容易引起頻率振蕩)、控制策略(不同區(qū)域的協(xié)調(diào)控制問題,要從系統(tǒng)的角度去協(xié)調(diào)控制,而不是單個區(qū)域的控制策略最優(yōu))和控制目標方面(同時滿足控制性能、經(jīng)濟性和環(huán)保等多目標最優(yōu))存在問題[2]。針對控制策略問題,目前有強化學習、改進的強化學習(如Q(λ)算法[7]和R(λ)算法[8])、人工神經(jīng)網(wǎng)絡(luò)ANN(Artificial Neural Network)[9-12]等算法。雖然這些智能控制算法能應(yīng)對不同類型的外部擾動,但是當系統(tǒng)內(nèi)部參數(shù)變化時,智能控制算法需要學習的時間較長,因此有學者采用模型參數(shù)辨識的方法進行研究[13]。然而該參數(shù)辨識一般是應(yīng)用簡單模型建立的參數(shù)辨識,當模型復雜、不清楚各個環(huán)節(jié)的大致模型、無法獲取系統(tǒng)有多少環(huán)節(jié)、有多個參數(shù)需要辨識時,該參數(shù)辨識方法則有待深入研究。

        而在智能控制算法領(lǐng)域,機器學習ML(Machine Learning)近幾年成為熱點話題,特別是在谷歌公司的人工智能研究團隊——深智(DeepMind)[14-15]開展的圍棋大賽之后更是成為熱點,如文獻[15-16]詳細介紹了深度學習的分類與發(fā)展,文獻[14,17-18]分析了深度學習在圍棋等游戲中的應(yīng)用。ML中的ANN可做分類和預測,對其改進后發(fā)展了深度強化學習DRL(Deep Reinforcement Learning)[18-20]。不斷發(fā)展的ML還能解決多智能體系統(tǒng)MAS(Multi-Agent System)的問題,即通過帶有深度Q學習DQL(Deep Q Learning)算法的智能體可在不斷更新的獎勵中尋找最優(yōu)的動作,從而在整個環(huán)境中不斷地進行博弈[22]。

        因此,本文將ML中的深度神經(jīng)網(wǎng)絡(luò)DNN(Deep Neural Network),融入ML中的Q學習算法框架中,利用訓練后的DNN替換Q學習算法中的動作選擇機制,提升算法對系統(tǒng)的認知能力,從而首次提出了一種全新架構(gòu)的DQL算法;并利用所提算法設(shè)計智能發(fā)電控制器,在由多區(qū)域智能體構(gòu)成的多智能體系統(tǒng)中應(yīng)用,特別是進行各參數(shù)(如類型和干擾等外部擾動,汽輪機的3個關(guān)鍵參數(shù)[13,23]、可調(diào)容量、爬坡率等內(nèi)部擾動)可變的大規(guī)模仿真。

        1 智能發(fā)電控制器

        1.1 SGC模型

        針對高速發(fā)展的現(xiàn)代互聯(lián)電網(wǎng)出現(xiàn)的電網(wǎng)環(huán)境方面的變化、電力市場的改革、運行方式的切換、控制策略的改變和控制目標的不同等問題,SGC需在非標稱參數(shù)下具備最優(yōu)的控制性能,且SGC具有分布式結(jié)構(gòu),每個區(qū)域利用各自的算法在互聯(lián)的電網(wǎng)中追求各自的最優(yōu)控制。在SGC模型中,區(qū)域i的SGC模型如圖1所示。

        圖1 區(qū)域i的SGC模型Fig.1 SGC model of Area i

        與AGC模型不同的是,控制區(qū)域的聯(lián)絡(luò)線功率變化不僅包含本地負荷擾動,而且包含本控制區(qū)域的基礎(chǔ)負荷。圖1中基礎(chǔ)負荷Ploci由與該地區(qū)簽訂的實時功率供需合同的發(fā)電機組來分擔[2]。圖1中,Δfi為區(qū)域i的頻率偏差;Bi為區(qū)域i的頻率偏差系數(shù);ΔPtie-i為區(qū)域i的聯(lián)絡(luò)線總功率偏差;Ri為區(qū)域i的下垂特性系數(shù);Hi為區(qū)域i的電力系統(tǒng)等值慣性常數(shù);Di為區(qū)域i的電力系統(tǒng)等值阻尼系數(shù);Tgni為區(qū)域i第n臺發(fā)電機組調(diào)速器的時間常數(shù);Ttni為區(qū)域i第n臺發(fā)電機組的時間常數(shù);N為控制區(qū)域的個數(shù);Tij為區(qū)域i和區(qū)域j之間的聯(lián)絡(luò)線同步系數(shù)。該分擔由v4i信號來實現(xiàn)。控制區(qū)域i的聯(lián)絡(luò)線功率變化v2i為:

        (1)

        而該區(qū)域聯(lián)絡(luò)線有功功率計劃值v3i為:

        (2)

        其中,gki為第k臺發(fā)電機機組在區(qū)域i的參與因子;ΔPloci、ΔPlocj分別為區(qū)域i、j的有功功率差值。根據(jù)式(2)可得到任意控制區(qū)域的聯(lián)絡(luò)線功率偏差為:

        ΔPtie-i,error=ΔPtie-i,actual-v3i

        (3)

        其中,ΔPtie-i,actual為區(qū)域i聯(lián)絡(luò)線的實時功率。圖1中的v4i為外區(qū)域發(fā)電公司與本區(qū)域用電客戶簽訂實時功率供需合同信息,即:

        v4i=[v4i-1v4i-2…v4i-n]

        (4)

        其中,

        (5)

        在SGC中,發(fā)電機組i在SGC模型中發(fā)電總功率為:

        (6)

        1.2 智能發(fā)電控制器的控制目標

        圖1中的智能發(fā)電控制器必須控制區(qū)域的頻率偏差|Δf|盡量小,從而平衡各地區(qū)帶來的功率誤差。因此,智能發(fā)電控制器的目的為使頻率偏差|Δf|和區(qū)域功率誤差ACE(Area Control Error)均為0。

        為衡量智能發(fā)電控制器的控制性能,NERC在1997年提出了統(tǒng)計學性能指標,即CPS指標。εACE則為該區(qū)域的功率控制誤差(單位為MW),Δf為頻率偏差(單位為Hz)。εACE和Δf越小,則控制性能越優(yōu)。

        首先,定義CPS1指標為:

        δCPS1=(2-σCF1)×100%

        (7)

        其中,εACE,AVE-min為1min ACE的平均值;Bi為控制區(qū)域i的頻率偏差系數(shù)(單位為10MW/Hz);n0為該統(tǒng)計時間內(nèi)的分鐘數(shù);ε1為互聯(lián)電網(wǎng)對全年每分鐘頻率平均偏差的均方根的控制目標值。

        CPS2指標定義為:

        (8)

        其中,Tu、Ts和Tn分別為考核期間不合格時段、總時段和非考核時段。Tu為ACE每10min的平均值大于T10的考核時段數(shù)。CPS指標的判斷為:

        智能發(fā)電控制器從電網(wǎng)中采集εACE和Δf,并依據(jù)式(7)計算δCPS1指標,以δCPS1和εACE作為輸入,以發(fā)電機功率指令作為輸出。

        2 基于DQL的控制器

        2.1 Q學習算法

        Q學習算法作為“外控制”是不依賴于模型的屬于馬爾科夫決策過程MDP(Markov Decision Process)的控制算法,它通過不斷更新的獎勵值來實現(xiàn)動態(tài)的最優(yōu)的控制。Q學習算法的核心是智能體與環(huán)境進行交互。對于智能體而言,從環(huán)境中獲取到狀態(tài)s和獎勵值r,然而事實是獎勵值一般由人為設(shè)定,包含在智能體中,應(yīng)為智能體的一部分。Q學習算法中矩陣Q和矩陣P的更新方式為:

        Q(s,a)←Q(s,a)+α(R(s,s′,a)+

        (9)

        (10)

        其中,s和s′分別為當前狀態(tài)和下一時刻狀態(tài);β為概率分布因子;概率矩陣P(s,a)的初始值為1/|A|,|A|為動作集中動作的數(shù)量,且概率矩陣的范圍是P(s,a)∈[0,1];α為Q學習算法的學習率;γ為折扣因子;R(s,s′,a)為獎勵值,獎勵值函數(shù)依據(jù)控制目標而定;a和a′分別為當前時刻的動作和下一時刻的動作值。本文中Q學習算法的智能體的獎勵函數(shù)為:

        (11)

        在Q學習算法中,算法穩(wěn)定性和收斂性有一定的隨機性。在概率矩陣選擇動作值時,若某動作的概率過大(存在“過學習”),且其他動作概率很小,此時若未選擇概率最大的動作,則會隨機地從動作集中選擇一個動作進行試錯。這種試錯會給Q學習的收斂速度帶來影響。在試錯少量的幾個動作之后,能預測到在該情況下選擇其他動作帶來的影響,而此時DNN則能夠?qū)崿F(xiàn)此預測功能。

        2.2 DNN

        DNN采用深層次的神經(jīng)網(wǎng)絡(luò)作為基礎(chǔ),將多個受限波爾茲曼機RBM(Restricted Boltzmann Machine)堆疊。在訓練DNN時,采用無監(jiān)督的逐層貪心訓練方法(逐層進行訓練)。在離線訓練完成之后,可采用有監(jiān)督的學習對網(wǎng)絡(luò)進行邊訓練邊利用;再假定所有可見和隱含單元均為二值變量(只能取0或1),即i,j,vi,hj∈{0,1}?;谀芰慷x的RBM系統(tǒng)的能量定義為:

        (12)

        其中,Wij為鏈接權(quán)重;ai、bj分別為可見元i和隱元j的偏置。此時(v,h)的聯(lián)合概率分布為:

        (13)

        (14)

        各個可見元的激活概率為:

        (15)

        2.3 DQL算法

        為避免在某狀態(tài)下多個動作對應(yīng)的概率相同時Q學習算法的不斷試錯,加速算法的收斂性,在Q學習算法的框架下加入DNN進行下一時刻動作的預測。設(shè)計了DQL算法的框架如附錄中圖A1所示。

        從圖A1能看出,DQL的框架和Q學習相似,通過DNN學習加速其對系統(tǒng)的預測能力,通過DNN對動作選擇機制的替換,形成DQL算法。圖2中展示:在DNN未被訓練或預測輸出的下一時刻狀態(tài)不在“理想狀態(tài)面”附近時,“訓練切換開關(guān)”應(yīng)置為“訓練DNN”檔,其他情況應(yīng)置為“訓練結(jié)束”檔。理想狀態(tài)面則由以“當前時刻”狀態(tài)為x軸,以動作集為y軸,以理想狀態(tài)構(gòu)成z軸,平行于oxy的平面構(gòu)成,“動作選擇”則為每次迭代過程中選擇理想狀態(tài)面附近對應(yīng)的動作作為輸出。當DNN無法預測或預測出的狀態(tài)不在“理想狀態(tài)面”附近時,智能體自動將“訓練切換開關(guān)”置為“訓練DNN”檔。對DQL算法的訓練見2.4節(jié)。

        2.4 基于DQL的控制器的訓練與互博弈

        對于DQL算法,樣本獲取極其關(guān)鍵。DQL算法的樣本來自于離線訓練和在線微調(diào)2種方式。離線的靜態(tài)訓練需要在不同的狀態(tài)s下執(zhí)行不同的動作a,從而獲取下一時刻的狀態(tài)s′。

        離線訓練時,對于Q學習、Q(λ)和DQL算法的樣本訓練,可在某種內(nèi)部參數(shù)情況下采用不同幅值的階躍輸入作為外部擾動進行算法樣本訓練,為獲取不同的“當前時刻”的狀態(tài),輸入不同的階躍一段時間(本文算例中取1 000 s)后,待系統(tǒng)穩(wěn)定在某狀態(tài)后選擇不同的動作進行仿真,獲取“下一時刻”的狀態(tài)作為樣本。

        在線微調(diào)訓練時,為加快算法收斂速度,可單獨進行單個區(qū)域的算法訓練。多區(qū)域的在線訓練為多個基于DQL算法的智能體(或稱為控制器)之間的“互博弈”過程,多個基于DQL算法的智能體之間的博弈過程可分多次進行,其流程如圖2所示。

        圖2 多DQL算法控制器的互博弈過程圖Fig.2 Game of multi-DQL controller

        假定某智能互聯(lián)大電網(wǎng)共有4個發(fā)電控制區(qū)域,從圖2可看出多個基于DQL算法的控制器之間的互博弈過程為:

        Step1 區(qū)域{2,3,4}固定選擇單獨訓練得到的最優(yōu)動作,區(qū)域{1}選擇不同的動作進行訓練;

        Step2 區(qū)域{1}選擇Step1訓練得到的最優(yōu)動作,區(qū)域{3,4}固定選擇單獨訓練得到的最優(yōu)動作,區(qū)域{2}選擇不同的動作進行訓練;

        Step3 區(qū)域{1,2}選擇[Step1,Step2]訓練得到的最優(yōu)動作,區(qū)域{4}固定選擇單獨訓練得到的最優(yōu)動作,區(qū)域{3}選擇不同的動作進行訓練;

        Step4 區(qū)域{1,2,3}選擇[Step1,Step2,Step3]訓練得到的最優(yōu)動作,區(qū)域{4}選擇不同的動作進行訓練;

        Step5 區(qū)域{1,2,3,4}采用各自區(qū)域的DQL算法進行選擇。

        在訓練“當前時刻”的樣本時,在“當前時刻”之前的所有時刻的4個區(qū)域都用各自的DQL算法進行博弈。

        2.5 DQL算法的智能發(fā)電控制器設(shè)計

        針對智能電網(wǎng)的SGC問題,設(shè)計了基于DQL算法的智能發(fā)電控制器,其結(jié)構(gòu)如圖3所示。

        圖3 基于DQL算法的智能發(fā)電控制器Fig.3 Smart generation controller based on DQL algorithm

        通過圖3可以看出,以DQL算法為基礎(chǔ)設(shè)計的區(qū)域i的智能發(fā)電控制器,將εACE和δCPS1指標作為輸入、機組出力ΔPmi作為輸出。該控制器通過εACE和δCPS1確定所在狀態(tài),并更新矩陣Q。此后,若訓練未結(jié)束,則更新概率矩陣P并訓練DNN,否則直接采用DNN進行預測并選擇Δf最小對應(yīng)的動作。針對智能發(fā)電控制問題,理想狀態(tài)面可設(shè)定為ε=0.01Hz。

        3 仿真算例

        所有算例均在CPU為i7-2760 2.4GHz、內(nèi)存為8 GB的電腦上運行,仿真軟件的版本為MATLAB 2016b 9.1.0.441655。

        3.1 IEEE標準2區(qū)域模型

        采用IEEE標準2區(qū)域模型作為算例進行仿真,擾動是周期為1200s、幅值為1000MW的正弦擾動。模型中系統(tǒng)的基準容量為5000MW,模型如附錄中圖A2所示,圖中Tg=0.08s,Tt=0.3s,Tp=20s,R=2.4Hz/p.u.,Kp=120Hz/p.u.,T12=0.545s。

        DQL、Q學習和Q(λ)算法中的矩陣Q和矩陣P的狀態(tài)劃分為13個,如表1所示。這些算法的動作區(qū)間取值為:{-50,-40,-30,-20,-10,0,10,20,30,40,50} MW。

        表1 2區(qū)域模型DQL、Q學習和Q(λ)算法的狀態(tài)劃分表Table 1 State set of DQL,Q learning,and Q(λ) learning algorithms for two-area model

        分別采用4種算法進行仿真,將DQL算法和PID、Q學習和Q(λ)算法進行對比,仿真結(jié)果如表2和圖4所示。

        表2 2區(qū)域仿真結(jié)果統(tǒng)計表Table 2 Simulative results of two-area model

        圖4 IEEE標準2區(qū)域模型的仿真結(jié)果Fig.4 Simulative results of IEEE standard two-area model

        表2和圖4中的PID、QL、Q(λ)和DQL分別代表PID、Q學習、Q(λ)和DQL控制算法。

        其中β是稀疏懲罰項的權(quán)重。在學習過程中,通過BP算法對神經(jīng)網(wǎng)絡(luò)的W和b的逐步修正,代價函數(shù)逐漸被最小化。在此過程中,必須計算隱藏層的每個神經(jīng)元對輸出層誤差的貢獻。此外,還應(yīng)該計算代價函數(shù)對W和b的偏導數(shù)。文獻[16]指出,L-BFGS算法在深度學習中訓練維度較低的情況下,效果比較好且收斂速度快,運行穩(wěn)定,因此本文采用L-BFGS算法求解。

        從表2可以看出,Q學習、Q(λ)和DQL算法比PID算法的ACE和Δf小,且DQL最小。Q學習、Q(λ)和DQL算法比PID算法的ACE分別小38%、58%和60%。Q學習、Q(λ)和DQL算法比PID算法的Δf分別小35%、54%和58%。

        且從圖4也可以看出,DQL算法的曲線比其他3種算法的曲線光滑、ACE和Δf小、CPS指標高。因此從仿真結(jié)果能看出DQL算法的效果優(yōu)于其他3種算法。

        3.2 以南方電網(wǎng)為背景的4區(qū)域模型

        為驗證所提DQL算法在復雜情況下的魯棒性,在以南方電網(wǎng)為背景的4區(qū)域模型中進行大規(guī)模不同參數(shù)的數(shù)值仿真,在仿真中不僅變換外部擾動的類型和幅值,而且變換系統(tǒng)內(nèi)部參數(shù),來模擬系統(tǒng)本身的變化,如可調(diào)容量模擬豐水期和枯水期,再如汽輪機3個參數(shù)(TCH、TRH、TCO)、爬坡率ηGRC和二次調(diào)頻時延參數(shù)Ts等參數(shù)的變換。所有參數(shù)可選取值如下:外部擾動波形有正弦波、方波、任意波擾動3種;風電接入擾動噪聲取0、10%、20%;Ts取8、20、30、35、60、120 s;ηGRC取3、5、8、10 p.u./min;可調(diào)容量取1000、500MW;TCH取0.2、0.25、0.3s;TRH取5、6、7、8、9、10s;TCO取0.3、0.4、0.5s。該算例仿真模型如附錄中圖A3所示。3種外部擾動在噪聲為0情況下的波形如圖5所示。

        圖5 不同外部擾動曲線圖Fig.5 Curves of different external disturbances

        可以看出,選擇不同系統(tǒng)內(nèi)部和外部參數(shù)時,共有3×3×6×4×2×3×6×3=23328種組合,每種不同參數(shù)組合的模型需在線仿真1 200 s,共需要23328×1200=27993600 (s),即324d。每種組合需測試4種算法(PID、Q學習、Q(λ)和DQL算法),共324×4=1 296 (d)。

        該算例中DQL、Q學習和Q(λ)算法中的矩陣Q和矩陣P的狀態(tài)也劃分為13個,如表3所示。這些算法的動作取值為:{-500,-400,-300,-200,-100,0,100,200,300,400,500}MW。

        表3 4區(qū)域模型DQL、Q學習和Q(λ)算法的狀態(tài)劃分表Table 3 State set of DQL,Q learning and Q(λ) learning algorithms for four-area model

        本算例中的Q學習、Q(λ)算法是在每種變參數(shù)的組合中單獨訓練的。而DQL算法在某一種參數(shù)(參數(shù)如下:任意波擾動,噪聲為0,Ts=30 s,ηGRC=5p.u./min,可調(diào)容量為1000MW,TCH=0.25s,TRH=8s,TCO=0.3s)下進行訓練,在其他參數(shù)的情況下直接應(yīng)用。

        最后在模型中的4個區(qū)域都應(yīng)用上述4種算法進行數(shù)值仿真,其結(jié)果統(tǒng)計如圖6 — 8和表4所示(由于篇幅原因,只展示了不同擾動類型下其他不同參數(shù)組合的統(tǒng)計結(jié)果,其他不同參數(shù)組合的仿真結(jié)果與表4趨勢一致)。

        圖6 4區(qū)域仿真結(jié)果統(tǒng)計箱形圖Fig.6 Statistics for four-area model(box chart)

        從圖6和圖7可以看出:在系統(tǒng)參數(shù)和外部參數(shù)不斷變化的過程中,PID算法、Q學習和Q(λ)算法得到的Δf和εACE并非在每個區(qū)域都小,而DQL算法并非追求單一的CPS指標,而是滿足綜合CPS指標的情況下,盡量使得Δf最?。怀齾^(qū)域3外,εACE和Δf以DQL算法最小,δCPS以DQL算法為最大。

        圖7 4區(qū)域仿真結(jié)果統(tǒng)計蜘蛛網(wǎng)圖Fig.7 Statistics for four-area model(spider chart)

        圖8 4區(qū)域仿真結(jié)果狀態(tài)分布圖(區(qū)域1)Fig.8 Simulative results distribution of four-area model(Area 1)

        擾動類型算法δCPS1/%δCPS2/%εACE/MWΔf/HzδCPS/%方波PID198.69681006.9987230.01375266.36QL199.88721003.4362840.037363100Q(λ)199.86311003.3895660.036728100DQL196.833810037.353040.035156100正弦波PID199.31011004.3674400.00757456.70QL199.89601003.3453310.029233100Q(λ)199.95651003.3030470.025464100DQL197.348710037.036550.034586100任意波PID198.96281005.5986480.01051672.97QL199.55621003.3934250.056542100Q(λ)199.55631003.3413600.053409100DQL197.015110037.225230.035218100總PID198.98991005.654930.01061465.35QL199.77981003.391680.041046100Q(λ)199.79191003.344650.038534100DQL197.065810037.204940.034987100

        圖8的狀態(tài)分布圖是分別以εACE、Δf和δCPS為x、y和z坐標軸繪出的區(qū)域1的性能分布圖,可以看出,DQL算法的控制性能優(yōu)于其他3種算法控制性能(DQL算法的δCPS高,且εACE和Δf低)。

        因此從該仿真結(jié)果可以看出,與PID算法、Q學習和Q(λ)算法相比,DQL算法的控制性能最優(yōu)、算法更穩(wěn)定,由其設(shè)計的控制器魯棒性更強。

        4 結(jié)論

        針對智能電網(wǎng)中的SGC問題,提出了DQL算法,并設(shè)計了基于DQL算法的智能發(fā)電控制器,最后在IEEE標準2區(qū)域和以復雜南方電網(wǎng)為背景的大規(guī)模不同參數(shù)4區(qū)域模型(采用了23328種不同模型參數(shù))中進行數(shù)值仿真。所提DQL算法具有以下優(yōu)點:

        a. 與PID、Q學習和Q(λ)算法相比,所提DQL算法控制效果最優(yōu),驗證了其解決SGC問題具有可行性和有效性;

        b. 在大規(guī)模仿真實驗中,基于所提DQL算法設(shè)計的智能發(fā)電控制器具有最強魯棒性;

        c. 所提DQL算法在多智能體系統(tǒng)中能夠進行互博弈,從而探索最優(yōu)控制過程。

        在下一步工作中,將利用所提DQL算法設(shè)計更多電力系統(tǒng)控制器,如自動電壓控制器、電力系統(tǒng)穩(wěn)定控制器等。

        附錄見本刊網(wǎng)絡(luò)版(http:∥www.epae.cn)。

        參考文獻:

        [1] KEYHANI A,CHATTERJEE A. Automatic generation control structure for smart power grids[J]. IEEE Transac-tions on Smart Grid,2012,3(3):1310-1316.

        [2] 王懷智. 智能發(fā)電控制的多目標優(yōu)化策略及其均衡強化學習理論[D]. 廣州:華南理工大學,2015.

        WANG Huaizhi. Multi-objective strategy for smart generation control and equilibrium reinforcement learning theory[D]. Guangzhou:South China University of Technology,2015.

        [3] 陳麗娟,姜宇軒,汪春. 改善電廠調(diào)頻性能的儲能策略研究和容量配置[J]. 電力自動化設(shè)備,2017,37(8):52-59.

        CHEN Lijuan,JIANG Yuxuan,WANG Chun. Strategy and capacity of energy storage for improving AGC performance of power plant[J]. Electric Power Automation Equipment,2017,37(8):52-59.

        [4] 李本新,韓學山,劉國靜,等. 風電與儲能系統(tǒng)互補下的火電機組組合[J]. 電力自動化設(shè)備,2017,37(7):32-37,54.

        LI Benxing,HAN Xueshan,LIU Guojing,et al. Thermal unit commitment with complementary wind power and energy storage system[J]. Electric Power Automation Equipment,2017,37(7):32-37,54.

        [5] 李清,張孝順,余濤,等. 電動汽車充換電站參與電網(wǎng)AGC功率分配的成本一致性算法[J]. 電力自動化設(shè)備,2018,38(3):80-87,95.

        LI Qing,ZHANG Xiaoshun,YU Tao,et al. Cost consensus algorithm of electric vehicle charging station participating in AGC power allocation of grid[J]. Electric Power Automation Equipment,2018,38(3):80-87,95.

        [6] 程軍. 風光互補智能控制系統(tǒng)的設(shè)計與實現(xiàn)[D]. 合肥:中國科學技術(shù)大學,2009.

        CHENG Jun. Design and realization of hybrid wind/photovoltaic intelligent generation system[D]. Hefei:University of Science and Technology of China,2009.

        [7] YU T,WANG H Z,ZHOU B,et al. Multiagent correlated equilibrium Q(λ) learning for coordinated smart generation control of interconnected power grids[J]. IEEE Transactions on Power Systems,2015,30(4):1669-1679.

        [8] 余濤,梁海華,周斌. 基于R(λ)學習的孤島微電網(wǎng)智能發(fā)電控制[J]. 電力系統(tǒng)保護與控制,2012,40(13):7-13.

        YU Tao,LIANG Haihua,ZHOU Bin. Smart power generation control for microgrids islanded operation based on R(λ) learning[J]. Power System Protection and Control,2012,40(13):7-13.

        [9] ZEYNELGIL H L,DEMIROREN A,SENGOR N S. The application of ANN technique to automatic generation control for multiarea power system[J]. International Journal of Electrical Power & Energy Systems,2002,24(5):345-354.

        [10] CHEN D,KUMAR S,YORK M,et al. Smart Automatic Generation Control[C]∥Power and Energy Society General Meeting. San Diego,California,USA:IEEE,2012:1-7.

        [11] SAIKIA L C,MISHRA S,SINHA N,et al. Automatic generation control of a multi area hydrothermal system using reinforced learning neural network controller[J]. International Journal of Electrical Power & Energy Systems,2011,33(4):1101-1108.

        [12] IMTHIAS T P,NAGENDRA P S,SASTRY P S. A neural network based reinforcement learning controller for automatic generation control[C]∥National Power Systems Conference,NPSC2002. Hyderabad,India:Indian Institute of Technology,2002:161-165.

        [13] 盛鍇,江效龍,魏樂. 基于功率響應(yīng)的汽輪機調(diào)節(jié)系統(tǒng)模型參數(shù)辨識方法研究[J]. 電力系統(tǒng)保護與控制,2016,44(12):100-107.

        SHENG Kai,JIANG Xiaolong,WEI Le. Research on parameter identification of turbine governing system based on power response characteristics[J]. Power System Protection and Control,2016,44(12):100-107.

        [14] MNIH V,KAVUKCUOGLU K,SILVER D,et al. Human-level con-trol through deep reinforcement learning[J]. Nature,2015,518(7540):529-533.

        [15] 趙冬斌,邵坤,朱圓恒,等. 深度強化學習綜述:兼論計算機圍棋的發(fā)展[J]. 控制理論與應(yīng)用,2016,33(6):701-717.

        ZHAO Dongbin,SHAO Kun,ZHU Yuanheng,et al. Review of deep reinforcement learning and discussions on the development of computer go[J]. Control Theory & Applications,2016,33(6):701-717.

        [16] 尹寶才,王文通,王立春. 深度學習研究綜述[J]. 北京工業(yè)大學學報,2015(1):48-59.

        YIN Baocai,WANG Wentong,WANG Lichun. Review of deep lear-ning[J]. Journal of Beijing University of Technology,2015(1):48-59.

        [17] 陳興國,俞揚. 強化學習及其在電腦圍棋中的應(yīng)用[J]. 自動化學報,2016,42(5):685-695.

        CHEN Xingguo,YU Yang. Reinforcement learning and its application to the game of go[J]. Acta Automatica Sinica,2016,42(5):685-695.

        [18] PENG X B,BERSETH G,MICHIEL V D P. Terrain-adaptive locomotion skills using deep reinforcement learning[J]. Acm Transactions on Graphics,2016,35(4):81.

        [19] DENG Y,BAO F,KONG Y,et al. Deep direct reinforcement learning for financial signal representation and trading[J]. IEEE Transac-tions on Neural Networks & Learning Systems,2017,28(3):653-664.

        [20] LI L,Lü Y,WANG F Y. Traffic signal timing via deep reinforcement learning[J]. IEEE/CAA Journal of Automatica Sinica,2016,3(3):247-254.

        [21] JR G V D L C,DU Y,IRWIN J,et al. Initial progress in transfer for deep reinforcement learning algorithms[C]∥Deep Reinforcement Learning:Frontiers and Challenges. New York,USA:[s.n.],2016:1-6.

        [22] 鄭聞成. 基于JADE的多智能體動態(tài)博弈自動發(fā)電控制仿真平臺研究[D]. 廣州:華南理工大學,2014.

        ZHENG Wencheng. Research on multiagent simulation platform for AGC Based on JADE[D]. Guangzhou:South China University of Technology,2014.

        [23] 許天寧. 汽輪機電液調(diào)節(jié)系統(tǒng)模型參數(shù)辨識研究[D]. 吉林:吉林大學,2015.

        XU Tianning. Research on model and parameter identification of the turbine DEH system[D]. Jilin:Jilin University,2015.

        猜你喜歡
        動作區(qū)域智能
        智能前沿
        文苑(2018年23期)2018-12-14 01:06:06
        智能前沿
        文苑(2018年19期)2018-11-09 01:30:14
        智能前沿
        文苑(2018年17期)2018-11-09 01:29:26
        智能前沿
        文苑(2018年21期)2018-11-09 01:22:32
        動作描寫要具體
        畫動作
        動作描寫不可少
        關(guān)于四色猜想
        分區(qū)域
        非同一般的吃飯動作
        国产a级精精彩大片免费看| 夜夜爽日日澡人人添| 天天鲁在视频在线观看| 亚洲中文无码成人影院在线播放| 久久久精品中文无码字幕| 五月婷婷开心五月播五月| 丰满熟妇人妻av无码区| 国产精品va在线观看无码| 日韩偷拍一区二区三区视频 | 午夜福利视频合集1000| 日本a在线天堂| 亚洲六月丁香色婷婷综合久久| 欧美老妇交乱视频在线观看| 看曰本女人大战黑人视频| 乱色视频中文字幕在线看| 亚洲国产精品久久久婷婷| 潮喷失禁大喷水aⅴ无码| 99久久精品国产一区二区蜜芽| 国产三级国产精品三级在专区| 在线免费看91免费版.| 人与禽性视频77777| 有码精品一二区在线| 亚洲妇女av一区二区| 日本视频一区二区三区一| 国产精品视频露脸| 亚洲欧洲日韩免费无码h| 在线视频99| 中文字幕中文字幕在线中二区 | 国精产品一品二品国在线| 久久夜色精品国产亚洲噜噜 | 美女视频在线观看亚洲色图 | 亚洲 欧美 综合 另类 中字| 日韩最新av一区二区| 在线日本看片免费人成视久网| 亚洲avav天堂av在线网爱情| 国产成人av综合亚洲色欲| 手机免费在线观看日韩av| 色综合天天综合欧美综合| 欧美性性性性性色大片免费的| 久久久精品中文无码字幕| 亚洲av一区二区三区蜜桃|