亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于分布式多步回溯Q(λ)學(xué)習(xí)的復(fù)雜電網(wǎng)最優(yōu)潮流算法

        2012-07-02 10:47:18胡細(xì)兵
        電工技術(shù)學(xué)報 2012年4期
        關(guān)鍵詞:分區(qū)子系統(tǒng)邊界

        余 濤 劉 靖 胡細(xì)兵

        (1. 華南理工大學(xué)電力學(xué)院 廣州 510640 2. 安慶供電公司 安慶 246003)

        1 引言

        最優(yōu)潮流(Optimal Power Flow, OPF)是電力系統(tǒng)基本優(yōu)化問題,是現(xiàn)代電力系統(tǒng)經(jīng)濟(jì)調(diào)度和節(jié)能調(diào)度的基礎(chǔ),但是隨著綜合優(yōu)化調(diào)度目標(biāo)的提出,現(xiàn)有的傳統(tǒng)算法[1-3]對這類復(fù)雜的 OPF多目標(biāo)優(yōu)化函數(shù)的適應(yīng)性難以滿足要求。此外,面對節(jié)點規(guī)模龐大的復(fù)雜電網(wǎng),傳統(tǒng)的最優(yōu)潮流算法與常規(guī)人工智能算法[4,5]都面臨大系統(tǒng)所帶來的維數(shù)災(zāi)難問題,計算速度難以滿足電網(wǎng)實時控制的要求。

        為了探索更有效的復(fù)雜電網(wǎng)多目標(biāo)OPF計算方法,國內(nèi)外學(xué)者對此做了深入研究,除了研發(fā)更優(yōu)的基本算法外,并行計算方法成為研究的主流。并行計算歸納起來分成兩類方法,一類是常規(guī)并行算法[6,7],另一類是基于輔助問題原理(Auxiliary Problem Principle, APP)的分區(qū)分布式算法[8,9],前者采用服務(wù)器/客戶端結(jié)構(gòu),計算成本較高,且存在數(shù)據(jù)傳輸?shù)钠款i問題;后者人為復(fù)雜化了OPF數(shù)學(xué)模型,增加了系統(tǒng)的運算負(fù)擔(dān),而且收斂速度很大程度上受到人為經(jīng)驗的限制[10]。

        近年來,隨著人工智能的不斷發(fā)展和智能電網(wǎng)的提出,多代理系統(tǒng)(Multi-Agent System, MAS)技術(shù)日益得到重視,分布式強(qiáng)化學(xué)習(xí)[11]則是實現(xiàn)MAS技術(shù)的一個重要途徑。本文結(jié)合強(qiáng)化學(xué)習(xí)中優(yōu)異的多步回溯 Q(λ)學(xué)習(xí)算法和分布式處理技術(shù),綜合利用前者對多目標(biāo) OPF的良好適應(yīng)性以及后者在解決維數(shù)災(zāi)難問題的有效性,提出分布式 Q(λ)學(xué)習(xí)算法來解決復(fù)雜電網(wǎng)的多目標(biāo) OPF快速求解問題。本方法對復(fù)雜電網(wǎng)采用分區(qū)的方法,使用分布式 Q(λ)學(xué)習(xí)算法,由多個學(xué)習(xí)單元同時使用 Q(λ)學(xué)習(xí)算法單獨執(zhí)行部分強(qiáng)化學(xué)習(xí)任務(wù),最后達(dá)到整個系統(tǒng)意義上的學(xué)習(xí)目標(biāo)。據(jù)查新顯示,分布式Q(λ)學(xué)習(xí)算法尚未在國內(nèi)外電力系統(tǒng)領(lǐng)域出現(xiàn),因此該分布式強(qiáng)化學(xué)習(xí)算法的引入對求解復(fù)雜電力系統(tǒng)的其他動態(tài)尋優(yōu)問題均具有較高參考價值。

        2 OPF數(shù)學(xué)模型

        傳統(tǒng)的OPF模型中,一般以發(fā)電成本或網(wǎng)損作為目標(biāo)函數(shù),但是純粹以發(fā)電成本或網(wǎng)損的高低作為發(fā)電調(diào)度的依據(jù)具有明顯的不合理性[12]。因此,有必要采用一種在保證電網(wǎng)安全運行的前提下,同時考慮降低發(fā)電成本和能源損耗的電力系統(tǒng)綜合節(jié)能的多目標(biāo)函數(shù),使電能生產(chǎn)和輸送的綜合效益最大化。

        為了凸顯電網(wǎng)安全穩(wěn)定運行的重要性,除了常規(guī)的電壓不等式約束外,結(jié)合文獻(xiàn)[13]和文獻(xiàn)[14]中電壓無功優(yōu)化控制的目標(biāo)函數(shù),定義本文OPF多目標(biāo)函數(shù)中的電壓穩(wěn)定分量V為

        式中,n為負(fù)荷節(jié)點個數(shù);Vj表示負(fù)荷節(jié)點j的節(jié)點電壓;Vjmax、Vjmin分別為負(fù)荷節(jié)點 j的最大、最小電壓限制。

        目前,學(xué)術(shù)界對多目標(biāo)問題的精確處理還沒有突破性的進(jìn)展,本文不失一般性仍然以權(quán)值的形式反映多目標(biāo)。綜上,以發(fā)電成本,有功網(wǎng)損和電壓穩(wěn)定分量為目標(biāo)函數(shù),考慮多種運行約束的多目標(biāo)最優(yōu)潮流模型表示如下:

        式中,F(xiàn)(x)為目標(biāo)函數(shù),g(x)為發(fā)電成本,?(x)為有功網(wǎng)損;V(x)為電壓穩(wěn)定分量;ω1[0∈,1],ω2[0∈,1],ω3[0∈,1]為權(quán)重系數(shù),ω1+ω2+ω3=1;x={PG,QG, V, θ, k, Qc}分別指發(fā)電機(jī)的有功出力,無功出力,電壓幅值、相角,有載調(diào)壓變壓器電壓比和無功補(bǔ)償容量等控制變量或狀態(tài)變量。

        OPF中的電力系統(tǒng)潮流約束的等式和不等式條件不再贅述(可參見文獻(xiàn)[3])。

        3 分布式Q(λ)學(xué)習(xí)算法

        隨著計算機(jī)網(wǎng)絡(luò)技術(shù)和分布式處理技術(shù)的飛速發(fā)展,以及對高速高性能計算和智能處理的迫切需求,學(xué)術(shù)界對 MAS中的分布式強(qiáng)化學(xué)習(xí)方法的研究不斷深入,取得了大量的研究成果[15]。所謂的分布式強(qiáng)化學(xué)習(xí)是指該強(qiáng)化學(xué)習(xí)系統(tǒng)由多個學(xué)習(xí)單元構(gòu)成,每個單元獨立地執(zhí)行部分或者全部的強(qiáng)化學(xué)習(xí)任務(wù),最后達(dá)到整個系統(tǒng)意義上的學(xué)習(xí)目標(biāo),這個系統(tǒng)就可以稱為分布式強(qiáng)化學(xué)習(xí)系統(tǒng)。

        基于分布式強(qiáng)化學(xué)習(xí)的 MAS系統(tǒng)僅僅需要很少的通信量來獲得相鄰Agent的獎懲函數(shù)值,而且在學(xué)習(xí)過程中通過迭代來影響不相鄰的 Agent,從而優(yōu)化整個系統(tǒng)的性能。根據(jù)分布式強(qiáng)化學(xué)習(xí)中各Agent的學(xué)習(xí)機(jī)制將分布式強(qiáng)化學(xué)習(xí)分成:中央強(qiáng)化學(xué)習(xí)(RLC)、獨立強(qiáng)化學(xué)習(xí)(RLI)、群體強(qiáng)化學(xué)習(xí)(RLG)和社會強(qiáng)化學(xué)習(xí)(RLS)這四類[15]。

        所謂的分布式 Q(λ)算法是指在分布式強(qiáng)化學(xué)習(xí)中各Agent采用多步Q(λ)算法。多步Q(λ)學(xué)習(xí)(Multi-step Q(λ)learning)[16]是基于離散馬爾可夫決策過程的經(jīng)典 Q學(xué)習(xí)[17]結(jié)合了 TD(λ)算法[18]多步回報思想的一類強(qiáng)化學(xué)習(xí)算法。多步 Q(λ)學(xué)習(xí)算法不依賴于對象模型,通過不斷的試錯來動態(tài)尋找最優(yōu)的動作,其值函數(shù)的回溯更新規(guī)則利用資格跡來獲取算法行為的頻度和漸新度兩種啟發(fā)信息,從而考慮了未來控制決策的影響。資格跡[19]更新公式定義如下

        式中,Ixy是跡特征函數(shù);γ 為折扣因子,0<γ <1,取0.000 01;λ 為跡衰退系數(shù),取0.999 99。

        資格跡λ -回報算法的“后向估計”機(jī)理提供了一個逼近最優(yōu)值函數(shù)Q*的漸近機(jī)制,而這類對所有狀態(tài)-動作對Q值的高效持續(xù)更新是以提高算法復(fù)雜度和增加計算量為代價的。設(shè) Qk代表 Q*估計值的第k次迭代值,Q(λ)學(xué)習(xí)迭代更新公式如下

        式中,0<α <1,稱為學(xué)習(xí)因子,取 0.999 99;R(sk,sk+1,ak)是第k步迭代時刻環(huán)境由狀態(tài)sk經(jīng)動作ak轉(zhuǎn)移到 sk+1后的獎勵函數(shù)值;Q(s,a)代表 s狀態(tài)下執(zhí)行動作a的Q值函數(shù),其實現(xiàn)方式采用lookup查表法。

        迄今為止,所有的分布式強(qiáng)化學(xué)習(xí)算法都是基于標(biāo)準(zhǔn)單步 Q學(xué)習(xí)算法的[20],但是由于多步 Q(λ)算法所具有的在線學(xué)習(xí)能力強(qiáng)、收斂速度快的優(yōu)點,因而本文中首次采用分布式 Q(λ)算法,并在多個標(biāo)準(zhǔn)算例中與分布式Q學(xué)習(xí)算法進(jìn)行對比分析。

        4 基于復(fù)雜電網(wǎng)分區(qū)的分布式Q(λ)學(xué)習(xí)

        4.1 復(fù)雜電網(wǎng)分區(qū)以及學(xué)習(xí)方法選取

        在研究OPF問題的標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)算法中,對應(yīng)的動作空間是發(fā)電機(jī)出力,變壓器電壓比,無功補(bǔ)償設(shè)備等可控變量的組合。一旦電網(wǎng)規(guī)模擴(kuò)大,動作空間也隨之成倍增加,這使得常規(guī)強(qiáng)化學(xué)習(xí)算法陷入動作的維數(shù)災(zāi)難中,不能滿足電網(wǎng)實時性的要求。

        對于動作的維數(shù)災(zāi)難問題,最有效的做法即分解該電網(wǎng),通常使用分解協(xié)調(diào)法[21]實現(xiàn)網(wǎng)絡(luò)分離,如圖1在聯(lián)絡(luò)線上“復(fù)制”節(jié)點,每一個邊界節(jié)點看作一個虛擬的發(fā)電機(jī)節(jié)點(或者負(fù)荷節(jié)點),分解后系統(tǒng)與原系統(tǒng)等值,分解處的兩邊界節(jié)點需具有相同的電氣量。

        圖1 互聯(lián)電力系統(tǒng)的分離Fig.1 Decomposition of interconnected systems

        當(dāng)電網(wǎng)分成n個區(qū)后,目標(biāo)函數(shù)分成n個部分,因為邊界節(jié)點上所增加的虛擬節(jié)點僅僅是為了保證分區(qū)的有效性,不影響整個電網(wǎng)的目標(biāo)函數(shù)值。因此,將原目標(biāo)改為

        式中,F(xiàn)i(xi)表示分區(qū)后各子系統(tǒng)的目標(biāo)函數(shù),xi表示各子系統(tǒng)的相關(guān)動作變量或狀態(tài)變量。

        由于分布式 Q(λ)算法中的 RLC和 RLG并不能減少動作組合。因而,本文的復(fù)雜電網(wǎng)OPF研究中,更適合使用 RLI,其 Agent的獨立性較強(qiáng),容易動態(tài)增減Agent的個數(shù),而且Agent個數(shù)對學(xué)習(xí)收斂性的影響較小,適合處理大系統(tǒng)的強(qiáng)化學(xué)習(xí)問題,特別是協(xié)作型 RLI,其中各 Agent是并發(fā)執(zhí)行的,任意時刻有多個Agent處于工作狀態(tài),共同影響環(huán)境的變化,只要設(shè)置合理的信度分配機(jī)制(強(qiáng)化信號分配),就能在大大簡化運算的同時克服局部最優(yōu)的缺點。

        4.2 協(xié)作型RLI中對邊界節(jié)點的處理

        復(fù)雜電網(wǎng)分解處的邊界節(jié)點的電氣量對于復(fù)雜電網(wǎng)的分解至關(guān)重要,是協(xié)作型RLI實現(xiàn)的基礎(chǔ),決定了所有分解后的各子系統(tǒng)計算結(jié)果的有效性,是本文分布式Q(λ)學(xué)習(xí)算法的核心部分。

        為了保證分解處的兩邊界節(jié)點具有相同的電氣量,本文所闡述的分布式 Q(λ)學(xué)習(xí)中,不對目標(biāo)函數(shù)進(jìn)行輔助處理,而是利用分布式強(qiáng)化學(xué)習(xí)算法中的協(xié)作機(jī)制,設(shè)置合理的信度分配,實行統(tǒng)一的獎懲約束。本文中,對分解處的邊界節(jié)點從兩個方面進(jìn)行同步約束:首先,在不等式約束中,增加關(guān)于邊界節(jié)點約束條件,兩者之差的絕對值以 3%為限,并通過狀態(tài)來反映;其次,將邊界節(jié)點的約束信息附加在各Agent在并行運算時對環(huán)境所產(chǎn)生的綜合響應(yīng)中。該“響應(yīng)”關(guān)系到整個算法的收斂性,它包括兩個要素:各種約束信息的獎懲值和目標(biāo)函數(shù)值;它對每個Agent的反饋作用也包含兩個方面,一是對立即獎勵的調(diào)整分配,二是對狀態(tài)的確定。

        分解后各子系統(tǒng)中有自己的參考節(jié)點,這就涉及多平衡節(jié)點問題。參考文獻(xiàn)[10]中,對不含全局平衡節(jié)點的子系統(tǒng),將某一邊界節(jié)點設(shè)置成參考節(jié)點,采用傳遞“Δ-變量”的模式。但是此模式不利于并行運算,因而本文將該等效的邊界節(jié)點在兩個子系統(tǒng)中設(shè)置成不同類型,一個是 PV節(jié)點,另一個為平衡節(jié)點,以該平衡節(jié)點的θ 角作為其所屬子系統(tǒng)動作空間的組成部分,進(jìn)行并行運算,比較P、Q、V、θ 這 4個量。

        本文的分布式 Q(λ)學(xué)習(xí)中,邊界節(jié)點的有關(guān)電氣量將作為各子系統(tǒng)動作空間的組成部分。如果分解后的各子系統(tǒng)內(nèi)動作過少(主要指邊界節(jié)點)則很難滿足收斂精度要求,動作過多,又有悖于復(fù)雜電網(wǎng)分解的初衷。為了克服這一矛盾,利用電力系統(tǒng)中有功-無功這種弱耦合的特性,可以適當(dāng)運用解耦所得到的先驗知識。

        4.3 應(yīng)用流程

        基于分布式 Q(λ)算法的復(fù)雜電網(wǎng)最優(yōu)潮流計算中,通過分解復(fù)雜電網(wǎng)成幾個子區(qū)域(子系統(tǒng)),每一個子系統(tǒng)內(nèi)(含虛擬的邊界節(jié)點)使用標(biāo)準(zhǔn)多步 Q(λ)算法,通過電力系統(tǒng)的運行特征,判斷狀態(tài)(s)、動作(a)、獎勵(r)來在線尋找最優(yōu)策略(具體s、a、r的設(shè)置見第5節(jié)中算例),學(xué)習(xí)流程如下:

        (1)通過有功-無功的解耦,得到相關(guān)先驗知識。

        (2)復(fù)雜電網(wǎng)分解。分解復(fù)雜電網(wǎng),確定分解處節(jié)點及該節(jié)點類型,構(gòu)成多Agent的分布式強(qiáng)化學(xué)習(xí)。

        (3)分布式Q(λ)算法。

        初始化s,a, Q(s,a),令e(s,a)=0

        Repeat (對每一Agent)

        ①根據(jù)當(dāng)前的狀態(tài)s,執(zhí)行動作a,得到相關(guān)獎勵要素和狀態(tài)信息。

        ②依次執(zhí)行所有 Agent,根據(jù)邊界節(jié)點的電氣信息量修正r和s′。

        ③從s′中利用Q派生出來的策略選擇a′。

        對于所有的s, a來說

        5 算例分析

        為了證明分布式 Q(λ)算法的可行性,本文在Matlab 6.5仿真平臺上通過建立S函數(shù)的方法實現(xiàn)所提出的OPF算法,并在2.0GHz、1GRAM的計算機(jī)上對IEEE標(biāo)準(zhǔn)算例進(jìn)行了仿真。

        對于現(xiàn)代電力系統(tǒng)這種復(fù)雜的高低壓電磁環(huán)網(wǎng)模式,電壓等級高的網(wǎng)內(nèi)發(fā)電機(jī)的容量裕度大,相應(yīng)的發(fā)電成本調(diào)節(jié)空間較大;而低電壓等級的電網(wǎng),其網(wǎng)損率較高,節(jié)能降耗的空間較大。為了使復(fù)雜電網(wǎng)OPF問題更具針對性,更符合電網(wǎng)實際的運行特點,本文采用實用化OPF模型:高電壓等級電網(wǎng)中以發(fā)電成本為主要目標(biāo),低電壓等級電網(wǎng)中以網(wǎng)損為目標(biāo)函數(shù),兩者在統(tǒng)一的復(fù)雜電網(wǎng)中通過邊界節(jié)點的無功功率進(jìn)行協(xié)調(diào)。

        本文以 IEEE118節(jié)點為例,其包含 345kV和138kV兩個電壓等級。在對IEEE118節(jié)點分區(qū)時,提出了以下幾點標(biāo)準(zhǔn):①不同電壓等級進(jìn)行分離;②動作變量盡可能均勻地分散在不同的子區(qū)域內(nèi);③考慮實際地理位置或電網(wǎng)工程實際;④不同子區(qū)域之間聯(lián)絡(luò)線盡可能少。最終確定將其劃分為7個子區(qū)域(子系統(tǒng))。在分區(qū)標(biāo)準(zhǔn)的基礎(chǔ)上,主要得到以下三種不同的分區(qū)方案。其中分區(qū)方案 3如圖2所示,各個子區(qū)域內(nèi)的數(shù)據(jù)統(tǒng)計見表1。

        表1 IEEE118節(jié)點不同分區(qū)方案Tab.1 Different distribution cases of IEEE118 system

        式中,i為高壓子系統(tǒng);j為低壓子系統(tǒng);ω1、ω2、為權(quán)值,其中ω1=0.01、ω2=0.1、ω3=0.89,0.2,=0.8;Cgeni為高壓發(fā)電成本;Plossi、Plossj為有功損耗;Vi、Vj為電壓穩(wěn)定分量。

        圖2 IEEE118電網(wǎng)分區(qū)方案三示意圖Fig.2 Distribution case 3 of IEEE 118-bus system

        參照 4.2節(jié),在分解的聯(lián)絡(luò)線的兩邊添加虛擬發(fā)電機(jī)(負(fù)荷),針對實用化的OPF模型,在IEEE118系統(tǒng)中,對邊界節(jié)點處理遵循以下原則:

        (1)高電壓等級內(nèi)部的邊界節(jié)點一般設(shè)置為PV節(jié)點,P為動作變量。

        (2)低電壓等級內(nèi)部的邊界節(jié)點一般設(shè)置為PQ節(jié)點,Q為動作變量。

        (3)高低壓之間的邊界節(jié)點設(shè)置為PQ節(jié)點,Q為動作變量。

        (4)對于各子系統(tǒng)內(nèi)的平衡節(jié)點,高電壓等級中確保有且僅有一個區(qū)域內(nèi)有確定的平衡節(jié)點(此時的θ已知),對于其余的高壓區(qū)域,設(shè)置其某一邊界節(jié)點為平衡節(jié)點,其中的θ為動作變量,低電壓等級各子系統(tǒng)的平衡節(jié)點都是確定的(由于這僅是無功優(yōu)化過程)。

        為了使各子區(qū)域的動作空間設(shè)置更為統(tǒng)一,本文中對動作變量做如下的離散化處理:

        (1)實際發(fā)電機(jī)的出力以其最大出力為限均分成4等分,共5檔;無功補(bǔ)償容量以常規(guī)潮流中的數(shù)據(jù)為界,上下各增兩組,每組容量為原容量的20%,共5檔;有載調(diào)壓變壓器的分接頭分成:0.98,1.00和1.02這3檔。

        將鄉(xiāng)村旅游納入各級鄉(xiāng)村振興干部培訓(xùn)計劃,加強(qiáng)對縣、鄉(xiāng)鎮(zhèn)黨政領(lǐng)導(dǎo)發(fā)展鄉(xiāng)村旅游的專題培訓(xùn)。通過專題培訓(xùn)、送教上門、結(jié)對幫扶等方式,開展多層次、多渠道的鄉(xiāng)村旅游培訓(xùn)。各級人社、農(nóng)業(yè)農(nóng)村、文化和旅游、扶貧等部門要將鄉(xiāng)村旅游人才培育納入培訓(xùn)計劃,加大對鄉(xiāng)村旅游的管理人員、服務(wù)人員的技能培訓(xùn),培養(yǎng)結(jié)構(gòu)合理、素質(zhì)較高的鄉(xiāng)村旅游從業(yè)人員隊伍。開展鄉(xiāng)村旅游創(chuàng)客行動,組織引導(dǎo)大學(xué)生、文化藝術(shù)人才、專業(yè)技術(shù)人員、青年創(chuàng)業(yè)團(tuán)隊等各類“創(chuàng)客”投身鄉(xiāng)村旅游發(fā)展,促進(jìn)人才向鄉(xiāng)村流動,改善鄉(xiāng)村旅游人才結(jié)構(gòu)。

        (2)邊界節(jié)點中虛擬PV節(jié)點中的P,虛擬PQ節(jié)點中的Q,虛擬平衡節(jié)點中的θ 均以常規(guī)潮流中的數(shù)據(jù)為界,其中P上下各增兩檔,每檔步長為原大小的20%,共5檔;Q上下各增一檔,每檔步長為原大小的20%,共3檔;θ 上下各增4檔,每檔步長為原大小的10%,共9檔。

        以分區(qū)方案 3為例,其子區(qū)域 1中,節(jié)點 10作為平衡節(jié)點,在常規(guī)潮流經(jīng)驗中可得出其相對于全局平衡節(jié)點的電壓角度,以節(jié)點8和節(jié)點26的有功出力,邊界 PV節(jié)點的有功出力以及三臺虛擬發(fā)電機(jī) PQ節(jié)點上的無功出力作為控制變量,總的動作個數(shù)為 5×5×5×3× 3×3=3 375。同理可知,其他區(qū)域中動作個數(shù),見表2。分區(qū)方案1各個區(qū)域內(nèi)的動作數(shù)與方案3相同。分區(qū)方案2由于新增了一條斷開聯(lián)絡(luò)線,區(qū)域5動作個數(shù)為19 683,區(qū)域6動作個數(shù)為9 375,其他區(qū)域動作數(shù)不變。

        表2 分區(qū)方案3數(shù)據(jù)統(tǒng)計Tab.2 Data of distribution Case 3

        (續(xù))

        狀態(tài)變量的確定與約束條件相關(guān),具體包括各子系統(tǒng)內(nèi)實際發(fā)電機(jī)無功出力,平衡節(jié)點的有功出力和 PQ節(jié)點的電壓是否滿足約束條件,以及分解處兩相鄰節(jié)點的電氣量(有功功率、無功功率和電壓角度)是否吻合。分區(qū)方案3中區(qū)域1中的狀態(tài)變量個數(shù)為3+1+5+9=18,其余各子系統(tǒng)狀態(tài)變量個數(shù)依次分別是:29,49,27,42,53,20。分區(qū)方案一狀態(tài)變量總數(shù)為 238,分區(qū)方案 2狀態(tài)變量總數(shù)為240。

        立即獎勵值與潮流計算結(jié)果中是否滿足不等式約束條件的個數(shù)有關(guān),為了保證各子系統(tǒng)計算結(jié)果的有效性,對不同類型的不等式約束條件必須有不同的獎懲,其中以區(qū)域間的邊界平衡節(jié)點的電壓角度最重要,其次是邊界節(jié)點的其他電氣量,再次是各子區(qū)內(nèi)的電氣約束。由于在強(qiáng)化學(xué)習(xí)中,獎勵函數(shù)的值越大越好,因而各子系統(tǒng)立即獎勵函數(shù)r如下式:

        式中,ri(i=1,2)為高電壓等級的子區(qū)域系統(tǒng)的獎勵函數(shù),rj(j=3~7)為低電壓等級的;ω1、ω2、ω3、取值與目標(biāo)函數(shù)中相同;n1為不滿足邊界平衡節(jié)點的電壓角度約束個數(shù),只取 0或 1;n2為不滿足邊界所有節(jié)點其他的約束不等式的個數(shù),n3為不滿足子系統(tǒng)內(nèi)部約束不等式的個數(shù)。k1、k2、k3分別為系數(shù),比較多個取值,本文仿真中取 k1=100.4,k2=48.8,k3=19.7。不同分區(qū)方案下分布式Q(λ)學(xué)習(xí)算法學(xué)習(xí)結(jié)果對比見表3。

        表3 不同分區(qū)方案OPF結(jié)果對照表Tab.3 OPF results comparison of three distribution cases

        從表3多次仿真統(tǒng)計的計算結(jié)果可知,不同的分區(qū)方案下目標(biāo)函數(shù)值基本相同,從而驗證了分布式 Q(λ)學(xué)習(xí)算法的可行性和準(zhǔn)確性,而誤差主要來源于在分區(qū)優(yōu)化過程中對不同電壓等級之間和相同電壓等級之間邊界節(jié)點的假設(shè)處理。綜合學(xué)習(xí)結(jié)果和學(xué)習(xí)步數(shù)可知,方案3是最好的分區(qū)方案。

        分區(qū)方案3下分布式Q學(xué)習(xí)算法和分布式Q(λ)學(xué)習(xí)算法學(xué)習(xí)結(jié)果如圖3所示。

        圖3 基于分布式Q-學(xué)習(xí)算法和分布式Q(λ)算法的多目標(biāo)最優(yōu)潮流計算收斂示意圖Fig.3 OPF convergence results based on distributed Q-learning and multi-step Q(λ)learning

        本文中對這兩種算法在IEEE 118節(jié)點的詳細(xì)計算結(jié)果進(jìn)行統(tǒng)計,與優(yōu)化前的結(jié)果進(jìn)行比較,見表4。

        表4 IEEE 118節(jié)點OPF結(jié)果對照表Tab.4 OPF results comparison of IEEE 118

        從表4中的統(tǒng)計結(jié)果可知,兩種算法的結(jié)果基本一致,目標(biāo)函數(shù)值相差3.0%,相比優(yōu)化前的常規(guī)潮流計算結(jié)果,各個指標(biāo)都有很大幅度的提高,且兩類算法的計算結(jié)果均基本滿足電網(wǎng)實際運行條件,邊界節(jié)點電氣量之差最大為3.7%(由于動作的離散化步長較大)。分布式 Q(λ)算法學(xué)習(xí) 19 223步,耗時約96s就能達(dá)到收斂,而分布式Q學(xué)習(xí)需23 176步收斂,耗時約 116s,可知分布式 Q(λ)算法在收斂速度方面優(yōu)勢較為明顯,且達(dá)到了工程上潮流優(yōu)化的要求。

        為了進(jìn)一步與當(dāng)前最優(yōu)潮流算法在主流算法——內(nèi)點法進(jìn)行比較,很明顯對于本文這一類復(fù)雜目標(biāo)函數(shù),內(nèi)點法難以處理,而針對單目標(biāo)的網(wǎng)損,通過計算、統(tǒng)計結(jié)果見表5。

        表5 不同目標(biāo)函數(shù)下結(jié)果對照表Tab.5 Results comparison with different objective functions

        本文中對 OPF問題的處理是以離散化為基礎(chǔ)的,對簡單的單目標(biāo)函數(shù)(如網(wǎng)損),分布式Q(λ)學(xué)習(xí)算法,相比內(nèi)點法一類的算法,結(jié)果可靠,只是時間略長。然而分布式 Q(λ)學(xué)習(xí)算法不依賴數(shù)學(xué)模型,在處理復(fù)雜多目標(biāo)方面顯示了很強(qiáng)的優(yōu)越性。相比同樣以離散化為基礎(chǔ)的其他現(xiàn)代智能算法,在處理IEEE 118這類高維大系統(tǒng)時,在收斂時間上達(dá)到了很好的要求。

        6 結(jié)論

        本文所提出的分布式 Q(λ)算法在求解復(fù)雜電網(wǎng)OPF問題,具有以下特點:

        (1)基于分布式強(qiáng)化學(xué)習(xí)中的 RLI原理,各Agent獨立承擔(dān)各子系統(tǒng)的學(xué)習(xí)任務(wù),經(jīng)過多Agent統(tǒng)一協(xié)作處理后,更適合現(xiàn)代大區(qū)電網(wǎng)中各省網(wǎng)/地區(qū)電網(wǎng)分區(qū)調(diào)度和分層控制模式,工程上具有更高的實際應(yīng)用價值。

        (2)分布式強(qiáng)化學(xué)習(xí)算法不依賴于 OPF目標(biāo)函數(shù)的一階或二階梯度進(jìn)行尋優(yōu),是解決更符合電網(wǎng)實際運行特點的多目標(biāo)OPF計算問題的有效算法。

        (3)各 Agent中包含了一個獨立的多步回溯Q(λ)算法,該算法是一種具有快速動態(tài)優(yōu)化和自學(xué)習(xí)能力的強(qiáng)化學(xué)習(xí)算法,對電網(wǎng)的變化具有較高的自適應(yīng)能力。

        (4)該算法繼承了電網(wǎng)分區(qū)的思想,通過在獎勵函數(shù)中附加對邊界節(jié)點電氣信息的獎懲,約束邊界節(jié)點的電氣信息量滿足電網(wǎng)實際的運行條件,從而避免了對OPF模型的人為復(fù)雜化。

        (5)將所提出算法在多個 IEEE標(biāo)準(zhǔn)算例的計算結(jié)果表明,分布式 Q(λ)算法在處理該類復(fù)雜電網(wǎng)OPF問題時,其收斂速度快,收斂精度較高,為解決復(fù)雜電網(wǎng)多目標(biāo)函數(shù)的 OPF問題提供了一種全新可行的方法。

        (6)針對多目標(biāo)優(yōu)化問題,目前國際上的趨勢是求取帕累托解集。目前公認(rèn)求解帕累托解集的方法是進(jìn)化算法[23]和強(qiáng)化學(xué)習(xí)[24]算法,內(nèi)點法等經(jīng)典算法則無法直接求取帕累托解集。因此,本文所提出分布式強(qiáng)化學(xué)習(xí)方法較易于進(jìn)一步推廣到 OPF帕累托解集。考慮使用帕累托來解決多目標(biāo)問題,這就避免了靈敏度帶來的多量綱復(fù)雜處理模式,克服加權(quán)多目標(biāo)不能精確解決目標(biāo)函數(shù)的缺點。

        [1]David I Sun, Bruce Ashley, Brian Brewer , et al.Optimal power flow by newton approach[J]. IEEE Transactions on Power Apparatus and Systems, 1984,103(10): 2864-2880.

        [2]韋化, 李濱, 杭乃善, 等. 大規(guī)模水-火電力系統(tǒng)最優(yōu)潮流的現(xiàn)代內(nèi)點算法實現(xiàn)[J]. 中國電機(jī)工程學(xué)報,2003, 23(6): 13-18.Wei Hua, Li Bin, Hang Naishan, et al. An implementation of interior point algorithm for large-scale hydro-thermal optimal power flow problems[J]. Proceedings of the CSEE, 2003, 23(6):13-18.

        [3]趙晉泉, 侯志儉, 吳際舜. 改進(jìn)最優(yōu)潮流牛頓算法有效性的對策研究[J]. 中國電機(jī)工程學(xué)報, 1999,19(12): 70-75.Zhao Jinquan, Hou Zhijian, Wu Jishun. Some new strategies for improving the effectiveness of newton optimal power flow algorithm[J]. Proceedings of the CSEE, 1999, 19(12): 70-75.

        [4]周明, 孫樹棟. 遺傳算法原理及應(yīng)用[M]. 北京: 國防工業(yè)出版社, 1999.

        [5]Luonan Chen, Hideki Suzuki, Kazuo Katou. Mean field theory for optimal power flow[J]. IEEE Transactions on Power Systems, 1997, 12(4): 1481-1486.

        [6]李曉梅, 莫則堯. 可擴(kuò)展并行算法的設(shè)計與分析[M].北京: 國防工業(yè)出版社, 2000.

        [7]潘哲龍, 張伯明, 孫宏斌, 等. 分布計算的遺傳算法中無功優(yōu)化中的應(yīng)用[J]. 電力系統(tǒng)自動化, 2001,6(13): 37-41.Pan Zhelong, Zhang Boming, Sun Hongbin et al. A distributid genetic algorithm for reactive power optimization[J]. Automaticon of Electric Power Systems, 2001, 6(13): 37-41.

        [8]Batut J, Renaud A. Daily generation scheduling optimization with transmission constraints[J]. IEEE Transactions on Power Systems, 2000, 7(3): 982-989.

        [9]程新功, 厲吉文, 曹立霞, 等. 電力系統(tǒng)最優(yōu)潮流的分布式并行算法[J]. 電力系統(tǒng)自動化, 2003,27(24): 23-27.Cheng Xingong, Li Jiwen, Cao Lixia, et al.Distribution and parallel optimal power flow solution of electric power systems[J]. Automation of Electric Power Systems, 2003, 27(24): 23-27.

        [10]李強(qiáng). 分布式優(yōu)化算法的算法研究[D]. 北京: 華北電力大學(xué), 2006.

        [11]仲宇, 顧國昌, 張汝波. 多智能體系統(tǒng)中的分布式強(qiáng)化學(xué)習(xí)研究現(xiàn)狀[J]. 控制理論與應(yīng)用, 2003,20(3): 317-322.Zhong Yu, Gu Guochang, Zhang Rubo. Survey of distributed reinforcement learning algorithms in multi-agent systems[J]. Control Theory &Applications, 2003, 20(3): 317-322.

        [12]胥傳普, 楊立兵, 劉福斌. 關(guān)于節(jié)能降耗與電力市場聯(lián)合實施方案的探討[J]. 電力系統(tǒng)自動化, 2007,31(23): 99-103.Xu Chuanpu, Yang Libing, Liu Fubin. Discuss on the Union implementation scheme of energy conservation measures and electricity marketability methods[J].Automatic of Electric Power Systems, 2007, 31(23):99-103.

        [13]Vlachogiannis J G, Hatziagyriou N D. Reinforcement learning for reactive power control[J]. IEEE Transactions on Power Systems, 2004, 19(3): 1317-1325.

        [14]邱曉燕, 張子健, 李興源. 基于改進(jìn)遺傳內(nèi)點法的電網(wǎng)多目標(biāo)無功優(yōu)化[J]. 電網(wǎng)技術(shù), 2009, 33(13): 27-31.Qiu Xiaoyan, Zhang Zijian, Li Xinyuan. Multiobjective reactive power optimization based on improved genetic-interior point algorithm[J]. Power System Technology, 2009, 33(13): 27-31.

        [15]仲宇, 顧國昌, 張汝波. 分布式強(qiáng)化學(xué)習(xí)的體系結(jié)構(gòu)研究[J]. 計算機(jī)工程與應(yīng)用, 2003, 39(11): 111-113.Zhong Yu, Gu Guochang, Zhang Rubo. Research on the architectures of distributed reinforcement learning systems[J]. Computer Engineering and Applications,2003, 39(11): 111-113.

        [16]Jing Peng, Williams R J. Incremental multi-step Q-learning[J]. Machine Leaning, 1996(22): 283-290.

        [17]Watkins J C H, Dayan Peter. Q-learning[J]. Machine Leaning, 1992(8): 279-292.

        [18]張汝波. 強(qiáng)化學(xué)習(xí)理論及應(yīng)用[M]. 哈爾濱: 哈爾濱工程大學(xué)出版社, 2001.

        [19]Richard S Sutton, Andrew G Barto. Reinforcement learning: an introduction[M]. Cambridge: MIT Press,1998.

        [20]余濤, 周斌, 甄衛(wèi)國. 強(qiáng)化學(xué)習(xí)理論在電力系統(tǒng)中的應(yīng)用及展望[J]. 電力系統(tǒng)保護(hù)與控制, 2009,37(14): 122-128.Yu Tao, Zhou Bin, Zhen Weiguo. Application and development of reinforcement learning theory in power systems[J]. Power System Protection and Control, 2009, 37(14): 122-128.

        [21]Kim B H, Baldick R. Coarse-grained distributed optimal power flow[J]. IEEE Transactions on Power Systems, 1997, 12(2): 932-939.

        [22]劉明波, 謝敏, 趙維興. 大電網(wǎng)最優(yōu)潮流計算[M].北京: 科學(xué)出版社. 2010.

        [23]Deb K, Pratap A, Agarwal S. A fast and elitist multi-objective genetic algorithm: NSGA-II[J]. IEEE Transactions on Evolutionary Computation, 2002,6(2): 182-197.

        [24]H L Liao, Q H Wu, L Jiang. Multi-objective optimization by reinforcement learning for power system dispatch and voltage stability[C]. Proceedings of IEEE PES Conference on Innovative Smart Grid Technologies Europe, Gothenburg, Sweden, 2010:1-8.

        猜你喜歡
        分區(qū)子系統(tǒng)邊界
        不對中轉(zhuǎn)子系統(tǒng)耦合動力學(xué)特性研究
        上海實施“分區(qū)封控”
        拓展閱讀的邊界
        GSM-R基站子系統(tǒng)同步方案研究
        駝峰測長設(shè)備在線監(jiān)測子系統(tǒng)的設(shè)計與應(yīng)用
        論中立的幫助行為之可罰邊界
        浪莎 分區(qū)而治
        基于SAGA聚類分析的無功電壓控制分區(qū)
        電測與儀表(2015年8期)2015-04-09 11:50:16
        基于多種群遺傳改進(jìn)FCM的無功/電壓控制分區(qū)
        電測與儀表(2015年7期)2015-04-09 11:40:16
        “偽翻譯”:“翻譯”之邊界行走者
        亚洲 美腿 欧美 偷拍| 久久无码高潮喷水抽搐| 国产精品无码一区二区在线观一 | 欧美人与动性xxxxx杂性| 亚洲av首页在线| 99久久国产综合精品女图图等你 | 婷婷成人丁香五月综合激情| 特级做a爰片毛片免费看无码| 性激烈的欧美三级视频| 亚洲色大成网站www永久一区| 日韩毛片在线| 亚洲国产精品国自产电影| mm在线精品视频| 日本一区二区三区在线观看免费| 少妇我被躁爽到高潮在线影片| av是男人的天堂免费| 青青草视频视频在线观看| 日本高清一区二区三区在线观看| 19款日产奇骏车怎么样| 免费无遮挡无码永久在线观看视频| 亚洲日韩精品a∨片无码加勒比| 无码欧美毛片一区二区三| 精品国产一区二区三区久久久狼 | 亚洲在线一区二区三区四区| 亚洲天堂一区二区精品| 在线观看的a站免费完整版| 午夜国产视频一区二区三区| 欧美成人国产精品高潮| 欧美丰满大屁股ass| 国产精品区一区二区三在线播放 | 久久亚洲高清观看| 国产理论亚洲天堂av| 妺妺跟我一起洗澡没忍住| 醉酒后少妇被疯狂内射视频 | 青青操国产在线| 久久精品国产热久久精品国产亚洲| av免费一区在线播放| 亚洲美女av一区二区在线| 亚洲国产成人一区二区精品区| 日日碰狠狠躁久久躁| 国产剧情福利AV一区二区|