亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于自適應(yīng)動(dòng)態(tài)規(guī)劃的售電商長(zhǎng)期收益研究

        2020-03-12 10:22:30馮小峰謝添闊文宏武白愷
        廣東電力 2020年2期
        關(guān)鍵詞:現(xiàn)貨波動(dòng)收益

        馮小峰,謝添闊,文宏武,白愷

        (1.廣東電網(wǎng)有限責(zé)任公司計(jì)量中心,廣東 廣州 518049;2.華北電力大學(xué) 電力工程系,河北 保定071003;3.廣東電網(wǎng)有限責(zé)任公司湛江供電局,廣東 湛江 524000;4.廣東電網(wǎng)有限責(zé)任公司韶關(guān)供電局,廣東 韶關(guān) 512026)

        隨著南方(以廣東起步)電力現(xiàn)貨市場(chǎng)一系列法規(guī)的發(fā)布,目前廣東電力現(xiàn)貨市場(chǎng)已經(jīng)進(jìn)入了試運(yùn)行階段,并實(shí)現(xiàn)了現(xiàn)貨結(jié)算。電力現(xiàn)貨建立的初衷是為了實(shí)現(xiàn)全社會(huì)電力資源的更優(yōu)配置,目前大約有20%~30%的電力需要通過(guò)現(xiàn)貨的形式,完成電力從生產(chǎn)到消費(fèi)這一環(huán)節(jié)。電力供需緊張關(guān)系的波動(dòng)會(huì)引起現(xiàn)貨市場(chǎng)價(jià)格的波動(dòng)。在發(fā)電廠 售電商 用戶這樣一條鏈路中,作為中間環(huán)節(jié)的售電商會(huì)承擔(dān)現(xiàn)貨市場(chǎng)價(jià)格波動(dòng)所帶來(lái)的收益風(fēng)險(xiǎn)。這是因?yàn)閷?duì)售電商而言,其售給用戶的電價(jià)是固定的,那么現(xiàn)貨市場(chǎng)價(jià)格的波動(dòng)帶來(lái)的風(fēng)險(xiǎn)將直接傳導(dǎo)給售電商:即當(dāng)電力供需緊張時(shí),售電商從電力現(xiàn)貨市場(chǎng)購(gòu)電價(jià)格將可能高于其向用戶的售電價(jià)格[1]。售電商是一直參與電力現(xiàn)貨市場(chǎng)的,加之現(xiàn)貨價(jià)格波動(dòng)不會(huì)只是短期偶爾出現(xiàn),所以售電商必然關(guān)注長(zhǎng)期的利益。綜上所述,在電力現(xiàn)貨市場(chǎng)下,研究售電商的長(zhǎng)期收益具有現(xiàn)實(shí)意義。

        為盡可能規(guī)避現(xiàn)貨價(jià)格高于售電價(jià)格所帶來(lái)的利益損失,售電商可以借助需求響應(yīng)[2-4]手段,按照一定的市場(chǎng)價(jià)格信號(hào)或激勵(lì)機(jī)制[5],誘使用戶改變正常的電力消費(fèi)并減小用電負(fù)荷,以減少其從現(xiàn)貨市場(chǎng)購(gòu)電損失。此外,國(guó)內(nèi)外一系列研究表明,用戶響應(yīng)售電商通過(guò)發(fā)布需求響應(yīng),還有助于降低峰谷差,提高系統(tǒng)經(jīng)濟(jì)性[6-8],提高其與電廠簽長(zhǎng)協(xié)[9]或月度競(jìng)價(jià)[9-11]的議價(jià)能力。按照用戶的反應(yīng)方式,需求響應(yīng)可以劃分為基于價(jià)格型的需求響應(yīng)[12-13]和基于激勵(lì)型的需求響應(yīng)[14-15]。價(jià)格型需求響應(yīng)主要指用戶響應(yīng)用電價(jià)格高低調(diào)整負(fù)荷,可通過(guò)分時(shí)電價(jià)[16]、實(shí)時(shí)電價(jià)[17]、尖峰電價(jià)[18]等形式實(shí)現(xiàn),參與的用戶覆蓋面大,通常需要政府主管部門(mén)審議通過(guò)再實(shí)施。激勵(lì)型需求響應(yīng)是發(fā)布方通過(guò)獨(dú)立或疊加于零售電價(jià)以外的資金等激勵(lì)措施,使用戶及時(shí)響應(yīng)削減負(fù)荷[19],包括直接負(fù)荷控制[20]、可中斷負(fù)荷[21]、需求側(cè)競(jìng)價(jià)[22]、緊急需求響應(yīng)[23]等。實(shí)施激勵(lì)型需求響應(yīng)時(shí),只需要售電商和用戶兩方確定合同,相較于價(jià)格型需求響應(yīng)更靈活,適合于從售電商利益的角度來(lái)制訂需求響應(yīng)。

        借助需求響應(yīng)手段,解決售電商和用戶的收益最大化問(wèn)題,從邏輯上可以抽象為多個(gè)主體的雙方博弈[24]或多方博弈[25]問(wèn)題。由于售電商是發(fā)布需求響應(yīng),而用戶是響應(yīng)需求響應(yīng),所以售電商占主導(dǎo)地位,而用戶則是從屬地位,可以采用主從博弈[26-27]的方式來(lái)尋找納什均衡解。然而在現(xiàn)實(shí)的電力市場(chǎng)中,特別是電力現(xiàn)貨市場(chǎng)形成的初期,參與博弈的各方對(duì)外部信息掌握不充分是常態(tài),且各方的決策是一個(gè)動(dòng)態(tài)過(guò)程,這對(duì)采用博弈論來(lái)求解問(wèn)題有著極大的困難。一般在市場(chǎng)形成初期,對(duì)個(gè)體而言,通常是先做一個(gè)試探?jīng)Q策,觀察外部環(huán)境反應(yīng),個(gè)體評(píng)估決策好壞,再修正決策,這本質(zhì)上是一種通過(guò)學(xué)習(xí)的方式來(lái)獲得較優(yōu)的決策。本文通過(guò)引入學(xué)習(xí)機(jī)制來(lái)解決多主體的收益最大化問(wèn)題。當(dāng)前深度學(xué)習(xí)算法[2]是研究的熱點(diǎn),具有良好的魯棒性,離線學(xué)習(xí)后,能夠在新的場(chǎng)景中應(yīng)用;但深度學(xué)習(xí)需要大量的數(shù)據(jù)集進(jìn)行訓(xùn)練,對(duì)于當(dāng)前還處在起步階段的現(xiàn)貨市場(chǎng),尚未積累到足夠時(shí)間長(zhǎng)度的數(shù)據(jù)集,以保障深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。

        鑒于此,本文采用自適應(yīng)動(dòng)態(tài)規(guī)劃法[28]來(lái)求解售電商和多用戶的利益博弈問(wèn)題,通過(guò)一定量的數(shù)據(jù)集進(jìn)行離線學(xué)習(xí),訓(xùn)練完成后固定神經(jīng)網(wǎng)絡(luò)權(quán)值,用于在線使用[29]。自適應(yīng)動(dòng)態(tài)規(guī)劃法模仿人的思維過(guò)程,采用學(xué)習(xí)的方式,能夠在各主體對(duì)外部環(huán)境信息了解不足的情況下,輔助各主體以逐步趨優(yōu)的方式進(jìn)行決策。同時(shí),考慮到研究場(chǎng)景,用戶每日最大負(fù)荷表現(xiàn)出一定的隨機(jī)性,通常在其數(shù)學(xué)期望的30%以內(nèi)波動(dòng)。由于自適應(yīng)動(dòng)態(tài)規(guī)劃內(nèi)部的執(zhí)行網(wǎng)絡(luò)和評(píng)價(jià)網(wǎng)絡(luò)均可采用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn),具有一定的外延性,針對(duì)較小范圍內(nèi)的負(fù)荷波動(dòng),其決策機(jī)構(gòu)執(zhí)行網(wǎng)絡(luò)具有一定的魯棒性。

        1 售電商最優(yōu)決策

        1.1 問(wèn)題建模

        考慮到售電商為需求響應(yīng)的主導(dǎo)者,用戶作為跟隨者,處于被動(dòng)地位,所以先建模售電商的目標(biāo)函數(shù)

        (1)

        式中:Fr(t)為售電商在第t次需求響應(yīng)時(shí)的收益。售電商通過(guò)預(yù)估用戶的響應(yīng)電量等,尋優(yōu)補(bǔ)貼價(jià)格pr(t),以最大化式表示的長(zhǎng)期收益。

        當(dāng)售電商發(fā)布一定的補(bǔ)貼價(jià)格pr(t)后,用戶根據(jù)自身的需求響應(yīng)潛力、舒適成本等因素,給出最優(yōu)響應(yīng)負(fù)荷,以實(shí)現(xiàn)當(dāng)前的補(bǔ)貼價(jià)格下自身收益最大化。所以對(duì)于用戶i而言,其目標(biāo)函數(shù)

        (2)

        s.t. 0≤xi≤Hi(t) .

        (3)

        式中:Fi,c(t)為用戶i在第t次需求響應(yīng)時(shí)的收益;xi(t)為用戶i在第t次需求響應(yīng)時(shí)的響應(yīng)負(fù)荷;Hi(t)為用戶i在第t次需求響應(yīng)時(shí)的響應(yīng)負(fù)荷上限。

        從式(1)和式(2)可以看出所研究的問(wèn)題是一個(gè)多時(shí)間尺度的優(yōu)化問(wèn)題,售電商關(guān)注的是長(zhǎng)期收益最大化,而用戶作為需求響應(yīng)的響應(yīng)者,其關(guān)注的是短期的當(dāng)次收益最大化。式(1)問(wèn)題采用自適應(yīng)動(dòng)態(tài)規(guī)劃法(adaptive dynamic programming,ADP)求解,式(2)采用數(shù)學(xué)解析法求解。

        1.2 ADP的基本原理

        ADP優(yōu)化核心Bellman的最優(yōu)化原理是:無(wú)論過(guò)去的狀態(tài)和決策如何,對(duì)于形成的當(dāng)前狀態(tài)而言,余下的各個(gè)決策必定構(gòu)成最優(yōu)策略[30]?;谠撛恚瑢⑹?1)表示的長(zhǎng)期優(yōu)化問(wèn)題轉(zhuǎn)化為當(dāng)前單次求解最優(yōu)補(bǔ)貼價(jià)格的問(wèn)題。

        考慮一個(gè)長(zhǎng)時(shí)間尺度的售電商最優(yōu)決策求解,假設(shè)未來(lái)階段售電商的決策已經(jīng)是最優(yōu),那么針對(duì)當(dāng)前階段可以求解出最優(yōu)決策;因此可以認(rèn)為ADP求解出的決策序列為全局最優(yōu)決策序列。同時(shí),利用ADP可實(shí)現(xiàn)長(zhǎng)時(shí)間尺度的售電商利益優(yōu)化問(wèn)題,并轉(zhuǎn)化為與用戶利益優(yōu)化同一時(shí)間尺度的優(yōu)化問(wèn)題。定義性能指標(biāo)函數(shù)

        (4)

        式(4)中γ(0<γ≤1)為折扣因子,反映遠(yuǎn)期和近期不同時(shí)刻售電商收益對(duì)總體性能指標(biāo)函數(shù)的影響??紤]到本文離線訓(xùn)練選擇的場(chǎng)景中,由于研究場(chǎng)景對(duì)應(yīng)的未來(lái)用戶負(fù)荷存在一定波動(dòng),重點(diǎn)考慮近期收益,本文取γ=0.8。

        根據(jù)式(4),推導(dǎo)出Bellman方程如下:

        J(t)=Fr(t)+J(t+1) .

        (5)

        假設(shè)已知第(t+1)次需求響應(yīng)的最優(yōu)性能指標(biāo)函數(shù)J*(t+1),那么根據(jù)式(5),第t次需求響應(yīng)時(shí)的性能指標(biāo)函數(shù)可表示為Fr(t)+J*(t+1)。根據(jù)Bellman最優(yōu)化原理,求解Bellman方程:

        (6)

        (7)

        由于J*(t+1)是未知的,目前還無(wú)法求出式(7)的解析解,以下通過(guò)迭代法求解式(7)。

        1.3 迭代求解Bellman方程

        ADP可以利用神經(jīng)網(wǎng)絡(luò)逼近性能指標(biāo)函數(shù)J(t),從而可以求解J*(t+1)。ADP中用于逼近的性能指標(biāo)函數(shù)神經(jīng)網(wǎng)絡(luò)構(gòu)成評(píng)價(jià)網(wǎng)絡(luò)(critic neural network,CNN),而決策機(jī)構(gòu)亦可由神經(jīng)網(wǎng)絡(luò)構(gòu)成,稱(chēng)其為執(zhí)行網(wǎng)絡(luò)(action neural network,ANN )。將CNN絡(luò)和ANN權(quán)值初始化,通過(guò)ANN可以求解出初始控制pr,0(t)。相應(yīng)的性能指標(biāo)函數(shù)

        J0(t)=Fr(t)+J0(t+1) .

        (8)

        控制策略更新為

        (9)

        根據(jù)式(8)和式(9)歸納,對(duì)于循環(huán)次數(shù)m=0,1,2,…,有:

        Jm(t)=Fr(t)+Jm(t+1) .

        (10)

        (11)

        ADP算法在式(10)和式(11)之間反復(fù)迭代,直至性能指標(biāo)函數(shù)收斂。

        1.4 用戶最優(yōu)響應(yīng)負(fù)荷

        本節(jié)構(gòu)建用戶收益函數(shù),從數(shù)學(xué)解析法的角度推導(dǎo)出用戶最優(yōu)響應(yīng)負(fù)荷,以方便后續(xù)推導(dǎo)ADP效用函數(shù)。用戶i參與需求響應(yīng)時(shí),從以下3個(gè)方面構(gòu)建其收益函數(shù):響應(yīng)補(bǔ)貼、購(gòu)電成本和響應(yīng)成本。相關(guān)表達(dá)式如下:

        Fi,c(t)=Ci,e(t)+Bi,c(t)-Ci(t).

        (12)

        Ci,e(t)=pr(t)xi(t)Tt.

        (13)

        Bi,c(t)=λr(t)xi(t)Tt.

        (14)

        式(12)—(14)中:Ci,e(t)為用戶i參與需求響應(yīng)獲得的補(bǔ)貼;Bi,c(t)為用戶i參與需求響應(yīng)而減少的購(gòu)電成本;Ci(t)為用戶參與需求響應(yīng)付出的響應(yīng)成本;Tt為第t次需求響應(yīng)持續(xù)的時(shí)間;λr(t)為第t次需求響應(yīng)時(shí)用戶i的購(gòu)電價(jià)格。

        用戶i參與需要響應(yīng)削減負(fù)荷時(shí),其用電收益受損,這部分成本稱(chēng)之為經(jīng)濟(jì)成本,用二次函數(shù)表示[1]為

        C1i(t)=a1i(xi(t)Tt)2+b1i(xi(t)Tt).

        (15)

        式(15)中:C1i(t)為用戶i在第t次需求響應(yīng)時(shí)的經(jīng)濟(jì)成本;a1i和b1i為用戶i特性相關(guān)常數(shù),與用戶參與需求響應(yīng)經(jīng)濟(jì)成本與響應(yīng)負(fù)荷有關(guān)。

        用戶i參與需要響應(yīng)削減負(fù)荷時(shí),要付出舒適用電代價(jià),稱(chēng)之為舒適成本[1],表示為

        C2i(t)=a2i(xi(t)Tt)2·λc,i(pr(t-1)).

        (16)

        式(16)中:C2i(t)為用戶i在第t次需求響應(yīng)時(shí)的舒適成本;a2i為用戶i特性相關(guān)常數(shù),與用戶i參與需求響應(yīng)舒適成本與響應(yīng)負(fù)荷有關(guān);本文將函數(shù)λc,i(pr(t-1))定義為帶飽和的線性負(fù)相關(guān)函數(shù),與用戶特性相關(guān)。

        綜合上述用戶i經(jīng)濟(jì)成本式(15)和舒服成本式(16),可得到用戶i參與需求響應(yīng)成本如下:

        Ci(t)=C1i(t)+C2i(t) .

        (17)

        將式(13)、式(14)代入式(12)可得

        Fi,c(t)=Ci,e(t)+Bi,c(t)-Ci(t)=

        pr(t)xi(t)Tt+λr,txi(t)Tt-b1i(xi(t)Tt)-

        [a1i+a2i·λc,i(pr(t-1))](xi(t)Tt)2.

        (18)

        式(18)中pr(t-1)為已知,當(dāng)售電商發(fā)布后pr(t)亦為已知,由此可知用戶i的需求響應(yīng)收益函數(shù)是以用戶響應(yīng)負(fù)荷為變量的二次函數(shù)。結(jié)合目標(biāo)函數(shù)所需滿足的邊界條件(3),即可得到用戶i的最優(yōu)響應(yīng)負(fù)荷:

        (19)

        其中:

        1.5 效用函數(shù)

        ADP的效用函數(shù)直接定義為售電商收益函數(shù),通過(guò)購(gòu)電成本、售電收益以及補(bǔ)償費(fèi)用來(lái)構(gòu)建。

        Fr(t)=Bbuy(t)-Cr,e(t)-Cs(t).

        (20)

        購(gòu)電成本

        (21)

        式(21)中:λw(t)為實(shí)時(shí)電價(jià);n為參與需求用戶的數(shù)量。

        售電收益

        (22)

        補(bǔ)償費(fèi)用

        (23)

        將式(21)、式(22)代入式(20),可得售電商在第t次需求響應(yīng)的收益函數(shù)

        (24)

        2 算法框架

        采用離線學(xué)習(xí)和在線使用的策略,解決諸如遺傳算法等常規(guī)優(yōu)化算法在線優(yōu)化時(shí)間難滿足工程要求的問(wèn)題。同時(shí),利用神經(jīng)網(wǎng)絡(luò)有一定魯棒性的特點(diǎn),ADP決策機(jī)構(gòu)能夠應(yīng)對(duì)實(shí)際場(chǎng)景與學(xué)習(xí)樣本有一定隨機(jī)偏差的問(wèn)題。利用一定的歷史數(shù)據(jù)集開(kāi)展離線訓(xùn)練,過(guò)程包含CNN和ANN的交替訓(xùn)練,如圖1所示。

        創(chuàng)立于1945年的德國(guó)雄克公司 (SCHUNK GmbH & Co. KG) 是全球知名的抓取系統(tǒng)與夾持技術(shù)供應(yīng)商。共有超過(guò)2 800名員工、9個(gè)工廠、位于50多個(gè)國(guó)家的33家子公司和代理合作伙伴,共同維護(hù)并拓展全球市場(chǎng)。雄克可提供11 000種標(biāo)準(zhǔn)部件,包括 2 550款標(biāo)準(zhǔn)機(jī)械手;由4 000多種自動(dòng)化模塊組成的完整抓取系統(tǒng)。雄克服務(wù)的目標(biāo)行業(yè)包括機(jī)械工程、機(jī)器人、自動(dòng)化裝配及搬運(yùn)以及所有知名的汽車(chē)生產(chǎn)商及零部件供應(yīng)商。

        圖1 交替訓(xùn)練Fig.1 Alternate training

        圖1中:變量k表示ADP的第k輪交替訓(xùn)練。用Pi(t)(i=1,2,…,n)表示第t次需求響應(yīng)時(shí)n個(gè)用戶各自的負(fù)荷。對(duì)用戶i而言,假設(shè)其為保障基本需要的最低負(fù)荷為Pi,min(t),則有

        Hi(t)=Pi(t)-Pi,min(t).

        (25)

        (26)

        CNN的輸入包含ANN輸出的補(bǔ)貼價(jià)格pr,k(t)、售電商發(fā)布(t-1)次需求響應(yīng)時(shí)的補(bǔ)貼價(jià)格pr(t-1)、n個(gè)用戶在第t次需求響應(yīng)時(shí)的響應(yīng)負(fù)荷上限(H1(t),H2(t),…,Hn(t))。利用第k輪迭代時(shí)的CNN權(quán)值,可以直接由神經(jīng)網(wǎng)絡(luò)的前向計(jì)算,得到Jk(t)。

        下面說(shuō)明求解(t+1)次需求響應(yīng)對(duì)應(yīng)的性能指標(biāo)函數(shù)Jk-1(t+1)。利用訓(xùn)練用的樣本數(shù)據(jù),得到n個(gè)用戶在第(t+1)次需求響應(yīng)時(shí)的響應(yīng)負(fù)荷上限(H1(t+1),H2(t+1),…,Hn(t+1))。在ANN訓(xùn)練完成后,可以經(jīng)過(guò)ANN的前向計(jì)算,得到pr,k(t)。令Wk-1表示第(k-1)輪訓(xùn)練時(shí)CNN的權(quán)值矩陣,F(xiàn)表示CNN輸入、輸出之間的非線性函數(shù),則有

        Jk-1(t+1)=F(Wk-1,pr(t+1),pr,k(t),

        H1(t+1),…,Hn(t+1)).

        (27)

        根據(jù)Bellman誤差方程訓(xùn)練CNN,得到誤差函數(shù)

        (28)

        利用神經(jīng)網(wǎng)絡(luò)的反向傳播法[31],結(jié)合式(26),就可以更新相應(yīng)的ANN和CNN的神經(jīng)網(wǎng)絡(luò)權(quán)值。

        3 算例分析

        選擇廣東省某市5個(gè)工業(yè)用戶2016和2017年的歷史負(fù)荷數(shù)據(jù),篩選其中用電量較高時(shí)刻的用戶負(fù)荷作為售電商發(fā)布需求響應(yīng)前的用戶負(fù)荷數(shù)據(jù)進(jìn)行訓(xùn)練。這些數(shù)據(jù)帶有時(shí)標(biāo),在針對(duì)某時(shí)間數(shù)據(jù)發(fā)布需求響應(yīng)后,其狀態(tài)轉(zhuǎn)移到下一相鄰時(shí)間的數(shù)據(jù)。通過(guò)觀察用戶歷史用電數(shù)據(jù),確定5個(gè)用戶在需求響應(yīng)過(guò)程中可以削減到的最低負(fù)荷,分別為300 kW、400 kW、300 kW、300 kW、500 kW;5個(gè)用戶的經(jīng)濟(jì)成本一次項(xiàng)系數(shù)b1分別為0.57、0.55、0.59、0.64、0.61; 二次項(xiàng)系數(shù)a1分別為0.003、0.002、0.001、0.003、0.002;舒適成本二次項(xiàng)系數(shù)a2分別為0.008、0.008、0.009、0.008、0.008。

        在每訓(xùn)練一次后,都固定輸入5組狀態(tài)-動(dòng)作對(duì),記錄下每次訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)輸出Jk值,如圖2所示。根據(jù)5組狀態(tài)-動(dòng)作,對(duì)輸出的Jk值,根據(jù)前后2次訓(xùn)練后的絕對(duì)誤差均小于等于某一個(gè)設(shè)定值ε(令ε=0.5)來(lái)判斷訓(xùn)練收斂,如式(29)所示:

        |Jk,b-Jk+1,b|≤ε.

        (29)

        式中b為5組狀態(tài)-動(dòng)作對(duì)的編號(hào)。

        圖2 訓(xùn)練過(guò)程中的神經(jīng)網(wǎng)絡(luò)輸出值Fig.2 Neural network output value during training

        同時(shí),在每次訓(xùn)練時(shí)設(shè)置1個(gè)最大訓(xùn)練次數(shù),若超過(guò)該訓(xùn)練次數(shù)仍未收斂,則重新進(jìn)行訓(xùn)練;若在訓(xùn)練達(dá)到最大次數(shù)后,由式(29)判斷已經(jīng)收斂,則固定神經(jīng)網(wǎng)絡(luò)權(quán)值,輸入20次需求響應(yīng)數(shù)據(jù)進(jìn)行驗(yàn)證。

        圖3為根據(jù)式(29)得到的神經(jīng)網(wǎng)絡(luò)輸出值誤差。經(jīng)判斷,訓(xùn)練在第172次之后,達(dá)到式(29)的收斂要求,此時(shí)將ADP神經(jīng)網(wǎng)絡(luò)權(quán)值固定。

        圖3 訓(xùn)練過(guò)程中的神經(jīng)網(wǎng)絡(luò)輸出值誤差Fig.3 Neural network output value error during training

        CNN的神經(jīng)網(wǎng)絡(luò)通過(guò)訓(xùn)練可學(xué)習(xí)到用戶用電狀態(tài)轉(zhuǎn)移的規(guī)律。由于神經(jīng)網(wǎng)絡(luò)具有一定的外延性,針對(duì)學(xué)習(xí)場(chǎng)景和應(yīng)用場(chǎng)景存在不同初始狀態(tài)時(shí),所提的方法仍然有效。為了進(jìn)行驗(yàn)證,修改用戶在20次需求響應(yīng)前的負(fù)荷,使用戶負(fù)荷在初始狀態(tài)的基礎(chǔ)上分別在±10%、±20%和±30%之間波動(dòng),這3種情況下共分別驗(yàn)證15、15、7組數(shù)據(jù)。本文主要結(jié)合在初始狀態(tài)的基礎(chǔ)上在±10%之間波動(dòng)的負(fù)荷數(shù)據(jù)場(chǎng)景,進(jìn)行仿真分析。

        圖4所示為初始狀態(tài)和在該狀態(tài)基礎(chǔ)上波動(dòng)±10%后狀態(tài)下,5個(gè)用戶20次需求響應(yīng)前的負(fù)荷,其中實(shí)線表示初始狀態(tài)數(shù)據(jù),虛線表示波動(dòng)10%的數(shù)據(jù)。

        圖4 波動(dòng)前與波動(dòng)后的5個(gè)用戶20次需求響應(yīng)前的負(fù)荷Fig.4 Loads before and after fluctuations of five users after 20 times of fluctuations

        將t-1次發(fā)布的補(bǔ)貼價(jià)格pr(t-1)對(duì)5個(gè)用戶的舒適成本影響函數(shù)λc(pr(t-1))按照?qǐng)D5來(lái)表示。當(dāng)pr(t-1)<0.6 元/kWh時(shí),λc(pr(t-1))=1.7,用戶的舒適成本會(huì)增加到原基礎(chǔ)的1.7倍;當(dāng)pr(t-1)>2 元/kWh時(shí),λc(pr(t-1))=0.3,用戶的舒適成本會(huì)降低到原基礎(chǔ)的0.3倍;當(dāng)0.6 元/kWh

        圖5 5個(gè)用戶的舒適成本影響函數(shù)Fig.5 Five users’ comfort cost impact function

        以初始狀態(tài)對(duì)應(yīng)的數(shù)據(jù)進(jìn)行離線訓(xùn)練,將訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)權(quán)值固定后,把存在波動(dòng)10%的狀態(tài)數(shù)據(jù)輸入到訓(xùn)練好的神經(jīng)網(wǎng)絡(luò),前向計(jì)算對(duì)應(yīng)J值,找出使J值最大時(shí)的補(bǔ)貼價(jià)格,分析仿真結(jié)果如下。

        圖6所示為ADP算法和當(dāng)次收益最大方法分別計(jì)算得到的需求響應(yīng)發(fā)布的最優(yōu)補(bǔ)貼價(jià)格;圖7和圖8分別為使用這2種方法得到的5個(gè)用戶的響應(yīng)負(fù)荷;圖9為使用這2種方法得到的5個(gè)用戶的總響應(yīng)負(fù)荷;圖10和圖11分別為售電商使用這2種方法獲得的當(dāng)次收益和累積收益??梢钥闯?,在不同的初始狀態(tài)下,使用ADP方法依然能夠獲得更高的長(zhǎng)期收益,說(shuō)明本文模型可以適應(yīng)不同初始狀態(tài)的長(zhǎng)期收益決策問(wèn)題。

        為驗(yàn)證所提方案的魯棒性,固定離線訓(xùn)練得到的權(quán)值,并進(jìn)行多次的、不同波動(dòng)狀態(tài)的20次累積收益對(duì)比,結(jié)果見(jiàn)表1。從表1可以看出,在初始狀態(tài)存在±10%和±20%波動(dòng)時(shí),ADP方法20次累積收益比當(dāng)次收益最大方法20次累積收益更高;但是當(dāng)初始狀態(tài)存在±30%波動(dòng)時(shí),上述結(jié)論不一定成立,如表1中最后2組數(shù)據(jù)所示。這是因?yàn)椴▌?dòng)超出一定范圍后,當(dāng)對(duì)應(yīng)的場(chǎng)景與離線學(xué)習(xí)采用的場(chǎng)景差異過(guò)大時(shí),已經(jīng)涉及到變結(jié)構(gòu)優(yōu)化的問(wèn)題。這種變結(jié)構(gòu)優(yōu)化問(wèn)題是后續(xù)正在進(jìn)行的研究擬解決的問(wèn)題。同時(shí),從目前已收集到的實(shí)際工業(yè)用戶高峰負(fù)荷數(shù)據(jù)來(lái)看,暫未發(fā)現(xiàn)有正常工作日的高峰負(fù)荷存在波動(dòng)±30%的情況。

        圖6 售電商在20次需求響應(yīng)時(shí)發(fā)布的補(bǔ)貼價(jià)格Fig.6 Subsidy price issued by the electricity seller in 20 times of demand responses

        圖7 ADP方法得到的用戶響應(yīng)負(fù)荷Fig.7 User response load obtained by ADP method

        圖8 當(dāng)次收益最大方法得到的用戶響應(yīng)負(fù)荷Fig.8 User response load obtained by the maximization method

        圖9 2種方法分別得到的用戶總響應(yīng)負(fù)荷Fig.9 The total response load of users is obtained by the two methods respectively

        圖10 20次需求響應(yīng)時(shí)獲得的當(dāng)次收益Fig.10 Current income obtained from 20 times of demand responses

        圖11 20次需求響應(yīng)時(shí)獲得的累積收益Fig.11 Cumulative gains from 20 times of demand responses

        表1 2種方法求解不同波動(dòng)狀態(tài)下的20次累積收益對(duì)比Tab.1 Comparison of 20 times of cumulative gains from two methods under different fluctuations

        4 結(jié)束語(yǔ)

        本文立足于電力現(xiàn)貨市場(chǎng)形成初期,為最大化電力現(xiàn)貨市場(chǎng)下售電商的中長(zhǎng)期收益,兼顧用戶的短期收益,提出了采用基于ADP的售電商動(dòng)態(tài)優(yōu)化需求響應(yīng)方案,為未來(lái)電力現(xiàn)貨市場(chǎng)發(fā)展完備提供參考。售電商和用戶的收益最大化可以抽象為一個(gè)多時(shí)間尺度的動(dòng)態(tài)優(yōu)化問(wèn)題,根據(jù)Bellman最優(yōu)化原理,將所研究的問(wèn)題轉(zhuǎn)化為同一時(shí)間尺度的優(yōu)化問(wèn)題??紤]到售電商發(fā)布的歷史補(bǔ)貼價(jià)格對(duì)用戶舒適成本感知的影響,構(gòu)建了售電商與用戶前后時(shí)間狀態(tài)耦合的動(dòng)態(tài)優(yōu)化問(wèn)題。利用ADP方法良好的魯棒性,在實(shí)際場(chǎng)景與訓(xùn)練場(chǎng)景存在隨機(jī)偏差時(shí),離線訓(xùn)練得到的策略仍然有效。

        猜你喜歡
        現(xiàn)貨波動(dòng)收益
        美國(guó)大豆現(xiàn)貨價(jià)格上漲
        豆粕:美豆新高后回落振蕩,現(xiàn)貨臨近春節(jié)成交轉(zhuǎn)淡
        螃蟹爬上“網(wǎng)” 收益落進(jìn)兜
        羊肉價(jià)回穩(wěn) 后期不會(huì)大幅波動(dòng)
        微風(fēng)里優(yōu)美地波動(dòng)
        2019年國(guó)內(nèi)外油價(jià)或?qū)⒉▌?dòng)加劇
        浙江電力現(xiàn)貨啟幕
        能源(2017年12期)2018-01-31 01:43:13
        備戰(zhàn)電力現(xiàn)貨
        能源(2017年12期)2018-01-31 01:43:11
        干濕法SO2排放波動(dòng)對(duì)比及分析
        2015年理財(cái)“6宗最”誰(shuí)能給你穩(wěn)穩(wěn)的收益
        金色年華(2016年1期)2016-02-28 01:38:19
        国产精品三级av及在线观看| 久久精品国产福利亚洲av| 国产三级精品三级在线专区2| 高潮抽搐潮喷毛片在线播放| 亚洲国产精品特色大片观看完整版| 国产午夜激情视频自拍| 白浆高潮国产免费一区二区三区| 国产一区二区三区日韩精品| 天天弄天天模| 无码一区久久久久久久绯色AV| 亚洲国产精品成人一区二区三区| 日韩欧美一区二区三区免费观看| 国产真实夫妇交换视频| 加勒比黑人在线| 人妻少妇偷人精品视频| 免费无码精品黄av电影| 综合久久给合久久狠狠狠97色| 国产西西裸体一级黄色大片| 国产亚洲精品精品综合伦理| 免费无码a片一区二三区| 伊人精品在线观看| 亚洲精品国产精品系列| 亚洲中文字幕人妻av在线| 女人下面毛多水多视频| 久久99精品中文字幕在| 久久精品亚洲热综合一本色婷婷| 国产午夜精品av一区二区麻豆 | 亚洲精品综合色区二区| 美女与黑人巨大进入免费观看 | 亚洲国产精品久久久婷婷| 国产午夜福利久久精品| 欧美末成年videos在线观看| 亚洲一区二区三区偷拍自拍| 日本亚洲国产精品久久| 中国丰满熟妇av| 国产成人精品cao在线| 自由成熟女性性毛茸茸应用特色| 欧美人与动牲交a精品| 久热香蕉av在线爽青青| 在线观看免费不卡网站| 亚洲一区二区三区无码久久|