亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度強(qiáng)化學(xué)習(xí)的輸電網(wǎng)網(wǎng)架規(guī)劃方法

        2021-07-09 09:31:58劉帥孔亮劉自發(fā)李玉文陳逸軒
        電力建設(shè) 2021年7期
        關(guān)鍵詞:輸電網(wǎng)信息熵典型

        劉帥,孔亮,劉自發(fā),李玉文,陳逸軒

        (1. 國網(wǎng)山東省電力公司威海供電公司,山東省威海市 264200;2.華北電力大學(xué)電氣與電子工程學(xué)院,北京市 102206)

        0 引 言

        輸電網(wǎng)規(guī)劃包括對輸電網(wǎng)網(wǎng)架結(jié)構(gòu)和輸電線路容量進(jìn)行規(guī)劃,目的是達(dá)到相應(yīng)時(shí)期輸電能力要求,同時(shí)滿足可靠性指標(biāo)和經(jīng)濟(jì)性優(yōu)化,是電力系統(tǒng)規(guī)劃的重要組成部分,也是保障電力系統(tǒng)健康發(fā)展的重要工作。在高比例可再生能源并網(wǎng)與智能電網(wǎng)快速發(fā)展的背景下,電力系統(tǒng)不確定性進(jìn)一步增加[1],不確定性問題給輸電網(wǎng)規(guī)劃帶來重大挑戰(zhàn),傳統(tǒng)的規(guī)劃方法已經(jīng)無法適用新形態(tài)下的輸電網(wǎng)規(guī)劃,需要更加完善的規(guī)劃方法來滿足電力系統(tǒng)發(fā)展的需求。

        輸電網(wǎng)規(guī)劃的傳統(tǒng)確定性方法存在一定的弊端,如無法處理規(guī)劃中的不確定因素、靈活性差、與其他方法配合較差等??紤]到電力系統(tǒng)對靈活性和適應(yīng)性的更高要求,就必須要研究新的輸電網(wǎng)規(guī)劃方法。電網(wǎng)柔性規(guī)劃將不確定因素引入規(guī)劃模型和過程中,以尋求靈活性更強(qiáng)、適應(yīng)性更好的規(guī)劃方案。電網(wǎng)柔性規(guī)劃的研究成果包括基于多場景技術(shù)的電網(wǎng)規(guī)劃模型和基于不確定理論的電網(wǎng)規(guī)劃模型。

        文獻(xiàn)[2]基于未來場景的不確定性,從場景的發(fā)生概率出發(fā),提出了造價(jià)期望最優(yōu)模型和各場景最優(yōu)方案綜合偏離程度最小模型。文獻(xiàn)[3]以場景分析和概率計(jì)算的方式描述不確定性因素,快速準(zhǔn)確地得到基于決策者偏好的輸電網(wǎng)柔性規(guī)劃方案。文獻(xiàn)[4]采用多場景概率法分析不確定性數(shù)據(jù)并劃分出多種場景,計(jì)算場景概率并得到輸電網(wǎng)擴(kuò)展規(guī)劃模型。文獻(xiàn)[5]采用多場景方法處理未來電網(wǎng)規(guī)劃中的不確定性因素,以各場景下最優(yōu)方案的最小期望投資悔值為目標(biāo)函數(shù)并進(jìn)行求解。

        基于多場景技術(shù)的電網(wǎng)規(guī)劃模型研究了不確定規(guī)劃問題的普遍解決方案,即將不確定因素轉(zhuǎn)化為多個(gè)確定性場景,計(jì)算較為簡單。但該方法也存在一定弊端。其中,基于場景發(fā)生概率的規(guī)劃方法沒有考慮場景中各種因素的關(guān)聯(lián)性,增加了場景數(shù)和計(jì)算量;基于決策偏好的場景技術(shù)憑決策者的喜好處理規(guī)劃問題,主觀色彩較強(qiáng),不利于實(shí)際應(yīng)用;基于最小期望悔值的規(guī)劃方法以犧牲經(jīng)濟(jì)性來提高規(guī)劃方案的適應(yīng)性和魯棒性,電網(wǎng)規(guī)劃的結(jié)果可能產(chǎn)生大量的冗余線路。

        為獲得更為安全、經(jīng)濟(jì)的輸電網(wǎng)規(guī)劃方案,學(xué)者們將概率論、模糊集理論、可信性理論、區(qū)間理論等不確定理論引入輸電網(wǎng)規(guī)劃中,提出了考慮各類不確定因素的輸電網(wǎng)規(guī)劃模型。

        文獻(xiàn)[6]提出了區(qū)間負(fù)荷下的輸電網(wǎng)規(guī)劃模型,并基于改進(jìn)的分支定界法給出了區(qū)間至多切負(fù)荷量的快速評估方法。文獻(xiàn)[7]對灰信息進(jìn)行確定化處理并求解若干個(gè)確定性信息下的規(guī)劃模型,得到灰數(shù)模型下的最優(yōu)規(guī)劃方案。文獻(xiàn)[8]采用基于聯(lián)系數(shù)的輸電網(wǎng)規(guī)劃模型,根據(jù)聯(lián)系數(shù)四則運(yùn)算得到考慮聯(lián)系數(shù)的直流潮流以獲得最優(yōu)輸電網(wǎng)規(guī)劃方案。

        綜上所述,雖然基于不確定理論的輸電網(wǎng)規(guī)劃方法已有大量成果,但仍存在一些問題:現(xiàn)有規(guī)劃方法大多是建立在某一斷面的基礎(chǔ)上,在多場景情況下存在靈活性、適應(yīng)性不足的問題;規(guī)劃模型中較少考慮不確定因素的相互耦合關(guān)系。

        深度強(qiáng)化學(xué)習(xí)屬于機(jī)器學(xué)習(xí)的一種,能夠自行與環(huán)境交互產(chǎn)生樣本,并用以對自身的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行訓(xùn)練。該方法目前在多個(gè)領(lǐng)域有所應(yīng)用,一些學(xué)者也已經(jīng)將深度強(qiáng)化學(xué)習(xí)應(yīng)用于電力系統(tǒng)問題研究中。文獻(xiàn)[9]應(yīng)用深度策略梯度模型進(jìn)行建筑能量管理調(diào)度優(yōu)化,該方法比常規(guī)方法能更有效地節(jié)省成本;文獻(xiàn)[10]應(yīng)用深度強(qiáng)化學(xué)習(xí)優(yōu)化微電網(wǎng)儲(chǔ)能調(diào)度。然而,目前深度學(xué)習(xí)在電力系統(tǒng)中的應(yīng)用僅限于調(diào)度問題,并不包括電力系統(tǒng)規(guī)劃問題。

        本文首先提出基于信息熵的典型場景提取方法(typical scenario set with entropy,TSSE),引入場景信息熵的概念進(jìn)行典型場景提取。得到多場景集合后,再將提取到的場景輸入規(guī)劃模型,得到基于多場景的輸電網(wǎng)靈活規(guī)劃模型。接著采用深度強(qiáng)化學(xué)習(xí)的方法,提出一種適用于輸電網(wǎng)規(guī)劃的改進(jìn)指針網(wǎng)絡(luò)模型(revised pointer network,RPN),并進(jìn)一步使用深度強(qiáng)化學(xué)習(xí)中的Actor-Critic方法對網(wǎng)絡(luò)進(jìn)行訓(xùn)練。應(yīng)用改進(jìn)指針網(wǎng)絡(luò)與Actor-Critic結(jié)合的方法(revised pointer network with Actor-Critic, RPNAC)對電力系統(tǒng)規(guī)劃問題進(jìn)行求解,以解決傳統(tǒng)輸電網(wǎng)規(guī)劃方法靈活性、適應(yīng)性較差及運(yùn)算效率較低的問題。

        1 基于多場景的輸電網(wǎng)靈活規(guī)劃模型

        首先提出基于信息熵的典型場景提取方法,引入場景信息熵的概念,提取生成包含風(fēng)電、光伏、負(fù)荷的多種典型場景。得到多場景集合后,再將提取到的場景輸入規(guī)劃模型,最后得到基于多場景的輸電網(wǎng)靈活規(guī)劃模型。本文主要應(yīng)用文獻(xiàn)[11]提出的輸電網(wǎng)柔性約束規(guī)劃模型,在此基礎(chǔ)上實(shí)現(xiàn)基于多場景的輸電網(wǎng)靈活規(guī)劃。

        1.1 不確定性因素的定量分析

        場景法主要用于對電力系統(tǒng)內(nèi)的不確定性因素進(jìn)行定量分析。通過將不確定性因素的概率分布轉(zhuǎn)化成帶權(quán)典型值組合,并對結(jié)果進(jìn)行加權(quán)求和,即可得到不確定性因素的評價(jià)結(jié)果,進(jìn)而生成典型場景。

        因此,得到不確定性因素的概率分布是場景提取的首要前提。分布式電源具有高度隨機(jī)性與波動(dòng)性,另外受用戶側(cè)需求的影響,負(fù)荷結(jié)構(gòu)、功率不斷發(fā)生變化。因此,本文考慮的不確定性因素主要有風(fēng)力發(fā)電、光伏發(fā)電以及負(fù)荷功率。

        對于風(fēng)力發(fā)電,采用雙參數(shù)Weibull概率分布模型進(jìn)行模擬[12];對于光伏發(fā)電,采用Beta分布進(jìn)行模擬;對于負(fù)荷功率則采用正態(tài)分布進(jìn)行模擬。

        1.2 基于信息熵的多場景提取方法

        信息熵的概念來源于熱力學(xué),用以度量對象的不確定性[13]。熵的大小表征著信息含量的多少,熵值較大說明信息含量較大,熵值較小說明信息含量較小。信息熵理論已經(jīng)在很多領(lǐng)域有所應(yīng)用,包括迭代二叉樹三代(iterative dichotomiser 3, ID3)類決策樹。ID3類決策樹模型采用最大化信息熵變化量為評判依據(jù),選取盡可能將樣本分為完全不同的兩類節(jié)點(diǎn)進(jìn)行節(jié)點(diǎn)分割。

        本文采取類似的思路進(jìn)行典型場景提取,通過最大化場景信息熵變化量進(jìn)行場景分類,再用遞歸方式將原始場景分為多個(gè)子類,對熵值較大的場景區(qū)段分配更多場景數(shù)目,對熵值較小的場景區(qū)段分配較少場景數(shù)目。取每個(gè)子類的平均值作為該類的典型場景,所有子類的場景集合即為所提取的典型場景集。該方法能在對電力系統(tǒng)運(yùn)行場景有較好的表征能力的基礎(chǔ)上增加典型場景多樣性,提升規(guī)劃方案對不同場景的適應(yīng)性。

        首先,輸入待分場景功率分布密度函數(shù)作為初始根節(jié)點(diǎn),并計(jì)算初始根節(jié)點(diǎn)信息熵,即:

        (1)

        式中:H(v0)為初始根節(jié)點(diǎn)信息熵;v0為初始根節(jié)點(diǎn);x為功率;p(x)為x對應(yīng)的概率密度;xmax為功率最大值。

        接下來選取初始根節(jié)點(diǎn)的分割位置。對于某一分割位置,其分割后的信息熵為分割后形成的兩個(gè)新節(jié)點(diǎn)的信息熵之和:

        H(v0,x0)=H(v′0)+H(v″0)

        (2)

        (3)

        (4)

        式中:x0為任一分割位置;H(v0,x0)為初始根節(jié)點(diǎn)分割后的信息熵;H(v′0)為分割后形成的左子節(jié)點(diǎn);H(v″0)為分割后形成的右子節(jié)點(diǎn);p′(x)為左子節(jié)點(diǎn)的概率密度函數(shù);p″(x)為右子節(jié)點(diǎn)的概率密度函數(shù)。

        節(jié)點(diǎn)分割的選取原則是信息熵減小量最大化,即:

        ΔH=H(v0)-H(v0,x0)

        (5)

        式中:ΔH為節(jié)點(diǎn)分割后信息熵的減小量。能夠使得式(5)最大化的分割位置即為當(dāng)前節(jié)點(diǎn)的最優(yōu)分割位置。

        節(jié)點(diǎn)分割之后,父節(jié)點(diǎn)所有可能的功率值也會(huì)被分成2份,因此在某一子節(jié)點(diǎn)中,便不會(huì)再出現(xiàn)另一子節(jié)點(diǎn)的功率值。每個(gè)節(jié)點(diǎn)保留的可能功率值的相應(yīng)概率會(huì)增加,功率概率密度函數(shù)也會(huì)發(fā)生變化。

        對初始節(jié)點(diǎn)分割完成并形成兩個(gè)子節(jié)點(diǎn)后,需要對產(chǎn)生的新子節(jié)點(diǎn)進(jìn)行校驗(yàn),判斷節(jié)點(diǎn)信息熵是否小于臨界值εH。小于臨界值εH的子節(jié)點(diǎn)信息熵較小,稱為“葉節(jié)點(diǎn)”。信息熵較小代表節(jié)點(diǎn)內(nèi)功率分布較為一致,在單一節(jié)點(diǎn)內(nèi)進(jìn)行功率采樣得到的功率值趨同,不會(huì)發(fā)生較大波動(dòng)。因此,對于葉節(jié)點(diǎn),可以取功率分布的期望作為該節(jié)點(diǎn)對應(yīng)的典型場景。

        未通過信息熵校驗(yàn)的新節(jié)點(diǎn)則作為待分根節(jié)點(diǎn),繼續(xù)進(jìn)行節(jié)點(diǎn)分割,直至所有節(jié)點(diǎn)都成為葉節(jié)點(diǎn)則遞歸停止。接著計(jì)算所有葉節(jié)點(diǎn)對應(yīng)的典型場景,作為提取的典型場景集合輸出。每個(gè)葉節(jié)點(diǎn)內(nèi)部場景數(shù)量占總場景的比例作為該葉節(jié)點(diǎn)對應(yīng)典型場景的權(quán)重。

        另外,為了保持算法內(nèi)容名稱上的前后一致,初始節(jié)點(diǎn)先作為葉節(jié)點(diǎn)輸入,隨后才被修改為根節(jié)點(diǎn)。

        基于信息熵的場景提取步驟如圖1所示。

        圖1 基于信息熵的典型場景提取方法Fig.1 Typical scenarios extraction method based on information entropy

        結(jié)合前文敘述和圖1,基于信息熵的場景提取步驟可概括為:

        步驟一:輸入包含風(fēng)電、光伏、負(fù)荷功率的數(shù)據(jù)集信息作為初始葉節(jié)點(diǎn),并根據(jù)式(1)計(jì)算初始葉節(jié)點(diǎn)信息熵。

        步驟二:判斷所有節(jié)點(diǎn)是否均不可分割,若滿足,將所有葉節(jié)點(diǎn)作為典型場景輸出,并獲取該場景對應(yīng)包含的小時(shí)數(shù),計(jì)算概率;若不滿足,將不滿足的葉節(jié)點(diǎn)作為根節(jié)點(diǎn),繼續(xù)以下步驟三。

        步驟三:根據(jù)式(5)信息熵減小量最大化原則,及式(2)—(4)對根節(jié)點(diǎn)進(jìn)行分割,確定分割位置。

        步驟四:針對分割出的新葉節(jié)點(diǎn),利用步驟二進(jìn)行判斷,反復(fù)迭代,直至所有節(jié)點(diǎn)均滿足終止條件。

        1.3 輸電網(wǎng)網(wǎng)架柔性規(guī)劃模型

        電網(wǎng)柔性規(guī)劃方法是用于求解未來多個(gè)不確定性場景的綜合最優(yōu)方案,通過提出適應(yīng)未來環(huán)境變化的柔性規(guī)劃方案,以最小的代價(jià)彌補(bǔ)環(huán)境變化造成的經(jīng)濟(jì)損失[14]。將提取到的場景輸入規(guī)劃模型,得到基于多場景的輸電網(wǎng)靈活規(guī)劃模型。

        本文目標(biāo)函數(shù)綜合考慮線路投資成本、發(fā)電機(jī)組運(yùn)行成本、棄風(fēng)懲罰成本,目標(biāo)函數(shù)如下:

        minF=∑Finvest+∑Foperation+∑Fcur

        (6)

        式中:∑Finvest、∑Foperation、∑Fcur分別為輸電網(wǎng)的線路投資成本、發(fā)電機(jī)組運(yùn)行成本、棄風(fēng)懲罰成本。

        (7)

        ∑Foperation=

        (8)

        ∑Fcur=

        (9)

        規(guī)劃模型具有以下幾個(gè)約束條件:

        1)功率平衡約束:

        (10)

        2)線路潮流約束:

        Pn-ij=Bn-ij(θn-i-θn-j)i,j∈L

        (11)

        式中:Bn-ij為場景n中線路ij的電納;θn-i、θn-j分別為場景n中節(jié)點(diǎn)i、j的電壓相角。

        3)風(fēng)機(jī)出力約束:

        Pwind-min≤Pwind-n(t)≤Pwind-max

        (12)

        式中:Pwind-min、Pwind-max分別為風(fēng)機(jī)出力的最小值、最大值;Pwind-n(t)為場景n中的風(fēng)機(jī)出力值。

        4)發(fā)電機(jī)運(yùn)行約束:

        (13)

        2 基于改進(jìn)指針網(wǎng)絡(luò)的規(guī)劃模型求解方法

        遺傳算法在大規(guī)模最優(yōu)化問題中,能取得最優(yōu)值或者次優(yōu)值。然而其本身存在諸多缺陷,如在處理規(guī)模較大的最優(yōu)化問題時(shí),算法容易陷入局部最優(yōu)、收斂速度慢等。

        為解決如遺傳算法等啟發(fā)式算法存在的問題,本文在原始指針網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行改進(jìn),使其能夠適用于電力系統(tǒng)網(wǎng)架規(guī)劃問題。與原始指針網(wǎng)絡(luò)應(yīng)用標(biāo)簽樣本進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練不同,本文使用強(qiáng)化學(xué)習(xí)中的Actor-Critic模型進(jìn)行網(wǎng)絡(luò)訓(xùn)練,從而實(shí)現(xiàn)無需標(biāo)簽樣本的訓(xùn)練。

        2.1 基于改進(jìn)指針網(wǎng)絡(luò)的規(guī)劃問題求解模型

        指針網(wǎng)絡(luò)(pointer network)是一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),能有效用于學(xué)習(xí)中低維度的組合優(yōu)化問題,并能以高準(zhǔn)確度預(yù)測出問題的解。其結(jié)構(gòu)類似于sequence to sequence(seq2seq)[15]。指針網(wǎng)絡(luò)的原理是將輸入映射為一系列按概率指向輸入序列元素的指針,由一個(gè)編碼器(encoder)和一個(gè)解碼器(decoder)組成。編碼器的輸入為節(jié)點(diǎn)坐標(biāo)組成的向量,解碼器的輸出則為節(jié)點(diǎn)坐標(biāo)的某個(gè)排序。但是,該模型不能直接應(yīng)用于網(wǎng)架規(guī)劃問題中,需要進(jìn)行一定的改進(jìn)。因此,本文提出一種適用于網(wǎng)架規(guī)劃問題的改進(jìn)指針網(wǎng)絡(luò)模型,如圖2所示。

        圖2 改進(jìn)指針網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.2 Structure of revised pointer network

        與原始模型使用節(jié)點(diǎn)坐標(biāo)作為輸入不同,改進(jìn)指針網(wǎng)絡(luò)模型(revised pointer network, RPN)以網(wǎng)絡(luò)的節(jié)點(diǎn)-支路關(guān)聯(lián)矩陣中對應(yīng)的向量作為節(jié)點(diǎn)輸入,在圖2中以n1、n2表示。圖2中接受輸入的白框表示編碼器與解碼器中的循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)。RNN每次以一個(gè)新節(jié)點(diǎn)和上一個(gè)節(jié)點(diǎn)的輸出作為輸入,并給出當(dāng)前節(jié)點(diǎn)的輸出。當(dāng)所有的輸入節(jié)點(diǎn)順序輸入結(jié)束后,編碼器的最終輸出即為指針網(wǎng)絡(luò)對于電力系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)信息的嵌入(embedding)。

        對于解碼器,其中的RNN每次接受上一個(gè)節(jié)點(diǎn)的輸出,并把上一個(gè)節(jié)點(diǎn)給出的預(yù)測節(jié)點(diǎn)作為輸入。解碼器中首節(jié)點(diǎn)的輸入為編碼器給出的嵌入以及用待訓(xùn)練參數(shù)表示的起始節(jié)點(diǎn)ng。因此,解碼器中每個(gè)節(jié)點(diǎn)對應(yīng)的輸出便是編碼器輸入節(jié)點(diǎn)的概率分布,取概率最大的節(jié)點(diǎn)作為預(yù)測節(jié)點(diǎn),在圖2中用指向編碼器的箭頭表示。此外,解碼器每次給出預(yù)測節(jié)點(diǎn)時(shí),已在解碼器中出現(xiàn)過的節(jié)點(diǎn)不再出現(xiàn),以此保證結(jié)果的有效性。圖2中的圓圈表示不可選節(jié)點(diǎn)。由所有解碼器給出的節(jié)點(diǎn)即為RPN給出的一個(gè)解。

        由于網(wǎng)架規(guī)劃問題的解往往僅包含可建設(shè)線路中的某幾條,因此輸出向量的長度將遠(yuǎn)小于輸入向量。針對此問題,RPN在輸入向量的尾部追加一個(gè)停止節(jié)點(diǎn)ns,當(dāng)停止節(jié)點(diǎn)出現(xiàn)在輸出向量中時(shí),便僅保留停止節(jié)點(diǎn)前的節(jié)點(diǎn),而后續(xù)產(chǎn)生的節(jié)點(diǎn)無效。

        值得注意的是,RPN并不能保證單次輸出即可得到最優(yōu)解。因此,在利用訓(xùn)練好的RPN網(wǎng)絡(luò)進(jìn)行求解時(shí),需要將輸入向量隨機(jī)排序,重復(fù)輸入到網(wǎng)絡(luò)中,獲得多個(gè)輸出,并在輸出集合中進(jìn)行搜索,得分最高者即作為最優(yōu)解輸出。

        2.2 基于Actor-Critic的網(wǎng)絡(luò)訓(xùn)練方法

        神經(jīng)網(wǎng)絡(luò)通常使用監(jiān)督學(xué)習(xí)的方法進(jìn)行訓(xùn)練,但對于包括網(wǎng)架規(guī)劃在內(nèi)的組合優(yōu)化問題和復(fù)雜的現(xiàn)實(shí)場景,很難在線獲得大量訓(xùn)練數(shù)據(jù),且獲得足夠數(shù)量的高質(zhì)量標(biāo)簽數(shù)據(jù)代價(jià)高昂,導(dǎo)致求解結(jié)果出現(xiàn)局部最優(yōu)解等問題。

        因此,本文采用強(qiáng)化學(xué)習(xí)中的Actor-Critic方法訓(xùn)練RPN。這類算法雖然利用值函數(shù)評估策略,但是又不純粹依賴值函數(shù)求解最優(yōu)策略,而是利用值函數(shù)信息指導(dǎo)策略的搜索。通過自行與環(huán)境進(jìn)行交互來獲得訓(xùn)練樣本,無需事先給定大量訓(xùn)練數(shù)據(jù),因此適用于網(wǎng)架規(guī)劃問題。

        RPN的損失函數(shù)定義為:

        J(θ)=Eπ-pθL(π)

        (14)

        式中:θ為神經(jīng)網(wǎng)絡(luò)參數(shù);J(θ)為神經(jīng)網(wǎng)絡(luò)損失函數(shù);pθ為參數(shù)θ對應(yīng)的RPN的決策策略概率分布;π為根據(jù)策略概率分布做出的決策;L(π)為當(dāng)前決策的目標(biāo)函數(shù)值,由式(6)給出。

        根據(jù)Actor-Critic算法,損失函數(shù)的梯度定義為:

        ?θJ(θ)=Eπ-pθ[(L(π)-b)?θlogpθ(π)]

        (15)

        式中:b為梯度的基準(zhǔn)線方程(baseline function);pθ(π)為當(dāng)前θ對應(yīng)決策概率分布下決策π的概率。

        通過蒙特卡洛采樣對式(14)進(jìn)行逼近,可得損失函數(shù)的梯度:

        (16)

        式中:B為蒙特卡洛采樣的次數(shù);k為B次采樣中的第k次采樣;πk為B次采樣中第k次采樣時(shí)根據(jù)策略概率分布做出的決策。

        對于基準(zhǔn)線方程,文獻(xiàn)[15]中在指針網(wǎng)絡(luò)之外為Actor-Critic單獨(dú)建立網(wǎng)絡(luò)進(jìn)行計(jì)算,但這種方法具有較差的穩(wěn)定性,在實(shí)際計(jì)算中可能會(huì)導(dǎo)致網(wǎng)絡(luò)訓(xùn)練無法收斂。因此,本文采用指數(shù)移動(dòng)平均作為基準(zhǔn)線方程。指數(shù)移動(dòng)平均相比簡單移動(dòng)平均,更注重近期內(nèi)的數(shù)據(jù),且數(shù)據(jù)的權(quán)重會(huì)隨著時(shí)間按照指數(shù)規(guī)律下降[16]?;鶞?zhǔn)線方程的形式為:

        (17)

        神經(jīng)網(wǎng)絡(luò)參數(shù)更新選用隨機(jī)梯度下降方式進(jìn)行計(jì)算。先計(jì)算出損失函數(shù)的梯度,然后按梯度的方向,通過對權(quán)值的不斷更新調(diào)整,使函數(shù)損失值達(dá)到最小,從而獲得最優(yōu)解。該方法每次隨機(jī)選擇一個(gè)樣本來迭代更新一次,而不是針對所有樣本,因而該方法顯著提升了計(jì)算效率。

        3 算例分析

        本節(jié)首先針對系統(tǒng)中的3種不確定性因素(風(fēng)力發(fā)電功率、光伏發(fā)電功率、負(fù)荷功率)進(jìn)行典型場景提取并與原分布進(jìn)行對比。然后在IEEE Garver-6系統(tǒng)上進(jìn)行輸電網(wǎng)規(guī)劃,通過與粒子群優(yōu)化算法(particle swarm optimization, PSO)算法的對比,證明RPNAC在輸電網(wǎng)規(guī)劃方面的科學(xué)性和優(yōu)勢。

        3.1 典型場景集表征效果驗(yàn)證

        為了驗(yàn)證本文提出的基于信息熵的典型場景集構(gòu)建方法(typical scenario set with entropy, TSSE)的有效性,選用拉丁超立方抽樣(Latin hypercube sampling, LHS)[17]、蒙特卡洛抽樣(Monte Carlo, MC)[18]、基于推土機(jī)距離的場景提取方法(generation algorithm of typical scenario set, GATSS)[19]進(jìn)行對比,針對系統(tǒng)中3種不確定因素進(jìn)行典型場景提取。為衡量對原始場景的表征程度,從原始場景中進(jìn)行抽樣得到規(guī)模為106的場景集合Y,計(jì)算Y與各種方法提取的規(guī)模為102的典型場景集W之間的距離T,并進(jìn)行對比。計(jì)算公式為:

        (18)

        式中:u、w為單個(gè)場景;d為絕對值距離;ui、wj分別為各單個(gè)場景u、w中的i和j節(jié)點(diǎn)。計(jì)算結(jié)果如表1所示。

        表1 不同方法提取結(jié)果對原場景逼近能力比較Table 1 Comparison of different methods with respect to approximating the original scenarios

        由表1中結(jié)果可得,MC、GATSS、TSEE三者提取的典型場景集對原始場景的逼近能力相近,均優(yōu)于LHS。MC、GATSS、TSEE三者關(guān)于負(fù)荷功率提取的典型場景逼近效果優(yōu)于風(fēng)電與光伏功率。這是由于負(fù)荷功率采用高斯分布進(jìn)行逼近,其概率分布偏度為0,具有較強(qiáng)的對稱性,且分布曲線整體較為平坦,而風(fēng)電與光伏分別采用Weibull分布與Beta分布,具有較強(qiáng)的不對稱性。

        在保證表征效果的基礎(chǔ)上,應(yīng)使典型場景集有盡可能多樣化的典型場景,保證規(guī)劃方案在更多場景下滿足安全性校驗(yàn),從而提升規(guī)劃方案的魯棒性。本文選用方差來衡量典型場景集的多樣性,計(jì)算中忽略典型場景權(quán)重的影響,計(jì)算結(jié)果如表2所示。

        表2 不同方法提取結(jié)果場景多樣性比較Table 2 Comparison of different methods with respect to scenario diversity

        MC是對概率分布整體的隨機(jī)抽樣,因此其提取的典型場景集方差與概率分布方差相近。LHS在MC的基礎(chǔ)上對概率分布進(jìn)行均勻分層抽樣,因此可以保證覆蓋至概率密度較小的區(qū)域,有較大的場景多樣性,但對原始分布的表征性能較差。GATSS類似于逆變換采樣,本質(zhì)上是根據(jù)概率進(jìn)行等間隔采樣,因此其場景多樣性與MC相近。TSEE提取結(jié)果方差與LHS提取結(jié)果相近,且相比于MC和GATSS,對場景的覆蓋能力更強(qiáng)。結(jié)果表明,在保證對原始場景分布逼近效果的基礎(chǔ)上,TSEE根據(jù)信息熵來分配采樣點(diǎn),能夠在概率密度變化較大的區(qū)域增加采樣頻率,保證了提取結(jié)果的多樣性。

        3.2 應(yīng)用RPNAC進(jìn)行輸電網(wǎng)規(guī)劃

        為了驗(yàn)證提出的RPNAC方法對于解決輸電網(wǎng)網(wǎng)架規(guī)劃問題的實(shí)用性,本文選用IEEE Garver-6系統(tǒng)進(jìn)行計(jì)算分析驗(yàn)證。

        風(fēng)電場中切入風(fēng)速、切出風(fēng)速、額定風(fēng)速分別為4.0、20.0、11.1 m/s。圖3為IEEE Garver-6系統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)。圖3中,實(shí)線代表已有的輸電線路,虛線代表備選線路。系統(tǒng)包含11臺(tái)發(fā)電機(jī)、5個(gè)負(fù)荷、6條輸電線路。計(jì)算標(biāo)幺值時(shí),功率基準(zhǔn)為100 MW,線路長度造價(jià)為50萬元/km。

        圖3 IEEE Garver-6系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Network structure of the Garver-6 system

        為了驗(yàn)證RPNAC在不同場景下都具有良好的求解能力和靈活性,結(jié)合3.1節(jié)中提取出的場景,分別采用RPNAC和PSO對3個(gè)典型場景的輸電網(wǎng)規(guī)劃問題進(jìn)行求解,結(jié)果如表3所示。

        表3 典型場景規(guī)劃結(jié)果對比Table 3 Comparison of planning results of typical scenarios

        通過對比兩種方法對不同典型場景下的輸電系統(tǒng)規(guī)劃的結(jié)果可以看出,在絕大多數(shù)場景下,本文提出的RPNAC方法都具較為優(yōu)秀的求解能力。

        使用算法進(jìn)行求解前,需要對模型進(jìn)行訓(xùn)練。在訓(xùn)練數(shù)據(jù)集上進(jìn)行大量訓(xùn)練,便可以利用事先學(xué)習(xí)的成果進(jìn)行下一步求解,避免從零開始。模型訓(xùn)練階段,抽取10個(gè)與測試集不同的規(guī)劃問題作為訓(xùn)練集進(jìn)行訓(xùn)練,以增強(qiáng)模型的泛化性能。訓(xùn)練的每一步迭代需從10個(gè)問題中隨機(jī)選取一個(gè)問題進(jìn)行訓(xùn)練,以保證訓(xùn)練樣本的獨(dú)立同分布假設(shè),防止樣本之間的關(guān)聯(lián)性影響模型的效果。

        通過與PSO的求解結(jié)果進(jìn)行對比,可以驗(yàn)證RPNAC在參數(shù)變化情況下對輸電網(wǎng)規(guī)劃問題的求解能力。通過抽樣方法可得到基于原問題的測試集。對原問題所有節(jié)點(diǎn)橫、縱坐標(biāo)分別增加一個(gè)擾動(dòng)ξ,ξ符合[-0.1,0.1]的均勻分布,保持容量等其他條件不變,通過對ξ進(jìn)行抽樣,以此得到10個(gè)參數(shù)不同的規(guī)劃問題,它們組成測試集。接著采用本文提出的RPNAC和PSO對測試集中的10個(gè)問題進(jìn)行求解,以便對二者進(jìn)行比較。二者在測試集上的表現(xiàn)如表4所示。

        表4 PSO與RPNAC測試集規(guī)劃結(jié)果Table 4 Comparison of PSO and RPNAC based on test set

        對于IEEE Garver-6系統(tǒng),大部分情況下,PSO與RPNAC得分均為1.0。因此,測試集結(jié)果說明,對于IEEE Garver-6系統(tǒng)規(guī)劃問題,在大部分情況下,PSO與RPNAC均可求得最優(yōu)解。

        根據(jù)表4可知,10次試驗(yàn)中,僅有第2次試驗(yàn)時(shí),采用PSO與RPNAC進(jìn)行規(guī)劃的結(jié)果不同。首先對除第2次試驗(yàn)之外的其他試驗(yàn)進(jìn)行簡要說明。規(guī)劃結(jié)果表明,雖然第4—10次試驗(yàn)中PSO與RPNAC求解結(jié)果相同,但所得結(jié)果的綜合評價(jià)均低于第1—3次試驗(yàn),不具有現(xiàn)實(shí)意義和實(shí)用價(jià)值,因此不再贅述。接著下面對對試驗(yàn)2中RPNAC不能求得最優(yōu)解的情況進(jìn)行分析。

        圖4為表4中的輸電網(wǎng)規(guī)劃問題的部分規(guī)劃結(jié)果。試驗(yàn)2中,PSO得分高于RPNAC,故同時(shí)畫出了RPNAC與PSO的規(guī)劃結(jié)果,如圖4中(b)、(c)所示。而其他試驗(yàn)中,RPNAC與PSO規(guī)劃結(jié)果相同且同為最優(yōu),故無需重復(fù)畫出,如圖4中(a)、(d)所示。

        圖4 測試集問題規(guī)劃結(jié)果Fig.4 Some of the results of the planning problems

        表5為RPNAC和PSO對Garver-6系統(tǒng)規(guī)劃結(jié)果對比。試驗(yàn)2中,采用PSO與RPNAC進(jìn)行規(guī)劃的結(jié)果不同,故分別展示了RPNAC與PSO的規(guī)劃結(jié)果。其他試驗(yàn)中,RPNAC與PSO規(guī)劃結(jié)果相同,未重復(fù)展示。表6為試驗(yàn)2結(jié)果評價(jià)指標(biāo)數(shù)據(jù)。

        表5 RPNAC和PSO對Garver-6系統(tǒng)規(guī)劃結(jié)果對比Table 5 Comparison of planning results of Garver-6 system between RPNAC and PSO

        表6 試驗(yàn)2結(jié)果評價(jià)指標(biāo)數(shù)據(jù)Table 6 Data of evaluation indices of experiment 2

        如圖4中(a)、(d)所示,對于一般情況,RPNAC可以輸出正確的最優(yōu)規(guī)劃結(jié)果,即當(dāng)節(jié)點(diǎn)位置變動(dòng)情況較小時(shí),RPNAC可以準(zhǔn)確得到全局最優(yōu)解。

        如表5所示,試驗(yàn)2中,由RPNAC產(chǎn)生的規(guī)劃結(jié)果比由PSO產(chǎn)生的規(guī)劃結(jié)果在節(jié)點(diǎn)2-6增加了一條線路,可在圖4中(b)、(c)更直觀看到,此方案安全性最好,但線路投資相對較多,欠缺經(jīng)濟(jì)性,故該方案不予采用。此時(shí)通過PSO得出的規(guī)劃結(jié)果明顯優(yōu)于RPNAC。但這種情況并沒有出現(xiàn)在訓(xùn)練集中,RPNAC網(wǎng)絡(luò)并沒有針對該情況得到訓(xùn)練。由此可知,當(dāng)測試集中出現(xiàn)與訓(xùn)練集差距較大的特殊情況時(shí),RPNAC就無法輸出最優(yōu)的規(guī)劃結(jié)果。這類問題可以通過增加訓(xùn)練時(shí)長和增加訓(xùn)練集規(guī)模來解決。

        根據(jù)表6可知,在靈活性方面,試驗(yàn)2中,相比PSO得出的規(guī)劃結(jié)果,RPNAC得出的結(jié)果具有較好的可擴(kuò)展性。當(dāng)規(guī)劃條件發(fā)生不可預(yù)見變化時(shí),該系統(tǒng)能更快進(jìn)行調(diào)整,并且更好應(yīng)對供需兩側(cè)響應(yīng)系統(tǒng)的不確定性變化,因此相比傳統(tǒng)的PSO,RPNAC提高了規(guī)劃模型的靈活性。

        在計(jì)算速度方面,RPNAC顯著優(yōu)于PSO。這是由于RPNAC在訓(xùn)練完成后,對于任意一個(gè)問題,輸出預(yù)測結(jié)果只需要根據(jù)訓(xùn)練好的網(wǎng)絡(luò)進(jìn)行幾次前向傳播計(jì)算并搜索最優(yōu)值即可得到結(jié)果,往往只需要不到1 s的時(shí)間。而當(dāng)邊界條件發(fā)生變化時(shí),PSO需要重新進(jìn)行計(jì)算,無法利用歷史計(jì)算結(jié)果。

        因此,對于規(guī)劃精度要求不高、對計(jì)算速度要求較高的問題,可以利用RPNAC進(jìn)行計(jì)算。對于規(guī)劃精度要求較高的問題,可以利用增加訓(xùn)練時(shí)長及訓(xùn)練集規(guī)模的方法提升RPNAC的規(guī)劃精度。

        4 結(jié) 論

        首先提出基于信息熵的典型場景提取方法,結(jié)合風(fēng)電、光伏、負(fù)荷這3個(gè)不確定性因素的數(shù)學(xué)模擬結(jié)果,引入場景信息熵的概念進(jìn)行典型場景提取。再將提取到的多場景輸入規(guī)劃模型,最后得到基于多場景的輸電網(wǎng)靈活規(guī)劃模型。

        接著采用深度強(qiáng)化學(xué)習(xí)的方法,在原始指針網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行改進(jìn),提出一種適用于輸電網(wǎng)規(guī)劃的改進(jìn)指針網(wǎng)絡(luò)模型,并采用深度強(qiáng)化學(xué)習(xí)中的Actor-Critic方法對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,然后應(yīng)用RPNAC對輸電網(wǎng)規(guī)劃問題進(jìn)行求解。

        本文選用IEEE Garver-6系統(tǒng)進(jìn)行分析驗(yàn)證。算例證明,本文的場景提取方法可以在保證場景表征效果的基礎(chǔ)上增加場景的多樣性,從而增加規(guī)劃方案對場景的適應(yīng)性。在此基礎(chǔ)上的規(guī)劃模型可以用RPNAC進(jìn)行求解,該方法能夠在保證相當(dāng)程度求解精度的基礎(chǔ)上,相比傳統(tǒng)方法極大地提升了運(yùn)算效率,提高了規(guī)劃模型的靈活性、適應(yīng)性。

        猜你喜歡
        輸電網(wǎng)信息熵典型
        用最典型的事寫最有特點(diǎn)的人
        基于信息熵可信度的測試點(diǎn)選擇方法研究
        多項(xiàng)式求值題的典型解法
        典型胰島素瘤1例報(bào)道
        基于信息熵的實(shí)驗(yàn)教學(xué)量化研究
        電子測試(2017年12期)2017-12-18 06:35:48
        一種基于信息熵的雷達(dá)動(dòng)態(tài)自適應(yīng)選擇跟蹤方法
        計(jì)及多重不確定因素的輸電網(wǎng)隨機(jī)潮流計(jì)算
        含光伏電站的輸電網(wǎng)不對稱故障分析方法
        電測與儀表(2016年4期)2016-04-11 09:44:34
        基于信息熵的IITFN多屬性決策方法
        基于差分和聲搜索算法的輸電網(wǎng)差異化規(guī)劃
        无码欧亚熟妇人妻AV在线外遇| 亚洲国产av一区二区三区精品 | 欧美老肥妇做爰bbww| 亚洲av永久无码国产精品久久| 无码成人片一区二区三区| 亚洲素人日韩av中文字幕| 国产成人亚洲一区二区| 色天使综合婷婷国产日韩av | 真实国产乱子伦精品视频| 亚洲国产综合精品 在线 一区| 偷拍网日本一区二区三区| 在线观看高清视频一区二区三区| 免费a级毛片18禁网站| 日本亚洲色大成网站www久久| 超碰日韩AV在线| 视频一区中文字幕在线观看| 欧美亅性猛交内射| 国产精品白丝喷水在线观看| 亚洲av日韩片在线观看| 国产免费人成视频在线观看播放播| 丰满熟妇人妻av无码区| 日产精品久久久久久久蜜臀| 无码专区无码专区视频网址| 中文字幕一区二三区麻豆| 亚洲乱码日产精品一二三| 91av小视频| 国产熟女乱综合一区二区三区 | 免费人成激情视频在线观看冫| 亚洲最新偷拍网站| 女女同性av一区二区三区免费看| 久久一本日韩精品中文字幕屁孩| 粗壮挺进人妻水蜜桃成熟漫画| 亚洲黄色尤物视频| 国产黄片一区二区三区| 国产精品videossex国产高清| 久久精品夜夜夜夜夜久久| 成人午夜视频在线观看高清| 日本人妻伦理在线播放| 久久综合九色综合欧美狠狠| 免费一级黄色大片久久久| 亚洲精品在线一区二区|