亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于強(qiáng)化學(xué)習(xí)的無線傳能網(wǎng)絡(luò)節(jié)點(diǎn)控制算法

        2021-12-14 01:28:40吳振宇李云雷
        關(guān)鍵詞:電能策略

        吳振宇 吳 凡 李云雷

        (大連理工大學(xué)創(chuàng)新創(chuàng)業(yè)學(xué)院 遼寧 大連 116024)

        0 引 言

        現(xiàn)代社會(huì)的發(fā)展離不開電能,而無線傳能技術(shù)因其可以擺脫有線充電的特性受到廣泛的關(guān)注。無線傳能[1-3]可以用于軌道電車的實(shí)時(shí)供電、無線充電以及醫(yī)療器械、特種設(shè)備、無線傳感網(wǎng)、微波飛機(jī)和空間電力輸送等方面。

        擴(kuò)大無線傳能的供電范圍和供電功率一直是業(yè)內(nèi)研究的重點(diǎn)。相比遠(yuǎn)距離廣播式的直接供電,采用多個(gè)中繼節(jié)點(diǎn)進(jìn)行“多跳傳輸”更能夠有效提高供電范圍并保證供電功率。文獻(xiàn)[4]根據(jù)上述思路提出了一種無線電能傳輸網(wǎng)絡(luò)架構(gòu)(Wireless Power Transfer Grid, WPTG)。WPTG是在空間上任意分布的無線節(jié)點(diǎn)通過無線傳能這一供電方式形成的虛擬的電能傳輸網(wǎng)絡(luò),可以實(shí)時(shí)根據(jù)環(huán)境調(diào)整電能傳輸鏈路和節(jié)點(diǎn)自身功能角色以保證電能供給。網(wǎng)絡(luò)主要由網(wǎng)絡(luò)電能來源的電源節(jié)點(diǎn)、負(fù)責(zé)中繼傳輸電能的中繼節(jié)點(diǎn)以及使用電能的負(fù)載節(jié)點(diǎn)組成。

        文獻(xiàn)[6]在WPTG的基礎(chǔ)上提出了一種新型的網(wǎng)內(nèi)無中心、節(jié)點(diǎn)平等的無線電能傳輸網(wǎng)結(jié)構(gòu)。所有節(jié)點(diǎn)均具有雙向無線電能傳輸功能,既可接收電能也可以傳輸電能。文獻(xiàn)[7]在上述基礎(chǔ)上提出了一種新型自組網(wǎng)方法及系統(tǒng)。上述文獻(xiàn)的主要研究對(duì)象都是供電鏈路的動(dòng)態(tài)優(yōu)化,對(duì)單個(gè)節(jié)點(diǎn)的供電策略并未有較深的研究。

        本文針對(duì)無線電網(wǎng)各個(gè)節(jié)點(diǎn)的協(xié)同控制問題,設(shè)計(jì)了一種基于策略梯度的強(qiáng)化學(xué)習(xí)算法,該方法使用多層神經(jīng)網(wǎng)絡(luò)作為控制器,根據(jù)每個(gè)周期的供電控制狀態(tài)的反饋設(shè)計(jì)了一套獎(jiǎng)勵(lì)機(jī)制用來評(píng)估控制策略的優(yōu)劣,最后以最大化累計(jì)獎(jiǎng)勵(lì)為目標(biāo)優(yōu)化網(wǎng)絡(luò)參數(shù),從而達(dá)到一個(gè)較優(yōu)的控制策略。

        1 無線傳能網(wǎng)絡(luò)模型構(gòu)建

        1.1 無線傳能網(wǎng)絡(luò)

        無線傳能網(wǎng)絡(luò)是基于無線供電方式的網(wǎng)絡(luò)模型。一般根據(jù)其功能劃分為電源節(jié)點(diǎn)、中繼節(jié)點(diǎn)、負(fù)載節(jié)點(diǎn)。

        無線傳能系統(tǒng)整體采用網(wǎng)狀架構(gòu)[6],供電中心為電源節(jié)點(diǎn),通過一些中間節(jié)點(diǎn)將電能輸送到負(fù)載節(jié)點(diǎn)。由于無線傳能網(wǎng)絡(luò)的移動(dòng)供電機(jī)制,供電受距離等因素影響較大。因此,所有節(jié)點(diǎn)都自帶一個(gè)電能儲(chǔ)存裝置,用于緩解突發(fā)的供電不足。

        無線傳能網(wǎng)路系統(tǒng)算法主要分為兩個(gè)部分:

        (1) 無線傳能網(wǎng)絡(luò)節(jié)點(diǎn)之間電能傳輸鏈路的動(dòng)態(tài)優(yōu)化。

        (2) 無線傳能單個(gè)節(jié)點(diǎn)的控制算法。

        無線傳能網(wǎng)絡(luò)電能傳輸鏈路的動(dòng)態(tài)優(yōu)化一般使用有向圖構(gòu)建網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),通過節(jié)點(diǎn)之間的電能傳輸效率、負(fù)荷均衡等指標(biāo)構(gòu)建優(yōu)化節(jié)點(diǎn)之間邊的目標(biāo)函數(shù),最后使用最短路徑相關(guān)算法找到電源節(jié)點(diǎn)到所有負(fù)載節(jié)點(diǎn)的代價(jià)最小的最短路徑[6-7]。本文使用了一套改進(jìn)的Dijkstra算法尋找最短路徑,由于這不是本文研究的主要目標(biāo),所以不做贅述。

        無線傳能節(jié)點(diǎn)的控制算法大多基于供電節(jié)點(diǎn)建模,然后使用后端優(yōu)化算法進(jìn)行控制求解[8-9],這樣能夠精準(zhǔn)地控制節(jié)點(diǎn)達(dá)到目標(biāo)狀態(tài)。但對(duì)控制目標(biāo)的設(shè)置缺乏深層次的思考,也無法針對(duì)各種情況進(jìn)行在線優(yōu)化。

        1.2 單個(gè)節(jié)點(diǎn)的供電模型

        單個(gè)無線傳能節(jié)點(diǎn)組成如圖1所示。其中,傳感單元包括:傳感器和數(shù)模轉(zhuǎn)換模塊負(fù)責(zé)收集外部地理位置信息以及自身各項(xiàng)電能指標(biāo);無線通信單元負(fù)責(zé)與其他節(jié)點(diǎn)進(jìn)行通信,交換控制信息與傳感器信息;處理單元負(fù)責(zé)對(duì)節(jié)點(diǎn)進(jìn)行合適的供電控制以及存儲(chǔ)節(jié)點(diǎn)運(yùn)行時(shí)的數(shù)據(jù);能量的發(fā)射接收由無線電能發(fā)射/接收單元完成,其中內(nèi)置能量?jī)?chǔ)存單元可以存儲(chǔ)一定電量,保證外部供電受到限制時(shí)也可維持運(yùn)行。

        圖1 無線傳能節(jié)點(diǎn)組成

        本文將文獻(xiàn)[6]中的3種節(jié)點(diǎn)用統(tǒng)一的模型描述電能的流通。如果將供電節(jié)點(diǎn)視為高能量輸入(來自發(fā)電站等設(shè)備)的中繼節(jié)點(diǎn),則所有類型節(jié)點(diǎn)的電能流通都可以使用圖2所示節(jié)點(diǎn)模型表示。

        圖2 單節(jié)點(diǎn)電能流動(dòng)示意圖

        每個(gè)節(jié)點(diǎn)有唯一的一個(gè)功率輸入Pin,m個(gè)功率輸出Pout=Pout,1+Pout,2+…+Pout,m,節(jié)點(diǎn)的自身能耗為Ps,自身能源儲(chǔ)量E,功率輸入與輸出存在上限,滿足下式的條件:

        Pin

        (1)

        Pout

        輸入功率Pin被分成3個(gè)部分:直接送到輸出的Ptin、輸送到電池的Pein和自身能耗Ps。其計(jì)算式表示為:

        Pin=Ptin+Pein+Ps

        (2)

        輸出功率Pout由直接輸出的Ptout和電池輸出的Peout組成,Ptin=Ptout。對(duì)于節(jié)點(diǎn)自身的能源儲(chǔ)量E,考慮到充電效率ηin與放電效率ηout,E的一階導(dǎo)數(shù)為:

        (3)

        單個(gè)節(jié)點(diǎn)控制目標(biāo)就是滿足下一級(jí)節(jié)點(diǎn)的供電需求,即使得實(shí)際的功率輸出Pout等于下一級(jí)節(jié)點(diǎn)所需求的Pout need,一般情況下只需令Pout=Pout need即可達(dá)到所需目標(biāo)。但考慮某時(shí)局部用電激增或節(jié)點(diǎn)距離供電節(jié)點(diǎn)較遠(yuǎn),上層節(jié)點(diǎn)無法提供所需求的Pin,所以需要使用額外的自身能源進(jìn)行供電。當(dāng)自身電量E用完的時(shí)候,功率輸出Pout就無法滿足供電需求,造成局部供電不足,所以需要在其他時(shí)刻給自身能源充電。

        節(jié)點(diǎn)自身能源不允許同時(shí)充電和放電,當(dāng)Pein>0時(shí),節(jié)點(diǎn)處于充電狀態(tài),此時(shí)Peout=0,當(dāng)Peout>0時(shí),該節(jié)點(diǎn)處于放電狀態(tài),此時(shí)Pein。

        2 無線網(wǎng)絡(luò)節(jié)點(diǎn)供電控制算法

        2.1 策略梯度

        傳統(tǒng)算法如PID在解決單點(diǎn)控制模型中有著非常穩(wěn)定良好的表現(xiàn),能夠控制單點(diǎn)的電量穩(wěn)定在目標(biāo)值附近。但目標(biāo)值的選取存在一定的問題,目標(biāo)值選取過大會(huì)使得節(jié)點(diǎn)一直趨于較大電能的狀態(tài),從而造成一定的能源浪費(fèi);目標(biāo)值選取過小則失去了該節(jié)點(diǎn)儲(chǔ)能功能的意義,應(yīng)對(duì)風(fēng)險(xiǎn)的魯棒性較差。

        在此問題背景下,本文提出了一種算法能夠針對(duì)不同節(jié)點(diǎn)的特性,動(dòng)態(tài)地學(xué)習(xí)節(jié)點(diǎn)的控制參數(shù)。強(qiáng)化學(xué)習(xí)的方法是解決這種問題的一種思路。作為機(jī)器學(xué)習(xí)的一個(gè)重要理論分支,強(qiáng)化學(xué)習(xí)(Reinforcement learning , RL)[8-9]是一種學(xué)習(xí)不同狀態(tài)下的最優(yōu)決策動(dòng)作技術(shù),以最大化智能體的長(zhǎng)期獎(jiǎng)勵(lì)累計(jì)值。智能體是自發(fā)選擇可能產(chǎn)生較大獎(jiǎng)勵(lì)值的動(dòng)作,而不是被告知采取哪個(gè)動(dòng)作最好,這也是強(qiáng)化學(xué)習(xí)的自我探索優(yōu)勢(shì)。

        本文根據(jù)上述模型設(shè)計(jì)了一種基于策略梯度(policy gradient)[10-12]的節(jié)點(diǎn)控制算法,該方法用一個(gè)值函數(shù)表示該策略長(zhǎng)期回報(bào)的期望,通過求出值函數(shù)關(guān)于策略參數(shù)的梯度,并使得參數(shù)沿著梯度上升的方向更新,最大化值函數(shù),從而使得策略回報(bào)得到提升。該方法相對(duì)其他強(qiáng)化學(xué)習(xí)算法,具有更好的收斂屬性,適用于高維度和連續(xù)的狀態(tài)空間。

        2.2 基本交互流程

        強(qiáng)化學(xué)習(xí)系統(tǒng)基本交互如圖3所示。

        圖3 強(qiáng)化學(xué)習(xí)的基本交互

        (1) 控制器根據(jù)策略函數(shù)輸出動(dòng)作(供電輸入input)到節(jié)點(diǎn)設(shè)備。

        (2) 節(jié)點(diǎn)設(shè)備按照控制器給定的供電輸入與實(shí)時(shí)的供電輸出需求更新自身狀態(tài),并給出該狀態(tài)的獎(jiǎng)勵(lì)。

        (3) 策略函數(shù)根據(jù)上一時(shí)刻的獎(jiǎng)勵(lì)提升策略參數(shù)。

        2.3 狀態(tài)空間與動(dòng)作空間

        本文用系統(tǒng)t時(shí)刻的自身能源儲(chǔ)量Et、自身能耗Ps,t、節(jié)點(diǎn)的輸出Pout,t和節(jié)點(diǎn)當(dāng)前的輸入Pin,t等特征來表示t時(shí)刻的系統(tǒng)狀態(tài)st;為了減少網(wǎng)絡(luò)波動(dòng)帶來的影響,并且使輸出連續(xù),將動(dòng)作空間ai,t設(shè)置為{-1,0,1},分別表示將節(jié)點(diǎn)的輸入Pin增加一個(gè)步長(zhǎng)Δh、保持不變、減小一個(gè)步長(zhǎng)Δh。

        st=[Et,Ps,t,Pout,t,Pin,t]

        (4)

        ai,t={-1,0,1}

        (5)

        應(yīng)用強(qiáng)化學(xué)習(xí)算法的目的就是確定一個(gè)在狀態(tài)st下選擇動(dòng)作ai,t的概率的策略函數(shù)πθ(ai,t|st)。

        2.4 策略函數(shù)

        本文使用一個(gè)MLP(多層感知器)來擬合策略函數(shù)πθ(ai,t|st)。為了加快收斂速度,該多層感知器只使用兩層全連接隱藏層。每層16個(gè)神經(jīng)元,激活函數(shù)使用ReLU。最后輸出到表示3種動(dòng)作選擇概率的三個(gè)神經(jīng)元上。該網(wǎng)絡(luò)模型如圖4所示。

        圖4 MLP結(jié)構(gòu)

        實(shí)際運(yùn)行時(shí),使用網(wǎng)絡(luò)輸出概率最高的動(dòng)作作為實(shí)際輸出:

        at+1=argmaxaπθ(ai,t|st)

        (6)

        2.5 環(huán)境更新

        環(huán)境更新e(st,at)用來計(jì)算節(jié)點(diǎn)在狀態(tài)st下選擇動(dòng)作at的下一時(shí)刻狀態(tài)。這個(gè)更新計(jì)算基于1.2節(jié)所述簡(jiǎn)化后的節(jié)點(diǎn)供電模型,表示為:

        st+1=e(st,at)

        (7)

        2.6 獎(jiǎng)勵(lì)設(shè)置

        獎(jiǎng)勵(lì)(reward)設(shè)計(jì)是強(qiáng)化學(xué)習(xí)算法的核心,定義了算法的學(xué)習(xí)目標(biāo)。通過設(shè)計(jì)一個(gè)獎(jiǎng)勵(lì)機(jī)制r(st,ai,t)來提升策略的表現(xiàn)。r(st,ai,t)表示節(jié)點(diǎn)在狀態(tài)st下選擇動(dòng)作ai,t的單步獎(jiǎng)勵(lì)。

        當(dāng)該節(jié)點(diǎn)自身能源儲(chǔ)量為零,并且輸入功率Pin因?yàn)槭芟逕o法滿足輸出功率的需求時(shí),就會(huì)產(chǎn)生電能的虧空Pt;當(dāng)該節(jié)點(diǎn)能源儲(chǔ)量為滿,并且輸入功率Pin滿足輸出功率的需求還有額外剩余時(shí),就會(huì)產(chǎn)生電能的飽和Pm。本文算法希望盡量減少電能虧空和電能飽和的出現(xiàn),所以將它們?cè)O(shè)置為負(fù)的獎(jiǎng)勵(lì)。常規(guī)情況下,本算法希望盡量減少自身能源的儲(chǔ)量,將閑置電能用在其他該用的地方,所以使用遞減的log函數(shù)去擬合。其計(jì)算式表示為:

        (8)

        式中:κ、λ、μ為可調(diào)系數(shù),并且1<λ<κ,0<μ<1。

        2.7 策略提升

        策略提升的目的是為了最大化累計(jì)獎(jiǎng)勵(lì)J(θ),將J(θ)作為目標(biāo)函數(shù),如下式所示:

        (9)

        將目標(biāo)函數(shù)J(θ)使用蒙特卡洛近似的方法進(jìn)行替換,再對(duì)MLP的各層參數(shù)求梯度,可得:

        (10)

        式中:τ為可能存在的策略函數(shù)與環(huán)境的交互軌跡;θ為MLP神經(jīng)元之間的參數(shù);N為動(dòng)作空間的維度;T為使用策略與環(huán)境進(jìn)行交互的軌跡長(zhǎng)度。

        然后使用上述梯度更新網(wǎng)絡(luò)參數(shù)θ,使策略得到提升,其更新計(jì)算式為:

        θ=θ+▽?duì)菾(θ)

        (11)

        2.8 算法流程

        該算法中,控制器不斷地與環(huán)境(節(jié)點(diǎn))交互,根據(jù)交互結(jié)果的獎(jiǎng)勵(lì)更新神經(jīng)網(wǎng)絡(luò)(MLP)的參數(shù),MLP又作為控制器輸出控制結(jié)果。最終通過不斷學(xué)習(xí),從而最大化交互獎(jiǎng)勵(lì),找到較優(yōu)的控制策略。該算法流程如算法1所示。

        算法1策略梯度節(jié)點(diǎn)控制算法

        初始化所有模塊

        隨機(jī)初始化神經(jīng)網(wǎng)絡(luò)參數(shù)θ

        更新各節(jié)點(diǎn)狀態(tài)s

        while True: #程序運(yùn)行主循環(huán)

        #定期更新網(wǎng)絡(luò)參數(shù)

        for step in range(period)

        策略函數(shù)πθ根據(jù)當(dāng)前狀態(tài)s輸出動(dòng)作a

        節(jié)點(diǎn)執(zhí)行動(dòng)作a更新自身狀態(tài)s

        獎(jiǎng)勵(lì)機(jī)制根據(jù)更新后狀態(tài)s計(jì)算獎(jiǎng)勵(lì)r

        存儲(chǔ)執(zhí)行的中間結(jié)果s、a、r到S、A、R

        end

        根據(jù)S、A、R計(jì)算策略提升的梯度▽?duì)菾

        更新神經(jīng)網(wǎng)絡(luò)參數(shù)θ

        end

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 實(shí)驗(yàn)環(huán)境

        本實(shí)驗(yàn)的所有程序都是在Python3.6上運(yùn)行,算法的運(yùn)行環(huán)境為Intel(R) Core(TM) i5-6500, CPU@3.2 GHz,16 GB內(nèi)存,Microsoft Windows 10操作系統(tǒng)。

        3.2 仿真測(cè)試

        本文用電數(shù)據(jù)使用2010年南京市居民夏季用電負(fù)荷作為單個(gè)節(jié)點(diǎn)的輸出需求(output_need)。該數(shù)據(jù)可以按天近似視為周期性變化,在每天的12時(shí)至20時(shí)出現(xiàn)用電高峰,峰值為0.4萬千瓦。仿真實(shí)驗(yàn)將繪制各指標(biāo)的變化曲線,并統(tǒng)計(jì)50個(gè)周期的相關(guān)數(shù)據(jù)進(jìn)行對(duì)照。實(shí)驗(yàn)將本文算法與一般PID算法效果做對(duì)比。PID算法計(jì)算方式如下:

        (12)

        err(k)=E(k)-α

        (13)

        Pin=u(k)+Pout

        (14)

        式中:err為控制誤差;E(k)為當(dāng)前能源儲(chǔ)量百分比;α為目標(biāo)能源儲(chǔ)量百分比,設(shè)置為50%;u(k)為控制量,計(jì)算節(jié)點(diǎn)輸入Pin時(shí)需要加上節(jié)點(diǎn)輸出Pout;Kp與Ki、Kd為可調(diào)系數(shù),分別為10.0、3.0、0.01。

        (1) 正常運(yùn)行狀態(tài)對(duì)比測(cè)試。為了測(cè)試該算法在一般情況下的表現(xiàn),本文設(shè)置參數(shù)如下:節(jié)點(diǎn)最大能源儲(chǔ)量為5萬千瓦時(shí),最大輸出1萬千瓦,初始能源儲(chǔ)量為65%,初始輸入輸出均為0.2萬千瓦。將節(jié)點(diǎn)最大輸入功率設(shè)置在0.5萬千瓦,大于節(jié)點(diǎn)的功率輸出需求(output_need)峰值0.4萬千瓦,節(jié)點(diǎn)在任何時(shí)候都能夠得到充足供電。測(cè)試結(jié)果如圖5、圖6和表1所示。

        圖5 策略梯度算法測(cè)試(max input=0.5萬千瓦)

        圖6 PID算法測(cè)試(max input=0.5萬千瓦)

        表1 正常運(yùn)行狀態(tài)結(jié)果統(tǒng)計(jì)表

        如圖5所示,節(jié)點(diǎn)實(shí)際供電輸出(output)與節(jié)點(diǎn)輸出需求(output_need)一直處于重合狀態(tài),說明節(jié)點(diǎn)一直可以滿足下一級(jí)的用電需求,正常運(yùn)行。如表1所示,上述正常供電時(shí)間占比為100%,沒有產(chǎn)生供電缺失。閑置電能占比指的是儲(chǔ)存在節(jié)點(diǎn)自身,沒有參與電能流通的電能占節(jié)點(diǎn)總能源儲(chǔ)量的百分比。本文算法經(jīng)過學(xué)習(xí)后得到的策略迅速降低節(jié)點(diǎn)的能源儲(chǔ)量(energy)到一個(gè)較低的百分比(4%),符合本文獎(jiǎng)勵(lì)機(jī)制中的第三種情況:正常運(yùn)行時(shí),降低閑置的電能,使整體能源分布更為合理。

        如圖6所示,節(jié)點(diǎn)實(shí)際供電輸出(output)與節(jié)點(diǎn)輸出需求(output_need)也一直處于重合狀態(tài),節(jié)點(diǎn)正常運(yùn)行,節(jié)點(diǎn)也能夠?qū)⒆陨砟茉磧?chǔ)量維持在50%附近。但基于PID的傳統(tǒng)算法只是將節(jié)點(diǎn)電量維持在目標(biāo)值附近,傳統(tǒng)算法不能夠預(yù)測(cè)該節(jié)點(diǎn)的輸出需求特征,仍然需要節(jié)點(diǎn)保持50%的能源儲(chǔ)量才能夠正常運(yùn)行。本文算法在該情形下可以降低91.76%的閑置電能,并能夠正常運(yùn)行。

        當(dāng)然,如果在這個(gè)實(shí)驗(yàn)中,傳統(tǒng)算法PID將自身電量的目標(biāo)值改為5%,也能夠在較小的最大能源儲(chǔ)量下正常工作。但傳統(tǒng)算法并不能夠?qū)崟r(shí)地學(xué)習(xí)到輸出需求(output_need)的特征,從而改變自己的目標(biāo)值。而這個(gè)基于輸出需求的目標(biāo)值,正是本文算法所能夠?qū)W習(xí)到的特征。

        (2) 輸入功率受限狀態(tài)對(duì)比測(cè)試。為了測(cè)試該算法在功率受限情況下的表現(xiàn),將節(jié)點(diǎn)最大輸入功率設(shè)置在0.3萬千瓦,小于節(jié)點(diǎn)的功率輸出需求(output_need)峰值0.4萬千瓦。其他參數(shù)同上保持不變,測(cè)試結(jié)果如圖7、圖8與表2所示。

        圖7 策略梯度算法測(cè)試(max input=0.3萬千瓦)

        圖8 PID算法測(cè)試(max input=0.3萬千瓦)

        表2 功率受限狀態(tài)結(jié)果統(tǒng)計(jì)表

        如圖7所示,策略梯度控制的節(jié)點(diǎn)實(shí)際供電輸出(output)與節(jié)點(diǎn)輸出需求(output_need)一直處于重合狀態(tài),說明節(jié)點(diǎn)一直可以滿足下一級(jí)的用電需求,正常運(yùn)行。而在每天20時(shí)用電高峰來臨時(shí),如圖8中黑框所示,節(jié)點(diǎn)輸入功率受限,PID算法控制的節(jié)點(diǎn)實(shí)際輸出(output)小于節(jié)點(diǎn)輸出需求(output_need) ,產(chǎn)生了供電不足,供電缺失時(shí)間占比6.77%,累計(jì)供電缺失達(dá)25.66萬千瓦。如表2所示,本文算法相比PID控制算法減少了99.4%的供電缺失時(shí)間以及99.9%的供電缺失量,能夠保證節(jié)點(diǎn)的正常運(yùn)行,僅提高了4%的閑置電能。

        上述仿真結(jié)果綜合表明,以PID為代表的傳統(tǒng)控制算法,由于缺乏歷史數(shù)據(jù)的積累,無法對(duì)節(jié)點(diǎn)的輸入需求進(jìn)行預(yù)測(cè)。只能將節(jié)點(diǎn)的輸入需求這一不可控因素當(dāng)成了隨機(jī)的外部擾動(dòng),從而缺乏一些相對(duì)應(yīng)的控制策略,具體控制效果出現(xiàn)了一定的滯后性。其未能預(yù)測(cè)到20時(shí)用電高峰的來臨而提高節(jié)點(diǎn)供電輸入(input),增加自身能源儲(chǔ)量。當(dāng)用電高峰出現(xiàn)時(shí),節(jié)點(diǎn)輸入功率受限,當(dāng)前節(jié)點(diǎn)的能源儲(chǔ)量不足,導(dǎo)致供電不足。

        而本文算法能夠?qū)W習(xí)一些不規(guī)則的周期性供電需求的特征,能夠根據(jù)實(shí)際情況和控制目標(biāo)自動(dòng)尋找到較優(yōu)的策略。如圖7中黑框所示,本文算法預(yù)測(cè)到用電高峰的來臨,提高節(jié)點(diǎn)用電輸入(input),提前進(jìn)行蓄電,從而避免了用電高峰的供電缺失,即使一次用電高峰需要用到節(jié)點(diǎn)最大能源儲(chǔ)量的80%電量,節(jié)點(diǎn)依然能夠正常運(yùn)行。

        4 結(jié) 語

        為了解決無線傳能網(wǎng)絡(luò)中的節(jié)點(diǎn)控制問題,本文提出了一種基于策略梯度的節(jié)點(diǎn)控制算法。該算法主要基于強(qiáng)化學(xué)習(xí)與數(shù)據(jù)驅(qū)動(dòng),與傳統(tǒng)算法截然不同。該算法只要設(shè)計(jì)好節(jié)點(diǎn)狀態(tài)更新的獎(jiǎng)勵(lì)就可以基于交互數(shù)據(jù)生成合適的控制策略。仿真實(shí)驗(yàn)表明,該算法尤其適合周期性變化的供電需求下的節(jié)點(diǎn)控制,并且能夠針對(duì)不同狀態(tài),自主學(xué)習(xí)到較優(yōu)的控制策略。即使在一些極端情況下,也能有較好的表現(xiàn)。本文最終驗(yàn)證了該算法相對(duì)于傳統(tǒng)算法的優(yōu)越性。

        猜你喜歡
        電能策略
        基于“選—練—評(píng)”一體化的二輪復(fù)習(xí)策略
        蘋果皮可以產(chǎn)生電能
        求初相φ的常見策略
        例談未知角三角函數(shù)值的求解策略
        電能的生產(chǎn)和運(yùn)輸
        我說你做講策略
        海風(fēng)吹來的電能
        配網(wǎng)電能質(zhì)量控制技術(shù)探討
        澎湃電能 助力“四大攻堅(jiān)”
        高中數(shù)學(xué)復(fù)習(xí)的具體策略
        久久噜噜噜| 国语自产视频在线| 日本丰满熟妇videossex一| 天美传媒精品1区2区3区| 不卡国产视频| 国产人妖直男在线视频| 久久99精品久久久久麻豆| 国产精品亚洲一区二区三区在线| 99国产精品视频无码免费| 亚洲精品日本久久久中文字幕| 成人大片免费视频播放一级| 成年女人a毛片免费视频| 亚洲男人天堂2019| 日韩精品中文字幕综合| 色久悠悠婷婷综合在线| 久久久久久亚洲av无码蜜芽 | 国产精品无码精品久久久| 亚洲国产精品免费一区| 亚洲av手机在线网站| 九九热线有精品视频86| 国产美女在线精品亚洲二区| 亚洲全国最大的人成网站| 最近免费中文字幕中文高清6| 99久久er这里只有精品18| 久久精品成人免费观看97| 亚洲国产最新免费av| 精品久久久久久久无码人妻热| 日韩精品一区二区三区视频| 日本护士一区二区三区高清热线| 久久av不卡人妻出轨一区二区| 国色天香精品一卡2卡3卡4| 美女在线国产| 亚洲中文字幕乱码免费看| 中文有码无码人妻在线| 就爱射视频在线视频在线| 国产精品久久久久久久妇| 无码人妻视频一区二区三区99久久| 中文字幕人妻乱码在线| 噜噜综合亚洲av中文无码| 亚洲av无码电影网| 日韩在线手机专区av|