亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Q-Learning算法的能量獲取傳感網(wǎng)絡(luò)自適應(yīng)監(jiān)測能效優(yōu)化方法

        2022-12-18 07:19:44卞佩倫包學(xué)才譚文群康忠祥
        關(guān)鍵詞:能效傳感能量

        卞佩倫,包學(xué)才,譚文群,康忠祥

        (南昌工程學(xué)院 1.信息工程學(xué)院;2.江西省水信息協(xié)同感知與智能處理重點(diǎn)實(shí)驗(yàn)室,江西 南昌 330099)

        生態(tài)環(huán)境監(jiān)測是生態(tài)文明建設(shè)的基礎(chǔ),當(dāng)前圖像監(jiān)測已成為促進(jìn)治理生態(tài)環(huán)境的重要技術(shù)手段。但由于圖像監(jiān)測的能量消耗大,傳統(tǒng)基于有限容量電池供電的監(jiān)測傳感網(wǎng)絡(luò)時(shí)常造成圖像監(jiān)測中斷,而對于偏遠(yuǎn)地區(qū),頻繁更換電池人工成本高且不切實(shí)際,如何解決偏遠(yuǎn)地區(qū)持續(xù)性圖像監(jiān)測是目前需要解決的重要問題之一。近年來,基于外部獲取能量(如太陽能、風(fēng)能等)的能量獲取傳感網(wǎng)絡(luò)技術(shù)為偏遠(yuǎn)地區(qū)圖像監(jiān)測提供了解決方案。然而,太陽能獲取隨氣候環(huán)境變化,能量到達(dá)具有一定的隨機(jī)動(dòng)態(tài)特性,導(dǎo)致傳統(tǒng)基于固定電池供電的傳感網(wǎng)絡(luò)優(yōu)化方法不適用于能量獲取傳感網(wǎng)絡(luò)。因此,提出有效的能量獲取傳感網(wǎng)絡(luò)自適應(yīng)能量管理技術(shù)對解決偏遠(yuǎn)地區(qū)持續(xù)性圖像監(jiān)測具有重要作用和意義。

        目前,國內(nèi)外許多學(xué)者針對上述能效優(yōu)化問題提出了許多創(chuàng)新的解決方案。文獻(xiàn)[1]以最小化非目標(biāo)接收基站的平均旁瓣幅值為優(yōu)化目標(biāo),提出了基于改進(jìn)蟻群算法的圖像壓縮傳輸波束成形節(jié)點(diǎn)選擇算法,提出算法中的啟發(fā)函數(shù)不僅考慮到獲取能量和圖像壓縮中的傳輸能量,而且在信息素更新公式中也結(jié)合剩余能量和非目標(biāo)接收基站的平均旁瓣性能,從而進(jìn)一步改善傳感網(wǎng)絡(luò)中圖像監(jiān)測與壓縮傳輸中的能效性能。文獻(xiàn)[2]在各類經(jīng)典路由協(xié)議的基礎(chǔ)上,綜合考慮到節(jié)點(diǎn)的密集程度以及能量平衡等因素,提出了一種基于能量供給的分簇單跳路由協(xié)議,旨在平衡傳感網(wǎng)絡(luò)中的能量消耗,從而延長網(wǎng)絡(luò)的壽命。文獻(xiàn)[3]提出的REC算法通過采用動(dòng)態(tài)分區(qū)的方法來降低重新成簇所造成的能量損耗,從而提升數(shù)據(jù)傳輸效率和網(wǎng)絡(luò)生存周期。文獻(xiàn)[4]基于網(wǎng)絡(luò)節(jié)點(diǎn)的角色劃分,采用了一種多跳分層路由方案來平衡每個(gè)節(jié)點(diǎn)的能耗以傳輸圖像。而文獻(xiàn)[5]從網(wǎng)絡(luò)擁塞的角度出發(fā),考慮到簇頭節(jié)點(diǎn)的最大利用率,提出了一種基于簇結(jié)構(gòu)的路由協(xié)議,通過平衡每個(gè)簇的節(jié)點(diǎn)數(shù)量,從而減少網(wǎng)絡(luò)中可能出現(xiàn)的擁塞并降低能耗。除卻路由協(xié)議自身的創(chuàng)新,越來越多的研究人員在開始采用強(qiáng)化學(xué)習(xí)來優(yōu)化傳感節(jié)點(diǎn)的能量管理,并基于仿真實(shí)現(xiàn)了一定的結(jié)果。文獻(xiàn)[6]采用由電池供電的傳感器來指導(dǎo)強(qiáng)化學(xué)習(xí)系統(tǒng)采取相關(guān)操作,其方案運(yùn)用基于固定策略的SARSA算法研究天氣、電池退化和硬件對系統(tǒng)的影響。文獻(xiàn)[7]和文獻(xiàn)[8]則是將強(qiáng)化學(xué)習(xí)用于維持永久運(yùn)行并滿足能量收集型傳感器的吞吐量需求。文獻(xiàn)[9]采用強(qiáng)化學(xué)習(xí)來優(yōu)化能量收集節(jié)點(diǎn)的采樣工作,但是,這一算法是針對室內(nèi)環(huán)境下構(gòu)建和測試的,該環(huán)境在一天中的光照強(qiáng)度基本保持一致且富有規(guī)律性。文獻(xiàn)[10]則是基于5個(gè)傳感器節(jié)點(diǎn)在5 d內(nèi)收集的數(shù)據(jù)來優(yōu)化能效,但是,其設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)不取決于電池電量或消耗的能量,因此無法捕獲實(shí)際情況。文獻(xiàn)[11]提出了RLMAN系統(tǒng),該系統(tǒng)采用了具有線性函數(shù)逼近作用的actor-critic算法,并使用現(xiàn)有的室內(nèi)和室外光照數(shù)據(jù)進(jìn)行模擬,但并未說明其內(nèi)存和計(jì)算要求。

        由上述研究分析可知,當(dāng)前研究主要針對無線傳感網(wǎng)絡(luò)中節(jié)點(diǎn)的能量管理問題,提出了各類能效優(yōu)化方案和路由改進(jìn)協(xié)議,但在環(huán)境模擬方面,還存在一定的局限性,主要體現(xiàn)在兩個(gè)方面:一是對太陽能獲取量白天晝夜交替考慮不足,忽略夜間的太陽能獲取量幾乎為零情況。二是對于連續(xù)長時(shí)間陰雨天氣情況的優(yōu)化性能也沒有進(jìn)行系統(tǒng)研究和分析,對保證持續(xù)有效的監(jiān)測還需進(jìn)一步分析。

        為此,針對偏遠(yuǎn)地區(qū)的水生態(tài)環(huán)境圖像監(jiān)測需求,即晝夜以及連續(xù)長時(shí)間陰雨天氣期間的持續(xù)有效監(jiān)測,利用強(qiáng)化學(xué)習(xí)中的Q-Learning算法,設(shè)計(jì)有效獎(jiǎng)勵(lì)函數(shù),力圖提出針對不同季節(jié)不同氣候環(huán)境下的能量獲取傳感網(wǎng)絡(luò)自適應(yīng)監(jiān)測能效優(yōu)化方法,方法基于時(shí)間差分預(yù)測,不僅實(shí)現(xiàn)學(xué)習(xí)速度更快,而且能快速尋找最優(yōu)策略和最優(yōu)動(dòng)作值函數(shù),從而實(shí)現(xiàn)監(jiān)測的持續(xù)有效性和穩(wěn)定性。

        1 相關(guān)模型及問題描述

        1.1 網(wǎng)絡(luò)模型

        目前傳感網(wǎng)絡(luò)主要以網(wǎng)狀結(jié)構(gòu)和簇結(jié)構(gòu)模型為主,對于偏遠(yuǎn)區(qū)域水環(huán)境圖像監(jiān)測,監(jiān)測區(qū)域需要內(nèi)各節(jié)點(diǎn)之間的協(xié)同完成監(jiān)測任務(wù)的特點(diǎn),相比之下,基于簇的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)更適合區(qū)域多節(jié)點(diǎn)的管理和協(xié)作。因此,本文采用基于簇結(jié)構(gòu)模型進(jìn)行監(jiān)測和傳輸建模。如圖1所示,監(jiān)測節(jié)點(diǎn)對周圍水環(huán)境進(jìn)行圖像監(jiān)測并將圖片傳輸給周圍的普通節(jié)點(diǎn)。之后,普通節(jié)點(diǎn)將監(jiān)測圖像進(jìn)行壓縮處理并傳輸給簇頭節(jié)點(diǎn)。最后,簇頭節(jié)點(diǎn)將收集到的壓縮圖像發(fā)送給基站,由基站進(jìn)行評估與處理,性能評估主要基于3項(xiàng)指標(biāo),分別是平均效用、中斷率以及能量溢出率,其中平均效用以長期的平均獎(jiǎng)勵(lì)值來近似表示。

        圖1 網(wǎng)絡(luò)模型

        1.2 能量消耗模型

        結(jié)合文獻(xiàn)[12]提出的傳感網(wǎng)絡(luò)能量模型描述可知,傳感節(jié)點(diǎn)監(jiān)測與傳輸能量消耗主要由監(jiān)測一次能耗、監(jiān)測頻率以及傳輸能耗等組成,具體如下所示:

        EC=EM+ET,

        (1)

        EM=Em*Ms*Tm,

        (2)

        ET=ED*l.

        (3)

        式(1)中EC表示監(jiān)測與傳輸?shù)目偰芎?,EM表示監(jiān)測能耗,ET表示傳輸能耗。式(2)基于文獻(xiàn)[13]提出的能耗模型做出更改,其中Em代表節(jié)點(diǎn)每次監(jiān)測所消耗的能量,為固定值,Ms表示每個(gè)時(shí)隙的監(jiān)測次數(shù),Tm代表監(jiān)測所需的總時(shí)隙。所以,環(huán)境監(jiān)測的總能耗基本與監(jiān)測頻率成正比,隨著監(jiān)測頻率的提高,傳感節(jié)點(diǎn)的能耗也會(huì)隨之增大。而式(3)的傳輸能耗參考文獻(xiàn)[14]和文獻(xiàn)[15]提出的一階無線通信模型,ED表示傳輸每比特?cái)?shù)據(jù)所消耗的能量,l為比特?cái)?shù)。而本文著重研究傳感節(jié)點(diǎn)的監(jiān)測優(yōu)化,故總能耗近似為監(jiān)測能耗。

        1.3 能量獲取模型

        在本研究中,監(jiān)測節(jié)點(diǎn)供電模塊由蓄電池和太陽能電池板組成,節(jié)點(diǎn)可以根據(jù)這些太陽能板來獲取能量為蓄電池充電,蓄電池通過能量管理芯片為監(jiān)測節(jié)點(diǎn)提供能量。太陽能能量獲取模型采用基于文獻(xiàn)[15]提出的能量到達(dá)模型,如下式(4)所示:

        EH=PS*SI*TS,

        (4)

        式中EH、PS分別表示獲取的總能量和太陽能發(fā)電量,SI表示光照強(qiáng)度,TS表示持續(xù)時(shí)間。根據(jù)SANIO公司生產(chǎn)的太陽能電池板數(shù)據(jù)顯示,發(fā)電量PS為0.23 μW/lux,則100 lux的光照持續(xù)600 s所產(chǎn)生的能量為13.8 MJ。所以,獲取能量的多少主要取決于當(dāng)前時(shí)間段的光照強(qiáng)度。

        除此之外,能量獲取與季節(jié)變換也存在一定聯(lián)系。圖2展示了南昌市太陽輻射強(qiáng)度的監(jiān)測數(shù)據(jù),假設(shè)3-5月代表春季,6-8月代表夏季,依此類推。則如圖2所示,夏季的太陽輻射強(qiáng)度最高,即相對獲取的能量最多,春秋兩季近似,而冬季的太陽輻射強(qiáng)度最低,相對獲取的能量也最少。

        圖2 太陽輻射強(qiáng)度監(jiān)測數(shù)據(jù)

        1.4 優(yōu)化模型

        本文在建立網(wǎng)絡(luò)模型和能量模型的工作上,綜合考慮了節(jié)點(diǎn)協(xié)作和能量均衡等因素,目的是為了改進(jìn)不同季節(jié)不同氣候環(huán)境下無線傳感網(wǎng)絡(luò)持續(xù)性長期監(jiān)測的能量管理問題。但是,現(xiàn)階段部分優(yōu)化方案往往著重于改善當(dāng)前時(shí)刻或時(shí)隙的能量優(yōu)化管理,忽略傳感網(wǎng)絡(luò)的長期能效。因此,針對上述問題,本文提出了如式(5)~(9)所示的優(yōu)化模型。

        (5)

        s.t.EH+ER-EC≤Ebc,

        (6)

        EH≥0,

        (7)

        0≤ER≤Ebc,

        (8)

        0≤EC≤ER.

        (9)

        式(5)表示優(yōu)化目標(biāo)為最大化一段時(shí)間內(nèi)的累積獎(jiǎng)勵(lì)值,其中ri表示節(jié)點(diǎn)在時(shí)隙i時(shí)間段內(nèi)監(jiān)測所獲得的即時(shí)獎(jiǎng)勵(lì)值;約束條件式(6)為節(jié)點(diǎn)獲取能量與剩余能量的總和再減去監(jiān)測能耗不超過當(dāng)前節(jié)點(diǎn)的總電池容量,其中,EH表示節(jié)點(diǎn)的獲取能量,ER表示節(jié)點(diǎn)當(dāng)前剩余能量,EC表示節(jié)點(diǎn)圖像監(jiān)測一次的能耗,Ebc表示節(jié)點(diǎn)的總電池容量。

        由上述優(yōu)化問題可知,每個(gè)時(shí)隙的能量獲取是隨機(jī)動(dòng)態(tài)到達(dá),且優(yōu)化目標(biāo)是要T個(gè)時(shí)隙的長期效用,傳統(tǒng)最優(yōu)化方法難以解決此優(yōu)化問題。但從現(xiàn)有文獻(xiàn)[9]和[16]可知,目前強(qiáng)化學(xué)習(xí)中Q-Learning算法在解決長期效用方面取得很好效果。為此,在本研究中,將采用Q-Learning算法對能量獲取條件下傳感節(jié)點(diǎn)持續(xù)性監(jiān)測的長期效用進(jìn)行建模優(yōu)化,進(jìn)而實(shí)現(xiàn)晝夜以及長時(shí)間陰雨環(huán)境下的網(wǎng)絡(luò)節(jié)點(diǎn)長期能效性能的同時(shí),延長了整個(gè)網(wǎng)絡(luò)的壽命。

        2 基于Q-Learning算法的自適應(yīng)監(jiān)測能效優(yōu)化方法

        2.1 Q-Learning 算法原理

        在一個(gè)典型的強(qiáng)化學(xué)習(xí)問題中,一個(gè)智能體開始處于一種狀態(tài)s,通過選擇一個(gè)動(dòng)作a,它會(huì)收到即時(shí)獎(jiǎng)勵(lì)r并轉(zhuǎn)移到一個(gè)新的狀態(tài)s’,這一過程稱為一個(gè)經(jīng)驗(yàn)軌跡。不斷循環(huán)此過程,直到在有限時(shí)間內(nèi)達(dá)到最終狀態(tài)。智能體在每種狀態(tài)下選擇動(dòng)作的方式稱為其策略π,如式(10)所示。智能體的目標(biāo)就是基于經(jīng)驗(yàn)軌跡學(xué)到的數(shù)據(jù)找到最優(yōu)策略,以最大化長期獎(jiǎng)勵(lì)R。

        (10)

        對于每個(gè)給定的狀態(tài)s和動(dòng)作a,定義一個(gè)函數(shù)Qπ(s,a)稱為動(dòng)作值函數(shù),該函數(shù)返回從狀態(tài)s開始,采取動(dòng)作a然后遵循給定的策略π直到最終狀態(tài)所獲得的累積獎(jiǎng)勵(lì)的估計(jì)值,如式(11)所示:

        Qπ(s,a)=r0+γr1+γ2r2+γ3r3…,

        (11)

        其中γ≤1被稱為折扣因子,它定義了未來獎(jiǎng)勵(lì)的重要性。值為0意味著只考慮短期獎(jiǎng)勵(lì),值為1則更重視長期獎(jiǎng)勵(lì)。

        由于Q-Learning算法是基于時(shí)間差分預(yù)測的強(qiáng)化學(xué)習(xí)算法,通過貝爾曼方程的遞推重寫以及時(shí)間差分預(yù)測的更新公式,就可以得到Q-Learning算法的更新公式,即整個(gè)算法的核心,如式(12)所示:

        newQ(s,a)←Q(s,a)+α[r+γmaxQ′(s′,a′)-Q(s,a)].

        (12)

        從式(12)可以看出,除折扣因子γ外,Q-Learning算法還有一個(gè)重要的參數(shù),即學(xué)習(xí)率α,它定義了一個(gè)舊的Q值將從新的Q值那里學(xué)到的新知識(shí)占自身的比重關(guān)系。值為0意味著代理不會(huì)學(xué)到任何東西,值為1意味著新發(fā)現(xiàn)的信息是更為重要的信息。

        除此之外,本方案采用的Q-Learning算法遵循ε-貪婪策略,如式(13)所示:

        (13)

        該策略的具體含義就是以ε的概率選擇隨機(jī)動(dòng)作,否則以1-ε的概率在一定范圍內(nèi)選擇使Q值最大的動(dòng)作。

        2.2 基于Q-Learning算法自適應(yīng)監(jiān)測能效優(yōu)化方法

        為解決監(jiān)測能效優(yōu)化問題,建立了基于Q-Learning算法的優(yōu)化框架圖(如圖3所示)。圖3中傳感器節(jié)點(diǎn)通過太陽能電池板收集能量,然后對周圍水環(huán)境進(jìn)行圖像監(jiān)測并將相應(yīng)數(shù)據(jù)發(fā)送到基站?;净谠O(shè)計(jì)Q-Learning算法優(yōu)化策略,并根據(jù)節(jié)點(diǎn)所反饋的狀態(tài)、環(huán)境等數(shù)據(jù)確定之后的監(jiān)測頻率,具體優(yōu)化過程闡述如下:

        圖3 基于Q-Learning算法的通信框圖

        智能體:本方案中,智能體是負(fù)責(zé)與傳感器節(jié)點(diǎn)通信的基站程序,它通過收集傳感器節(jié)點(diǎn)監(jiān)測到的圖像數(shù)據(jù),并向其輸出相應(yīng)的監(jiān)測頻率以此不斷獲取獎(jiǎng)勵(lì)并更新Q值表。

        環(huán)境:本方案中的環(huán)境相當(dāng)于與外部真實(shí)環(huán)境進(jìn)行交互的傳感器本身。其發(fā)送的數(shù)據(jù)主要包括光照強(qiáng)度(即獲取到的能量)、天氣、季節(jié)等。

        狀態(tài):本方案中,狀態(tài)設(shè)定為節(jié)點(diǎn)當(dāng)前的剩余能量。這里對傳感節(jié)點(diǎn)的最大儲(chǔ)能進(jìn)行離散化處理并由高到低依次縮放為N個(gè)能量單元,節(jié)點(diǎn)在每個(gè)時(shí)隙內(nèi)進(jìn)行一次監(jiān)測就會(huì)消耗1個(gè)能量單元,當(dāng)狀態(tài)降至0時(shí),傳感節(jié)點(diǎn)的能量耗盡。離散化的作用在于減少了狀態(tài)、動(dòng)作空間,因此可以減少Q(mào)-Learning算法的收斂時(shí)間。

        動(dòng)作:傳感器節(jié)點(diǎn)在每個(gè)時(shí)隙的時(shí)間段內(nèi)都會(huì)進(jìn)行一定次數(shù)的環(huán)境監(jiān)測。因此,本文將每個(gè)時(shí)隙中的監(jiān)測次數(shù)設(shè)置成相應(yīng)的動(dòng)作。假定共有A個(gè)動(dòng)作,即{0,1,2,…,n,…,A-1},其中0表示節(jié)點(diǎn)進(jìn)入休眠,n表示節(jié)點(diǎn)每個(gè)時(shí)隙監(jiān)測n次。對于每個(gè)反饋到的動(dòng)作指令,傳感器會(huì)分配時(shí)隙供節(jié)點(diǎn)進(jìn)行對應(yīng)次數(shù)的環(huán)境監(jiān)測,并且每次監(jiān)測均會(huì)消耗1個(gè)能量單元。例如,動(dòng)作2對應(yīng)每個(gè)時(shí)隙的時(shí)間段內(nèi)監(jiān)測2次,即當(dāng)前時(shí)隙內(nèi)共消耗2個(gè)能量單元。

        獎(jiǎng)勵(lì):本方案中獎(jiǎng)勵(lì)函數(shù)的設(shè)定需要從兩方面進(jìn)行考慮:一是最大化傳感器節(jié)點(diǎn)的動(dòng)作選擇,即通過盡可能提升每個(gè)時(shí)隙內(nèi)的監(jiān)測次數(shù)從而提高長期效用;二是最小化節(jié)點(diǎn)狀態(tài)為0的情況,即盡量避免出現(xiàn)節(jié)點(diǎn)能量耗盡的情況來保證傳感網(wǎng)絡(luò)的正常工作。獎(jiǎng)勵(lì)函數(shù)的設(shè)置能夠更好地優(yōu)化節(jié)點(diǎn)的動(dòng)作決策,而由2.3節(jié)可知,不同環(huán)境下的能量獲取有所不同,節(jié)點(diǎn)的動(dòng)作選擇也會(huì)有一定區(qū)別,所以需要獎(jiǎng)勵(lì)函數(shù)對不同環(huán)境下的動(dòng)作決策進(jìn)行調(diào)節(jié)。本方案基于文獻(xiàn)[16]提出的三段式能量管理策略對節(jié)點(diǎn)狀態(tài)進(jìn)行劃分,用sigmoid曲線函數(shù)和墨西哥帽子曲線來定性地表示白天和夜晚兩種環(huán)境下的獎(jiǎng)勵(lì)函數(shù),并針對不同范圍的能量狀態(tài)設(shè)置了對應(yīng)的獎(jiǎng)勵(lì)函數(shù),以便節(jié)點(diǎn)做出最優(yōu)選擇。具體如式(14)~(16)所示:

        (14)

        (15)

        (16)

        式中a表示動(dòng)作;s表示節(jié)點(diǎn)狀態(tài),即當(dāng)前剩余能量;c和b分別代表對函數(shù)幅度和斜率的控制,參考文獻(xiàn)[16],這里分別取2和1;EH表示節(jié)點(diǎn)的獲取能量;Ebc表示節(jié)點(diǎn)的總電池容量;rc和rs都表示智能體在白天所獲得的即時(shí)獎(jiǎng)勵(lì)值,其中,rc表示陰雨環(huán)境下所獲得的即時(shí)獎(jiǎng)勵(lì)值,智能體會(huì)根據(jù)獲取能量、剩余能量的占比等信息來獲得不同大小的獎(jiǎng)勵(lì)值;rs表示晴天環(huán)境下所獲得的即時(shí)獎(jiǎng)勵(lì)值,智能體所收到的獎(jiǎng)勵(lì)值大小主要依賴于獲取能量以及動(dòng)作等因素。而rn則表示夜晚環(huán)境下所獲得的即時(shí)獎(jiǎng)勵(lì)值,評判標(biāo)準(zhǔn)僅依靠所選擇的動(dòng)作大小,動(dòng)作越大,智能體最后得到的獎(jiǎng)勵(lì)值會(huì)相應(yīng)降低,節(jié)點(diǎn)會(huì)收到負(fù)向反饋以節(jié)約能量。而當(dāng)節(jié)點(diǎn)的狀態(tài)s為0時(shí),為了后期減少節(jié)點(diǎn)出現(xiàn)能量耗盡的狀況,故還需要設(shè)置懲罰函數(shù)以協(xié)助節(jié)點(diǎn)對3種不同環(huán)境下的動(dòng)作決策進(jìn)行約束。式中rmax表示當(dāng)前環(huán)境下最大的即時(shí)獎(jiǎng)勵(lì)值,因?yàn)閼土P函數(shù)的設(shè)定應(yīng)該使得當(dāng)前環(huán)境下,每個(gè)時(shí)隙內(nèi)最大化監(jiān)測次數(shù)所獲得的即時(shí)獎(jiǎng)勵(lì)不超過監(jiān)測中斷所帶來的損害。

        根據(jù)上述優(yōu)化過程以及設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),設(shè)計(jì)了基于Q-Learning的自適應(yīng)持續(xù)監(jiān)測優(yōu)化方法,步驟如下:

        Step1:初始化Q值表為0,同時(shí)設(shè)置初始化狀態(tài)s、動(dòng)作a、即時(shí)獎(jiǎng)勵(lì)r、獲取能量EH、總電池容量Ebc、季節(jié)W、氣候C、時(shí)間T、折扣因子γ、學(xué)習(xí)率α、經(jīng)驗(yàn)軌跡等相關(guān)參數(shù)。

        Step2:設(shè)置貪婪系數(shù)ε∈(0.1,1),引用式(14),傳感節(jié)點(diǎn)會(huì)遵循貪婪策略選擇動(dòng)作a。由于ε是處于0.1~1之間的參數(shù),若初始化為1,該算法會(huì)在學(xué)習(xí)階段選擇隨機(jī)動(dòng)作;若初始化為0.1,其會(huì)更傾向于選擇使得Q值最大的動(dòng)作序列。

        Step3:節(jié)點(diǎn)依據(jù)學(xué)習(xí)到的策略和自身的狀態(tài)s在時(shí)間T內(nèi)與環(huán)境進(jìn)行交互。其中,白天和夜晚均會(huì)分配一定數(shù)量的時(shí)隙供節(jié)點(diǎn)進(jìn)行監(jiān)測。且每當(dāng)晝夜交替時(shí),氣候C會(huì)依據(jù)當(dāng)前季節(jié)W下的氣候分布規(guī)律按照一定概率在晴天和陰雨天之間進(jìn)行切換。具體操作如下:

        若檢測到當(dāng)前環(huán)境為白天且自身狀態(tài)s>0,首先判斷所處氣候,若C=1,即陰雨天,節(jié)點(diǎn)會(huì)選擇某一動(dòng)作a消耗對應(yīng)能量得到下一狀態(tài)s′,并根據(jù)式(14)收到即時(shí)獎(jiǎng)勵(lì)rc。若C=2,即晴天,節(jié)點(diǎn)則需要根據(jù)式(15)以獲取即時(shí)獎(jiǎng)勵(lì)rs。

        若檢測到當(dāng)前環(huán)境為夜晚且自身狀態(tài)s>0,引用式(16),在選擇完某一動(dòng)作a消耗能量后得到下一狀態(tài)s′和即時(shí)獎(jiǎng)勵(lì)rn。

        若判斷當(dāng)前狀態(tài)s=0,節(jié)點(diǎn)會(huì)強(qiáng)制進(jìn)入休眠并受到懲罰,即時(shí)獎(jiǎng)勵(lì)r=-rmax。

        Step4:引用式(12),利用交互得到的即時(shí)獎(jiǎng)勵(lì)r和新的節(jié)點(diǎn)狀態(tài)s′對Q值表進(jìn)行更新。其中,r+γmaxQ′(s′,a′)是采取動(dòng)作a后得到的即時(shí)獎(jiǎng)勵(lì)r加上通過選擇具有最高Q值的動(dòng)作獲得的獎(jiǎng)勵(lì),而Q(s,a)是當(dāng)前Q值表中狀態(tài)動(dòng)作對的值,它們之間的差值由學(xué)習(xí)因子α縮放。

        Step5:能量獲取。節(jié)點(diǎn)依據(jù)能量獲取模型從環(huán)境獲得能量EH,結(jié)合當(dāng)前狀態(tài)s′相加得到新的狀態(tài)s″。

        Step6:當(dāng)前經(jīng)驗(yàn)軌跡在時(shí)間到達(dá)最大值T后結(jié)束。新的經(jīng)驗(yàn)軌跡中,節(jié)點(diǎn)初始狀態(tài)s被賦予上一軌跡的最終狀態(tài)s″。若經(jīng)驗(yàn)軌跡未到達(dá)閾值,跳轉(zhuǎn)至step2;反之算法結(jié)束。

        3 仿真及性能評估

        3.1 仿真環(huán)境及模型配置

        為了驗(yàn)證基于Q-Learning的自適應(yīng)監(jiān)測能效優(yōu)化算法的性能,本文從陰雨以及晝夜等環(huán)境下進(jìn)行分析。由于目前針對陰雨以及晝夜交替環(huán)境下的長期持續(xù)性自適應(yīng)算法較少,為驗(yàn)證提出算法能有效改善目前監(jiān)測能效和提升監(jiān)測持續(xù)性,下面將提出方法與傳統(tǒng)監(jiān)測節(jié)點(diǎn)隨機(jī)選取監(jiān)測次數(shù)方法(Random方法)以及基于文獻(xiàn)[17]提到的貪婪算法的最大化監(jiān)測次數(shù)方法(Greedy方法)進(jìn)行比較。對比均基于相同能量收集的情況下進(jìn)行,且分別從3個(gè)方面評判提出方法與其余兩種方法的性能:平均效用、中斷率和溢出率。

        同時(shí),本次實(shí)驗(yàn)基于python3.0仿真環(huán)境來評估整套方案??紤]到算法的收斂速度以及仿真結(jié)果的展示,在仿真之前需要對狀態(tài)、動(dòng)作以及能量獲取進(jìn)行離散化設(shè)置。首先將節(jié)點(diǎn)狀態(tài)s設(shè)定為0~72共73個(gè)能量單元,即電池總?cè)萘縀bc;動(dòng)作a設(shè)定為0~3共4個(gè)動(dòng)作,即節(jié)點(diǎn)每個(gè)時(shí)隙監(jiān)測0~3次;每個(gè)時(shí)隙設(shè)定為1 h,且系統(tǒng)會(huì)在白天和夜晚平均分配共16個(gè)時(shí)隙供節(jié)點(diǎn)進(jìn)行監(jiān)測。而在能量獲取方面,由于晴天的實(shí)際室外光照強(qiáng)度較大,故所獲取的能量區(qū)間EH為3~6個(gè)能量單元;陰雨天的實(shí)際室外光照強(qiáng)度較小,故所獲取的能量區(qū)間EH為0~2個(gè)能量單元;而夜晚幾乎沒有光照,故所獲取的能量單元EH設(shè)置為0。最后,表1列出了本次仿真所需要的其他相關(guān)參數(shù)。

        表1 仿真參數(shù)設(shè)置

        下面將結(jié)合陰雨環(huán)境和晝夜交替環(huán)境對3種算法的性能進(jìn)行對比分析,具體如下。

        3.2 綜合對比與結(jié)果分析

        按照上述仿真環(huán)境,模擬陰雨天氣以及晝夜交替的環(huán)境特點(diǎn),研究基于Q-Learning的能效優(yōu)化算法配置下的傳感節(jié)點(diǎn)在陰雨天氣占比不同的情況下其狀態(tài)和動(dòng)作變化過程,并結(jié)合其他算法分析其性能優(yōu)勢。其中,為了著重研究惡劣天氣下的算法性能,故不會(huì)出現(xiàn)陰雨天氣占比較低的情況。

        3.2.1 陰雨天氣占比70%情況下基于Q-Learning的能效優(yōu)化算法性能及對比分析

        在陰雨天氣占比約70%的情況下,圖4是基于Q-Learning的能效優(yōu)化算法經(jīng)過15 d的節(jié)點(diǎn)狀態(tài)-動(dòng)作仿真圖,季節(jié)設(shè)置為雨季分布更為密集的春季。如圖4所示,圖中的3類曲線分別代表離散化后的獲取能量EH、節(jié)點(diǎn)狀態(tài)s和動(dòng)作a這3項(xiàng)要素。在這15 d時(shí)間里,由于大概率陰雨環(huán)境下能量獲取相對匱乏,傳感節(jié)點(diǎn)在動(dòng)作的選擇方面需要考慮到最大化節(jié)點(diǎn)長期效用與最小化能量耗盡情況的總體目標(biāo)。所以在初期,節(jié)點(diǎn)剩余能量充足,傾向于選擇高能耗動(dòng)作以獲取更高的獎(jiǎng)勵(lì)值。隨著天數(shù)遞增,剩余能量逐漸減少,節(jié)點(diǎn)會(huì)根據(jù)獎(jiǎng)勵(lì)函數(shù)的反饋來優(yōu)化自身的動(dòng)作選擇,在保證白天能夠穩(wěn)定工作的情況下盡可能減小監(jiān)測次數(shù)以避免能量耗盡,從而使得夜晚環(huán)境下節(jié)點(diǎn)依然擁有充足的能量來維持環(huán)境監(jiān)測,剩余能量匱乏的情況也會(huì)得到相應(yīng)改善,說明了基于Q-Learning的算法在提升節(jié)點(diǎn)的長期效用的同時(shí)也有利于維持節(jié)點(diǎn)的長期生存。

        圖4 混合環(huán)境下的節(jié)點(diǎn)狀態(tài)-動(dòng)作圖(15 d)

        為了進(jìn)一步驗(yàn)證基于Q-Learning的能效優(yōu)化算法在平均效用、中斷率以及溢出率三方面的性能表現(xiàn),故基于相同環(huán)境并結(jié)合上一節(jié)提到的兩種方法進(jìn)行對比,結(jié)果如圖4所示??倳r(shí)間設(shè)置為150 d,每15 d計(jì)算并統(tǒng)計(jì)10次數(shù)值取平均。

        圖5 三種算法的性能指標(biāo)對比(混合環(huán)境)

        首先,在平均效用方面,由于Q-Learning擅長考慮序列問題和長期回報(bào),從而提升節(jié)點(diǎn)長期效用。所以,如圖5(a)所示,基于Q-Learning的能效優(yōu)化算法配置下的節(jié)點(diǎn)效用能夠大幅度領(lǐng)先其余兩種方法,并一直穩(wěn)定在0.8左右。其次,在中斷率方面,由于Q-Learning對環(huán)境具有強(qiáng)大的適應(yīng)能力,能夠及時(shí)調(diào)整節(jié)點(diǎn)的工作模式。所以,在保證可用能量足夠的情況下,如圖5(b)所示,優(yōu)化后的節(jié)點(diǎn)中斷率對比其余兩種方法有明顯的降低,并一直穩(wěn)定于5%以下,這說明基于Q-Learning的能效優(yōu)化算法能夠有效延長傳感網(wǎng)絡(luò)的生命周期。最后,在溢出率方面,從圖5(c)可以看出,由于Greedy方法擅長最大化監(jiān)測次數(shù)來提升短期效用,所以節(jié)點(diǎn)幾乎不會(huì)出現(xiàn)剩余能量溢出的情況。而本文提出的方案在保證節(jié)點(diǎn)能量耗盡的前提下,同樣能夠自適應(yīng)調(diào)整動(dòng)作能級(jí)來消耗多余的可用能量。

        圖6 混合環(huán)境下的節(jié)點(diǎn)狀態(tài)-動(dòng)作圖(15 d)

        3.2.2 陰雨天氣占比50%情況下基于Q-Learning的能效優(yōu)化算法性能及對比分析

        在陰雨天氣占比約50%的情況下,圖6是基于Q-Learning的能效優(yōu)化算法經(jīng)過15 d的節(jié)點(diǎn)狀態(tài)-動(dòng)作仿真圖,季節(jié)設(shè)置為雨季分布相對平均的夏季。如圖6所示,當(dāng)晴天與陰雨天氣下逐漸持平時(shí),節(jié)點(diǎn)的能量獲取會(huì)相應(yīng)得到改善,傳感節(jié)點(diǎn)在動(dòng)作的選擇對比上一節(jié)會(huì)更加靈活,在總體保持低能耗監(jiān)測的基礎(chǔ)上,會(huì)更傾向于選擇較高能耗的動(dòng)作以獲得更多獎(jiǎng)勵(lì)值。除此之外,節(jié)點(diǎn)進(jìn)入休眠狀態(tài)的次數(shù)對比上一節(jié)也明顯降低,其剩余能量水平也一直較為充足,同樣驗(yàn)證了基于Q-Learning的能效優(yōu)化算法能夠有效維持傳感網(wǎng)絡(luò)的持續(xù)監(jiān)測和長期生存。

        為了進(jìn)一步驗(yàn)證在陰雨天氣占比約50%的環(huán)境下,基于Q-Learning的能效優(yōu)化算法在平均效用、中斷率以及溢出率三方面的性能表現(xiàn)。同樣地,結(jié)合之前提到的兩種方法進(jìn)行對比,結(jié)果如圖7所示。

        圖7 三種算法的性能指標(biāo)對比(混合環(huán)境)

        首先,在平均效用方面,如圖7(a)所示,本方案優(yōu)化后的節(jié)點(diǎn)效用依然能夠在一定程度上領(lǐng)先其余兩種方法,并于1.2上下浮動(dòng)。其次,在中斷率方面,由于仿真環(huán)境發(fā)生變化,可用能量相對充足,如圖7(b)所示,優(yōu)化后的節(jié)點(diǎn)中斷率幾乎為0,只會(huì)偶爾出現(xiàn)監(jiān)測中斷的情況。最后,在溢出率方面,與之前相似,基于Q-Learning的能效優(yōu)化算法能夠通過自適應(yīng)調(diào)節(jié)動(dòng)作能級(jí)以規(guī)避長時(shí)間能量溢出的情況。

        綜合來看,仿真實(shí)驗(yàn)分別從平均效用、中斷率與能量溢出這三個(gè)方面對提出的方案和另外兩種方法進(jìn)行對比,從仿真結(jié)果可以看出,本方案基于Q-Learning算法能夠有效適應(yīng)復(fù)雜多變的環(huán)境,從而調(diào)整節(jié)點(diǎn)的動(dòng)作決策,平衡節(jié)點(diǎn)能效,在滿足能量最大化利用的同時(shí)顯著延長了網(wǎng)絡(luò)的生命周期,保證了太陽能獲取傳感網(wǎng)絡(luò)的可持續(xù)運(yùn)行。

        4 結(jié)束語

        實(shí)現(xiàn)水環(huán)境圖像持續(xù)性監(jiān)測是偏遠(yuǎn)地區(qū)迫切需求解決的關(guān)鍵問題,也是實(shí)現(xiàn)生態(tài)環(huán)境保護(hù)的基礎(chǔ)。本文提出了一種基于Q-Learning算法的能量獲取傳感網(wǎng)絡(luò)自適應(yīng)監(jiān)測能效優(yōu)化方案,該方案在簇結(jié)構(gòu)網(wǎng)絡(luò)的基礎(chǔ)上結(jié)合Q-Learning算法,利用獲取到的能量特性來自適應(yīng)調(diào)整節(jié)點(diǎn)的圖像監(jiān)測頻率。通過設(shè)置大概率陰雨環(huán)境和晝夜交替結(jié)合下的混合監(jiān)測環(huán)境,對提出方法進(jìn)行驗(yàn)證對比分析,仿真結(jié)果表明基于Q-Learning算法配置的節(jié)點(diǎn)學(xué)會(huì)了如何適應(yīng)變化的天氣和日夜交替環(huán)境下的自適應(yīng)監(jiān)測,對通過與隨機(jī)選取監(jiān)測頻率和基于貪婪算法的最大化監(jiān)測頻率兩種策略的對比分析,在平均效用、中斷率以及能量溢出率等方面,提出方法性能均優(yōu)于后兩種策略。特別在晝夜交替的環(huán)境下,考慮到陰雨天氣和夜晚環(huán)境下光照匱乏,對比另外兩種策略,能夠大幅減少監(jiān)測中斷率,且保證傳感節(jié)點(diǎn)長期生存。

        猜你喜歡
        能效傳感能量
        《傳感技術(shù)學(xué)報(bào)》期刊征訂
        新型無酶便攜式傳感平臺(tái) 兩秒內(nèi)測出果蔬農(nóng)藥殘留
        上海:穩(wěn)中有進(jìn) 能效趨優(yōu)
        能量之源
        IPv6與ZigBee無線傳感網(wǎng)互聯(lián)網(wǎng)關(guān)的研究
        電子制作(2018年23期)2018-12-26 01:01:26
        詩無邪傳遞正能量
        中華詩詞(2017年4期)2017-11-10 02:18:29
        關(guān)注能效
        開年就要正能量
        都市麗人(2015年2期)2015-03-20 13:32:31
        凝聚辦好家長學(xué)校的正能量
        中國火炬(2014年2期)2014-07-24 14:17:02
        某型Fabry-Perot光纖應(yīng)變計(jì)的傳感特性試驗(yàn)
        日本欧美大码a在线观看| 亚洲AVAv电影AV天堂18禁| 综合久久给合久久狠狠狠97色 | 蜜桃传媒网站在线观看| 少妇中文字幕乱码亚洲影视| 熟妇人妻中文av无码| 香蕉视频毛片| 亚洲精品日本久久久中文字幕| 开心五月激动心情五月| 熟女人妻在线中文字幕| 国精产品一区一区三区| 亚洲精品午睡沙发系列| 先锋影音av资源我色资源| 精品国产福利一区二区三区| 亚洲国产精品一区二区| 国产在线一区二区三区四区 | 亚洲午夜精品a片久久www慈禧| 亚洲男人天堂| 性无码国产一区在线观看| 国产精品午夜福利亚洲综合网| 欧美熟妇另类久久久久久多毛| 国产啪亚洲国产精品无码| 日韩在线无| 在线亚洲AV成人无码一区小说| 少妇高潮紧爽免费观看| 国产女同va一区二区三区| 孕妇特级毛片ww无码内射| 中文亚洲av片在线观看不卡| 少妇熟女淫荡丰满| 免费在线观看草逼视频| 国产熟女一区二区三区不卡| 欧美人与动牲交a精品| 在线a亚洲视频播放在线观看| 日本少妇爽的大叫高潮了| 中文字幕成人精品久久不卡91 | 午夜视频在线观看国产19| 邻居少妇张开腿让我爽了一夜| 伊人久久大香线蕉亚洲五月天| 亚洲欧洲国产日产国码无码 | 亚洲色偷偷综合亚洲AVYP| 久久九九精品国产不卡一区|