亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向智慧觀光農(nóng)業(yè)的無人機路徑規(guī)劃策略

        2022-07-21 03:32:28萬雪芬劉會丹蔡婷婷
        計算機工程與設(shè)計 2022年7期
        關(guān)鍵詞:規(guī)劃傳感器節(jié)點

        張 凡,萬雪芬,崔 劍,劉會丹,蔡婷婷,楊 義+

        (1.東華大學(xué) 信息科學(xué)與技術(shù)學(xué)院,上海 201620;2.華北科技學(xué)院 河北省物聯(lián)網(wǎng)監(jiān)控工程技術(shù)研究 中心/計算機學(xué)院,河北 廊坊 065201;3.北京航空航天大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院,北京 100083)

        0 引 言

        休閑農(nóng)業(yè)和鄉(xiāng)村精品旅游工程建設(shè)是我國鄉(xiāng)村振興策略的重要組成部分[1,2]?;旌闲蜔o線傳感器網(wǎng)絡(luò)可以較好地滿足農(nóng)業(yè)智慧化管理并提供豐富多樣的農(nóng)業(yè)休閑觀光服務(wù)[3-6]。在通信能力較弱的偏遠地區(qū)建設(shè)用于觀光農(nóng)業(yè)的混合型無線傳感器網(wǎng)絡(luò)需要優(yōu)化的數(shù)據(jù)采集方案。

        通過無人機作為混合型無線傳感器網(wǎng)絡(luò)的輔助數(shù)據(jù)采集手段具有廣闊的前景。使用無人機進行數(shù)據(jù)采集,可以有效地優(yōu)化網(wǎng)絡(luò)通信損耗與生命周期[7-11]。飛行路徑是無人機應(yīng)用中的核心問題。Praveen等提出了基于蟻群算法的路徑規(guī)劃數(shù)據(jù)采集策略[12],但蟻群算法存在全局搜索能力差與收斂較慢等問題。牟治宇等基于分層強化學(xué)習(xí)與DQN(deep Q network)對無人機軌跡與充電問題進行優(yōu)化[13],但是DQN存在過估計與學(xué)習(xí)效率低的問題,且未考慮節(jié)點數(shù)據(jù)實時變化場景。

        目前對于具有較大人因隨機因素的混合型無線傳感器網(wǎng)絡(luò)中數(shù)據(jù)實時變化的無人機數(shù)據(jù)采集研究較少,且缺乏相應(yīng)的路徑規(guī)劃策略。針對以上問題,本文引入社會力模型獲得區(qū)域中行人流量變化與空間分布情況,完成傳感器節(jié)點動態(tài)數(shù)據(jù)特性分析,從而構(gòu)建觀光農(nóng)業(yè)無線傳感器網(wǎng)絡(luò)的可靠數(shù)據(jù)模式。針對DQN存在的收斂性與穩(wěn)定性差的缺點,引入Double DQN、Dueling DQN與Prioritized Replay Buffer方法,為了避免強化學(xué)習(xí)維數(shù)爆炸問題結(jié)合 Semi-Markov-Option方法,提出適用于觀光農(nóng)業(yè)數(shù)據(jù)采集問題的無人機路徑規(guī)劃策略。針對ε-greedy策略難以平衡探索與利用的問題,引入Tanh函數(shù),提出AT-ε-greedy(adaptive-tanh-ε-greedy)探索策略進一步提高模型學(xué)習(xí)效果。

        1 問題描述與系統(tǒng)模型

        與傳統(tǒng)的旅行商問題(travelling salesman problem,TSP)不同,TSP問題的優(yōu)化目標(biāo)為尋找到遍歷所有節(jié)點并返回起點的最短路徑,一般在靜態(tài)環(huán)境下進行。而觀光農(nóng)業(yè)混合型無線傳感器網(wǎng)絡(luò)中傳感器節(jié)點數(shù)據(jù)是動態(tài)變化的,在不同人流分布區(qū)域中節(jié)點數(shù)據(jù)量變化情況不一致。在路徑規(guī)劃時需要考慮能量損耗與數(shù)據(jù)采集效率。

        1.1 問題描述

        傳感器節(jié)點隨機部署在區(qū)域內(nèi),設(shè)區(qū)域中有N個需要采集的傳感器節(jié)點SRi,i∈[1,N]。 無人機數(shù)據(jù)采集過程如圖1所示。

        無人機從??奎c出發(fā),以勻速v在固定高度h下進行飛行,到達節(jié)點通信范圍后將會向節(jié)點發(fā)送激發(fā)信號,節(jié)點被喚醒后與無人機進行數(shù)據(jù)傳輸,將所有數(shù)據(jù)發(fā)送至無人機并清空緩存空間。若無人機至少訪問過一次所有節(jié)點或無人機最大可用能量Wmax消耗完畢,無人機將返回??奎c結(jié)束本次數(shù)據(jù)采集任務(wù)。其中,Wmax為無人機總能量中除了用于返航任務(wù)外所能夠消耗的能量。

        無人機在一次數(shù)據(jù)采集任務(wù)中采集數(shù)據(jù)總量為Ltotal,消耗總能量為Wtotal,問題優(yōu)化目標(biāo)表示如式(1)所示,使得一次數(shù)據(jù)采集任務(wù)中無人機的采集數(shù)據(jù)總量與消耗總能量之比最優(yōu)

        (1)

        1.2 系統(tǒng)模型

        1.2.1 通信模型

        無人機與傳感器節(jié)點之間的通信信道模型為空-地(air to ground,ATG)鏈路信道模型,ATG鏈路的平均路徑損耗Λ可表示如式(2)所示[14]

        Λ=PLLOSP(LOS,θ)+PLNLOSP(NLOS,θ)

        (2)

        其中,P(LOS,θ) 為LOS信道模型在通信仰角為θ時出現(xiàn)的概率,可表示如式(3)所示

        (3)

        其中,a與b均為正常數(shù),根據(jù)信號通信環(huán)境而定。P(LOS,θ) 隨θ增加而增大,當(dāng)θ為直角時LOS信道出現(xiàn)的概率最大。為了增加出現(xiàn)LOS信道概率優(yōu)化數(shù)據(jù)傳輸,無人機飛行到傳感器節(jié)點正上方使得θ接近于直角時,懸停在空中并進行數(shù)據(jù)采集。

        1.2.2 能耗模型

        無線傳感器網(wǎng)絡(luò)中各節(jié)點的數(shù)據(jù)緩存空間大小上限為Lmax,在t時刻時節(jié)點的緩存數(shù)據(jù)大小為Lt。假設(shè)無人機的數(shù)據(jù)緩存空間上限Lu遠大于Lmax。無人機在一次數(shù)據(jù)采集任務(wù)中的能量總消耗Wtotal包括接收傳感器節(jié)點發(fā)送數(shù)據(jù)的能量消耗WB、飛行能量消耗Wfly與懸停能量消耗Wstay。WB表示如式(4)所示

        (4)

        (5)

        其中,Wv表示無人機在以速度v飛行單位時間消耗能量,Dfly表示無人機飛行距離。Wstay表示如式(6)所示

        (6)

        其中,Prec表示無人機接收數(shù)據(jù)速率,Ltotal表示無人機采集的總數(shù)據(jù)量,Wst表示無人機懸停單位時間消耗能量。

        1.3 引入人流參量

        混合型無線傳感器網(wǎng)絡(luò)中,節(jié)點數(shù)據(jù)增長速率與區(qū)域中行人流動有著密切關(guān)系。當(dāng)園區(qū)游客或管理人員在傳感器節(jié)點附近時,有較大概率會與節(jié)點產(chǎn)生交互動作,當(dāng)行人接入節(jié)點后,節(jié)點將會保存接入以及具體操作詳情等歷史記錄至數(shù)據(jù)緩存空間中[15],從而影響傳感器節(jié)點數(shù)據(jù)增長速率。農(nóng)業(yè)觀光園區(qū)中人流的軌跡較為固定,人流分布隨著時間的變化較小?;谏鐣δP屠碚撃軌蛴行У赝瓿蓪^(qū)域中的人流仿真[16],將人流參量引入無線傳感器網(wǎng)絡(luò)。

        (7)

        (8)

        (9)

        其中,lI為行人平均每次接入節(jié)點產(chǎn)生數(shù)據(jù)量,pI為節(jié)點感知區(qū)域中新增行人接入節(jié)點概率。

        (10)

        其中,kSRi表示節(jié)點SRi平均單位時間內(nèi)收集的環(huán)境數(shù)據(jù)量。

        (11)

        2 SMO-Rainbow路徑規(guī)劃策略

        2.1 DQN算法及改進算法

        DQN是深度強化學(xué)習(xí)領(lǐng)域中的重要算法[18],引入當(dāng)前值神經(jīng)網(wǎng)絡(luò)與目標(biāo)值神經(jīng)網(wǎng)絡(luò),每隔一定步長更新目標(biāo)值網(wǎng)絡(luò),使網(wǎng)絡(luò)訓(xùn)練更加平穩(wěn)。采用經(jīng)驗回放機制,每次從經(jīng)驗池中隨機抽樣訓(xùn)練,減少數(shù)據(jù)相關(guān)性。網(wǎng)絡(luò)訓(xùn)練過程中,通過時間差分偏差δ(temporal difference error,TD-error)及損失函數(shù)更新網(wǎng)絡(luò)參數(shù)。

        但DQN存在過估計、訓(xùn)練速度慢、學(xué)習(xí)效率低等問題,Double DQN通過解耦對下一狀態(tài)s’的動作選擇與動作Q值計算來解決DQN過大估計Q值問題[19]。Dueling DQN網(wǎng)絡(luò)結(jié)構(gòu)方面進行改進[20],引入了價值函數(shù)網(wǎng)絡(luò)與優(yōu)勢函數(shù)網(wǎng)絡(luò)。Prioritized Replay Buffer算法為了增加高價值樣本被抽取學(xué)習(xí)的概率[21],根據(jù)TD-error為樣本賦予優(yōu)先級。

        2.2 Semi-Markov問題建模

        強化學(xué)習(xí)方法一直以來被維數(shù)災(zāi)難困擾,在系統(tǒng)狀態(tài)、動作維數(shù)較多時,會導(dǎo)致系統(tǒng)復(fù)雜性提高,帶來極高的學(xué)習(xí)成本。在無人機數(shù)據(jù)采集場景中傳感器節(jié)點數(shù)量較多,系統(tǒng)狀態(tài)空間復(fù)雜,使用Semi-Markov-Option分層強化學(xué)習(xí)方法[22,23],來解決狀態(tài)空間復(fù)雜與模型訓(xùn)練困難問題。Semi-Markov-Option用三元組 <φ,μ,β> 表示,φ表示option啟動狀態(tài)集;μ表示option內(nèi)部策略;β表示option終止條件。引入Semi-Markov-Option形成半馬爾科夫過程,option覆蓋所有基本動作時可以確定固定策略μ[24]。

        策略μ的狀態(tài)-option值函數(shù)表示如式(12)所示

        (12)

        其中,R(s,o) 為智能體在s時執(zhí)行o獲得的累積獎勵,γ為折扣因子,P(s′|s,o) 為狀態(tài)轉(zhuǎn)移概率。狀態(tài)-option值函數(shù)對應(yīng)的貝爾曼最優(yōu)方程表示如式(13)所示,可以使用時序差分方法求解

        (13)

        使用Semi-Markov-Option進行建模如下所示:

        (1)狀態(tài)空間S

        狀態(tài)空間S包括傳感器節(jié)點SR狀態(tài)SSR與無人機狀態(tài)Su,表示如式(14)所示

        (14)

        (2)動作空間A

        無人機的基本動作空間A包括懸停動作astay、勻速直線飛行動作afly與數(shù)據(jù)采集動作acollect,表示如式(15)所示

        (15)

        (3)option空間O

        (4)立即獎勵Ro

        無人機每執(zhí)行完一個option后,觀察環(huán)境狀態(tài)后得到立即回報獎勵Ro,包括距離懲罰Rd、數(shù)據(jù)采集獎勵Rc、重復(fù)訪問懲罰Rr、能量懲罰Rw。Rd表示如式(16)所示

        Rd=-kddo

        (16)

        其中,kd為正常數(shù),do為無人機在選項中的飛行距離。Rd與飛行距離成線性關(guān)系,使無人機不會優(yōu)先訪問距離過遠的傳感器節(jié)點。

        Rc表示如式(17)所示

        Rc=-kcLo

        (17)

        式中:kc為正常數(shù),Lo為無人機在選項中采集的數(shù)據(jù)量。

        為了加快數(shù)據(jù)采集效率,避免無人機重復(fù)訪問節(jié)點的現(xiàn)象。無人機執(zhí)行oSR選項時,可能遭受重復(fù)訪問懲罰Rr,如式(18)所示

        (18)

        其中,kr為正常數(shù), SRt為無人機執(zhí)行選項時訪問的節(jié)點,HSR表示已訪問節(jié)點集合。

        Rw表示如式(19)所示

        (19)

        2.3 SMO-Rainbow策略

        rainbow算法在DQN算法中融合了多種改進算法[25],其優(yōu)點在于多種組件可以相互組合。選取效果突出的Double DQN、Dueling DQN以及Prioritized Replay Buffer等方法組成的rainbow深度強化學(xué)算法,結(jié)合Semi-Markov-Option方法,提出SMO-Rainbow(Semi-Markov-Option-Rainbow)無人機路徑規(guī)劃策略。

        (20)

        與DQN算法相同,通過迭代Q值訓(xùn)練當(dāng)前值網(wǎng)絡(luò),每隔一定步長同步當(dāng)前值網(wǎng)絡(luò)參數(shù)到目標(biāo)值網(wǎng)絡(luò)。經(jīng)驗池M中的一個樣本為 (s,o,r,s′,done),done∈{True,False} 表示任務(wù)是否完成。TD-errorδ表示如式(21)所示

        (21)

        (22)

        網(wǎng)絡(luò)結(jié)構(gòu)采用全連接神經(jīng)網(wǎng)絡(luò),包括兩層隱藏層與dueling層,網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。網(wǎng)絡(luò)輸入為環(huán)境狀態(tài)S,隱藏層神經(jīng)元個數(shù)分別為1024與512,dueling層包含價值函數(shù)網(wǎng)絡(luò)與優(yōu)勢函數(shù)網(wǎng)絡(luò),組合輸出各個option的預(yù)測Q值。網(wǎng)絡(luò)中隱藏層、dueling層采用激活函數(shù)為ReLU(rectified linear unit),損失函數(shù)采用huber loss。

        圖2 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

        SMO-Rainbow路徑規(guī)劃策略包括深度強化學(xué)習(xí)模型的訓(xùn)練與應(yīng)用,策略偽代碼如算法1所示。

        算法1:SMO-Rainbow策略

        輸入:狀態(tài)空間S,option空間O,神經(jīng)網(wǎng)絡(luò)參數(shù)ω與ω-=ω,網(wǎng)絡(luò)更新步長λ,優(yōu)先級經(jīng)驗池M,探索策略π,最大任務(wù)訓(xùn)練次數(shù)Emax,折扣因子γ,批更新大小BS

        輸出:最優(yōu)option集合Oop={o1,o2,…}

        (1) for 每次數(shù)據(jù)采集任務(wù) do

        (2) 初始化環(huán)境狀態(tài)s=s0, 初始化傳感器節(jié)點緩存空間LSRi, 初始化區(qū)域行人流量, 初始化無人機緩存空間Lu、 最大可用能量以及空間坐標(biāo)位置

        (3) for 每個時間步長 do

        (4) u根據(jù)探索策略π執(zhí)行選項o得到樣本 (st,ot,rt,st+1,done), 更新s

        (5) 根據(jù)式 (21) 計算 (st,ot,rt,st+1,done) 的δ與樣本存入M中

        (6) if M中樣本數(shù)>BS then

        (7) 根據(jù)式 (22) 從M中取出BS個樣本

        (8) 批量更新網(wǎng)絡(luò)參數(shù)ω

        (9) if 網(wǎng)絡(luò)更新次數(shù)為λ的倍數(shù) then

        (10) 更新ω-=ω

        (11) end if

        (12) end if

        (13) end for

        (14) end for

        (15)s=s0

        (16) for 每個時間步 do

        (18) 更新環(huán)境狀態(tài)s=st+1與無人機選項集合Oop

        (19) ifdone=True then

        (20) returnOop

        (21) end if

        (22) end for

        (23) returnOop

        2.4 AT-ε-greedy探索策略

        ε-greedy策略是一種隨機性策略,廣泛應(yīng)用于深度強化學(xué)習(xí)中。其通過比較隨機數(shù)與ε來選擇動作,當(dāng)隨機數(shù)小于ε時將隨機選擇一個動作否則選擇最優(yōu)動作。但在該策略中,ε值的選擇是一個難題,不同的取值對于模型性能有著較大的影響。

        為了平衡深度強化學(xué)習(xí)模型在訓(xùn)練過程中的探索與利用階段,結(jié)合Tanh函數(shù),對ε-greedy策略進行改進,提出AT-ε-greedy(adaptive-tanh-ε-greedy)探索策略。ε表示如式(23)所示

        (23)

        其中,ε隨著任務(wù)訓(xùn)練次數(shù)e的增加而減少。Tanh函數(shù)表示如式(24)所示

        (24)

        εmin設(shè)為0.1,ε0設(shè)為0.9時,式(23)函數(shù)圖像如圖3所示。利用Tanh函數(shù)在自變量大于0時梯度變化由高到低的特征,使得模型在訓(xùn)練前期注重探索,訓(xùn)練后期注重利用。

        圖3 不同最大任務(wù)訓(xùn)練次數(shù)ε(e)函數(shù)圖像

        3 實驗結(jié)果與分析

        3.1 仿真環(huán)境

        仿真平臺環(huán)境配置見表1,采用編程語言為Python3.6,深度學(xué)習(xí)框架為Tensorflow2.1。

        表1 仿真平臺環(huán)境配置

        無線傳感器網(wǎng)絡(luò)仿真參數(shù)見表2,傳感器節(jié)點采用隨機分布的方式部署于網(wǎng)絡(luò)區(qū)域中。節(jié)點緩存空間上限設(shè)置為200 KB,在本文情景中節(jié)點存儲的數(shù)據(jù)為傳感器采集的環(huán)境信息與行人操作的緩存記錄,節(jié)點每次收集存儲的數(shù)據(jù)量較小,在無人機執(zhí)行一次數(shù)據(jù)采集任務(wù)的過程中不會出現(xiàn)節(jié)點信息溢出的情況。

        使用基于社會力模型的AnyLogic以觀光農(nóng)業(yè)園區(qū)為背景對無線傳感器網(wǎng)絡(luò)區(qū)域進行行人仿真,得到區(qū)域中的行人流動數(shù)據(jù)源。

        表2 無線傳感器網(wǎng)絡(luò)仿真參數(shù)

        3.2 訓(xùn)練與應(yīng)用

        3.2.1 模型訓(xùn)練

        模型采用AT-ε-greedy策略,超參數(shù)見表3。

        表3 模型訓(xùn)練超參數(shù)

        訓(xùn)練中任務(wù)累積獎勵、無人機剩余可用能量、無人機飛行距離、數(shù)據(jù)采集效率以及具體無人機飛行路徑如下所示:

        (1)訓(xùn)練過程中任務(wù)累積獎勵變化情況如圖4所示。任務(wù)累積獎勵在模型訓(xùn)練的初始階段累積獎勵較低并伴隨著較大的波動性,原因包括動作選擇具有一定隨機性以及模型在訓(xùn)練初始階段性能較差。但是隨訓(xùn)練次數(shù)增加整體呈上升趨勢。

        圖4 訓(xùn)練過程中任務(wù)累積獎勵

        (2)訓(xùn)練過程中無人機消耗能量變化情況如圖5所示,隨訓(xùn)練次數(shù)增加整體呈下降趨勢。

        圖5 訓(xùn)練過程中無人機消耗能量

        (3)訓(xùn)練過程中無人機飛行總距離變化情況如圖6所示,隨訓(xùn)練次數(shù)增加整體呈下降趨勢。

        圖6 訓(xùn)練過程中無人機飛行總距離

        (4)訓(xùn)練中無人機每步飛行距離均方差變化情況如圖7所示。雖然無人機每次選擇不同路徑會導(dǎo)致飛行距離均方差存在波動,但是隨著訓(xùn)練次數(shù)增加也會較快下降并到達穩(wěn)定值附近。ηc呈現(xiàn)出一定的波動性,主要是因為模型在訓(xùn)練過程中選項的選擇存在著一定的隨機探索性,當(dāng)智能體做出隨機選項后會較大影響到本次路徑規(guī)劃的單步飛行距離均方差。

        圖7 訓(xùn)練過程中無人機每步飛行距離均方差

        (5)訓(xùn)練過程中數(shù)據(jù)采集量變化情況如圖8所示。

        圖8 訓(xùn)練過程中無人機數(shù)據(jù)采集量變化

        在訓(xùn)練的初始階段無人機并不能夠在較短時間內(nèi)順利地訪問所有需要采集的節(jié)點及時地完成采集任務(wù),導(dǎo)致無人機在無線傳感器網(wǎng)絡(luò)中飛行時間較長且出現(xiàn)重復(fù)采集現(xiàn)象,因此在訓(xùn)練的初始階段無人機的數(shù)據(jù)采集量較多。隨著訓(xùn)練次數(shù)增多,模型效果變好,無人機完成一次數(shù)據(jù)采集任務(wù)的速度加快,因此數(shù)據(jù)采集量呈下降趨勢。訓(xùn)練次數(shù)達到1000輪后無人機能夠較為迅速地完成采集任務(wù),采集的數(shù)據(jù)量逐漸趨于平緩。

        (6)無人機在數(shù)據(jù)采集任務(wù)中的數(shù)據(jù)采集效率使用數(shù)據(jù)采集總量與消耗能量之比ηc表示,訓(xùn)練過程中ηc的變化情況如圖9所示。由圖9中不難看出,隨著訓(xùn)練次數(shù)的增加,無人機的數(shù)據(jù)采集效率得到了顯著提升。ηc呈現(xiàn)出一定的波動性,是因為模型訓(xùn)練過程中采用了隨機探索策略,訓(xùn)練后期選項的選擇依然存在著較小的隨機性。

        圖9 訓(xùn)練過程中ηc

        (7)訓(xùn)練過程中無人機飛行路徑如圖10所示。

        圖10 訓(xùn)練過程中無人機飛行路徑

        圖10中,帶箭頭細線條為無人機訪問節(jié)點路徑,帶箭頭粗線條為無人機返航路徑。可以明顯看到,在訓(xùn)練的初始階段,無人機會出現(xiàn)重復(fù)訪問相同節(jié)點、漏訪問某節(jié)點以及每步飛行距離過長的情況。但在訓(xùn)練后期,以上問題得以改善。無人機可以實現(xiàn)以優(yōu)化軌跡遍歷區(qū)域中的各個節(jié)點。

        3.2.2 模型應(yīng)用

        模型訓(xùn)練完畢后采用貪婪策略,無人機每次選擇模型預(yù)測的最優(yōu)選項。共計進行100次仿真飛行。無人機在數(shù)據(jù)采集中消耗的總能量平均值為87.34,采集的數(shù)據(jù)總量平均值為3468.27,ηc平均值為39.71。模型應(yīng)用得到的部分飛行軌跡圖結(jié)果如圖11所示。由圖中不難看出,無人機飛行軌跡規(guī)劃有序,沒有長距離跳步出現(xiàn),能夠根據(jù)數(shù)據(jù)對象的特性與變化實現(xiàn)軌跡優(yōu)化適配。

        圖11 應(yīng)用中的無人機飛行路徑軌跡

        3.3 方法比較與分析

        3.3.1 不同探索策略比較

        在SMO-Rainbow路徑規(guī)劃策略中分別使用基于固定值的ε-greedy策略與AT-ε-greedy策略,最大的任務(wù)訓(xùn)練次數(shù)設(shè)為1000次,基于固定值的ε-greedy策略中分別采用不同值,AT-ε-greedy策略的ε0設(shè)為0.9,εmin設(shè)為0.05。每訓(xùn)練100輪的ηc變化曲線如圖12所示。在訓(xùn)練初期使用AT-ε-greedy策略的ηc小于使用固定值ε-greedy策略的模型;但在600輪后,使用AT-ε-greedy策略模型的效果以及上升趨勢都超過了其它基于固定值ε-greedy策略??梢园l(fā)現(xiàn),AT-ε-greedy策略相對于基于固定值的ε-greedy策略有著更好的性能。

        圖12 不同探索策略訓(xùn)練過程中ηc變化曲線

        3.3.2 不同路徑規(guī)劃策略比較

        與基于蟻群算法與遺傳算法經(jīng)典路徑規(guī)劃策略進行仿真比較。蟻群算法仿真中螞蟻數(shù)量設(shè)為200,信息影響因子設(shè)為0.0001,期望影響因子設(shè)為10,信息揮發(fā)速率為0.1。遺傳算法仿真中群體大小設(shè)為200,終止進化代數(shù)為500,交叉概率為0.2,變異概率為0.1。比較結(jié)果見表4。SMO-Rainbow策略在無人機能耗與采集數(shù)據(jù)量方面均優(yōu)于其它兩種算法,且ηc最高。

        表4 SMO-Rainbow與經(jīng)典路徑規(guī)劃策略結(jié)果比較

        對基于rainbow但未結(jié)合Semi-Markov-Option的路徑規(guī)劃策略與SMO-Rainbow策略進行比較實驗,兩者比較結(jié)果見表5,rainbow策略中模型所需的訓(xùn)練時間、訓(xùn)練難度與算法執(zhí)行時間遠大于SMO-Rainbow。主要原因包括無人機智能體以基本動作訪問傳感器節(jié)點進行數(shù)據(jù)采集時,智能體需要嚴(yán)格地按序執(zhí)行作用于節(jié)點的基本動作才可以成功采集數(shù)據(jù),使得采集獎勵變?yōu)橄∈瑾剟?,并且完成一次?shù)據(jù)采集任務(wù)智能體需要執(zhí)行的動作數(shù)也會增加,環(huán)境可能到達的狀態(tài)數(shù)也隨之增加,從而極大地提高了訓(xùn)練的難度。而結(jié)合Semi-Markov-Option方法對動作進行分層可以有效地降低智能體獲取獎勵的難度,并減少數(shù)據(jù)采集任務(wù)中系統(tǒng)可能到達的狀態(tài)數(shù),有效地降低模型訓(xùn)練的難度。

        表5 rainbow與SMO-Rainbow比較結(jié)果

        與基于不同深度強化學(xué)習(xí)算法的路徑規(guī)劃策略進行比較分析,對DQN、Double DQN、Double DQN引入Dueling DQN的Dueling DDQN、在Double DQN中加入Prioritized Replay Buffer的Prioritized DDQN以及SMO-Rainbow進行比較實驗,各路徑規(guī)劃策略中均結(jié)合Semi-Markov-Option方法,除了相應(yīng)的改進部分,其它參數(shù)均相同。平均ηc比較結(jié)果如圖13所示。其中DQN算法在訓(xùn)練過程中并不穩(wěn)定,累積回報與ηc在最后階段均出現(xiàn)了下降的趨勢,導(dǎo)致模型的訓(xùn)練效果變差。Double DQN相比DQN訓(xùn)練穩(wěn)定性有一定提升。Dueling DDQN與Prioritized DDQN在DDQN的基礎(chǔ)上分別加入了Dueling子網(wǎng)絡(luò)結(jié)構(gòu)與Prioritized Replay Buffer機制,累積回報與ηc均有較大的提升。Prioritized DDQN因為優(yōu)先級重放機制在第1000輪至1600輪模型的訓(xùn)練速度要快于Dueling DDQN。SMO-Rainbow策略訓(xùn)練中的數(shù)據(jù)采集效率ηc都要優(yōu)于其它深度強化學(xué)習(xí)路徑規(guī)劃策略。

        圖13 不同深度強化學(xué)習(xí)算法訓(xùn)練過程中ηc比較

        將訓(xùn)練好的各深度強化學(xué)習(xí)模型應(yīng)用于數(shù)據(jù)采集任務(wù),得到任務(wù)累積獎勵與數(shù)據(jù)采集效率ηc的比較結(jié)果見表6。其中SMO-Rainbow路徑規(guī)劃策略數(shù)據(jù)采集效率最優(yōu)。

        4 結(jié)束語

        本文基于深度強化學(xué)習(xí)方法,結(jié)合觀光農(nóng)業(yè)園區(qū)多業(yè)務(wù)無線傳感器網(wǎng)絡(luò)的背景與特點,面向無人機輔助數(shù)據(jù)采集問題,提出SMO-Rainbow路徑規(guī)劃策略,并在深度強化學(xué)習(xí)模型訓(xùn)練中采用AT-ε-greedy探索策略。最后仿真實驗結(jié)果表明,在觀光農(nóng)業(yè)數(shù)據(jù)采集問題中,所提出的無人機路徑規(guī)劃策略可以有效地降低無人機飛行距離與能量損耗,提高數(shù)據(jù)采集效率。AT-ε-greedy探索策略性能也要優(yōu)于基于固定值的ε-greedy探索策略。與未結(jié)合Semi-Markov-Option的rainbow路徑規(guī)劃策略相比,SMO-Rainbow策略有效地降低了網(wǎng)絡(luò)模型的訓(xùn)練難度,減少模型的訓(xùn)練時間與策略執(zhí)行時間。與其它經(jīng)典路徑規(guī)劃策略和深度強化學(xué)習(xí)路徑規(guī)劃策略相比,本文所提出的無人機路徑規(guī)劃策略的性能表現(xiàn)更優(yōu)。在未來的研究中,可以進一步優(yōu)化無線傳感器網(wǎng)絡(luò)人因模型,并考慮無人機輸出連續(xù)動作情況,對實際應(yīng)用中出現(xiàn)的高維度與連續(xù)動作空間的問題進行進一步研究。

        表6 不同深度強化學(xué)習(xí)算法應(yīng)用結(jié)果

        猜你喜歡
        規(guī)劃傳感器節(jié)點
        CM節(jié)點控制在船舶上的應(yīng)用
        康奈爾大學(xué)制造出可拉伸傳感器
        Analysis of the characteristics of electronic equipment usage distance for common users
        基于AutoCAD的門窗節(jié)點圖快速構(gòu)建
        簡述傳感器在物聯(lián)網(wǎng)中的應(yīng)用
        電子制作(2019年22期)2020-01-14 03:16:52
        “傳感器新聞”會帶來什么
        傳媒評論(2019年5期)2019-08-30 03:50:18
        跟蹤導(dǎo)練(三)2
        規(guī)劃引領(lǐng)把握未來
        快遞業(yè)十三五規(guī)劃發(fā)布
        商周刊(2017年5期)2017-08-22 03:35:26
        多管齊下落實規(guī)劃
        国产国语熟妇视频在线观看| 色婷婷精品午夜在线播放| 日本亚洲精品一区二区三| 午夜毛片不卡免费观看视频| 欧美日韩亚洲精品瑜伽裤| 国产精品无码久久AⅤ人妖| 综合成人亚洲网友偷自拍| 免费不卡无码av在线观看| 国产人妻久久精品二区三区| 国产亚洲精品综合一区| 日本在线观看三级视频| 精品无码国产自产在线观看水浒传| 国产福利一区二区三区在线观看 | 一区二区三区日本大片| 麻豆成人久久精品二区三区免费 | 亚洲精品乱码久久久久久金桔影视 | 十八岁以下禁止观看黄下载链接 | 97女厕偷拍一区二区三区| 久久天堂av综合合色| 国产一区二区三区在线观看免费| 国产亚洲欧美另类久久久| 成人av资源在线观看| 曰本女人与公拘交酡| 暖暖免费 高清 日本社区在线观看| 亚洲av综合色区在线观看| 亚洲美女毛片在线视频| 久久精品免费一区二区三区 | 少妇高潮紧爽免费观看| 久久九九精品国产av| 国产精品爽黄69天堂a| 99热成人精品国产免| 国产一区二区熟女精品免费| 粗大的内捧猛烈进出小视频| 漂亮人妻被黑人久久精品| 在线播放中文字幕一区二区三区| 亚洲一区二区三区四区精品在线| av一区二区三区人妻少妇| 人妻精品久久中文字幕| 中文字幕一区二区三区乱码人妻| 老太脱裤子让老头玩xxxxx| 久久精品国产99精品国偷|