亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

面向智慧觀光農(nóng)業(yè)的無人機路徑規(guī)劃策略

2022-07-21 03:32:28萬雪芬劉會丹蔡婷婷

計算機工程與設(shè)計 2022年7期

張凡，萬雪芬，崔劍，劉會丹，蔡婷婷，楊義+

(1.東華大學(xué) 信息科學(xué)與技術(shù)學(xué)院，上海 201620；2.華北科技學(xué)院河北省物聯(lián)網(wǎng)監(jiān)控工程技術(shù)研究中心/計算機學(xué)院，河北廊坊 065201；3.北京航空航天大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院，北京 100083)

0 引言

休閑農(nóng)業(yè)和鄉(xiāng)村精品旅游工程建設(shè)是我國鄉(xiāng)村振興策略的重要組成部分[1,2]?；旌闲蜔o線傳感器網(wǎng)絡(luò)可以較好地滿足農(nóng)業(yè)智慧化管理并提供豐富多樣的農(nóng)業(yè)休閑觀光服務(wù)[3-6]。在通信能力較弱的偏遠地區(qū)建設(shè)用于觀光農(nóng)業(yè)的混合型無線傳感器網(wǎng)絡(luò)需要優(yōu)化的數(shù)據(jù)采集方案。

通過無人機作為混合型無線傳感器網(wǎng)絡(luò)的輔助數(shù)據(jù)采集手段具有廣闊的前景。使用無人機進行數(shù)據(jù)采集，可以有效地優(yōu)化網(wǎng)絡(luò)通信損耗與生命周期[7-11]。飛行路徑是無人機應(yīng)用中的核心問題。Praveen等提出了基于蟻群算法的路徑規(guī)劃數(shù)據(jù)采集策略[12]，但蟻群算法存在全局搜索能力差與收斂較慢等問題。牟治宇等基于分層強化學(xué)習(xí)與DQN(deep Q network)對無人機軌跡與充電問題進行優(yōu)化[13]，但是DQN存在過估計與學(xué)習(xí)效率低的問題，且未考慮節(jié)點數(shù)據(jù)實時變化場景。

目前對于具有較大人因隨機因素的混合型無線傳感器網(wǎng)絡(luò)中數(shù)據(jù)實時變化的無人機數(shù)據(jù)采集研究較少，且缺乏相應(yīng)的路徑規(guī)劃策略。針對以上問題，本文引入社會力模型獲得區(qū)域中行人流量變化與空間分布情況，完成傳感器節(jié)點動態(tài)數(shù)據(jù)特性分析，從而構(gòu)建觀光農(nóng)業(yè)無線傳感器網(wǎng)絡(luò)的可靠數(shù)據(jù)模式。針對DQN存在的收斂性與穩(wěn)定性差的缺點，引入Double DQN、Dueling DQN與Prioritized Replay Buffer方法，為了避免強化學(xué)習(xí)維數(shù)爆炸問題結(jié)合 Semi-Markov-Option方法，提出適用于觀光農(nóng)業(yè)數(shù)據(jù)采集問題的無人機路徑規(guī)劃策略。針對ε-greedy策略難以平衡探索與利用的問題，引入Tanh函數(shù)，提出AT-ε-greedy(adaptive-tanh-ε-greedy)探索策略進一步提高模型學(xué)習(xí)效果。

1 問題描述與系統(tǒng)模型

與傳統(tǒng)的旅行商問題(travelling salesman problem，TSP)不同，TSP問題的優(yōu)化目標(biāo)為尋找到遍歷所有節(jié)點并返回起點的最短路徑，一般在靜態(tài)環(huán)境下進行。而觀光農(nóng)業(yè)混合型無線傳感器網(wǎng)絡(luò)中傳感器節(jié)點數(shù)據(jù)是動態(tài)變化的，在不同人流分布區(qū)域中節(jié)點數(shù)據(jù)量變化情況不一致。在路徑規(guī)劃時需要考慮能量損耗與數(shù)據(jù)采集效率。

1.1 問題描述

傳感器節(jié)點隨機部署在區(qū)域內(nèi)，設(shè)區(qū)域中有N個需要采集的傳感器節(jié)點SRi，i∈[1,N]。無人機數(shù)據(jù)采集過程如圖1所示。

無人機從?？奎c出發(fā)，以勻速v在固定高度h下進行飛行，到達節(jié)點通信范圍后將會向節(jié)點發(fā)送激發(fā)信號，節(jié)點被喚醒后與無人機進行數(shù)據(jù)傳輸，將所有數(shù)據(jù)發(fā)送至無人機并清空緩存空間。若無人機至少訪問過一次所有節(jié)點或無人機最大可用能量Wmax消耗完畢，無人機將返回?？奎c結(jié)束本次數(shù)據(jù)采集任務(wù)。其中，Wmax為無人機總能量中除了用于返航任務(wù)外所能夠消耗的能量。

無人機在一次數(shù)據(jù)采集任務(wù)中采集數(shù)據(jù)總量為Ltotal，消耗總能量為Wtotal，問題優(yōu)化目標(biāo)表示如式(1)所示，使得一次數(shù)據(jù)采集任務(wù)中無人機的采集數(shù)據(jù)總量與消耗總能量之比最優(yōu)

(1)

1.2 系統(tǒng)模型

1.2.1 通信模型

無人機與傳感器節(jié)點之間的通信信道模型為空-地(air to ground，ATG)鏈路信道模型，ATG鏈路的平均路徑損耗Λ可表示如式(2)所示[14]

Λ=PLLOSP(LOS,θ)+PLNLOSP(NLOS,θ)

(2)

其中，P(LOS,θ) 為LOS信道模型在通信仰角為θ時出現(xiàn)的概率，可表示如式(3)所示

(3)

其中，a與b均為正常數(shù)，根據(jù)信號通信環(huán)境而定。P(LOS,θ) 隨θ增加而增大，當(dāng)θ為直角時LOS信道出現(xiàn)的概率最大。為了增加出現(xiàn)LOS信道概率優(yōu)化數(shù)據(jù)傳輸，無人機飛行到傳感器節(jié)點正上方使得θ接近于直角時，懸停在空中并進行數(shù)據(jù)采集。

1.2.2 能耗模型

無線傳感器網(wǎng)絡(luò)中各節(jié)點的數(shù)據(jù)緩存空間大小上限為Lmax，在t時刻時節(jié)點的緩存數(shù)據(jù)大小為Lt。假設(shè)無人機的數(shù)據(jù)緩存空間上限Lu遠大于Lmax。無人機在一次數(shù)據(jù)采集任務(wù)中的能量總消耗Wtotal包括接收傳感器節(jié)點發(fā)送數(shù)據(jù)的能量消耗WB、飛行能量消耗Wfly與懸停能量消耗Wstay。WB表示如式(4)所示

(4)

(5)

其中，Wv表示無人機在以速度v飛行單位時間消耗能量，Dfly表示無人機飛行距離。Wstay表示如式(6)所示

(6)

其中，Prec表示無人機接收數(shù)據(jù)速率，Ltotal表示無人機采集的總數(shù)據(jù)量，Wst表示無人機懸停單位時間消耗能量。

1.3 引入人流參量

混合型無線傳感器網(wǎng)絡(luò)中，節(jié)點數(shù)據(jù)增長速率與區(qū)域中行人流動有著密切關(guān)系。當(dāng)園區(qū)游客或管理人員在傳感器節(jié)點附近時，有較大概率會與節(jié)點產(chǎn)生交互動作，當(dāng)行人接入節(jié)點后，節(jié)點將會保存接入以及具體操作詳情等歷史記錄至數(shù)據(jù)緩存空間中[15]，從而影響傳感器節(jié)點數(shù)據(jù)增長速率。農(nóng)業(yè)觀光園區(qū)中人流的軌跡較為固定，人流分布隨著時間的變化較小?；谏鐣δＰ屠碚撃軌蛴行У赝瓿蓪^(qū)域中的人流仿真[16]，將人流參量引入無線傳感器網(wǎng)絡(luò)。

(7)

(8)

(9)

其中，lI為行人平均每次接入節(jié)點產(chǎn)生數(shù)據(jù)量，pI為節(jié)點感知區(qū)域中新增行人接入節(jié)點概率。

(10)

其中，kSRi表示節(jié)點SRi平均單位時間內(nèi)收集的環(huán)境數(shù)據(jù)量。

(11)

2 SMO-Rainbow路徑規(guī)劃策略

2.1 DQN算法及改進算法

DQN是深度強化學(xué)習(xí)領(lǐng)域中的重要算法[18]，引入當(dāng)前值神經(jīng)網(wǎng)絡(luò)與目標(biāo)值神經(jīng)網(wǎng)絡(luò)，每隔一定步長更新目標(biāo)值網(wǎng)絡(luò)，使網(wǎng)絡(luò)訓(xùn)練更加平穩(wěn)。采用經(jīng)驗回放機制，每次從經(jīng)驗池中隨機抽樣訓(xùn)練，減少數(shù)據(jù)相關(guān)性。網(wǎng)絡(luò)訓(xùn)練過程中，通過時間差分偏差δ(temporal difference error，TD-error)及損失函數(shù)更新網(wǎng)絡(luò)參數(shù)。

但DQN存在過估計、訓(xùn)練速度慢、學(xué)習(xí)效率低等問題，Double DQN通過解耦對下一狀態(tài)s’的動作選擇與動作Q值計算來解決DQN過大估計Q值問題[19]。Dueling DQN網(wǎng)絡(luò)結(jié)構(gòu)方面進行改進[20]，引入了價值函數(shù)網(wǎng)絡(luò)與優(yōu)勢函數(shù)網(wǎng)絡(luò)。Prioritized Replay Buffer算法為了增加高價值樣本被抽取學(xué)習(xí)的概率[21]，根據(jù)TD-error為樣本賦予優(yōu)先級。

2.2 Semi-Markov問題建模

強化學(xué)習(xí)方法一直以來被維數(shù)災(zāi)難困擾，在系統(tǒng)狀態(tài)、動作維數(shù)較多時，會導(dǎo)致系統(tǒng)復(fù)雜性提高，帶來極高的學(xué)習(xí)成本。在無人機數(shù)據(jù)采集場景中傳感器節(jié)點數(shù)量較多，系統(tǒng)狀態(tài)空間復(fù)雜，使用Semi-Markov-Option分層強化學(xué)習(xí)方法[22,23]，來解決狀態(tài)空間復(fù)雜與模型訓(xùn)練困難問題。Semi-Markov-Option用三元組 <φ,μ,β> 表示，φ表示option啟動狀態(tài)集；μ表示option內(nèi)部策略；β表示option終止條件。引入Semi-Markov-Option形成半馬爾科夫過程，option覆蓋所有基本動作時可以確定固定策略μ[24]。

策略μ的狀態(tài)-option值函數(shù)表示如式(12)所示

(12)

其中，R(s,o) 為智能體在s時執(zhí)行o獲得的累積獎勵，γ為折扣因子，P(s′|s,o) 為狀態(tài)轉(zhuǎn)移概率。狀態(tài)-option值函數(shù)對應(yīng)的貝爾曼最優(yōu)方程表示如式(13)所示，可以使用時序差分方法求解

(13)

使用Semi-Markov-Option進行建模如下所示：

(1)狀態(tài)空間S

狀態(tài)空間S包括傳感器節(jié)點SR狀態(tài)SSR與無人機狀態(tài)Su，表示如式(14)所示

(14)

(2)動作空間A

無人機的基本動作空間A包括懸停動作astay、勻速直線飛行動作afly與數(shù)據(jù)采集動作acollect，表示如式(15)所示

(15)

(3)option空間O

(4)立即獎勵Ro

無人機每執(zhí)行完一個option后，觀察環(huán)境狀態(tài)后得到立即回報獎勵Ro，包括距離懲罰Rd、數(shù)據(jù)采集獎勵Rc、重復(fù)訪問懲罰Rr、能量懲罰Rw。Rd表示如式(16)所示

Rd=-kddo

(16)

其中，kd為正常數(shù)，do為無人機在選項中的飛行距離。Rd與飛行距離成線性關(guān)系，使無人機不會優(yōu)先訪問距離過遠的傳感器節(jié)點。

Rc表示如式(17)所示

Rc=-kcLo

(17)

式中：kc為正常數(shù)，Lo為無人機在選項中采集的數(shù)據(jù)量。

為了加快數(shù)據(jù)采集效率，避免無人機重復(fù)訪問節(jié)點的現(xiàn)象。無人機執(zhí)行oSR選項時，可能遭受重復(fù)訪問懲罰Rr，如式(18)所示

(18)

其中，kr為正常數(shù)， SRt為無人機執(zhí)行選項時訪問的節(jié)點，HSR表示已訪問節(jié)點集合。

Rw表示如式(19)所示

(19)

2.3 SMO-Rainbow策略

rainbow算法在DQN算法中融合了多種改進算法[25]，其優(yōu)點在于多種組件可以相互組合。選取效果突出的Double DQN、Dueling DQN以及Prioritized Replay Buffer等方法組成的rainbow深度強化學(xué)算法，結(jié)合Semi-Markov-Option方法，提出SMO-Rainbow(Semi-Markov-Option-Rainbow)無人機路徑規(guī)劃策略。

(20)

與DQN算法相同，通過迭代Q值訓(xùn)練當(dāng)前值網(wǎng)絡(luò)，每隔一定步長同步當(dāng)前值網(wǎng)絡(luò)參數(shù)到目標(biāo)值網(wǎng)絡(luò)。經(jīng)驗池M中的一個樣本為 (s,o,r,s′,done)，done∈{True,False} 表示任務(wù)是否完成。TD-errorδ表示如式(21)所示

(21)

(22)

網(wǎng)絡(luò)結(jié)構(gòu)采用全連接神經(jīng)網(wǎng)絡(luò)，包括兩層隱藏層與dueling層，網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。網(wǎng)絡(luò)輸入為環(huán)境狀態(tài)S，隱藏層神經(jīng)元個數(shù)分別為1024與512，dueling層包含價值函數(shù)網(wǎng)絡(luò)與優(yōu)勢函數(shù)網(wǎng)絡(luò)，組合輸出各個option的預(yù)測Q值。網(wǎng)絡(luò)中隱藏層、dueling層采用激活函數(shù)為ReLU(rectified linear unit)，損失函數(shù)采用huber loss。

圖2 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

SMO-Rainbow路徑規(guī)劃策略包括深度強化學(xué)習(xí)模型的訓(xùn)練與應(yīng)用，策略偽代碼如算法1所示。

算法1：SMO-Rainbow策略

輸入：狀態(tài)空間S，option空間O，神經(jīng)網(wǎng)絡(luò)參數(shù)ω與ω-=ω，網(wǎng)絡(luò)更新步長λ，優(yōu)先級經(jīng)驗池M，探索策略π，最大任務(wù)訓(xùn)練次數(shù)Emax，折扣因子γ，批更新大小BS

輸出：最優(yōu)option集合Oop={o1,o2,…}

(1) for 每次數(shù)據(jù)采集任務(wù) do

(2) 初始化環(huán)境狀態(tài)s=s0，初始化傳感器節(jié)點緩存空間LSRi，初始化區(qū)域行人流量，初始化無人機緩存空間Lu、最大可用能量以及空間坐標(biāo)位置

(3) for 每個時間步長 do

(4) u根據(jù)探索策略π執(zhí)行選項o得到樣本 (st,ot,rt,st+1,done), 更新s

(5) 根據(jù)式 (21) 計算 (st,ot,rt,st+1,done) 的δ與樣本存入M中

(6) if M中樣本數(shù)>BS then

(7) 根據(jù)式 (22) 從M中取出BS個樣本

(8) 批量更新網(wǎng)絡(luò)參數(shù)ω

(9) if 網(wǎng)絡(luò)更新次數(shù)為λ的倍數(shù) then

(10) 更新ω-=ω

(11) end if

(12) end if

(13) end for

(14) end for

(15)s=s0

(16) for 每個時間步 do

(18) 更新環(huán)境狀態(tài)s=st+1與無人機選項集合Oop

(19) ifdone=True then

(20) returnOop

(21) end if

(22) end for

(23) returnOop

2.4 AT-ε-greedy探索策略

ε-greedy策略是一種隨機性策略，廣泛應(yīng)用于深度強化學(xué)習(xí)中。其通過比較隨機數(shù)與ε來選擇動作，當(dāng)隨機數(shù)小于ε時將隨機選擇一個動作否則選擇最優(yōu)動作。但在該策略中，ε值的選擇是一個難題，不同的取值對于模型性能有著較大的影響。

為了平衡深度強化學(xué)習(xí)模型在訓(xùn)練過程中的探索與利用階段，結(jié)合Tanh函數(shù)，對ε-greedy策略進行改進，提出AT-ε-greedy(adaptive-tanh-ε-greedy)探索策略。ε表示如式(23)所示

(23)

其中，ε隨著任務(wù)訓(xùn)練次數(shù)e的增加而減少。Tanh函數(shù)表示如式(24)所示

(24)

εmin設(shè)為0.1，ε0設(shè)為0.9時，式(23)函數(shù)圖像如圖3所示。利用Tanh函數(shù)在自變量大于0時梯度變化由高到低的特征，使得模型在訓(xùn)練前期注重探索，訓(xùn)練后期注重利用。

圖3 不同最大任務(wù)訓(xùn)練次數(shù)ε(e)函數(shù)圖像

3 實驗結(jié)果與分析

3.1 仿真環(huán)境

仿真平臺環(huán)境配置見表1，采用編程語言為Python3.6，深度學(xué)習(xí)框架為Tensorflow2.1。

表1 仿真平臺環(huán)境配置

無線傳感器網(wǎng)絡(luò)仿真參數(shù)見表2，傳感器節(jié)點采用隨機分布的方式部署于網(wǎng)絡(luò)區(qū)域中。節(jié)點緩存空間上限設(shè)置為200 KB，在本文情景中節(jié)點存儲的數(shù)據(jù)為傳感器采集的環(huán)境信息與行人操作的緩存記錄，節(jié)點每次收集存儲的數(shù)據(jù)量較小，在無人機執(zhí)行一次數(shù)據(jù)采集任務(wù)的過程中不會出現(xiàn)節(jié)點信息溢出的情況。

使用基于社會力模型的AnyLogic以觀光農(nóng)業(yè)園區(qū)為背景對無線傳感器網(wǎng)絡(luò)區(qū)域進行行人仿真，得到區(qū)域中的行人流動數(shù)據(jù)源。

表2 無線傳感器網(wǎng)絡(luò)仿真參數(shù)

3.2 訓(xùn)練與應(yīng)用

3.2.1 模型訓(xùn)練

模型采用AT-ε-greedy策略，超參數(shù)見表3。

表3 模型訓(xùn)練超參數(shù)

訓(xùn)練中任務(wù)累積獎勵、無人機剩余可用能量、無人機飛行距離、數(shù)據(jù)采集效率以及具體無人機飛行路徑如下所示：

(1)訓(xùn)練過程中任務(wù)累積獎勵變化情況如圖4所示。任務(wù)累積獎勵在模型訓(xùn)練的初始階段累積獎勵較低并伴隨著較大的波動性，原因包括動作選擇具有一定隨機性以及模型在訓(xùn)練初始階段性能較差。但是隨訓(xùn)練次數(shù)增加整體呈上升趨勢。

圖4 訓(xùn)練過程中任務(wù)累積獎勵

(2)訓(xùn)練過程中無人機消耗能量變化情況如圖5所示，隨訓(xùn)練次數(shù)增加整體呈下降趨勢。

圖5 訓(xùn)練過程中無人機消耗能量

(3)訓(xùn)練過程中無人機飛行總距離變化情況如圖6所示，隨訓(xùn)練次數(shù)增加整體呈下降趨勢。

圖6 訓(xùn)練過程中無人機飛行總距離

(4)訓(xùn)練中無人機每步飛行距離均方差變化情況如圖7所示。雖然無人機每次選擇不同路徑會導(dǎo)致飛行距離均方差存在波動，但是隨著訓(xùn)練次數(shù)增加也會較快下降并到達穩(wěn)定值附近。ηc呈現(xiàn)出一定的波動性，主要是因為模型在訓(xùn)練過程中選項的選擇存在著一定的隨機探索性，當(dāng)智能體做出隨機選項后會較大影響到本次路徑規(guī)劃的單步飛行距離均方差。

圖7 訓(xùn)練過程中無人機每步飛行距離均方差

(5)訓(xùn)練過程中數(shù)據(jù)采集量變化情況如圖8所示。

圖8 訓(xùn)練過程中無人機數(shù)據(jù)采集量變化

在訓(xùn)練的初始階段無人機并不能夠在較短時間內(nèi)順利地訪問所有需要采集的節(jié)點及時地完成采集任務(wù)，導(dǎo)致無人機在無線傳感器網(wǎng)絡(luò)中飛行時間較長且出現(xiàn)重復(fù)采集現(xiàn)象，因此在訓(xùn)練的初始階段無人機的數(shù)據(jù)采集量較多。隨著訓(xùn)練次數(shù)增多，模型效果變好，無人機完成一次數(shù)據(jù)采集任務(wù)的速度加快，因此數(shù)據(jù)采集量呈下降趨勢。訓(xùn)練次數(shù)達到1000輪后無人機能夠較為迅速地完成采集任務(wù)，采集的數(shù)據(jù)量逐漸趨于平緩。

(6)無人機在數(shù)據(jù)采集任務(wù)中的數(shù)據(jù)采集效率使用數(shù)據(jù)采集總量與消耗能量之比ηc表示，訓(xùn)練過程中ηc的變化情況如圖9所示。由圖9中不難看出，隨著訓(xùn)練次數(shù)的增加，無人機的數(shù)據(jù)采集效率得到了顯著提升。ηc呈現(xiàn)出一定的波動性，是因為模型訓(xùn)練過程中采用了隨機探索策略，訓(xùn)練后期選項的選擇依然存在著較小的隨機性。

圖9 訓(xùn)練過程中ηc

(7)訓(xùn)練過程中無人機飛行路徑如圖10所示。

圖10 訓(xùn)練過程中無人機飛行路徑

圖10中，帶箭頭細線條為無人機訪問節(jié)點路徑，帶箭頭粗線條為無人機返航路徑。可以明顯看到，在訓(xùn)練的初始階段，無人機會出現(xiàn)重復(fù)訪問相同節(jié)點、漏訪問某節(jié)點以及每步飛行距離過長的情況。但在訓(xùn)練后期，以上問題得以改善。無人機可以實現(xiàn)以優(yōu)化軌跡遍歷區(qū)域中的各個節(jié)點。

3.2.2 模型應(yīng)用

模型訓(xùn)練完畢后采用貪婪策略，無人機每次選擇模型預(yù)測的最優(yōu)選項。共計進行100次仿真飛行。無人機在數(shù)據(jù)采集中消耗的總能量平均值為87.34，采集的數(shù)據(jù)總量平均值為3468.27，ηc平均值為39.71。模型應(yīng)用得到的部分飛行軌跡圖結(jié)果如圖11所示。由圖中不難看出，無人機飛行軌跡規(guī)劃有序，沒有長距離跳步出現(xiàn)，能夠根據(jù)數(shù)據(jù)對象的特性與變化實現(xiàn)軌跡優(yōu)化適配。

圖11 應(yīng)用中的無人機飛行路徑軌跡

3.3 方法比較與分析

3.3.1 不同探索策略比較

在SMO-Rainbow路徑規(guī)劃策略中分別使用基于固定值的ε-greedy策略與AT-ε-greedy策略，最大的任務(wù)訓(xùn)練次數(shù)設(shè)為1000次，基于固定值的ε-greedy策略中分別采用不同值，AT-ε-greedy策略的ε0設(shè)為0.9，εmin設(shè)為0.05。每訓(xùn)練100輪的ηc變化曲線如圖12所示。在訓(xùn)練初期使用AT-ε-greedy策略的ηc小于使用固定值ε-greedy策略的模型；但在600輪后，使用AT-ε-greedy策略模型的效果以及上升趨勢都超過了其它基于固定值ε-greedy策略?？梢园l(fā)現(xiàn)，AT-ε-greedy策略相對于基于固定值的ε-greedy策略有著更好的性能。

圖12 不同探索策略訓(xùn)練過程中ηc變化曲線

3.3.2 不同路徑規(guī)劃策略比較

與基于蟻群算法與遺傳算法經(jīng)典路徑規(guī)劃策略進行仿真比較。蟻群算法仿真中螞蟻數(shù)量設(shè)為200，信息影響因子設(shè)為0.0001，期望影響因子設(shè)為10，信息揮發(fā)速率為0.1。遺傳算法仿真中群體大小設(shè)為200，終止進化代數(shù)為500，交叉概率為0.2，變異概率為0.1。比較結(jié)果見表4。SMO-Rainbow策略在無人機能耗與采集數(shù)據(jù)量方面均優(yōu)于其它兩種算法，且ηc最高。

表4 SMO-Rainbow與經(jīng)典路徑規(guī)劃策略結(jié)果比較

對基于rainbow但未結(jié)合Semi-Markov-Option的路徑規(guī)劃策略與SMO-Rainbow策略進行比較實驗，兩者比較結(jié)果見表5，rainbow策略中模型所需的訓(xùn)練時間、訓(xùn)練難度與算法執(zhí)行時間遠大于SMO-Rainbow。主要原因包括無人機智能體以基本動作訪問傳感器節(jié)點進行數(shù)據(jù)采集時，智能體需要嚴(yán)格地按序執(zhí)行作用于節(jié)點的基本動作才可以成功采集數(shù)據(jù)，使得采集獎勵變?yōu)橄∈瑾剟?，并且完成一次?shù)據(jù)采集任務(wù)智能體需要執(zhí)行的動作數(shù)也會增加，環(huán)境可能到達的狀態(tài)數(shù)也隨之增加，從而極大地提高了訓(xùn)練的難度。而結(jié)合Semi-Markov-Option方法對動作進行分層可以有效地降低智能體獲取獎勵的難度，并減少數(shù)據(jù)采集任務(wù)中系統(tǒng)可能到達的狀態(tài)數(shù)，有效地降低模型訓(xùn)練的難度。

表5 rainbow與SMO-Rainbow比較結(jié)果

與基于不同深度強化學(xué)習(xí)算法的路徑規(guī)劃策略進行比較分析，對DQN、Double DQN、Double DQN引入Dueling DQN的Dueling DDQN、在Double DQN中加入Prioritized Replay Buffer的Prioritized DDQN以及SMO-Rainbow進行比較實驗，各路徑規(guī)劃策略中均結(jié)合Semi-Markov-Option方法，除了相應(yīng)的改進部分，其它參數(shù)均相同。平均ηc比較結(jié)果如圖13所示。其中DQN算法在訓(xùn)練過程中并不穩(wěn)定，累積回報與ηc在最后階段均出現(xiàn)了下降的趨勢，導(dǎo)致模型的訓(xùn)練效果變差。Double DQN相比DQN訓(xùn)練穩(wěn)定性有一定提升。Dueling DDQN與Prioritized DDQN在DDQN的基礎(chǔ)上分別加入了Dueling子網(wǎng)絡(luò)結(jié)構(gòu)與Prioritized Replay Buffer機制，累積回報與ηc均有較大的提升。Prioritized DDQN因為優(yōu)先級重放機制在第1000輪至1600輪模型的訓(xùn)練速度要快于Dueling DDQN。SMO-Rainbow策略訓(xùn)練中的數(shù)據(jù)采集效率ηc都要優(yōu)于其它深度強化學(xué)習(xí)路徑規(guī)劃策略。

圖13 不同深度強化學(xué)習(xí)算法訓(xùn)練過程中ηc比較

將訓(xùn)練好的各深度強化學(xué)習(xí)模型應(yīng)用于數(shù)據(jù)采集任務(wù)，得到任務(wù)累積獎勵與數(shù)據(jù)采集效率ηc的比較結(jié)果見表6。其中SMO-Rainbow路徑規(guī)劃策略數(shù)據(jù)采集效率最優(yōu)。

4 結(jié)束語

本文基于深度強化學(xué)習(xí)方法，結(jié)合觀光農(nóng)業(yè)園區(qū)多業(yè)務(wù)無線傳感器網(wǎng)絡(luò)的背景與特點，面向無人機輔助數(shù)據(jù)采集問題，提出SMO-Rainbow路徑規(guī)劃策略，并在深度強化學(xué)習(xí)模型訓(xùn)練中采用AT-ε-greedy探索策略。最后仿真實驗結(jié)果表明，在觀光農(nóng)業(yè)數(shù)據(jù)采集問題中，所提出的無人機路徑規(guī)劃策略可以有效地降低無人機飛行距離與能量損耗，提高數(shù)據(jù)采集效率。AT-ε-greedy探索策略性能也要優(yōu)于基于固定值的ε-greedy探索策略。與未結(jié)合Semi-Markov-Option的rainbow路徑規(guī)劃策略相比，SMO-Rainbow策略有效地降低了網(wǎng)絡(luò)模型的訓(xùn)練難度，減少模型的訓(xùn)練時間與策略執(zhí)行時間。與其它經(jīng)典路徑規(guī)劃策略和深度強化學(xué)習(xí)路徑規(guī)劃策略相比，本文所提出的無人機路徑規(guī)劃策略的性能表現(xiàn)更優(yōu)。在未來的研究中，可以進一步優(yōu)化無線傳感器網(wǎng)絡(luò)人因模型，并考慮無人機輸出連續(xù)動作情況，對實際應(yīng)用中出現(xiàn)的高維度與連續(xù)動作空間的問題進行進一步研究。

表6 不同深度強化學(xué)習(xí)算法應(yīng)用結(jié)果