張 凡,萬雪芬,崔 劍,劉會丹,蔡婷婷,楊 義+
(1.東華大學(xué) 信息科學(xué)與技術(shù)學(xué)院,上海 201620;2.華北科技學(xué)院 河北省物聯(lián)網(wǎng)監(jiān)控工程技術(shù)研究 中心/計算機學(xué)院,河北 廊坊 065201;3.北京航空航天大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院,北京 100083)
休閑農(nóng)業(yè)和鄉(xiāng)村精品旅游工程建設(shè)是我國鄉(xiāng)村振興策略的重要組成部分[1,2]?;旌闲蜔o線傳感器網(wǎng)絡(luò)可以較好地滿足農(nóng)業(yè)智慧化管理并提供豐富多樣的農(nóng)業(yè)休閑觀光服務(wù)[3-6]。在通信能力較弱的偏遠地區(qū)建設(shè)用于觀光農(nóng)業(yè)的混合型無線傳感器網(wǎng)絡(luò)需要優(yōu)化的數(shù)據(jù)采集方案。
通過無人機作為混合型無線傳感器網(wǎng)絡(luò)的輔助數(shù)據(jù)采集手段具有廣闊的前景。使用無人機進行數(shù)據(jù)采集,可以有效地優(yōu)化網(wǎng)絡(luò)通信損耗與生命周期[7-11]。飛行路徑是無人機應(yīng)用中的核心問題。Praveen等提出了基于蟻群算法的路徑規(guī)劃數(shù)據(jù)采集策略[12],但蟻群算法存在全局搜索能力差與收斂較慢等問題。牟治宇等基于分層強化學(xué)習(xí)與DQN(deep Q network)對無人機軌跡與充電問題進行優(yōu)化[13],但是DQN存在過估計與學(xué)習(xí)效率低的問題,且未考慮節(jié)點數(shù)據(jù)實時變化場景。
目前對于具有較大人因隨機因素的混合型無線傳感器網(wǎng)絡(luò)中數(shù)據(jù)實時變化的無人機數(shù)據(jù)采集研究較少,且缺乏相應(yīng)的路徑規(guī)劃策略。針對以上問題,本文引入社會力模型獲得區(qū)域中行人流量變化與空間分布情況,完成傳感器節(jié)點動態(tài)數(shù)據(jù)特性分析,從而構(gòu)建觀光農(nóng)業(yè)無線傳感器網(wǎng)絡(luò)的可靠數(shù)據(jù)模式。針對DQN存在的收斂性與穩(wěn)定性差的缺點,引入Double DQN、Dueling DQN與Prioritized Replay Buffer方法,為了避免強化學(xué)習(xí)維數(shù)爆炸問題結(jié)合 Semi-Markov-Option方法,提出適用于觀光農(nóng)業(yè)數(shù)據(jù)采集問題的無人機路徑規(guī)劃策略。針對ε-greedy策略難以平衡探索與利用的問題,引入Tanh函數(shù),提出AT-ε-greedy(adaptive-tanh-ε-greedy)探索策略進一步提高模型學(xué)習(xí)效果。
與傳統(tǒng)的旅行商問題(travelling salesman problem,TSP)不同,TSP問題的優(yōu)化目標(biāo)為尋找到遍歷所有節(jié)點并返回起點的最短路徑,一般在靜態(tài)環(huán)境下進行。而觀光農(nóng)業(yè)混合型無線傳感器網(wǎng)絡(luò)中傳感器節(jié)點數(shù)據(jù)是動態(tài)變化的,在不同人流分布區(qū)域中節(jié)點數(shù)據(jù)量變化情況不一致。在路徑規(guī)劃時需要考慮能量損耗與數(shù)據(jù)采集效率。
傳感器節(jié)點隨機部署在區(qū)域內(nèi),設(shè)區(qū)域中有N個需要采集的傳感器節(jié)點SRi,i∈[1,N]。 無人機數(shù)據(jù)采集過程如圖1所示。
無人機從??奎c出發(fā),以勻速v在固定高度h下進行飛行,到達節(jié)點通信范圍后將會向節(jié)點發(fā)送激發(fā)信號,節(jié)點被喚醒后與無人機進行數(shù)據(jù)傳輸,將所有數(shù)據(jù)發(fā)送至無人機并清空緩存空間。若無人機至少訪問過一次所有節(jié)點或無人機最大可用能量Wmax消耗完畢,無人機將返回??奎c結(jié)束本次數(shù)據(jù)采集任務(wù)。其中,Wmax為無人機總能量中除了用于返航任務(wù)外所能夠消耗的能量。
無人機在一次數(shù)據(jù)采集任務(wù)中采集數(shù)據(jù)總量為Ltotal,消耗總能量為Wtotal,問題優(yōu)化目標(biāo)表示如式(1)所示,使得一次數(shù)據(jù)采集任務(wù)中無人機的采集數(shù)據(jù)總量與消耗總能量之比最優(yōu)
(1)
1.2.1 通信模型
無人機與傳感器節(jié)點之間的通信信道模型為空-地(air to ground,ATG)鏈路信道模型,ATG鏈路的平均路徑損耗Λ可表示如式(2)所示[14]
Λ=PLLOSP(LOS,θ)+PLNLOSP(NLOS,θ)
(2)
其中,P(LOS,θ) 為LOS信道模型在通信仰角為θ時出現(xiàn)的概率,可表示如式(3)所示
(3)
其中,a與b均為正常數(shù),根據(jù)信號通信環(huán)境而定。P(LOS,θ) 隨θ增加而增大,當(dāng)θ為直角時LOS信道出現(xiàn)的概率最大。為了增加出現(xiàn)LOS信道概率優(yōu)化數(shù)據(jù)傳輸,無人機飛行到傳感器節(jié)點正上方使得θ接近于直角時,懸停在空中并進行數(shù)據(jù)采集。
1.2.2 能耗模型
無線傳感器網(wǎng)絡(luò)中各節(jié)點的數(shù)據(jù)緩存空間大小上限為Lmax,在t時刻時節(jié)點的緩存數(shù)據(jù)大小為Lt。假設(shè)無人機的數(shù)據(jù)緩存空間上限Lu遠大于Lmax。無人機在一次數(shù)據(jù)采集任務(wù)中的能量總消耗Wtotal包括接收傳感器節(jié)點發(fā)送數(shù)據(jù)的能量消耗WB、飛行能量消耗Wfly與懸停能量消耗Wstay。WB表示如式(4)所示
(4)
(5)
其中,Wv表示無人機在以速度v飛行單位時間消耗能量,Dfly表示無人機飛行距離。Wstay表示如式(6)所示
(6)
其中,Prec表示無人機接收數(shù)據(jù)速率,Ltotal表示無人機采集的總數(shù)據(jù)量,Wst表示無人機懸停單位時間消耗能量。
混合型無線傳感器網(wǎng)絡(luò)中,節(jié)點數(shù)據(jù)增長速率與區(qū)域中行人流動有著密切關(guān)系。當(dāng)園區(qū)游客或管理人員在傳感器節(jié)點附近時,有較大概率會與節(jié)點產(chǎn)生交互動作,當(dāng)行人接入節(jié)點后,節(jié)點將會保存接入以及具體操作詳情等歷史記錄至數(shù)據(jù)緩存空間中[15],從而影響傳感器節(jié)點數(shù)據(jù)增長速率。農(nóng)業(yè)觀光園區(qū)中人流的軌跡較為固定,人流分布隨著時間的變化較小?;谏鐣δP屠碚撃軌蛴行У赝瓿蓪^(qū)域中的人流仿真[16],將人流參量引入無線傳感器網(wǎng)絡(luò)。
(7)
(8)
(9)
其中,lI為行人平均每次接入節(jié)點產(chǎn)生數(shù)據(jù)量,pI為節(jié)點感知區(qū)域中新增行人接入節(jié)點概率。
(10)
其中,kSRi表示節(jié)點SRi平均單位時間內(nèi)收集的環(huán)境數(shù)據(jù)量。
(11)
DQN是深度強化學(xué)習(xí)領(lǐng)域中的重要算法[18],引入當(dāng)前值神經(jīng)網(wǎng)絡(luò)與目標(biāo)值神經(jīng)網(wǎng)絡(luò),每隔一定步長更新目標(biāo)值網(wǎng)絡(luò),使網(wǎng)絡(luò)訓(xùn)練更加平穩(wěn)。采用經(jīng)驗回放機制,每次從經(jīng)驗池中隨機抽樣訓(xùn)練,減少數(shù)據(jù)相關(guān)性。網(wǎng)絡(luò)訓(xùn)練過程中,通過時間差分偏差δ(temporal difference error,TD-error)及損失函數(shù)更新網(wǎng)絡(luò)參數(shù)。
但DQN存在過估計、訓(xùn)練速度慢、學(xué)習(xí)效率低等問題,Double DQN通過解耦對下一狀態(tài)s’的動作選擇與動作Q值計算來解決DQN過大估計Q值問題[19]。Dueling DQN網(wǎng)絡(luò)結(jié)構(gòu)方面進行改進[20],引入了價值函數(shù)網(wǎng)絡(luò)與優(yōu)勢函數(shù)網(wǎng)絡(luò)。Prioritized Replay Buffer算法為了增加高價值樣本被抽取學(xué)習(xí)的概率[21],根據(jù)TD-error為樣本賦予優(yōu)先級。
強化學(xué)習(xí)方法一直以來被維數(shù)災(zāi)難困擾,在系統(tǒng)狀態(tài)、動作維數(shù)較多時,會導(dǎo)致系統(tǒng)復(fù)雜性提高,帶來極高的學(xué)習(xí)成本。在無人機數(shù)據(jù)采集場景中傳感器節(jié)點數(shù)量較多,系統(tǒng)狀態(tài)空間復(fù)雜,使用Semi-Markov-Option分層強化學(xué)習(xí)方法[22,23],來解決狀態(tài)空間復(fù)雜與模型訓(xùn)練困難問題。Semi-Markov-Option用三元組 <φ,μ,β> 表示,φ表示option啟動狀態(tài)集;μ表示option內(nèi)部策略;β表示option終止條件。引入Semi-Markov-Option形成半馬爾科夫過程,option覆蓋所有基本動作時可以確定固定策略μ[24]。
策略μ的狀態(tài)-option值函數(shù)表示如式(12)所示
(12)
其中,R(s,o) 為智能體在s時執(zhí)行o獲得的累積獎勵,γ為折扣因子,P(s′|s,o) 為狀態(tài)轉(zhuǎn)移概率。狀態(tài)-option值函數(shù)對應(yīng)的貝爾曼最優(yōu)方程表示如式(13)所示,可以使用時序差分方法求解
(13)
使用Semi-Markov-Option進行建模如下所示:
(1)狀態(tài)空間S
狀態(tài)空間S包括傳感器節(jié)點SR狀態(tài)SSR與無人機狀態(tài)Su,表示如式(14)所示
(14)
(2)動作空間A
無人機的基本動作空間A包括懸停動作astay、勻速直線飛行動作afly與數(shù)據(jù)采集動作acollect,表示如式(15)所示
(15)
(3)option空間O
(4)立即獎勵Ro
無人機每執(zhí)行完一個option后,觀察環(huán)境狀態(tài)后得到立即回報獎勵Ro,包括距離懲罰Rd、數(shù)據(jù)采集獎勵Rc、重復(fù)訪問懲罰Rr、能量懲罰Rw。Rd表示如式(16)所示
Rd=-kddo
(16)
其中,kd為正常數(shù),do為無人機在選項中的飛行距離。Rd與飛行距離成線性關(guān)系,使無人機不會優(yōu)先訪問距離過遠的傳感器節(jié)點。
Rc表示如式(17)所示
Rc=-kcLo
(17)
式中:kc為正常數(shù),Lo為無人機在選項中采集的數(shù)據(jù)量。
為了加快數(shù)據(jù)采集效率,避免無人機重復(fù)訪問節(jié)點的現(xiàn)象。無人機執(zhí)行oSR選項時,可能遭受重復(fù)訪問懲罰Rr,如式(18)所示
(18)
其中,kr為正常數(shù), SRt為無人機執(zhí)行選項時訪問的節(jié)點,HSR表示已訪問節(jié)點集合。
Rw表示如式(19)所示
(19)
rainbow算法在DQN算法中融合了多種改進算法[25],其優(yōu)點在于多種組件可以相互組合。選取效果突出的Double DQN、Dueling DQN以及Prioritized Replay Buffer等方法組成的rainbow深度強化學(xué)算法,結(jié)合Semi-Markov-Option方法,提出SMO-Rainbow(Semi-Markov-Option-Rainbow)無人機路徑規(guī)劃策略。
(20)
與DQN算法相同,通過迭代Q值訓(xùn)練當(dāng)前值網(wǎng)絡(luò),每隔一定步長同步當(dāng)前值網(wǎng)絡(luò)參數(shù)到目標(biāo)值網(wǎng)絡(luò)。經(jīng)驗池M中的一個樣本為 (s,o,r,s′,done),done∈{True,False} 表示任務(wù)是否完成。TD-errorδ表示如式(21)所示
(21)
(22)
網(wǎng)絡(luò)結(jié)構(gòu)采用全連接神經(jīng)網(wǎng)絡(luò),包括兩層隱藏層與dueling層,網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。網(wǎng)絡(luò)輸入為環(huán)境狀態(tài)S,隱藏層神經(jīng)元個數(shù)分別為1024與512,dueling層包含價值函數(shù)網(wǎng)絡(luò)與優(yōu)勢函數(shù)網(wǎng)絡(luò),組合輸出各個option的預(yù)測Q值。網(wǎng)絡(luò)中隱藏層、dueling層采用激活函數(shù)為ReLU(rectified linear unit),損失函數(shù)采用huber loss。
圖2 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
SMO-Rainbow路徑規(guī)劃策略包括深度強化學(xué)習(xí)模型的訓(xùn)練與應(yīng)用,策略偽代碼如算法1所示。
算法1:SMO-Rainbow策略
輸入:狀態(tài)空間S,option空間O,神經(jīng)網(wǎng)絡(luò)參數(shù)ω與ω-=ω,網(wǎng)絡(luò)更新步長λ,優(yōu)先級經(jīng)驗池M,探索策略π,最大任務(wù)訓(xùn)練次數(shù)Emax,折扣因子γ,批更新大小BS
輸出:最優(yōu)option集合Oop={o1,o2,…}
(1) for 每次數(shù)據(jù)采集任務(wù) do
(2) 初始化環(huán)境狀態(tài)s=s0, 初始化傳感器節(jié)點緩存空間LSRi, 初始化區(qū)域行人流量, 初始化無人機緩存空間Lu、 最大可用能量以及空間坐標(biāo)位置
(3) for 每個時間步長 do
(4) u根據(jù)探索策略π執(zhí)行選項o得到樣本 (st,ot,rt,st+1,done), 更新s
(5) 根據(jù)式 (21) 計算 (st,ot,rt,st+1,done) 的δ與樣本存入M中
(6) if M中樣本數(shù)>BS then
(7) 根據(jù)式 (22) 從M中取出BS個樣本
(8) 批量更新網(wǎng)絡(luò)參數(shù)ω
(9) if 網(wǎng)絡(luò)更新次數(shù)為λ的倍數(shù) then
(10) 更新ω-=ω
(11) end if
(12) end if
(13) end for
(14) end for
(15)s=s0
(16) for 每個時間步 do
(18) 更新環(huán)境狀態(tài)s=st+1與無人機選項集合Oop
(19) ifdone=True then
(20) returnOop
(21) end if
(22) end for
(23) returnOop
ε-greedy策略是一種隨機性策略,廣泛應(yīng)用于深度強化學(xué)習(xí)中。其通過比較隨機數(shù)與ε來選擇動作,當(dāng)隨機數(shù)小于ε時將隨機選擇一個動作否則選擇最優(yōu)動作。但在該策略中,ε值的選擇是一個難題,不同的取值對于模型性能有著較大的影響。
為了平衡深度強化學(xué)習(xí)模型在訓(xùn)練過程中的探索與利用階段,結(jié)合Tanh函數(shù),對ε-greedy策略進行改進,提出AT-ε-greedy(adaptive-tanh-ε-greedy)探索策略。ε表示如式(23)所示
(23)
其中,ε隨著任務(wù)訓(xùn)練次數(shù)e的增加而減少。Tanh函數(shù)表示如式(24)所示
(24)
εmin設(shè)為0.1,ε0設(shè)為0.9時,式(23)函數(shù)圖像如圖3所示。利用Tanh函數(shù)在自變量大于0時梯度變化由高到低的特征,使得模型在訓(xùn)練前期注重探索,訓(xùn)練后期注重利用。
圖3 不同最大任務(wù)訓(xùn)練次數(shù)ε(e)函數(shù)圖像
仿真平臺環(huán)境配置見表1,采用編程語言為Python3.6,深度學(xué)習(xí)框架為Tensorflow2.1。
表1 仿真平臺環(huán)境配置
無線傳感器網(wǎng)絡(luò)仿真參數(shù)見表2,傳感器節(jié)點采用隨機分布的方式部署于網(wǎng)絡(luò)區(qū)域中。節(jié)點緩存空間上限設(shè)置為200 KB,在本文情景中節(jié)點存儲的數(shù)據(jù)為傳感器采集的環(huán)境信息與行人操作的緩存記錄,節(jié)點每次收集存儲的數(shù)據(jù)量較小,在無人機執(zhí)行一次數(shù)據(jù)采集任務(wù)的過程中不會出現(xiàn)節(jié)點信息溢出的情況。
使用基于社會力模型的AnyLogic以觀光農(nóng)業(yè)園區(qū)為背景對無線傳感器網(wǎng)絡(luò)區(qū)域進行行人仿真,得到區(qū)域中的行人流動數(shù)據(jù)源。
表2 無線傳感器網(wǎng)絡(luò)仿真參數(shù)
3.2.1 模型訓(xùn)練
模型采用AT-ε-greedy策略,超參數(shù)見表3。
表3 模型訓(xùn)練超參數(shù)
訓(xùn)練中任務(wù)累積獎勵、無人機剩余可用能量、無人機飛行距離、數(shù)據(jù)采集效率以及具體無人機飛行路徑如下所示:
(1)訓(xùn)練過程中任務(wù)累積獎勵變化情況如圖4所示。任務(wù)累積獎勵在模型訓(xùn)練的初始階段累積獎勵較低并伴隨著較大的波動性,原因包括動作選擇具有一定隨機性以及模型在訓(xùn)練初始階段性能較差。但是隨訓(xùn)練次數(shù)增加整體呈上升趨勢。
圖4 訓(xùn)練過程中任務(wù)累積獎勵
(2)訓(xùn)練過程中無人機消耗能量變化情況如圖5所示,隨訓(xùn)練次數(shù)增加整體呈下降趨勢。
圖5 訓(xùn)練過程中無人機消耗能量
(3)訓(xùn)練過程中無人機飛行總距離變化情況如圖6所示,隨訓(xùn)練次數(shù)增加整體呈下降趨勢。
圖6 訓(xùn)練過程中無人機飛行總距離
(4)訓(xùn)練中無人機每步飛行距離均方差變化情況如圖7所示。雖然無人機每次選擇不同路徑會導(dǎo)致飛行距離均方差存在波動,但是隨著訓(xùn)練次數(shù)增加也會較快下降并到達穩(wěn)定值附近。ηc呈現(xiàn)出一定的波動性,主要是因為模型在訓(xùn)練過程中選項的選擇存在著一定的隨機探索性,當(dāng)智能體做出隨機選項后會較大影響到本次路徑規(guī)劃的單步飛行距離均方差。
圖7 訓(xùn)練過程中無人機每步飛行距離均方差
(5)訓(xùn)練過程中數(shù)據(jù)采集量變化情況如圖8所示。
圖8 訓(xùn)練過程中無人機數(shù)據(jù)采集量變化
在訓(xùn)練的初始階段無人機并不能夠在較短時間內(nèi)順利地訪問所有需要采集的節(jié)點及時地完成采集任務(wù),導(dǎo)致無人機在無線傳感器網(wǎng)絡(luò)中飛行時間較長且出現(xiàn)重復(fù)采集現(xiàn)象,因此在訓(xùn)練的初始階段無人機的數(shù)據(jù)采集量較多。隨著訓(xùn)練次數(shù)增多,模型效果變好,無人機完成一次數(shù)據(jù)采集任務(wù)的速度加快,因此數(shù)據(jù)采集量呈下降趨勢。訓(xùn)練次數(shù)達到1000輪后無人機能夠較為迅速地完成采集任務(wù),采集的數(shù)據(jù)量逐漸趨于平緩。
(6)無人機在數(shù)據(jù)采集任務(wù)中的數(shù)據(jù)采集效率使用數(shù)據(jù)采集總量與消耗能量之比ηc表示,訓(xùn)練過程中ηc的變化情況如圖9所示。由圖9中不難看出,隨著訓(xùn)練次數(shù)的增加,無人機的數(shù)據(jù)采集效率得到了顯著提升。ηc呈現(xiàn)出一定的波動性,是因為模型訓(xùn)練過程中采用了隨機探索策略,訓(xùn)練后期選項的選擇依然存在著較小的隨機性。
圖9 訓(xùn)練過程中ηc
(7)訓(xùn)練過程中無人機飛行路徑如圖10所示。
圖10 訓(xùn)練過程中無人機飛行路徑
圖10中,帶箭頭細線條為無人機訪問節(jié)點路徑,帶箭頭粗線條為無人機返航路徑。可以明顯看到,在訓(xùn)練的初始階段,無人機會出現(xiàn)重復(fù)訪問相同節(jié)點、漏訪問某節(jié)點以及每步飛行距離過長的情況。但在訓(xùn)練后期,以上問題得以改善。無人機可以實現(xiàn)以優(yōu)化軌跡遍歷區(qū)域中的各個節(jié)點。
3.2.2 模型應(yīng)用
模型訓(xùn)練完畢后采用貪婪策略,無人機每次選擇模型預(yù)測的最優(yōu)選項。共計進行100次仿真飛行。無人機在數(shù)據(jù)采集中消耗的總能量平均值為87.34,采集的數(shù)據(jù)總量平均值為3468.27,ηc平均值為39.71。模型應(yīng)用得到的部分飛行軌跡圖結(jié)果如圖11所示。由圖中不難看出,無人機飛行軌跡規(guī)劃有序,沒有長距離跳步出現(xiàn),能夠根據(jù)數(shù)據(jù)對象的特性與變化實現(xiàn)軌跡優(yōu)化適配。
圖11 應(yīng)用中的無人機飛行路徑軌跡
3.3.1 不同探索策略比較
在SMO-Rainbow路徑規(guī)劃策略中分別使用基于固定值的ε-greedy策略與AT-ε-greedy策略,最大的任務(wù)訓(xùn)練次數(shù)設(shè)為1000次,基于固定值的ε-greedy策略中分別采用不同值,AT-ε-greedy策略的ε0設(shè)為0.9,εmin設(shè)為0.05。每訓(xùn)練100輪的ηc變化曲線如圖12所示。在訓(xùn)練初期使用AT-ε-greedy策略的ηc小于使用固定值ε-greedy策略的模型;但在600輪后,使用AT-ε-greedy策略模型的效果以及上升趨勢都超過了其它基于固定值ε-greedy策略??梢园l(fā)現(xiàn),AT-ε-greedy策略相對于基于固定值的ε-greedy策略有著更好的性能。
圖12 不同探索策略訓(xùn)練過程中ηc變化曲線
3.3.2 不同路徑規(guī)劃策略比較
與基于蟻群算法與遺傳算法經(jīng)典路徑規(guī)劃策略進行仿真比較。蟻群算法仿真中螞蟻數(shù)量設(shè)為200,信息影響因子設(shè)為0.0001,期望影響因子設(shè)為10,信息揮發(fā)速率為0.1。遺傳算法仿真中群體大小設(shè)為200,終止進化代數(shù)為500,交叉概率為0.2,變異概率為0.1。比較結(jié)果見表4。SMO-Rainbow策略在無人機能耗與采集數(shù)據(jù)量方面均優(yōu)于其它兩種算法,且ηc最高。
表4 SMO-Rainbow與經(jīng)典路徑規(guī)劃策略結(jié)果比較
對基于rainbow但未結(jié)合Semi-Markov-Option的路徑規(guī)劃策略與SMO-Rainbow策略進行比較實驗,兩者比較結(jié)果見表5,rainbow策略中模型所需的訓(xùn)練時間、訓(xùn)練難度與算法執(zhí)行時間遠大于SMO-Rainbow。主要原因包括無人機智能體以基本動作訪問傳感器節(jié)點進行數(shù)據(jù)采集時,智能體需要嚴(yán)格地按序執(zhí)行作用于節(jié)點的基本動作才可以成功采集數(shù)據(jù),使得采集獎勵變?yōu)橄∈瑾剟?,并且完成一次?shù)據(jù)采集任務(wù)智能體需要執(zhí)行的動作數(shù)也會增加,環(huán)境可能到達的狀態(tài)數(shù)也隨之增加,從而極大地提高了訓(xùn)練的難度。而結(jié)合Semi-Markov-Option方法對動作進行分層可以有效地降低智能體獲取獎勵的難度,并減少數(shù)據(jù)采集任務(wù)中系統(tǒng)可能到達的狀態(tài)數(shù),有效地降低模型訓(xùn)練的難度。
表5 rainbow與SMO-Rainbow比較結(jié)果
與基于不同深度強化學(xué)習(xí)算法的路徑規(guī)劃策略進行比較分析,對DQN、Double DQN、Double DQN引入Dueling DQN的Dueling DDQN、在Double DQN中加入Prioritized Replay Buffer的Prioritized DDQN以及SMO-Rainbow進行比較實驗,各路徑規(guī)劃策略中均結(jié)合Semi-Markov-Option方法,除了相應(yīng)的改進部分,其它參數(shù)均相同。平均ηc比較結(jié)果如圖13所示。其中DQN算法在訓(xùn)練過程中并不穩(wěn)定,累積回報與ηc在最后階段均出現(xiàn)了下降的趨勢,導(dǎo)致模型的訓(xùn)練效果變差。Double DQN相比DQN訓(xùn)練穩(wěn)定性有一定提升。Dueling DDQN與Prioritized DDQN在DDQN的基礎(chǔ)上分別加入了Dueling子網(wǎng)絡(luò)結(jié)構(gòu)與Prioritized Replay Buffer機制,累積回報與ηc均有較大的提升。Prioritized DDQN因為優(yōu)先級重放機制在第1000輪至1600輪模型的訓(xùn)練速度要快于Dueling DDQN。SMO-Rainbow策略訓(xùn)練中的數(shù)據(jù)采集效率ηc都要優(yōu)于其它深度強化學(xué)習(xí)路徑規(guī)劃策略。
圖13 不同深度強化學(xué)習(xí)算法訓(xùn)練過程中ηc比較
將訓(xùn)練好的各深度強化學(xué)習(xí)模型應(yīng)用于數(shù)據(jù)采集任務(wù),得到任務(wù)累積獎勵與數(shù)據(jù)采集效率ηc的比較結(jié)果見表6。其中SMO-Rainbow路徑規(guī)劃策略數(shù)據(jù)采集效率最優(yōu)。
本文基于深度強化學(xué)習(xí)方法,結(jié)合觀光農(nóng)業(yè)園區(qū)多業(yè)務(wù)無線傳感器網(wǎng)絡(luò)的背景與特點,面向無人機輔助數(shù)據(jù)采集問題,提出SMO-Rainbow路徑規(guī)劃策略,并在深度強化學(xué)習(xí)模型訓(xùn)練中采用AT-ε-greedy探索策略。最后仿真實驗結(jié)果表明,在觀光農(nóng)業(yè)數(shù)據(jù)采集問題中,所提出的無人機路徑規(guī)劃策略可以有效地降低無人機飛行距離與能量損耗,提高數(shù)據(jù)采集效率。AT-ε-greedy探索策略性能也要優(yōu)于基于固定值的ε-greedy探索策略。與未結(jié)合Semi-Markov-Option的rainbow路徑規(guī)劃策略相比,SMO-Rainbow策略有效地降低了網(wǎng)絡(luò)模型的訓(xùn)練難度,減少模型的訓(xùn)練時間與策略執(zhí)行時間。與其它經(jīng)典路徑規(guī)劃策略和深度強化學(xué)習(xí)路徑規(guī)劃策略相比,本文所提出的無人機路徑規(guī)劃策略的性能表現(xiàn)更優(yōu)。在未來的研究中,可以進一步優(yōu)化無線傳感器網(wǎng)絡(luò)人因模型,并考慮無人機輸出連續(xù)動作情況,對實際應(yīng)用中出現(xiàn)的高維度與連續(xù)動作空間的問題進行進一步研究。
表6 不同深度強化學(xué)習(xí)算法應(yīng)用結(jié)果