亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        無(wú)人機(jī)輔助移動(dòng)邊緣計(jì)算中的任務(wù)卸載算法

        2023-07-03 14:12:18李校林江雨桑
        計(jì)算機(jī)應(yīng)用 2023年6期
        關(guān)鍵詞:優(yōu)化系統(tǒng)

        李校林,江雨桑*

        (1.重慶郵電大學(xué) 通信與信息工程學(xué)院,重慶 400065;2.重慶郵電大學(xué) 通信新技術(shù)應(yīng)用研究中心,重慶 400065)

        0 引言

        為了滿足用戶多樣化的需求,越來(lái)越多的物聯(lián)網(wǎng)設(shè)備被部署到網(wǎng)絡(luò)中,大量設(shè)備接入無(wú)線網(wǎng)絡(luò)并且依靠在線資源處理各種任務(wù)。通過核心網(wǎng)絡(luò)卸載大量任務(wù),并在中央云服務(wù)器上處理會(huì)造成網(wǎng)絡(luò)流量擁塞,增加延遲。移動(dòng)邊緣計(jì)算(Mobile Edge Computing,MEC)[1]的出現(xiàn)緩解了這些問題,它可以將云計(jì)算資源和服務(wù)遷移到離終端更近的地方,從而有效降低通信延遲和能耗。

        MEC 網(wǎng)絡(luò)中,根據(jù)應(yīng)用場(chǎng)景[2],通常采用兩種卸載模式:部分卸載模式和二進(jìn)制計(jì)算模式。部分卸載模式是計(jì)算任務(wù)被分為幾個(gè)部分,其中一部分在本地計(jì)算,其他部分則通過卸載到MEC 服務(wù)器來(lái)計(jì)算。在對(duì)計(jì)算要求較高的場(chǎng)景中,計(jì)算量較低部分可以本地計(jì)算,計(jì)算量較高部分可以卸載計(jì)算。對(duì)于二進(jìn)制卸載模式,計(jì)算任務(wù)在本地計(jì)算或一起卸載計(jì)算。例如,在進(jìn)行信道狀態(tài)信息估計(jì)時(shí),為確保估計(jì)精度[3],必須將收集到的原始數(shù)據(jù)樣本作為一個(gè)整體進(jìn)行計(jì)算。

        雖然MEC 有許多優(yōu)點(diǎn),但在現(xiàn)有工作中,MEC 服務(wù)器的部署是固定的[4-5],隨時(shí)隨地部署MEC 服務(wù)器具有挑戰(zhàn)性。固定基礎(chǔ)設(shè)施提供的MEC 服務(wù)在通信設(shè)施稀疏或發(fā)生突發(fā)性自然災(zāi)害的情況下無(wú)法有效工作。由于無(wú)人機(jī)(Unmanned Aerial Vehicle,UAV)靈活機(jī)動(dòng)、易于部署、可快速響應(yīng),UAV 輔助MEC[6]系統(tǒng)被引入作為移動(dòng)用戶的計(jì)算服務(wù)器。通過在UAV 上的MEC 服務(wù)器提供額外的計(jì)算資源,能加快終端設(shè)備的計(jì)算,避免移動(dòng)用戶頻繁與云通信或?qū)⑷蝿?wù)上傳到云,從而緩解通信擁塞的問題。但UAV 輔助MEC系統(tǒng)仍存在許多挑戰(zhàn):如何選擇適當(dāng)?shù)慕K端設(shè)備調(diào)度來(lái)最小化所有終端的計(jì)算時(shí)延;如何在存在環(huán)境障礙(樹木或建筑物)的情況下動(dòng)態(tài)選擇合適的通信鏈路;如何實(shí)時(shí)控制UAV軌跡。因此,動(dòng)態(tài)選擇合適的通信鏈路和實(shí)時(shí)決策任務(wù)卸載比、控制UAV 軌跡在UAV 輔助MEC 系統(tǒng)中非常重要。本文的主要工作包括以下三方面:

        1)考慮存在障礙物遮擋情況下的UAV 輔助MEC 系統(tǒng),建立動(dòng)態(tài)信道下的任務(wù)卸載問題模型。在能量約束條件下,以最小化最大處理時(shí)延為目標(biāo),通過聯(lián)合優(yōu)化終端設(shè)備調(diào)度、UAV 軌跡和任務(wù)卸載比求解。

        2)針對(duì)上述任務(wù)卸載問題,設(shè)計(jì)了相應(yīng)的馬爾可夫決策過程(Markov Decision Process,MDP),提出一種基于雙延遲深度確定性策略梯度(Twin Delayed Deep Deterministic policy gradient,TD3)的時(shí)延最小化任務(wù)卸載算法(TD3 based Task Offloading Algorithm for Delay Minimization,TD3-TOADM)。該算法將MDP 元組作為訓(xùn)練樣本,在動(dòng)態(tài)信道條件下,實(shí)時(shí)控制UAV 軌跡和選擇最優(yōu)任務(wù)卸載比。

        3)仿真實(shí)驗(yàn)表明,在不同參數(shù)和通信條件下,本文算法的表現(xiàn)均優(yōu)于基于演員-評(píng)論家(Actor-Critic,AC)的任務(wù)卸載算法、基于深度Q 網(wǎng)絡(luò)(Deep Q-Network,DQN)的任務(wù)卸載算法和基于深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)的任務(wù)卸載算法。

        1 相關(guān)工作

        現(xiàn)在的很多研究工作是關(guān)于UAV 輔助MEC 中的計(jì)算卸載[7]和軌跡控制[8]的。我們根據(jù)所提方法及其研究目標(biāo)將UAV 輔助MEC 文獻(xiàn)分為以下幾種類型:

        1)最小化整個(gè)系統(tǒng)或移動(dòng)用戶的能耗。Xiong 等[9]為了減少推進(jìn)能量,提出UAV 只在特定時(shí)間或特定位置提供卸載計(jì)算服務(wù)。這種方案未有效發(fā)揮UAV 靈活機(jī)動(dòng)、易于部署的優(yōu)勢(shì)。Wang 等[10]為了延長(zhǎng)UAV 的運(yùn)行時(shí)間和相關(guān)網(wǎng)絡(luò)壽命,通過聯(lián)合區(qū)域劃分和UAV 軌跡調(diào)度來(lái)最小化UAV的總能耗;但該方案不適用于動(dòng)態(tài)場(chǎng)景。

        2)最小化任務(wù)完成時(shí)間。Hu 等[11]采用基于罰雙分解和L0 范數(shù)的算法,最小化總處理時(shí)間,包括傳輸時(shí)間、計(jì)算時(shí)間和局部計(jì)算時(shí)間。嵇介曲等[12]提出一種懲罰凹凸過程的算法,求解所有用戶的最大時(shí)延總和最小問題;但未考慮實(shí)際應(yīng)用中存在障礙物阻擋的情況。

        3)權(quán)衡能耗和時(shí)延。Zhan 等[13]通過聯(lián)合設(shè)計(jì)UAV 的彈道、完成時(shí)間和卸載計(jì)算實(shí)現(xiàn)了系統(tǒng)的資源分配,最大限度地減少UAV 的能耗和完成時(shí)間。Zhang 等[14]考慮隨機(jī)用戶數(shù)據(jù)到達(dá),在隊(duì)列穩(wěn)定和UAV 軌跡約束下最小化長(zhǎng)期平均加權(quán)和系統(tǒng)能量;但是該方法中的地面用戶是靜態(tài)的,在每個(gè)時(shí)隙中重新計(jì)算了從初始位置到目的地的整個(gè)軌跡,增加了計(jì)算復(fù)雜度。近幾年聯(lián)合優(yōu)化方法被學(xué)者廣泛研究,由于UAV 的機(jī)載能量有限,聯(lián)合優(yōu)化方法的能量消耗和計(jì)算速度均過 于苛刻。Chen 等[15]利用深 度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)方法控制卸載決策,以提高感知延遲的滿意度和移動(dòng)用戶的能源消耗。

        上述文獻(xiàn)中,大多數(shù)使用的UAV-地面信道模型遵循自由空間路徑損耗模型鏈路的確定性視距(Line Of Sight,LoS)信道,這在城市或郊區(qū)環(huán)境中并不準(zhǔn)確。其次,UAV 輔助通信系統(tǒng)中通信條件是時(shí)變的,任務(wù)卸載問題大多非凸性強(qiáng),傳統(tǒng)優(yōu)化算法難以有效解決。最后,廣泛用于學(xué)習(xí)和優(yōu)化UAV 輔助MEC 系統(tǒng)各種問題的機(jī)器學(xué)習(xí)算法[16]需要提前提供足夠的數(shù)據(jù)樣本,對(duì)于決策問題是不現(xiàn)實(shí)的。相比之下,DRL 由于其本質(zhì)特征,即從現(xiàn)實(shí)環(huán)境動(dòng)態(tài)學(xué)習(xí)采集數(shù)據(jù)樣本,已經(jīng)成為解決這一決策問題的有效解決方案?;谏鲜龇治?,本文在一個(gè)由一架UAV 和多個(gè)終端設(shè)備組成的UAV輔助MEC 系統(tǒng)的場(chǎng)景下,考慮環(huán)境障礙的阻塞、通信條件時(shí)變和能量等約束,將非凸任務(wù)卸載優(yōu)化問題定義為MDP 問題,考慮到高維連續(xù)動(dòng)作空間,利用基于雙延遲深度確定性策略梯度的任務(wù)卸載算法TD3-TOADM 聯(lián)合優(yōu)化終端設(shè)備調(diào)度、UAV 軌跡和任務(wù)卸載比使計(jì)算時(shí)延最小化。

        2 系統(tǒng)模型

        2.1 通信模型

        本文考慮一個(gè)由M個(gè)終端設(shè)備和單個(gè)UAV 組成的UAV輔助MEC 系統(tǒng),如圖1 所示。安裝有納米MEC 服務(wù)器的UAV 為所有終端設(shè)備提供計(jì)算和通信服務(wù),終端設(shè)備的計(jì)算能力有限,每個(gè)終端設(shè)備卸載部分任務(wù)到UAV 計(jì)算,剩余任務(wù)在本地執(zhí)行。整個(gè)任務(wù)卸載過程中產(chǎn)生的時(shí)延由終端本地計(jì)算時(shí)延傳輸時(shí)延和UAV 計(jì)算時(shí)延組成。

        圖1 無(wú)人機(jī)輔助MEC系統(tǒng)的模型Fig.1 Model of UAV-assisted MEC system

        UAV 以時(shí)分方式向所有終端提供計(jì)算服務(wù),整個(gè)通信周期T等步長(zhǎng)地劃分為N個(gè)時(shí)隙。假設(shè)UAV 和終端設(shè)備只能在給定區(qū)域內(nèi)移動(dòng),每個(gè)時(shí)隙內(nèi),UAV 在一個(gè)固定的位置懸停,然后與其中一個(gè)終端建立通信。用二進(jìn)制指標(biāo)αm(n) ∈{0,1}來(lái)表示UAV 是否為終端提供服務(wù),當(dāng)UAV 在時(shí)隙n為終端提供服務(wù)時(shí),αm(n)=1,否則為0。一個(gè)時(shí)隙內(nèi)UAV 只能為一個(gè)終端提供服務(wù),因此,終端設(shè)備調(diào)度約束為:

        終端設(shè)備在該區(qū)域內(nèi)低速隨機(jī)移動(dòng),在笛卡爾三維坐標(biāo)系中,時(shí)隙n∈{1,2,…,N}時(shí),終端m∈{1,2,…,M}的坐標(biāo)表示為wm(n)=[xm(n),ym(n)]T。UAV 保持在固定高度H飛行時(shí),投影在水平面上的坐標(biāo)為q(n)=[x(n),y(n)]T,UAV 飛行到新的懸停位置后更新坐標(biāo)為q(n+1)=[x(n+1),y(n+1)]T。在每個(gè)時(shí)隙,UAV 的移動(dòng)性策略[17]可以表示為:

        其中:v(n) ∈[0,vmax]表示飛行速度;tfly是固定的UAV 飛行時(shí)間;θ(n) ∈[0,2π]表示UAV 在x-y平面相對(duì)于x軸的水平方向。除此之外,UAV 飛行消耗的能量[11]表示為:

        其中G表示飛機(jī)的載荷。

        在UAV 輔助MEC 系統(tǒng)中,UAV 和終端設(shè)備之間的通信鏈路由視距信道主導(dǎo),信道建模采用了自由空間路徑損耗模型。假設(shè)UAV 與終端通信時(shí)為準(zhǔn)靜態(tài)場(chǎng)景,終端和UAV 在計(jì)算卸載期間保持不變。則在時(shí)隙n時(shí)UAV 和終端m的平均信道增益[12]可以建模為:

        其中:β表示參考距離1 m 時(shí)的信道增益;dm(n)表示終端m與UAV 的歐氏距離;H表示UAV 的飛行高度。

        考慮到UAV 和終端之間可能會(huì)有障礙物的阻擋,終端m在時(shí)隙n時(shí)的無(wú)線傳輸速率可以表示為:

        其中:B表示傳輸帶寬;σ2表示高斯白噪聲功率;P表示終端在上行鏈路的傳輸功率;pNLOS表示非視距條件下的傳輸損耗;bm(n)表示在時(shí)隙n時(shí)UAV 與終端m之間是否有障礙物阻擋(bm(n)為1 表示有阻擋,為0 表示無(wú)阻擋)。

        研究中常用無(wú)線傳輸速率公式可參考文獻(xiàn)[18]??紤]到實(shí)際應(yīng)用中存在阻礙物遮擋產(chǎn)生傳輸損耗的可能,本文使用文獻(xiàn)[19]中的微波技術(shù),將非視距條件下的傳輸損耗添加到公式中表示障礙物對(duì)UAV 通信的影響。當(dāng)UAV 和被服務(wù)終端有阻擋時(shí)會(huì)產(chǎn)生傳輸損耗,傳輸速率下降,無(wú)阻擋時(shí)與常用公式相同。

        2.2 計(jì)算模型

        本文中的UAV 輔助MEC 系統(tǒng)采用部分卸載模式,定義cm(n)為終端m在時(shí)隙n卸載到UAV 上的計(jì)算任務(wù)比例,1 -cm(n)為在本地計(jì)算的任務(wù)比例。

        1)本地計(jì)算。

        計(jì)算任務(wù)在終端本地執(zhí)行時(shí),終端m在時(shí)隙n的本地執(zhí)行時(shí)延表示為:

        其中:Dm(n)表示終端m計(jì)算任務(wù)的大小;C表示處理1 bit 任務(wù)所需的CPU 周期;fm表示終端m的計(jì)算能力,單位是每秒CPU 的圈數(shù)。

        2)卸載到UAV 計(jì)算。

        由于MEC 服務(wù)器處理后的計(jì)算結(jié)果非常小,可以忽略不計(jì),所以本文不考慮下行鏈路的發(fā)送延遲。UAV 服務(wù)器的處理時(shí)延可分為兩部分,首先是終端m在時(shí)隙n將任務(wù)卸載到UAV 的傳輸時(shí)延,可表示為:

        其次是服務(wù)器計(jì)算產(chǎn)生的時(shí)延,表達(dá)式如式(10):

        其中:fUAV表示UAV 的計(jì)算能力。此時(shí)UAV 計(jì)算任務(wù)產(chǎn)生的能量消耗為:

        其中:κ為芯片結(jié)構(gòu)對(duì)CPU 處理的影響因子,κ=10-27。

        2.3 問題建模

        在本文提出的UAV 輔助MEC 系統(tǒng)中,目的是在離散變量和能量消耗的約束下,聯(lián)合優(yōu)化終端設(shè)備調(diào)度、UAV 軌跡和任務(wù)卸載比,以最小化所有終端的最大時(shí)延之和。綜上,優(yōu)化問題建模為:

        其中:E表示UAV 電池容量;式(13)~(14)是約束終端和UAV 只能在給定區(qū)域移動(dòng);式(15)表示無(wú)線信道中的阻塞情況;式(16)表示任務(wù)卸載比;式(17)~(18)是保證調(diào)度一個(gè)設(shè)備在時(shí)隙n進(jìn)行計(jì)算;式(19)是指UAV 要在整個(gè)通信周期完成所有計(jì)算任務(wù);式(20)是確保UAV 飛行和卸載計(jì)算在所有時(shí)隙消耗的能量不超過最大電池容量。

        3 算法設(shè)計(jì)

        上述優(yōu)化問題是一個(gè)混合整數(shù)非凸性問題,并且,在所考慮的場(chǎng)景中,系統(tǒng)狀態(tài)的復(fù)雜性高,計(jì)算任務(wù)卸載決策需要連續(xù)動(dòng)作空間的支持。采用傳統(tǒng)的優(yōu)化方法難以解決上述問題。DRL 已被證明是處理高維連續(xù)空間[20]復(fù)雜控制問題的有效方法。因此,本章提出一個(gè)基于DRL 的方案解決優(yōu)化問題。強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)是一種具有自學(xué)習(xí)能力并能做出最佳決策的算法,它考慮了agent 與其環(huán)境之間交互的例子,旨在學(xué)習(xí)最大化回報(bào)的策略。RL可以用來(lái)解決定義為四元組(S,A,P,R)的MDP 問題,其中:S為狀態(tài)空間,A為動(dòng)作空間,P為狀態(tài)轉(zhuǎn)移概率,R為獎(jiǎng)勵(lì)函數(shù)。每時(shí)隙在給定狀態(tài)s∈S的情況下,agent 選擇與其策略π:S→P(A)相關(guān)的行動(dòng)a∈A,并獲得獎(jiǎng)勵(lì)r∈R。MDP 的目標(biāo)是找到一個(gè)能夠最大化預(yù)期累積收益Rn=表示折扣因子)的最優(yōu)策略。DRL可以被認(rèn)為是RL 的“深度”版,它使用多個(gè)深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)作 為Q 值函數(shù)Q(s,a)=E[(Rn|s,a)]的逼近器,Q(s,a)是在狀態(tài)s中執(zhí)行操作a時(shí)的預(yù)期收益。

        3.1 構(gòu)建MDP

        為了能夠應(yīng)用DRL 方法解決優(yōu)化問題,本文將原問題重新表述為MDP 結(jié)構(gòu)。UAV 輔助MEC 系統(tǒng)中計(jì)算卸載問題的狀態(tài)、行為和獎(jiǎng)勵(lì)如下:

        1)狀態(tài)空間。在本文的UAV 輔助MEC 系統(tǒng)中,狀態(tài)空間由M個(gè)終端、UAV 及其環(huán)境共同確定。時(shí)隙n時(shí)狀態(tài)空間表示為sn={W(n),bm(n),q(n),D(n),Dr(n),Er(n)},其 中:W(n)={w1(n),w2(n),…,wM(n)}表示被UAV 服務(wù)的終端m的位置;q(n) 表 示UAV 的位置;bm(n)={b1(n),b2(n),…,bM(n)}表示終端m的信號(hào)是否被障礙物阻擋;D(n)={D1(n),D2(n),…,DM(n)}表示終端m隨機(jī)生成的任務(wù)大小;Dr(n)表示系統(tǒng)在整個(gè)時(shí)間段內(nèi)需要完成的剩余任務(wù)的大??;Er(n)表示UAV 剩余的電量。

        2)動(dòng)作空間。agent 根據(jù)系統(tǒng)當(dāng)前狀態(tài)和觀察到的環(huán)境,選擇待服務(wù)的終端m、時(shí)隙n時(shí)任務(wù)卸載比、UAV 飛行角和UAV 飛行速度。因此,系統(tǒng)動(dòng)作集可以表示為:an={m(n),cm(n),v(n),θ(n)},其中:m(n) ∈[0,k]表示終端設(shè)備調(diào)度的 動(dòng)作變 量,如 果m(n)=0,m=1;m(n) ≠0,m=是向上取整符號(hào)。在連續(xù)的動(dòng)作空間內(nèi),UAV 的飛行角度、飛行速度和任務(wù)卸載比能夠被精確優(yōu)化。通過聯(lián)合優(yōu)化動(dòng)作空間內(nèi)的4 個(gè)變量,系統(tǒng)計(jì)算卸載的時(shí)延能最小化。

        3)獎(jiǎng)勵(lì)函數(shù)。本文目標(biāo)是在保證能量消耗的前提下,最大限度地降低任務(wù)計(jì)算卸載的時(shí)延。因此,每個(gè)動(dòng)作的目的是最小化最大計(jì)算時(shí)延,系統(tǒng)獎(jiǎng)勵(lì)應(yīng)該與最大計(jì)算時(shí)延負(fù)相關(guān),其定義為:

        當(dāng)執(zhí)行動(dòng)作an后,計(jì)算時(shí)延越小獲得的獎(jiǎng)勵(lì)越大,就越會(huì)向期望的方向發(fā)展。

        3.2 基于TD3的任務(wù)卸載算法

        根據(jù)3.1 節(jié)構(gòu)建的MDP 問題,考慮到任務(wù)卸載優(yōu)化問題的高維連續(xù)動(dòng)作空間,提出基于TD3[20]的任務(wù)卸載算法TD3-TOADM,如圖2 所示。TD3 算法包括一個(gè)權(quán)重為φ的Actor網(wǎng)絡(luò)和兩個(gè)權(quán)重為θ1和θ2的Critic 網(wǎng)絡(luò),這兩個(gè)Citict 網(wǎng)絡(luò)可以解決Q 值的高估問題,獲得更好的學(xué)習(xí)效果。因此,TD3算法能更穩(wěn)定地求解本文的優(yōu)化問題。此外,為提高學(xué)習(xí)穩(wěn)定性,TD3 采用了權(quán)重為φ′的Actor target 網(wǎng)絡(luò)和權(quán)重為和的Critic target 網(wǎng)絡(luò)。

        圖2 TD3-TOADM網(wǎng)絡(luò)框架Fig.2 TD3-TOADM algorithm network framework

        算法1 總結(jié)了解決任務(wù)卸載優(yōu)化問題的TD3-TOADM,該DRL 算法不需要提前提供足夠的數(shù)據(jù)樣本。算法具體流程如下:首先,初始化6 個(gè)神經(jīng)網(wǎng)絡(luò)的權(quán)重參數(shù)和經(jīng)驗(yàn)緩存。在每一回合(對(duì)優(yōu)化問題的一次求解),UAV 根據(jù)Actor online網(wǎng)絡(luò)πφ(s)和隨機(jī)噪聲ε選擇行動(dòng)。UAV 執(zhí)行動(dòng)作后將獲得獎(jiǎng)勵(lì)rn和下一個(gè)狀態(tài)sn+1以及狀態(tài)轉(zhuǎn)移樣本(sn,an,sn+1,rn)。為了穩(wěn)定訓(xùn)練過程并提高樣本效率,UAV 將狀態(tài)轉(zhuǎn)移信息(sn,an,sn+1,rn)存儲(chǔ)在經(jīng)驗(yàn)緩存區(qū)R中作為訓(xùn)練online 網(wǎng)絡(luò)的數(shù)據(jù)集,然后從經(jīng)驗(yàn)緩存中隨機(jī)抽取大小為Bs的狀態(tài)轉(zhuǎn)移信息數(shù)據(jù)(sj,aj,,rj)作為Actor online 網(wǎng)絡(luò)、Critic online 網(wǎng)絡(luò)的一個(gè)小批量訓(xùn)練數(shù)據(jù)。當(dāng)經(jīng)驗(yàn)緩存已滿時(shí),算法采用以下的方式來(lái)更新經(jīng)驗(yàn)緩存:首先找出經(jīng)驗(yàn)緩存中獎(jiǎng)勵(lì)值最小的狀態(tài)轉(zhuǎn)移信息數(shù)據(jù),若該數(shù)據(jù)的獎(jiǎng)勵(lì)值小于新數(shù)據(jù)的獎(jiǎng)勵(lì)值,則用新數(shù)據(jù)替代這個(gè)數(shù)據(jù);否則新數(shù)據(jù)替代經(jīng)驗(yàn)緩存中最舊的數(shù)據(jù)。通過將sj輸入Actor online 網(wǎng)絡(luò)生成策略πφ(sj),UAV 可以使用策略梯度法更新Actor online 網(wǎng)絡(luò)的權(quán)重:

        此外,為防止在Q值的窄峰上過度擬合,將隨機(jī)噪聲ε添加到Actor target 網(wǎng)絡(luò)中,這樣可以實(shí)現(xiàn)更平滑的狀態(tài)動(dòng)作值估計(jì)。修改后的目標(biāo)動(dòng)作如下:

        然后可以獲得目標(biāo)動(dòng)作值:

        根據(jù)策略πφ(sj),兩個(gè)Critic target 網(wǎng)絡(luò)將通過最小化損失函數(shù)L(θi)執(zhí)行梯度下降來(lái)更新權(quán)重θi,同時(shí)獲得兩個(gè)Q 值Qθ1(sj,πφ(sj))和Qθ2(sj,πφ(sj))。L(θi)定義為:

        接下來(lái),根據(jù)式(22)和(25),UAV 可以使用以下等式更新3 個(gè)online 網(wǎng)絡(luò)的權(quán)重:

        其中:αa和αc為學(xué)習(xí)率,UAV 每d個(gè)時(shí)隙更新Actor online網(wǎng)絡(luò)。

        最后,為了穩(wěn)定訓(xùn)練過程,通過復(fù)制相應(yīng)online 網(wǎng)絡(luò)的權(quán)重,UAV 根據(jù)式(27)~(28)更新3 個(gè)target 網(wǎng)絡(luò)的權(quán)重:

        其中:τ為軟更新系數(shù)。

        算法1 基于TD3 的任務(wù)卸載算法TD3-TOADM。

        用式(26)更新Actor online網(wǎng)絡(luò)。

        根據(jù)式(28)更新3個(gè)target網(wǎng)絡(luò)的權(quán)重。

        4 仿真實(shí)驗(yàn)和結(jié)果分析

        4.1 仿真環(huán)境以及參數(shù)設(shè)置

        仿真實(shí)驗(yàn)使用Python3.7 和TensorFlow1 框架在Anaconda 平臺(tái)上模擬系統(tǒng)環(huán)境,設(shè)置了1 個(gè)UAV 和4 個(gè)地面終端設(shè)備隨機(jī)分布在一個(gè)100 m × 100 m 正方形區(qū)域的模型,對(duì)UAV 軌跡、終端設(shè)備調(diào)度和任務(wù)卸載方案進(jìn)行仿真,實(shí)現(xiàn)了TD3-TOADM 任務(wù)卸載算法。仿真中的其他參數(shù)主要參考文獻(xiàn)[12],如表1 所示。

        表1 主要參數(shù)設(shè)置Tab.1 Main parameter setting

        4.2 結(jié)果分析

        首先對(duì)算法中重要的超參數(shù)折扣因子γ進(jìn)行分析,γ取適當(dāng)?shù)闹祵⑻岣哂?xùn)練后策略的最終性能。為確定γ值,設(shè)算法網(wǎng)絡(luò)參數(shù)學(xué)習(xí)率αa=0.001,αc=0.002,經(jīng)驗(yàn)緩存大小為104,批學(xué)習(xí)大小Bs為64。γ分別取0.001、0.5 和0.9,它對(duì)算法性能的影響如圖3 所示。結(jié)果表明,γ=0.001 時(shí),計(jì)算卸載策略性能最佳、時(shí)延最小,故本文實(shí)驗(yàn)將γ設(shè)置為0.001。

        圖4 展示了UAV 在任務(wù)大小為100 Mb 和60 Mb 情況下的卸載軌跡。為了反映UAV 位置變化對(duì)計(jì)算時(shí)延的影響,每個(gè)時(shí)隙對(duì)軌跡進(jìn)行采樣繪制UAV 軌跡,可以觀察到,隨著任務(wù)大小的增加,UAV 飛得更靠近距離遠(yuǎn)的終端,從而有助于建立高質(zhì)量的鏈路,進(jìn)一步減少卸載時(shí)間。

        圖4 任務(wù)大小不同時(shí)的UAV軌跡Fig.4 Trajectory of UAV with different task sizes

        為驗(yàn)證TD3-TOADM 的有效性和優(yōu)越性,本文選取3 種任務(wù)卸載算法在相同的應(yīng)用場(chǎng)景下進(jìn)行仿真對(duì)比:第一種是基于AC 的任務(wù)卸載算法,它可以解決連續(xù)動(dòng)作空間問題;第二種是基于DQN 的任務(wù)卸載算法,這是傳統(tǒng)的基于離散動(dòng)作空間的DRL 算法;第三種是基于DDPG 的任務(wù)卸載算法,該算法是近年各類研究中經(jīng)常使用的先進(jìn)DRL 算法。圖5展示了計(jì)算任務(wù)大小為100 Mb 時(shí),不同算法下時(shí)延隨訓(xùn)練次數(shù)變化的情況。從圖中可以看出,隨著迭代次數(shù)的增加,AC 算法難以收斂,而DQN 算法、DDPG 算法和TD3-TOADM都可以收斂。因?yàn)锳C 算法存在著Actor 網(wǎng)絡(luò)和Critic 網(wǎng)絡(luò)同時(shí)更新的問題,在某些情況下可能不收斂。而其他3 種算法有雙網(wǎng)絡(luò)結(jié)構(gòu)(評(píng)價(jià)網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)),能找到最優(yōu)的行動(dòng)策略后收斂。在各算法收斂后,TD3-TOADM 得到的時(shí)延為59.59,DDPG 算法得到的時(shí)延為64.93,DQN 算法得到的時(shí)延為92.33,TD3-TOADM 得到的計(jì)算時(shí)延減小了8.2%以上。

        圖5 不同算法的收斂性對(duì)比Fig.5 Comparison of convergence of different algorithms

        在滿足UAV 電池容量約束下,本文將AC 算法、DQN 算法、DDPG 算法、TD3-TOADM 得到的計(jì)算卸載時(shí)延作為評(píng)價(jià)標(biāo)準(zhǔn)。圖6 展示了各算法在不同任務(wù)大小、終端數(shù)量和飛行時(shí)間下的計(jì)算時(shí)延。由圖6 可知,對(duì)于相同的任務(wù)大小、終端數(shù)量和飛行時(shí)間,TD3-TOADM 的時(shí)延在4 種算法中始終最低。以圖6(a)為例,當(dāng)任務(wù)大小為60 Mb 時(shí),DDPG 算法的時(shí)延為39,DQN 的時(shí)延為73,TD3-TOADM 的計(jì)算時(shí)延減小了23%以上。隨著終端數(shù)和飛行時(shí)間的增加,AC 算法和DQN 算法的時(shí)延波動(dòng)較大,DDPG 算法波動(dòng)較小,TD3-TOADM 趨于平穩(wěn)。這是因?yàn)镈QN 算法輸出動(dòng)作取值范圍差異較大。因此,當(dāng)樣本作為訓(xùn)練DNN 的輸入時(shí),DNN可能傾向于輸出更大的值。DDPG 算法和TD3-TOADM 的Actor 網(wǎng)絡(luò)輸出多維動(dòng)作,能確保DNN 的輸入數(shù)據(jù)都在[0,1]范圍內(nèi),保證其收斂性和穩(wěn)定性。

        為研究終端計(jì)算能力對(duì)系統(tǒng)進(jìn)行卸載任務(wù)的影響,圖7分別測(cè)試了在不同終端計(jì)算能力(fm)下,TD3-TOADM 計(jì)算卸載產(chǎn)生的時(shí)延和任務(wù)卸載比??梢园l(fā)現(xiàn),終端計(jì)算能力較小時(shí),本文優(yōu)化方案優(yōu)化后的處理延遲要高于終端計(jì)算能力較高時(shí)的處理時(shí)延。另一方面,從圖7(b)中能看出當(dāng)終端的計(jì)算能力較大時(shí),系統(tǒng)的平均任務(wù)卸載比較小,終端更傾向于在本地執(zhí)行任務(wù)。終端計(jì)算能力越小,系統(tǒng)的數(shù)據(jù)處理越慢,導(dǎo)致本地執(zhí)行和卸載之間的最大時(shí)延越大。這說(shuō)明任務(wù)卸載比是對(duì)連續(xù)動(dòng)作控制系統(tǒng)延遲影響較大的因子。

        圖7 TD3-TOADM的終端計(jì)算能力對(duì)比Fig.7 Comparison of terminal computing power of TD3-TOADM

        上述實(shí)驗(yàn)對(duì)比結(jié)果表明,本文TD3-TOADM 的表現(xiàn)均優(yōu)于對(duì)比的3 種卸載算法,具有較好的收斂性和魯棒性。因此,TD3-TOADM 能夠聯(lián)合優(yōu)化終端設(shè)備調(diào)度、UAV 軌跡和任務(wù)卸載比后得到相對(duì)較小的最大處理時(shí)延。

        5 結(jié)語(yǔ)

        本文研究了在一個(gè)通信周期內(nèi),同時(shí)服務(wù)于多個(gè)用戶的UAV 輔助MEC 系統(tǒng)中的任務(wù)卸載問題。為解決計(jì)算任務(wù)卸載產(chǎn)生的時(shí)延過大的問題,提出一種基于DRL 的任務(wù)卸載算法TD3-TOADM 學(xué)習(xí)和優(yōu)化計(jì)算任務(wù)卸載。該算法以計(jì)算任務(wù)大小、終端和UAV 位置等為輸入,在電池容量等約束下,連續(xù)自適應(yīng)學(xué)習(xí)調(diào)整計(jì)算卸載策略,對(duì)多個(gè)目標(biāo)進(jìn)行優(yōu)化,通過聯(lián)合優(yōu)化終端設(shè)備調(diào)度、UAV 軌跡和任務(wù)卸載比以最小化計(jì)算時(shí)延。仿真實(shí)驗(yàn)結(jié)果表明,本文的TD3-TOADM任務(wù)卸載算法在處理時(shí)延方面有較好的性能。在未來(lái)的研究中,將會(huì)考慮多UAV 等復(fù)雜場(chǎng)景下的MEC 任務(wù)卸載問題。

        猜你喜歡
        優(yōu)化系統(tǒng)
        Smartflower POP 一體式光伏系統(tǒng)
        超限高層建筑結(jié)構(gòu)設(shè)計(jì)與優(yōu)化思考
        民用建筑防煙排煙設(shè)計(jì)優(yōu)化探討
        關(guān)于優(yōu)化消防安全告知承諾的一些思考
        一道優(yōu)化題的幾何解法
        WJ-700無(wú)人機(jī)系統(tǒng)
        由“形”啟“數(shù)”優(yōu)化運(yùn)算——以2021年解析幾何高考題為例
        ZC系列無(wú)人機(jī)遙感系統(tǒng)
        基于PowerPC+FPGA顯示系統(tǒng)
        半沸制皂系統(tǒng)(下)
        偷拍自拍一区二区三区| 成人爽a毛片在线视频| 国产精品内射后入合集| 亚洲国产成人精品激情| 丰满少妇av一区二区三区| 夜夜高潮夜夜爽夜夜爱爱一区| 无码人妻一区二区三区在线视频| 久久噜噜噜| 国产乱老熟视频乱老熟女1| 国产偷国产偷亚洲综合av| 在线成人爽a毛片免费软件| 尤物99国产成人精品视频| 一区二区三区国产精品| av男人的天堂亚洲综合网| 一区二区三区乱码在线 | 欧洲| 在线视频精品免费| 少妇被日到高潮的视频| 蜜桃尤物在线视频免费看| 久久精品免费观看国产| 国产精品原创巨作av无遮| 亚洲天堂一二三四区在线| 亚洲中国精品精华液| 无遮挡又黄又刺激又爽的视频| 韩国一级成a人片在线观看| 成人在线观看视频免费播放| 亚洲人成网站色7799| 人人妻人人澡人人爽曰本| 国产在线高清无码不卡| 久久亚洲中文字幕伊人久久大| 免费网站看av片| 欧美成人激情在线| 国内精品国产三级国产avx| 亚洲youwu永久无码精品| 国内精品久久久久久中文字幕| 日韩精品永久免费播放平台| 干出白浆视频在线观看| 久久不见久久见免费影院国语 | 国产精品高潮无码毛片| 日本女优爱爱中文字幕| 内射干少妇亚洲69xxx| 国产女精品视频网站免费|