亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多智能體強(qiáng)化學(xué)習(xí)的多無人機(jī)邊緣計(jì)算任務(wù)卸載

        2023-12-15 08:35:22
        無線電工程 2023年12期
        關(guān)鍵詞:能耗軌跡動(dòng)作

        李 斌

        (1.南京信息工程大學(xué) 計(jì)算機(jī)學(xué)院,江蘇 南京 210044;2.南京信息工程大學(xué) 江蘇省大氣環(huán)境與裝備技術(shù)協(xié)同創(chuàng)新中心,江蘇 南京 210044)

        0 引言

        移動(dòng)邊緣計(jì)算(Mobile Edge Computing,MEC)技術(shù)能有效緩解資源受限設(shè)備執(zhí)行密集型應(yīng)用的壓力,可提高網(wǎng)絡(luò)的應(yīng)用體驗(yàn)[1-2]。在臨時(shí)部署通信服務(wù)的偏遠(yuǎn)地區(qū)或聚集活動(dòng)熱點(diǎn)地區(qū)等通信條件較差的場景,地面固定式通信設(shè)施難以提供較好的服務(wù)。利用無人機(jī)(UAV)高機(jī)動(dòng)性、易部署和立體式增強(qiáng)覆蓋等優(yōu)勢,將UAV與MEC相融合可以提供泛在的接入服務(wù)和高質(zhì)量的計(jì)算服務(wù)[3-4]。

        如今,UAV輔助MEC網(wǎng)絡(luò)成為了學(xué)術(shù)界和工業(yè)界的研究熱點(diǎn),然而各類參數(shù)及用戶服務(wù)需求時(shí)刻發(fā)生著變化[5]。深度強(qiáng)化學(xué)習(xí)(Deep-Reinforcement Learning,DRL)作為人工智能的一種新興技術(shù),通過與環(huán)境不斷交互學(xué)習(xí)、積累經(jīng)驗(yàn),從而尋求最優(yōu)策略[6]。相較于離線求解及迭代算法,采用經(jīng)過訓(xùn)練的DRL策略能實(shí)時(shí)地求解系統(tǒng)的能耗與時(shí)延等優(yōu)化問題[7]。為了適應(yīng)動(dòng)態(tài)變化的網(wǎng)絡(luò)狀態(tài)與環(huán)境,結(jié)合DRL方法能夠?qū)崟r(shí)進(jìn)行決策的優(yōu)勢,研究人員提出了一系列高效的資源管控優(yōu)化算法。針對兩層UAV網(wǎng)絡(luò)架構(gòu),文獻(xiàn)[8]結(jié)合深度Q網(wǎng)絡(luò)(Deep Q Network,DQN)與深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG),設(shè)計(jì)了一種DRL訓(xùn)練框架,以優(yōu)化UAV軌跡與虛擬機(jī)配置,進(jìn)而有效地降低系統(tǒng)時(shí)延。文獻(xiàn)[9]利用智能反射面的通信輔助能力,使用DDPG與雙深度Q網(wǎng)絡(luò)(Double Deep Q Network,DDQN)協(xié)同優(yōu)化網(wǎng)絡(luò)資源以提高UAV邊緣計(jì)算的能效。為提升移動(dòng)用戶群組的服務(wù)體驗(yàn),文 獻(xiàn)[10]通過聚類算法設(shè)計(jì)UAV動(dòng)態(tài)部署,并采用DDPG方法優(yōu)化服務(wù)關(guān)聯(lián),從而降低了系統(tǒng)能耗。文獻(xiàn)[11]考慮了多任務(wù)調(diào)度問題,根據(jù)信道狀態(tài)、任務(wù)請求等信息以最小化加權(quán)信息年齡,設(shè)計(jì)了一種基于近端策略優(yōu)化(Proximal Policy Optimization,PPO)的DRL算法。然而,DDQN、DDPG和PPO等單智能體DRL算法不能很好地應(yīng)對當(dāng)網(wǎng)絡(luò)規(guī)模較大時(shí)所帶來的狀態(tài)空間及動(dòng)作空間維數(shù)過高的問題。

        在實(shí)際場景中,多個(gè)移動(dòng)用戶(Mobile User,MU)和多個(gè)邊緣服務(wù)器通常部署在不同的位置,易于利用分布式算法進(jìn)行訓(xùn)練與決策。同時(shí),多智能體強(qiáng)化學(xué)習(xí)(Multi-Agent Reinforcement Learning,MARL)方法能較好地適應(yīng)MEC的分布式結(jié)構(gòu)。相比于單智能體DRL,MARL能夠減小狀態(tài)空間與動(dòng)作空間,并可高效地做出決策。鑒于此,文獻(xiàn)[12]面向多UAV邊緣計(jì)算,利用MARL方法較好地解決了負(fù)載均衡問題。文獻(xiàn)[13]利用多智能體確定性深度策略梯度(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)方法實(shí)時(shí)優(yōu)化多UAV軌跡,最大化計(jì)算服務(wù)的公平性。文獻(xiàn)[14]面向多UAV網(wǎng)絡(luò)中的隱私問題,利用多智能體聯(lián)邦學(xué)習(xí)進(jìn)行分布式訓(xùn)練,達(dá)到了與MARL接近的效果。雖然上述工作應(yīng)用了MARL的分布式結(jié)構(gòu),但尚未充分利用不同設(shè)備的功能,缺乏多類型設(shè)備、異構(gòu)智能體協(xié)作優(yōu)化MEC服務(wù)的研究。同時(shí),上述工作存在服務(wù)質(zhì)量不穩(wěn)定、算法訓(xùn)練速度慢和UAV軌跡曲折難以實(shí)現(xiàn)等問題。

        基于此,本文考慮到任務(wù)分布式卸載的特點(diǎn),采用多智能體近端策略優(yōu)化(Multi-Agent Proximal Policy Optimization,MAPPO)方法,并在MARL算法引入了Beta分布以及注意力機(jī)制以提升算法的性能,加快算法的收斂速度,從而有效降低MEC服務(wù)的開銷。本文的主要工作有如下三方面:

        ① 研究了多架UAV輔助MEC的系統(tǒng)模型,綜合考慮MU的移動(dòng)性、任務(wù)生成的隨機(jī)性和多UAV之間的安全距離,建立了MU和UAV的加權(quán)能耗最小化問題。該問題具有高動(dòng)態(tài)特征,對優(yōu)化實(shí)時(shí)性和規(guī)模擴(kuò)展性提出了更高的要求。

        ② 設(shè)計(jì)了一種異構(gòu)MARL方法,通過構(gòu)建含有3種智能體的系統(tǒng),基于MAPPO算法訓(xùn)練MU和UAV協(xié)同完成卸載決策與資源分配。該分布式?jīng)Q策方法能分解較大的環(huán)境狀態(tài)與動(dòng)作空間,并將決策能力下沉到各類設(shè)備,提高算法的可擴(kuò)展性。

        ③ 在Actor網(wǎng)絡(luò)輸出層使用Beta分布以提高動(dòng)作的探索效率和采樣性能,并向Critic網(wǎng)絡(luò)中引入注意力機(jī)制以提高M(jìn)ARL方法的值函數(shù)擬合性能。提出了基于MAPPO的能耗最小化任務(wù)卸載方法(Energy-efficient-Attention-Beta-MAPPO,E-ABMAPPO),該方法具有較快的收斂性,且系統(tǒng)性能優(yōu)于基準(zhǔn)方法。

        1 系統(tǒng)模型及問題描述

        本文考慮一種多UAV輔助的MEC系統(tǒng)模型,如圖1所示。在該系統(tǒng)中,MU需要將產(chǎn)生的計(jì)算任務(wù)卸載到UAV邊緣服務(wù)器進(jìn)行計(jì)算。此系統(tǒng)模型有 1個(gè)地面控制中心,M架搭載邊緣服務(wù)器的UAV為K個(gè)MU提供任務(wù)卸載服務(wù)。為便于表達(dá)和分析,定義MU的集合為?{1,2,…,K},UAV集合為?{1,2,…,M}。此外,地面控制中心需要借助UAV收集通信鏈路信道信息、MU的服務(wù)需求等系統(tǒng)狀態(tài),進(jìn)而對邊緣網(wǎng)絡(luò)進(jìn)行即時(shí)管控。

        (1)

        式中:amax為UAV的最大加速度,vmax為UAV最大飛行速度,dmin為UAV之間的最小安全距離。

        假設(shè)MU初始隨機(jī)分布,且按照Gauss-Markov模型隨機(jī)移動(dòng)[15]。在時(shí)隙n內(nèi),MUk的速度大小vk[n]和移動(dòng)的方向角度θk[n]可表示為:

        (2)

        (3)

        (4)

        (5)

        1.1 計(jì)算模型

        (6)

        ① 本地計(jì)算:為了充分利用MU有限的計(jì)算資源并最小化能耗開銷,本地計(jì)算將采用動(dòng)態(tài)電壓頻率縮放技術(shù)以給出計(jì)算頻率。在最大計(jì)算頻率限制下,本地計(jì)算頻率可表示為:

        (7)

        (8)

        ② 邊緣計(jì)算:MU可以將自身計(jì)算任務(wù)卸載至所關(guān)聯(lián)UAV邊緣服務(wù)器進(jìn)行處理,具體過程如下:

        首先,UAV需要分配通信信道的帶寬資源以接收來自MU的任務(wù)數(shù)據(jù)??紤]到大尺度衰落和小尺度衰落,則在時(shí)隙n內(nèi)UAVm和MUk之間的信道增益可表示為:

        (9)

        (10)

        (11)

        當(dāng)MU請求將任務(wù)卸載至UAV之后,UAV需分配其計(jì)算資源,完成任務(wù)的處理。記UAVm可用的計(jì)算頻率為fm,UAVm在時(shí)隙n內(nèi)為MUk分配的計(jì)算資源為fm,k[n]。由此,其滿足約束:

        (12)

        (13)

        綜上所述,MUk的任務(wù)計(jì)算時(shí)延需滿足的約束可以表示為:

        (14)

        式中:bk,m為帶寬分配系數(shù),B為帶寬,σ2為噪聲功率。

        1.2 能耗模型

        定義MU和UAV服務(wù)器上CPU的有效電容系數(shù)為κ,則MUk的計(jì)算能耗和傳輸能耗分別為:

        (15)

        (16)

        由上述分析可知,在時(shí)隙n內(nèi),MUk的總能耗為:

        (17)

        根據(jù)文獻(xiàn)[17],UAVm在時(shí)隙n內(nèi)的飛行能耗可表示為:

        (18)

        式中:P0為UAVm懸停狀態(tài)下型阻功率,Pi為UAV懸停狀態(tài)下的誘導(dǎo)功率,v0為UAV懸停下的平均旋翼誘導(dǎo)速度,d0為機(jī)身阻力比,s為總?cè)~片面積與葉片掃過面積之比,ρ0為空氣密度,A為UAV葉片掃過的面積。UAVm的計(jì)算能耗為:

        (19)

        2 優(yōu)化問題描述

        (20)

        式中:?1、?2、η為能耗權(quán)重因子,∏(·)為指示函數(shù),當(dāng)條件(·)為真時(shí)值為1,否則值為0;約束條件C1~C4表示UAV的飛行軌跡,約束條件C5表示卸載關(guān)聯(lián)因子取值,約束條件C6表示每個(gè)MU至多選擇一個(gè)UAV卸載,約束條件C7~C8表示UAV帶寬資源與計(jì)算資源分配限制,約束條件C9為任務(wù)的時(shí)延約束,約束條件C10限制了任務(wù)劃分系數(shù)的范圍,約束條件C11~C12限制了UAV劃分給MU的資源,C13保證了資源分配的有效性,避免不進(jìn)行任務(wù)卸載的用戶空占計(jì)算資源。

        由于MU的隨機(jī)移動(dòng)性、卸載關(guān)聯(lián)的離散性以及非凸約束,上述問題不僅僅是一個(gè)多變量耦合的非凸組合優(yōu)化問題,更是一個(gè)需要實(shí)時(shí)決策的優(yōu)化問題。DRL作為一種自適應(yīng)的機(jī)器學(xué)習(xí)方法,可以從環(huán)境中不斷采樣學(xué)習(xí),并訓(xùn)練得到能部署在設(shè)備上的深度策略模型,從而根據(jù)當(dāng)前狀態(tài),做出符合長期效益的實(shí)時(shí)決策,因此適應(yīng)于所研究的MEC任務(wù)卸載場景。

        3 基于MAPPO的優(yōu)化問題求解

        3.1 MDP模型

        問題(20)需要聯(lián)合優(yōu)化多個(gè)MU以及多個(gè)UAV的決策信息,并且MU以及UAV在服務(wù)過程上存在協(xié)作關(guān)系,在計(jì)算和通信資源上存在競爭關(guān)系??紤]到該問題具有分布式特征,可將其建模為由多個(gè)智能體構(gòu)成的MDP模型。根據(jù)決策變量與目標(biāo)函數(shù)的相關(guān)性以及部署位置的差異,將MU作為一種智能體,將UAV分解為2種智能體:UAV資源分配智能體與UAV軌跡優(yōu)化智能體,因此所提出的MDP模型共有3種智能體參與。

        ① MU智能體:MU的基本要素包括觀測ok(t)、動(dòng)作ak(t)和獎(jiǎng)勵(lì)rk(t),具體如下:

        (21)

        動(dòng)作:MU的決策涉及卸載關(guān)聯(lián)α和任務(wù)劃分系數(shù)ρ,每個(gè)MU需要選擇關(guān)聯(lián)的UAV,決定其任務(wù)劃分系數(shù)。因此MU智能體k的動(dòng)作由下式給出:

        (22)

        獎(jiǎng)勵(lì):從協(xié)作性角度,UAV的能耗負(fù)擔(dān)需要為所有關(guān)聯(lián)的MU所知。從針對性角度,需要考慮每個(gè)MU自身能耗開銷對總加權(quán)能耗的貢獻(xiàn),以及自身不滿足時(shí)延要求的懲罰。因此,每個(gè)MU的獎(jiǎng)勵(lì)應(yīng)該綜合考慮MU本身和所關(guān)聯(lián)UAV的能耗,每個(gè)MU的獎(jiǎng)勵(lì)由下式給出:

        (23)

        式中:mk為MUk所關(guān)聯(lián)的UAV。

        MUk不滿足時(shí)延要求時(shí)的懲罰函數(shù)為:

        (24)

        式中:χt為懲罰系數(shù)。

        ② UAV資源分配智能體:每個(gè)UAV需要在MU給出卸載關(guān)聯(lián)因子及卸載量后做出決策。因此,其MDP基本要素表述如下

        oK+m(t)?{qm[n],q-m[n],Ωk[n],wk[n],ρk[n],?k∈}。

        (25)

        動(dòng)作:UAV收到MU請求后,需要根據(jù)用戶任務(wù)請求、位置等信息分配帶寬和計(jì)算資源。因此,UAV資源分配智能體m的動(dòng)作為:

        aK+m(t)?{bm,k[n],fm,k[n]/fm,?k∈}。

        (26)

        獎(jiǎng)勵(lì):接收MU的計(jì)算任務(wù)后,UAV從環(huán)境中獲得獎(jiǎng)勵(lì)。作為服務(wù)提供者,每個(gè)UAV的獎(jiǎng)勵(lì)需要考慮自身開銷和所服務(wù)的MU的能耗,在未滿足用戶時(shí)延需求時(shí)需要給出一定的懲罰,可以設(shè)計(jì)得到UAV獎(jiǎng)勵(lì)函數(shù)如下:

        (27)

        ③ UAV軌跡優(yōu)化智能體:UAV已經(jīng)獲取了有價(jià)值的狀態(tài)信息,UAV軌跡優(yōu)化智能體與UAV資源分配智能體可以共享觀測,即oK+M+m(t)=oK+m(t)。其動(dòng)作與獎(jiǎng)勵(lì)如下:

        動(dòng)作:UAV軌跡優(yōu)化智能體m需要給出UAVm的移動(dòng)狀態(tài),通過水平加速度變量控制軌跡變化,其動(dòng)作為:

        aK+M+m(t)?{am[n]}。

        (28)

        獎(jiǎng)勵(lì):為獲得優(yōu)化效果更好的軌跡,可通過設(shè)計(jì)更加具有反饋意義的獎(jiǎng)勵(lì)函數(shù),進(jìn)而提高動(dòng)作與目標(biāo)函數(shù)的相關(guān)性。當(dāng)無人機(jī)嘗試飛出服務(wù)范圍時(shí),需要給出一定懲罰,因此該種智能體的獎(jiǎng)勵(lì)可設(shè)置為:

        Po(qm[n+1]),

        (29)

        式中:dk,m[n′]表示MUk與UAVm在時(shí)隙n′的水平距離。上式反映了各個(gè)UAV與所服務(wù)MU的當(dāng)前移動(dòng)平均距離的最大值,以盡可能兼顧到所服務(wù)的MU,并促使UAV共同協(xié)作,且UAV試圖飛出寬度為W的正方形服務(wù)區(qū)域時(shí)給出的懲罰函數(shù)為:

        (30)

        式中:χo為懲罰系數(shù)。假設(shè)當(dāng)UAV智能體輸出的動(dòng)作會(huì)導(dǎo)致UAV飛出邊界或發(fā)生碰撞時(shí),該動(dòng)作無效,UAV將會(huì)保持在當(dāng)前位置。

        3.2 基于MAPPO的任務(wù)卸載算法

        與基于值的DRL方法不同,MAPPO是一種基于策略的方法[18],每個(gè)智能體由Actor網(wǎng)絡(luò)、Critic網(wǎng)絡(luò)和經(jīng)驗(yàn)緩存區(qū)組成,能通過作為策略的Actor網(wǎng)絡(luò)直接輸出動(dòng)作得到?jīng)Q策變量,因此MU和UAV可以將預(yù)訓(xùn)練的Actor網(wǎng)絡(luò)部署到本地,并行地進(jìn)行分布式?jīng)Q策。

        (32)

        (33)

        式中:ξi為Critic網(wǎng)絡(luò)i的參數(shù)。因此,Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)分別根據(jù)式(31)和式(33)更新。

        3.3 E-ABMAPPO訓(xùn)練框架

        本文所提出的E-ABMAPPO訓(xùn)練框架如圖2所示,MU和UAV根據(jù)其智能體的Actor網(wǎng)絡(luò)所給出的動(dòng)作執(zhí)行任務(wù)卸載,UAV與地面控制中心同步收集狀態(tài)、動(dòng)作等經(jīng)驗(yàn)組成部分以及系統(tǒng)狀態(tài)。隨后,地面控制中心通過各智能體的觀測獲得全局環(huán)境狀態(tài),計(jì)算獎(jiǎng)勵(lì)值,將經(jīng)驗(yàn)存入智能體的緩沖區(qū),并獲得預(yù)測值。在更新Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)后,Actor網(wǎng)絡(luò)的參數(shù)被下載到UAV和MU。

        圖2 E-ABMAPPO算法訓(xùn)練框架Fig.2 Training framework of E-ABMAPPO algorithm

        為了充分挖掘MAPPO的性能,并加速其收斂,本文在訓(xùn)練中引入了Beta分布和注意力機(jī)制,具體方式如下:

        ① 基于Beta分布策略的Actor網(wǎng)絡(luò):MEC場景中的決策變量通常是連續(xù)且有界的,因此智能體輸出的動(dòng)作應(yīng)盡可能滿足此條件。由于Gaussian分布無界,通過強(qiáng)制截?cái)噍敵鰟?dòng)作的越界值將會(huì)導(dǎo)致邊界效應(yīng),將不可避免地引入策略梯度的估計(jì)偏差[19]。為了緩解Gaussian分布策略的邊界效應(yīng)影響,本文在策略網(wǎng)絡(luò)的輸出層使用Beta分布替換Gaussian分布。Beta概率分布密度由下式給出:

        (34)

        式中:Γ(·)為Gamma函數(shù),α和β為Beta分布的參數(shù)。式(34)有界,可以減小截?cái)郍aussian分布帶來的策略梯度估計(jì)誤差,因此適合對有界動(dòng)作進(jìn)行采樣。

        ② 具有注意力機(jī)制的Critic網(wǎng)絡(luò):對于簡單全連接層的Critic網(wǎng)絡(luò)而言,大量的狀態(tài)輸入會(huì)導(dǎo)致所需的模型復(fù)雜度快速升高,從而導(dǎo)致Critic網(wǎng)絡(luò)的收斂緩慢或者難以收斂,對Actor網(wǎng)絡(luò)的動(dòng)作造成消極影響。本文在Critic網(wǎng)絡(luò)的多層感知器(Multilayer Perceptron,MLP)之前引入了多頭注意力單元,以提高模型訓(xùn)練的收斂性能。對于同種類型智能體的Critic網(wǎng)絡(luò),首先接受所有智能體的觀測向量,將每種智能體的觀測向量分別通過MU和UAV的MLP狀態(tài)編碼器,獲得特征值ei。然后將所有智能體的特征值ei作為qi、ki、vi輸入其多頭注意力單元,以獲得各注意力值xi,具體計(jì)算如下:

        (35)

        (36)

        基于上述討論,本文建立了E-ABMAPPO的訓(xùn)練框架,其算法實(shí)現(xiàn)過程如算法1所示。

        算法1 基于E-ABMAPPO訓(xùn)練框架的聯(lián)合優(yōu)化算法輸入:最大回合數(shù)Epmax,回合長度epl,PPO更新次數(shù)PE,折扣因子γ,PPO截?cái)嘁蜃?GAE參數(shù)λ輸出:訓(xùn)練后各智能體的Actor網(wǎng)絡(luò)與Critic網(wǎng)絡(luò)1. 初始化各類神經(jīng)網(wǎng)絡(luò)模型參數(shù),設(shè)置n=1,構(gòu)建訓(xùn)練環(huán)境; 2. FOR Episode,1≤Episode≤Epmax DO3. FOR t,1≤t≤epl DO4. MU智能體從環(huán)境中獲得觀測ok(t),?k∈;5. 執(zhí)行動(dòng)作ak(t),?k∈;6. UAV資源分配智能體和UAV軌跡優(yōu)化智能體從環(huán)境中獲得觀測oK+m(t),oK+M+m(t),?m∈;7. 地面控制中心收集系統(tǒng)狀態(tài)與經(jīng)驗(yàn)信息,評估獎(jiǎng)勵(lì)ri(t),?i∈;8. 將經(jīng)驗(yàn) Tri(t)={oi(t),ai(t),ri(t),s(t)},?i∈放入地面控制中心經(jīng)驗(yàn)緩存區(qū)Bi中;9. IF n=N THEN10. 重置訓(xùn)練環(huán)境;

        11. END IF12. n←n mod N+1;13. END FOR14. FOR epoch,1≤epoch≤PE DO15. FOR agents i∈DO16. 根據(jù)式(31)更新Actor網(wǎng)絡(luò)參數(shù)θi17. 根據(jù)式(33)更新Critic網(wǎng)絡(luò)參數(shù)ξi;18. END FOR19. END FOR20. END FOR

        4 仿真結(jié)果與分析

        本節(jié)首先對實(shí)驗(yàn)平臺及實(shí)驗(yàn)參數(shù)進(jìn)行簡單說明,然后驗(yàn)證了所提算法的收斂性。在此基礎(chǔ)上,針對不同的網(wǎng)絡(luò)資源狀況與場景進(jìn)行了詳細(xì)的性能實(shí)驗(yàn)與評估,并與基線算法進(jìn)行了對比分析。

        4.1 參數(shù)設(shè)置

        本實(shí)驗(yàn)的仿真環(huán)境使用Python 3.7與PyTorch 1.11.0進(jìn)行編寫。本實(shí)驗(yàn)中設(shè)置的默認(rèn)用戶數(shù)量K為30,無人機(jī)數(shù)量M為5,總帶寬B為15 MHz,任務(wù)量大小Dk[n]∈[0.5,1.5]Mb,單位比特平均計(jì)算量大小Ck[n]∈[800,1 200] cycles/b,時(shí)延約束tk[n]∈[0.7,1.0]s,權(quán)重因子設(shè)置為η=1,?1=0.001,?2=0.1?1。對于所提算法,各種智能體的策略共享Actor網(wǎng)絡(luò)參數(shù),使用GAE計(jì)算優(yōu)勢函數(shù);考慮到獎(jiǎng)勵(lì)值有界,不使用值歸一化方法。其余實(shí)驗(yàn)參數(shù)與算法參數(shù)結(jié)合文獻(xiàn)[12,20]進(jìn)行設(shè)置,如表1所示。

        表1 相關(guān)參數(shù)設(shè)置Tab.1 Parameter setting

        為評價(jià)E-ABMAPPO方法中各智能體獎(jiǎng)勵(lì)的收斂性,2種基準(zhǔn)MARL算法描述如下:

        ① MAPPO:該方法為不使用Beta分布-注意力機(jī)制改進(jìn)方法的原始MAPPO算法,其獎(jiǎng)勵(lì)函數(shù)、動(dòng)作和狀態(tài)空間與所提算法相同[21]。

        ② MADDPG(Multi-Agent Deep Deterministic Policy Gradient):該方法與MAPPO都是目前較為主流和可靠的MARL算法[7]。它由雙Actor網(wǎng)絡(luò)與雙Critic網(wǎng)絡(luò)構(gòu)成,其中Actor網(wǎng)絡(luò)的輸出即為動(dòng)作值,之后加以一定探索噪聲,Critic用于擬合動(dòng)作值函數(shù)。

        4.2 數(shù)值分析

        本文對比了MU智能體和UAV資源分配智能體如圖3和圖4所示。從圖3可以看出,對于MU智能體,所提E-ABMAPPO方法于4×104步左右收斂,收斂速度最快;MAPPO方法于8×104步左右收斂,而MADDPG方法收斂最慢,過程較為曲折,且所提算法獲得的獎(jiǎng)勵(lì)最高,MAPPO次之,MADDPG最低。由此可以推斷出,注意力機(jī)制能使MU在評價(jià)狀態(tài)時(shí)關(guān)注更利于自身卸載的UAV,加速了算法的收斂性。此外,MADDPG探索策略的不足導(dǎo)致其收斂較慢或局部最優(yōu)收斂。從圖4可以觀察到,所提算法在初期探索階段前25×103步的獎(jiǎng)勵(lì)上升速度略快,在5×104步出現(xiàn)收斂,最后得到的獎(jiǎng)勵(lì)在-0.30左右。此外,可以看出在UAV資源分配智能體的訓(xùn)練上,所提方法與MAPPO方法訓(xùn)練速度仍然高于MADDPG。由此可見,基于MAPPO的方法探索環(huán)境的效率更高,且Beta分布能依據(jù)自身特性進(jìn)一步提升探索—學(xué)習(xí)這一過程的速度與性能。

        圖3 MU智能體獎(jiǎng)勵(lì)值收斂性Fig.3 Convergence of MU agent reward

        圖4 UAV資源分配智能體獎(jiǎng)勵(lì)值收斂性Fig.4 Convergence of UAV resource allocation agent reward

        圖5展示了UAV的飛行軌跡情況??梢杂^察到,當(dāng)UAV起點(diǎn)隨機(jī)分布在區(qū)域內(nèi)時(shí),UAV能夠保持在用戶密集區(qū)提供服務(wù),通過快速移動(dòng)以盡可能顧及到更多的用戶,當(dāng)所服務(wù)用戶在某一區(qū)域內(nèi)時(shí),通過盤旋以保持速率。為此,采用加速度作為決策變量能使軌跡平滑,更能應(yīng)用于實(shí)際場景,UAV軌跡優(yōu)化智能體學(xué)習(xí)到了一定的相互協(xié)作能力,通過部署到各個(gè)區(qū)域在空間上分配計(jì)算資源,提高M(jìn)U的服務(wù)質(zhì)量。

        圖5 UAV飛行軌跡情況Fig.5 Trajectories of UAVs

        圖6對比了4種算法在不同任務(wù)量大小下的性能。任務(wù)量大小從1 Mb 增大至2 Mb 時(shí),所提方法的MU平均加權(quán)能耗最低,在0.13~0.24 J,隨機(jī)算法最高,在0.27~0.53 J。相比于MAPPO和MADDPG,所提算法用戶平均加權(quán)能耗分別降低了 22.5%~31.6%和33.5%~45.8%,相對于隨機(jī)算法降低了43.7%以上。由此可見,MAPPO搜索到的策略優(yōu)于MADDPG。這驗(yàn)證了Beta分布與注意力機(jī)制的使用能夠提升MAPPO算法搜索到的策略質(zhì)量,從而進(jìn)一步提升MU的服務(wù)質(zhì)量。

        圖6 不同任務(wù)量下算法性能對比Fig.6 Performance comparison under different tasks

        5 結(jié)束語

        本文提出了一種CTDE的無人機(jī)輔助MEC任務(wù)卸載方法,以降低移動(dòng)用戶與無人機(jī)的總能耗,提高邊緣計(jì)算網(wǎng)絡(luò)的可靠性。特別地,利用MARL方法解決了集中式執(zhí)行的DRI算法不適于應(yīng)對分布式、具有連續(xù)變量和離散變量的混合動(dòng)作空間的難點(diǎn),提出了針對不同智能體的特性進(jìn)行獎(jiǎng)勵(lì)值設(shè)計(jì),并將Beta分布與注意力機(jī)制引入MAPPO方法以提升探索能力與收斂性能。進(jìn)行了仿真實(shí)驗(yàn),將E-ABMAPPO與其他基準(zhǔn)方法進(jìn)行了對比,并分析了所提方法的性能。實(shí)驗(yàn)結(jié)果表明,E-ABMAPPO方法能夠有效降低移動(dòng)用戶與無人機(jī)的加權(quán)能耗,驗(yàn)證了本文方法的有效性。未來工作將考慮多無人機(jī)協(xié)作與地面基站相結(jié)合的多層次邊緣計(jì)算網(wǎng)絡(luò),設(shè)計(jì)無人機(jī)的飛行軌跡和協(xié)同計(jì)算卸載策略,以取得更好的系統(tǒng)性能。

        猜你喜歡
        能耗軌跡動(dòng)作
        120t轉(zhuǎn)爐降低工序能耗生產(chǎn)實(shí)踐
        昆鋼科技(2022年2期)2022-07-08 06:36:14
        能耗雙控下,漲價(jià)潮再度來襲!
        探討如何設(shè)計(jì)零能耗住宅
        軌跡
        軌跡
        日本先進(jìn)的“零能耗住宅”
        軌跡
        動(dòng)作描寫要具體
        畫動(dòng)作
        進(jìn)化的軌跡(一)——進(jìn)化,無盡的適應(yīng)
        中國三峽(2017年2期)2017-06-09 08:15:29
        漂亮人妻被强中文字幕乱码| 亚洲av无码精品色午夜果冻不卡| 亚洲综合欧美日本另类激情| 日本人妻少妇精品视频专区| 国产欧美日本亚洲精品一4区| 白色白色在线视频播放平台| 久久久极品少妇刺激呻吟网站| 色综合视频一区中文字幕| 老色鬼永久精品网站| 香蕉国产人午夜视频在线观看| 最新福利姬在线视频国产观看| 一区二区三区日本久久| 亚洲天堂久久午夜福利| 色噜噜亚洲男人的天堂| 野外亲子乱子伦视频丶| 国产成人av一区二区三区无码| 日韩久久无码免费看A| 亚洲在线精品一区二区三区| 蜜臀av无码人妻精品| 女厕厕露p撒尿八个少妇| 国产日本在线视频| 国产一区二区熟女精品免费| 人人鲁人人莫人人爱精品| 无遮无挡爽爽免费毛片| 亚洲黄色电影| 99久久精品无码专区无| 青青草是针对华人绿色超碰| 中文字幕亚洲综合久久| 精品乱码久久久久久久| 肉体裸交丰满丰满少妇在线观看| 免费国产黄片视频在线观看| 超短裙老师在线观看一区| 国产精品一区二区日本| 亚洲男人的天堂网站| 一级午夜视频| 日本一区二区三本视频在线观看| 日韩精品一区二区三区乱码 | 国产精品一区二区三级| 开心五月骚婷婷综合网| 亚洲国产av无码专区亚洲av| 人妻无码久久一区二区三区免费|