亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)新鮮度驅(qū)動的協(xié)作式無人機聯(lián)邦學(xué)習(xí)智能決策優(yōu)化研究

        2022-09-22 03:33:42
        電子與信息學(xué)報 2022年9期
        關(guān)鍵詞:聯(lián)邦全局能耗

        范 文 韋 茜 周 知 于 帥 陳 旭

        (中山大學(xué)計算機學(xué)院 廣州 510006)

        1 引言

        在傳統(tǒng)計算范式中,用戶設(shè)備通常將原始數(shù)據(jù)上傳至集中云服務(wù)器進(jìn)行處理,但是這不可避免地造成極大的傳輸開銷和數(shù)據(jù)隱私泄露。針對該問題,聯(lián)合利用移動邊緣計算(Mobile Edge Computing, MEC)[1]和聯(lián)邦學(xué)習(xí)[2]設(shè)計解決方案逐漸成為研究焦點。一方面,邊緣服務(wù)器分擔(dān)用戶設(shè)備的聯(lián)邦學(xué)習(xí)本地訓(xùn)練任務(wù),既減輕用戶設(shè)備的計算負(fù)載,又降低向云端傳輸數(shù)據(jù)造成的開銷;另一方面,利用本地化模型訓(xùn)練結(jié)果聚合成全局共享模型,避免了隱私數(shù)據(jù)泄露的弊端,有利于實現(xiàn)快速、高效的訓(xùn)練過程。然而,邊緣服務(wù)器通常是位置固定的且覆蓋范圍有限的,這將導(dǎo)致其無法靈活有效地處理復(fù)雜變化的強實時性任務(wù)[3]。

        隨著下一代網(wǎng)絡(luò)系統(tǒng)如6G通信網(wǎng)絡(luò)的快速發(fā)展,高性能無人機(Unmanned Aerial Vehicle,UAV)已被視為具備感知、計算和存儲能力的空中邊緣服務(wù)器[4]。與傳統(tǒng)的安裝在地面基站上的固定邊緣服務(wù)器相比,無人機利用其高度敏捷性、靈活性和移動性實現(xiàn)按需部署,增強了系統(tǒng)的覆蓋范圍[5]。在許多強實時性應(yīng)用場景(如交通管理、環(huán)境和災(zāi)難監(jiān)測、戰(zhàn)場監(jiān)視等[6])中,多個無人機在不同區(qū)域中移動,及時接收眾多分散的用戶數(shù)據(jù),以協(xié)作的方式完成復(fù)雜的移動邊緣計算任務(wù),訓(xùn)練具有高可用性和高實時性的機器學(xué)習(xí)模型(例如,圖像分類模型)[7]。進(jìn)一步地,在聯(lián)邦學(xué)習(xí)模式下,多無人機完成訓(xùn)練后只需要將本地模型參數(shù)上傳至云服務(wù)器進(jìn)行全局模型聚合,實現(xiàn)訓(xùn)練模型的共享和隱私保護(hù)。

        值得注意的是,無人機的感知半徑有限,且有限的機載電池會約束無人機的移動范圍,因此無法保證每個用戶設(shè)備產(chǎn)生的數(shù)據(jù)都能及時地被無人機接收并處理。而在移動邊緣計算場景中,數(shù)據(jù)的實時處理對其可用性和模型的實時更新非常重要。為此,文獻(xiàn)[8]在模型中采用數(shù)據(jù)的信息年齡(Age-of-Information, AoI) 來刻畫數(shù)據(jù)的新鮮程度,將其定義為數(shù)據(jù)最近一次成功傳輸后經(jīng)過的時間[9]。但是,它們忽略了數(shù)據(jù)在區(qū)域中等待的時間,這對MEC 場景中無人機的模型訓(xùn)練和通信決策是至關(guān)重要的,特別是在多無人機協(xié)作訓(xùn)練的情況下。本文將數(shù)據(jù)的新鮮程度,即數(shù)據(jù)在端設(shè)備上等待的時間與被無人機接收并處理的時間之和定義為數(shù)據(jù)的信息年齡[10],通過最小化信息年齡來優(yōu)化無人機移動邊緣計算決策,提升聯(lián)邦學(xué)習(xí)性能,增強數(shù)據(jù)處理實時性。因此,如何規(guī)劃無人機的路徑和制定通信決策,以及如何在無人機之間展開協(xié)同工作,合理地分配計算資源,同時滿足能耗和時延的限制,成為本文需要解決的關(guān)鍵問題。

        針對上述挑戰(zhàn),本文提出了一種嶄新的基于數(shù)據(jù)新鮮程度的協(xié)作式無人機聯(lián)邦學(xué)習(xí)范式,通過多無人機協(xié)同地智能地進(jìn)行移動、通信和計算卸載決策,高效地完成了邊緣數(shù)據(jù)處理任務(wù),顯著地降低了無人機的能量消耗并保證了模型高準(zhǔn)確率和低數(shù)據(jù)信息年齡。本文進(jìn)一步提出一種多智能體深度強化學(xué)習(xí)(Deep Reinforcement Learning, DRL)算法,有效地處理復(fù)雜狀態(tài)空間,實現(xiàn)多無人機的高效協(xié)作和智能決策優(yōu)化。本文的主要貢獻(xiàn)包括4個方面:

        (1) 提出面向?qū)崟r邊緣數(shù)據(jù)處理的多無人機協(xié)作式聯(lián)邦學(xué)習(xí)范式,能夠充分發(fā)揮無人機輔助移動邊緣計算和聯(lián)邦學(xué)習(xí)的優(yōu)勢,避免了云中心集中式數(shù)據(jù)處理的用戶隱私保護(hù)弱和任務(wù)處理時延大等不足;

        (2) 引入信息年齡以描述協(xié)作式無人機聯(lián)邦學(xué)習(xí)的訓(xùn)練數(shù)據(jù)的新鮮程度,并據(jù)此對多無人機協(xié)同決策問題進(jìn)行建模,以聯(lián)合優(yōu)化邊緣數(shù)據(jù)處理的模型準(zhǔn)確率、信息年齡以及總體能耗;

        (3) 設(shè)計了一種新穎的具有全局和局部獎勵的優(yōu)先級多智能體深度強化學(xué)習(xí)算法,實現(xiàn)多無人機協(xié)同地移動、通信和任務(wù)卸載決策智能聯(lián)合優(yōu)化;

        (4) 采用多個真實機器學(xué)習(xí)數(shù)據(jù)集進(jìn)行仿真實驗并設(shè)置了充分的對比實驗,結(jié)果表明了本文提出的算法在不同數(shù)據(jù)分布下和在快速變化的復(fù)雜動態(tài)環(huán)境中都能實現(xiàn)優(yōu)越的性能表現(xiàn)。

        2 系統(tǒng)模型與問題形式化

        2.1 區(qū)域模型

        如圖1所示,感知區(qū)域被劃分為M={1,2,...,M}個子區(qū)域,每個子區(qū)域的中心位置設(shè)為用戶設(shè)備,它感知并傳輸該子區(qū)域的實時數(shù)據(jù)至邊緣服務(wù)器進(jìn)行處理。在本系統(tǒng)中,由于安裝在地面基站上的邊緣服務(wù)器(后文簡稱為基站(Base Station, BS))的覆蓋范圍以及用戶設(shè)備的射頻功率有限,用戶設(shè)備無法與基站直接通信。為了解決計算的局限性,系統(tǒng)部署多個無人機以接收和處理其覆蓋范圍內(nèi)用戶設(shè)備的實時數(shù)據(jù)。這些無人機配備了完成計算任務(wù)所必要的載荷,包括數(shù)據(jù)收發(fā)設(shè)備(如天線)、數(shù)據(jù)存儲設(shè)備(如存儲卡)和數(shù)據(jù)處理設(shè)備(如嵌入式CPU),以及基本設(shè)備(如機體、電池、動力控制和飛行控制裝置)及其相關(guān)傳感器。無人機的載荷高度集成化使其數(shù)據(jù)存儲、數(shù)據(jù)處理和移動的綜合能力遠(yuǎn)在固定的邊緣服務(wù)器之上。在本文中,無人機作為性能適中的邊緣服務(wù)器,支持長、短距離無線通信,能夠為基站覆蓋不了的區(qū)域提供計算服務(wù)。因此,無人機可以高效地充當(dāng)邊緣計算節(jié)點來完成本文的邊緣計算任務(wù)。

        圖1 基于MEC的多無人機感知區(qū)域

        2.2 聯(lián)邦學(xué)習(xí)模型

        2.3 任務(wù)卸載模型

        表1 系統(tǒng)參數(shù)及其定義

        式(4)表示無人機i執(zhí) 行卸載決策的數(shù)據(jù)總量要與從覆蓋區(qū)域內(nèi)的用戶設(shè)備接收的數(shù)據(jù)總量一致。在多無人機協(xié)作過程中,每個無人機進(jìn)行數(shù)據(jù)通信時主要傳輸實時數(shù)據(jù)和模型。相對于任務(wù)數(shù)據(jù)量的大小,模型的大小一致且可以忽略。因此,本文主要考慮任務(wù)數(shù)據(jù)傳輸時所產(chǎn)生的通信時延開銷和通信能耗開銷。

        2.4 信息年齡模型

        2.5 能耗模型

        2.6 問題形式化

        基于所構(gòu)建的數(shù)學(xué)模型,本文希望在合理地規(guī)劃無人機的飛行軌跡、智能地選擇通信設(shè)備并分配聯(lián)邦學(xué)習(xí)本地計算任務(wù)的前提下,找到一個可以長期最大限度地保持區(qū)域數(shù)據(jù)新鮮和模型的高預(yù)測準(zhǔn)確率,同時最小化每個無人機能耗的解決方案。為此,將系統(tǒng)的優(yōu)化目標(biāo)表示為

        其中,權(quán)重因子μ1和μ2可以實現(xiàn)AoI、預(yù)測準(zhǔn)確率和能耗的長期動態(tài)平衡。由式(5)可知,為了減少自身能耗,無人機偏向于在原地徘徊并做更少的通信決策;而為了保持區(qū)域數(shù)據(jù)長期新鮮,無人機會頻繁移動以收集和處理用戶設(shè)備的實時數(shù)據(jù)。但是,無人機頻繁收集覆蓋區(qū)域的用戶數(shù)據(jù)將導(dǎo)致其通信時延和能耗的開銷增大。此外,聯(lián)邦學(xué)習(xí)模式基于收集到的任務(wù)數(shù)據(jù)進(jìn)行多分類預(yù)測模型訓(xùn)練,以提升模型準(zhǔn)確性為目標(biāo),卻忽略了任務(wù)的實時性。但是在實際應(yīng)用中,數(shù)據(jù)的實時性對于模型預(yù)測是十分重要的。如果基于過時的任務(wù)數(shù)據(jù)訓(xùn)練模型對新鮮的數(shù)據(jù)進(jìn)行預(yù)測,那么其得到的預(yù)測性能將不理想。在本文中,多分類預(yù)測模型是通過聯(lián)邦學(xué)習(xí)在多分類數(shù)據(jù)集上訓(xùn)練而得到的,模型的訓(xùn)練效果包括模型的準(zhǔn)確性和模型的實時性。其中,模型的準(zhǔn)確性是通過多分類預(yù)測任務(wù)的結(jié)果體現(xiàn)的,模型的實時性是由數(shù)據(jù)的新鮮程度決定的。

        3 算法設(shè)計

        本文所要解決的多無人機協(xié)作路徑規(guī)劃、通信決策和任務(wù)卸載決策問題屬于復(fù)雜的離散變量和連續(xù)變量耦合的組合優(yōu)化問題,采用傳統(tǒng)的優(yōu)化方法難以求解。因此,本文將該問題轉(zhuǎn)化為馬爾可夫決策問題,并設(shè)計基于深度強化學(xué)習(xí)的新型智能化優(yōu)化算法來高效求解。

        3.1 問題轉(zhuǎn)化

        3.2 算法設(shè)計

        傳統(tǒng)的多智能DRL算法,如多智能體深度確定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient, MADDPG)算法,通常優(yōu)化單一的整體獎勵。但是這可能會使學(xué)習(xí)過程在優(yōu)化全局對象和局部對象之間來回波動,從而導(dǎo)致收斂不穩(wěn)定、收斂速度緩慢等問題。因此,本文將獎勵函數(shù)分解為全局獎勵和局部獎勵,其中局部獎勵是每個智能體的本地優(yōu)化目標(biāo),即減少無人機的能耗;而全局獎勵是智能體群組的共同優(yōu)化全局目標(biāo),即提高目標(biāo)區(qū)域數(shù)據(jù)的AoI和模型預(yù)測準(zhǔn)確率。為了實現(xiàn)全局優(yōu)化目標(biāo)和局部優(yōu)化目標(biāo)之間的動態(tài)平衡,本文引入可分解的多智能體深度確定性策略梯度(DEcomposed Multi-Agent Deep Deterministic Policy Gradient, DE-MADDPG)方法[13]。

        DE-MADDPG是一種采用雙critic網(wǎng)絡(luò)的多智能體DRL算法,其目標(biāo)是同時朝著使全局獎勵和局部獎勵最大化的方向優(yōu)化策略。在給定當(dāng)前狀態(tài)si時,每個智能體i中的分布式actor網(wǎng)絡(luò)可以生成動作ai。Actor網(wǎng)絡(luò)使用確定性策略梯度方法進(jìn)行參數(shù)更新,其梯度可以表示為

        在本文的多無人機動態(tài)決策場景中,狀態(tài)空間和動作空間規(guī)模隨著無人機數(shù)量和目標(biāo)區(qū)域規(guī)模的增加而迅速增加。為了學(xué)習(xí)有價值的樣本進(jìn)而優(yōu)化策略以加速DRL的收斂過程,本文進(jìn)一步結(jié)合優(yōu)先級經(jīng)驗回放機制[14]與DE-MADDPG方法,設(shè)計了基于優(yōu)先級的可分解多智能體深度確定性策略梯度算法(Prioritized Decompose Multi-Agent Policy Gradient, PD-MADDPG)。緩存中的每個樣本都有一個優(yōu)先級,為其樣本的TD誤差。TD誤差越大的樣本,其估計值與目標(biāo)值差距越大,網(wǎng)絡(luò)使用此樣本進(jìn)行訓(xùn)練時可以更快提升性能。

        3.3 算法實現(xiàn)

        本文將訓(xùn)練一個共享預(yù)測模型的聯(lián)邦學(xué)習(xí)作為系統(tǒng)的主要任務(wù)(表2),在訓(xùn)練過程中調(diào)用PDMADDPG 算法提供階段性通信和卸載決策(表3),并將預(yù)測模型訓(xùn)練結(jié)果反饋給PD-MADDPG算法進(jìn)行優(yōu)化。PD-MADDPG算法在每一輪聯(lián)邦學(xué)習(xí)的本地迭代中在線為無人機提供執(zhí)行聯(lián)邦學(xué)習(xí)的相關(guān)決策,并且在每輪全局迭代后,都進(jìn)行離線網(wǎng)絡(luò)訓(xùn)練。無人機在探索時依據(jù)當(dāng)前狀態(tài)執(zhí)行動作,計算全局獎勵rgt和局部獎勵rlt。以上離線訓(xùn)練過程結(jié)束后,將訓(xùn)練得到的多個actor網(wǎng)絡(luò)模型部署到對應(yīng)的無人機上再執(zhí)行。

        表2 聯(lián)邦學(xué)習(xí)算法(算法1)

        表3 PD-MADDPG算法(算法2)

        3.4 算法復(fù)雜性分析

        4 實驗結(jié)果與分析

        4.1 仿真實驗設(shè)置

        4.2 數(shù)據(jù)集與對比算法

        本文采用3個真實的10分類數(shù)據(jù)集來進(jìn)行仿真測試:(1) MNIST,由250個不同的人手寫數(shù)字0,1,...,9構(gòu)成;(2) Fashion-MNIST,由10個不同類別的28像素 × 28像素的灰度圖像組成;(3) CIFAR-10,由10個物品類別的32×32的3通道彩色RGB圖片組成。每個數(shù)據(jù)集中70%的數(shù)據(jù)用于訓(xùn)練分類預(yù)測模型,30%的數(shù)據(jù)用于測試其預(yù)測準(zhǔn)確率。將訓(xùn)練集數(shù)據(jù)平均分配給每個用戶設(shè)備,并設(shè)置非獨立同分布程度D來刻畫每個用戶設(shè)備數(shù)據(jù)的不同用戶特性或者地理區(qū)域特性。D = 0表示每個子區(qū)域的訓(xùn)練樣本均勻地包含所有分類標(biāo)簽,D ∈(0,1)表示所有數(shù)據(jù)均勻地屬于D個標(biāo)簽,D = 1表示每個子區(qū)域設(shè)備上的所有數(shù)據(jù)只屬于一個標(biāo)簽。

        本文使用4種優(yōu)化整體獎勵的算法進(jìn)行對比實驗:(1) P-MADDPG,將優(yōu)先級經(jīng)驗回放緩存技術(shù)引入 MADDPG算法,所有無人機共用一個優(yōu)先級緩存;(2) P-DDPG,將優(yōu)先級經(jīng)驗回放緩存技術(shù)引入 DDPG算法,所有無人機分布式地訓(xùn)練各自的actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò),它們之間不共享信息,并且每個無人機上都設(shè)置分布式緩存;(3) GREEDY,列出每個時隙每個無人機所有可能的動作,在其中選擇執(zhí)行使整體獎勵最優(yōu)的動作(其搜索空間龐大和實現(xiàn)復(fù)雜度高,難以在實際應(yīng)用中部署);(4) RANDOM,每個無人機在每個時隙隨機地產(chǎn)生動作,包括飛行方向、飛行距離、通信決策和卸載決策。

        4.3 實驗結(jié)果

        4.3.1 基于聯(lián)邦學(xué)習(xí)的預(yù)測模型效果分析

        圖2展示了本文提出的基于聯(lián)邦學(xué)習(xí)的PDMADDPG算法在不同的數(shù)據(jù)集和D = [0, 0.5, 1,2]的預(yù)測準(zhǔn)確率的表現(xiàn)。隨著用戶設(shè)備數(shù)據(jù)的非獨立同分布程度的增加(從0到1),預(yù)測準(zhǔn)確率變差,并且收斂速度變慢。這是因為非獨立同分布程度的增加導(dǎo)致每個用戶設(shè)備中的數(shù)據(jù)標(biāo)簽種類變少。雖然某一種標(biāo)簽的樣本數(shù)量會相對增加,但是多樣性的降低會使得本地模型更加偏向于預(yù)測某幾種標(biāo)簽的樣本。對于全局模型而言,非獨立同分布程度越大,本地模型就越發(fā)散。聚合發(fā)散的本地數(shù)據(jù)集會使模型性能變差,并使收斂回合數(shù)增加。只有當(dāng)收集了足夠多的樣本標(biāo)簽后,全局模型的預(yù)測準(zhǔn)確率才會逐步提高直到收斂。

        圖2 PD-MADDPG 算法的全局模型預(yù)測準(zhǔn)確率

        表4展示了PD-MADDPG與4種對比算法在準(zhǔn)確率性能上的差異。對不同數(shù)據(jù)集而言,所有算法的整體性能都會隨著數(shù)據(jù)集的復(fù)雜度變大而變差,并且非獨立同分布程度的增加會使模型預(yù)測準(zhǔn)確率下降。其中,PD-MADDPG算法表現(xiàn)最優(yōu),預(yù)測準(zhǔn)確率平均提升了16.3%,這是因為它將獎勵分為全局獎勵和局部獎勵。P-MADDPG, P-DDPG和GREEDY算法整體優(yōu)化預(yù)測準(zhǔn)確率、數(shù)據(jù)AoI、無人機能耗,因此可能會導(dǎo)致優(yōu)化目標(biāo)失衡,即為了確保能耗而犧牲準(zhǔn)確率。RANDOM算法的動作沒有任何策略,其性能是最差的。

        表4 各算法在不同數(shù)據(jù)集的不同非獨立同分布程度時的全局模型預(yù)測準(zhǔn)確率

        4.3.2 算法收斂性和可分解獎勵分析

        圖3是在MNIST數(shù)據(jù)集中D = 2時的算法獎勵變化。在圖3(a)中,除GREEDY算法之外,PDMADDPG算法比其余算法的平均總獎勵高48.4%,比基于DRL的算法高38.7%。它分別優(yōu)化全局獎勵和局部獎勵,因此兩者的性能都是最優(yōu)的,即它能找到最合適的移動、通信和卸載決策,使得獎勵在優(yōu)化無人機能耗、數(shù)據(jù)AoI及預(yù)測準(zhǔn)確率之間找到較好的平衡。當(dāng)設(shè)置較小的局部獎勵權(quán)重μ2時,總獎勵的收斂性主要受全局獎勵的影響,因此兩者的收斂性非常相似,如圖3(b)所示。在該設(shè)置中,GREEDY算法偏向選擇使全局獎勵更大的動作。RANDOM算法中無人機會任意地移動并通信,因此數(shù)據(jù)新鮮程度普遍較高,全局獎勵較高。PDMADDPG算法通過全局critic網(wǎng)絡(luò)來優(yōu)化全局獎勵,使得無人機執(zhí)行有利于維持?jǐn)?shù)據(jù)新鮮程度和預(yù)測模型準(zhǔn)確率的動作,它比基于DRL的算法的平均全局獎勵高37.1%。在圖3(c)中,PD-MADDPG算法是最優(yōu)的,因為無人機分布式actor網(wǎng)絡(luò)的優(yōu)化同時受全局critic網(wǎng)絡(luò)和局部critic網(wǎng)絡(luò)的影響,并且無人機之間是通過相互協(xié)作來進(jìn)行決策的。它比所有算法的平均局部獎勵高66.2%,比基于DRL的算法高48.3%。

        圖3 在 MNIST 數(shù)據(jù)集中D = 2時各算法獎勵的變化

        4.3.3 基于實時聯(lián)邦學(xué)習(xí)的協(xié)作式無人機計算系統(tǒng)的規(guī)??蓴U(kuò)展性分析

        當(dāng)無人機數(shù)量和通信范圍不變時,以MNIST數(shù)據(jù)集中D = 0.5為例,本文繪制了目標(biāo)區(qū)域邊長為5, 10, 15和20時,各算法在收斂后100個回合內(nèi)平均總獎勵的變化,如圖4所示。當(dāng)區(qū)域規(guī)模增大時,無人機服務(wù)的用戶設(shè)備增多,在保證預(yù)測準(zhǔn)確率和區(qū)域數(shù)據(jù)新鮮度的前提下,它的移動能耗增加,因此所有算法的平均總獎勵都減少。其中,PD-MADDPG算法的平均總獎勵的下降速率最慢,比所有算法的下降速率慢38.6%,比基于DRL的算法的下降速率慢23.5%。這說明本文提出的算法受區(qū)域變化的影響程度最小,無人機能找到更合適的協(xié)作方式,在保證其他優(yōu)化目標(biāo)的前提下減少無人機的移動能耗,因此其可擴(kuò)展性是最好的。

        GREEDY算法在每次迭代中遍歷所有可能的動作從而執(zhí)行使整體獎勵最優(yōu)的決策。但是這將產(chǎn)生額外的運行能耗,而該能耗是算法運行代價。本文在能耗建模時更關(guān)注多無人機執(zhí)行決策時產(chǎn)生的通信開銷,因此沒有在優(yōu)化目標(biāo)中考慮算法運行能耗,而是最小化無人機能耗。具體地,GREEDY算法的計算復(fù)雜度為O(aN·M),其中a是問題的動作空間。一次迭代中,GREEDY 算法耗時202.04 s,PD-MADDPG算法耗時20.13 s,這說明GREEDY算法的時間復(fù)雜度比PD-MADDPG算法的高約10倍。由圖4可知,僅當(dāng)目標(biāo)區(qū)域規(guī)模增加時,GREEDY算法的平均總獎勵下降得比PD-MADDPG算法快,目標(biāo)值之間的差距逐漸加大。隨著動作變量和空間規(guī)模變大,GREEDY算法的復(fù)雜度呈指數(shù)級增加,因此其可擴(kuò)展性是最差的。

        圖4 平均總獎勵隨目標(biāo)區(qū)域規(guī)模的變化

        5 結(jié)束語

        本文主要研究了在實時邊緣數(shù)據(jù)處理場景中,以無人機作為邊緣服務(wù)器,通過智能地進(jìn)行軌跡規(guī)劃、通信決策和卸載決策來實現(xiàn)模型預(yù)測高準(zhǔn)確率、高數(shù)據(jù)新鮮程度和低無人機能耗的優(yōu)化問題??紤]到用戶設(shè)備數(shù)據(jù)的實時性、隱私性和規(guī)模有限性,本文引入聯(lián)邦學(xué)習(xí)在無人機上執(zhí)行本地訓(xùn)練,然后聚合為全局模型,通過多輪迭代獲得共享的預(yù)測模型。為了解決該多目標(biāo)優(yōu)化問題,本文設(shè)計了一種全局獎勵和局部獎勵融合的多智能體深度強化學(xué)習(xí)的算法,動態(tài)地進(jìn)行多無人機的軌跡規(guī)劃以及任務(wù)卸載和通信決策。最后,大量的仿真實驗結(jié)果表明本文的PD-MADDPG算法的優(yōu)越性,驗證了所設(shè)計的系統(tǒng)和算法的合理性、有效性和可拓展性。

        猜你喜歡
        聯(lián)邦全局能耗
        Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
        120t轉(zhuǎn)爐降低工序能耗生產(chǎn)實踐
        昆鋼科技(2022年2期)2022-07-08 06:36:14
        量子Navier-Stokes方程弱解的全局存在性
        能耗雙控下,漲價潮再度來襲!
        探討如何設(shè)計零能耗住宅
        一“炮”而紅 音聯(lián)邦SVSound 2000 Pro品鑒會完滿舉行
        303A深圳市音聯(lián)邦電氣有限公司
        日本先進(jìn)的“零能耗住宅”
        華人時刊(2018年15期)2018-11-10 03:25:26
        落子山東,意在全局
        金橋(2018年4期)2018-09-26 02:24:54
        新思路:牽一發(fā)動全局
        日本黄色特级一区二区三区| av无码久久久久久不卡网站 | 国产精品爽爽ⅴa在线观看| 影音先锋每日av色资源站| 亚洲AV综合A∨一区二区| 亚洲一区二区在线视频,| 日韩女同视频在线网站| 俺去俺来也在线www色官网| 一区二区无码中出| 中文字幕被公侵犯的丰满人妻| 亚洲一区二区三区四区精品在线 | 国产精品成人亚洲一区| 99久久精品日本一区二区免费| 亚州精品无码久久aV字幕| 久久久人妻一区精品久久久| 日本一区二区三区视频在线观看 | 久久久久99精品成人片试看| 放荡人妻一区二区三区| 青青草手机在线免费观看视频| wwww亚洲熟妇久久久久| av中文字幕综合在线| 亚洲男女视频一区二区| 人妻久久久一区二区三区蜜臀| 国产丝袜视频一区二区三区| AV人人操| 男女深夜视频网站入口| 中文字幕人妻第一区| 欧美日韩国产成人高清视| 国产成人亚洲合色婷婷| 在线观看午夜视频一区二区| 中国丰满熟妇xxxx| 亚洲VR永久无码一区| 手机在线播放av网址| 国产精品无码久久久久久| 国产精品久久久久尤物| 国产又湿又爽又猛的视频 | 亚洲AV肉丝网站一区二区无码 | 日本中文字幕精品久久| 天天爽天天爽夜夜爽毛片| 国产日韩A∨无码免费播放| 99热婷婷一区二区三区|