多智能體協(xié)作場景下基于強(qiáng)化學(xué)習(xí)值分解的計算卸載策略

2021-07-16 13:04:40張鵬田輝趙鵬濤賀碩童一帆

通信學(xué)報 2021年6期

張鵬，田輝，趙鵬濤，賀碩，童一帆

（1.北京郵電大學(xué)網(wǎng)絡(luò)與交換技術(shù)國家重點(diǎn)實(shí)驗(yàn)室，北京 100876；2.鄭州大學(xué)信息工程學(xué)院，河南鄭州 450001）

1 引言

隨著大數(shù)據(jù)和人工智能技術(shù)的突破和融合，未來整個社會將向數(shù)字化和智能化轉(zhuǎn)型。數(shù)字孿生世界為人工智能的應(yīng)用提供了廣闊的場景，同時也推動了移動通信技術(shù)向6G 演進(jìn)和發(fā)展[1]。智能交互場景，尤其是智能制造核心裝備的工業(yè)機(jī)器人間的智能交互作為6G 網(wǎng)絡(luò)的全新應(yīng)用場景，受到了學(xué)術(shù)界和工業(yè)界的廣泛重視。根據(jù)國際機(jī)器人聯(lián)合會（IFR,International Federation of Robotics）最新發(fā)布的《全球機(jī)器人2019?工業(yè)機(jī)器人》報告顯示，2018 年全球工業(yè)機(jī)器人出貨量為42.2 萬臺，2020 年至2022 年全球機(jī)器人年出貨量增長率將會達(dá)到12%[2]。文獻(xiàn)[3]指出，到2030年，中國預(yù)計投入使用的機(jī)器人數(shù)量將達(dá)到1 400 萬臺。

位于網(wǎng)絡(luò)邊緣側(cè)的機(jī)器人/智能體是融合計算、存儲、應(yīng)用等核心能力的重要載體和平臺，可以就近提供邊緣智能服務(wù)。近年來，研究人員試圖使機(jī)器人執(zhí)行一些更加復(fù)雜的工作，如實(shí)時交互、災(zāi)區(qū)救援等。然而，目前的機(jī)器人大多是孤立的且自主智能能力較弱，同時受到尺寸和電池容量的限制，難以應(yīng)對復(fù)雜多變且非結(jié)構(gòu)化的自然環(huán)境、計算密集型的任務(wù)以及6G 時代對自然交互的需求。為了進(jìn)一步提高機(jī)器人執(zhí)行任務(wù)的能力，Kuffner[4]于2010 提出了“云機(jī)器人”的概念，通過借助互聯(lián)網(wǎng)技術(shù)和云計算技術(shù)，使機(jī)器人從云中的計算、存儲、通信等資源中受益，打破了機(jī)器人與人工智能之間的壁壘，成為目前機(jī)器人領(lǐng)域的研究熱點(diǎn)。如何有效地進(jìn)行云機(jī)器人計算任務(wù)的卸載是需要解決的關(guān)鍵問題[5]。

對于邊緣云架構(gòu)下的卸載研究，文獻(xiàn)[6]研究了上下行流量差異化系統(tǒng)中基于上下文感知的上下行帶寬動態(tài)配置與基于凸優(yōu)化的計算卸載策略。文獻(xiàn)[7]將計算卸載問題分解為基于擬凸優(yōu)化的計算與通信資源優(yōu)化問題、基于啟發(fā)式的終端卸載決策問題。文獻(xiàn)[8]針對網(wǎng)絡(luò)信息的時效性，考慮了網(wǎng)絡(luò)隨機(jī)到達(dá)、無線信道與有限的空口資源，利用李雅普諾夫優(yōu)化實(shí)現(xiàn)了吞吐量與公平性兼?zhèn)涞挠嬎阈遁d調(diào)度。文獻(xiàn)[9]針對惡意競爭不規(guī)范行為帶來的不合理資源配置，構(gòu)建了基于信譽(yù)值的博弈模型，通過改進(jìn)粒子群算法和拉格朗日乘數(shù)法優(yōu)化單MEC（mobile edge computing）服務(wù)器下的終端卸載方案。文獻(xiàn)[10]引入D2D（device to device）協(xié)作中繼，基于博弈論設(shè)計了針對多用戶場景中上行通信擁塞、D2D 復(fù)用干擾、邊緣計算資源受限和云計算回程時延等因素的卸載方案。文獻(xiàn)[11]研究了移動邊緣計算系統(tǒng)中設(shè)備周期性地產(chǎn)生計算任務(wù)時進(jìn)行卸載決策的場景，在該場景下證明了納什均衡的存在并提出相應(yīng)的分布式均衡算法。

對于多任務(wù)流程，文獻(xiàn)[12]基于任務(wù)圖分割方法優(yōu)化物聯(lián)網(wǎng)場景下的任務(wù)卸載決策，在滿足設(shè)備 QoS（quality of sever）需求后盡量減少物聯(lián)網(wǎng)終端個體對邊緣服務(wù)器的資源消耗。文獻(xiàn)[13]同樣基于任務(wù)流程圖的架構(gòu)，設(shè)計深度強(qiáng)化學(xué)習(xí)方案對單設(shè)備多任務(wù)流程場景下的移動設(shè)備的能耗和任務(wù)執(zhí)行時間進(jìn)行智能卸載決策。在移動場景中，文獻(xiàn)[14]考慮終端設(shè)備的移動性和計算節(jié)點(diǎn)的可遷移性，構(gòu)建可遷移的移動計算框架，將問題轉(zhuǎn)化為馬爾可夫決策過程，并通過深度Q 網(wǎng)絡(luò)（DQN,deep Q network）對單設(shè)備的計算卸載和遷移決策進(jìn)行優(yōu)化。文獻(xiàn)[15]在車載邊緣計算網(wǎng)絡(luò)架構(gòu)下考慮車載終端縱向協(xié)作和橫向協(xié)作，通過異步分布式強(qiáng)化學(xué)習(xí)算法優(yōu)化用戶任務(wù)卸載決策及計算和緩存資源的調(diào)度。文獻(xiàn)[16]在車載邊緣網(wǎng)絡(luò)下設(shè)定不同車輛任務(wù)的優(yōu)先級，利用深度Q 網(wǎng)絡(luò)實(shí)現(xiàn)車載終端用戶任務(wù)執(zhí)行時延、處理速率與能耗的均衡卸載算法。涉及安全性時，文獻(xiàn)[17]在區(qū)塊鏈賦能的場景下提出了基于信任值的深度強(qiáng)化學(xué)習(xí)卸載方案，通過選擇中繼節(jié)點(diǎn)增強(qiáng)系統(tǒng)的可靠性。文獻(xiàn)[18]在區(qū)塊鏈賦能的邊緣異構(gòu)計算系統(tǒng)下，通過拉格朗日對偶理論聯(lián)合優(yōu)化通信及計算資源受限下的系統(tǒng)效用，解決區(qū)塊鏈計算任務(wù)和用戶卸載計算任務(wù)。

同時，部分文獻(xiàn)展開了對智能交互場景下的云機(jī)器人計算卸載的研究。文獻(xiàn)[5]假設(shè)所有機(jī)器人具有同構(gòu)的處理能力，并基于遺傳算法提出了最小化機(jī)器人能耗的計算任務(wù)卸載方案。文獻(xiàn)[19]基于改進(jìn)的遺傳算法提出了一種云機(jī)器人計算任務(wù)卸載、路徑規(guī)劃以及接入選擇的聯(lián)合優(yōu)化方案以最小化機(jī)器人能耗。文獻(xiàn)[20]利用博弈論研究了多智能體場景下的計算卸載和路由轉(zhuǎn)發(fā)問題，并證明了納什均衡的存在。文獻(xiàn)[21]考慮了不同任務(wù)對時延的敏感程度，提出了一種用戶偏好感知的計算任務(wù)卸載及帶寬資源分配方案，有效縮短了任務(wù)的執(zhí)行時間并節(jié)省了系統(tǒng)成本。文獻(xiàn)[22]將云機(jī)器人的深度學(xué)習(xí)計算任務(wù)構(gòu)建為一個非協(xié)作博弈模型，并提出了相應(yīng)的啟發(fā)式算法以平衡本地計算和云計算之間的負(fù)載。

文獻(xiàn)[4-22]對云機(jī)器人計算任務(wù)卸載的研究做出了很大的貢獻(xiàn)，然而上述研究尚有一些不足之處。1) 存在場景適應(yīng)性問題。上述研究大多是針對確定性優(yōu)化場景，應(yīng)用范圍具有局限性。2) 未充分考慮本地計算和云計算之間的負(fù)載均衡問題。機(jī)器人對獲取執(zhí)行操作的實(shí)時性要求很高，過多依賴于云計算將導(dǎo)致高時延響應(yīng)，影響任務(wù)的實(shí)時執(zhí)行。3) 大部分忽略了機(jī)器人/智能體之間的協(xié)作交互與數(shù)據(jù)共享。機(jī)器人/智能體在做決策時不能僅依賴于自身信息，還應(yīng)考慮其他機(jī)器人/智能體的數(shù)據(jù)情況。

為了解決上述問題，本文針對未來6G 網(wǎng)絡(luò)應(yīng)用中出現(xiàn)的智能設(shè)備交互場景，提出了一種基于多智能體深度強(qiáng)化學(xué)習(xí)的云?端聯(lián)合資源調(diào)度方案。所提方案能夠在聯(lián)合計算卸載任務(wù)中，結(jié)合任務(wù)的實(shí)時性需求和設(shè)備狀態(tài)的多樣性條件，利用邊緣計算資源，根據(jù)當(dāng)前時刻智能設(shè)備的狀態(tài)和任務(wù)特點(diǎn)自適應(yīng)地調(diào)整本地計算和云計算之間的負(fù)載。同時，通過多智能體間的數(shù)據(jù)共享，有效提升智能交互場景下多智能體之間的協(xié)作效率。本文主要的研究工作具體總結(jié)如下。

1) 針對未來網(wǎng)絡(luò)中智能交互場景，本文考慮智能設(shè)備實(shí)時操作的協(xié)作運(yùn)算特性，構(gòu)建基于值分解的多智能體DQN 計算卸載策略，解決該場景下多智能體聯(lián)合動作優(yōu)化問題。

2）在所設(shè)計的基于值分解的DQN 模型中，針對多智能體聯(lián)合動作維度爆炸的問題，通過將系統(tǒng)整體成本函數(shù)分解為個體函數(shù)的加和近似，成功將分布式網(wǎng)絡(luò)結(jié)構(gòu)擬合為系統(tǒng)成本函數(shù)。

3）所提策略可以在大量多智能體聯(lián)合動作策略優(yōu)化場景下進(jìn)行訓(xùn)練，并滿足該場景下系統(tǒng)的實(shí)時性需求，同時對系統(tǒng)函數(shù)的趨勢擬合符合預(yù)期，成本函數(shù)在多場景下較對比策略減少16%。

2 系統(tǒng)模型

本文考慮多個接入點(diǎn)（AP,access point）服務(wù)多個智能體（agent）的網(wǎng)絡(luò)系統(tǒng)，其中所有接入點(diǎn)通過有線連接方式接入網(wǎng)關(guān)設(shè)備（GD,gateway device），接入點(diǎn)與智能體之間通過無線方式進(jìn)行連接。如圖1 所示，系統(tǒng)中部署M個接入點(diǎn)，接入點(diǎn)集合表示為M={1,2,…,M}。接入點(diǎn)i∈M服務(wù)Ni個智能體，該接入點(diǎn)所服務(wù)的智能體索引集合表示為Ni={(i,1),(i,2),…,(i,Ni)}，其中1≤Ni≤Nmax，Nmax表示一個接入點(diǎn)能夠服務(wù)的智能體數(shù)量的最大值。此外，本文中的智能體在每一時刻只能與一個接入點(diǎn)相連。系統(tǒng)中存在M個相互正交的無線子信道，每個子信道的傳輸帶寬為W，每個接入點(diǎn)占用一個子信道。每個接入點(diǎn)采用時分多址（TDMA,time devision multiple access）方式為多個智能體提供服務(wù)。邊緣服務(wù)器部署于接入點(diǎn)和網(wǎng)關(guān)設(shè)備，其整體構(gòu)成邊緣云為系統(tǒng)提供豐富的計算、存儲等資源，邊緣云的總計算資源為F。單個智能體所具有的計算資源相對較少，接入點(diǎn)i所服務(wù)的第j個智能體的計算資源量表示為fi,j。系統(tǒng)符號說明如表1 所示。

圖1 研究場景示意

表1 系統(tǒng)符號說明

為了實(shí)現(xiàn)系統(tǒng)中智能設(shè)備的自動運(yùn)行，需要系統(tǒng)充分利用網(wǎng)絡(luò)邊緣計算能力、信道傳輸帶寬和自身計算能力來實(shí)時計算出每個智能設(shè)備的合理操作，從而完成系統(tǒng)整體任務(wù)并保證系統(tǒng)的穩(wěn)定性。在本文的交互場景中，計算一個智能設(shè)備的操作不僅需要基于智能設(shè)備自身的參數(shù)數(shù)據(jù)，而且需要其他部分或全部智能設(shè)備的參數(shù)數(shù)據(jù)（如智能工廠內(nèi)各監(jiān)測攝像頭的圖像監(jiān)測數(shù)據(jù)和機(jī)械臂的操作姿態(tài)數(shù)據(jù)，智能農(nóng)場內(nèi)各農(nóng)田的溫度、濕度監(jiān)測數(shù)據(jù)和化學(xué)指標(biāo)數(shù)據(jù)），從而為實(shí)時操作的計算提供充足且合理的信息。在一個采樣周期內(nèi)系統(tǒng)需要完成包括同步、感知、通信、計算、通信、執(zhí)行的閉環(huán)流程，其中同步、感知和執(zhí)行等環(huán)節(jié)在系統(tǒng)中具有其獨(dú)立的時延設(shè)計和時延標(biāo)準(zhǔn)，與本文的優(yōu)化研究內(nèi)容相對獨(dú)立。本文主要研究感知之后到執(zhí)行之前的通信和計算環(huán)節(jié)。一個智能設(shè)備的參數(shù)數(shù)據(jù)包括自身當(dāng)前狀態(tài)信息以及片上傳感器感知的局部環(huán)境信息等。Di,j,t表示接入點(diǎn)i所服務(wù)的第j個智能設(shè)備在第t個采樣周期內(nèi)的參數(shù)數(shù)據(jù)量的大小。Ωi,j,t={(i,j),Ωi,j,t(i,j)}表示智能設(shè)備(i,j)在第t個采樣周期內(nèi)實(shí)時操作所需參數(shù)數(shù)據(jù)的智能設(shè)備集合。系統(tǒng)中存在2 類計算資源，即邊緣云的計算資源和智能體的計算資源。因此，智能設(shè)備(i,j) 計算第t個采樣周期內(nèi)實(shí)時操作時有2 種策略，xi,j,t∈{0,1}。具體地，xi,j,t=0表示由智能設(shè)備自身計算其實(shí)時操作；xi,j,t=1表示由邊緣云計算智能設(shè)備(i,j)的實(shí)時操作。

2.1 邊緣服務(wù)器執(zhí)行

當(dāng)全部智能設(shè)備的實(shí)時操作由邊緣云來計算時，一個采樣周期內(nèi)的系統(tǒng)流程包括同步、智能設(shè)備感知、智能設(shè)備到邊緣云的通信、邊緣云計算、邊緣云到智能設(shè)備的通信、智能設(shè)備的執(zhí)行。

智能體(i,j) 與接入點(diǎn)i之間的吞吐率為

其中，表示智能體(i,j)的發(fā)射功率，hi,j,t表示智能體(i,j)與接入點(diǎn)i之間的信道增益，N0表示加性白高斯噪聲的單邊功率譜密度。智能體(i,j)上傳其參數(shù)數(shù)據(jù)的時間為

接入點(diǎn)i下所有智能體總的上傳時間為

系統(tǒng)中所有智能體總的上傳時間為

在智能體到邊緣云的通信過程中，所有智能體發(fā)送數(shù)據(jù)的能量消耗為

所有接入點(diǎn)接收數(shù)據(jù)的能量消耗為

其中，ηi表示接入點(diǎn)i接收數(shù)據(jù)時每秒消耗的能量。

全部接入點(diǎn)接收完數(shù)據(jù)等同于邊緣云接收完數(shù)據(jù)。由于接入點(diǎn)與網(wǎng)關(guān)設(shè)備全部通過有線方式連接，并且邊緣服務(wù)器與接入點(diǎn)和網(wǎng)關(guān)設(shè)備共址部署，參數(shù)數(shù)據(jù)由接入點(diǎn)傳到邊緣云計算單元的過程非常快，不會對優(yōu)化問題產(chǎn)生影響。因此在建模當(dāng)中省略該部分的時延和能量消耗。假設(shè)計算實(shí)時操作的計算量與其基于的參數(shù)數(shù)據(jù)量大小成正比，即智能體(i,j) 的實(shí)時操作的計算量為

其中，Ki,j為正實(shí)數(shù)。邊緣云計算全部智能體的實(shí)時操作的總計算時間為

在設(shè)備進(jìn)行任務(wù)計算時，影響CPU 功耗的因素包括動態(tài)功耗、短路功耗和晶體管漏電流引起的功耗，其中動態(tài)功耗是主要因素。動態(tài)功耗來源于CPU 內(nèi)部邏輯門的工作。當(dāng)邏輯門切換時，能量隨著其中的電容器充電和放電而流動。邊緣云計算的能量消耗為[23]

其中，κ為正實(shí)數(shù)，表示CPU 的有效開關(guān)電容，其大小與CPU 結(jié)構(gòu)相關(guān)。本文假設(shè)系統(tǒng)中所有CPU的κ值相同。

邊緣云計算出全部智能體的實(shí)操作之后，通過接入點(diǎn)向?qū)?yīng)的智能體發(fā)送操作指令。智能體(i,j)的操作指令數(shù)據(jù)量表示為,j,t。接入點(diǎn)i向智能體(i,j)發(fā)送操作指令的下行吞吐率為

接入點(diǎn)i發(fā)送其下所有智能體的操作指令的總時間為

發(fā)送全部操作指令的總時間為

在邊緣云到智能體的通信過程當(dāng)中，所有接入點(diǎn)發(fā)送操作指令的能量消耗為

所有智能體接收操作指令的能量消耗為

其中，ηi,j表示智能體(i,j) 接收操作指令（或參數(shù)數(shù)據(jù)）時每秒消耗的能量。

因此，系統(tǒng)在智能體開始上傳參數(shù)數(shù)據(jù)到所有智能體獲得實(shí)時操作指令的時間長度為

對應(yīng)的系統(tǒng)總能量消耗為

2.2 本地執(zhí)行

當(dāng)全部智能設(shè)備的實(shí)時操作由智能設(shè)備自身計算時，一個采樣周期內(nèi)的系統(tǒng)流程包括同步、智能設(shè)備感知、智能設(shè)備經(jīng)過邊緣云到智能設(shè)備的通信、智能設(shè)備計算、智能設(shè)備的計算單元到執(zhí)行單元的通信、智能設(shè)備的執(zhí)行。

智能體將參數(shù)數(shù)據(jù)發(fā)送至邊緣云的過程如式(1)～式(6)所示，邊緣云接收到全部智能體的參數(shù)數(shù)據(jù)之后開始向智能體轉(zhuǎn)發(fā)參數(shù)數(shù)據(jù)。接入點(diǎn)i向智能體(i,j) 轉(zhuǎn)發(fā)相應(yīng)實(shí)時操作所需的參數(shù)數(shù)據(jù)的時間為

所有接入點(diǎn)轉(zhuǎn)發(fā)參數(shù)數(shù)據(jù)的總能量消耗為

所有智能體接收參數(shù)數(shù)據(jù)的總能量消耗為

智能體在獲得計算實(shí)時操作的全部參數(shù)數(shù)據(jù)后立即開始進(jìn)行計算，智能體(i,j) 計算得到實(shí)時操作距邊緣云獲得全部參數(shù)數(shù)據(jù)的時間為

因此，從邊緣云獲得全部參數(shù)數(shù)據(jù)至所有智能體全部計算得到實(shí)時操作的時間為

所有智能體計算實(shí)時操作的總能量消耗為

因此，系統(tǒng)在智能體開始上傳參數(shù)數(shù)據(jù)到所有智能體獲得實(shí)時操作指令的時間長度為

對應(yīng)的系統(tǒng)總能量消耗為

2.3 本地與邊緣服務(wù)器協(xié)同計算

智能設(shè)備的計算分為2 種形式，一部分設(shè)備由邊緣云計算其實(shí)時操作，另一部分由其自身計算實(shí)時操作。一個采樣周期內(nèi)的系統(tǒng)流程包括同步、智能設(shè)備感知、智能設(shè)備到邊緣云的通信（智能設(shè)備經(jīng)過邊緣云到智能設(shè)備的通信）、邊緣云計算（智能設(shè)備計算）、邊緣云到智能設(shè)備的通信（智能設(shè)備的計算單元到執(zhí)行單元的通信）、智能設(shè)備的執(zhí)行。

邊緣云接收到全部智能體的參數(shù)數(shù)據(jù)之后開始向策略中計劃在本地計算的智能體集合={(i,j)|xi,j,t=0,?i∈M且(i,j)∈Ni}中的智能體轉(zhuǎn)發(fā)參數(shù)數(shù)據(jù)，同時開始計算集合?i∈M且(i,j)∈Ni}中的智能體的實(shí)時操作。因此，邊緣云計算中智能體實(shí)時操作的時間為

智能體(i,j) 計算得到實(shí)時操作距邊緣云接收到全部參數(shù)數(shù)據(jù)的時間為

在接入點(diǎn)i發(fā)送操作指令前，需要邊緣側(cè)對其智能體對應(yīng)的實(shí)施操作指令進(jìn)行計算。依據(jù)系統(tǒng)設(shè)計，接入點(diǎn)i發(fā)送本地計算參數(shù)數(shù)據(jù)之后，由接入點(diǎn)i發(fā)送智能設(shè)備操作指令。接入點(diǎn)i開始發(fā)送操作指令距邊緣云接收到全部參數(shù)數(shù)據(jù)的時間為

接入點(diǎn)i下的智能體全部獲得實(shí)時操作距邊緣云接收到全部參數(shù)數(shù)據(jù)的時間為

因此，從邊緣云獲得全部參數(shù)數(shù)據(jù)至全部智能體獲得實(shí)時操作的時間為

接入點(diǎn)i向智能體(i,j) 發(fā)送數(shù)據(jù)（參數(shù)數(shù)據(jù)或者操作指令）的能量消耗為

智能體(i,j) 接收數(shù)據(jù)的能量消耗為

因此，所有接入點(diǎn)發(fā)送數(shù)據(jù)的總能量消耗為

所有智能體接收數(shù)據(jù)的總能量消耗為

所有智能體計算實(shí)時操作的總能量消耗為

因此，系統(tǒng)在智能體開始上傳參數(shù)數(shù)據(jù)到所有智能體獲得實(shí)時操作指令的時延為

對應(yīng)的系統(tǒng)總能量消耗為

系統(tǒng)的成本函數(shù)綜合考慮時延和能量消耗兩方面，并將全部由邊緣云計算所對應(yīng)的時延和能量消耗作為基準(zhǔn)時間和能量消耗進(jìn)行無量綱化處理。系統(tǒng)的成本函數(shù)表示為

其中，β和1?β分別表示系統(tǒng)對于時延和能量消耗的偏好程度，通過調(diào)整β的取值可對系統(tǒng)時延或能耗的敏感程度進(jìn)行調(diào)整。本文的優(yōu)化問題通過對卸載決策xi,j,t的合理選擇，實(shí)現(xiàn)對每次系統(tǒng)智能交互的計算過程進(jìn)行針對成本函數(shù)的優(yōu)化求解。優(yōu)化問題為

其中，L={1,2,…,L}表示采樣周期索引集合。對于每個策略生成的單次采樣周期，周期的總時長為系統(tǒng)完成多智能設(shè)備聯(lián)合策略指令分發(fā)的時間，與其計算卸載策略對應(yīng)的能耗共同組成該次的系統(tǒng)成本函數(shù)。限制條件C1表示每個智能體獲得實(shí)時操作只有2 種策略，限制條件C2 表示每個接入點(diǎn)服務(wù)的智能體數(shù)量上限，限制條件C3 表示每個智能體實(shí)時操作的計算至少需要自身的參數(shù)數(shù)據(jù)。

3 算法設(shè)計

問題式(41)是復(fù)雜的非線性0-1 規(guī)劃問題，屬于NP 難問題[24]，難以采用傳統(tǒng)數(shù)學(xué)優(yōu)化方法快速得出優(yōu)化解?？紤]智能體自動智能運(yùn)行場景存在實(shí)時演算和反饋執(zhí)行的即時性需求，系統(tǒng)成本函數(shù)中包含時延。對問題式(41)求解使用較長的時間將嚴(yán)重影響整個系統(tǒng)的性能，過于冗長的計算時間會使計算指令失去有效性。除此之外，整個系統(tǒng)存在系統(tǒng)動力學(xué)的不確定性，傳統(tǒng)數(shù)學(xué)優(yōu)化方法難以直接處理。

區(qū)別于一般的監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)，強(qiáng)化學(xué)習(xí)通過智能體與環(huán)境不斷交互，獲得動作獎勵并構(gòu)建自身的狀態(tài)、動作空間。通過智能體自身在經(jīng)驗(yàn)積累中學(xué)習(xí)的優(yōu)化策略不斷更新智能體的動作選擇方案，這種學(xué)習(xí)方法能夠很好地處理本文提出的優(yōu)化問題。由于信道狀態(tài)、任務(wù)請求的差異性等使環(huán)境因素動態(tài)變化、不服從某單一概率分布，無法提前獲取狀態(tài)轉(zhuǎn)移概率，因此采用無模型的增強(qiáng)學(xué)習(xí)方法進(jìn)行處理。當(dāng)邊緣云收集全部智能體信息集中式?jīng)Q策所有智能體獲取實(shí)時動作的策略時，系統(tǒng)的狀態(tài)空間和動作空間維度非常高，傳統(tǒng)的表格化增強(qiáng)學(xué)習(xí)方法難以處理。神經(jīng)網(wǎng)絡(luò)作為一種能夠擬合任意函數(shù)形式的工具可以有效地對高維輸入狀態(tài)空間進(jìn)行處理，面對海量狀態(tài)空間時通過值函數(shù)逼近的方法神經(jīng)網(wǎng)絡(luò)可以獲取對應(yīng)的有效狀態(tài)動作值，是一種典型的處理高維度狀態(tài)空間的方法。因此，本文采用DQN求解問題式(41)。

利用DQN 得到的價值函數(shù)網(wǎng)絡(luò)，系統(tǒng)可以實(shí)時依據(jù)系統(tǒng)狀態(tài)選擇多智能體操作的計算位置。至此，系統(tǒng)成本函數(shù)優(yōu)化問題轉(zhuǎn)化為強(qiáng)化學(xué)習(xí)中的多智能體聯(lián)合動作優(yōu)化問題。本文利用貝爾曼方程將系統(tǒng)的長期收益轉(zhuǎn)化為系統(tǒng)的目標(biāo)函數(shù)，進(jìn)而通過深度神經(jīng)網(wǎng)絡(luò)估計并構(gòu)建對應(yīng)的策略價值函數(shù)，將不確定的網(wǎng)絡(luò)環(huán)境映射到神經(jīng)網(wǎng)絡(luò)的狀態(tài)空間中，以適應(yīng)不確定性場景。對于基于值的單智能體強(qiáng)化學(xué)習(xí)使用神經(jīng)網(wǎng)絡(luò)來估計策略價值，通過訓(xùn)練網(wǎng)絡(luò)參數(shù)θ使逼近策略的真實(shí)價值Qπ(s,a)。下面，介紹多智能體對單智能體算法的擴(kuò)展方式。

3.1 多智能體聯(lián)合學(xué)習(xí)框架

1) 聯(lián)合集中式學(xué)習(xí)。假設(shè)所有主體的行動和觀察組成一個聯(lián)合模型。集中式策略利用神經(jīng)網(wǎng)絡(luò)將所有智能體的聯(lián)合觀察映射到一個聯(lián)合策略價值函數(shù)。該框架下觀察空間和動作空間隨智能體數(shù)目呈幾何倍數(shù)增長，達(dá)到2MNmax（本模型單智能體動作空間為2），網(wǎng)絡(luò)需要2MNmax輸出分支對應(yīng)系統(tǒng)的組合優(yōu)化策略。對真實(shí)策略價值函數(shù)的估計依賴于網(wǎng)絡(luò)的擬合和泛化能力。隨智能體數(shù)目增加，探索和計算開銷指數(shù)增加，在大規(guī)模多智能體環(huán)境中算法的可擴(kuò)展性較差。

3) 值函數(shù)分解。將系統(tǒng)成本函數(shù)拆解為各智能體成本函數(shù)的加和形式，通過邊緣集中處理來解決各智能體獨(dú)自策略產(chǎn)生的環(huán)境動態(tài)非平穩(wěn)問題，并且由于智能體訓(xùn)練自身模型，解耦了智能體之間復(fù)雜的相互關(guān)系。

討論簡單情況，假設(shè)多智能體系統(tǒng)中包含2 個智能體（智能體1 和智能體2），并且全局回報函數(shù)是每個智能體的局部回報函數(shù)的加和。

其中，r1(ο1,α1)和r2(ο2,α2)分別是智能體1 和智能體2 的(觀察,動作)。從式(42)可以得到

式(43)分解后的Q函數(shù)依舊基于全局環(huán)境信息，本文系統(tǒng)中邊緣節(jié)點(diǎn)將集中收集所有連接智能體的狀態(tài)信息進(jìn)而得到全局環(huán)境信息。由此對于部分策略價值函數(shù)的累加可以得到整體策略價值函數(shù)[26]。基于式(43)對聯(lián)合集中式學(xué)習(xí)和獨(dú)立并行學(xué)習(xí)進(jìn)行折中，將整體策略價值函數(shù)拆分為多個局部智能體策略價值函數(shù)之和。

對應(yīng)可將式(40)拆分為

其中，τi,j,t(Xi,j,t)代表單一智能體由邊緣云或本地計算操作所需要的時間，Ei,j,t(Xi,j,t)代表單一智能體由邊緣云或本地計算操作所需要的能量。

在多智能體訓(xùn)練中采用式(45)作為獎勵函數(shù)代替系統(tǒng)代價函數(shù)進(jìn)行訓(xùn)練，2 個代價函數(shù)中不完全相等的部分由在邊緣計算時式(4)、式(13)和在智能體本地計算時式(2)中的非線性函數(shù)產(chǎn)生。

同時，在多智能體學(xué)習(xí)系統(tǒng)中若某智能體較早學(xué)習(xí)到有一定效果的策略，其他智能體將趨向于防止自身較慢的策略學(xué)習(xí)阻礙已經(jīng)學(xué)到一定策略的智能體，使全局價值回報降低。此現(xiàn)象令其他智能體的學(xué)習(xí)受阻。為了避免該問題，對多智能體學(xué)習(xí)采用參數(shù)共享方法進(jìn)行訓(xùn)練。在各智能體策略價值評估函數(shù)中采用同構(gòu)的神經(jīng)網(wǎng)絡(luò)，并允許所有智能體共享單個策略評估參數(shù)，使策略可以同時接受所有智能體的經(jīng)驗(yàn)提升。直接采用參數(shù)共享方法的模型將會產(chǎn)生智能體的不變性，智能體不變性將導(dǎo)致智能體策略失去差異性。但不同智能體在特定任務(wù)中觀察到同樣局部信息時其策略應(yīng)具有多樣性[27]。為了使智能體策略函數(shù)產(chǎn)生差異性，在輸入中引入智能體當(dāng)前狀態(tài)信息作為額外索引信息來增強(qiáng)智能體價值函數(shù)的差異性[28]。

3.2 多智能體聯(lián)合學(xué)習(xí)算法設(shè)計

智能體（i,j）在第t個采樣周期的狀態(tài)為si,j,t，系統(tǒng)全部智能體在第t個采樣周期的狀態(tài)為st∈S，其中S 為狀態(tài)空間。

其中，

表示智能體i,j在第t個采樣周期的自身狀態(tài)信息。

系統(tǒng)在第t個采樣周期的策略動作為at∈A，其中A 為策略動作空間。根據(jù)價值函數(shù)獲取策略動作有

系統(tǒng)的策略動作tat表示系統(tǒng)中全部智能體在第t個采樣周期獲取的實(shí)時動作的策略集合，ai,j,t表示表示智能體i,j在第t個采樣周期獲取的實(shí)時動作（ai,j,t∈at）。對于不存在的智能體索引，規(guī)定其策略為?1，表示不存在該智能體。

智能體在第t個采樣周期的狀態(tài)為si,j,t，采取策略動作ai,j,t，得到對應(yīng)的系統(tǒng)回報值為ri,j,t，當(dāng)系統(tǒng)進(jìn)入第t+1 個采樣周期時狀態(tài)為si,j,t+1。其中，系統(tǒng)回報值為系統(tǒng)成本的負(fù)值，即

由于Xt與tat之間能夠等效轉(zhuǎn)換，因此式(55)等效為

因此，問題式(55)等效為尋找最優(yōu)策略使系統(tǒng)的長期平均回報值最大化。接下來，介紹相應(yīng)的求解算法DQN。

本文中的DQN 利用雙網(wǎng)絡(luò)結(jié)構(gòu)和經(jīng)驗(yàn)回放方法。在當(dāng)前的第t個采樣周期，智能體i,j狀態(tài)為si,j,t，利用ε-greedy 方法選取策略動作ai,j,t，相應(yīng)地得到系統(tǒng)回報值ri,j,t，進(jìn)入第t+1個采樣周期時系統(tǒng)狀態(tài)為si,j,t+1。因此系統(tǒng)得到經(jīng)驗(yàn)數(shù)據(jù)(si,j,t,ai,j,t,ri,j,t,si,j,t+1)，并將其存儲至記憶庫DM。系統(tǒng)構(gòu)建2 個結(jié)構(gòu)相同的神經(jīng)網(wǎng)絡(luò)：預(yù)測網(wǎng)絡(luò)Q(s,a;θ)和目標(biāo)網(wǎng)絡(luò)Q～(s,a;θ?)，其中θ和θ?分別表示2 個神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)。預(yù)測網(wǎng)絡(luò)Q(s,a;θ)的輸入為狀態(tài)s，輸出為所有可能動作對應(yīng)的值，系統(tǒng)則根據(jù)這些值采用ε-greedy 方法選取策略動作。

為了學(xué)習(xí)預(yù)測網(wǎng)絡(luò)Q(s,a;θ)，系統(tǒng)從記憶庫DM隨機(jī)選取U個經(jīng)驗(yàn)數(shù)據(jù)樣本進(jìn)行批訓(xùn)練。以目標(biāo)網(wǎng)絡(luò)的Q值作為目標(biāo)，第u個樣本(su,au,ru,su+1)（此處的1≤u≤U指的是隨機(jī)選取的U個經(jīng)驗(yàn)數(shù)據(jù)樣本的序號，與采樣周期的索引無關(guān)）訓(xùn)練目標(biāo)函數(shù)為

其中，γ為回報值的折扣。預(yù)測網(wǎng)絡(luò)參數(shù)θ更新的目標(biāo)是最小化損失函數(shù)L()θ。

θ的更新方式為

其中，v為更新步長，?θ L(θ)為L(θ)關(guān)于θ的梯度。目標(biāo)網(wǎng)絡(luò)的參數(shù)更新需要間隔固定的采樣周期，即每經(jīng)過G個采樣周期，更新θ?如下

算法1基于值分解的多智能體DQN 卸載決策算法

輸入全部智能體在第t個采樣周期中的設(shè)備狀態(tài)信息st

輸出全部智能體在第t個采樣周期中的卸載策略動作at

初始化

初始化預(yù)測網(wǎng)絡(luò)Q(s,a;θ)，隨機(jī)生成其參數(shù)θ；初始化目標(biāo)網(wǎng)絡(luò)，其參數(shù)θ?=θ；初始化記憶庫DM，其存儲空間大小為|DM|；初始化εi,j=1,?i∈M,(i,j)∈Ni，εdecay，εmin；獲得初始狀態(tài)s1

循環(huán)

預(yù)測網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)為多層神經(jīng)網(wǎng)絡(luò)。因?yàn)橄到y(tǒng)狀態(tài)每一部分的取值范圍大不相同，所以在輸入系統(tǒng)狀態(tài)之前需要對系統(tǒng)狀態(tài)進(jìn)行歸一化預(yù)處理。歸一化方法如下

4 仿真分析

本文通過Pytorch 仿真評估所提出的基于值分解的多智能體DQN 卸載決策算法性能。無線網(wǎng)絡(luò)仿真參數(shù)如表2 所示，DQN 算法超參數(shù)如表3 所示。

表2 無線網(wǎng)絡(luò)仿真參數(shù)

表3 DQN 超參數(shù)

仿真環(huán)境如圖1 所示。邊緣云部署M個接入點(diǎn)，每個接入點(diǎn)下接入不超過Nmax個智能體，每個周期智能體隨機(jī)產(chǎn)生數(shù)據(jù)量為20～200 kbit 的數(shù)據(jù)包對接下來的智能體實(shí)時操作進(jìn)行請求。假設(shè)計算實(shí)時操作的計算量與其基于的參數(shù)數(shù)據(jù)量大小成正比，接入點(diǎn)收集智能體相關(guān)請求信息。通過基于值分解的DQN 計算每個智能體獨(dú)立的計算資源部署動作。在DQN 內(nèi)，每次產(chǎn)生一組全部智能狀態(tài)st，選擇智能體(i,j) 。在神經(jīng)網(wǎng)絡(luò)在輸入端輸入的對應(yīng)智能體狀態(tài)si,j,t由全部智能體狀態(tài)st和智能體(i,j)的索引狀態(tài)組成。經(jīng)過值分解DQN 后得到該周期對應(yīng)的智能體動作，更換智能體(i,j) 索引直至所有智能體輸出對應(yīng)的計算策略動作。依據(jù)DQN 指導(dǎo)多智能體聯(lián)合計算請求的實(shí)時操作指令。將計算實(shí)時操作需要的參數(shù)數(shù)據(jù)Ωi,j,t收集下發(fā)至本地計算的智能體，同時在邊緣云計算智能體實(shí)時操作。邊緣云完成計算后將通過對應(yīng)接入點(diǎn)將實(shí)時計算指令下發(fā)至對應(yīng)智能體。所有計算完成后則可以獲取本周期的系統(tǒng)成本函數(shù)值。使用Adam 優(yōu)化算法更新預(yù)測網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)參數(shù)。

考慮到云機(jī)器人場景下對多智能設(shè)備策略動作的實(shí)時性要求，本文設(shè)計了基于機(jī)器學(xué)習(xí)的多智能體資源分配方案。本文方案利用神經(jīng)網(wǎng)絡(luò)來觀察系統(tǒng)狀態(tài)信息并快速給出合適的卸載策略。表4 給出了本文所提算法在不同場景下的決策時間。

從表4 中可以看出，隨著智能體數(shù)目的增加，計算決策的計算時間并沒有顯著上升，即本文所提出的資源分配方案對所涉及的智能體數(shù)目不敏感。上述實(shí)驗(yàn)表明，本文的研究方案可以以亞毫秒級完成策略計算。本文方案產(chǎn)生決策結(jié)果的時間遠(yuǎn)小于其智能設(shè)備承載業(yè)務(wù)場景的時延容忍度，足以滿足任務(wù)的實(shí)時性要求。

表4 基于值分解的DQN 算法決策時間

為了分析所設(shè)計的基于值分解的DQN 對于本文模型所涉及的多智能體聯(lián)合動作空間的學(xué)習(xí)能力，圖2 給出了當(dāng)接入點(diǎn)數(shù)目M=3 時，每個接入點(diǎn)下5 個智能體場景的Q 網(wǎng)絡(luò)損失函數(shù)變化曲線。

圖2 基于值分解的DQN 損失函數(shù)曲線

如圖2 所示，基于值分解的DQN 可以在多智能體的訓(xùn)練環(huán)境下完成損失函數(shù)的快速減少和收斂，快速找到相對應(yīng)的多智能體聯(lián)合動作策略。

當(dāng)智能體數(shù)目增加時，系統(tǒng)的整體復(fù)雜性將增加，其對應(yīng)的組合優(yōu)化空間將變大，神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)需要更多的數(shù)據(jù)來擬合聯(lián)合優(yōu)化的值函數(shù)，使損失函數(shù)收斂相較簡單場景有所變緩，更新數(shù)據(jù)量相同情況下單個智能體的訓(xùn)練數(shù)據(jù)集變小。通過本文采取的參數(shù)共享方式對DQN 的訓(xùn)練進(jìn)行加速，在智能體數(shù)目較多的場景下，所提算法的目標(biāo)損失函數(shù)依舊在較短的訓(xùn)練循環(huán)次數(shù)內(nèi)快速收斂至穩(wěn)定范圍。系統(tǒng)成本函數(shù)通過值分解分配到每個智能體自身成本函數(shù)，多智能體算法能夠以較好的性能完成目標(biāo)任務(wù)。

聯(lián)合集中式學(xué)習(xí)是假設(shè)所有智能體的動作策略均采用一個聯(lián)合模型進(jìn)行訓(xùn)練，并將所有智能體的聯(lián)合動作狀態(tài)值映射到一個聯(lián)合函數(shù)中。這種集中式結(jié)構(gòu)導(dǎo)致狀態(tài)和行動空間隨著智能體數(shù)目的增加而呈指數(shù)增長，并且對應(yīng)訓(xùn)練所需要的數(shù)據(jù)量和計算量難以通過現(xiàn)有技術(shù)進(jìn)行支持。本文算法則可以在有限數(shù)據(jù)量的情況下獲取有效的優(yōu)化策略。

為了對比驗(yàn)證本文提出算法的有效性，選擇以下對比方案。1) 考慮系統(tǒng)成本函數(shù)中采用、作為歸一化參數(shù)，其對應(yīng)多智能體策略為全部智能體實(shí)時動作計算置于邊緣云，選取全部實(shí)時計算位于邊緣云作為對比策略。2) 對應(yīng)的多智能體動作計算策略可以選擇利用智能體自身資源，在邊緣云從其他智能體收集足夠計算數(shù)據(jù)并發(fā)送到所需智能體后由智能體自身計算實(shí)行，全部智能體本地執(zhí)行實(shí)時計算動作作為對比方案。3) 在不同的系統(tǒng)環(huán)境中，最優(yōu)卸載策略隨系統(tǒng)環(huán)境變化而變化。為了驗(yàn)證基于值分解的DQN 算法能夠成功從系統(tǒng)環(huán)境信息和系統(tǒng)狀態(tài)信息中學(xué)習(xí)獲得計算資源的分配策略，本文選取了采用隨機(jī)動作卸載策略作為對比項。

為了研究多智能體收集數(shù)據(jù)量Di,j,t的變化與多智能體實(shí)時操作指令數(shù)據(jù)量的變化對整體系統(tǒng)性能的影響，圖3 與圖4 分別給出系統(tǒng)成本函數(shù)隨二者的變化曲線。

圖3 多智能體收集數(shù)據(jù)量與系統(tǒng)成本

圖4 多智能體操作指令數(shù)據(jù)量與系統(tǒng)成本

從上述結(jié)果可知，基于值分解的DQN 算法在復(fù)雜環(huán)境變化下可以準(zhǔn)確找到最優(yōu)動作策略。當(dāng)多智能體收集數(shù)據(jù)量較小時，依據(jù)系統(tǒng)效用函數(shù)式(39)，整體系統(tǒng)趨向于本地計算以獲取最小的系統(tǒng)成本。由于數(shù)據(jù)量輕量化使在本地計算時延開銷較小，此時系統(tǒng)中多數(shù)智能體數(shù)據(jù)的上傳時延和實(shí)時指令的回傳時延是系統(tǒng)的潛在主要開銷。隨著多智能體收集數(shù)據(jù)量的增加，由于智能體計算能力有限，智能體獨(dú)自計算的時間成本增加，整體系統(tǒng)趨向于向邊緣卸載操作計算以減小系統(tǒng)成本，利用邊緣的高算力帶來的系統(tǒng)增益抵消數(shù)據(jù)傳輸時產(chǎn)生的時延影響。

當(dāng)多智能體實(shí)施操作指令數(shù)據(jù)量較小時，依據(jù)系統(tǒng)效用函數(shù)式(40)，整體系統(tǒng)趨向于將實(shí)時計算交付于邊緣以獲取最小的系統(tǒng)成本。此時利用邊緣的高算力優(yōu)勢抵消了智能體數(shù)據(jù)傳輸時延對系統(tǒng)增益的影響，實(shí)時計算指令可以即時反饋回各智能體。隨著系統(tǒng)中多數(shù)智能體操作數(shù)據(jù)量的上升，邊緣計算對于智能體的實(shí)時操作反饋時延的代價增加，抵消了邊緣的算力優(yōu)勢，則整體系統(tǒng)趨向于將實(shí)時計算任務(wù)交付于各自獨(dú)立智能體。

對比圖3 與圖4，整體系統(tǒng)對于多智能體收集數(shù)據(jù)量的敏感性要低于多智能體實(shí)時操作指令數(shù)據(jù)量的敏感性。在收集數(shù)據(jù)量增長后系統(tǒng)很快將計算任務(wù)交于邊緣，操作指令數(shù)據(jù)量系統(tǒng)傾向性改變較緩。在所有場合中基于值分解的DQN 算法均優(yōu)于對比策略。

以上實(shí)驗(yàn)表明，本文所提基于值分解的DQN算法能夠有效獲取系統(tǒng)的策略偏好并對應(yīng)訓(xùn)練神經(jīng)網(wǎng)絡(luò)價值函數(shù)。圖5 給出了DQN 輸出隨系統(tǒng)的智能體數(shù)據(jù)收集與智能體操作數(shù)據(jù)量的變化趨勢（DQN 輸出動作選擇概率）。當(dāng)智能體收集的數(shù)據(jù)量增加時，DQN 獎勵函數(shù)對本地的計算時延成本增加，系統(tǒng)動作逐漸趨向于在邊緣計算。當(dāng)智能體操作指令數(shù)據(jù)量增加時，在基于值分解的DQN 中，對于本地計算，依據(jù)式(11)和式(12)，時延部分分子τi,j,t(χi,j,t)不變，分母變大，能量部分分子Ei,j,t(χi,j,t)不變，分母變大，導(dǎo)致系統(tǒng)卸載動作逐漸趨向于在智能體本身計算。

圖5 收集與操作指令數(shù)據(jù)量的多智能體策略變化

圖6 展示智能體數(shù)量對整個系統(tǒng)成本影響的仿真結(jié)果，以及基于值分解的DQN 設(shè)計的可擴(kuò)展性的仿真驗(yàn)證結(jié)果。在系統(tǒng)內(nèi)多智能體的數(shù)目增長過程中，本文所提策略得到的聯(lián)合動作策略的系統(tǒng)成本持續(xù)低于對比策略，整體系統(tǒng)成本函數(shù)在多場景下相對對比策略減少16%。在智能體數(shù)目較少的場景下，本文策略系統(tǒng)成本顯著優(yōu)于對比策略。在實(shí)驗(yàn)參數(shù)設(shè)置下少量智能體對于輕量化的個體計算更具有偏好性。隨著智能體數(shù)目的不斷增多，系統(tǒng)的最優(yōu)策略逐步偏向于讓智能體設(shè)備操作在邊緣側(cè)計算而非本地計算，在實(shí)驗(yàn)結(jié)果中的表現(xiàn)為含有本地計算方式的系統(tǒng)成本相對上升。整體系統(tǒng)成本函數(shù)中上傳和卸載數(shù)據(jù)的時延代價被分?jǐn)偟搅烁嗟闹悄荏w中，特別是本文考慮的是多智能體協(xié)同計算，單智能體需要其他智能體數(shù)據(jù)輔助完成實(shí)時操作計算，對智能體的需求計算數(shù)據(jù)分發(fā)將在時延代價中產(chǎn)生巨大影響。隨智能體數(shù)目增加智能體將趨向于將實(shí)時操作計算交付于邊緣計算以減輕智能體的數(shù)據(jù)分發(fā)帶來的負(fù)面影響。

圖6 智能體數(shù)目與系統(tǒng)成本

圖7 和圖8 對不同智能體數(shù)目下的時延和能耗性能進(jìn)行了單獨(dú)仿真分析。如圖7 所示，單獨(dú)考慮時間因素時，可以觀察到個體時延組成包括智能體數(shù)據(jù)的上傳時間、邊緣側(cè)對本地計算的數(shù)據(jù)分發(fā)時間、邊緣側(cè)和本地的操作指令計算時間和最終邊緣側(cè)智能設(shè)備操作指令傳輸時間。其中，智能體數(shù)據(jù)的上傳時間、分發(fā)時間和邊緣側(cè)智能設(shè)備操作指令傳輸時間參數(shù)取值為所有接入點(diǎn)間最大值，在各接入點(diǎn)范圍內(nèi)計算方式為對應(yīng)時延相加；邊緣側(cè)操作指令計算時間為所有邊緣側(cè)計算智能體計算時間相加。智能體個體時延與智能體間互相的卸載策略選擇相關(guān)性較強(qiáng)，與智能體數(shù)目增加的相關(guān)性較強(qiáng)，隨智能體數(shù)目的增加而增加。通過實(shí)驗(yàn)對比可知，本文算法優(yōu)于對比策略。

圖7 智能體數(shù)目與時延

如圖8 所示，在單獨(dú)考慮能耗因素時，個體能耗組成主要包含智能體數(shù)據(jù)上傳的能耗、邊緣側(cè)對本地計算的數(shù)據(jù)分發(fā)能耗、邊緣側(cè)或本地的操作指令計算能耗和最終邊緣側(cè)智能設(shè)備操作指令傳輸能耗。能耗函數(shù)表示為智能設(shè)備在各自環(huán)節(jié)相對獨(dú)立的能耗參數(shù)相加。智能體個體的能耗同智能體個體的卸載選擇相關(guān)，與智能體間的卸載策略選擇相關(guān)性較弱，對智能體數(shù)目的增加不敏感。通過實(shí)驗(yàn)對比，本文算法可以在實(shí)驗(yàn)環(huán)境中依據(jù)智能設(shè)備的情況和任務(wù)自適應(yīng)地選取卸載決策，算法決策在能耗選擇中優(yōu)于對比策略。

圖8 智能體數(shù)目與能耗

5 結(jié)束語

本文針對交互場景下的操作計算業(yè)務(wù)提出了基于多智能體的強(qiáng)化學(xué)習(xí)資源調(diào)度策略，設(shè)計了基于多智能體強(qiáng)化學(xué)習(xí)算法的狀態(tài)和獎勵函數(shù)。所提出的策略能夠克服海量動作空間的學(xué)習(xí)問題，能夠在接入點(diǎn)、智能體異構(gòu)化的條件下根據(jù)任務(wù)的需求自適應(yīng)地調(diào)整資源分配策略，提升時延和能量效益，不受限于智能體數(shù)量，正確反映通信系統(tǒng)效用函數(shù)的變化趨勢。仿真結(jié)果表明，所設(shè)計的多智能體資源調(diào)度策略能夠在用戶較多、業(yè)務(wù)量需求較大的情況下完成傳統(tǒng)集中式架構(gòu)無法完成的調(diào)度指示，系統(tǒng)成本函數(shù)相對對比策略平均減少16%，并且對于用戶的數(shù)目變化具有良好的適應(yīng)性。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

多智能體協(xié)作場景下基于強(qiáng)化學(xué)習(xí)值分解的計算卸載策略

1 引言

2 系統(tǒng)模型

2.1 邊緣服務(wù)器執(zhí)行

2.2 本地執(zhí)行

2.3 本地與邊緣服務(wù)器協(xié)同計算

3 算法設(shè)計

3.1 多智能體聯(lián)合學(xué)習(xí)框架

3.2 多智能體聯(lián)合學(xué)習(xí)算法設(shè)計

4 仿真分析

5 結(jié)束語