張鵬,田輝,趙鵬濤,賀碩,童一帆
(1.北京郵電大學(xué)網(wǎng)絡(luò)與交換技術(shù)國家重點(diǎn)實(shí)驗(yàn)室,北京 100876;2.鄭州大學(xué)信息工程學(xué)院,河南 鄭州 450001)
隨著大數(shù)據(jù)和人工智能技術(shù)的突破和融合,未來整個社會將向數(shù)字化和智能化轉(zhuǎn)型。數(shù)字孿生世界為人工智能的應(yīng)用提供了廣闊的場景,同時也推動了移動通信技術(shù)向6G 演進(jìn)和發(fā)展[1]。智能交互場景,尤其是智能制造核心裝備的工業(yè)機(jī)器人間的智能交互作為6G 網(wǎng)絡(luò)的全新應(yīng)用場景,受到了學(xué)術(shù)界和工業(yè)界的廣泛重視。根據(jù)國際機(jī)器人聯(lián)合會(IFR,International Federation of Robotics)最新發(fā)布的《全球機(jī)器人2019?工業(yè)機(jī)器人》報告顯示,2018 年全球工業(yè)機(jī)器人出貨量為42.2 萬臺,2020 年至2022 年全球機(jī)器人年出貨量增長率將會達(dá)到12%[2]。文獻(xiàn)[3]指出,到2030年,中國預(yù)計投入使用的機(jī)器人數(shù)量將達(dá)到1 400 萬臺。
位于網(wǎng)絡(luò)邊緣側(cè)的機(jī)器人/智能體是融合計算、存儲、應(yīng)用等核心能力的重要載體和平臺,可以就近提供邊緣智能服務(wù)。近年來,研究人員試圖使機(jī)器人執(zhí)行一些更加復(fù)雜的工作,如實(shí)時交互、災(zāi)區(qū)救援等。然而,目前的機(jī)器人大多是孤立的且自主智能能力較弱,同時受到尺寸和電池容量的限制,難以應(yīng)對復(fù)雜多變且非結(jié)構(gòu)化的自然環(huán)境、計算密集型的任務(wù)以及6G 時代對自然交互的需求。為了進(jìn)一步提高機(jī)器人執(zhí)行任務(wù)的能力,Kuffner[4]于2010 提出了“云機(jī)器人”的概念,通過借助互聯(lián)網(wǎng)技術(shù)和云計算技術(shù),使機(jī)器人從云中的計算、存儲、通信等資源中受益,打破了機(jī)器人與人工智能之間的壁壘,成為目前機(jī)器人領(lǐng)域的研究熱點(diǎn)。如何有效地進(jìn)行云機(jī)器人計算任務(wù)的卸載是需要解決的關(guān)鍵問題[5]。
對于邊緣云架構(gòu)下的卸載研究,文獻(xiàn)[6]研究了上下行流量差異化系統(tǒng)中基于上下文感知的上下行帶寬動態(tài)配置與基于凸優(yōu)化的計算卸載策略。文獻(xiàn)[7]將計算卸載問題分解為基于擬凸優(yōu)化的計算與通信資源優(yōu)化問題、基于啟發(fā)式的終端卸載決策問題。文獻(xiàn)[8]針對網(wǎng)絡(luò)信息的時效性,考慮了網(wǎng)絡(luò)隨機(jī)到達(dá)、無線信道與有限的空口資源,利用李雅普諾夫優(yōu)化實(shí)現(xiàn)了吞吐量與公平性兼?zhèn)涞挠嬎阈遁d調(diào)度。文獻(xiàn)[9]針對惡意競爭不規(guī)范行為帶來的不合理資源配置,構(gòu)建了基于信譽(yù)值的博弈模型,通過改進(jìn)粒子群算法和拉格朗日乘數(shù)法優(yōu)化單MEC(mobile edge computing)服務(wù)器下的終端卸載方案。文獻(xiàn)[10]引入D2D(device to device)協(xié)作中繼,基于博弈論設(shè)計了針對多用戶場景中上行通信擁塞、D2D 復(fù)用干擾、邊緣計算資源受限和云計算回程時延等因素的卸載方案。文獻(xiàn)[11]研究了移動邊緣計算系統(tǒng)中設(shè)備周期性地產(chǎn)生計算任務(wù)時進(jìn)行卸載決策的場景,在該場景下證明了納什均衡的存在并提出相應(yīng)的分布式均衡算法。
對于多任務(wù)流程,文獻(xiàn)[12]基于任務(wù)圖分割方法優(yōu)化物聯(lián)網(wǎng)場景下的任務(wù)卸載決策,在滿足設(shè)備 QoS(quality of sever)需求后盡量減少物聯(lián)網(wǎng)終端個體對邊緣服務(wù)器的資源消耗。文獻(xiàn)[13]同樣基于任務(wù)流程圖的架構(gòu),設(shè)計深度強(qiáng)化學(xué)習(xí)方案對單設(shè)備多任務(wù)流程場景下的移動設(shè)備的能耗和任務(wù)執(zhí)行時間進(jìn)行智能卸載決策。在移動場景中,文獻(xiàn)[14]考慮終端設(shè)備的移動性和計算節(jié)點(diǎn)的可遷移性,構(gòu)建可遷移的移動計算框架,將問題轉(zhuǎn)化為馬爾可夫決策過程,并通過深度Q 網(wǎng)絡(luò)(DQN,deep Q network)對單設(shè)備的計算卸載和遷移決策進(jìn)行優(yōu)化。文獻(xiàn)[15]在車載邊緣計算網(wǎng)絡(luò)架構(gòu)下考慮車載終端縱向協(xié)作和橫向協(xié)作,通過異步分布式強(qiáng)化學(xué)習(xí)算法優(yōu)化用戶任務(wù)卸載決策及計算和緩存資源的調(diào)度。文獻(xiàn)[16]在車載邊緣網(wǎng)絡(luò)下設(shè)定不同車輛任務(wù)的優(yōu)先級,利用深度Q 網(wǎng)絡(luò)實(shí)現(xiàn)車載終端用戶任務(wù)執(zhí)行時延、處理速率與能耗的均衡卸載算法。涉及安全性時,文獻(xiàn)[17]在區(qū)塊鏈賦能的場景下提出了基于信任值的深度強(qiáng)化學(xué)習(xí)卸載方案,通過選擇中繼節(jié)點(diǎn)增強(qiáng)系統(tǒng)的可靠性。文獻(xiàn)[18]在區(qū)塊鏈賦能的邊緣異構(gòu)計算系統(tǒng)下,通過拉格朗日對偶理論聯(lián)合優(yōu)化通信及計算資源受限下的系統(tǒng)效用,解決區(qū)塊鏈計算任務(wù)和用戶卸載計算任務(wù)。
同時,部分文獻(xiàn)展開了對智能交互場景下的云機(jī)器人計算卸載的研究。文獻(xiàn)[5]假設(shè)所有機(jī)器人具有同構(gòu)的處理能力,并基于遺傳算法提出了最小化機(jī)器人能耗的計算任務(wù)卸載方案。文獻(xiàn)[19]基于改進(jìn)的遺傳算法提出了一種云機(jī)器人計算任務(wù)卸載、路徑規(guī)劃以及接入選擇的聯(lián)合優(yōu)化方案以最小化機(jī)器人能耗。文獻(xiàn)[20]利用博弈論研究了多智能體場景下的計算卸載和路由轉(zhuǎn)發(fā)問題,并證明了納什均衡的存在。文獻(xiàn)[21]考慮了不同任務(wù)對時延的敏感程度,提出了一種用戶偏好感知的計算任務(wù)卸載及帶寬資源分配方案,有效縮短了任務(wù)的執(zhí)行時間并節(jié)省了系統(tǒng)成本。文獻(xiàn)[22]將云機(jī)器人的深度學(xué)習(xí)計算任務(wù)構(gòu)建為一個非協(xié)作博弈模型,并提出了相應(yīng)的啟發(fā)式算法以平衡本地計算和云計算之間的負(fù)載。
文獻(xiàn)[4-22]對云機(jī)器人計算任務(wù)卸載的研究做出了很大的貢獻(xiàn),然而上述研究尚有一些不足之處。1) 存在場景適應(yīng)性問題。上述研究大多是針對確定性優(yōu)化場景,應(yīng)用范圍具有局限性。2) 未充分考慮本地計算和云計算之間的負(fù)載均衡問題。機(jī)器人對獲取執(zhí)行操作的實(shí)時性要求很高,過多依賴于云計算將導(dǎo)致高時延響應(yīng),影響任務(wù)的實(shí)時執(zhí)行。3) 大部分忽略了機(jī)器人/智能體之間的協(xié)作交互與數(shù)據(jù)共享。機(jī)器人/智能體在做決策時不能僅依賴于自身信息,還應(yīng)考慮其他機(jī)器人/智能體的數(shù)據(jù)情況。
為了解決上述問題,本文針對未來6G 網(wǎng)絡(luò)應(yīng)用中出現(xiàn)的智能設(shè)備交互場景,提出了一種基于多智能體深度強(qiáng)化學(xué)習(xí)的云?端聯(lián)合資源調(diào)度方案。所提方案能夠在聯(lián)合計算卸載任務(wù)中,結(jié)合任務(wù)的實(shí)時性需求和設(shè)備狀態(tài)的多樣性條件,利用邊緣計算資源,根據(jù)當(dāng)前時刻智能設(shè)備的狀態(tài)和任務(wù)特點(diǎn)自適應(yīng)地調(diào)整本地計算和云計算之間的負(fù)載。同時,通過多智能體間的數(shù)據(jù)共享,有效提升智能交互場景下多智能體之間的協(xié)作效率。本文主要的研究工作具體總結(jié)如下。
1) 針對未來網(wǎng)絡(luò)中智能交互場景,本文考慮智能設(shè)備實(shí)時操作的協(xié)作運(yùn)算特性,構(gòu)建基于值分解的多智能體DQN 計算卸載策略,解決該場景下多智能體聯(lián)合動作優(yōu)化問題。
2)在所設(shè)計的基于值分解的DQN 模型中,針對多智能體聯(lián)合動作維度爆炸的問題,通過將系統(tǒng)整體成本函數(shù)分解為個體函數(shù)的加和近似,成功將分布式網(wǎng)絡(luò)結(jié)構(gòu)擬合為系統(tǒng)成本函數(shù)。
3)所提策略可以在大量多智能體聯(lián)合動作策略優(yōu)化場景下進(jìn)行訓(xùn)練,并滿足該場景下系統(tǒng)的實(shí)時性需求,同時對系統(tǒng)函數(shù)的趨勢擬合符合預(yù)期,成本函數(shù)在多場景下較對比策略減少16%。
本文考慮多個接入點(diǎn)(AP,access point)服務(wù)多個智能體(agent)的網(wǎng)絡(luò)系統(tǒng),其中所有接入點(diǎn)通過有線連接方式接入網(wǎng)關(guān)設(shè)備(GD,gateway device),接入點(diǎn)與智能體之間通過無線方式進(jìn)行連接。如圖1 所示,系統(tǒng)中部署M個接入點(diǎn),接入點(diǎn)集合表示為M={1,2,…,M}。接入點(diǎn)i∈M服務(wù)Ni個智能體,該接入點(diǎn)所服務(wù)的智能體索引集合表示為Ni={(i,1),(i,2),…,(i,Ni)},其中1≤Ni≤Nmax,Nmax表示一個接入點(diǎn)能夠服務(wù)的智能體數(shù)量的最大值。此外,本文中的智能體在每一時刻只能與一個接入點(diǎn)相連。系統(tǒng)中存在M個相互正交的無線子信道,每個子信道的傳輸帶寬為W,每個接入點(diǎn)占用一個子信道。每個接入點(diǎn)采用時分多址(TDMA,time devision multiple access)方式為多個智能體提供服務(wù)。邊緣服務(wù)器部署于接入點(diǎn)和網(wǎng)關(guān)設(shè)備,其整體構(gòu)成邊緣云為系統(tǒng)提供豐富的計算、存儲等資源,邊緣云的總計算資源為F。單個智能體所具有的計算資源相對較少,接入點(diǎn)i所服務(wù)的第j個智能體的計算資源量表示為fi,j。系統(tǒng)符號說明如表1 所示。
圖1 研究場景示意
表1 系統(tǒng)符號說明
為了實(shí)現(xiàn)系統(tǒng)中智能設(shè)備的自動運(yùn)行,需要系統(tǒng)充分利用網(wǎng)絡(luò)邊緣計算能力、信道傳輸帶寬和自身計算能力來實(shí)時計算出每個智能設(shè)備的合理操作,從而完成系統(tǒng)整體任務(wù)并保證系統(tǒng)的穩(wěn)定性。在本文的交互場景中,計算一個智能設(shè)備的操作不僅需要基于智能設(shè)備自身的參數(shù)數(shù)據(jù),而且需要其他部分或全部智能設(shè)備的參數(shù)數(shù)據(jù)(如智能工廠內(nèi)各監(jiān)測攝像頭的圖像監(jiān)測數(shù)據(jù)和機(jī)械臂的操作姿態(tài)數(shù)據(jù),智能農(nóng)場內(nèi)各農(nóng)田的溫度、濕度監(jiān)測數(shù)據(jù)和化學(xué)指標(biāo)數(shù)據(jù)),從而為實(shí)時操作的計算提供充足且合理的信息。在一個采樣周期內(nèi)系統(tǒng)需要完成包括同步、感知、通信、計算、通信、執(zhí)行的閉環(huán)流程,其中同步、感知和執(zhí)行等環(huán)節(jié)在系統(tǒng)中具有其獨(dú)立的時延設(shè)計和時延標(biāo)準(zhǔn),與本文的優(yōu)化研究內(nèi)容相對獨(dú)立。本文主要研究感知之后到執(zhí)行之前的通信和計算環(huán)節(jié)。一個智能設(shè)備的參數(shù)數(shù)據(jù)包括自身當(dāng)前狀態(tài)信息以及片上傳感器感知的局部環(huán)境信息等。Di,j,t表示接入點(diǎn)i所服務(wù)的第j個智能設(shè)備在第t個采樣周期內(nèi)的參數(shù)數(shù)據(jù)量的大小。Ωi,j,t={(i,j),Ωi,j,t(i,j)}表示智能設(shè)備(i,j)在第t個采樣周期內(nèi)實(shí)時操作所需參數(shù)數(shù)據(jù)的智能設(shè)備集合。系統(tǒng)中存在2 類計算資源,即邊緣云的計算資源和智能體的計算資源。因此,智能設(shè)備(i,j) 計算第t個采樣周期內(nèi)實(shí)時操作時有2 種策略,xi,j,t∈{0,1}。具體地,xi,j,t=0表示由智能設(shè)備自身計算其實(shí)時操作;xi,j,t=1表示由邊緣云計算智能設(shè)備(i,j)的實(shí)時操作。
當(dāng)全部智能設(shè)備的實(shí)時操作由邊緣云來計算時,一個采樣周期內(nèi)的系統(tǒng)流程包括同步、智能設(shè)備感知、智能設(shè)備到邊緣云的通信、邊緣云計算、邊緣云到智能設(shè)備的通信、智能設(shè)備的執(zhí)行。
智能體(i,j) 與接入點(diǎn)i之間的吞吐率為
其中,表示智能體(i,j)的發(fā)射功率,hi,j,t表示智能體(i,j)與接入點(diǎn)i之間的信道增益,N0表示加性白高斯噪聲的單邊功率譜密度。智能體(i,j)上傳其參數(shù)數(shù)據(jù)的時間為
接入點(diǎn)i下所有智能體總的上傳時間為
系統(tǒng)中所有智能體總的上傳時間為
在智能體到邊緣云的通信過程中,所有智能體發(fā)送數(shù)據(jù)的能量消耗為
所有接入點(diǎn)接收數(shù)據(jù)的能量消耗為
其中,ηi表示接入點(diǎn)i接收數(shù)據(jù)時每秒消耗的能量。
全部接入點(diǎn)接收完數(shù)據(jù)等同于邊緣云接收完數(shù)據(jù)。由于接入點(diǎn)與網(wǎng)關(guān)設(shè)備全部通過有線方式連接,并且邊緣服務(wù)器與接入點(diǎn)和網(wǎng)關(guān)設(shè)備共址部署,參數(shù)數(shù)據(jù)由接入點(diǎn)傳到邊緣云計算單元的過程非常快,不會對優(yōu)化問題產(chǎn)生影響。因此在建模當(dāng)中省略該部分的時延和能量消耗。假設(shè)計算實(shí)時操作的計算量與其基于的參數(shù)數(shù)據(jù)量大小成正比,即智能體(i,j) 的實(shí)時操作的計算量為
其中,Ki,j為正實(shí)數(shù)。邊緣云計算全部智能體的實(shí)時操作的總計算時間為
在設(shè)備進(jìn)行任務(wù)計算時,影響CPU 功耗的因素包括動態(tài)功耗、短路功耗和晶體管漏電流引起的功耗,其中動態(tài)功耗是主要因素。動態(tài)功耗來源于CPU 內(nèi)部邏輯門的工作。當(dāng)邏輯門切換時,能量隨著其中的電容器充電和放電而流動。邊緣云計算的能量消耗為[23]
其中,κ為正實(shí)數(shù),表示CPU 的有效開關(guān)電容,其大小與CPU 結(jié)構(gòu)相關(guān)。本文假設(shè)系統(tǒng)中所有CPU的κ值相同。
邊緣云計算出全部智能體的實(shí)操作之后,通過接入點(diǎn)向?qū)?yīng)的智能體發(fā)送操作指令。智能體(i,j)的操作指令數(shù)據(jù)量表示為,j,t。接入點(diǎn)i向智能體(i,j)發(fā)送操作指令的下行吞吐率為
接入點(diǎn)i發(fā)送其下所有智能體的操作指令的總時間為
發(fā)送全部操作指令的總時間為
在邊緣云到智能體的通信過程當(dāng)中,所有接入點(diǎn)發(fā)送操作指令的能量消耗為
所有智能體接收操作指令的能量消耗為
其中,ηi,j表示智能體(i,j) 接收操作指令(或參數(shù)數(shù)據(jù))時每秒消耗的能量。
因此,系統(tǒng)在智能體開始上傳參數(shù)數(shù)據(jù)到所有智能體獲得實(shí)時操作指令的時間長度為
對應(yīng)的系統(tǒng)總能量消耗為
當(dāng)全部智能設(shè)備的實(shí)時操作由智能設(shè)備自身計算時,一個采樣周期內(nèi)的系統(tǒng)流程包括同步、智能設(shè)備感知、智能設(shè)備經(jīng)過邊緣云到智能設(shè)備的通信、智能設(shè)備計算、智能設(shè)備的計算單元到執(zhí)行單元的通信、智能設(shè)備的執(zhí)行。
智能體將參數(shù)數(shù)據(jù)發(fā)送至邊緣云的過程如式(1)~式(6)所示,邊緣云接收到全部智能體的參數(shù)數(shù)據(jù)之后開始向智能體轉(zhuǎn)發(fā)參數(shù)數(shù)據(jù)。接入點(diǎn)i向智能體(i,j) 轉(zhuǎn)發(fā)相應(yīng)實(shí)時操作所需的參數(shù)數(shù)據(jù)的時間為
所有接入點(diǎn)轉(zhuǎn)發(fā)參數(shù)數(shù)據(jù)的總能量消耗為
所有智能體接收參數(shù)數(shù)據(jù)的總能量消耗為
智能體在獲得計算實(shí)時操作的全部參數(shù)數(shù)據(jù)后立即開始進(jìn)行計算,智能體(i,j) 計算得到實(shí)時操作距邊緣云獲得全部參數(shù)數(shù)據(jù)的時間為
因此,從邊緣云獲得全部參數(shù)數(shù)據(jù)至所有智能體全部計算得到實(shí)時操作的時間為
所有智能體計算實(shí)時操作的總能量消耗為
因此,系統(tǒng)在智能體開始上傳參數(shù)數(shù)據(jù)到所有智能體獲得實(shí)時操作指令的時間長度為
對應(yīng)的系統(tǒng)總能量消耗為
智能設(shè)備的計算分為2 種形式,一部分設(shè)備由邊緣云計算其實(shí)時操作,另一部分由其自身計算實(shí)時操作。一個采樣周期內(nèi)的系統(tǒng)流程包括同步、智能設(shè)備感知、智能設(shè)備到邊緣云的通信(智能設(shè)備經(jīng)過邊緣云到智能設(shè)備的通信)、邊緣云計算(智能設(shè)備計算)、邊緣云到智能設(shè)備的通信(智能設(shè)備的計算單元到執(zhí)行單元的通信)、智能設(shè)備的執(zhí)行。
邊緣云接收到全部智能體的參數(shù)數(shù)據(jù)之后開始向策略中計劃在本地計算的智能體集合={(i,j)|xi,j,t=0,?i∈M且(i,j)∈Ni}中的智能體轉(zhuǎn)發(fā)參數(shù)數(shù)據(jù),同時開始計算集合?i∈M且(i,j)∈Ni}中的智能體的實(shí)時操作。因此,邊緣云計算中智能體實(shí)時操作的時間為
智能體(i,j) 計算得到實(shí)時操作距邊緣云接收到全部參數(shù)數(shù)據(jù)的時間為
在接入點(diǎn)i發(fā)送操作指令前,需要邊緣側(cè)對其智能體對應(yīng)的實(shí)施操作指令進(jìn)行計算。依據(jù)系統(tǒng)設(shè)計,接入點(diǎn)i發(fā)送本地計算參數(shù)數(shù)據(jù)之后,由接入點(diǎn)i發(fā)送智能設(shè)備操作指令。接入點(diǎn)i開始發(fā)送操作指令距邊緣云接收到全部參數(shù)數(shù)據(jù)的時間為
接入點(diǎn)i下的智能體全部獲得實(shí)時操作距邊緣云接收到全部參數(shù)數(shù)據(jù)的時間為
因此,從邊緣云獲得全部參數(shù)數(shù)據(jù)至全部智能體獲得實(shí)時操作的時間為
接入點(diǎn)i向智能體(i,j) 發(fā)送數(shù)據(jù)(參數(shù)數(shù)據(jù)或者操作指令)的能量消耗為
智能體(i,j) 接收數(shù)據(jù)的能量消耗為
因此,所有接入點(diǎn)發(fā)送數(shù)據(jù)的總能量消耗為
所有智能體接收數(shù)據(jù)的總能量消耗為
所有智能體計算實(shí)時操作的總能量消耗為
因此,系統(tǒng)在智能體開始上傳參數(shù)數(shù)據(jù)到所有智能體獲得實(shí)時操作指令的時延為
對應(yīng)的系統(tǒng)總能量消耗為
系統(tǒng)的成本函數(shù)綜合考慮時延和能量消耗兩方面,并將全部由邊緣云計算所對應(yīng)的時延和能量消耗作為基準(zhǔn)時間和能量消耗進(jìn)行無量綱化處理。系統(tǒng)的成本函數(shù)表示為
其中,β和1?β分別表示系統(tǒng)對于時延和能量消耗的偏好程度,通過調(diào)整β的取值可對系統(tǒng)時延或能耗的敏感程度進(jìn)行調(diào)整。本文的優(yōu)化問題通過對卸載決策xi,j,t的合理選擇,實(shí)現(xiàn)對每次系統(tǒng)智能交互的計算過程進(jìn)行針對成本函數(shù)的優(yōu)化求解。優(yōu)化問題為
其中,L={1,2,…,L}表示采樣周期索引集合。對于每個策略生成的單次采樣周期,周期的總時長為系統(tǒng)完成多智能設(shè)備聯(lián)合策略指令分發(fā)的時間,與其計算卸載策略對應(yīng)的能耗共同組成該次的系統(tǒng)成本函數(shù)。限制條件C1表示每個智能體獲得實(shí)時操作只有2 種策略,限制條件C2 表示每個接入點(diǎn)服務(wù)的智能體數(shù)量上限,限制條件C3 表示每個智能體實(shí)時操作的計算至少需要自身的參數(shù)數(shù)據(jù)。
問題式(41)是復(fù)雜的非線性0-1 規(guī)劃問題,屬于NP 難問題[24],難以采用傳統(tǒng)數(shù)學(xué)優(yōu)化方法快速得出優(yōu)化解??紤]智能體自動智能運(yùn)行場景存在實(shí)時演算和反饋執(zhí)行的即時性需求,系統(tǒng)成本函數(shù)中包含時延。對問題式(41)求解使用較長的時間將嚴(yán)重影響整個系統(tǒng)的性能,過于冗長的計算時間會使計算指令失去有效性。除此之外,整個系統(tǒng)存在系統(tǒng)動力學(xué)的不確定性,傳統(tǒng)數(shù)學(xué)優(yōu)化方法難以直接處理。
區(qū)別于一般的監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí),強(qiáng)化學(xué)習(xí)通過智能體與環(huán)境不斷交互,獲得動作獎勵并構(gòu)建自身的狀態(tài)、動作空間。通過智能體自身在經(jīng)驗(yàn)積累中學(xué)習(xí)的優(yōu)化策略不斷更新智能體的動作選擇方案,這種學(xué)習(xí)方法能夠很好地處理本文提出的優(yōu)化問題。由于信道狀態(tài)、任務(wù)請求的差異性等使環(huán)境因素動態(tài)變化、不服從某單一概率分布,無法提前獲取狀態(tài)轉(zhuǎn)移概率,因此采用無模型的增強(qiáng)學(xué)習(xí)方法進(jìn)行處理。當(dāng)邊緣云收集全部智能體信息集中式?jīng)Q策所有智能體獲取實(shí)時動作的策略時,系統(tǒng)的狀態(tài)空間和動作空間維度非常高,傳統(tǒng)的表格化增強(qiáng)學(xué)習(xí)方法難以處理。神經(jīng)網(wǎng)絡(luò)作為一種能夠擬合任意函數(shù)形式的工具可以有效地對高維輸入狀態(tài)空間進(jìn)行處理,面對海量狀態(tài)空間時通過值函數(shù)逼近的方法神經(jīng)網(wǎng)絡(luò)可以獲取對應(yīng)的有效狀態(tài)動作值,是一種典型的處理高維度狀態(tài)空間的方法。因此,本文采用DQN求解問題式(41)。
利用DQN 得到的價值函數(shù)網(wǎng)絡(luò),系統(tǒng)可以實(shí)時依據(jù)系統(tǒng)狀態(tài)選擇多智能體操作的計算位置。至此,系統(tǒng)成本函數(shù)優(yōu)化問題轉(zhuǎn)化為強(qiáng)化學(xué)習(xí)中的多智能體聯(lián)合動作優(yōu)化問題。本文利用貝爾曼方程將系統(tǒng)的長期收益轉(zhuǎn)化為系統(tǒng)的目標(biāo)函數(shù),進(jìn)而通過深度神經(jīng)網(wǎng)絡(luò)估計并構(gòu)建對應(yīng)的策略價值函數(shù),將不確定的網(wǎng)絡(luò)環(huán)境映射到神經(jīng)網(wǎng)絡(luò)的狀態(tài)空間中,以適應(yīng)不確定性場景。對于基于值的單智能體強(qiáng)化學(xué)習(xí)使用神經(jīng)網(wǎng)絡(luò)來估計策略價值,通過訓(xùn)練網(wǎng)絡(luò)參數(shù)θ使逼近策略的真實(shí)價值Qπ(s,a)。下面,介紹多智能體對單智能體算法的擴(kuò)展方式。
1) 聯(lián)合集中式學(xué)習(xí)。假設(shè)所有主體的行動和觀察組成一個聯(lián)合模型。集中式策略利用神經(jīng)網(wǎng)絡(luò)將所有智能體的聯(lián)合觀察映射到一個聯(lián)合策略價值函數(shù)。該框架下觀察空間和動作空間隨智能體數(shù)目呈幾何倍數(shù)增長,達(dá)到2MNmax(本模型單智能體動作空間為2),網(wǎng)絡(luò)需要2MNmax輸出分支對應(yīng)系統(tǒng)的組合優(yōu)化策略。對真實(shí)策略價值函數(shù)的估計依賴于網(wǎng)絡(luò)的擬合和泛化能力。隨智能體數(shù)目增加,探索和計算開銷指數(shù)增加,在大規(guī)模多智能體環(huán)境中算法的可擴(kuò)展性較差。
3) 值函數(shù)分解。將系統(tǒng)成本函數(shù)拆解為各智能體成本函數(shù)的加和形式,通過邊緣集中處理來解決各智能體獨(dú)自策略產(chǎn)生的環(huán)境動態(tài)非平穩(wěn)問題,并且由于智能體訓(xùn)練自身模型,解耦了智能體之間復(fù)雜的相互關(guān)系。
討論簡單情況,假設(shè)多智能體系統(tǒng)中包含2 個智能體(智能體1 和智能體2),并且全局回報函數(shù)是每個智能體的局部回報函數(shù)的加和。
其中,r1(ο1,α1)和r2(ο2,α2)分別是智能體1 和智能體2 的(觀察,動作)。從式(42)可以得到
式(43)分解后的Q函數(shù)依舊基于全局環(huán)境信息,本文系統(tǒng)中邊緣節(jié)點(diǎn)將集中收集所有連接智能體的狀態(tài)信息進(jìn)而得到全局環(huán)境信息。由此對于部分策略價值函數(shù)的累加可以得到整體策略價值函數(shù)[26]。基于式(43)對聯(lián)合集中式學(xué)習(xí)和獨(dú)立并行學(xué)習(xí)進(jìn)行折中,將整體策略價值函數(shù)拆分為多個局部智能體策略價值函數(shù)之和。
對應(yīng)可將式(40)拆分為
其中,τi,j,t(Xi,j,t)代表單一智能體由邊緣云或本地計算操作所需要的時間,Ei,j,t(Xi,j,t)代表單一智能體由邊緣云或本地計算操作所需要的能量。
在多智能體訓(xùn)練中采用式(45)作為獎勵函數(shù)代替系統(tǒng)代價函數(shù)進(jìn)行訓(xùn)練,2 個代價函數(shù)中不完全相等的部分由在邊緣計算時式(4)、式(13)和在智能體本地計算時式(2)中的非線性函數(shù)產(chǎn)生。
同時,在多智能體學(xué)習(xí)系統(tǒng)中若某智能體較早學(xué)習(xí)到有一定效果的策略,其他智能體將趨向于防止自身較慢的策略學(xué)習(xí)阻礙已經(jīng)學(xué)到一定策略的智能體,使全局價值回報降低。此現(xiàn)象令其他智能體的學(xué)習(xí)受阻。為了避免該問題,對多智能體學(xué)習(xí)采用參數(shù)共享方法進(jìn)行訓(xùn)練。在各智能體策略價值評估函數(shù)中采用同構(gòu)的神經(jīng)網(wǎng)絡(luò),并允許所有智能體共享單個策略評估參數(shù),使策略可以同時接受所有智能體的經(jīng)驗(yàn)提升。直接采用參數(shù)共享方法的模型將會產(chǎn)生智能體的不變性,智能體不變性將導(dǎo)致智能體策略失去差異性。但不同智能體在特定任務(wù)中觀察到同樣局部信息時其策略應(yīng)具有多樣性[27]。為了使智能體策略函數(shù)產(chǎn)生差異性,在輸入中引入智能體當(dāng)前狀態(tài)信息作為額外索引信息來增強(qiáng)智能體價值函數(shù)的差異性[28]。
智能體(i,j)在第t個采樣周期的狀態(tài)為si,j,t,系統(tǒng)全部智能體在第t個采樣周期的狀態(tài)為st∈S,其中S 為狀態(tài)空間。
其中,
表示智能體i,j在第t個采樣周期的自身狀態(tài)信息。
系統(tǒng)在第t個采樣周期的策略動作為at∈A,其中A 為策略動作空間。根據(jù)價值函數(shù)獲取策略動作有
系統(tǒng)的策略動作tat表示系統(tǒng)中全部智能體在第t個采樣周期獲取的實(shí)時動作的策略集合,ai,j,t表示表示智能體i,j在第t個采樣周期獲取的實(shí)時動作(ai,j,t∈at)。對于不存在的智能體索引,規(guī)定其策略為?1,表示不存在該智能體。
智能體在第t個采樣周期的狀態(tài)為si,j,t,采取策略動作ai,j,t,得到對應(yīng)的系統(tǒng)回報值為ri,j,t,當(dāng)系統(tǒng)進(jìn)入第t+1 個采樣周期時狀態(tài)為si,j,t+1。其中,系統(tǒng)回報值為系統(tǒng)成本的負(fù)值,即
由于Xt與tat之間能夠等效轉(zhuǎn)換,因此式(55)等效為
因此,問題式(55)等效為尋找最優(yōu)策略使系統(tǒng)的長期平均回報值最大化。接下來,介紹相應(yīng)的求解算法DQN。
本文中的DQN 利用雙網(wǎng)絡(luò)結(jié)構(gòu)和經(jīng)驗(yàn)回放方法。在當(dāng)前的第t個采樣周期,智能體i,j狀態(tài)為si,j,t,利用ε-greedy 方法選取策略動作ai,j,t,相應(yīng)地得到系統(tǒng)回報值ri,j,t,進(jìn)入第t+1個采樣周期時系統(tǒng)狀態(tài)為si,j,t+1。因此系統(tǒng)得到經(jīng)驗(yàn)數(shù)據(jù)(si,j,t,ai,j,t,ri,j,t,si,j,t+1),并將其存儲至記憶庫DM。系統(tǒng)構(gòu)建2 個結(jié)構(gòu)相同的神經(jīng)網(wǎng)絡(luò):預(yù)測網(wǎng)絡(luò)Q(s,a;θ)和目標(biāo)網(wǎng)絡(luò)Q~(s,a;θ?),其中θ和θ?分別表示2 個神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)。預(yù)測網(wǎng)絡(luò)Q(s,a;θ)的輸入為狀態(tài)s,輸出為所有可能動作對應(yīng)的值,系統(tǒng)則根據(jù)這些值采用ε-greedy 方法選取策略動作。
為了學(xué)習(xí)預(yù)測網(wǎng)絡(luò)Q(s,a;θ),系統(tǒng)從記憶庫DM隨機(jī)選取U個經(jīng)驗(yàn)數(shù)據(jù)樣本進(jìn)行批訓(xùn)練。以目標(biāo)網(wǎng)絡(luò)的Q值作為目標(biāo),第u個樣本(su,au,ru,su+1)(此處的1≤u≤U指的是隨機(jī)選取的U個經(jīng)驗(yàn)數(shù)據(jù)樣本的序號,與采樣周期的索引無關(guān))訓(xùn)練目標(biāo)函數(shù)為
其中,γ為回報值的折扣。預(yù)測網(wǎng)絡(luò)參數(shù)θ更新的目標(biāo)是最小化損失函數(shù)L()θ。
θ的更新方式為
其中,v為更新步長,?θ L(θ)為L(θ)關(guān)于θ的梯度。目標(biāo)網(wǎng)絡(luò)的參數(shù)更新需要間隔固定的采樣周期,即每經(jīng)過G個采樣周期,更新θ?如下
算法1基于值分解的多智能體DQN 卸載決策算法
輸入全部智能體在第t個采樣周期中的設(shè)備狀態(tài)信息st
輸出全部智能體在第t個采樣周期中的卸載策略動作at
初始化
初始化預(yù)測網(wǎng)絡(luò)Q(s,a;θ),隨機(jī)生成其參數(shù)θ;初始化目標(biāo)網(wǎng)絡(luò),其參數(shù)θ?=θ;初始化記憶庫DM,其存儲空間大小為|DM|;初始化εi,j=1,?i∈M,(i,j)∈Ni,εdecay,εmin;獲得初始狀態(tài)s1
循環(huán)
預(yù)測網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)為多層神經(jīng)網(wǎng)絡(luò)。因?yàn)橄到y(tǒng)狀態(tài)每一部分的取值范圍大不相同,所以在輸入系統(tǒng)狀態(tài)之前需要對系統(tǒng)狀態(tài)進(jìn)行歸一化預(yù)處理。歸一化方法如下
本文通過Pytorch 仿真評估所提出的基于值分解的多智能體DQN 卸載決策算法性能。無線網(wǎng)絡(luò)仿真參數(shù)如表2 所示,DQN 算法超參數(shù)如表3 所示。
表2 無線網(wǎng)絡(luò)仿真參數(shù)
表3 DQN 超參數(shù)
仿真環(huán)境如圖1 所示。邊緣云部署M個接入點(diǎn),每個接入點(diǎn)下接入不超過Nmax個智能體,每個周期智能體隨機(jī)產(chǎn)生數(shù)據(jù)量為20~200 kbit 的數(shù)據(jù)包對接下來的智能體實(shí)時操作進(jìn)行請求。假設(shè)計算實(shí)時操作的計算量與其基于的參數(shù)數(shù)據(jù)量大小成正比,接入點(diǎn)收集智能體相關(guān)請求信息。通過基于值分解的DQN 計算每個智能體獨(dú)立的計算資源部署動作。在DQN 內(nèi),每次產(chǎn)生一組全部智能狀態(tài)st,選擇智能體(i,j) 。在神經(jīng)網(wǎng)絡(luò)在輸入端輸入的對應(yīng)智能體狀態(tài)si,j,t由全部智能體狀態(tài)st和智能體(i,j)的索引狀態(tài)組成。經(jīng)過值分解DQN 后得到該周期對應(yīng)的智能體動作,更換智能體(i,j) 索引直至所有智能體輸出對應(yīng)的計算策略動作。依據(jù)DQN 指導(dǎo)多智能體聯(lián)合計算請求的實(shí)時操作指令。將計算實(shí)時操作需要的參數(shù)數(shù)據(jù)Ωi,j,t收集下發(fā)至本地計算的智能體,同時在邊緣云計算智能體實(shí)時操作。邊緣云完成計算后將通過對應(yīng)接入點(diǎn)將實(shí)時計算指令下發(fā)至對應(yīng)智能體。所有計算完成后則可以獲取本周期的系統(tǒng)成本函數(shù)值。使用Adam 優(yōu)化算法更新預(yù)測網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)參數(shù)。
考慮到云機(jī)器人場景下對多智能設(shè)備策略動作的實(shí)時性要求,本文設(shè)計了基于機(jī)器學(xué)習(xí)的多智能體資源分配方案。本文方案利用神經(jīng)網(wǎng)絡(luò)來觀察系統(tǒng)狀態(tài)信息并快速給出合適的卸載策略。表4 給出了本文所提算法在不同場景下的決策時間。
從表4 中可以看出,隨著智能體數(shù)目的增加,計算決策的計算時間并沒有顯著上升,即本文所提出的資源分配方案對所涉及的智能體數(shù)目不敏感。上述實(shí)驗(yàn)表明,本文的研究方案可以以亞毫秒級完成策略計算。本文方案產(chǎn)生決策結(jié)果的時間遠(yuǎn)小于其智能設(shè)備承載業(yè)務(wù)場景的時延容忍度,足以滿足任務(wù)的實(shí)時性要求。
表4 基于值分解的DQN 算法決策時間
為了分析所設(shè)計的基于值分解的DQN 對于本文模型所涉及的多智能體聯(lián)合動作空間的學(xué)習(xí)能力,圖2 給出了當(dāng)接入點(diǎn)數(shù)目M=3 時,每個接入點(diǎn)下5 個智能體場景的Q 網(wǎng)絡(luò)損失函數(shù)變化曲線。
圖2 基于值分解的DQN 損失函數(shù)曲線
如圖2 所示,基于值分解的DQN 可以在多智能體的訓(xùn)練環(huán)境下完成損失函數(shù)的快速減少和收斂,快速找到相對應(yīng)的多智能體聯(lián)合動作策略。
當(dāng)智能體數(shù)目增加時,系統(tǒng)的整體復(fù)雜性將增加,其對應(yīng)的組合優(yōu)化空間將變大,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)需要更多的數(shù)據(jù)來擬合聯(lián)合優(yōu)化的值函數(shù),使損失函數(shù)收斂相較簡單場景有所變緩,更新數(shù)據(jù)量相同情況下單個智能體的訓(xùn)練數(shù)據(jù)集變小。通過本文采取的參數(shù)共享方式對DQN 的訓(xùn)練進(jìn)行加速,在智能體數(shù)目較多的場景下,所提算法的目標(biāo)損失函數(shù)依舊在較短的訓(xùn)練循環(huán)次數(shù)內(nèi)快速收斂至穩(wěn)定范圍。系統(tǒng)成本函數(shù)通過值分解分配到每個智能體自身成本函數(shù),多智能體算法能夠以較好的性能完成目標(biāo)任務(wù)。
聯(lián)合集中式學(xué)習(xí)是假設(shè)所有智能體的動作策略均采用一個聯(lián)合模型進(jìn)行訓(xùn)練,并將所有智能體的聯(lián)合動作狀態(tài)值映射到一個聯(lián)合函數(shù)中。這種集中式結(jié)構(gòu)導(dǎo)致狀態(tài)和行動空間隨著智能體數(shù)目的增加而呈指數(shù)增長,并且對應(yīng)訓(xùn)練所需要的數(shù)據(jù)量和計算量難以通過現(xiàn)有技術(shù)進(jìn)行支持。本文算法則可以在有限數(shù)據(jù)量的情況下獲取有效的優(yōu)化策略。
為了對比驗(yàn)證本文提出算法的有效性,選擇以下對比方案。1) 考慮系統(tǒng)成本函數(shù)中采用、作為歸一化參數(shù),其對應(yīng)多智能體策略為全部智能體實(shí)時動作計算置于邊緣云,選取全部實(shí)時計算位于邊緣云作為對比策略。2) 對應(yīng)的多智能體動作計算策略可以選擇利用智能體自身資源,在邊緣云從其他智能體收集足夠計算數(shù)據(jù)并發(fā)送到所需智能體后由智能體自身計算實(shí)行,全部智能體本地執(zhí)行實(shí)時計算動作作為對比方案。3) 在不同的系統(tǒng)環(huán)境中,最優(yōu)卸載策略隨系統(tǒng)環(huán)境變化而變化。為了驗(yàn)證基于值分解的DQN 算法能夠成功從系統(tǒng)環(huán)境信息和系統(tǒng)狀態(tài)信息中學(xué)習(xí)獲得計算資源的分配策略,本文選取了采用隨機(jī)動作卸載策略作為對比項。
為了研究多智能體收集數(shù)據(jù)量Di,j,t的變化與多智能體實(shí)時操作指令數(shù)據(jù)量的變化對整體系統(tǒng)性能的影響,圖3 與圖4 分別給出系統(tǒng)成本函數(shù)隨二者的變化曲線。
圖3 多智能體收集數(shù)據(jù)量與系統(tǒng)成本
圖4 多智能體操作指令數(shù)據(jù)量與系統(tǒng)成本
從上述結(jié)果可知,基于值分解的DQN 算法在復(fù)雜環(huán)境變化下可以準(zhǔn)確找到最優(yōu)動作策略。當(dāng)多智能體收集數(shù)據(jù)量較小時,依據(jù)系統(tǒng)效用函數(shù)式(39),整體系統(tǒng)趨向于本地計算以獲取最小的系統(tǒng)成本。由于數(shù)據(jù)量輕量化使在本地計算時延開銷較小,此時系統(tǒng)中多數(shù)智能體數(shù)據(jù)的上傳時延和實(shí)時指令的回傳時延是系統(tǒng)的潛在主要開銷。隨著多智能體收集數(shù)據(jù)量的增加,由于智能體計算能力有限,智能體獨(dú)自計算的時間成本增加,整體系統(tǒng)趨向于向邊緣卸載操作計算以減小系統(tǒng)成本,利用邊緣的高算力帶來的系統(tǒng)增益抵消數(shù)據(jù)傳輸時產(chǎn)生的時延影響。
當(dāng)多智能體實(shí)施操作指令數(shù)據(jù)量較小時,依據(jù)系統(tǒng)效用函數(shù)式(40),整體系統(tǒng)趨向于將實(shí)時計算交付于邊緣以獲取最小的系統(tǒng)成本。此時利用邊緣的高算力優(yōu)勢抵消了智能體數(shù)據(jù)傳輸時延對系統(tǒng)增益的影響,實(shí)時計算指令可以即時反饋回各智能體。隨著系統(tǒng)中多數(shù)智能體操作數(shù)據(jù)量的上升,邊緣計算對于智能體的實(shí)時操作反饋時延的代價增加,抵消了邊緣的算力優(yōu)勢,則整體系統(tǒng)趨向于將實(shí)時計算任務(wù)交付于各自獨(dú)立智能體。
對比圖3 與圖4,整體系統(tǒng)對于多智能體收集數(shù)據(jù)量的敏感性要低于多智能體實(shí)時操作指令數(shù)據(jù)量的敏感性。在收集數(shù)據(jù)量增長后系統(tǒng)很快將計算任務(wù)交于邊緣,操作指令數(shù)據(jù)量系統(tǒng)傾向性改變較緩。在所有場合中基于值分解的DQN 算法均優(yōu)于對比策略。
以上實(shí)驗(yàn)表明,本文所提基于值分解的DQN算法能夠有效獲取系統(tǒng)的策略偏好并對應(yīng)訓(xùn)練神經(jīng)網(wǎng)絡(luò)價值函數(shù)。圖5 給出了DQN 輸出隨系統(tǒng)的智能體數(shù)據(jù)收集與智能體操作數(shù)據(jù)量的變化趨勢(DQN 輸出動作選擇概率)。當(dāng)智能體收集的數(shù)據(jù)量增加時,DQN 獎勵函數(shù)對本地的計算時延成本增加,系統(tǒng)動作逐漸趨向于在邊緣計算。當(dāng)智能體操作指令數(shù)據(jù)量增加時,在基于值分解的DQN 中,對于本地計算,依據(jù)式(11)和式(12),時延部分分子τi,j,t(χi,j,t)不變,分母變大,能量部分分子Ei,j,t(χi,j,t)不變,分母變大,導(dǎo)致系統(tǒng)卸載動作逐漸趨向于在智能體本身計算。
圖5 收集與操作指令數(shù)據(jù)量的多智能體策略變化
圖6 展示智能體數(shù)量對整個系統(tǒng)成本影響的仿真結(jié)果,以及基于值分解的DQN 設(shè)計的可擴(kuò)展性的仿真驗(yàn)證結(jié)果。在系統(tǒng)內(nèi)多智能體的數(shù)目增長過程中,本文所提策略得到的聯(lián)合動作策略的系統(tǒng)成本持續(xù)低于對比策略,整體系統(tǒng)成本函數(shù)在多場景下相對對比策略減少16%。在智能體數(shù)目較少的場景下,本文策略系統(tǒng)成本顯著優(yōu)于對比策略。在實(shí)驗(yàn)參數(shù)設(shè)置下少量智能體對于輕量化的個體計算更具有偏好性。隨著智能體數(shù)目的不斷增多,系統(tǒng)的最優(yōu)策略逐步偏向于讓智能體設(shè)備操作在邊緣側(cè)計算而非本地計算,在實(shí)驗(yàn)結(jié)果中的表現(xiàn)為含有本地計算方式的系統(tǒng)成本相對上升。整體系統(tǒng)成本函數(shù)中上傳和卸載數(shù)據(jù)的時延代價被分?jǐn)偟搅烁嗟闹悄荏w中,特別是本文考慮的是多智能體協(xié)同計算,單智能體需要其他智能體數(shù)據(jù)輔助完成實(shí)時操作計算,對智能體的需求計算數(shù)據(jù)分發(fā)將在時延代價中產(chǎn)生巨大影響。隨智能體數(shù)目增加智能體將趨向于將實(shí)時操作計算交付于邊緣計算以減輕智能體的數(shù)據(jù)分發(fā)帶來的負(fù)面影響。
圖6 智能體數(shù)目與系統(tǒng)成本
圖7 和圖8 對不同智能體數(shù)目下的時延和能耗性能進(jìn)行了單獨(dú)仿真分析。如圖7 所示,單獨(dú)考慮時間因素時,可以觀察到個體時延組成包括智能體數(shù)據(jù)的上傳時間、邊緣側(cè)對本地計算的數(shù)據(jù)分發(fā)時間、邊緣側(cè)和本地的操作指令計算時間和最終邊緣側(cè)智能設(shè)備操作指令傳輸時間。其中,智能體數(shù)據(jù)的上傳時間、分發(fā)時間和邊緣側(cè)智能設(shè)備操作指令傳輸時間參數(shù)取值為所有接入點(diǎn)間最大值,在各接入點(diǎn)范圍內(nèi)計算方式為對應(yīng)時延相加;邊緣側(cè)操作指令計算時間為所有邊緣側(cè)計算智能體計算時間相加。智能體個體時延與智能體間互相的卸載策略選擇相關(guān)性較強(qiáng),與智能體數(shù)目增加的相關(guān)性較強(qiáng),隨智能體數(shù)目的增加而增加。通過實(shí)驗(yàn)對比可知,本文算法優(yōu)于對比策略。
圖7 智能體數(shù)目與時延
如圖8 所示,在單獨(dú)考慮能耗因素時,個體能耗組成主要包含智能體數(shù)據(jù)上傳的能耗、邊緣側(cè)對本地計算的數(shù)據(jù)分發(fā)能耗、邊緣側(cè)或本地的操作指令計算能耗和最終邊緣側(cè)智能設(shè)備操作指令傳輸能耗。能耗函數(shù)表示為智能設(shè)備在各自環(huán)節(jié)相對獨(dú)立的能耗參數(shù)相加。智能體個體的能耗同智能體個體的卸載選擇相關(guān),與智能體間的卸載策略選擇相關(guān)性較弱,對智能體數(shù)目的增加不敏感。通過實(shí)驗(yàn)對比,本文算法可以在實(shí)驗(yàn)環(huán)境中依據(jù)智能設(shè)備的情況和任務(wù)自適應(yīng)地選取卸載決策,算法決策在能耗選擇中優(yōu)于對比策略。
圖8 智能體數(shù)目與能耗
本文針對交互場景下的操作計算業(yè)務(wù)提出了基于多智能體的強(qiáng)化學(xué)習(xí)資源調(diào)度策略,設(shè)計了基于多智能體強(qiáng)化學(xué)習(xí)算法的狀態(tài)和獎勵函數(shù)。所提出的策略能夠克服海量動作空間的學(xué)習(xí)問題,能夠在接入點(diǎn)、智能體異構(gòu)化的條件下根據(jù)任務(wù)的需求自適應(yīng)地調(diào)整資源分配策略,提升時延和能量效益,不受限于智能體數(shù)量,正確反映通信系統(tǒng)效用函數(shù)的變化趨勢。仿真結(jié)果表明,所設(shè)計的多智能體資源調(diào)度策略能夠在用戶較多、業(yè)務(wù)量需求較大的情況下完成傳統(tǒng)集中式架構(gòu)無法完成的調(diào)度指示,系統(tǒng)成本函數(shù)相對對比策略平均減少16%,并且對于用戶的數(shù)目變化具有良好的適應(yīng)性。