亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        災(zāi)害應(yīng)急場(chǎng)景下基于多智能體深度強(qiáng)化學(xué)習(xí)的任務(wù)卸載策略

        2023-02-21 16:54:50米德昌王霄李夢(mèng)麗秦俊康
        計(jì)算機(jī)應(yīng)用研究 2023年12期

        米德昌 王霄 李夢(mèng)麗 秦俊康

        摘 要:針對(duì)傳統(tǒng)深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)中收斂速度緩慢、經(jīng)驗(yàn)重放組利用率低的問(wèn)題,提出了災(zāi)害應(yīng)急場(chǎng)景下基于多智能體深度強(qiáng)化學(xué)習(xí)(MADRL)的任務(wù)卸載策略。首先,針對(duì)MEC網(wǎng)絡(luò)環(huán)境隨時(shí)隙變化且當(dāng)災(zāi)害發(fā)生時(shí)傳感器數(shù)據(jù)多跳的問(wèn)題,建立了災(zāi)害應(yīng)急場(chǎng)景下基于MADRL的任務(wù)卸載模型;然后,針對(duì)傳統(tǒng)DRL由高維動(dòng)作空間導(dǎo)致的收斂緩慢問(wèn)題,利用自適應(yīng)差分進(jìn)化算法(ADE)的變異和交叉操作探索動(dòng)作空間,提出了自適應(yīng)參數(shù)調(diào)整策略調(diào)整ADE的迭代次數(shù),避免DRL在訓(xùn)練初期對(duì)動(dòng)作空間的大量無(wú)用探索;最后,為進(jìn)一步提高傳統(tǒng)DRL經(jīng)驗(yàn)重放組中的數(shù)據(jù)利用率,加入優(yōu)先級(jí)經(jīng)驗(yàn)重放技術(shù),加速網(wǎng)絡(luò)訓(xùn)練過(guò)程。仿真結(jié)果表明,ADEDDPG算法相比改進(jìn)的深度確定性策略梯度網(wǎng)絡(luò)(deep deterministic policy gradient,DDPG)節(jié)約了35%的整體開(kāi)銷,驗(yàn)證了ADEDDPG在性能上的有效性。

        關(guān)鍵詞:災(zāi)害應(yīng)急;任務(wù)卸載;多智能體深度強(qiáng)化學(xué)習(xí);自適應(yīng)差分進(jìn)化算法

        中圖分類號(hào):TP399?? 文獻(xiàn)標(biāo)志碼:A??? 文章編號(hào):1001-3695(2023)12-038-3766-06

        doi: 10.19734/j.issn.1001-3695.2023.04.0159

        Multiintelligence deep reinforcement learningbased task offloading strategy for disaster emergency scenarios

        Abstract:For the problems of slow convergence and low utilization of empirical replay groups in traditional DRL, this paper proposed a multi agent deep reinforcement learning(MADRL) based task offloading strategy for disaster emergency scenarios. Firstly, it established a task offloading model based on MADRL for disaster emergency scenarios to deal with the problem of time slot changes in MEC network environment and multihop sensor data transmission when disasters occur. Secondly, for the slow convergence problem caused by highdimensional action space in traditional DRL, it used the mutation and crossover operations of the adaptive differential evolution algorithm (ADE) to explore the action space. And it proposed an adaptive parameter adjustment strategy to adjust the iteration number of ADE, this avoided a large amount of useless exploration of the action space by DRL in the early stages of training. Finally, it added the prioritized experience replay technique to speed up the network training process and improve the data utilization in the experience replay group of DRL. Simulation results show that this adaptive differential evolution algorithm improved deep deterministic policy gradient (ADEDDPG) saves 35% of the overall overhead compared with the improved original deep deterministic policy gradient (DDPG) network. This verifies the effectiveness of ADEDDPG in terms of performance.

        Key words:disaster emergency; task offloading; MADRL; ADE

        0 引言

        貴州省是我國(guó)地質(zhì)災(zāi)害頻發(fā)地區(qū),由于地處亞歐板塊和印度洋板塊的消亡邊界附近,地形十分破碎。同時(shí),云貴高原地形十分崎嶇,坡度很大,加上年降水量豐富,使得滑坡、泥石流等地質(zhì)災(zāi)害多發(fā)[1,2]。對(duì)災(zāi)害易發(fā)區(qū)域部署實(shí)時(shí)監(jiān)測(cè),對(duì)災(zāi)害預(yù)判,做到迅速反應(yīng),能降低災(zāi)害來(lái)臨時(shí)造成的危害[3]。隨著物聯(lián)網(wǎng)技術(shù)和5G通信技術(shù)的發(fā)展,可實(shí)現(xiàn)對(duì)高危區(qū)域的遠(yuǎn)程監(jiān)測(cè),災(zāi)害預(yù)判和迅速處理[4,5]。自然災(zāi)害的特點(diǎn)是突發(fā)性,及時(shí)的應(yīng)急反應(yīng)是災(zāi)后救援工作開(kāi)展的關(guān)鍵[6]。傳統(tǒng)云框架下,邊端的無(wú)線傳感器節(jié)點(diǎn)(wireless sensor node,WSN)由于體量小導(dǎo)致計(jì)算能力有限,需要將數(shù)據(jù)全部上傳到云端進(jìn)行集中式計(jì)算,但云端受限于距離因素,易帶來(lái)傳輸延遲和帶寬資源浪費(fèi)等問(wèn)題[7]。多接入邊緣計(jì)算(multiaccess edge computing,MEC)的提出可以提高物聯(lián)網(wǎng)系統(tǒng)整體的傳輸效率,它將云端的計(jì)算服務(wù)下沉到距離邊端較近的網(wǎng)絡(luò)邊緣,滿足系統(tǒng)對(duì)實(shí)時(shí)性任務(wù)的需求。相對(duì)于云服務(wù)器,MEC系統(tǒng)更具有靈活性,但它所配備的資源較少[8~10],因此如何在時(shí)變的無(wú)線網(wǎng)絡(luò)環(huán)境中結(jié)合計(jì)算任務(wù)的屬性,使用任務(wù)卸載策略和資源分配方案來(lái)保證服務(wù)的可靠性和任務(wù)卸載效率,最終提高災(zāi)害應(yīng)急系統(tǒng)的反應(yīng)是當(dāng)前需要解決的問(wèn)題。

        任務(wù)卸載作為邊緣計(jì)算的核心技術(shù)之一,眾多學(xué)者對(duì)其進(jìn)行了相關(guān)的研究。Guo等人[11]對(duì)單個(gè)服務(wù)器和多個(gè)移動(dòng)設(shè)備的任務(wù)卸載進(jìn)行研究,提出了一種基于貪婪策略的啟發(fā)式算法運(yùn)用于工業(yè)互聯(lián)網(wǎng)的MEC中,但所使用的卸載方式是傳統(tǒng)二進(jìn)制卸載,卸載不靈活。類似地,Yong等人[12]研究了用戶子任務(wù)卸載策略和發(fā)射功率分配策略,并提出一種改進(jìn)粒子群算法來(lái)優(yōu)化發(fā)射功率分配策略。上述研究?jī)H研究了單個(gè)MEC服務(wù)器,當(dāng)多數(shù)用戶選擇將任務(wù)卸載到服務(wù)器執(zhí)行時(shí)容易發(fā)生網(wǎng)絡(luò)堵塞,且使用的啟發(fā)式算法具有一定的限制,當(dāng)卸載用戶和MEC服務(wù)器之間的信道狀態(tài)是時(shí)變的、任務(wù)屬性是動(dòng)態(tài)變化時(shí),啟發(fā)式算法的通用性和魯棒性是有爭(zhēng)議的。

        深度強(qiáng)化學(xué)習(xí)已逐漸運(yùn)用到任務(wù)卸載[13,14]。Xue等人[15]考慮了用戶設(shè)備的卸載成本和MEC服務(wù)器的定價(jià),提出了多智能體深度強(qiáng)化深度學(xué)習(xí)算法(MADRL)解決收益定價(jià)問(wèn)題,但所使用的DQN算法在收斂效果上得不到保證。Chen等人[16]研究了一種具有隨機(jī)無(wú)線信道的多輸入多輸出系統(tǒng),并采用深度確定性策略梯度(DDPG)處理連續(xù)動(dòng)作的DRL方法,但DDPG過(guò)度依賴評(píng)論家網(wǎng)絡(luò),使得DDPG的性能對(duì)評(píng)論家敏感,從而導(dǎo)致計(jì)算卸載過(guò)程中穩(wěn)定性差、收斂速度緩慢。Zhang等人[17]考慮了卸載過(guò)程中的延遲、能耗和運(yùn)營(yíng)商成本等方面的優(yōu)化問(wèn)題,并將其建立為馬爾可夫決策過(guò)程,提出基于深度強(qiáng)化學(xué)習(xí)的解決方案,但該方案對(duì)經(jīng)驗(yàn)重放組的利用率較低,存在學(xué)習(xí)效率不高的問(wèn)題。Lakew等人[18]研究了無(wú)線資源協(xié)調(diào)和部分任務(wù)卸載調(diào)度的聯(lián)合優(yōu)化方案,為了解決DDPG中由高維動(dòng)作導(dǎo)致的收斂緩慢問(wèn)題,在參與者網(wǎng)絡(luò)的輸出動(dòng)作上加入噪聲探索,但該方法和DDPG一樣也需要遍歷整個(gè)動(dòng)作空間。綜上所述,現(xiàn)有針對(duì)單MEC服務(wù)器卸載的研究中,卸載用戶更偏向于將任務(wù)卸載到MEC服務(wù)器執(zhí)行,這帶來(lái)了網(wǎng)絡(luò)阻塞的風(fēng)險(xiǎn);針對(duì)多用戶多MEC服務(wù)器的研究中,狀態(tài)空間和動(dòng)作空間呈指數(shù)增加,因此帶來(lái)的收斂緩慢問(wèn)題仍有待解決;并且現(xiàn)有研究大多使用二進(jìn)制卸載模式,卸載不靈活,且對(duì)歷史經(jīng)驗(yàn)重放組利用率低,從而導(dǎo)致學(xué)習(xí)效率低。

        基于上述問(wèn)題,提出了在災(zāi)害應(yīng)急場(chǎng)景下基于多智能體深度強(qiáng)化學(xué)習(xí)的任務(wù)卸載策略。卸載策略總結(jié)如下:a)策略從本地MEC出發(fā),將任務(wù)卸載比例和計(jì)算資源充足的MEC服務(wù)器進(jìn)行卸載;b)結(jié)合數(shù)據(jù)處理任務(wù)的大小和網(wǎng)絡(luò)環(huán)境,帶寬分配方案和卸載策略,滿足系統(tǒng)對(duì)時(shí)延和能耗的要求。

        本文在災(zāi)害應(yīng)急場(chǎng)景下構(gòu)建多異構(gòu)MEC服務(wù)器計(jì)算模型,考慮隨時(shí)隙變化的網(wǎng)絡(luò)狀態(tài),將系統(tǒng)優(yōu)化問(wèn)題建模為基于無(wú)模型的MADRL任務(wù)卸載模型;針對(duì)高維動(dòng)作空間引起的收斂緩慢問(wèn)題,提出自適應(yīng)混合差分進(jìn)化算法改進(jìn)DDPG的算法(adaptive differential evolution algorithm improved deep deterministic policy gradient,ADEDDPG),提高任務(wù)卸載效率,同時(shí)運(yùn)用優(yōu)先級(jí)經(jīng)驗(yàn)重放技術(shù)來(lái)加快網(wǎng)絡(luò)訓(xùn)練過(guò)程。

        1 系統(tǒng)模型和問(wèn)題描述

        1.1 系統(tǒng)模型

        災(zāi)害應(yīng)急場(chǎng)景下,WSN由監(jiān)控設(shè)備和多個(gè)數(shù)據(jù)傳感器組成。災(zāi)害沒(méi)有發(fā)生時(shí),WSN采集的數(shù)據(jù)較為平穩(wěn),將數(shù)據(jù)處理任務(wù)上傳至就近的MEC服務(wù)器處理;當(dāng)災(zāi)害發(fā)生時(shí),WSN采集的數(shù)據(jù)會(huì)出現(xiàn)劇烈波動(dòng),需要對(duì)WSN上傳的傳感器數(shù)據(jù)特征提取,對(duì)災(zāi)害進(jìn)行等級(jí)評(píng)判和高清視頻流進(jìn)行分析等,本地MEC服務(wù)器會(huì)出現(xiàn)計(jì)算壓力過(guò)大的情況。由此,本文運(yùn)用多異構(gòu)MEC服務(wù)器協(xié)作方式,完成災(zāi)害事件發(fā)生時(shí)的WSN數(shù)據(jù)處理任務(wù)。計(jì)算模型如圖1所示。

        設(shè)置WSN集合表示為N={1,2,…,n},n∈N,MEC服務(wù)器集合表示為M={1,2,…,m},m∈M。數(shù)據(jù)處理任務(wù)定義為Tk={Ik,F(xiàn)k,τmaxk},其中,Ik為任務(wù)數(shù)據(jù)大小,F(xiàn)k為計(jì)算任務(wù)所需資源,τmaxk為完成任務(wù)的最大延遲時(shí)間[19,20]。連續(xù)任務(wù)處理周期T={1,2,…}分為多個(gè)時(shí)隙,時(shí)隙的大小為T0,為突出災(zāi)害發(fā)生時(shí)WSN數(shù)據(jù)多跳的特點(diǎn),數(shù)據(jù)處理任務(wù)在每個(gè)時(shí)隙開(kāi)始時(shí)隨機(jī)生成。為提高任務(wù)卸載效率和卸載靈活性,假設(shè)數(shù)據(jù)處理任務(wù)可分割,卸載比例決策由參數(shù)γ決定,它表示將比例為γ的計(jì)算任務(wù)卸載到其他服務(wù)器。符號(hào)匯總?cè)绫?所示。

        災(zāi)害沒(méi)有發(fā)生時(shí),數(shù)據(jù)處理任務(wù)上傳至本地MEC服務(wù)器計(jì)算。本地的時(shí)延和能耗為

        其中: f-Lm是MEC服務(wù)器的計(jì)算能力;Km是MEC的設(shè)備相關(guān)系數(shù)。

        當(dāng)災(zāi)害發(fā)生時(shí),本地服務(wù)器計(jì)算壓力過(guò)大,將比例為γ的計(jì)算任務(wù)卸載到其他服務(wù)器上進(jìn)行計(jì)算,以下稱本地服務(wù)器為卸載用戶。假設(shè)MEC服務(wù)器之間的通信模式遵循正交頻分多址(orthogonal frequency division multiple access,OFDMA)[21~23]。假設(shè)MEC之間連接的宏基站的總帶寬被設(shè)置為Bi,可被分為E個(gè)子信道。假設(shè)每個(gè)時(shí)隙中MEC服務(wù)器之間的信道狀態(tài)是時(shí)變的,服從馬爾可夫分布,信道狀態(tài)可以建模為

        其中:Euclid ExtrahApe為路徑損耗系數(shù);Dm為MEC之間的距離;Pm是信道狀態(tài)預(yù)定義的轉(zhuǎn)移概率矩陣。

        例如,MEC之間的信道狀態(tài)為[64,128,192,256,512],假設(shè)當(dāng)前信道狀態(tài)hm(t)為192,則下一個(gè)時(shí)隙信道狀態(tài)hm(t+1)會(huì)以狀態(tài)轉(zhuǎn)移概率轉(zhuǎn)移到其他狀態(tài),如256,用這種方式模擬MEC環(huán)境中不斷變化的信道狀態(tài)[24]。

        由式(3)可以得到MEC之間的傳輸速率RMm(bps):

        其中:Bi為傳輸帶寬;β為帶寬分配比例;pn為傳輸功率;N0為高斯白噪聲。

        得到卸載用戶卸載任務(wù)到MEC的傳輸時(shí)延和能耗為

        計(jì)算時(shí)延和能耗表示為

        其中: fMm是MEC服務(wù)器分配給卸載用戶的計(jì)算資源。

        1.2 問(wèn)題描述

        當(dāng)災(zāi)害發(fā)生時(shí),需要對(duì)災(zāi)害作出迅速響應(yīng),對(duì)數(shù)據(jù)處理任務(wù)的計(jì)算速度具有實(shí)時(shí)性要求;同時(shí)考慮到成本問(wèn)題,災(zāi)害應(yīng)急環(huán)境下要求設(shè)備能長(zhǎng)期運(yùn)行,因此,需要兼顧時(shí)延和能耗要求,將系統(tǒng)的整體開(kāi)銷表示為時(shí)延和能耗的加權(quán)和。系統(tǒng)的整體時(shí)延和能耗可以表示為

        Ttotal=(1-γ)TLm+γ(TMTm+TMCm)(9)

        Etotal=(1-γ)ELm+γ(EMTm+EMCm)(10)

        于是可以得到系統(tǒng)的整體開(kāi)銷為

        Um=anTtotal+(1-an)Etotal(11)

        其中:an是時(shí)延和能耗之間的權(quán)重系數(shù)。

        為了高效利用系統(tǒng)信道資源和計(jì)算資源,降低系統(tǒng)的整體開(kāi)銷,將系統(tǒng)目標(biāo)轉(zhuǎn)換為系統(tǒng)整體開(kāi)銷最小化問(wèn)題,則系統(tǒng)優(yōu)化問(wèn)題表述為

        其中:c1是MEC計(jì)算資源和本地計(jì)算資源的約束;c2表示數(shù)據(jù)處理任務(wù)的時(shí)間必須小于允許的最大處理時(shí)延;c3為時(shí)延和能耗的權(quán)重約束;c4是關(guān)于任務(wù)卸載比例的約束;α是卸載的目標(biāo)服務(wù)器編號(hào);γ是任務(wù)分割的比例;β是帶寬分配比例。

        問(wèn)題式(12)是在卸載動(dòng)作作用下使得整體開(kāi)銷最小化的優(yōu)化問(wèn)題。在MEC環(huán)境中網(wǎng)絡(luò)信道狀態(tài)是時(shí)變的,而且在每個(gè)時(shí)隙產(chǎn)生的任務(wù)是隨機(jī)生成的,隨著卸載用戶數(shù)量的增加,式(12)的求解集合規(guī)模呈指數(shù)增加?,F(xiàn)有研究中較多使用DRL技術(shù)解決任務(wù)卸載問(wèn)題[13,17]。本文在DDPG算法框架下,對(duì)DDPG進(jìn)行改進(jìn),達(dá)到更好的卸載效果。

        2 基于MADRL學(xué)習(xí)的任務(wù)卸載策略

        傳統(tǒng)DDPG算法需要遍歷整個(gè)動(dòng)作空間,導(dǎo)致學(xué)習(xí)效率低,收斂速度緩慢。引入HDE對(duì)DDPG的動(dòng)作空間進(jìn)行探索,HDE的交叉和變異概率可以提高對(duì)動(dòng)作空間的探索效率,提高網(wǎng)絡(luò)訓(xùn)練速度,且HDE的適應(yīng)度函數(shù)對(duì)DDPG中的參與者網(wǎng)絡(luò)有矯正作用。經(jīng)驗(yàn)重放是DRL的核心技術(shù),智能體利用與環(huán)境不斷交互產(chǎn)生的經(jīng)驗(yàn)進(jìn)行學(xué)習(xí),高效利用經(jīng)驗(yàn)重放組是可以提高DRL算法的學(xué)習(xí)效率的。在傳統(tǒng)DDPG算法中,抽取經(jīng)驗(yàn)重放組去訓(xùn)練網(wǎng)絡(luò)的方法是隨機(jī)抽取,這忽略了不同經(jīng)驗(yàn)組的重要性。因此,為了提高對(duì)重放經(jīng)驗(yàn)組的重放組的利用率,加入了優(yōu)先級(jí)經(jīng)驗(yàn)重放技術(shù)。

        2.1 基于MADRL的任務(wù)卸載模型

        優(yōu)化式(12)取決于參數(shù)α、γ和β的確定。在災(zāi)害應(yīng)急場(chǎng)景中,當(dāng)災(zāi)害發(fā)生時(shí),WSN采集的數(shù)據(jù)是劇烈變化,信道狀態(tài)也隨時(shí)隙變化,即使本文可以從環(huán)境中獲取當(dāng)前狀態(tài),但下一狀態(tài)也是無(wú)法預(yù)測(cè)的。為了解決這一難題,本文將問(wèn)題式(12)建模為基于MADRL的任務(wù)卸載模型。卸載用戶被定為MADRL中的智能體代理,MADRL中狀態(tài)空間、動(dòng)作空間和獎(jiǎng)勵(lì)函數(shù)如下所示。

        1)狀態(tài)空間

        在每個(gè)時(shí)隙開(kāi)始時(shí),卸載用戶會(huì)接收到來(lái)自附近WSN的計(jì)算任務(wù),為了有效利用系統(tǒng)的計(jì)算資源和MEC環(huán)境中的信道資源,將狀態(tài)空間定義為

        St={TK,F(xiàn)LM,HM(t)}(13)

        其中:TK是時(shí)隙開(kāi)始時(shí)WSN的任務(wù)信息;FLM為當(dāng)前時(shí)隙下所有MEC的計(jì)算能力;HM(t)是當(dāng)前時(shí)隙下MEC之間的信道狀態(tài)。

        2)動(dòng)作空間

        為最大化系統(tǒng)預(yù)期長(zhǎng)期獎(jiǎng)勵(lì),根據(jù)任務(wù)屬性對(duì)帶寬資源合理分配,根據(jù)MEC集群計(jì)算資源選擇合適的卸載比例,將動(dòng)作空間定義為

        At={αm,Υm,βm}(14)

        其中:αm為所有智能體選擇的MEC服務(wù)器編號(hào)集合;Υm為智能體選擇的任務(wù)卸載比例;βm為帶寬分配比例。

        例如,當(dāng)總帶寬為100 MHz時(shí),如果智能體選擇動(dòng)作為[3,0.5,70],則表示智能體選擇將0.5比例的計(jì)算任務(wù)卸載到編號(hào)為3的MEC服務(wù)器上,且為其分配70 MHz的網(wǎng)絡(luò)帶寬資源。

        3)獎(jiǎng)勵(lì)函數(shù)

        優(yōu)化目標(biāo)是小化系統(tǒng)總體開(kāi)銷,而DRL的目標(biāo)是最大化預(yù)期長(zhǎng)期獎(jiǎng)勵(lì),假設(shè)WSN全部在本地服務(wù)器執(zhí)行,本地的整體開(kāi)銷可以表示為

        ULm=amTLm+(1-am)ELm(15)

        完全合作下的智能體獎(jiǎng)勵(lì)是一致的,將獎(jiǎng)勵(lì)函數(shù)定義為系統(tǒng)相對(duì)于本地卸載所節(jié)約的整體開(kāi)銷,因此,獎(jiǎng)勵(lì)函數(shù)可表示為

        2.2 基于MADRL的在線卸載算法

        DRL在任務(wù)卸載領(lǐng)域運(yùn)用廣泛,它在強(qiáng)化學(xué)習(xí)的基礎(chǔ)上使用深度神經(jīng)網(wǎng)絡(luò)擬合狀態(tài)價(jià)值函數(shù)和策略π,旨在通過(guò)深度學(xué)習(xí)來(lái)最大限度地提高預(yù)期長(zhǎng)期獎(jiǎng)勵(lì)。提出的算法DDPGHDE是在DDPG的基礎(chǔ)上改進(jìn)的。DDPGHDE算法框架如圖2所示。首先,智能體從MEC環(huán)境中獲取當(dāng)前狀態(tài)St;然后,智能體的參與者網(wǎng)絡(luò)根據(jù)獲取到的狀態(tài)St,以卸載策略π輸出卸載動(dòng)作At;接著,MEC環(huán)境根據(jù)卸載動(dòng)作At反饋即時(shí)獎(jiǎng)勵(lì)Rt;最后,評(píng)論家網(wǎng)絡(luò)對(duì)卸載動(dòng)作At打分,輸出為動(dòng)作狀態(tài)價(jià)值Q,同時(shí)收集經(jīng)驗(yàn)組(St,At,Rt,St+1),計(jì)算其優(yōu)先級(jí)后存放到重放內(nèi)存中,而參與者和評(píng)論家網(wǎng)絡(luò)的訓(xùn)練正是基于重放內(nèi)存中的經(jīng)驗(yàn)組。接下來(lái)對(duì)DDPGHDE算法的兩個(gè)重要部分進(jìn)行闡述。

        1)參與者—評(píng)論家網(wǎng)絡(luò)

        卸載策略π輸出為一個(gè)確定性動(dòng)作At,卸載策略π的目的是使得輸出的動(dòng)作At能最大化動(dòng)作狀態(tài)對(duì)價(jià)值Q。參與者網(wǎng)絡(luò)既是使用深度學(xué)習(xí)技術(shù)學(xué)習(xí)卸載策略π,卸載策略可以定義為映射:

        π:St→A(17)

        使用動(dòng)作狀態(tài)對(duì)價(jià)值Q評(píng)判動(dòng)作At的好壞,評(píng)論家網(wǎng)絡(luò)使用深度學(xué)習(xí)技術(shù)學(xué)習(xí)價(jià)值Q,評(píng)估狀態(tài)動(dòng)作對(duì)的預(yù)期長(zhǎng)期獎(jiǎng)勵(lì),用于修正策略π,使得策略網(wǎng)絡(luò)的決策越來(lái)越優(yōu)。動(dòng)作狀態(tài)對(duì)價(jià)值Q定義為映射:

        Q:(St,A)→R(18)

        接下來(lái),將(St,At,Rt,St+1)存儲(chǔ)在重放內(nèi)存Ω中。在每個(gè)訓(xùn)練回合,從重放內(nèi)存中選擇優(yōu)先級(jí)經(jīng)驗(yàn)重放組作為訓(xùn)練樣本,更新參與者網(wǎng)絡(luò)和評(píng)論家網(wǎng)絡(luò)中的參數(shù),最大化長(zhǎng)期獎(jiǎng)勵(lì)。參與者網(wǎng)絡(luò)和評(píng)論家網(wǎng)絡(luò)的更新方式與DDPG一樣,參與者網(wǎng)絡(luò)使用梯度上升法更新,評(píng)論家網(wǎng)絡(luò)使用(time differenceerror)TDerror的梯度下降法更新[25]。由于在線網(wǎng)絡(luò)參數(shù)變化快,輸出動(dòng)作不穩(wěn)定,加入目標(biāo)網(wǎng)絡(luò),使用軟更新的方式更新目標(biāo)網(wǎng)絡(luò),使得輸出動(dòng)作更加穩(wěn)定。

        2)ADE探索動(dòng)作空間

        在ADEDDPG訓(xùn)練初期,參與者網(wǎng)絡(luò)和評(píng)論家網(wǎng)絡(luò)訓(xùn)練不良好,這個(gè)時(shí)候參與者網(wǎng)絡(luò)輸出的動(dòng)作是不準(zhǔn)確的,環(huán)境回饋的獎(jiǎng)勵(lì)值也較低。ADE是一種啟發(fā)式算法,它具有啟發(fā)式算法強(qiáng)大的搜索能力[26]。將ADE運(yùn)用到參與者網(wǎng)絡(luò)和評(píng)論家網(wǎng)絡(luò)中,比較ADE探索后的動(dòng)作和參與者網(wǎng)絡(luò)輸出后的動(dòng)作的適應(yīng)度值,將適應(yīng)度值較高的輸入到評(píng)論家網(wǎng)絡(luò)。參與者輸出的動(dòng)作經(jīng)過(guò)ADE的探索后輸出的動(dòng)作更加準(zhǔn)確,這有利于評(píng)論家網(wǎng)絡(luò)的快速收斂,評(píng)論家網(wǎng)絡(luò)收斂后對(duì)參與者網(wǎng)絡(luò)有更好的指導(dǎo)效果,從而加速參與者網(wǎng)絡(luò)的收斂。ADE的探索過(guò)程如下:

        首先,參與網(wǎng)絡(luò)輸出動(dòng)作A與NP-1個(gè)隨機(jī)生成的卸載動(dòng)作組成ADE的初始群體,其中NP為種群規(guī)模,每個(gè)個(gè)體由α、γ和β三個(gè)變量組成。ADE的初始化定義為

        Xi=(xi,1,xi,2,xi,3,…,xi,NP-1)? i=1,2,3,…,NP-1(19)

        第i個(gè)個(gè)體的第j個(gè)值取值方式為

        xi,j=Lj_min+rand(0,1)(Lj_max-Lj_min)

        i=1,2,3,…,NP-1? ?j=1,2,3(20)

        其中:Lj_min和Lj_max是動(dòng)作變量的邊界條件,在這項(xiàng)工作中,考慮了10個(gè)MEC服務(wù)器協(xié)同計(jì)算任務(wù)。所以α的邊界條件分別為1個(gè)和10個(gè),γ的邊界條件是0~1,β的邊界條件為0~100。

        接下來(lái),對(duì)種群中的個(gè)體進(jìn)行變異和交叉操作,引導(dǎo)種群中的個(gè)體變得優(yōu)秀。在第g次迭代中,從種群中隨機(jī)抽取三個(gè)不同的個(gè)體,并從優(yōu)到劣排序?yàn)閤p1(g),xp2(g),xp3(g),它們的個(gè)體適應(yīng)度值分別為進(jìn)行變異操作:

        Hi(g)=Xp1(g)+F(Xp2(g)-Xp3(g))(21)

        其中:F是縮放因子,且是自適應(yīng)變化的。

        其中:FL為0.1;Fυ為0.8; f(x)是個(gè)體的適應(yīng)度函數(shù)。

        交叉操作為

        其中:cr是交叉概率,交叉概率也是自適應(yīng)變化的。

        其中: fmax和fmin分別是當(dāng)前種群中最差個(gè)體和最優(yōu)個(gè)體的適應(yīng)度值; f是當(dāng)前種群的適應(yīng)度平均值;crL和cru是cr的邊界條件。

        適應(yīng)度值的計(jì)算是衡量個(gè)體優(yōu)秀與否的標(biāo)準(zhǔn),ADE輸出動(dòng)作的適應(yīng)度值越高則表明個(gè)體越優(yōu)秀,獎(jiǎng)勵(lì)函數(shù)可以衡量適應(yīng)度值的大小,因此將適應(yīng)度函數(shù)定義為

        f(x)=Rt(25)

        最后,選擇適應(yīng)度值高的個(gè)體作為ADE的輸出。

        根據(jù)ADE的變異和交叉操作在動(dòng)作空間中引導(dǎo)種群,達(dá)到迭代次數(shù)為K后停止探索。

        在ADE的探索過(guò)程中,K值代表對(duì)動(dòng)作空間探索強(qiáng)度,當(dāng)網(wǎng)絡(luò)訓(xùn)練效果不良好時(shí),需要要求網(wǎng)絡(luò)去探索更多的可能性以不斷優(yōu)化網(wǎng)絡(luò)參數(shù)。為解決這一問(wèn)題,提出自適應(yīng)參數(shù)K調(diào)整策略。

        其中: fa是參與者網(wǎng)絡(luò)輸出動(dòng)作的適應(yīng)度值,它和當(dāng)前ADE種群平均適應(yīng)度值的差可以反映當(dāng)前網(wǎng)絡(luò)訓(xùn)練情況;φ(x)函數(shù)代表一個(gè)整數(shù)變化過(guò)程。當(dāng)參與者網(wǎng)絡(luò)輸出動(dòng)作的適應(yīng)度值大于ADE種群平均適應(yīng)度值到一定程度時(shí),認(rèn)為當(dāng)前網(wǎng)絡(luò)的訓(xùn)練情況良好,適當(dāng)減少迭代次數(shù)可以避免由于多余的探索導(dǎo)致的計(jì)算資源浪費(fèi)和迭代時(shí)間,使用參數(shù)Δ定量這種程度。同樣地,當(dāng)參與者網(wǎng)絡(luò)輸出動(dòng)作的適應(yīng)度值小于ADE種群平均適應(yīng)度值到一定程度后,這表明當(dāng)前網(wǎng)絡(luò)的訓(xùn)練情況差,需要增加迭代次數(shù)來(lái)探索更多優(yōu)秀的動(dòng)作。

        算法1 HDE動(dòng)作探索算法

        2.3 優(yōu)先級(jí)經(jīng)驗(yàn)重放技術(shù)

        經(jīng)驗(yàn)重放技術(shù)是DRL中的關(guān)鍵技術(shù),它使智能體記住并利用過(guò)去的經(jīng)驗(yàn)進(jìn)行學(xué)習(xí)。傳統(tǒng)的深度強(qiáng)化學(xué)習(xí)DDPG中,使用隨機(jī)抽樣的方式對(duì)重放經(jīng)驗(yàn)組抽取,忽略不同價(jià)值的經(jīng)驗(yàn)組對(duì)訓(xùn)練的重要性。因此使用優(yōu)先經(jīng)驗(yàn)重放(priority experience replay,PER)技術(shù)抽取重放經(jīng)驗(yàn)組。不同的經(jīng)驗(yàn)組有不同的重要性,重要性更高的經(jīng)驗(yàn)組以更高的概率被抽中參與訓(xùn)練。

        PER中優(yōu)先級(jí)的計(jì)算是核心問(wèn)題,從而根據(jù)優(yōu)先級(jí)計(jì)算出不同優(yōu)先級(jí)的重放概率。TDerror作為評(píng)估經(jīng)驗(yàn)優(yōu)先級(jí)的重要指標(biāo),TDerror絕對(duì)值較高時(shí)神經(jīng)網(wǎng)絡(luò)對(duì)動(dòng)作的真實(shí)價(jià)值估計(jì)并不準(zhǔn)確,給予較高的權(quán)重有助于神經(jīng)網(wǎng)絡(luò)減少錯(cuò)誤預(yù)測(cè)的概率;同時(shí)任務(wù)整體開(kāi)銷也是衡量網(wǎng)絡(luò)是否訓(xùn)練良好的重要指標(biāo),因此對(duì)優(yōu)先級(jí)的計(jì)算兼顧了TDerror絕對(duì)值和任務(wù)整體開(kāi)銷,定義災(zāi)害應(yīng)急系統(tǒng)下的優(yōu)先級(jí)機(jī)制。首先為經(jīng)驗(yàn)組打分:

        scoreφt=δ|δφt|+(1-δ)+(1-δ)z(t)φ(28)

        其中:δ是分?jǐn)?shù)控制參數(shù);|δφt|是TD誤差的絕對(duì)值;Z(t)φ是與任務(wù)整體開(kāi)銷有關(guān)的函數(shù)。

        得到式(20)后,將經(jīng)驗(yàn)組從小到大進(jìn)行排序,經(jīng)驗(yàn)組的序號(hào)為rank(φ)={1,2,3,…},根據(jù)序號(hào)定義抽樣值:

        根據(jù)抽樣值本文由下式可以得到抽樣概率:

        分?jǐn)?shù)越高的經(jīng)驗(yàn)組將會(huì)得到更高的抽樣概率,有效地運(yùn)用更有訓(xùn)練價(jià)值的重放經(jīng)驗(yàn)組,提高網(wǎng)絡(luò)的學(xué)習(xí)效率。

        算法2 基于深度強(qiáng)化學(xué)習(xí)的在線卸載算法(ADEDDPG)

        for 每個(gè)智能體m∈M do

        隨機(jī)初始化參與者網(wǎng)絡(luò)μ(s|θμm)和評(píng)論家網(wǎng)絡(luò)Q(s,a|QQm)

        初始化目標(biāo)網(wǎng)絡(luò)權(quán)重θμ′m←θμm,QQ′m←QQm

        初始化一個(gè)空的經(jīng)驗(yàn)重放內(nèi)存Ω

        end for

        while epoch

        重置多用戶MEC模型環(huán)境的模擬參數(shù)

        為每一個(gè)智能體m∈M隨機(jī)生成初始狀態(tài)Sm,1

        for 時(shí)隙T=1,2,…,Tmax do

        for每個(gè)智能體m∈M do

        根據(jù)當(dāng)前狀態(tài)選擇動(dòng)作At,計(jì)算獎(jiǎng)勵(lì)Rt

        ADE探索動(dòng)作空間,輸出動(dòng)作A*t,將A*t賦給At

        交叉操作收集元組(St,At,Rt,St+1),賦予優(yōu)先級(jí)后存入經(jīng)驗(yàn)重放緩沖區(qū)Ω

        抽取優(yōu)先級(jí)經(jīng)驗(yàn)組N*(St,At,Rt,St+1)

        更新參與者網(wǎng)絡(luò)和評(píng)論家網(wǎng)絡(luò)

        更新目標(biāo)網(wǎng)絡(luò):

        θμ′m=τθμm+(1-τ)θμ′m, QQ′m=τQQm+(1-τ)QQ′m

        end for

        end for

        end while

        3 結(jié)果

        3.1 仿真參數(shù)設(shè)置

        仿真基于Python 3.9和PyTorch平臺(tái),在VS Code軟件上運(yùn)行。仿真場(chǎng)景半徑為1 000 m的圓形區(qū),WSN隨機(jī)分布在該區(qū)域,WSN數(shù)目為50,MEC數(shù)目為10,假設(shè)所有MEC均可以覆蓋該區(qū)域,MEC計(jì)算能力在11~15 GHz中隨機(jī)生成,時(shí)間按t=1 ms劃分。

        對(duì)于深度神經(jīng)網(wǎng)絡(luò),每個(gè)智能體的參與者和評(píng)論家網(wǎng)絡(luò)由具有兩個(gè)隱藏層的四層全連接神經(jīng)網(wǎng)絡(luò)組成。兩個(gè)隱藏層的神經(jīng)元數(shù)目分別為400和300,神經(jīng)網(wǎng)絡(luò)激活函數(shù)使用ReLU函數(shù),而參與者網(wǎng)絡(luò)的輸出函數(shù)為sigmoid函數(shù)。目標(biāo)網(wǎng)絡(luò)的軟更新系數(shù)為τ=0.01,歷史經(jīng)驗(yàn)組內(nèi)存大小設(shè)置為Ω=3×1025。仿真參數(shù)如表2所示。

        3.2 收斂性能

        對(duì)本文算法ADEDDPG進(jìn)行仿真實(shí)驗(yàn),ADEDDPG的目標(biāo)是最大化系統(tǒng)整體的預(yù)期長(zhǎng)期獎(jiǎng)勵(lì),當(dāng)系統(tǒng)整體平均獎(jiǎng)勵(lì)趨于穩(wěn)定時(shí)可以判定網(wǎng)絡(luò)收斂,而學(xué)習(xí)率是影響DRL學(xué)習(xí)效率的超參數(shù),因此繪制不同學(xué)習(xí)率下參與者網(wǎng)絡(luò)和評(píng)論家網(wǎng)絡(luò)的平均獎(jiǎng)勵(lì)變化情況。圖3為ADEDDPG算法下不同學(xué)習(xí)率對(duì)平均獎(jiǎng)勵(lì)的影響。由于參與者網(wǎng)絡(luò)的更新依賴于評(píng)論家網(wǎng)絡(luò),參與者網(wǎng)絡(luò)學(xué)習(xí)率(A_LR)的設(shè)置偏低于評(píng)論家網(wǎng)絡(luò)學(xué)習(xí)率(C_LR)。當(dāng)訓(xùn)練次數(shù)達(dá)到500回合后得到使得系統(tǒng)平均獎(jiǎng)勵(lì)穩(wěn)定的學(xué)習(xí)率,此時(shí)A_LR為0.01,C_LR為0.05。在以下的仿真設(shè)置中使用相同的學(xué)習(xí)率。

        在訓(xùn)練過(guò)程中,參與者網(wǎng)絡(luò)和評(píng)論家網(wǎng)絡(luò)的收斂性能是互相影響的,為了進(jìn)一步驗(yàn)證參與者網(wǎng)絡(luò)和評(píng)論家網(wǎng)絡(luò)的收斂性,繪制了參與者網(wǎng)絡(luò)損失值變化曲線。圖4表示所提算法中參與者網(wǎng)絡(luò)損失值隨著訓(xùn)練回合變化的情況。通常認(rèn)定當(dāng)學(xué)習(xí)曲線變得平穩(wěn)時(shí)神經(jīng)網(wǎng)絡(luò)收斂。在ADEDDPG中參與者網(wǎng)絡(luò)的訓(xùn)練基于評(píng)論家網(wǎng)絡(luò)對(duì)其打分的精確性,評(píng)論家網(wǎng)絡(luò)則是根據(jù)環(huán)境回饋獎(jiǎng)勵(lì)以及目標(biāo)網(wǎng)絡(luò)對(duì)下一個(gè)狀態(tài)的輸出進(jìn)行指導(dǎo)學(xué)習(xí)。在網(wǎng)絡(luò)的訓(xùn)練初期,參與者網(wǎng)絡(luò)的收斂性能較差,波動(dòng)較大,這時(shí)網(wǎng)絡(luò)的訓(xùn)練正在經(jīng)歷大量的試錯(cuò)過(guò)程。當(dāng)訓(xùn)練回合達(dá)到500后,參與者網(wǎng)絡(luò)開(kāi)始趨于穩(wěn)定,但還存在微小范圍內(nèi)波動(dòng),這是由于時(shí)變的網(wǎng)絡(luò)環(huán)境決定的。

        3.3 模型優(yōu)化

        對(duì)DDPGHDE的優(yōu)化效果進(jìn)行分析,對(duì)ADEDDPG與DDPG和加入優(yōu)先級(jí)經(jīng)驗(yàn)重放技術(shù)方案(DDPGPER)進(jìn)行對(duì)比。圖5為三種方案下WSN為50時(shí),時(shí)延和能耗隨著訓(xùn)練回合增加的變化情況。ADEDDPG在一開(kāi)始時(shí)所需要的能耗和時(shí)延迅速下降,另外兩種方案也有一定降低,但對(duì)比其他兩個(gè)方案均表現(xiàn)出快速的收斂速度。對(duì)于所有方案,總的系統(tǒng)開(kāi)銷隨著訓(xùn)練次數(shù)增加而降低,因?yàn)殡S著訓(xùn)練回合增加,任務(wù)被有效地分配到不同的MEC上,系統(tǒng)的資源利用率得到提高。ADEDDPG所需的能耗和時(shí)延在一開(kāi)始就迅速下降,這得益于ADE算法強(qiáng)大的搜索能力,它可以迅速找到能使得平均獎(jiǎng)勵(lì)最大的動(dòng)作。

        3.4 性能對(duì)比

        為驗(yàn)證本文方案的有效性,使用ADEDDPG和以下幾個(gè)方案進(jìn)行仿真對(duì)比,分別為本地MEC執(zhí)行、隨機(jī)分配執(zhí)行、DDPG、NoiseDDPG。在Lakew等人[18]的研究中,在動(dòng)作的輸出后加入噪聲探索策略,這是解決DDPG由高維動(dòng)作空間導(dǎo)致收斂緩慢問(wèn)題典型的方案,因此將NoiseDDPG作為比較方案之一。首先分析WSN數(shù)目對(duì)時(shí)延和能耗的影響。圖6給出WSN為10~50的情況下,不同方案對(duì)能耗和時(shí)延的影響。MEC方案和隨機(jī)卸載方案產(chǎn)生的時(shí)延和能耗隨著WSN數(shù)目增加所消耗的時(shí)延和能耗明顯提升。而DDPG、NoiseDDPG和DDPG在WSN數(shù)目較低時(shí)消耗的時(shí)延和能耗相差不大,因?yàn)閃SN數(shù)目低,產(chǎn)生的計(jì)算任務(wù)較少,MEC能夠有充足的計(jì)算能力。隨著WSN數(shù)目增加,三種方案相比于隨機(jī)和本地計(jì)算節(jié)約了更多的時(shí)延和能耗。其中ADEDDPG性能表現(xiàn)最好,DDPG效果最差。這驗(yàn)證了本文算法ADEDDPG的有效性。

        此外,為了驗(yàn)證對(duì)DDPG改進(jìn)后的算法ADEDDPG的收斂速度,繪制了對(duì)比方案和ADEDDPG的整體開(kāi)銷隨訓(xùn)練回合的變化情況,如圖7所示。任務(wù)全部在本地MEC服務(wù)器計(jì)算時(shí)的總體開(kāi)銷,基本上不會(huì)發(fā)生太大的改變,但是所花費(fèi)的系統(tǒng)開(kāi)銷更多。而隨機(jī)卸載方案表現(xiàn)出較大的波動(dòng)性,這是因?yàn)殡S機(jī)卸載方式下沒(méi)有考慮卸載對(duì)象資源情況,如果卸載對(duì)象有較為充足的計(jì)算資源,那么表現(xiàn)的整體花銷比本地MEC更低;相反,如果卸載對(duì)象自身算力不足,那么不僅不能起到較好的效果,反而會(huì)造成網(wǎng)絡(luò)堵塞,產(chǎn)生更多的時(shí)延和能耗。NoiseDDPG算法在收斂情況和最終消耗的整體開(kāi)銷相比于DDPG算法有了一定的提升,但比ADEDDPG差。雖然NoiseDDPG加入了噪聲探索,但它無(wú)法避免大量的訓(xùn)練。而ADEDDPG在網(wǎng)絡(luò)訓(xùn)練初期就可以通過(guò)ADE的探索和交叉探索到更多的動(dòng)作,并使用適應(yīng)度函數(shù)選擇出更好的動(dòng)作個(gè)體。優(yōu)秀的個(gè)體輸入到評(píng)論家網(wǎng)絡(luò)有助于評(píng)論家網(wǎng)絡(luò)快速學(xué)習(xí)并收斂,當(dāng)評(píng)論家網(wǎng)絡(luò)收斂后對(duì)參與者網(wǎng)絡(luò)有更好的指導(dǎo)效果,到達(dá)整個(gè)網(wǎng)絡(luò)快速收斂的效果。當(dāng)網(wǎng)絡(luò)訓(xùn)練良好后,ADE對(duì)參與者網(wǎng)絡(luò)的輸出有著糾正作用,因?yàn)閰⑴c者網(wǎng)絡(luò)的輸出動(dòng)作需要與ADE輸出的對(duì)比后才能作為真正的輸出動(dòng)作,所定義的適應(yīng)度函數(shù)保證了每一個(gè)真正輸出動(dòng)作的優(yōu)秀。仿真表明,ADEDDPG相比于本地MEC、隨機(jī)卸載、NoiseDDPG分別節(jié)約了約61.8%、55%、26%,35%的整體開(kāi)銷。

        為了直觀了解ADEDDPG方案的效果,本文給出了經(jīng)過(guò)ADEDDPG卸載前后的對(duì)比情景圖。圖8給出使用ADEDDPG卸載前后MEC服務(wù)器計(jì)算壓力的對(duì)比。當(dāng)某個(gè)監(jiān)測(cè)區(qū)域發(fā)生自然災(zāi)害后,數(shù)據(jù)傳感器會(huì)發(fā)生劇烈波動(dòng),同時(shí)需要對(duì)上傳的高清視頻進(jìn)行分析。因此,本地服務(wù)器計(jì)算資源出現(xiàn)不足的情況,計(jì)算壓力增大。將本地服務(wù)器的任務(wù)卸載到MEC服務(wù)器集群后,有效利用其他MEC服務(wù)器的空閑的計(jì)算資源,同時(shí)也降低本地MEC服務(wù)器的計(jì)算壓力,不僅降低任務(wù)處理的延時(shí)和能耗,還提高了系統(tǒng)資源的利用率。

        4 結(jié)束語(yǔ)

        本文策略將任務(wù)卸載運(yùn)用到災(zāi)害應(yīng)急場(chǎng)景下,做了以下工作:a)將該場(chǎng)景下的計(jì)算任務(wù)卸載到本地或不同計(jì)算能力的MEC服務(wù)器上進(jìn)行計(jì)算,提高了災(zāi)后應(yīng)急反應(yīng)的速度;b)將該任務(wù)卸載問(wèn)題建模為多智能體深度強(qiáng)化學(xué)習(xí)問(wèn)題,使用自適應(yīng)差分進(jìn)化算法改進(jìn)傳統(tǒng)深度強(qiáng)化學(xué)習(xí)DDPG中對(duì)動(dòng)作空間的探索過(guò)程,提高了系統(tǒng)對(duì)時(shí)變的MEC網(wǎng)絡(luò)環(huán)境的適應(yīng)性;c)加入優(yōu)先級(jí)經(jīng)驗(yàn)重放技術(shù)對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,提高了對(duì)歷史經(jīng)驗(yàn)組的利用率。仿真結(jié)果表明,本文算法在收斂速度和整體開(kāi)銷節(jié)約了35%。

        在后續(xù)研究中,在算法方面,將會(huì)針對(duì)DDPG算法中高估偏差的問(wèn)題,提出有效的解決方案,進(jìn)一步提高ADEDDPG算法的準(zhǔn)確性。在災(zāi)害應(yīng)急場(chǎng)景建模方面,將會(huì)考慮當(dāng)災(zāi)害發(fā)生時(shí)對(duì)WSN造成破壞后產(chǎn)生的影響,使得本文算法更適應(yīng)災(zāi)害應(yīng)急場(chǎng)景。

        參考文獻(xiàn):

        [1]Joshi A,Grover J,Kanungo D P,et al. Edge assisted reliable landslide early warning system [C]// Proc of the 16th IEEE India Council International Conference. Piscataway,NJ: IEEE Press,2019: 1-4.

        [2]王付宇,王欣蕊. 突發(fā)自然災(zāi)害下的兩階段多目標(biāo)應(yīng)急物資中心選址問(wèn)題研究 [J/OL]. 安全與環(huán)境學(xué)報(bào).(2023-03-17). https://doi.org/10.13637/j.issn.1009-6094.2023.2782. (Wang Fuyu,Wang Xinrui. A study on the siting of twostage multiobjective emergency material centers under sudden natural disasters [J/OL]. Journal of Safety and Environment.(2023-03-17). https://doi.org/10.13637/j.issn.1009-6094.2023.2782.

        [3]揣小明,杜樂(lè)樂(lè),翟穎超. 基于應(yīng)急管理全過(guò)程均衡理論的城市災(zāi)害應(yīng)急能力評(píng)價(jià) [J]. 資源開(kāi)發(fā)與市場(chǎng),2023,39(4):385-391. (Chuai Xiaoming,Du Lele,Zhai Yingchao. Evaluation of urban disaster emergency response capacity based on the theory of whole process equilibrium in emergency management [J]. Resource Development & Market,2023,39(4):385-391.)

        [4]Lee M F R,Chien T W. Artificial intelligence and Internet of Things for robotic disaster response [C]// Proc of International Conference on Advanced Robotics and Intelligent Systems. Piscataway,NJ: IEEE Press,2020: 1-6.

        [5]Bourechak A,Zedadra O,Kouahla M N,et al. At the confluence of artificial intelligence and edge computing in IoTbased applications: a review and new perspectives [J]. Sensors,2023,23(3): 1639.

        [6]高娜. 淺談汶川地震后我國(guó)地震應(yīng)急救援能力進(jìn)展 [J]. 中國(guó)應(yīng)急救援,2018,69(3): 20-24. (Gao Na. On the progress of Chinas earthquake emergency rescue capacity after the Wenchuan earthquake [J]. China Emergency Rescue,2018,69(3): 20-24.)

        [7]Keivanpour S. Internet of Things in optimizing emergency logistics of wildfire: a review and application perspective in Canada [C]// Proc of International Conference on Electrical,Computer and Energy Technologies. Piscataway,NJ: IEEE Press,2021: 1-6.

        [8]王子涵,王亮亮,茆啟凡. 面向MEC的V2G輕量級(jí)分層認(rèn)證方案 [J]. 計(jì)算機(jī)應(yīng)用研究,2023,40(7):2162-2169,2178. (Wang Zihan,Wang Liangliang,Mao Qifan. V2G lightweight layered authentication scheme for MEC [J]. Application Research of Computers,2023,40(7):2162-2169,2178.)

        [9]Luo Ruikun,Jin hai,He Qiang,et al. Costeffective edge server network design in mobile edge computing environment [J]. Sustainable Computing Repertoire,2022,7(4): 839-850.

        [10]Xu Jianwen,Kaoru O,Dong Mianxiong. Big data on the fly: UAV-mounted mobile edge computing for disaster management [J]. Trans on Network Science and Engineering,2020,7(4): 2620-2630.

        [11]Guo Min, Huang Xing, Wang Wei, et al. HAGP: a heuristic algorithm based on greedy policy for task offloading with reliability of MDs in MEC of the industrial Internet[J].Sensors,2021,21(10): 3513.

        [12]Yong Dongping,Liu Ran,Jia Xiaolin,et al. Joint optimization of multiuser partial offloading strategy and resource allocation strategy in D2DEnabled MEC [J]. Sensors,2023,23(5): 2565.

        [13]Wu Zhiwei,Yang Zilin,Yang Chao,et al. Joint deployment and trajectory optimization in UAVassisted vehicular edge computing networks [J]. Communications and Networks,2022,24(1): 47-58.

        [14]Yu Shuai,Chen Xu,Zhou Zhi,et al. When deep reinforcement learning meets federated learning: intelligent multitimescale resource management for multiaccess edge computing in 5G ultradense network [J]. Internet of Things,2021,8(4): 2238-2251.

        [15]Xue Jianbin,Wu Qingqing,Zhang Haijun. Cost optimization of UAVMEC network calculation offloading: a multiagent reinforcement learning method [J]. Ad hoc Network,2022,136: 102981.

        [16]Chen Zhao,Wang Xiaodong. Decentralized computation offloading for multiuser mobile edge computing: a deep reinforcement learning approach [J]. Wireless Communication and Network,2020,1: 1687-1472.

        [17]Zhang Xiangjun,Wu Weiguo,Liu Song,et al. An efficient computation offloading and resource allocation algorithm in RIS empowered MEC [J]. Computer Communications,2023,197: 113-123.

        [18]Lakew D S,Tuong V D,Dao N N,et al. Adaptive partial offloading and resource harmonization in wireless edge computingassisted IoE networks [J]. Trans on Network Science and Engineering,2022,9(5): 3028-3044.

        [19]Lu Haodong,He Xiaoming,Du Miao,et al. Edge QoE: computation offloading with deep reinforcement learning for Internet of Things [J]. Internet of Things,2020,7(10): 9255-9265.

        [20]Huang Yanyun,Wang Pichung. Computation offloading and userclustering game in multichannel cellular networks for mobile edge computing [J]. Sensors,2023,23(3): 1155.

        [21]Liu Song,Yang Shiyuan,Zhang Hanze,et al. A federated learning and deep reinforcement learningbased method with two types of agents for computation offload [J]. Sensors,2023,23(3): 2243.

        [22]You Changsheng,Huang Kaibin,Chae H,et al. Energyefficient resource allocation for mobileedge computation offloading [J]. IEEE Trans on Wireless Communications,2017,16(3): 1397-1411.

        [23]Kang Ling,Wang Yi,Hu Yanjun,et al. JUTAR: joint userassociation,taskpartition,and resourceallocation algorithm for MEC networks [J]. Sensors,2023,23(3): 1601.

        [24]Gao Zhen,Yang Lei,Dai Yu. Fast adaptive task offloading and resource allocation via multiagent reinforcement learning in heterogeneous vehicular fog computing[J].Internet of Things,2023,10(8):6818-6835.

        [25]Luo Quyuan,Luan L H,Shi Weisong,et al. Deep reinforcement learning based computation offloading and trajectory planning for MultiUAV cooperative target search [J]. Selected Areas in Communications,2023,41: 504-520.

        [26]Jin Zilong,Zhang Chengbo,Jin Yuanfeng,et al. A resource allocation scheme for joint optimizing energy consumption and delay in collaborative edge computingbased industrial IoT[J]. Trans on Industrial Informatics,2022,18(9): 6236-6243.

        [27]Chen Yingqun,Han Shaodong,Chen Guihong,et al. A deep reinforcement learningbased wireless body area network offloading optimization strategy for healthcare services [J]. Health Information Science and Systems,2023,11 article No.8.

        女人和拘做受全程看视频| 啪啪视频免费看一区二区| 日本一区二区三区一级片| 又硬又粗进去好爽免费| 天天天天躁天天爱天天碰| 2022Av天堂在线无码| 亚洲麻豆av一区二区| 国产一区二区三区三区四区精品| 巨茎中出肉欲人妻在线视频| 97色伦图片97综合影院久久| 国产免费激情小视频在线观看| 国产高清精品一区二区| 色天使综合婷婷国产日韩av| 日韩AV不卡一区二区三区无码| 少妇一级aa一区二区三区片| 华人在线视频精品在线| 亚洲精品无码久久久影院相关影片| 日韩欧美亚洲综合久久影院d3| 91久久精品国产性色tv| av免费不卡一区二区| 精品人妻中文无码av在线| 99ri国产在线观看| 国产午夜精品av一区二区三| 亚洲中文字幕日产无码| 好大好深好猛好爽视频免费| 欧美精品日韩一区二区三区| 一区视频免费观看播放| 亚洲婷婷五月综合狠狠爱| 国产日韩网站| 午夜香蕉av一区二区三区| 久久精品国产91精品亚洲| 无码中文字幕日韩专区视频| 国产一区二区丰满熟女人妻| 日日噜噜噜夜夜狠狠久久蜜桃 | 亚洲在战AV极品无码| 久久综合精品国产丝袜长腿| 国产精品∧v在线观看| 男女一级毛片免费视频看| 中文字幕一区二区网址| 无码中文字幕人妻在线一区| 欧美巨大xxxx做受l|