亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于DDPG的邊云協(xié)同計(jì)算卸載方法

2024-05-20 00:00:00徐煒鵬李英李建波

青島大學(xué)學(xué)報(bào)(自然科學(xué)版) 2024年1期

關(guān)鍵詞：用戶

摘要：

移動(dòng)設(shè)備的容量有限以及傳統(tǒng)卸載算法僅考慮移動(dòng)設(shè)備和邊緣服務(wù)器計(jì)算資源，使單獨(dú)的邊緣計(jì)算面臨資源有限和成本高的問題。為此，將云計(jì)算（Cloud Computing）、邊緣計(jì)算（Edge Computing）與深度確定策略性梯度算法（Deep Deterministic Policy Gradient，DDPG）相結(jié)合，提出了一種基于DDPG的邊云協(xié)同計(jì)算卸載方法（DDPG-ECC）。將時(shí)延和能耗作為優(yōu)化目標(biāo)，利用邊緣服務(wù)器和云服務(wù)器之間的協(xié)作，最小化計(jì)算卸載系統(tǒng)的時(shí)延和能耗，實(shí)現(xiàn)了計(jì)算卸載的優(yōu)化分配。仿真結(jié)果表明，DDPG-ECC性能良好，對(duì)于不同的工作負(fù)載具有很好的適應(yīng)性和泛化能力。

關(guān)鍵詞：

邊緣計(jì)算；邊云協(xié)同；計(jì)算卸載

中圖分類號(hào)：

TP391.7

文獻(xiàn)標(biāo)志碼：A

收稿日期：2023-05-19

基金項(xiàng)目：

國(guó)家自然科學(xué)基金（批準(zhǔn)號(hào)：61802216）資助。

通信作者：

李英，女，博士，教授，主要研究方向?yàn)閳D像/視頻處理、機(jī)器學(xué)習(xí)。E-mail：yingli2016@qdu.edu.cn

隨著超高清視頻流分析、智能駕駛，虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)、人臉識(shí)別等計(jì)算密集型移動(dòng)應(yīng)用的飛速發(fā)展，移動(dòng)用戶設(shè)備接入網(wǎng)絡(luò)時(shí)將會(huì)產(chǎn)生大量計(jì)算密集型任務(wù)需求，這類計(jì)算任務(wù)通常需要依賴高可靠、低時(shí)延的數(shù)據(jù)實(shí)時(shí)處理能力來保障移動(dòng)應(yīng)用服務(wù)的正常運(yùn)行。然而，用戶設(shè)備計(jì)算資源和電池容量等性能有限，盡管可通過移動(dòng)網(wǎng)絡(luò)將計(jì)算卸載到云服務(wù)器［1］，但云服務(wù)器與用戶設(shè)備之間的空間距離較遠(yuǎn)，網(wǎng)絡(luò)容量限制與實(shí)時(shí)傳輸壓力可能導(dǎo)致較大的傳輸延遲和能耗［2］，影響用戶的體驗(yàn)。為了減少回程鏈路延遲，提出一種新的計(jì)算范式，即移動(dòng)邊緣計(jì)算（Mobile Edge Computing，MEC）［3］，MEC將云計(jì)算資源和服務(wù)遷移到更靠近用戶的位置，有效降低通信延遲和能耗［4］。近幾年，移動(dòng)邊緣計(jì)算的任務(wù)卸載問題一直是研究熱點(diǎn)，但如何有效地分配移動(dòng)設(shè)備和邊緣服務(wù)器之間的計(jì)算資源未能有效解決［5-7］，為解決計(jì)算卸載問題，相關(guān)人員深入研究了傳統(tǒng)的線性規(guī)劃和博弈論方法［8-10］。然而，上述方法通常假定系統(tǒng)環(huán)境為確定，但實(shí)際是動(dòng)態(tài)平衡。其次，傳統(tǒng)方法往往僅尋求系統(tǒng)的單一最優(yōu)解，而系統(tǒng)真正需要的是長(zhǎng)期收益優(yōu)化。隨著計(jì)算機(jī)技術(shù)的發(fā)展，深度強(qiáng)化學(xué)習(xí)（Deep Reinforcement Learning，DRL）成為解決邊緣計(jì)算問題的有效措施［11］。DRL使用馬爾可夫決策過程（Markov Decision Process，MDP）框架，根據(jù)狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)定義智能代理與環(huán)境之間的交互，從而達(dá)到尋求最優(yōu)解的過程［12-13］?；谏疃萉網(wǎng)絡(luò)（Deep Q-Network，DQN）［14-15］MEC環(huán)境下的多任務(wù)卸載和資源分配算法將混合整數(shù)非線性規(guī)劃轉(zhuǎn)變?yōu)橐粋€(gè)RL問題，找到了更優(yōu)的解決方案［16］?；谏疃却_定性策略梯度（Deep Deterministic Policy Gradient，DDPG）的強(qiáng)化學(xué)習(xí)（Reinforcement Learning，RL）計(jì)算卸載算法旨在不可控的動(dòng)態(tài)環(huán)境下獲得最優(yōu)的計(jì)算卸載策略［17］，利用RL技術(shù)將任務(wù)從用戶動(dòng)態(tài)卸載到邊緣云，以減少用戶感知到的整體延遲和用戶設(shè)備上的能源使用［18］。本文提出了一種基于深度確定策略性梯度（Deep Deterministic Policy Gradient， DDPG）的邊云協(xié)同計(jì)算卸載方法（DDPG-ECC），以解決邊云協(xié)同計(jì)算卸載場(chǎng)景中的混合決策問題，并且和基于DQN的計(jì)算卸載方案相對(duì)比，以驗(yàn)證DDPG-ECC的性能。

1 邊云協(xié)同計(jì)算卸載模型構(gòu)建

1.1 計(jì)算卸載架構(gòu)

本文構(gòu)建的邊云協(xié)同計(jì)算卸載系統(tǒng)模型如圖1所示，由用戶、MEC服務(wù)器、云服務(wù)器三部分組成。用戶生成不同的計(jì)算需求，以實(shí)時(shí)或非實(shí)時(shí)的方式請(qǐng)求MEC服務(wù)器卸載其過載的計(jì)算任務(wù)。MEC服務(wù)器有一定的計(jì)算和存儲(chǔ)資源，可以執(zhí)行計(jì)算卸載任務(wù)。當(dāng)任務(wù)過載時(shí)，MEC也可將任務(wù)上傳到云服務(wù)器執(zhí)行，已確保不超過任務(wù)的最大時(shí)延。云服務(wù)器擁有巨大的計(jì)算資源，輔助MEC服務(wù)器執(zhí)行計(jì)算任務(wù)。假設(shè)MEC服務(wù)器和云服務(wù)器可以向所有用戶設(shè)備提供通信和計(jì)算服務(wù)，該卸載系統(tǒng)通過邊云協(xié)同降低卸載能耗，同時(shí)為用戶提供相對(duì)低時(shí)延、高計(jì)算能力的服務(wù)。

假定系統(tǒng)中用戶產(chǎn)生的計(jì)算任務(wù)集用N=1，2，…，n，…，N表示。令Φn，t=lt;Dn，t，Xn，t，Tn，t，Tmaxn，tgt;描述時(shí)隙t的計(jì)算任務(wù)n，n∈N，t∈T，Dn，t表示任務(wù)輸入數(shù)據(jù)大小（bit），Xn，t表示計(jì)算每比特的CPU循環(huán)次數(shù)（cycle/bit），可視為任務(wù)工作負(fù)載/強(qiáng)度的度量，Tmaxn，t表示可容忍的最大延遲（ms），Dn，tXn，t為該計(jì)算任務(wù)所需的CPU周期數(shù)，即完成任務(wù)所需的計(jì)算資源量?？紤]到每個(gè)MEC服務(wù)器的計(jì)算能力，采用二進(jìn)制卸載方案，即每個(gè)任務(wù)可以在MEC服務(wù)器執(zhí)行，也可以卸載到云服務(wù)器，以確保每個(gè)計(jì)算任務(wù)可以在最大時(shí)間允許Tmaxn，t內(nèi)處理完成。令o=（on，t）表示與MEC關(guān)聯(lián)的用戶的計(jì)算任務(wù)n的卸載決策，即on，t=0表示任務(wù)在MEC上執(zhí)行，on，t=1表示任務(wù)卸載至云服務(wù)器執(zhí)行。

1.2 通信模型

為了滿足計(jì)算需求，用戶通過無(wú)線信道將計(jì)算任務(wù)的卸載請(qǐng)求發(fā)送至MEC服務(wù)器，服務(wù)器根據(jù)當(dāng)前狀態(tài)決定任務(wù)是在MEC服務(wù)器執(zhí)行還是上傳至云服務(wù)器完成。假定Pmecn，t，hmecn，t，n∈N分別表示時(shí)隙t任務(wù)n從用戶到MEC的傳輸功率和時(shí)隙t任務(wù)n從用戶到MEC的無(wú)線信道增益，考慮路徑損耗和陰影衰減，hmecn，t定義為

hmecn，t=α0dismecn，t2（1）

其中，α0表示參考距離1 m處的信道增益，dismecn，t表示時(shí)隙t任務(wù)n到MEC服務(wù)器的距離。

同理，時(shí)隙t任務(wù)n從MEC服務(wù)器到云服務(wù)器（上標(biāo)C表示）的信道增益可定義為

hcn，t=α0discn，t2（2）

其中，discn，t表示時(shí)隙tMEC服務(wù)器到云服務(wù)器的距離。

因此，任務(wù)n從用戶到MEC的傳輸速率為

Rmecn，t=Bmectlog2（1+Pmecn，thmecn，tσ2+∑n∈N，j≠nPmecj，thmecj，t）（3）

其中，σ2為高斯白噪聲功率，Bmect是MEC服務(wù)器分配的無(wú)線信道帶寬。

同理，任務(wù)n從MEC到云服務(wù)器傳輸速率為

Rcn，t=Bctlog2（1+Pcn，thcn，tσ2+∑n∈Non，tPcn，thcn，t）（4）

其中，Pcn，t和hcn，t分別表示云服務(wù)器與MEC的傳輸功率和信道增益，Bct是云服務(wù)器分配的信道帶寬。

1.3 時(shí)延模型

任務(wù)從生成到完成的總延遲包括任務(wù)上傳時(shí)間、任務(wù)計(jì)算時(shí)間，結(jié)果返回時(shí)間，分別從MEC服務(wù)器和云服務(wù)器兩個(gè)部分討論。

假定在時(shí)隙t用戶的計(jì)算任務(wù)n在其關(guān)聯(lián)的MEC服務(wù)器執(zhí)行并將結(jié)果返回給設(shè)備，此時(shí)定義傳輸時(shí)間為

Ttran，t=Dn，tRmecn，t（5）

任務(wù)n在MEC服務(wù)器的計(jì)算執(zhí)行時(shí)間為

Texen=Dn，tXn，tfmect（6）

其中，fmect為MEC服務(wù)器在時(shí)隙t的計(jì)算能力。在這種情況下，假設(shè)CPU周期數(shù)在時(shí)隙t的計(jì)算過程中是恒定的。由于計(jì)算結(jié)果非常小，本文忽略了計(jì)算結(jié)果返回的時(shí)間。因此，MEC服務(wù)器執(zhí)行計(jì)算任務(wù)n的時(shí)延包括用戶上傳任務(wù)至MEC服務(wù)器的傳輸時(shí)間和MEC服務(wù)器計(jì)算任務(wù)的時(shí)間，即

Tmecn，t=Dn，tRmecn，t+Dn，tXn，tfmect（7）

如果MEC服務(wù)器的任務(wù)過載，任務(wù)將從MEC服務(wù)器上傳至云服務(wù)器，云服務(wù)器執(zhí)行計(jì)算任務(wù)n的時(shí)延包括用戶上傳任務(wù)至MEC服務(wù)器的傳輸時(shí)間、MEC服務(wù)器上傳任務(wù)到云服務(wù)器的傳輸時(shí)間和云服務(wù)器計(jì)算任務(wù)的時(shí)間

Tcn=Dn，tRmecn，t+Dn，tRcn，t+Dn，tXn，tfct（8）

其中，fct為云服務(wù)器的計(jì)算能力。

至此，完成與MEC服務(wù)器關(guān)聯(lián)的用戶計(jì)算任務(wù)的延遲為

Tt=∑n∈N［（1-on，t）Tmecn，t+on，tTcn，t］（9）

1.4 能耗模型

在邊云協(xié)同計(jì)算卸載模型中，能耗主要包括完成任務(wù)的計(jì)算能耗和數(shù)據(jù)傳輸過程的傳輸能耗。現(xiàn)從任務(wù)卸載到MEC服務(wù)器執(zhí)行和卸載到云服務(wù)器執(zhí)行兩個(gè)方面分析。

任務(wù)卸載到MEC服務(wù)器執(zhí)行時(shí)，計(jì)算任務(wù)n的能耗包括用戶上傳任務(wù)至MEC服務(wù)器的傳輸能耗和MEC服務(wù)器的計(jì)算能耗，此時(shí)，任務(wù)能耗定義為

Emecn，t=Pn，tTtran，t+κfmect3Texen，t=Pmecn，tDn，tRmecn，t+κfmect2Dn，tXn，t（10）

MEC過載時(shí)，計(jì)算任務(wù)n上傳至云服務(wù)器執(zhí)行，計(jì)算任務(wù)n的能耗包括用戶上傳任務(wù)至MEC服務(wù)器的傳輸能耗，MEC服務(wù)器上傳任務(wù)到云服務(wù)器的傳輸能耗和云服務(wù)器的計(jì)算能耗，此時(shí)任務(wù)能耗定義為

Ecn，t=Pcn，tDn，tRcn，t+Pmecn，tDn，tRmecn，t+κfct2Dn，tXn，t（11）

其中，κ表示MEC服務(wù)器處CPU的有效開關(guān)電容［19］。根據(jù)上述定義，完成與MEC服務(wù)器關(guān)聯(lián)的用戶計(jì)算任務(wù)的能耗為

Et=∑n∈N［1-on，tEmecn，t+on，tEcn，t］（12）

1.5 問題定義

在邊云協(xié)同計(jì)算卸載模型中，能耗和時(shí)延是評(píng)估計(jì)算卸載性能的重要指標(biāo)。因此，根據(jù)式（9）和（12），完成與MEC 服務(wù)器關(guān)聯(lián)的用戶計(jì)算任務(wù)的成本為

Ct=λ1Et+（1-λ1）λ2Tt（13）

其中，λ1（0lt;λ1lt;1）是權(quán)重因子，計(jì)算成本可以通過調(diào)整權(quán)重來滿足用戶計(jì)算任務(wù)的需求，λ2是映射因子，以確保目標(biāo)函數(shù)處于同一水平。

為了降低能耗和時(shí)延，在滿足任務(wù)時(shí)延條件下最小化MEC服務(wù)器成本的目標(biāo)為

minon，t∑t∈TCt（14）

s.t. on，t∈0，1，1-on，tTmecn，t≤Tmaxn，t，on，tTcn，t≤Tmaxn，t

其中，n∈N，t∈T，式（14）為整數(shù)優(yōu)化問題且包含多個(gè)約束條件，難以直接求解，因此，本文采用基于DDPG的深度強(qiáng)化學(xué)習(xí)方法求解。

2 基于DDPG的算法設(shè)計(jì)

將計(jì)算卸載系統(tǒng)的最優(yōu)化問題轉(zhuǎn)化為馬爾科夫博弈（MDP），定義狀態(tài)空間、動(dòng)作空間和RL獎(jiǎng)勵(lì)，然后，設(shè)計(jì)基于DDPG的計(jì)算卸載優(yōu)化算法，定義Actor當(dāng)前網(wǎng)絡(luò)、Actor目標(biāo)網(wǎng)絡(luò)、Critic當(dāng)前網(wǎng)絡(luò)和Critic目標(biāo)網(wǎng)絡(luò)。馬爾科夫決策過程拓展到多智能系統(tǒng)中，稱為馬爾科夫博弈也稱為隨機(jī)博弈，本文定義了其狀態(tài)空間、動(dòng)作空間和獎(jiǎng)勵(lì)函數(shù)，用元組lt;S，A，P，Rgt;表示，其中，S、A、P、R分別表示系統(tǒng)狀態(tài)集、聯(lián)合動(dòng)作集、狀態(tài)轉(zhuǎn)移概率和獎(jiǎng)勵(lì)集合。

2.1 狀態(tài)空間

在考慮MEC服務(wù)器的計(jì)算網(wǎng)絡(luò)中，狀態(tài)空間由N個(gè)物聯(lián)網(wǎng)設(shè)備、云服務(wù)器、MEC服務(wù)器及其環(huán)境共同確定。在決策時(shí)隙t（t=1，2，…）的狀態(tài)空間表示為

S（t）=［Dt，F(xiàn)t，Lt］（t）（15）

其中，Dt={D1，t，D2，t，…，DN，t}表示輸入到MEC服務(wù)器的數(shù)據(jù)大小，F(xiàn)t={fmect，fct|t∈T}是MEC服務(wù)器和云服務(wù)器的計(jì)算能力，Lt={dismec1，t，dismec2，t，…，dismecN，t}表示用戶到MEC服務(wù)器的距離。

2.2 動(dòng)作空間

MEC服務(wù)器根據(jù)當(dāng)前的狀態(tài)以及觀測(cè)到的環(huán)境來選擇并執(zhí)行相應(yīng)的動(dòng)作，在第t個(gè)時(shí)隙采取的動(dòng)作包括選擇需要服務(wù)的設(shè)備k和卸載決策on，t，因此，MEC服務(wù)器執(zhí)行某一任務(wù)的動(dòng)作空間表示為

A（t）=Kt，Ot（t）（16）

其中，Kt={k1，t，k2，t，…，ki，t，…，kN，t|i∈N}表示MEC服務(wù)器在第t個(gè)時(shí)隙選擇需要服務(wù)的設(shè)備，Ot={oi，t|i∈N，t∈T}是MEC服務(wù)器在時(shí)隙t采取的卸載策略。

2.3 效用函數(shù)（RL獎(jiǎng)勵(lì)）

本文定義一個(gè)函數(shù)以最小化在決策時(shí)隙t本系統(tǒng)的總延遲和能源消耗，將成本降至最低，這與實(shí)現(xiàn)DDPG的最大累計(jì)折扣獎(jiǎng)勵(lì)相反。因此，根據(jù)目標(biāo)函數(shù)的值，將獎(jiǎng)勵(lì)函數(shù)定義為

Ut=-Ct=-λ1Et+（1-λ1）λ2Tt（17）

2.4 DDPG-ECC的算法架構(gòu)

本文提出DDPG-ECC算法解決卸載系統(tǒng)的優(yōu)化問題。根據(jù)Actor-Critic的體系結(jié)構(gòu)，DDPG-ECC算法分為四部分：Actor當(dāng)前網(wǎng)絡(luò)、Actor目標(biāo)網(wǎng)絡(luò)、Critic當(dāng)前網(wǎng)絡(luò)和Critic目標(biāo)網(wǎng)絡(luò)。假定θμ和θμ'分別是Actor當(dāng)前網(wǎng)絡(luò)和Actor目標(biāo)網(wǎng)絡(luò)的參數(shù)；θQ和θQ'分別是Critic當(dāng)前網(wǎng)絡(luò)和Critic目標(biāo)網(wǎng)絡(luò)的參數(shù)。在DDPG-ECC算法中，集中式代理首先從環(huán)境中收集信息以形成狀態(tài)空間；在獲得初始狀態(tài)st后，將當(dāng)前狀態(tài)輸入到Actor當(dāng)前網(wǎng)絡(luò)中以獲得動(dòng)作at；執(zhí)行所選擇的動(dòng)作at后，可以獲得下一個(gè)狀態(tài)st+1和獎(jiǎng)勵(lì)rt。同時(shí)，元組{st，at，rt，st+1}被存儲(chǔ)在重放緩沖區(qū)中，從重放緩沖區(qū)中隨機(jī)選擇數(shù)據(jù){si，ai，ri，si+1}并將其傳輸?shù)紸ctor當(dāng)前網(wǎng)絡(luò)和Critic當(dāng)前網(wǎng)絡(luò)，以更新網(wǎng)絡(luò)參數(shù)；根據(jù)當(dāng)前狀態(tài)和動(dòng)作，Critic網(wǎng)絡(luò)可以計(jì)算當(dāng)前Q值和目標(biāo)Q值，以最小化損失函數(shù)；Actor當(dāng)前網(wǎng)絡(luò)利用策略梯度更新當(dāng)前策略；更新目標(biāo)網(wǎng)絡(luò)的參數(shù)。

3 仿真實(shí)驗(yàn)

為驗(yàn)證DDPG-ECC方案的性能，實(shí)驗(yàn)在不同場(chǎng)景中開展，并與傳統(tǒng)的基于DQN的算法進(jìn)行對(duì)比。

3.1 參數(shù)設(shè)置

在邊云協(xié)同計(jì)算卸載模型中，考慮周圍有且僅有這一個(gè)MEC服務(wù)器，N=9個(gè)用戶隨機(jī)分布在距MEC服務(wù)器dismecn，t=（1～10） m處，所有用戶產(chǎn)生的每個(gè)任務(wù)大小Dn在（1～10） M之間，假設(shè)，參考距離為1 m時(shí)，信道增益設(shè)置為α0=-50 dB，無(wú)線信道帶寬設(shè)置為Bc= Bmec=1 MHz，高斯白噪聲功率σ2=100 dBm且無(wú)信號(hào)阻塞，有效開關(guān)電容κ=1×10-26。假設(shè)用戶到MEC服務(wù)器的上行傳輸功率Pmecn=1 w，MEC服務(wù)器到云服務(wù)器的距離discn，t=10 m，MEC服務(wù)器到云服務(wù)器的傳輸功率Pcn=3 w，每比特所需的CPU周期Xn，t=1 000 cycle/bit［20］。MEC服務(wù)器和云服務(wù)器的計(jì)算能力分別為fmec=8 M，fc=20 M。權(quán)重因子λ1=0.4，映射因子λ2=0.5。

3.2 實(shí)驗(yàn)結(jié)果與討論

DDPG-ECC算法的收斂性能如圖2所示。共進(jìn)行1 000次的訓(xùn)練，無(wú)論是DQN還是DDPG-ECC均受益于評(píng)估網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)的雙重網(wǎng)絡(luò)結(jié)構(gòu)，可以用來切斷訓(xùn)練數(shù)據(jù)之間的相關(guān)性，從而找到最優(yōu)的行動(dòng)策略，但相比于DQN，DDPG能夠更好地實(shí)現(xiàn)策略的收斂，表現(xiàn)更優(yōu)。

不同的任務(wù)數(shù)量下DDPG-ECC算法運(yùn)行時(shí)間如圖3所示，假設(shè)一個(gè)時(shí)間段內(nèi)要完成的總?cè)蝿?wù)大小是相同的。DQN的處理時(shí)間隨著任務(wù)數(shù)量的增加而逐漸增加，DDPG-ECC的平均處理時(shí)間隨著任務(wù)數(shù)量的增加幾乎不變。穩(wěn)定在約96 s左右，這是因?yàn)椴煌蝿?wù)數(shù)量下DQN輸出動(dòng)作的取值范圍差異較大。當(dāng)樣本作為DQN訓(xùn)練的輸入時(shí)，DQN可能更傾向于輸出更大的值。DDPG-ECC的Actor網(wǎng)絡(luò)輸出多維動(dòng)作，保證輸入數(shù)據(jù)在［0，1］內(nèi)，確保了DDPG-ECC算法的收斂性和穩(wěn)定性。同時(shí)，DDPG-ECC算法實(shí)現(xiàn)了最小的時(shí)延，這是因?yàn)樵摲桨改軌蛟谶B續(xù)動(dòng)作中找到最優(yōu)值，從而獲得最優(yōu)控制策略。

評(píng)估DDPG-ECC算法中重要超參數(shù)的取值時(shí)，首先考慮不同α下的收斂性能，假設(shè)Critic網(wǎng)絡(luò)和Actor網(wǎng)絡(luò)的學(xué)習(xí)率不同。當(dāng)αActor=0.001，αCritic=0.002時(shí)，DDPG-ECC明顯收斂（圖4）。但αActor=0.001，αCritic=0.001和αActor=0.000 01，αCritic=0.000 02時(shí)，算法的收斂程度有待提升，因此，在實(shí)驗(yàn)中，將學(xué)習(xí)率統(tǒng)一設(shè)置為αActor=0.001，αCritic=0.002。

不同的折扣因子γ對(duì)DDPG-ECC收斂性能的影響結(jié)果如圖5所示。實(shí)驗(yàn)結(jié)果表明，當(dāng)γ=0.001時(shí)，訓(xùn)練后的計(jì)算卸載策略性能最佳。因?yàn)椴煌瑫r(shí)期的環(huán)境變化很大，所以整個(gè)時(shí)間段的數(shù)據(jù)不能完全代表長(zhǎng)期的行為。γ越大，說明將整個(gè)時(shí)間段收集的數(shù)據(jù)視為長(zhǎng)期數(shù)據(jù)，導(dǎo)致不同時(shí)間段的泛化能力較差。因此，適當(dāng)?shù)摩弥祵⑻岣哂?xùn)練過的策略的最終性能。

4 結(jié)論

為了解決傳統(tǒng)卸載算法僅考慮移動(dòng)設(shè)備和邊緣服務(wù)器計(jì)算資源且時(shí)延久能耗高的問題，本文提出DDPG-ECC算法來獲得最優(yōu)卸載策略，在移動(dòng)設(shè)備和邊緣服務(wù)器之間有效分配計(jì)算資源，同時(shí)最小化系統(tǒng)延遲和能量消耗。仿真實(shí)驗(yàn)分析了DDPG-ECC算法的參數(shù)，并比較了不同參數(shù)的影響，包括學(xué)習(xí)率、折扣因子和不同任務(wù)量下算法的運(yùn)行時(shí)間。與傳統(tǒng)的DQN算法相比，DDPG-ECC收斂性能更好，在各項(xiàng)參數(shù)下均具有優(yōu)越的適應(yīng)性和泛化能力，隨著任務(wù)數(shù)量不斷增加，該方案的處理延遲比DQN大大降低。今后工作將考慮繼續(xù)優(yōu)化算法的細(xì)節(jié)，并在計(jì)算資源分配和部分卸載方面做深入研究。

參考文獻(xiàn)

［1］DINH H T， LEE C， NIYATO D， et al. A survey of mobile cloud computing： Architecture， applications， and approaches［J］. Wireless Communications and Mobile Computing， 2013， 13（18）： 1587-1611.

［2］MACH P， BECVAR Z. Mobile edge computing： A survey on architecture and computation offloading［J］. IEEE Communications Surveys and Tutorials， 2017， 19（3）： 1628-1656

［3］ABBAS N， ZHANG Y， TAHERKORDI A， et al. Mobile edge computing： A survey［J］. IEEE Internet of Things Journal， 2017， 5（1）： 450-465.

［4］MAO Y Y， YOU C S， ZHANG J， et al. A survey on mobile edge computing： The communication perspective［J］. IEEE Communications Surveys amp; Tutorials， 2017， 19（4）： 2322-2358.

［5］CHEN L X， GONG G Q， JIANG K， et al. DDPG-based computation offloading and service caching in mobile edge computing［C］// IEEE Conference on Computer Communications（IEEE INFOCOM）. New York， 2022： 1-6.

［6］GOH Y， CHOI M， JUNG J， et al. Partial offloading MEC optimization scheme using deep reinforcement learning for XR real-time Mamp;S devices［C］// IEEE International Conference on Consumer Electronics（ICCE）. Las Vegas， 2022： 1-3.

［7］LIANG Y T， HE Y J， ZHONG X X. Decentralized computation offloading and resource allocation in MEC by deep reinforcement learning［C］// IEEE/CIC International Conference on Communications in China（ICCC）. Chongqing， 2020： 244-249.

［8］FENG J， YU F R， PEI Q， et al. Cooperative computation offloading and resource allocation for blockchain-enabled mobile-edge computing： A deep reinforcement learning approach［J］. IEEE Internet of Things Journal， 2019， 7（7）： 6214-6228.

［9］FENG J， YU F R， PEI Q， et al. Joint optimization of radio and computational resources allocation in blockchain-enabled mobile edge computing systems［J］. IEEE Transactions on Wireless Communications， 2020， 19（6）： 4321-4334.

［10］ XIONG Z H， FENG S H， NIYATO D， et al. Optimal pricing-based edge computing resource management in mobile blockchain［C］// 2018 IEEE International Conference on Communications（ICC）， Kansas City， 2018： 1-6.

［11］ PHAM Q V， FANG F， HA V N， et al. A survey of multi-access edge computing in 5G and beyond： Fundamentals， technology integration， and state-of-the-art［J］. IEEE Access， 2020， 8： 116974-117017.

［12］范艷芳，袁爽，蔡英，等.車載邊緣計(jì)算中基于深度強(qiáng)化學(xué)習(xí)的協(xié)同計(jì)算卸載方案［J］.計(jì)算機(jī)科學(xué)， 2021， 48（5）： 270-276.

［13］梁俊斌，張海涵，蔣嬋，等.移動(dòng)邊緣計(jì)算中基于深度強(qiáng)化學(xué)習(xí)的任務(wù)卸載研究進(jìn)展［J］.計(jì)算機(jī)科學(xué)， 2021， 48（7）： 316-323.

［14］ MNIH V， KAVUKCUOGLU K， SILVER D， et al. Human-level control through deep reinforcement learning［J］. Nature， 2015， 518： 529-533.

［15］張鳳荔，趙佳君，劉東，等.基于深度強(qiáng)化學(xué)習(xí)的邊云協(xié)同串行任務(wù)卸載算法［J］.電子科技大學(xué)學(xué)報(bào)， 2021， 50（3）： 398-404.

［16］ HUANG L， FENG X， FENG A Q， et al. Distributed deep learning-based offloading for mobile edge computing networks［J］. Mobile Networks and Applications， 2022， 27（3）： 1123-1130.

［17］ WANG Y， FANG W， DING Y， et al. Computation offloading optimization for UAV-assisted mobile edge computing： A deep deterministic policy gradient approach［J］. Wireless Networks， 2021， 27（4）： 2991-3006.

［18］ SACCO A， ESPOSITO F， MARCHETTO G， et al. Sustainable task offloading in UAV networks via multi-agent reinforcement learning［J］. IEEE Transactions on Vehicular Technology， 2021， 70（5）： 5003-5015.

［19］ NIE J， HAYKIN S. A Q-learning-based dynamic channel assignment technique for mobile communication systems［J］. IEEE Transactions on Vehicular Technology， 1999， 48（5）： 1676-1687.

［20］ HU Q， CAI Y， YU G， et al. Joint offloading and trajectory design for UAV-enabled mobile edge computing systems［J］. IEEE Internet of Things Journal， 2018， 6（2）： 1879-1892.

Edge-cloud Collaborative Computation Offloading Method Based on DDPG

XU Wei-peng， LI Ying， LI Jian-bo

（School of Computer Science and Technology，Qingdao University，Qingdao 266071，China）

Abstract：

Mobile devices have limited cupacity， mobile devices and edge server computing were only considered in the traditional offloading algorithms. Edge computing still faces problems of limited resources and high costs. Therefore， an edge-cloud collaborative computing offloading solution（DDPG-ECC） was proposed based on the Deep Deterministic Policy Gradient（DDPG） algorithm. It integrated cloud computing， edge computing， and DDPG. The DDPG-ECC method strategically prioritized minimizing both latency and energy consumption as optimization goals. By fostering collaboration between edge servers and cloud servers， it effectively reduced the latency and energy consumption of the computation offloading system， achieving an optimized allocation for computation offloading. Simulation results show that DDPG-ECC performs well and it is excellent adaptability and generalization capabilities for different workloads.

Keywords：

edge computing；edge-cloud collaboration；computing offloading；DDPG-ECC