亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

改進(jìn)深度強(qiáng)化學(xué)習(xí)算法的計(jì)算卸載策略

2021-05-10 11:19:30葛海波弓海文

西安郵電大學(xué)學(xué)報(bào) 2021年6期

葛海波，弓海文，宋興，李順，孫奧

(西安郵電大學(xué) 電子工程學(xué)院，陜西西安 710121)

隨著智能手機(jī)、平板電腦等移動(dòng)設(shè)備的數(shù)量急劇增加，諸如圖像識(shí)別、增強(qiáng)現(xiàn)實(shí)、虛擬現(xiàn)實(shí)等任務(wù)密集型、時(shí)延敏感型的應(yīng)用程序大量增長(zhǎng)[1]。這些移動(dòng)應(yīng)用常常需要大量的計(jì)算資源，而受限于計(jì)算能力與電池容量的移動(dòng)設(shè)備越來越無法支持這些應(yīng)用[2]。為了克服這一問題，移動(dòng)云計(jì)算(Mobile Cloud Computing,MCC)作為一種新的分布式計(jì)算模型被提出[3]，MCC允許終端從云計(jì)算中心借用計(jì)算和存儲(chǔ)資源，滿足資源需求型應(yīng)用程序的需要[4]。盡管MCC可以節(jié)約本地的計(jì)算資源，但是，從移動(dòng)設(shè)備到基站或云服務(wù)器的長(zhǎng)距離傳輸可能會(huì)導(dǎo)致嚴(yán)重的時(shí)間延遲和額外的傳輸能耗[5-6]。

針對(duì)MCC存在的問題，歐洲電信標(biāo)準(zhǔn)化協(xié)會(huì)(European Telecommunications Standards Institute,ETSI)提出了移動(dòng)邊緣計(jì)算(Mobile Edge Computing,MEC)技術(shù)[7]。由于MEC卸載策略具有非確定性多項(xiàng)式難題(Nondeterministic Polynominal-Hard,NP-Hard)，大多數(shù)卸載策略都采用啟發(fā)式算法[8]。例如，文獻(xiàn)[9]提出了一種單用戶的MEC系統(tǒng)優(yōu)化框架，該框架采用一種基于線性規(guī)劃松弛和半確定松弛方法的卸載決策算法，降低了執(zhí)行延遲和能耗。文獻(xiàn)[10]設(shè)計(jì)了一種基于遺傳算法的任務(wù)卸載策略，減小了系統(tǒng)的總開銷。文獻(xiàn)[11]將MEC模型中的任務(wù)卸載問題描述為非線性問題，并提出了一種卸載算法來減少任務(wù)延遲并提高用戶設(shè)備(User Equipment,UE)的電池壽命。文獻(xiàn)[12]提出了一種基于能量消耗和等待時(shí)間的任務(wù)分擔(dān)算法，其能耗和等待時(shí)間加權(quán)總和較低。文獻(xiàn)[13]提出了一種基于改進(jìn)遺傳算法的邊緣卸載策略，將每個(gè)卸載策略作為一條染色體，每條染色體上的基因?qū)?yīng)一個(gè)計(jì)算任務(wù)，以降低系統(tǒng)總開銷。但是，隨著MEC應(yīng)用程序和網(wǎng)絡(luò)架構(gòu)的日益復(fù)雜，導(dǎo)致啟發(fā)式算法生成決策的時(shí)間過長(zhǎng)，特別是在多用戶的MEC環(huán)境下如何減少計(jì)算卸載的系統(tǒng)總時(shí)延和系統(tǒng)總成本，還需進(jìn)一步研究。

為了減少生成決策的時(shí)間、降低系統(tǒng)總成本，研究人員開始通過深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)的方法來解決MEC卸載決策問題。DRL結(jié)合了強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)理論，更適用于處理復(fù)雜系統(tǒng)中的決策問題[14]。例如，文獻(xiàn)[15]提出了一種基于深度Q學(xué)習(xí)網(wǎng)絡(luò)(Deep Q-Learning Network,DQN)的自主算法，以最小化分布式邊緣網(wǎng)絡(luò)中的網(wǎng)絡(luò)延遲和功耗。文獻(xiàn)[16]使用DQN方法處理新穎的網(wǎng)絡(luò)知識(shí)，產(chǎn)生了近似的最優(yōu)調(diào)度容忍機(jī)制，減輕了對(duì)反饋的嚴(yán)格要求。文獻(xiàn)[17]提出了一種基于DQN的設(shè)備級(jí)和邊緣級(jí)任務(wù)卸載聯(lián)合優(yōu)化方法，獲得了接近最優(yōu)的任務(wù)延遲性能。文獻(xiàn)[18]提出了一種基于強(qiáng)化學(xué)習(xí)計(jì)算的車聯(lián)網(wǎng)邊緣計(jì)算架構(gòu)的任務(wù)卸載策略，并采用雙深度Q學(xué)習(xí)網(wǎng)絡(luò)(Double Deep Q-Learning Network,DDQN)方法處理任務(wù)卸載問題，以克服用戶移動(dòng)引起的網(wǎng)絡(luò)狀態(tài)實(shí)時(shí)變化，提高了該策略的收斂性。文獻(xiàn)[19]提出了一種利用DDQN方法在給定當(dāng)前環(huán)境狀態(tài)的情況下輸出卸載決策。文獻(xiàn)[20]分別利用DQN算法和深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法研究了任務(wù)的最佳卸載比例、局部計(jì)算功率和傳輸功率，以最小化執(zhí)行延遲和UE能耗。但是，目前利用DRL對(duì)MEC中卸載問題的研究仍存在兩個(gè)方面的不足：一方面，MEC服務(wù)器的計(jì)算資源有限，同時(shí)卸載太多任務(wù)會(huì)導(dǎo)致排隊(duì)延遲；另一方面，經(jīng)典DRL方法在訓(xùn)練過程中存在訓(xùn)練速度慢、收斂不穩(wěn)定等問題，影響了卸載計(jì)算的效率。

為了更好地利用MEC系統(tǒng)資源，降低系統(tǒng)成本，提高系統(tǒng)的效率，擬設(shè)計(jì)一種適用于MEC環(huán)境的二進(jìn)制計(jì)算卸載策略。在有效減小UE和各計(jì)算節(jié)點(diǎn)的能耗與時(shí)延的基礎(chǔ)上，決定任務(wù)是否應(yīng)該卸載至邊緣服務(wù)器執(zhí)行，以提高M(jìn)EC系統(tǒng)的效率。在任務(wù)卸載執(zhí)行的時(shí)延中引入排隊(duì)時(shí)延的計(jì)算，以最小化能耗與時(shí)延加權(quán)和作為計(jì)算卸載的目標(biāo)，利用優(yōu)先經(jīng)驗(yàn)重放對(duì)DRL算法進(jìn)行改進(jìn)，對(duì)比改進(jìn)前后不同用戶設(shè)備數(shù)量和任務(wù)數(shù)據(jù)大小的系統(tǒng)成本以及改進(jìn)前后系統(tǒng)的平均時(shí)延，以提高其在解決實(shí)際問題時(shí)的效率及穩(wěn)定性。

1 系統(tǒng)模型

考慮到移動(dòng)邊緣計(jì)算中具有多服務(wù)節(jié)點(diǎn)和多用戶的系統(tǒng)模型，建立一個(gè)多邊緣服務(wù)器和多用戶的MEC系統(tǒng)通信模型。該模型由一個(gè)包含多個(gè)邊緣服務(wù)器的基站(Base Station,BS)和m個(gè)UE組成[20]，UE與BS間通過無線網(wǎng)絡(luò)通信，MEC系統(tǒng)示意圖如圖1所示。

圖1 MEC系統(tǒng)示意圖

MEC系統(tǒng)中包含UE1,UE2,…,UEm等m個(gè)用戶。設(shè)時(shí)間為一組相等間隔的時(shí)隙t(t=1,2,…,z)，任務(wù)產(chǎn)生的時(shí)間間隔服從泊松分布[21]。UE生成的任務(wù)i(i=1,2,…,I)可以建模為一個(gè)具有4個(gè)元素的元組{Di,bi,Ci,Ti,max}，其中，Di表示任務(wù)i數(shù)據(jù)的大小，bi表示計(jì)算任務(wù)i每一位數(shù)據(jù)的CPU周期，Ci=Di·bi為任務(wù)i的總CPU周期，Ti,max表示用戶可接受的最大容忍時(shí)延。

定義任務(wù)i的二進(jìn)制計(jì)算卸載決策變量為ψi∈{0,1}。當(dāng)ψi=0時(shí)，表示任務(wù)i在本地執(zhí)行；ψi=1時(shí)，表示任務(wù)i卸載至邊緣服務(wù)器執(zhí)行。

1.1 本地計(jì)算

移動(dòng)UE具有一定的計(jì)算能力。假設(shè)移動(dòng)UE一次只能執(zhí)行一個(gè)任務(wù)。假設(shè)第k個(gè)(k=1,2,…,m)用戶設(shè)備UEk的容量為Uk,C，任務(wù)開始前每個(gè)時(shí)隙設(shè)備k的剩余能量為Ek,re，執(zhí)行任務(wù)i的能量消耗為Ei,k。若滿足Di≤Uk,C和Ei,k≤Ek,re，則任務(wù)在本地執(zhí)行。

本地計(jì)算模型的執(zhí)行時(shí)間僅包括計(jì)算時(shí)間，不包含傳輸時(shí)間。在本地執(zhí)行任務(wù)i的時(shí)間成本[19]為

(1)

式中，fk表示UEk的CPU頻率，即UEk的每秒CPU周期，反映了其計(jì)算能力。

在UEk上執(zhí)行任務(wù)i的能量消耗[19]為

Ei,k=κ·fk·Ci

(2)

式中，κ表示芯片中的有效開關(guān)電容，其大小取決于器件的芯片架構(gòu)。

1.2 卸載計(jì)算模型

用戶移動(dòng)設(shè)備的計(jì)算資源有限，執(zhí)行某些資源密集型應(yīng)用時(shí)會(huì)產(chǎn)生較高的時(shí)延與能耗。當(dāng)本地資源不足時(shí)，將任務(wù)卸載到MEC服務(wù)器上處理。

由于任務(wù)計(jì)算完成后傳回UE的數(shù)據(jù)量通常遠(yuǎn)小于其原始數(shù)據(jù)，因此傳回的時(shí)間可忽略不計(jì)。傳輸時(shí)間僅為從UE向MEC服務(wù)器上傳任務(wù)數(shù)據(jù)的時(shí)間成本，根據(jù)香農(nóng)公式，UEk與BS的通信速率[22]為

(3)

式中：W表示UEk和BS之間的通信帶寬；pk是UEk的發(fā)射功率；N0是BS的噪聲功率譜密度；gk,B表示UEk和BS之間的信道增益[22]，其計(jì)算表達(dá)式為

(4)

式中：dk,B表示UEk與BS之間的距離；σ為路徑損耗指數(shù)。

發(fā)送任務(wù)i的數(shù)據(jù)產(chǎn)生的延遲[22]為

(5)

在MEC服務(wù)器上執(zhí)行任務(wù)i的延遲[22]為

(6)

式中，fs,k表示服務(wù)器s分配給UEk的計(jì)算資源。

任務(wù)i卸載至MEC服務(wù)器進(jìn)行處理的能耗為上傳能耗和計(jì)算能耗的總和。其中任務(wù)i上傳能耗Ei,tr與MEC服務(wù)器執(zhí)行任務(wù)i的能耗[22]Ei,mec分別定義為

Ei,tr=pk·Ti,tr

(7)

Ei,mec=Di·es

(8)

式中，es表示服務(wù)器s在BS上計(jì)算的每個(gè)數(shù)據(jù)位的能耗。

2 PERDDQN的卸載策略

DRL對(duì)于復(fù)雜系統(tǒng)的感知決策問題有較強(qiáng)的解決能力[23]，但是，在MEC場(chǎng)景內(nèi)實(shí)際應(yīng)用時(shí)往往由于很難學(xué)習(xí)到有用的經(jīng)驗(yàn)，導(dǎo)致無法得到合理卸載策略。為此引入了一種基于優(yōu)先經(jīng)驗(yàn)重放(Prioritized Experience Replay,PER)改進(jìn)的DDQN算法(Prioritized Experience Replay Double Deep Q-Learning Network,PERDDQN)來求解最優(yōu)的卸載模式。

2.1 問題的建模

任務(wù)卸載執(zhí)行時(shí)，移動(dòng)設(shè)備用戶會(huì)對(duì)有限計(jì)算資源的競(jìng)爭(zhēng)而產(chǎn)生排隊(duì)延遲。設(shè)MEC服務(wù)器中可用的計(jì)算資源Vmec，則任務(wù)i等待執(zhí)行產(chǎn)生的排隊(duì)時(shí)延為

(9)

聯(lián)合式(5)、式(6)和式(9)，UEk將任務(wù)i卸載到BS上的服務(wù)器s處理所產(chǎn)生的時(shí)間成本為

Ti,off=Ti,tr+Ti,que+Ti,mec

(10)

根據(jù)式(7)和式(8)可得，任務(wù)i卸載執(zhí)行的能耗為

Ei,off=Ei,tr+Ei,mec

(11)

MEC系統(tǒng)中存在多個(gè)用戶，每個(gè)用戶都遵循二進(jìn)制卸載決策完成計(jì)算任務(wù)。根據(jù)式(1)與式(10)，MEC系統(tǒng)執(zhí)行全部任務(wù)的總時(shí)延為

(12)

當(dāng)ψi=0時(shí)，Ti=Ti,k；當(dāng)ψi=1時(shí)，Ti=Ti,off。

同理，執(zhí)行所有任務(wù)的總能耗為

(13)

當(dāng)ψi=0時(shí)，Ei=Ei,k；當(dāng)ψi=1時(shí)，Ei=Ei,off。

為了同時(shí)考慮能量消耗和延遲，總計(jì)算成本根據(jù)能量消耗和任務(wù)延遲線性加權(quán)進(jìn)行量化。聯(lián)合式(12)和式(13)，系統(tǒng)總成本可以表示為

(14)

式中，ω∈(0,1)表示為UE的執(zhí)行延遲加權(quán)參數(shù)，可以根據(jù)用戶的需求進(jìn)行調(diào)整，例如，執(zhí)行時(shí)延敏感型應(yīng)用程序時(shí)可適當(dāng)增大ω的值。考慮到時(shí)延敏感型應(yīng)用程序，ω取0.8[24-25]。

多計(jì)算節(jié)點(diǎn)多用戶卸載問題的目標(biāo)是在滿足用戶最大容忍時(shí)延的條件下，最小化系統(tǒng)總成本，該問題是具有耦合約束的多目標(biāo)優(yōu)化編程。目標(biāo)函數(shù)建模為

(15)

式中：fk,max表示UEk的最大計(jì)算功率；pk,max表示UEk的最大發(fā)射功率；Fs,max表示服務(wù)器s的最大計(jì)算頻率；C1表示選擇任務(wù)在本地執(zhí)行或卸載至邊緣服務(wù)器執(zhí)行；C2表示執(zhí)行任務(wù)的能耗不能超過UE當(dāng)前剩余能量，若能量不足則任務(wù)需卸載執(zhí)行；C3表示設(shè)備計(jì)算頻率最大限制；C4表示傳輸功率最大限制；C5表示服務(wù)器分配的計(jì)算資源不能超過其最大計(jì)算資源；C6表示任務(wù)需要在可容忍時(shí)延內(nèi)完成。

2.2 MDP模型的構(gòu)建

強(qiáng)化學(xué)習(xí)的過程中，將計(jì)算卸載問題重新表述為馬爾科夫決策過程(Markov Decision Process,MDP)模型。典型的MDP模型由具有5個(gè)元素的元組{S,A,P,R,γ}組成。其中，S代表狀態(tài)空間，A為有限動(dòng)作空間，P為狀態(tài)轉(zhuǎn)移概率，R代表獎(jiǎng)勵(lì)函數(shù)，γ∈[0,1]是未來獎(jiǎng)勵(lì)的折扣因子。MDP模型元組中每個(gè)元素對(duì)應(yīng)的含義如下。

1)狀態(tài)空間。狀態(tài)空間中的每個(gè)狀態(tài)都包含一些從環(huán)境中觀察到的信息。將模型中時(shí)隙t的狀態(tài)s(t)表示為s(t)={fk,Ek,re,Uk,C,W,Di}。

2)動(dòng)作空間。為了確定任務(wù)是否應(yīng)卸載到計(jì)算節(jié)點(diǎn)上執(zhí)行，動(dòng)作空間與卸載決策應(yīng)呈對(duì)應(yīng)關(guān)系。動(dòng)作空間的定義為

A={a(1),a(2),…,a(z)}

(16)

在時(shí)隙t(t=1,2,…,z)，a(t)=0表示任務(wù)在本地執(zhí)行，a(t)=1表示任務(wù)卸載至邊緣服務(wù)器執(zhí)行。

3)獎(jiǎng)勵(lì)函數(shù)。在執(zhí)行動(dòng)作a(t)后，將獲得獎(jiǎng)勵(lì)r(s(t),a(t))，UE選擇要執(zhí)行的動(dòng)作a(t+1)。獎(jiǎng)勵(lì)函數(shù)通常與目標(biāo)函數(shù)相關(guān)，為了高效判斷任務(wù)是否需要卸載執(zhí)行，將目標(biāo)函數(shù)定義為實(shí)現(xiàn)最小化任務(wù)執(zhí)行時(shí)間與能耗的加權(quán)和。強(qiáng)化的目標(biāo)是獲得最大獎(jiǎng)勵(lì)，為此定義獎(jiǎng)勵(lì)值R與系統(tǒng)總成本C的大小負(fù)相關(guān)，即

R=-C(t)

(17)

4)轉(zhuǎn)移概率。給定用戶采取的操作a(t)，轉(zhuǎn)移概率P{s(t+1)|s(t),a(t)}表示環(huán)境狀態(tài)在下一個(gè)時(shí)隙中從s(t)轉(zhuǎn)換為s(t+1)的概率。

5)折扣因子。折扣因子γ為未來獎(jiǎng)勵(lì)權(quán)重。當(dāng)γ趨于0時(shí)，表示主要考慮當(dāng)前獲得的獎(jiǎng)勵(lì)；γ趨于1則表示將更關(guān)注后續(xù)步驟中的累積獎(jiǎng)勵(lì)。γ的值決定了更傾向于短期回報(bào)或長(zhǎng)期回報(bào)。

2.3 優(yōu)先級(jí)的計(jì)算

PERDDQN算法利用PER在訓(xùn)練過程中對(duì)樣本進(jìn)行優(yōu)先級(jí)采樣，用于加快神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度。PER打破均勻采樣，賦予學(xué)習(xí)效率高的狀態(tài)更大的采樣權(quán)重[26]。PER采用時(shí)間差分(Temporal-Difference,TD)誤差來表示每個(gè)轉(zhuǎn)移過渡的重要性。

TD誤差為目標(biāo)Q網(wǎng)絡(luò)計(jì)算的目標(biāo)Q值和當(dāng)前Q網(wǎng)絡(luò)計(jì)算的Q值之差。TD誤差越大代表預(yù)測(cè)精度還有很大的上升空間，那么該樣本就越需要被學(xué)習(xí)，優(yōu)先級(jí)就越高，樣本j優(yōu)先級(jí)可以表示為

δj=yj,PER-Q(SJ(T),AJ,θ)

(18)

其中：yj,PER為目標(biāo)的Q值；Q(sj(t),aj,θ)為當(dāng)前網(wǎng)絡(luò)的Q值。

為了避免初始的高TD誤差轉(zhuǎn)移被經(jīng)常重放，帶有低TD誤差的轉(zhuǎn)移在第一次訪問時(shí)不會(huì)被重放，引入了隨機(jī)采樣方法。該方法結(jié)合純貪婪優(yōu)先化和均勻隨機(jī)采樣，既保證被采樣的概率是單一的，也能使低優(yōu)先級(jí)樣本采樣概率非零。定義樣本j的采樣概率為

(19)

式中：n表示樣本數(shù)量；α確定使用多少優(yōu)先級(jí)，當(dāng)α=0時(shí)為均勻采樣。

2.4 樣本的存儲(chǔ)

由于優(yōu)先級(jí)大小會(huì)影響被采樣的概率，導(dǎo)致PERDDQN算法的經(jīng)驗(yàn)重放池與其他采用Q學(xué)習(xí)的DRL算法不同。使用SumTree結(jié)構(gòu)[26]作為帶有優(yōu)先級(jí)的經(jīng)驗(yàn)重放池，用于樣本的儲(chǔ)存。SumTree結(jié)構(gòu)示意圖如圖2所示。圖中，圈外數(shù)字為節(jié)點(diǎn)序號(hào)，圈內(nèi)數(shù)字為節(jié)點(diǎn)值，例如0號(hào)節(jié)點(diǎn)的節(jié)點(diǎn)值為29。圖中陰影部分為葉子節(jié)點(diǎn)，所有的經(jīng)驗(yàn)重放樣本只保存在葉子節(jié)點(diǎn)上，一個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)樣本。0號(hào)到2號(hào)節(jié)點(diǎn)不保存樣本數(shù)據(jù)，只保存自己子節(jié)點(diǎn)的優(yōu)先級(jí)值之和。葉子結(jié)點(diǎn)下面是樣本對(duì)應(yīng)的數(shù)值區(qū)間，葉子結(jié)點(diǎn)數(shù)值越大(優(yōu)先級(jí)越高)其區(qū)間長(zhǎng)度就越大。例如，從區(qū)間0～29中均勻抽樣一個(gè)數(shù)據(jù)，5號(hào)節(jié)點(diǎn)的區(qū)間為14～26，優(yōu)先級(jí)為12，比其他節(jié)點(diǎn)更容易被采樣。

圖2 SumTree結(jié)構(gòu)示意圖

2.5 網(wǎng)絡(luò)參數(shù)的更新

從SumTree中采得樣本后，使用均方差損失函數(shù)通過神經(jīng)網(wǎng)絡(luò)的梯度反向傳播來更新Q網(wǎng)絡(luò)的參數(shù)，并計(jì)算當(dāng)前目標(biāo)Q值。PERDDQN算法的損失函數(shù)L(θ)與當(dāng)前目標(biāo)Q值yj,PER的計(jì)算表達(dá)式分別為

PER以一種不受控的形式改變了分布，因此引入了誤差，改變了預(yù)測(cè)會(huì)收斂到的解決方案?？梢允褂弥匾圆蓸訖?quán)重來修正該誤差[26]。

網(wǎng)絡(luò)參數(shù)更新完畢后根據(jù)狀態(tài)s′判斷整個(gè)算法是否結(jié)束，若結(jié)束則輸出最優(yōu)的卸載決策。根據(jù)以上改進(jìn)的DRL算法，結(jié)合MDP模型的MEC計(jì)算卸載策略的偽代碼如下所示。

3 仿真與結(jié)果分析

3.1 實(shí)驗(yàn)環(huán)境選擇及參數(shù)設(shè)置

為驗(yàn)證提出的DRL算法在MEC環(huán)境中的有效性，使用TensorFlow-GPU 1.13.1在Python3.7.4中實(shí)現(xiàn)了PERDDQN算法。驗(yàn)證算法的收斂性，并與本地執(zhí)行(All Local Executing,ALE)、完全卸載(All Offload Executing,AOE)、隨機(jī)卸載(Random Offloading Executing，ROE)、DDQN[19]和DDPG[20]等算法進(jìn)行比較，驗(yàn)證在多用戶MEC系統(tǒng)中的算法的總成本，反映算法的優(yōu)劣。

仿真實(shí)驗(yàn)?zāi)M的集群包括2個(gè)邊緣服務(wù)器，5～30個(gè)移動(dòng)用戶設(shè)備。其中，移動(dòng)用戶設(shè)備隨機(jī)分布在距基站150 m范圍內(nèi)，每個(gè)邊緣服務(wù)器的計(jì)算能力設(shè)置為1 GHz～5 GHz。任務(wù)數(shù)據(jù)的隨機(jī)大小為100 kb～500 kb。任務(wù)的最大可容忍時(shí)延在5 ms～30 ms隨機(jī)選擇。

對(duì)于深度強(qiáng)化學(xué)習(xí)算法，深度神經(jīng)網(wǎng)絡(luò)的輸入包括狀態(tài)值s(t)和動(dòng)作值a(t)。在實(shí)驗(yàn)神經(jīng)網(wǎng)絡(luò)的構(gòu)建中，將s(t)作為輸入，輸出層是每個(gè)a(t)對(duì)應(yīng)的Q值。經(jīng)驗(yàn)重放池容量為1 000，訓(xùn)練時(shí)采用貪婪法選擇動(dòng)作，貪婪策略概率為0.1，批學(xué)習(xí)大小為32，學(xué)習(xí)率為0.01，折扣因子γ=0.9。

3.2 算法的收斂性

PERDDQN算法、DDPG算法以及DDQN算法的收斂性能如圖3所示?？梢钥闯觯?種算法的總獎(jiǎng)勵(lì)都隨著迭代次數(shù)的增加而增加，直至達(dá)到一個(gè)相對(duì)穩(wěn)定的值。當(dāng)?shù)螖?shù)為分別為50、75和100時(shí)，PERDDQN算法、DDPG算法和DDQN算法的獎(jiǎng)勵(lì)值不再增加并趨于穩(wěn)定值，分別在-20、-25、-30左右?？梢?，PERDDQN算法是收斂的，且收斂速度比DDPG和DDQN快、獎(jiǎng)勵(lì)值也大于其他兩種比較算法，這使得該算法能夠更好地應(yīng)對(duì)動(dòng)態(tài)的MEC環(huán)境。

圖3 3種算法的收斂性

3.3 系統(tǒng)成本

不同數(shù)量UE以及不同任務(wù)數(shù)據(jù)量大小的成本不同。6種算法的總成本如圖4所示?？梢钥闯?，6種算法的總成本隨著UE數(shù)量和任務(wù)數(shù)據(jù)大小的增加。這是因?yàn)?，UE數(shù)量和任務(wù)數(shù)據(jù)越大，執(zhí)行時(shí)間和傳輸時(shí)間就越長(zhǎng)，處理具有較大數(shù)據(jù)量的任務(wù)所消耗的能量也更多。當(dāng)UE數(shù)量為20時(shí)，應(yīng)用PERDDQN算法的系統(tǒng)總成本為2.49，其余算法的系統(tǒng)總成本均超過3.00；當(dāng)任務(wù)數(shù)據(jù)大小為500 kb時(shí)，應(yīng)用PERDDQN算法的系統(tǒng)總成本為2.42，其余算法的系統(tǒng)總成本均超過2.80。由此可見，在UE數(shù)量和任務(wù)大小相同的情況下，PERDDQN算法的系統(tǒng)總成本始終是最小的，分別比未改進(jìn)的DDQN算法減少了17.6%和23.0%。這是因?yàn)椋cDDQN和DDPG算法相比，PERDDQN算法收斂速度更快，可以更快地獲得最優(yōu)策略，從而系統(tǒng)總成本較低，而ALE和AOE算法不能充分利用整個(gè)系統(tǒng)的計(jì)算資源，因此，具有較高的成本。

圖4 6種算法的總成本

3.4 服務(wù)器計(jì)算能力對(duì)系統(tǒng)時(shí)延的影響

圖5顯示了使用不同的優(yōu)化算法時(shí)，平均時(shí)延隨MEC服務(wù)器計(jì)算能力的增加而變化的情況。由于ALE算法不涉及MEC服務(wù)器，因此不做討論。除了ALE之外，其他方法的平均時(shí)延均隨著MEC服務(wù)器計(jì)算能力的提升而逐漸降低，這是由于MEC服務(wù)器的計(jì)算能力逐漸滿足所有UE卸載任務(wù)的計(jì)算需求。當(dāng)MEC服務(wù)器計(jì)算能力為1 GHz時(shí)，PERDDQN算法、DDPG算法、DDQN算法的平均時(shí)延分別為14.01 ms、15.10 ms、16.90 ms；當(dāng)MEC服務(wù)器計(jì)算能力增加為5 GHz時(shí)，PERDDQN算法、DDPG算法、DDQN算法的平均時(shí)延分別為8.21 ms、9.28 ms、9.71 ms。由此可見，與其他兩種DRL算法相比，PERDDQN算法的任務(wù)卸載解決方案的平均時(shí)延較低。因?yàn)樵撍惴l繁重放具有價(jià)值的樣本數(shù)據(jù)，對(duì)于復(fù)雜的環(huán)境具有更好的適應(yīng)性，在解決復(fù)雜的組合優(yōu)化問題時(shí)的效果較好。

圖5 不同MEC計(jì)算能力的平均時(shí)延

4 結(jié)語(yǔ)

針對(duì)多移動(dòng)用戶設(shè)備和多服務(wù)器的MEC環(huán)境，在滿足用戶最大容忍時(shí)延的前提下考慮了時(shí)延與能耗，提出了一種以最小化系統(tǒng)總成本為目標(biāo)的任務(wù)卸載優(yōu)化策略。將目標(biāo)函數(shù)建模為MDP模型，提出基于PER改進(jìn)的PERDDQN卸載決策算法。該算法利用PER對(duì)DRL算法進(jìn)行改進(jìn)，并對(duì)歷史經(jīng)驗(yàn)賦予優(yōu)先級(jí)，優(yōu)先采樣高優(yōu)先級(jí)的經(jīng)驗(yàn)，以提高學(xué)習(xí)效率，快速、準(zhǔn)確地做出合理的卸載決策。仿真結(jié)果表明，PERDDQN卸載決策算法的系統(tǒng)總成本較低、系統(tǒng)的平均時(shí)延較小。

研究基于單基站多用戶的MEC模型，僅將任務(wù)作為一個(gè)整體卸載，實(shí)際中的MEC系統(tǒng)通常包含多個(gè)基站，高復(fù)雜度的計(jì)算任務(wù)也可進(jìn)一步劃分為更小的子任務(wù)進(jìn)行卸載。因此，下一步工作將基于DRL對(duì)包含多個(gè)基站、多個(gè)移動(dòng)設(shè)備MEC系統(tǒng)的細(xì)粒度任務(wù)卸載問題進(jìn)行研究。