亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

移動(dòng)邊緣計(jì)算網(wǎng)絡(luò)中基于DQN的能效性卸載決策及無(wú)線資源分配

2022-02-17 07:59:08郭艷艷

測(cè)試技術(shù)學(xué)報(bào) 2022年1期

高云，郭艷艷，衛(wèi) 霞

(山西大學(xué) 物理電子工程學(xué)院，山西太原 030006)

0 引言

隨著通信技術(shù)的高速發(fā)展，移動(dòng)設(shè)備有限的計(jì)算能力、存儲(chǔ)空間和電池壽命等難以滿(mǎn)足復(fù)雜移動(dòng)應(yīng)用的低時(shí)延、高可靠性需求[1]. 近年來(lái)興起的移動(dòng)邊緣計(jì)算(Mobile Edge Computing, MEC)技術(shù)能夠?qū)⒁苿?dòng)應(yīng)用中的計(jì)算任務(wù)轉(zhuǎn)移到鄰近設(shè)備的網(wǎng)絡(luò)邊緣，有效地降低本地服務(wù)器的處理壓力，并避免回傳和核心網(wǎng)絡(luò)中的延遲[2]. 然而，由于通信過(guò)程中無(wú)線環(huán)境的復(fù)雜性，致使計(jì)算任務(wù)通過(guò)無(wú)線鏈路上傳到MEC服務(wù)器時(shí)容易造成無(wú)線資源利用率低和丟包等問(wèn)題. 因此，如何在保證應(yīng)用需求的前提下，找到一種最優(yōu)的卸載決策和資源分配策略，具有重要的研究?jī)r(jià)值.

近年來(lái)，已有許多學(xué)者圍繞MEC系統(tǒng)中卸載策略和資源優(yōu)化問(wèn)題進(jìn)行了相關(guān)研究. 文獻(xiàn)[3-5]中，通過(guò)近似最優(yōu)迭代資源分配算法得到系統(tǒng)能耗最小化的卸載決策和資源分配策略；文獻(xiàn)[6-7]，為解決移動(dòng)設(shè)備端的任務(wù)隊(duì)列動(dòng)態(tài)數(shù)據(jù)包卸載問(wèn)題，采用李雅普諾夫優(yōu)化方法獲得系統(tǒng)穩(wěn)定性與長(zhǎng)期卸載收益兼顧的卸載策略. 近年來(lái)，深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning, DRL)被廣泛地應(yīng)用到MEC網(wǎng)絡(luò)中，用于解決卸載決策和資源分配問(wèn)題. 文獻(xiàn)[8-10]中，將發(fā)射功率離散化后采用深度Q學(xué)習(xí)(Deep Q-network, DQN)算法進(jìn)行功率分配，而文獻(xiàn)[11]中采用深度確定性策略梯度(Deep Deterministic Policy Gradient, DDPG)算法解決連續(xù)功率變量分配問(wèn)題. 然而，現(xiàn)有的MEC卸載決策和資源分配研究中，在建立優(yōu)化模型并對(duì)相關(guān)參數(shù)進(jìn)行聯(lián)合優(yōu)化時(shí)，沒(méi)有考慮這些參數(shù)之間的內(nèi)在聯(lián)系，導(dǎo)致優(yōu)化模型復(fù)雜，實(shí)現(xiàn)困難.

針對(duì)上述問(wèn)題，本文在多種移動(dòng)設(shè)備、單個(gè)移動(dòng)邊緣計(jì)算服務(wù)器場(chǎng)景下，考慮計(jì)算任務(wù)隊(duì)列穩(wěn)定和時(shí)延限制、移動(dòng)設(shè)備的最大發(fā)射功率限制等條件，構(gòu)建以系統(tǒng)長(zhǎng)期平均能耗最小化為目標(biāo)的優(yōu)化模型. 然后，將計(jì)算任務(wù)的卸載決策、計(jì)算資源分配、上行信道分配和設(shè)備發(fā)射功率分配的優(yōu)化問(wèn)題簡(jiǎn)化為上行信道和發(fā)射功率分配的聯(lián)合優(yōu)化問(wèn)題. 由于信道狀態(tài)和任務(wù)隊(duì)列變化的馬爾可夫?qū)傩訹12]，將動(dòng)態(tài)MEC網(wǎng)絡(luò)中系統(tǒng)平均能耗最小化的問(wèn)題轉(zhuǎn)化為長(zhǎng)期獎(jiǎng)勵(lì)值最大化的問(wèn)題，利用DQN算法獲取最優(yōu)的資源分配策略，進(jìn)而得到計(jì)算任務(wù)抵達(dá)率與系統(tǒng)能效及數(shù)據(jù)處理率之間的內(nèi)在關(guān)系.

1 系統(tǒng)模型和問(wèn)題構(gòu)建

1.1 系統(tǒng)模型

本文構(gòu)建的MEC網(wǎng)絡(luò)模型包括1個(gè)MEC服務(wù)器、 1個(gè)基站及N個(gè)不同類(lèi)型的移動(dòng)設(shè)備. 基站和移動(dòng)設(shè)備均配置單個(gè)天線，且兩者之間采用正交頻分多址接入方式，在K個(gè)信道進(jìn)行數(shù)據(jù)傳輸，基站與MEC服務(wù)器之間通過(guò)光纖連接，所以忽略它們之間的傳輸延時(shí). 移動(dòng)設(shè)備的計(jì)算任務(wù)可以在本地處理，也可以通過(guò)基站卸載到MEC服務(wù)器上處理.

Bn(t)=max{Bn(t-1)+Ln(t)-

νn(t)-Dn(t),0}，

(1)

(2)

1.2 系統(tǒng)能耗優(yōu)化問(wèn)題構(gòu)建

MEC系統(tǒng)能耗包括設(shè)備本地處理數(shù)據(jù)能耗、設(shè)備上傳數(shù)據(jù)所需能耗和MEC服務(wù)器處理數(shù)據(jù)能耗. 在時(shí)隙t內(nèi)，移動(dòng)設(shè)備n本地處理數(shù)據(jù)的能耗

(3)

式中：ξ1是常數(shù)因子，由移動(dòng)設(shè)備的處理能力決定[13]. 上傳數(shù)據(jù)所需能耗

(4)

(5)

在時(shí)隙t內(nèi)，系統(tǒng)總能耗為

(6)

為了最小化系統(tǒng)長(zhǎng)期平均能量消耗并保持?jǐn)?shù)據(jù)隊(duì)列穩(wěn)定，該系統(tǒng)的優(yōu)化模型為

(7)

2 基于DQN的無(wú)線資源優(yōu)化算法

2.1 DQN原理

DQN的目標(biāo)是找到最優(yōu)的策略，使長(zhǎng)期獎(jiǎng)勵(lì)最大化[16]. 基于當(dāng)前的狀態(tài)，s(t)選擇動(dòng)作a(t)=π(s(t))，得到即時(shí)獎(jiǎng)勵(lì)r(t)，同時(shí)狀態(tài)s(t)轉(zhuǎn)移到下一狀態(tài)s(t+1)，再基于新的狀態(tài)繼續(xù)與環(huán)境進(jìn)行交互，持續(xù)該過(guò)程以得到最大的長(zhǎng)期獎(jiǎng)勵(lì).t時(shí)隙累計(jì)衰減獎(jiǎng)勵(lì)的表達(dá)式為

(8)

式中：E[·]表示均值；λ∈[0,1]為獎(jiǎng)勵(lì)衰減因子. 最優(yōu)策略π*的表達(dá)式為

(9)

在MEC網(wǎng)絡(luò)中，數(shù)據(jù)隊(duì)列的變化和無(wú)線信道的衰落均具有馬爾可夫?qū)傩? 根據(jù)馬爾可夫的性質(zhì)，下一時(shí)刻的狀態(tài)僅與當(dāng)前狀態(tài)相關(guān)，而與之前時(shí)刻的狀態(tài)無(wú)關(guān)，所以式(8)以遞歸方式更新值函數(shù)Q，其表達(dá)式為

Q(s(t),a(t))=Q(s(t),a(t))+δ(r(t)+

λmaxQ(s(t+1),a(t+1))-Q(s(t),a(t)))，

(10)

式中：δ為學(xué)習(xí)率.

2.2 DQN結(jié)構(gòu)

DQN包含兩個(gè)結(jié)構(gòu)相同的深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)， DNN包含一層隱藏層，兩層全連接層. 其中一個(gè)DNN為評(píng)估Q網(wǎng)絡(luò)，用于擬合值函數(shù)Q，其表達(dá)式為

Q(s(t),a(t);θ)≈Q*(s(t),a(t))，

(11)

式中：θ為評(píng)估Q網(wǎng)絡(luò)的權(quán)重參數(shù). 另一個(gè)DNN為目標(biāo)Q網(wǎng)絡(luò)，用于獲得目標(biāo)Q值.目標(biāo)網(wǎng)絡(luò)的Q值定義為

λmaxQ(s(t+1),a(t+1);θ-)，

(12)

式中：θ-為目標(biāo)Q網(wǎng)絡(luò)的權(quán)重參數(shù).

在學(xué)習(xí)階段，將每次和環(huán)境交互得到的獎(jiǎng)勵(lì)與狀態(tài)更新情況以(s(t),a(t),r(t),s(t+1))的形式存放在經(jīng)驗(yàn)池中[17]，當(dāng)經(jīng)驗(yàn)池中存儲(chǔ)的樣本量大于隨機(jī)抽樣的樣本量時(shí)開(kāi)始訓(xùn)練.在訓(xùn)練階段，從經(jīng)驗(yàn)池中隨機(jī)抽取小批樣本(si,ai,ri,si+1)，將si作為評(píng)估Q網(wǎng)絡(luò)的輸入， (ri,si+1)作為目標(biāo)Q網(wǎng)絡(luò)的輸入. 每一步訓(xùn)練中， DQN通過(guò)最小化損失函數(shù)來(lái)更新神經(jīng)網(wǎng)絡(luò)的參數(shù)，損失函數(shù)的表達(dá)式為

(13)

根據(jù)當(dāng)前從經(jīng)驗(yàn)池中抽取的樣本來(lái)計(jì)算評(píng)估網(wǎng)絡(luò)參數(shù)θ的梯度?θ，再使用自適應(yīng)估計(jì)(Adaptive Moment Estimation， Adam)算法更新評(píng)估Q網(wǎng)絡(luò)的參數(shù)θ.目標(biāo)Q網(wǎng)絡(luò)的參數(shù)θ-是通過(guò)每隔一段時(shí)間將評(píng)估Q網(wǎng)絡(luò)的參數(shù)θ直接賦值的方式更新.

3 仿真分析

3.1 仿真參數(shù)設(shè)置

仿真中主要的環(huán)境參數(shù)設(shè)置見(jiàn)表 1.

表 1 參數(shù)配置

神經(jīng)網(wǎng)絡(luò)隱藏層數(shù)為1，該層含256個(gè)節(jié)點(diǎn)，使用線性整流函數(shù)(Rectified Linear Unit， ReLU) 作為非線性激活函數(shù)；ε-貪心策略中的ε線性選擇從0～0.9；神經(jīng)網(wǎng)絡(luò)的參數(shù)更新過(guò)程中，學(xué)習(xí)率δ為8e-5，經(jīng)驗(yàn)池的大小為900，從經(jīng)驗(yàn)池中每批次采樣128個(gè)樣本，學(xué)習(xí)間隔步長(zhǎng)為5，目標(biāo)網(wǎng)絡(luò)參數(shù)更新的頻率為30. 訓(xùn)練步長(zhǎng)為200個(gè)回合，每回合包括500個(gè)時(shí)隙.

1.2 性能分析

圖 1 顯示了DQN算法的迭代收斂過(guò)程. 在該仿真過(guò)程中，用戶(hù)數(shù)N=5, 從圖 1 中可以看出，該算法在經(jīng)過(guò)30 000多次迭代后逐漸收斂，證明該算法在保持隊(duì)列穩(wěn)定約束條件下合理分配資源是可行的.

圖 1 DQN算法損失函數(shù)系Fig.1 The convergence speeds of the DQN algorithm

本文將DQN算法與“本地執(zhí)行”和“隨機(jī)選擇”算法進(jìn)行比較. “本地執(zhí)行”是指計(jì)算任務(wù)的數(shù)據(jù)隊(duì)列只能在設(shè)備本地處理； “隨機(jī)選擇”是指計(jì)算任務(wù)的數(shù)據(jù)隊(duì)列隨機(jī)選擇在設(shè)備本地處理，或者M(jìn)EC端處理. 圖 2 描述了計(jì)算任務(wù)的數(shù)據(jù)平均抵達(dá)率與系統(tǒng)平均能效和數(shù)據(jù)量處理率之間的關(guān)系.

圖 2 系統(tǒng)平均能效和數(shù)據(jù)處理率與平均抵達(dá)率關(guān)系Fig.2 Average energy-efficiency and packet computingratio against packet arrival ratio

圖 3 描述了計(jì)算任務(wù)的平均抵達(dá)率為 1.5 kb/Ts，系統(tǒng)平均能效和用戶(hù)數(shù)之間的關(guān)系. 從圖中可以看出，隨著用戶(hù)數(shù)的增加， 3種算法的系統(tǒng)平均能效均在增加，而本文提出的DQN算法的系統(tǒng)平均能效優(yōu)于其他兩種算法.

圖 3 系統(tǒng)平均能效和用戶(hù)數(shù)關(guān)系Fig.3 Average energy-efficiency versus the number of users

4 結(jié) 論

本文將MEC網(wǎng)絡(luò)中計(jì)算任務(wù)的卸載決策及資源分配問(wèn)題轉(zhuǎn)化為無(wú)線信道和功率分配的聯(lián)合優(yōu)化問(wèn)題，在保證移動(dòng)設(shè)備的計(jì)算任務(wù)隊(duì)列穩(wěn)定和時(shí)延限制、最大發(fā)射功率限制等約束條件下，通過(guò)DQN算法實(shí)現(xiàn)了使系統(tǒng)平均能耗最小的資源分配策略. 仿真結(jié)果表明，與本地執(zhí)行和隨機(jī)選擇算法相比，本文所提出的算法可以有效地提高系統(tǒng)的能效及數(shù)據(jù)量處理率.