高 云, 郭艷艷, 衛(wèi) 霞
(山西大學(xué) 物理電子工程學(xué)院, 山西 太原 030006)
隨著通信技術(shù)的高速發(fā)展, 移動(dòng)設(shè)備有限的計(jì)算能力、 存儲(chǔ)空間和電池壽命等難以滿(mǎn)足復(fù)雜移動(dòng)應(yīng)用的低時(shí)延、 高可靠性需求[1]. 近年來(lái)興起的移動(dòng)邊緣計(jì)算(Mobile Edge Computing, MEC)技術(shù)能夠?qū)⒁苿?dòng)應(yīng)用中的計(jì)算任務(wù)轉(zhuǎn)移到鄰近設(shè)備的網(wǎng)絡(luò)邊緣, 有效地降低本地服務(wù)器的處理壓力, 并避免回傳和核心網(wǎng)絡(luò)中的延遲[2]. 然而, 由于通信過(guò)程中無(wú)線環(huán)境的復(fù)雜性, 致使計(jì)算任務(wù)通過(guò)無(wú)線鏈路上傳到MEC服務(wù)器時(shí)容易造成無(wú)線資源利用率低和丟包等問(wèn)題. 因此, 如何在保證應(yīng)用需求的前提下, 找到一種最優(yōu)的卸載決策和資源分配策略, 具有重要的研究?jī)r(jià)值.
近年來(lái), 已有許多學(xué)者圍繞MEC系統(tǒng)中卸載策略和資源優(yōu)化問(wèn)題進(jìn)行了相關(guān)研究. 文獻(xiàn)[3-5]中, 通過(guò)近似最優(yōu)迭代資源分配算法得到系統(tǒng)能耗最小化的卸載決策和資源分配策略; 文獻(xiàn)[6-7], 為解決移動(dòng)設(shè)備端的任務(wù)隊(duì)列動(dòng)態(tài)數(shù)據(jù)包卸載問(wèn)題, 采用李雅普諾夫優(yōu)化方法獲得系統(tǒng)穩(wěn)定性與長(zhǎng)期卸載收益兼顧的卸載策略. 近年來(lái), 深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning, DRL)被廣泛地應(yīng)用到MEC網(wǎng)絡(luò)中, 用于解決卸載決策和資源分配問(wèn)題. 文獻(xiàn)[8-10]中, 將發(fā)射功率離散化后采用深度Q學(xué)習(xí)(Deep Q-network, DQN)算法進(jìn)行功率分配, 而文獻(xiàn)[11]中采用深度確定性策略梯度(Deep Deterministic Policy Gradient, DDPG)算法解決連續(xù)功率變量分配問(wèn)題. 然而, 現(xiàn)有的MEC卸載決策和資源分配研究中, 在建立優(yōu)化模型并對(duì)相關(guān)參數(shù)進(jìn)行聯(lián)合優(yōu)化時(shí), 沒(méi)有考慮這些參數(shù)之間的內(nèi)在聯(lián)系, 導(dǎo)致優(yōu)化模型復(fù)雜, 實(shí)現(xiàn)困難.
針對(duì)上述問(wèn)題, 本文在多種移動(dòng)設(shè)備、 單個(gè)移動(dòng)邊緣計(jì)算服務(wù)器場(chǎng)景下, 考慮計(jì)算任務(wù)隊(duì)列穩(wěn)定和時(shí)延限制、 移動(dòng)設(shè)備的最大發(fā)射功率限制等條件, 構(gòu)建以系統(tǒng)長(zhǎng)期平均能耗最小化為目標(biāo)的優(yōu)化模型. 然后, 將計(jì)算任務(wù)的卸載決策、 計(jì)算資源分配、 上行信道分配和設(shè)備發(fā)射功率分配的優(yōu)化問(wèn)題簡(jiǎn)化為上行信道和發(fā)射功率分配的聯(lián)合優(yōu)化問(wèn)題. 由于信道狀態(tài)和任務(wù)隊(duì)列變化的馬爾可夫?qū)傩訹12], 將動(dòng)態(tài)MEC網(wǎng)絡(luò)中系統(tǒng)平均能耗最小化的問(wèn)題轉(zhuǎn)化為長(zhǎng)期獎(jiǎng)勵(lì)值最大化的問(wèn)題, 利用DQN算法獲取最優(yōu)的資源分配策略, 進(jìn)而得到計(jì)算任務(wù)抵達(dá)率與系統(tǒng)能效及數(shù)據(jù)處理率之間的內(nèi)在關(guān)系.
本文構(gòu)建的MEC網(wǎng)絡(luò)模型包括1個(gè)MEC服務(wù)器、 1個(gè)基站及N個(gè)不同類(lèi)型的移動(dòng)設(shè)備. 基站和移動(dòng)設(shè)備均配置單個(gè)天線, 且兩者之間采用正交頻分多址接入方式, 在K個(gè)信道進(jìn)行數(shù)據(jù)傳輸, 基站與MEC服務(wù)器之間通過(guò)光纖連接, 所以忽略它們之間的傳輸延時(shí). 移動(dòng)設(shè)備的計(jì)算任務(wù)可以在本地處理, 也可以通過(guò)基站卸載到MEC服務(wù)器上處理.
Bn(t)=max{Bn(t-1)+Ln(t)-
νn(t)-Dn(t),0},
(1)
(2)
MEC系統(tǒng)能耗包括設(shè)備本地處理數(shù)據(jù)能耗、 設(shè)備上傳數(shù)據(jù)所需能耗和MEC服務(wù)器處理數(shù)據(jù)能耗. 在時(shí)隙t內(nèi), 移動(dòng)設(shè)備n本地處理數(shù)據(jù)的能耗
(3)
式中:ξ1是常數(shù)因子, 由移動(dòng)設(shè)備的處理能力決定[13]. 上傳數(shù)據(jù)所需能耗
(4)
(5)
在時(shí)隙t內(nèi), 系統(tǒng)總能耗為
(6)
為了最小化系統(tǒng)長(zhǎng)期平均能量消耗并保持?jǐn)?shù)據(jù)隊(duì)列穩(wěn)定, 該系統(tǒng)的優(yōu)化模型為
(7)
DQN的目標(biāo)是找到最優(yōu)的策略, 使長(zhǎng)期獎(jiǎng)勵(lì)最大化[16]. 基于當(dāng)前的狀態(tài),s(t)選擇動(dòng)作a(t)=π(s(t)), 得到即時(shí)獎(jiǎng)勵(lì)r(t), 同時(shí)狀態(tài)s(t)轉(zhuǎn)移到下一狀態(tài)s(t+1), 再基于新的狀態(tài)繼續(xù)與環(huán)境進(jìn)行交互, 持續(xù)該過(guò)程以得到最大的長(zhǎng)期獎(jiǎng)勵(lì).t時(shí)隙累計(jì)衰減獎(jiǎng)勵(lì)的表達(dá)式為
(8)
式中:E[·]表示均值;λ∈[0,1]為獎(jiǎng)勵(lì)衰減因子. 最優(yōu)策略π*的表達(dá)式為
(9)
在MEC網(wǎng)絡(luò)中, 數(shù)據(jù)隊(duì)列的變化和無(wú)線信道的衰落均具有馬爾可夫?qū)傩? 根據(jù)馬爾可夫的性質(zhì), 下一時(shí)刻的狀態(tài)僅與當(dāng)前狀態(tài)相關(guān), 而與之前時(shí)刻的狀態(tài)無(wú)關(guān), 所以式(8)以遞歸方式更新值函數(shù)Q, 其表達(dá)式為
Q(s(t),a(t))=Q(s(t),a(t))+δ(r(t)+
λmaxQ(s(t+1),a(t+1))-Q(s(t),a(t))),
(10)
式中:δ為學(xué)習(xí)率.
DQN包含兩個(gè)結(jié)構(gòu)相同的深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN), DNN包含一層隱藏層, 兩層全連接層. 其中一個(gè)DNN為評(píng)估Q網(wǎng)絡(luò), 用于擬合值函數(shù)Q, 其表達(dá)式為
Q(s(t),a(t);θ)≈Q*(s(t),a(t)),
(11)
式中:θ為評(píng)估Q網(wǎng)絡(luò)的權(quán)重參數(shù). 另一個(gè)DNN為目標(biāo)Q網(wǎng)絡(luò), 用于獲得目標(biāo)Q值.目標(biāo)網(wǎng)絡(luò)的Q值定義為
λmaxQ(s(t+1),a(t+1);θ-),
(12)
式中:θ-為目標(biāo)Q網(wǎng)絡(luò)的權(quán)重參數(shù).
在學(xué)習(xí)階段, 將每次和環(huán)境交互得到的獎(jiǎng)勵(lì)與狀態(tài)更新情況以(s(t),a(t),r(t),s(t+1))的形式存放在經(jīng)驗(yàn)池中[17], 當(dāng)經(jīng)驗(yàn)池中存儲(chǔ)的樣本量大于隨機(jī)抽樣的樣本量時(shí)開(kāi)始訓(xùn)練.在訓(xùn)練階段, 從經(jīng)驗(yàn)池中隨機(jī)抽取小批樣本(si,ai,ri,si+1), 將si作為評(píng)估Q網(wǎng)絡(luò)的輸入, (ri,si+1)作為目標(biāo)Q網(wǎng)絡(luò)的輸入. 每一步訓(xùn)練中, DQN通過(guò)最小化損失函數(shù)來(lái)更新神經(jīng)網(wǎng)絡(luò)的參數(shù), 損失函數(shù)的表達(dá)式為
(13)
根據(jù)當(dāng)前從經(jīng)驗(yàn)池中抽取的樣本來(lái)計(jì)算評(píng)估網(wǎng)絡(luò)參數(shù)θ的梯度?θ, 再使用自適應(yīng)估計(jì)(Adaptive Moment Estimation, Adam)算法更新評(píng)估Q網(wǎng)絡(luò)的參數(shù)θ.目標(biāo)Q網(wǎng)絡(luò)的參數(shù)θ-是通過(guò)每隔一段時(shí)間將評(píng)估Q網(wǎng)絡(luò)的參數(shù)θ直接賦值的方式更新.
仿真中主要的環(huán)境參數(shù)設(shè)置見(jiàn)表 1.
表 1 參數(shù)配置
神經(jīng)網(wǎng)絡(luò)隱藏層數(shù)為1, 該層含256個(gè)節(jié)點(diǎn), 使用線性整流函數(shù)(Rectified Linear Unit, ReLU) 作為非線性激活函數(shù);ε-貪心策略中的ε線性選擇從0~0.9; 神經(jīng)網(wǎng)絡(luò)的參數(shù)更新過(guò)程中, 學(xué)習(xí)率δ為8e-5, 經(jīng)驗(yàn)池的大小為900, 從經(jīng)驗(yàn)池中每批次采樣128個(gè)樣本, 學(xué)習(xí)間隔步長(zhǎng)為5, 目標(biāo)網(wǎng)絡(luò)參數(shù)更新的頻率為30. 訓(xùn)練步長(zhǎng)為200個(gè)回合, 每回合包括500個(gè)時(shí)隙.
圖 1 顯示了DQN算法的迭代收斂過(guò)程. 在該仿真過(guò)程中, 用戶(hù)數(shù)N=5, 從圖 1 中可以看出, 該算法在經(jīng)過(guò)30 000多次迭代后逐漸收斂, 證明該算法在保持隊(duì)列穩(wěn)定約束條件下合理分配資源是可行的.
圖 1 DQN算法損失函數(shù)系Fig.1 The convergence speeds of the DQN algorithm
本文將DQN算法與“本地執(zhí)行”和“隨機(jī)選擇”算法進(jìn)行比較. “本地執(zhí)行”是指計(jì)算任務(wù)的數(shù)據(jù)隊(duì)列只能在設(shè)備本地處理; “隨機(jī)選擇”是指計(jì)算任務(wù)的數(shù)據(jù)隊(duì)列隨機(jī)選擇在設(shè)備本地處理, 或者M(jìn)EC端處理. 圖 2 描述了計(jì)算任務(wù)的數(shù)據(jù)平均抵達(dá)率與系統(tǒng)平均能效和數(shù)據(jù)量處理率之間的關(guān)系.
圖 2 系統(tǒng)平均能效和數(shù)據(jù)處理率與平均抵達(dá)率關(guān)系Fig.2 Average energy-efficiency and packet computingratio against packet arrival ratio
圖 3 描述了計(jì)算任務(wù)的平均抵達(dá)率為 1.5 kb/Ts, 系統(tǒng)平均能效和用戶(hù)數(shù)之間的關(guān)系. 從圖中可以看出, 隨著用戶(hù)數(shù)的增加, 3種算法的系統(tǒng)平均能效均在增加, 而本文提出的DQN算法的系統(tǒng)平均能效優(yōu)于其他兩種算法.
圖 3 系統(tǒng)平均能效和用戶(hù)數(shù)關(guān)系Fig.3 Average energy-efficiency versus the number of users
本文將MEC網(wǎng)絡(luò)中計(jì)算任務(wù)的卸載決策及資源分配問(wèn)題轉(zhuǎn)化為無(wú)線信道和功率分配的聯(lián)合優(yōu)化問(wèn)題, 在保證移動(dòng)設(shè)備的計(jì)算任務(wù)隊(duì)列穩(wěn)定和時(shí)延限制、 最大發(fā)射功率限制等約束條件下, 通過(guò)DQN算法實(shí)現(xiàn)了使系統(tǒng)平均能耗最小的資源分配策略. 仿真結(jié)果表明, 與本地執(zhí)行和隨機(jī)選擇算法相比, 本文所提出的算法可以有效地提高系統(tǒng)的能效及數(shù)據(jù)量處理率.