亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

MEC 中卸載決策與資源分配的深度強(qiáng)化學(xué)習(xí)方法

2021-08-20 04:52:26楊天，楊軍

計(jì)算機(jī)工程 2021年8期

關(guān)鍵詞：優(yōu)化

楊天，楊軍

（寧夏大學(xué) 信息工程學(xué)院，寧夏銀川 750021）

0 概述

目前，智能化終端已經(jīng)成為現(xiàn)代生活中不可缺少的一部分［1-2］，同時(shí)隨著5G 通信技術(shù)的發(fā)展，人們開始在智能終端設(shè)備上開展高清視頻直播、增強(qiáng)現(xiàn)實(shí)等新型業(yè)務(wù)。然而，由于受到計(jì)算能力和電池容量的限制，終端設(shè)備無法高效地滿足大量新型計(jì)算任務(wù)低時(shí)延、高計(jì)算的基本要求［3］，而若將計(jì)算密集型任務(wù)卸載至云端，則會(huì)增加傳輸?shù)难舆t和額外的網(wǎng)絡(luò)負(fù)載［4-5］。為此，人們提出移動(dòng)邊緣計(jì)算（Mobile Edge Computing，MEC）［6-7］技術(shù)，將云端的計(jì)算與存儲(chǔ)能力遷移至網(wǎng)絡(luò)邊緣，通過邊緣進(jìn)行任務(wù)計(jì)算，從而降低終端設(shè)備能耗與執(zhí)行時(shí)延，提高服務(wù)質(zhì)量［8］。

在MEC 環(huán)境中，以卸載決策和資源分配為主的計(jì)算卸載技術(shù)是學(xué)者們重點(diǎn)研究的對(duì)象［9］。目前相關(guān)研究主要針對(duì)多用戶單MEC 服務(wù)器場(chǎng)景，且多數(shù)沒有同時(shí)考慮計(jì)算資源約束與時(shí)延約束［10-17］，這將導(dǎo)致不能更準(zhǔn)確地模擬真實(shí)的卸載情況，如在自動(dòng)駕駛、緊急救援等場(chǎng)景下，需要在有限資源下完成時(shí)延敏感型任務(wù)的計(jì)算。本文將卸載場(chǎng)景轉(zhuǎn)變?yōu)槎嘤脩舳郙EC 服務(wù)器場(chǎng)景，同時(shí)考慮計(jì)算資源有限與時(shí)延約束的情況，結(jié)合深度強(qiáng)化學(xué)習(xí)理論和一種新型目標(biāo)函數(shù)，提出卸載決策與資源分配的聯(lián)合優(yōu)化方法，從而在滿足時(shí)延約束的情況下縮短計(jì)算任務(wù)完成時(shí)間并降低終端能耗。

1 相關(guān)研究

近年來，國(guó)內(nèi)外學(xué)者已對(duì)MEC 計(jì)算卸載技術(shù)進(jìn)行了深入的研究。文獻(xiàn)［10］將可再生綠色能源引入到MEC系統(tǒng)中，將執(zhí)行時(shí)延與卸載失敗率作為優(yōu)化目標(biāo)，基于Lyapunov 優(yōu)化提出一種卸載決策與資源分配算法，但該系統(tǒng)僅適用于單用戶卸載情況。文獻(xiàn)［11］根據(jù)任務(wù)剩余完成時(shí)間進(jìn)行邊緣服務(wù)器的計(jì)算切換來縮短任務(wù)完成時(shí)間，以提高任務(wù)的卸載效率。文獻(xiàn)［12］結(jié)合K近鄰（K Nearest Neighbor，KNN）算法與強(qiáng)化學(xué)習(xí)中的Q-learning 算法，提出一種多平臺(tái)卸載智能資源分配方法。該方法首先通過KNN 算法選擇卸載節(jié)點(diǎn)，然后通過Q-learning算法優(yōu)化資源分配，以降低系統(tǒng)時(shí)延成本。文獻(xiàn)［11-12］雖然研究多用戶卸載問題，但更關(guān)注于時(shí)延的優(yōu)化而忽略了設(shè)備能耗的優(yōu)化。文獻(xiàn)［13］為了在計(jì)算依賴任務(wù)時(shí)控制超出時(shí)延約束的任務(wù)比例，提出一種最優(yōu)資源管理策略以最小化移動(dòng)設(shè)備能耗，但該模型沒有考慮邊緣設(shè)備的計(jì)算資源約束。文獻(xiàn)［14］在邊緣節(jié)點(diǎn)計(jì)算資源受限的情況下提出基于非合作博弈論的傳輸功率分配算法，獲得了較好的計(jì)算卸載性能。文獻(xiàn)［15］針對(duì)多用戶完全卸載決策提出一種基于博弈論的任務(wù)卸載算法。該算法將卸載博弈模型轉(zhuǎn)換為勢(shì)博弈模型，通過基于有限改進(jìn)性質(zhì)的分布式博弈方法尋找納什均衡解，以同時(shí)優(yōu)化計(jì)算時(shí)延和設(shè)備能耗。文獻(xiàn)［16］提出一種基于深度神經(jīng)網(wǎng)絡(luò)（Deep Neural Network，DNN）的優(yōu)化算法。該算法首先利用序列二次規(guī)劃（Sequential Quadratic Programming，SQP）法得到優(yōu)化結(jié)果，然后利用優(yōu)化結(jié)果訓(xùn)練DNN，不斷更新網(wǎng)絡(luò)權(quán)值，直到訓(xùn)練完成。實(shí)驗(yàn)結(jié)果表明，訓(xùn)練完成的DNN可以很好地逼近SQP 的優(yōu)化結(jié)果且精度很高，運(yùn)行時(shí)間也大幅縮短。文獻(xiàn)［14-16］雖然考慮了計(jì)算資源約束，但提出的系統(tǒng)模型均建立在單個(gè)MEC 服務(wù)器上，沒有對(duì)多個(gè)MEC 服務(wù)器的計(jì)算資源受限問題進(jìn)行研究。文獻(xiàn)［17］建立了一個(gè)同時(shí)考慮終端、邊緣節(jié)點(diǎn)和云計(jì)算節(jié)點(diǎn)的半馬爾科夫決策過程資源分配模型，并提出一種尋找最優(yōu)資源分配方案的算法以降低能耗和時(shí)延，但該研究沒有考慮任務(wù)計(jì)算的時(shí)延約束。

本文將多用戶單MEC 服務(wù)器卸載場(chǎng)景轉(zhuǎn)變?yōu)槎嘤脩舳郙EC 服務(wù)器卸載場(chǎng)景，同時(shí)考慮服務(wù)器計(jì)算資源約束與任務(wù)時(shí)延約束，研究卸載決策與資源分配的聯(lián)合優(yōu)化方法，以期使系統(tǒng)在滿足時(shí)延約束時(shí)縮短完成時(shí)間并降低終端能耗。針對(duì)研究問題設(shè)計(jì)一種新的目標(biāo)函數(shù)并數(shù)學(xué)建模，利用結(jié)合深度學(xué)習(xí)感知能力與強(qiáng)化學(xué)習(xí)決策能力的深度強(qiáng)化學(xué)習(xí)方法，基于Nature Deep Q-learning（Nature DQN）算法并根據(jù)問題模型進(jìn)行部分改進(jìn)，提出Based DQN 算法，并將該算法與全部本地卸載算法ALO、隨機(jī)卸載與分配算法ROA、最小完成時(shí)間（Minimum Complete Time，MCT）算法［11］和多平臺(tái)卸載智能資源分配算法［12］進(jìn)行實(shí)驗(yàn)對(duì)比，同時(shí)對(duì)比不同目標(biāo)函數(shù)下的優(yōu)化結(jié)果。

2 系統(tǒng)模型

本文系統(tǒng)模型場(chǎng)景為多用戶多服務(wù)器應(yīng)用場(chǎng)景，如圖1 所示，其中有N臺(tái)終端設(shè)備與M臺(tái)MEC 服務(wù)器，并通過無線通信鏈路連接MEC 服務(wù)器計(jì)算卸載終端設(shè)備的任務(wù)數(shù)據(jù)。本文假設(shè)每個(gè)終端設(shè)備都可以對(duì)自己的執(zhí)行任務(wù)進(jìn)行卸載計(jì)算或本地計(jì)算，卸載時(shí)任務(wù)只能卸載到一臺(tái)MEC 服務(wù)器上進(jìn)行計(jì)算，并且每個(gè)終端設(shè)備處于無線連接的范圍之內(nèi)。而每臺(tái)MEC 服務(wù)器的計(jì)算能力有限，不能同時(shí)接受每一個(gè)終端的卸載請(qǐng)求。終端設(shè)備的集合為U=｛1，2，…，i，…，N｝，MEC 服務(wù)器的集合為S=｛1，2，…，j，…，M｝，所有任務(wù)的集合為R。模型中每個(gè)終端設(shè)備i都有一個(gè)待處理的計(jì)算密集型任務(wù)Ri，具體包括計(jì)算任務(wù)Ri所需的數(shù)據(jù)Di（代碼和參數(shù)）、計(jì)算任務(wù)Ri所需的CPU 工作量Wi以及任務(wù)Ri的完成時(shí)延約束ηi，即Ri?(Di，Wi，ηi)。

圖1 系統(tǒng)模型場(chǎng)景Fig.1 Scene of system model

以向量X=[x1，x2，…，xi，…，xN]表示每個(gè)Ri的卸載決策。其中，xi∈{0，1，…，j，…，M}，x=0 表示當(dāng)前為本地卸載，其余表示將Ri卸載至第j臺(tái)MEC 服務(wù)器。

2.1 計(jì)算模型

若Ri在本地處理，用TLi表示Ri本地執(zhí)行的時(shí)間，具體定義如式（1）所示。

其中：工作量Wi具體為完成Ri所需的CPU 周期總數(shù)表示終端設(shè)備i本地的計(jì)算能力，即每秒所執(zhí)行的CPU 周期數(shù)。

其中：Ji為終端設(shè)備i計(jì)算每單位CPU 周期的能耗，根據(jù)文獻(xiàn)［18］，

若Ri在邊緣處理，Ri邊緣執(zhí)行下的時(shí)延與設(shè)備能耗應(yīng)分別從數(shù)據(jù)上傳、數(shù)據(jù)處理和數(shù)據(jù)回傳3 個(gè)部分進(jìn)行計(jì)算，具體如下：

1）終端設(shè)備i將Ri的數(shù)據(jù)通過無線信道上傳至相應(yīng)的MEC 服務(wù)器。

其中：Di為Ri的數(shù)據(jù)大小；νK為系統(tǒng)模型中的數(shù)據(jù)上傳速率，即每秒上傳的數(shù)據(jù)量。則終端設(shè)備i上傳數(shù)據(jù)的能耗如式（4）所示。

其中：pK為終端設(shè)備i的上行傳輸功率。

2）MEC 在接收到處理數(shù)據(jù)后分配計(jì)算資源進(jìn)行計(jì)算。

此時(shí)，終端設(shè)備i沒有計(jì)算任務(wù)而處于等待狀態(tài)并產(chǎn)生空閑能耗，設(shè)為終端設(shè)備i的空閑功率，則卸載計(jì)算下終端設(shè)備i的空閑能耗為：

3）MEC 服務(wù)器將計(jì)算結(jié)果返回給終端設(shè)備i。

根據(jù)文獻(xiàn)［19］可知，回傳時(shí)計(jì)算結(jié)果較小且下行速率較高。因此，本文忽略終端設(shè)備接收時(shí)的時(shí)延與能耗。則Ri邊緣執(zhí)行下的時(shí)延為傳輸時(shí)延與MEC 服務(wù)器計(jì)算時(shí)延之和，即：

Ri邊緣執(zhí)行下的設(shè)備能耗為設(shè)備i的上傳能耗與設(shè)備i等待Ri在MEC 服務(wù)器上計(jì)算完成的空閑能耗之和，即：

綜上所述，終端設(shè)備i中任務(wù)Ri整個(gè)計(jì)算過程的時(shí)延Ti和能耗Ei分別為：

需要注意的是，Ti與應(yīng)滿足式（12）和式（13）所示的限制條件。

其中：Ri的時(shí)延約束ηi參照文獻(xiàn)［20］，為計(jì)算能力是1.4 GHz 并根據(jù)式（1）計(jì)算結(jié)果的2 倍；Fj為第j臺(tái)MEC服務(wù)器的整體計(jì)算資源，即每個(gè)卸載至第j臺(tái)MEC 服務(wù)器的Ri所分配的計(jì)算資源總和不應(yīng)超過Fj。

2.2 問題模型

本文的研究目的是在多用戶多MEC 服務(wù)器場(chǎng)景下，考慮計(jì)算資源有限且計(jì)算任務(wù)具有時(shí)延約束的情況，設(shè)計(jì)聯(lián)合優(yōu)化系統(tǒng)的卸載決策和資源分配方案，使得所有計(jì)算任務(wù)在滿足時(shí)延約束下縮短完成時(shí)間并最小化所有終端設(shè)備的能耗，同時(shí)延長(zhǎng)終端設(shè)備的使用時(shí)間。因此，系統(tǒng)目標(biāo)函數(shù)G定義如式（14）所示。

其中：X為任務(wù)卸載決策向量；Y為計(jì)算資源分配向量；限制條件C1～C3 表示每個(gè)任務(wù)Ri只能卸載到本地或其中一臺(tái)MEC 服務(wù)器上進(jìn)行計(jì)算；C4 表示任務(wù)完成時(shí)延的約束；C5 表示分配的計(jì)算資源應(yīng)滿足的限制約束。

3 卸載決策與資源分配的聯(lián)合優(yōu)化方法

在上文建立的問題模型下，考慮采用結(jié)合強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)方法進(jìn)行問題求解，一方面是因?yàn)樯疃葟?qiáng)化學(xué)習(xí)中的強(qiáng)化學(xué)習(xí)理論以“試錯(cuò)”的方式讓智能體在與環(huán)境交互的過程中通過獲得獎(jiǎng)勵(lì)來指導(dǎo)行為以改善決策，這適用于本文模型中任務(wù)卸載決策與計(jì)算資源分配的聯(lián)合優(yōu)化，另一方面是因?yàn)橐肷疃葘W(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)方法可避免狀態(tài)空間、動(dòng)作空間過大而帶來的存儲(chǔ)困難問題。因此，下文將結(jié)合系統(tǒng)模型，首先設(shè)計(jì)系統(tǒng)狀態(tài)（State）、系統(tǒng)動(dòng)作（Action）、獎(jiǎng)勵(lì)函數(shù)（Reward）3 個(gè)要素，然后對(duì)深度強(qiáng)化學(xué)習(xí)算法中的Nature DQN 算法進(jìn)行部分改進(jìn)，提出一種基于深度強(qiáng)化學(xué)習(xí)的卸載決策與資源分配聯(lián)合優(yōu)化方法Based DQN，使得目標(biāo)函數(shù)值G最小。

3.1 系統(tǒng)狀態(tài)、動(dòng)作與獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

為聯(lián)合優(yōu)化卸載決策與資源分配方案以最小化目標(biāo)函數(shù)值，令系統(tǒng)狀態(tài)s包括卸載決策向量X、計(jì)算資源分配向量Y、剩余計(jì)算資源向量Z與G，如式（19）所示。

其中，Z=[z1，z2，…，zj，…，zM]，zj表示為第j臺(tái)MEC 服務(wù)器所剩的計(jì)算資源：

初始化時(shí)，系統(tǒng)狀態(tài)為本地卸載狀態(tài)，即X為零向量，Y中每個(gè)任務(wù)所分配的計(jì)算資源為fLi，G為全部本地卸載下的計(jì)算值，Z中每個(gè)zj=Fj。

系統(tǒng)動(dòng)作a應(yīng)確定對(duì)哪一項(xiàng)任務(wù)進(jìn)行怎樣的卸載決策與計(jì)算資源分配，即對(duì)終端設(shè)備i下的任務(wù)Ri選擇卸載與資源分配方案，調(diào)整系統(tǒng)狀態(tài)，如式（21）所示。

其中：λ為Ri的卸載方案，λ∈｛0，1，…，j，…，M｝；ψ為Ri的計(jì)算資源分配方案。需要注意的是，當(dāng)λ=0 時(shí)，

獎(jiǎng)勵(lì)函數(shù)r應(yīng)關(guān)聯(lián)目標(biāo)函數(shù)，具體定義如式（22）所示。

其中：G為當(dāng)前t時(shí)刻狀態(tài)st下的目標(biāo)函數(shù)值；G′為st采取動(dòng)作at到下一狀態(tài)st+1下的目標(biāo)函數(shù)值，兩者分別通過各自狀態(tài)中的卸載決策向量與資源分配向量計(jì)算出相應(yīng)的時(shí)延與能耗后，再按照式（14）進(jìn)行計(jì)算；GL為全部本地卸載下的計(jì)算值，當(dāng)G′結(jié)果更優(yōu)時(shí)（G＞G′）獲得正獎(jiǎng)勵(lì)，即在狀態(tài)st下采取動(dòng)作at能夠獲得更優(yōu)的目標(biāo)函數(shù)值，反之獎(jiǎng)勵(lì)為非正值。

3.2 基于Nature DQN 算法的聯(lián)合優(yōu)化

Nature DQN 是在Q-Learning 算法的基礎(chǔ)上演變而來的。在Q-learning 算法中，智能體在t時(shí)刻下觀察環(huán)境中的狀態(tài)st，根據(jù)概率以隨機(jī)或者Q表的方式選擇動(dòng)作at執(zhí)行，改變到狀態(tài)st+1并獲得獎(jiǎng)勵(lì)rt，通過式（23）更新Q表與當(dāng)前狀態(tài)，并循環(huán)此學(xué)習(xí)過程，收斂于最大的Q函數(shù)Q*，得到最優(yōu)策略。

其中：δ是學(xué)習(xí)率；γ是折扣系數(shù)。

相較于Q-learning 算法，Nature DQN 算法不同點(diǎn)在于其Q值不是直接通過系統(tǒng)狀態(tài)和系統(tǒng)動(dòng)作計(jì)算，而是通過Q網(wǎng)絡(luò)（神經(jīng)網(wǎng)絡(luò)）進(jìn)行計(jì)算，即期望神經(jīng)網(wǎng)絡(luò)擬合Q表，如式（24）如示。以神經(jīng)網(wǎng)絡(luò)進(jìn)行擬合，可以應(yīng)對(duì)隨著狀態(tài)、動(dòng)作維數(shù)的增大而帶來的Q表存儲(chǔ)困難問題，如在本文所提的狀態(tài)與動(dòng)作中，隨著N與M的增加，自身的組合數(shù)量龐大，Q表將難以進(jìn)行對(duì)應(yīng)Q值的存儲(chǔ)。

其中：θ為神經(jīng)網(wǎng)絡(luò)的參數(shù)。Nature DQN 算法中使用了2 個(gè)結(jié)構(gòu)相同但θ不同的Q網(wǎng)絡(luò)（當(dāng)前網(wǎng)絡(luò)Q與目標(biāo)網(wǎng)絡(luò)Q′），當(dāng)前網(wǎng)絡(luò)Q進(jìn)行動(dòng)作選擇并更新θ，目標(biāo)網(wǎng)絡(luò)Q′計(jì)算目標(biāo)Q 值。目標(biāo)網(wǎng)絡(luò)Q′中的參數(shù)θ′不需要迭代更新，而是每隔一段時(shí)間復(fù)制θ進(jìn)行延遲更新，以減少目標(biāo)Q值和當(dāng)前Q值相關(guān)性，使算法更好地收斂。

此外，Nature DQN 采用經(jīng)驗(yàn)回放訓(xùn)練強(qiáng)化學(xué)習(xí)的學(xué)習(xí)過程，即將st、at、rt、st+1、done（判斷學(xué)習(xí)是否結(jié)束的布爾值）五元組存儲(chǔ)到一個(gè)經(jīng)驗(yàn)池中，通過隨機(jī)抽樣進(jìn)行學(xué)習(xí)，減少樣本之間的相關(guān)性，更好地訓(xùn)練神經(jīng)網(wǎng)絡(luò)。

結(jié)合問題模型，本文根據(jù)約束條件C5，在原始Nature DQN 算法的動(dòng)作選擇上增加了at中ψ是否滿足計(jì)算資源約束的判斷，篩選有效的執(zhí)行動(dòng)作，以提高學(xué)習(xí)效率。具體算法如下：

將動(dòng)作篩選算法（AS）加入到Nature DQN 算法中，若at滿足計(jì)算資源約束則執(zhí)行該動(dòng)作，否則重新根據(jù)ε貪婪策略選取動(dòng)作。具體算法如下：

4 實(shí)驗(yàn)與結(jié)果分析

利用Python 語言在Visual Studio Code 平臺(tái)上對(duì)本文算法與全部本地卸載算法（ALO）、隨機(jī)卸載與分配算法（ROA）、最小完成時(shí)間算法（Minimum Complete Time，MCT）［11］、多平臺(tái)卸載智能資源分配算法［12］進(jìn)行實(shí)驗(yàn)對(duì)比，以驗(yàn)證本文算法的有效性，同時(shí)在不同目標(biāo)函數(shù)下對(duì)比Based DQN 算法的優(yōu)化效果，以驗(yàn)證新提目標(biāo)函數(shù)的有效性。具體仿真參數(shù)如下：

假設(shè)每一臺(tái)設(shè)備i的計(jì)算能力為1 GHz，上行傳輸功率為700 mW，空閑功率為100 mW，上傳速率為2 Mb/s，M=2，且每臺(tái)MEC 服務(wù)器的整體計(jì)算能力分別為5 GHz 與4 GHz，ψ∈｛fLi，1.2，1.4，1.6｝GHz。任務(wù)Ri中的數(shù)據(jù)Di服從（500，1 000）的均勻分布，單位為Kb。工作量Wi服從（1 000，1 500）的均勻分布，單位為Megacycles。

對(duì)于深度強(qiáng)化學(xué)習(xí)的參數(shù)，設(shè)ε 為0.9，學(xué)習(xí)率δ為0.001，折扣系數(shù)γ為0.9，經(jīng)驗(yàn)回放集合Φ大小為2 000，隨機(jī)采樣樣本數(shù)b為32，更新頻率h為50，學(xué)習(xí)間隔步長(zhǎng)σ為5（學(xué)習(xí)步數(shù)需大于200）。

4.1 算法收斂情況

假設(shè)有7 臺(tái)終端設(shè)備，即所需執(zhí)行的任務(wù)數(shù)量為7，執(zhí)行回合數(shù)（episode）為150，比較目標(biāo)函數(shù)值G的變化，如圖2 所示?？梢钥闯觯篟OA 算法在整個(gè)迭代過程震蕩，無法收斂；ALO 算法始終保持收斂，但由于全部任務(wù)卸載到本地，造成較大的時(shí)延與能耗，目標(biāo)函數(shù)值較高；其余3 種算法隨著episode 的增加逐步收斂，MCT 算法在第96 回合達(dá)到收斂；多平臺(tái)卸載智能資源分配算法在第127 回合后逐步收斂，且收斂目標(biāo)函數(shù)值比MCT 算法的計(jì)算結(jié)果降低3.12%；Based DQN 算法自100 回合后逐步收斂，其結(jié)果較于多平臺(tái)卸載智能資源分配算法降低1.53%，在5 種算法中結(jié)果最優(yōu)。MCT 算法與多平臺(tái)卸載智能資源分配算法結(jié)果較差于Based DQN 算法，這是因?yàn)閮烧邔?duì)任務(wù)完成時(shí)延關(guān)注更多。此外，多平臺(tái)卸載智能資源分配算法中使用Q-learning 算法進(jìn)行訓(xùn)練學(xué)習(xí)，由于本文中狀態(tài)、動(dòng)作維數(shù)較大，Q表存儲(chǔ)問題導(dǎo)致探索不全面，使得多平臺(tái)卸載智能資源分配算法不能得到最優(yōu)結(jié)果。

圖2 5 種算法的目標(biāo)函數(shù)值變化Fig.2 Change of objective function values of five algorithms

將ROA 算法、MCT 算法、多平臺(tái)卸載智能資源分配算法和Based DQN 算法的能耗分別與ALO 算法的能耗總和做差，再分別除以ALO 算法的能耗總和作為降低能耗比例（Energy Reduced Scale，ERS），并聯(lián)合對(duì)比在滿足時(shí)延約束下的縮短完成時(shí)間的比例（Time Reduced Scale，TRS），如表1 所示。可以看出：MCT 算法、多平臺(tái)卸載智能資源分配算法與Based DQN 算法可在縮短完成時(shí)間的同時(shí)降低終端能耗50%以上，且Based DQN 算法中時(shí)延與能耗減少的比例更大。

表1 4 種算法的TRS 和ERSTable 1 TRS and ERS of four algorithms %

4.2 不同學(xué)習(xí)率下的算法收斂情況

分別在0.01、0.001、0.0001 這3 種不同學(xué)習(xí)率δ下對(duì)比Based DQN 算法的收斂情況，如圖3 所示?？梢钥闯觯寒?dāng)δ為0.01時(shí)，算法收斂速度較快，但較大的學(xué)習(xí)率導(dǎo)致收斂于局部最優(yōu)解；當(dāng)δ較小為0.000 1 時(shí)，算法收斂速度較慢，較長(zhǎng)的收斂時(shí)間影響了算法的優(yōu)化效率。

圖3 不同學(xué)習(xí)率下Based DQN 算法的收斂情況Fig.3 Convergence of Based DQN algorithm under different learning rates

為進(jìn)一步比較Based DQN 算法在不同學(xué)習(xí)率δ下對(duì)時(shí)延與能耗的優(yōu)化效果，分別對(duì)比不同學(xué)習(xí)率δ下的Based DQN 算法在收斂過程中TRS 與ERS 的變化情況，如圖4、圖5 所示?？梢钥闯觯寒?dāng)δ為0.01時(shí)，TRS 與ERS 收斂于局部最優(yōu)解；當(dāng)δ為0.000 1時(shí)，TRS 與ERS 收斂過慢；當(dāng)δ為0.001 時(shí)，Based DQN算法收斂后對(duì)時(shí)延與能耗的優(yōu)化效果最佳。因此，本文算法采用0.001 的學(xué)習(xí)率。

圖4 不同學(xué)習(xí)率下Based DQN 算法的TRSFig.4 TRS of Based DQN algorithm under different learning rates

圖5 不同學(xué)習(xí)率下Based DQN 算法的ERSFig.5 ERS of Based DQN algorithm under different learning rates

4.3 不同累計(jì)任務(wù)數(shù)量下的算法目標(biāo)函數(shù)值對(duì)比

分別模擬［20，100］的累計(jì)任務(wù)數(shù)量，對(duì)比5 種算法的目標(biāo)函數(shù)值，如圖6 所示。可以看出：隨著累計(jì)任務(wù)數(shù)量的增加，5 種算法的G值逐漸增大，而在不同累計(jì)任務(wù)數(shù)量下ALO 算法、ROA 算法的G值較大，這主要是由于兩種算法沒有對(duì)任務(wù)卸載方案與計(jì)算資源分配方案進(jìn)行合理優(yōu)化，導(dǎo)致任務(wù)執(zhí)行時(shí)，時(shí)延與能耗較高。3 種優(yōu)化算法相比前述兩種算法在不同累計(jì)任務(wù)數(shù)量下能夠有效降低目標(biāo)函數(shù)值。當(dāng)累計(jì)任務(wù)數(shù)量為20 時(shí)，3 種算法差別較小，但隨著累計(jì)任務(wù)數(shù)量的增加，Based DQN 算法的優(yōu)化效果得以體現(xiàn)。以累計(jì)任務(wù)數(shù)量等于100 時(shí)為例，多平臺(tái)卸載智能資源分配算法、Based DQN 算法相較于MCT 算法G值分別降低3.62%、5.89%。

圖6 不同累計(jì)任務(wù)數(shù)量下5 種算法的目標(biāo)函數(shù)值Fig.6 Objective function values of five algorithm under different numbers of cumulative tasks

此外，本文將多平臺(tái)卸載智能資源分配算法與Based DQN 算法相較于MCT 算法的時(shí)延與能耗分別降低的比例進(jìn)行對(duì)比，如表2 所示?？梢钥闯觯涸诖罅坷塾?jì)任務(wù)數(shù)量下，Based DQN 算法優(yōu)化效果更佳。

表2 2 種算法對(duì)MCT 算法的優(yōu)化效果Table 2 Optimization effects of two algorithms for MCT algorithm %

4.4 不同目標(biāo)函數(shù)下的優(yōu)化情況

對(duì)于降低時(shí)延與能耗的多目標(biāo)優(yōu)化問題，通常以任務(wù)執(zhí)行時(shí)延與終端執(zhí)行能耗的加權(quán)和作為目標(biāo)函數(shù)進(jìn)行問題求解。將每一個(gè)任務(wù)執(zhí)行時(shí)延與能耗加權(quán)和的平均值作為另一種目標(biāo)函數(shù)（見式（25）），與本文所提目標(biāo)函數(shù)（見式（14））進(jìn)行時(shí)延與能耗的優(yōu)化對(duì)比，終端設(shè)備數(shù)為7。

在式（25）所示的目標(biāo)函數(shù)中：τ為執(zhí)行時(shí)延的權(quán)重系數(shù)；1-τ為執(zhí)行能耗的權(quán)重系數(shù)。考慮到本文是在滿足時(shí)延約束下縮短時(shí)延、降低能耗，將τ分別取值為0.7、0.6、0.5 與式（14）在Based DQN 算法下進(jìn)行TRS、ERS 聯(lián)合實(shí)驗(yàn)對(duì)比，如表3 所示?？梢钥闯觯寒?dāng)τ=0.7 和τ=0.6 時(shí)，算法更多關(guān)注時(shí)延的優(yōu)化；當(dāng)τ=0.5 時(shí)，優(yōu)化結(jié)果較為均衡，而在新目標(biāo)函數(shù)下的Based DQN 算法優(yōu)化效果最好，能夠在滿足時(shí)延約束下最大程度地縮短時(shí)延并降低能耗。

表3 不同目標(biāo)函數(shù)下Based DQN 算法的TRS 和ERSTable 3 TRS and ERS of Based DQN algorithm under different objective functions %

為進(jìn)一步比較不同目標(biāo)函數(shù)對(duì)時(shí)延與能耗的優(yōu)化程度，在累計(jì)任務(wù)為100 時(shí)，對(duì)比4 種目標(biāo)函數(shù)下Based DQN 算法相較于MCT 算法時(shí)延與能耗分別降低的比例，如表4 所示?？梢钥闯觯築ased DQN 算法在新目標(biāo)函數(shù)下時(shí)延與能耗的優(yōu)化效果更好，驗(yàn)證了本文所設(shè)計(jì)目標(biāo)函數(shù)的有效性。

表4 不同目標(biāo)函數(shù)下Based DQN 算法對(duì)MCT 算法的優(yōu)化效果Table 4 Optimization effect of Based DQN algorithm for MCT algorithm under different objective functions %

5 結(jié)束語

本文在MEC 服務(wù)器計(jì)算資源有限的情況下考慮時(shí)延約束，設(shè)計(jì)一種新的目標(biāo)函數(shù)并構(gòu)建數(shù)學(xué)模型，對(duì)深度強(qiáng)化學(xué)習(xí)中的Nature DQN 算法進(jìn)行改進(jìn)，提出卸載決策與資源分配的聯(lián)合優(yōu)化算法：Based DQN，以縮短計(jì)算任務(wù)完成時(shí)間，降低終端能耗。實(shí)驗(yàn)結(jié)果表明，該算法的優(yōu)化效果均優(yōu)于ALO 算法、ROA 算法、MCT算法和多平臺(tái)卸載智能資源分配算法，且其在本文設(shè)計(jì)的目標(biāo)函數(shù)下結(jié)果更優(yōu)。下一步將研究任務(wù)具有優(yōu)先級(jí)與執(zhí)行順序以及無線干擾環(huán)境下的卸載決策和資源分配方案。