楊 天,楊 軍
(寧夏大學(xué) 信息工程學(xué)院,寧夏 銀川 750021)
目前,智能化終端已經(jīng)成為現(xiàn)代生活中不可缺少的一部分[1-2],同時(shí)隨著5G 通信技術(shù)的發(fā)展,人們開始在智能終端設(shè)備上開展高清視頻直播、增強(qiáng)現(xiàn)實(shí)等新型業(yè)務(wù)。然而,由于受到計(jì)算能力和電池容量的限制,終端設(shè)備無法高效地滿足大量新型計(jì)算任務(wù)低時(shí)延、高計(jì)算的基本要求[3],而若將計(jì)算密集型任務(wù)卸載至云端,則會(huì)增加傳輸?shù)难舆t和額外的網(wǎng)絡(luò)負(fù)載[4-5]。為此,人們提出移動(dòng)邊緣計(jì)算(Mobile Edge Computing,MEC)[6-7]技術(shù),將云端的計(jì)算與存儲(chǔ)能力遷移至網(wǎng)絡(luò)邊緣,通過邊緣進(jìn)行任務(wù)計(jì)算,從而降低終端設(shè)備能耗與執(zhí)行時(shí)延,提高服務(wù)質(zhì)量[8]。
在MEC 環(huán)境中,以卸載決策和資源分配為主的計(jì)算卸載技術(shù)是學(xué)者們重點(diǎn)研究的對(duì)象[9]。目前相關(guān)研究主要針對(duì)多用戶單MEC 服務(wù)器場(chǎng)景,且多數(shù)沒有同時(shí)考慮計(jì)算資源約束與時(shí)延約束[10-17],這將導(dǎo)致不能更準(zhǔn)確地模擬真實(shí)的卸載情況,如在自動(dòng)駕駛、緊急救援等場(chǎng)景下,需要在有限資源下完成時(shí)延敏感型任務(wù)的計(jì)算。本文將卸載場(chǎng)景轉(zhuǎn)變?yōu)槎嘤脩舳郙EC 服務(wù)器場(chǎng)景,同時(shí)考慮計(jì)算資源有限與時(shí)延約束的情況,結(jié)合深度強(qiáng)化學(xué)習(xí)理論和一種新型目標(biāo)函數(shù),提出卸載決策與資源分配的聯(lián)合優(yōu)化方法,從而在滿足時(shí)延約束的情況下縮短計(jì)算任務(wù)完成時(shí)間并降低終端能耗。
近年來,國(guó)內(nèi)外學(xué)者已對(duì)MEC 計(jì)算卸載技術(shù)進(jìn)行了深入的研究。文獻(xiàn)[10]將可再生綠色能源引入到MEC系統(tǒng)中,將執(zhí)行時(shí)延與卸載失敗率作為優(yōu)化目標(biāo),基于Lyapunov 優(yōu)化提出一種卸載決策與資源分配算法,但該系統(tǒng)僅適用于單用戶卸載情況。文獻(xiàn)[11]根據(jù)任務(wù)剩余完成時(shí)間進(jìn)行邊緣服務(wù)器的計(jì)算切換來縮短任務(wù)完成時(shí)間,以提高任務(wù)的卸載效率。文獻(xiàn)[12]結(jié)合K近鄰(K Nearest Neighbor,KNN)算法與強(qiáng)化學(xué)習(xí)中的Q-learning 算法,提出一種多平臺(tái)卸載智能資源分配方法。該方法首先通過KNN 算法選擇卸載節(jié)點(diǎn),然后通過Q-learning算法優(yōu)化資源分配,以降低系統(tǒng)時(shí)延成本。文獻(xiàn)[11-12]雖然研究多用戶卸載問題,但更關(guān)注于時(shí)延的優(yōu)化而忽略了設(shè)備能耗的優(yōu)化。文獻(xiàn)[13]為了在計(jì)算依賴任務(wù)時(shí)控制超出時(shí)延約束的任務(wù)比例,提出一種最優(yōu)資源管理策略以最小化移動(dòng)設(shè)備能耗,但該模型沒有考慮邊緣設(shè)備的計(jì)算資源約束。文獻(xiàn)[14]在邊緣節(jié)點(diǎn)計(jì)算資源受限的情況下提出基于非合作博弈論的傳輸功率分配算法,獲得了較好的計(jì)算卸載性能。文獻(xiàn)[15]針對(duì)多用戶完全卸載決策提出一種基于博弈論的任務(wù)卸載算法。該算法將卸載博弈模型轉(zhuǎn)換為勢(shì)博弈模型,通過基于有限改進(jìn)性質(zhì)的分布式博弈方法尋找納什均衡解,以同時(shí)優(yōu)化計(jì)算時(shí)延和設(shè)備能耗。文獻(xiàn)[16]提出一種基于深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)的優(yōu)化算法。該算法首先利用序列二次規(guī)劃(Sequential Quadratic Programming,SQP)法得到優(yōu)化結(jié)果,然后利用優(yōu)化結(jié)果訓(xùn)練DNN,不斷更新網(wǎng)絡(luò)權(quán)值,直到訓(xùn)練完成。實(shí)驗(yàn)結(jié)果表明,訓(xùn)練完成的DNN可以很好地逼近SQP 的優(yōu)化結(jié)果且精度很高,運(yùn)行時(shí)間也大幅縮短。文獻(xiàn)[14-16]雖然考慮了計(jì)算資源約束,但提出的系統(tǒng)模型均建立在單個(gè)MEC 服務(wù)器上,沒有對(duì)多個(gè)MEC 服務(wù)器的計(jì)算資源受限問題進(jìn)行研究。文獻(xiàn)[17]建立了一個(gè)同時(shí)考慮終端、邊緣節(jié)點(diǎn)和云計(jì)算節(jié)點(diǎn)的半馬爾科夫決策過程資源分配模型,并提出一種尋找最優(yōu)資源分配方案的算法以降低能耗和時(shí)延,但該研究沒有考慮任務(wù)計(jì)算的時(shí)延約束。
本文將多用戶單MEC 服務(wù)器卸載場(chǎng)景轉(zhuǎn)變?yōu)槎嘤脩舳郙EC 服務(wù)器卸載場(chǎng)景,同時(shí)考慮服務(wù)器計(jì)算資源約束與任務(wù)時(shí)延約束,研究卸載決策與資源分配的聯(lián)合優(yōu)化方法,以期使系統(tǒng)在滿足時(shí)延約束時(shí)縮短完成時(shí)間并降低終端能耗。針對(duì)研究問題設(shè)計(jì)一種新的目標(biāo)函數(shù)并數(shù)學(xué)建模,利用結(jié)合深度學(xué)習(xí)感知能力與強(qiáng)化學(xué)習(xí)決策能力的深度強(qiáng)化學(xué)習(xí)方法,基于Nature Deep Q-learning(Nature DQN)算法并根據(jù)問題模型進(jìn)行部分改進(jìn),提出Based DQN 算法,并將該算法與全部本地卸載算法ALO、隨機(jī)卸載與分配算法ROA、最小完成時(shí)間(Minimum Complete Time,MCT)算法[11]和多平臺(tái)卸載智能資源分配算法[12]進(jìn)行實(shí)驗(yàn)對(duì)比,同時(shí)對(duì)比不同目標(biāo)函數(shù)下的優(yōu)化結(jié)果。
本文系統(tǒng)模型場(chǎng)景為多用戶多服務(wù)器應(yīng)用場(chǎng)景,如圖1 所示,其中有N臺(tái)終端設(shè)備與M臺(tái)MEC 服務(wù)器,并通過無線通信鏈路連接MEC 服務(wù)器計(jì)算卸載終端設(shè)備的任務(wù)數(shù)據(jù)。本文假設(shè)每個(gè)終端設(shè)備都可以對(duì)自己的執(zhí)行任務(wù)進(jìn)行卸載計(jì)算或本地計(jì)算,卸載時(shí)任務(wù)只能卸載到一臺(tái)MEC 服務(wù)器上進(jìn)行計(jì)算,并且每個(gè)終端設(shè)備處于無線連接的范圍之內(nèi)。而每臺(tái)MEC 服務(wù)器的計(jì)算能力有限,不能同時(shí)接受每一個(gè)終端的卸載請(qǐng)求。終端設(shè)備的集合為U={1,2,…,i,…,N},MEC 服務(wù)器的集合為S={1,2,…,j,…,M},所有任務(wù)的集合為R。模型中每個(gè)終端設(shè)備i都有一個(gè)待處理的計(jì)算密集型任務(wù)Ri,具體包括計(jì)算任務(wù)Ri所需的數(shù)據(jù)Di(代碼和參數(shù))、計(jì)算任務(wù)Ri所需的CPU 工作量Wi以及任務(wù)Ri的完成時(shí)延約束ηi,即Ri?(Di,Wi,ηi)。
圖1 系統(tǒng)模型場(chǎng)景Fig.1 Scene of system model
以向量X=[x1,x2,…,xi,…,xN]表示每個(gè)Ri的卸載決策。其中,xi∈{0,1,…,j,…,M},x=0 表示當(dāng)前為本地卸載,其余表示將Ri卸載至第j臺(tái)MEC 服務(wù)器。
若Ri在本地處理,用TLi表示Ri本地執(zhí)行的時(shí)間,具體定義如式(1)所示。
其中:工作量Wi具體為完成Ri所需的CPU 周期總數(shù)表示終端設(shè)備i本地的計(jì)算能力,即每秒所執(zhí)行的CPU 周期數(shù)。
其中:Ji為終端設(shè)備i計(jì)算每單位CPU 周期的能耗,根據(jù)文獻(xiàn)[18],
若Ri在邊緣處理,Ri邊緣執(zhí)行下的時(shí)延與設(shè)備能耗應(yīng)分別從數(shù)據(jù)上傳、數(shù)據(jù)處理和數(shù)據(jù)回傳3 個(gè)部分進(jìn)行計(jì)算,具體如下:
1)終端設(shè)備i將Ri的數(shù)據(jù)通過無線信道上傳至相應(yīng)的MEC 服務(wù)器。
其中:Di為Ri的數(shù)據(jù)大小;νK為系統(tǒng)模型中的數(shù)據(jù)上傳速率,即每秒上傳的數(shù)據(jù)量。則終端設(shè)備i上傳數(shù)據(jù)的能耗如式(4)所示。
其中:pK為終端設(shè)備i的上行傳輸功率。
2)MEC 在接收到處理數(shù)據(jù)后分配計(jì)算資源進(jìn)行計(jì)算。
此時(shí),終端設(shè)備i沒有計(jì)算任務(wù)而處于等待狀態(tài)并產(chǎn)生空閑能耗,設(shè)為終端設(shè)備i的空閑功率,則卸載計(jì)算下終端設(shè)備i的空閑能耗為:
3)MEC 服務(wù)器將計(jì)算結(jié)果返回給終端設(shè)備i。
根據(jù)文獻(xiàn)[19]可知,回傳時(shí)計(jì)算結(jié)果較小且下行速率較高。因此,本文忽略終端設(shè)備接收時(shí)的時(shí)延與能耗。則Ri邊緣執(zhí)行下的時(shí)延為傳輸時(shí)延與MEC 服務(wù)器計(jì)算時(shí)延之和,即:
Ri邊緣執(zhí)行下的設(shè)備能耗為設(shè)備i的上傳能耗與設(shè)備i等待Ri在MEC 服務(wù)器上計(jì)算完成的空閑能耗之和,即:
綜上所述,終端設(shè)備i中任務(wù)Ri整個(gè)計(jì)算過程的時(shí)延Ti和能耗Ei分別為:
需要注意的是,Ti與應(yīng)滿足式(12)和式(13)所示的限制條件。
其中:Ri的時(shí)延約束ηi參照文獻(xiàn)[20],為計(jì)算能力是1.4 GHz 并根據(jù)式(1)計(jì)算結(jié)果的2 倍;Fj為第j臺(tái)MEC服務(wù)器的整體計(jì)算資源,即每個(gè)卸載至第j臺(tái)MEC 服務(wù)器的Ri所分配的計(jì)算資源總和不應(yīng)超過Fj。
本文的研究目的是在多用戶多MEC 服務(wù)器場(chǎng)景下,考慮計(jì)算資源有限且計(jì)算任務(wù)具有時(shí)延約束的情況,設(shè)計(jì)聯(lián)合優(yōu)化系統(tǒng)的卸載決策和資源分配方案,使得所有計(jì)算任務(wù)在滿足時(shí)延約束下縮短完成時(shí)間并最小化所有終端設(shè)備的能耗,同時(shí)延長(zhǎng)終端設(shè)備的使用時(shí)間。因此,系統(tǒng)目標(biāo)函數(shù)G定義如式(14)所示。
其中:X為任務(wù)卸載決策向量;Y為計(jì)算資源分配向量;限制條件C1~C3 表示每個(gè)任務(wù)Ri只能卸載到本地或其中一臺(tái)MEC 服務(wù)器上進(jìn)行計(jì)算;C4 表示任務(wù)完成時(shí)延的約束;C5 表示分配的計(jì)算資源應(yīng)滿足的限制約束。
在上文建立的問題模型下,考慮采用結(jié)合強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)方法進(jìn)行問題求解,一方面是因?yàn)樯疃葟?qiáng)化學(xué)習(xí)中的強(qiáng)化學(xué)習(xí)理論以“試錯(cuò)”的方式讓智能體在與環(huán)境交互的過程中通過獲得獎(jiǎng)勵(lì)來指導(dǎo)行為以改善決策,這適用于本文模型中任務(wù)卸載決策與計(jì)算資源分配的聯(lián)合優(yōu)化,另一方面是因?yàn)橐肷疃葘W(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)方法可避免狀態(tài)空間、動(dòng)作空間過大而帶來的存儲(chǔ)困難問題。因此,下文將結(jié)合系統(tǒng)模型,首先設(shè)計(jì)系統(tǒng)狀態(tài)(State)、系統(tǒng)動(dòng)作(Action)、獎(jiǎng)勵(lì)函數(shù)(Reward)3 個(gè)要素,然后對(duì)深度強(qiáng)化學(xué)習(xí)算法中的Nature DQN 算法進(jìn)行部分改進(jìn),提出一種基于深度強(qiáng)化學(xué)習(xí)的卸載決策與資源分配聯(lián)合優(yōu)化方法Based DQN,使得目標(biāo)函數(shù)值G最小。
為聯(lián)合優(yōu)化卸載決策與資源分配方案以最小化目標(biāo)函數(shù)值,令系統(tǒng)狀態(tài)s包括卸載決策向量X、計(jì)算資源分配向量Y、剩余計(jì)算資源向量Z與G,如式(19)所示。
其中,Z=[z1,z2,…,zj,…,zM],zj表示為第j臺(tái)MEC 服務(wù)器所剩的計(jì)算資源:
初始化時(shí),系統(tǒng)狀態(tài)為本地卸載狀態(tài),即X為零向量,Y中每個(gè)任務(wù)所分配的計(jì)算資源為fLi,G為全部本地卸載下的計(jì)算值,Z中每個(gè)zj=Fj。
系統(tǒng)動(dòng)作a應(yīng)確定對(duì)哪一項(xiàng)任務(wù)進(jìn)行怎樣的卸載決策與計(jì)算資源分配,即對(duì)終端設(shè)備i下的任務(wù)Ri選擇卸載與資源分配方案,調(diào)整系統(tǒng)狀態(tài),如式(21)所示。
其中:λ為Ri的卸載方案,λ∈{0,1,…,j,…,M};ψ為Ri的計(jì)算資源分配方案。需要注意的是,當(dāng)λ=0 時(shí),
獎(jiǎng)勵(lì)函數(shù)r應(yīng)關(guān)聯(lián)目標(biāo)函數(shù),具體定義如式(22)所示。
其中:G為當(dāng)前t時(shí)刻狀態(tài)st下的目標(biāo)函數(shù)值;G′為st采取動(dòng)作at到下一狀態(tài)st+1下的目標(biāo)函數(shù)值,兩者分別通過各自狀態(tài)中的卸載決策向量與資源分配向量計(jì)算出相應(yīng)的時(shí)延與能耗后,再按照式(14)進(jìn)行計(jì)算;GL為全部本地卸載下的計(jì)算值,當(dāng)G′結(jié)果更優(yōu)時(shí)(G>G′)獲得正獎(jiǎng)勵(lì),即在狀態(tài)st下采取動(dòng)作at能夠獲得更優(yōu)的目標(biāo)函數(shù)值,反之獎(jiǎng)勵(lì)為非正值。
Nature DQN 是在Q-Learning 算法的基礎(chǔ)上演變而來的。在Q-learning 算法中,智能體在t時(shí)刻下觀察環(huán)境中的狀態(tài)st,根據(jù)概率以隨機(jī)或者Q表的方式選擇動(dòng)作at執(zhí)行,改變到狀態(tài)st+1并獲得獎(jiǎng)勵(lì)rt,通過式(23)更新Q表與當(dāng)前狀態(tài),并循環(huán)此學(xué)習(xí)過程,收斂于最大的Q函數(shù)Q*,得到最優(yōu)策略。
其中:δ是學(xué)習(xí)率;γ是折扣系數(shù)。
相較于Q-learning 算法,Nature DQN 算法不同點(diǎn)在于其Q值不是直接通過系統(tǒng)狀態(tài)和系統(tǒng)動(dòng)作計(jì)算,而是通過Q網(wǎng)絡(luò)(神經(jīng)網(wǎng)絡(luò))進(jìn)行計(jì)算,即期望神經(jīng)網(wǎng)絡(luò)擬合Q表,如式(24)如示。以神經(jīng)網(wǎng)絡(luò)進(jìn)行擬合,可以應(yīng)對(duì)隨著狀態(tài)、動(dòng)作維數(shù)的增大而帶來的Q表存儲(chǔ)困難問題,如在本文所提的狀態(tài)與動(dòng)作中,隨著N與M的增加,自身的組合數(shù)量龐大,Q表將難以進(jìn)行對(duì)應(yīng)Q值的存儲(chǔ)。
其中:θ為神經(jīng)網(wǎng)絡(luò)的參數(shù)。Nature DQN 算法中使用了2 個(gè)結(jié)構(gòu)相同但θ不同的Q網(wǎng)絡(luò)(當(dāng)前網(wǎng)絡(luò)Q與目標(biāo)網(wǎng)絡(luò)Q′),當(dāng)前網(wǎng)絡(luò)Q進(jìn)行動(dòng)作選擇并更新θ,目標(biāo)網(wǎng)絡(luò)Q′計(jì)算目標(biāo)Q 值。目標(biāo)網(wǎng)絡(luò)Q′中的參數(shù)θ′不需要迭代更新,而是每隔一段時(shí)間復(fù)制θ進(jìn)行延遲更新,以減少目標(biāo)Q值和當(dāng)前Q值相關(guān)性,使算法更好地收斂。
此外,Nature DQN 采用經(jīng)驗(yàn)回放訓(xùn)練強(qiáng)化學(xué)習(xí)的學(xué)習(xí)過程,即將st、at、rt、st+1、done(判斷學(xué)習(xí)是否結(jié)束的布爾值)五元組存儲(chǔ)到一個(gè)經(jīng)驗(yàn)池中,通過隨機(jī)抽樣進(jìn)行學(xué)習(xí),減少樣本之間的相關(guān)性,更好地訓(xùn)練神經(jīng)網(wǎng)絡(luò)。
結(jié)合問題模型,本文根據(jù)約束條件C5,在原始Nature DQN 算法的動(dòng)作選擇上增加了at中ψ是否滿足計(jì)算資源約束的判斷,篩選有效的執(zhí)行動(dòng)作,以提高學(xué)習(xí)效率。具體算法如下:
將動(dòng)作篩選算法(AS)加入到Nature DQN 算法中,若at滿足計(jì)算資源約束則執(zhí)行該動(dòng)作,否則重新根據(jù)ε貪婪策略選取動(dòng)作。具體算法如下:
利用Python 語言在Visual Studio Code 平臺(tái)上對(duì)本文算法與全部本地卸載算法(ALO)、隨機(jī)卸載與分配算法(ROA)、最小完成時(shí)間算法(Minimum Complete Time,MCT)[11]、多平臺(tái)卸載智能資源分配算法[12]進(jìn)行實(shí)驗(yàn)對(duì)比,以驗(yàn)證本文算法的有效性,同時(shí)在不同目標(biāo)函數(shù)下對(duì)比Based DQN 算法的優(yōu)化效果,以驗(yàn)證新提目標(biāo)函數(shù)的有效性。具體仿真參數(shù)如下:
假設(shè)每一臺(tái)設(shè)備i的計(jì)算能力為1 GHz,上行傳輸功率為700 mW,空閑功率為100 mW,上傳速率為2 Mb/s,M=2,且每臺(tái)MEC 服務(wù)器的整體計(jì)算能力分別為5 GHz 與4 GHz,ψ∈{fLi,1.2,1.4,1.6}GHz。任務(wù)Ri中的數(shù)據(jù)Di服從(500,1 000)的均勻分布,單位為Kb。工作量Wi服從(1 000,1 500)的均勻分布,單位為Megacycles。
對(duì)于深度強(qiáng)化學(xué)習(xí)的參數(shù),設(shè)ε 為0.9,學(xué)習(xí)率δ為0.001,折扣系數(shù)γ為0.9,經(jīng)驗(yàn)回放集合Φ大小為2 000,隨機(jī)采樣樣本數(shù)b為32,更新頻率h為50,學(xué)習(xí)間隔步長(zhǎng)σ為5(學(xué)習(xí)步數(shù)需大于200)。
假設(shè)有7 臺(tái)終端設(shè)備,即所需執(zhí)行的任務(wù)數(shù)量為7,執(zhí)行回合數(shù)(episode)為150,比較目標(biāo)函數(shù)值G的變化,如圖2 所示??梢钥闯觯篟OA 算法在整個(gè)迭代過程震蕩,無法收斂;ALO 算法始終保持收斂,但由于全部任務(wù)卸載到本地,造成較大的時(shí)延與能耗,目標(biāo)函數(shù)值較高;其余3 種算法隨著episode 的增加逐步收斂,MCT 算法在第96 回合達(dá)到收斂;多平臺(tái)卸載智能資源分配算法在第127 回合后逐步收斂,且收斂目標(biāo)函數(shù)值比MCT 算法的計(jì)算結(jié)果降低3.12%;Based DQN 算法自100 回合后逐步收斂,其結(jié)果較于多平臺(tái)卸載智能資源分配算法降低1.53%,在5 種算法中結(jié)果最優(yōu)。MCT 算法與多平臺(tái)卸載智能資源分配算法結(jié)果較差于Based DQN 算法,這是因?yàn)閮烧邔?duì)任務(wù)完成時(shí)延關(guān)注更多。此外,多平臺(tái)卸載智能資源分配算法中使用Q-learning 算法進(jìn)行訓(xùn)練學(xué)習(xí),由于本文中狀態(tài)、動(dòng)作維數(shù)較大,Q表存儲(chǔ)問題導(dǎo)致探索不全面,使得多平臺(tái)卸載智能資源分配算法不能得到最優(yōu)結(jié)果。
圖2 5 種算法的目標(biāo)函數(shù)值變化Fig.2 Change of objective function values of five algorithms
將ROA 算法、MCT 算法、多平臺(tái)卸載智能資源分配算法和Based DQN 算法的能耗分別與ALO 算法的能耗總和做差,再分別除以ALO 算法的能耗總和作為降低能耗比例(Energy Reduced Scale,ERS),并聯(lián)合對(duì)比在滿足時(shí)延約束下的縮短完成時(shí)間的比例(Time Reduced Scale,TRS),如表1 所示。可以看出:MCT 算法、多平臺(tái)卸載智能資源分配算法與Based DQN 算法可在縮短完成時(shí)間的同時(shí)降低終端能耗50%以上,且Based DQN 算法中時(shí)延與能耗減少的比例更大。
表1 4 種算法的TRS 和ERSTable 1 TRS and ERS of four algorithms %
分別在0.01、0.001、0.0001 這3 種不同學(xué)習(xí)率δ下對(duì)比Based DQN 算法的收斂情況,如圖3 所示??梢钥闯觯寒?dāng)δ為0.01時(shí),算法收斂速度較快,但較大的學(xué)習(xí)率導(dǎo)致收斂于局部最優(yōu)解;當(dāng)δ較小為0.000 1 時(shí),算法收斂速度較慢,較長(zhǎng)的收斂時(shí)間影響了算法的優(yōu)化效率。
圖3 不同學(xué)習(xí)率下Based DQN 算法的收斂情況Fig.3 Convergence of Based DQN algorithm under different learning rates
為進(jìn)一步比較Based DQN 算法在不同學(xué)習(xí)率δ下對(duì)時(shí)延與能耗的優(yōu)化效果,分別對(duì)比不同學(xué)習(xí)率δ下的Based DQN 算法在收斂過程中TRS 與ERS 的變化情況,如圖4、圖5 所示??梢钥闯觯寒?dāng)δ為0.01時(shí),TRS 與ERS 收斂于局部最優(yōu)解;當(dāng)δ為0.000 1時(shí),TRS 與ERS 收斂過慢;當(dāng)δ為0.001 時(shí),Based DQN算法收斂后對(duì)時(shí)延與能耗的優(yōu)化效果最佳。因此,本文算法采用0.001 的學(xué)習(xí)率。
圖4 不同學(xué)習(xí)率下Based DQN 算法的TRSFig.4 TRS of Based DQN algorithm under different learning rates
圖5 不同學(xué)習(xí)率下Based DQN 算法的ERSFig.5 ERS of Based DQN algorithm under different learning rates
分別模擬[20,100]的累計(jì)任務(wù)數(shù)量,對(duì)比5 種算法的目標(biāo)函數(shù)值,如圖6 所示。可以看出:隨著累計(jì)任務(wù)數(shù)量的增加,5 種算法的G值逐漸增大,而在不同累計(jì)任務(wù)數(shù)量下ALO 算法、ROA 算法的G值較大,這主要是由于兩種算法沒有對(duì)任務(wù)卸載方案與計(jì)算資源分配方案進(jìn)行合理優(yōu)化,導(dǎo)致任務(wù)執(zhí)行時(shí),時(shí)延與能耗較高。3 種優(yōu)化算法相比前述兩種算法在不同累計(jì)任務(wù)數(shù)量下能夠有效降低目標(biāo)函數(shù)值。當(dāng)累計(jì)任務(wù)數(shù)量為20 時(shí),3 種算法差別較小,但隨著累計(jì)任務(wù)數(shù)量的增加,Based DQN 算法的優(yōu)化效果得以體現(xiàn)。以累計(jì)任務(wù)數(shù)量等于100 時(shí)為例,多平臺(tái)卸載智能資源分配算法、Based DQN 算法相較于MCT 算法G值分別降低3.62%、5.89%。
圖6 不同累計(jì)任務(wù)數(shù)量下5 種算法的目標(biāo)函數(shù)值Fig.6 Objective function values of five algorithm under different numbers of cumulative tasks
此外,本文將多平臺(tái)卸載智能資源分配算法與Based DQN 算法相較于MCT 算法的時(shí)延與能耗分別降低的比例進(jìn)行對(duì)比,如表2 所示??梢钥闯觯涸诖罅坷塾?jì)任務(wù)數(shù)量下,Based DQN 算法優(yōu)化效果更佳。
表2 2 種算法對(duì)MCT 算法的優(yōu)化效果Table 2 Optimization effects of two algorithms for MCT algorithm %
對(duì)于降低時(shí)延與能耗的多目標(biāo)優(yōu)化問題,通常以任務(wù)執(zhí)行時(shí)延與終端執(zhí)行能耗的加權(quán)和作為目標(biāo)函數(shù)進(jìn)行問題求解。將每一個(gè)任務(wù)執(zhí)行時(shí)延與能耗加權(quán)和的平均值作為另一種目標(biāo)函數(shù)(見式(25)),與本文所提目標(biāo)函數(shù)(見式(14))進(jìn)行時(shí)延與能耗的優(yōu)化對(duì)比,終端設(shè)備數(shù)為7。
在式(25)所示的目標(biāo)函數(shù)中:τ為執(zhí)行時(shí)延的權(quán)重系數(shù);1-τ為執(zhí)行能耗的權(quán)重系數(shù)。考慮到本文是在滿足時(shí)延約束下縮短時(shí)延、降低能耗,將τ分別取值為0.7、0.6、0.5 與式(14)在Based DQN 算法下進(jìn)行TRS、ERS 聯(lián)合實(shí)驗(yàn)對(duì)比,如表3 所示??梢钥闯觯寒?dāng)τ=0.7 和τ=0.6 時(shí),算法更多關(guān)注時(shí)延的優(yōu)化;當(dāng)τ=0.5 時(shí),優(yōu)化結(jié)果較為均衡,而在新目標(biāo)函數(shù)下的Based DQN 算法優(yōu)化效果最好,能夠在滿足時(shí)延約束下最大程度地縮短時(shí)延并降低能耗。
表3 不同目標(biāo)函數(shù)下Based DQN 算法的TRS 和ERSTable 3 TRS and ERS of Based DQN algorithm under different objective functions %
為進(jìn)一步比較不同目標(biāo)函數(shù)對(duì)時(shí)延與能耗的優(yōu)化程度,在累計(jì)任務(wù)為100 時(shí),對(duì)比4 種目標(biāo)函數(shù)下Based DQN 算法相較于MCT 算法時(shí)延與能耗分別降低的比例,如表4 所示??梢钥闯觯築ased DQN 算法在新目標(biāo)函數(shù)下時(shí)延與能耗的優(yōu)化效果更好,驗(yàn)證了本文所設(shè)計(jì)目標(biāo)函數(shù)的有效性。
表4 不同目標(biāo)函數(shù)下Based DQN 算法對(duì)MCT 算法的優(yōu)化效果Table 4 Optimization effect of Based DQN algorithm for MCT algorithm under different objective functions %
本文在MEC 服務(wù)器計(jì)算資源有限的情況下考慮時(shí)延約束,設(shè)計(jì)一種新的目標(biāo)函數(shù)并構(gòu)建數(shù)學(xué)模型,對(duì)深度強(qiáng)化學(xué)習(xí)中的Nature DQN 算法進(jìn)行改進(jìn),提出卸載決策與資源分配的聯(lián)合優(yōu)化算法:Based DQN,以縮短計(jì)算任務(wù)完成時(shí)間,降低終端能耗。實(shí)驗(yàn)結(jié)果表明,該算法的優(yōu)化效果均優(yōu)于ALO 算法、ROA 算法、MCT算法和多平臺(tái)卸載智能資源分配算法,且其在本文設(shè)計(jì)的目標(biāo)函數(shù)下結(jié)果更優(yōu)。下一步將研究任務(wù)具有優(yōu)先級(jí)與執(zhí)行順序以及無線干擾環(huán)境下的卸載決策和資源分配方案。