陳清林,鄺祝芳
(中南林業(yè)科技大學(xué) 計算機與信息工程學(xué)院,長沙 410018)
移動互聯(lián)網(wǎng)中各種數(shù)據(jù)流量的爆發(fā)式增長和用戶設(shè)備使用率的不斷增高,極大地推動了無線通信和移動網(wǎng)絡(luò)技術(shù)的發(fā)展[1]。此外,隨著物聯(lián)網(wǎng)、人工智能、第五代移動通信(5G)等技術(shù)的普及,也使移動用戶對數(shù)據(jù)處理速率和服務(wù)質(zhì)量(Quality of Service,QoS)的要求不斷提高[2]。目前,移動邊緣計算(Mobile Edge Computing,MEC)是產(chǎn)業(yè)界和學(xué)術(shù)界研究的重點[3],旨在解決價值與應(yīng)用之間的矛盾,并且應(yīng)用場景十分豐富[4],如智能交通[5]、車聯(lián)網(wǎng)等。MEC 是無線接入網(wǎng)中的一種新模式,其通過部署高性能的服務(wù)器來提高移動網(wǎng)絡(luò)邊緣的計算能力[6]。MEC 服務(wù)器密集分布在移動用戶附近,用戶設(shè)備可以通過無線鏈接將計算任務(wù)卸載到MEC 服務(wù)器[7]。計算卸載可以幫助移動用戶顯著降低應(yīng)用程序的體驗延遲[8]。將移動邊緣服務(wù)器部署在離數(shù)據(jù)源較近的范圍內(nèi),可以避免數(shù)據(jù)上傳到較遠的云服務(wù)器,從而減少數(shù)據(jù)往返的等待時延和消耗成本[9]。
本文針對單用戶MEC 系統(tǒng),設(shè)計基于深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法的數(shù)據(jù)緩存優(yōu)化機制,對服務(wù)緩存放置、計算卸載決策和系統(tǒng)資源分配(即移動用戶的CPU 處理頻率和傳輸功率)進行聯(lián)合優(yōu)化。
隨著各種移動應(yīng)用程序高度普及[10],設(shè)備以非??斓乃俣犬a(chǎn)生大量數(shù)據(jù),這給移動核心網(wǎng)絡(luò)和回程鏈路帶來了很大的負擔(dān)。移動邊緣緩存使數(shù)據(jù)能夠在MEC服務(wù)器中進行存儲,是緩解這一問題的有效方法[11-12]。與此同時,緩存在移動數(shù)據(jù)流量激增的情況下也表現(xiàn)出極大的優(yōu)勢[13]。
針對單用戶MEC 系統(tǒng),目前已有很多優(yōu)化方法。文獻[14]研究了任務(wù)卸載調(diào)度和傳輸功率分配的聯(lián)合問題。文獻[15]以最小化超低功耗單天線設(shè)備的能耗為目標(biāo),優(yōu)化了用于能量收集、信息解碼和本地計算的時隙,以及卸載所需的時隙和功率。文獻[16]考慮到功率受限和不可預(yù)測的任務(wù),以單用戶處理能力最大化為目標(biāo)的功率分配問題對MEC 系統(tǒng)進行研究,提出一種二分搜索算法。文獻[17]設(shè)計一種迭代啟發(fā)式的MEC 資源分配算法實現(xiàn)動態(tài)卸載決策。然而上述研究沒有考慮數(shù)據(jù)緩存,單用戶MEC 系統(tǒng)中的聯(lián)合任務(wù)卸載決策、數(shù)據(jù)緩存和資源分配仍然是一個有待解決的問題。
針對多用戶MEC 場景也出現(xiàn)了很多優(yōu)化方法。文獻[18]考慮具有多個用戶和單個MEC 服務(wù)器的場景,提出NOMA-MEC 系統(tǒng),通過使用強化學(xué)習(xí)中的深度Q 網(wǎng)絡(luò)(Deep Q-Network,DQN)算法,在事先未知其他用戶動作的情況下選擇同時卸載的用戶,得到最優(yōu)組合狀態(tài),使系統(tǒng)卸載延遲最小。文獻[19]研究了多用戶MEC 系統(tǒng)中的資源分配問題,利用回歸算法求解通信資源(子載波)的分配問題并合理分配通信和計算資源,在延遲約束下達到了系統(tǒng)能量消耗最小的目標(biāo)。文獻[20]利用頻譜效率較優(yōu)的非正交多路訪問(Non-Othogonal MultipleAccess,NOMA)技術(shù)共同優(yōu)化計算卸載決策、通信和計算資源分配,提高了MEC 的訪問能力,并使所有用戶的計算成本最小化。文獻[21]針對NOMA 用戶研究不同上傳時延與共信道干擾之間的相互作用,提出一種計算卸載方案,通過對卸載決策和資源分配的聯(lián)合優(yōu)化降低了用戶的平均卸載延遲。文獻[22]針對如何在滿足時延約束下縮短MEC 計算任務(wù)的完成時間并降低終端能耗的問題,提出一個卸載決策與資源分配聯(lián)合優(yōu)化的方法。文獻[23]提出一種基于強化學(xué)習(xí)的狀態(tài)-動作-獎賞-狀態(tài)-動作(RL-SARSA)算法解決邊緣服務(wù)器的資源管理問題,并通過優(yōu)化卸載決策來最小化系統(tǒng)成本(包括能量消耗和計算時延)。文獻[24]研究了MEC 中任務(wù)卸載決策、卸載調(diào)度和功率分配的聯(lián)合問題,設(shè)計一種節(jié)能、低延遲的MEC 卸載調(diào)度機制,實現(xiàn)了最小化系統(tǒng)能耗同時降低系統(tǒng)時延的目標(biāo)。文獻[25]研究MEC 中的卸載策略與功率分配問題,采用二分搜索法求解傳輸功率,利用非合作博弈論解決多用戶卸載決策問題。
以上研究主要考慮MEC 系統(tǒng)卸載和資源分配場景,以最小化能源消耗或延遲為目標(biāo),但沒有考慮任務(wù)數(shù)據(jù)緩存在系統(tǒng)中的情況。在邊緣計算系統(tǒng)場景下聯(lián)合卸載、緩存決策和傳輸能力以及CPU 頻率分配是一個具有挑戰(zhàn)性的問題。
近年來,邊緣緩存受到較多關(guān)注。文獻[26]將緩存問題視為一個優(yōu)化問題進行建模,探討不同算法的優(yōu)化性能和復(fù)雜度。文獻[27]設(shè)計了一個以信息為中心的異構(gòu)網(wǎng)絡(luò)框架,旨在支持內(nèi)容緩存和計算。此外,由于整個系統(tǒng)的虛擬化,通信、計算和高速緩存資源都可以在與不同虛擬服務(wù)提供者關(guān)聯(lián)的所有用戶之間共享。文獻[28]引入一種新的基于體驗質(zhì)量(Quality of Experience,QoE)的效用優(yōu)化方法來解決MEC 系統(tǒng)中聯(lián)合服務(wù)緩存和任務(wù)卸載的問題,反映了用戶對服務(wù)延遲的感知和用戶為分配的計算資源所支付的成本之間的權(quán)衡,但未深入研究單用戶MEC 系統(tǒng)中任務(wù)卸載、數(shù)據(jù)緩存和資源分配的聯(lián)合問題。本文設(shè)計一種基于DDPG 的數(shù)據(jù)緩存優(yōu)化機制,以期優(yōu)化用戶對服務(wù)延遲的體驗質(zhì)量和用戶使用計算資源所節(jié)約的成本。
本文考慮單用戶多任務(wù)MEC 系統(tǒng),如圖1所示,其中包含1 個無線無線接入點(Access Point,AP)和1 個移動用戶(Mobile User,MU),AP配備1個MEC服務(wù)器,MU 有M個計算任務(wù)。在此系統(tǒng)中,每個任務(wù)由N個程序中的1 個處理,如果1 個任務(wù)需要由第j個程序處理,則將其稱為類型j任務(wù),j?Γ={1,2,…,N}。以ui,j=1表示第i個任務(wù)由第j個程序執(zhí)行,否則ui,j=0。以φi?Γ表示第i個任務(wù)的類型。MEC 服務(wù)器具有計算資源F和緩存容量R,緩存在MEC 中的計算結(jié)果可以讓其他需要的任務(wù)共享。從用戶卸載的計算任務(wù)通常與特定的服務(wù)相關(guān)聯(lián),這些服務(wù)需要緩存在MEC 中以實現(xiàn)任務(wù)的執(zhí)行。在每個資源有限的MEC 節(jié)點上緩存哪些服務(wù)和執(zhí)行哪些任務(wù)的決策,對于最大限度地提高卸載效率至關(guān)重要。此外,體驗質(zhì)量和計算資源的成本效益也是驅(qū)動卸載決策的關(guān)鍵因素。為有效利用有限的計算資源,提升用戶對服務(wù)的體驗質(zhì)量,本文研究基于QoE 的服務(wù)緩存和任務(wù)卸載聯(lián)合優(yōu)化問題,實現(xiàn)用戶對服務(wù)延遲的體驗質(zhì)量與用戶使用計算資源所節(jié)約的成本之間的最優(yōu)權(quán)衡。
圖1 MEC 系統(tǒng)模型Fig.1 MEC system model
在圖1 所示系統(tǒng)中,第i個任務(wù)輸入和輸出數(shù)據(jù)的大小分別表示為Ii和Oi。由于這M個任務(wù)是相互依賴的,因此第i個任務(wù)的輸入需要第i-1 個任務(wù)的輸出,則Ii=Oi-1,i=1,2,…,M+1。Li為計算任務(wù)i所需的CPU 計算周期數(shù)。任務(wù)模型如圖2 所示。
圖2 任務(wù)模型Fig.2 Task model
假設(shè)MU通過上傳自己的程序數(shù)據(jù)(如通過C/C++代碼生成程序),在MEC 平臺上運行自己的定制程序,第j個程序的數(shù)據(jù)大小表示為sj。邊緣服務(wù)器接收到程序數(shù)據(jù)后,生成相應(yīng)的程序(如二進制可執(zhí)行文件.exe),用于處理以后卸載的任務(wù)數(shù)據(jù),用rj表示生成的第j個程序的大小,rj通常比sj大得多。Dj為第j個程序在邊緣服務(wù)器中的生成時間。
邊緣服務(wù)器與MU 之間的數(shù)據(jù)傳輸包括上傳程序和(或)任務(wù)數(shù)據(jù)以及下載計算結(jié)果。第i個任務(wù)輸入數(shù)據(jù)的上行傳輸速率和所需程序數(shù)據(jù)的上行傳輸速率分別如式(1)和式(2)所示:
其 中:gi表示信道功率增益;di,c表示AP 與用戶之間的距離;Gi=gi表示通道增益;δ表示通道損失系數(shù);B表示可用的頻譜帶寬表示第i個任務(wù)卸載任務(wù)數(shù)據(jù)的傳輸功率表示第i個任務(wù)卸載程序數(shù)據(jù)的傳輸功率;σ2表示噪聲功率。
每個任務(wù)都可以在本地或邊緣服務(wù)器上執(zhí)行計算。令ai?{0,1}表示卸載決策,ai=0 表示第i個任務(wù)在本地執(zhí)行,ai=1 表示第i個任務(wù)在邊緣服務(wù)器上執(zhí)行。
假設(shè)MU 只能上傳用于處理當(dāng)前在邊緣執(zhí)行的任務(wù)的程序數(shù)據(jù),即:如果ui,j=1 和ai=1,則MU 在邊緣執(zhí)行第i個任務(wù)時只能上傳第j個程序數(shù)據(jù)。xi,j表示緩存決策,xi,j=1 表示執(zhí)行第i個任務(wù)的第j個程序數(shù)據(jù)緩存到邊緣服務(wù)器上,但只有在以下2 個條件中至少有1 個成立時才能實現(xiàn),否則xi,j=0:
1)第j個程序在上個任務(wù)執(zhí)行之前已經(jīng)在緩存中,即xi-1,j=1。
2)第j個程序數(shù)據(jù)在上個任務(wù)執(zhí)行時間內(nèi)上傳到邊緣服務(wù)器,這需要ui-1,j=1 和ai-1=1,或者等價于ai-1ui-1,j=1,因此,緩存決策的約束條件如式(3)所示:
此外,在整個系統(tǒng)任務(wù)的處理過程中,需要滿足式(4)所示的緩存容量約束:
2.2.1 本地計算
假設(shè)MU 擁有處理其任務(wù)所需的所有程序,如預(yù)安裝在本地磁盤上,這樣本地處理任務(wù)i所花費的時間只包括計算時間。第i個任務(wù)在本地計算所消耗的時間和能量如式(5)所示:
其中:為本地CPU 頻率為本地服務(wù)器分配為任務(wù)的最大計算頻率;k為計算能效參數(shù),k>0;α為指數(shù)參數(shù),α≥2。
若第i?1 個任務(wù)卸載到MEC 計算,則第i個任務(wù)的輸入數(shù)據(jù)從MEC 下載到MU 進行本地計算的傳輸時間如式(6)所示:
因此,第i個任務(wù)在本地執(zhí)行的總時延如式(7)所示:
2.2.2 卸載計算
每個任務(wù)可以在MU 本地計算,也可以卸載到邊緣服務(wù)器上進行遠程執(zhí)行。當(dāng)任務(wù)i在邊緣上執(zhí)行時,計算時間包括任務(wù)計算時間和程序生成時間兩部分。
任務(wù)計算時間如式(8)所示:
如果計算任務(wù)所需程序沒有在緩存中,則服務(wù)器可能需要生成一個新的程序(如程序編譯和加載函數(shù)庫)。
程序生成時間wi如式(9)所示:
其中:Dj為第j個程序生成時間。
第i個任務(wù)卸載程序數(shù)據(jù)上傳所消耗的時間和能量分別如式(10)和式(11)所示:
能量函數(shù)對于時間是凸的。因此,第i個任務(wù)卸載任務(wù)數(shù)據(jù)所花費的時間和能量分別如式(12)和式(13)所示:
綜上所述,第i個任務(wù)卸載執(zhí)行的總延遲和MU所消耗的能量分別如式(14)和式(15)所示:
本文研究的目標(biāo)是優(yōu)化用戶的QoE 和用戶使用計算資源所節(jié)約的成本,其中計算時間和能耗由本地執(zhí)行和卸載執(zhí)行兩部分組成,第i個任務(wù)的執(zhí)行時間和總能耗如式(16)和式(17)所示:
通過使用具有2 個預(yù)定義閾值Tmin和Tmax的QoE映射函數(shù),將服務(wù)延遲映射到一個平均意見評分量表中,以優(yōu)秀、良好、合格、差、不滿意或阻塞評價,如式(18)所示:
當(dāng)任務(wù)i的執(zhí)行時間小于閾值Tmin,屬于極佳的完成時間,則此時的服務(wù)可以評為滿分為1 分;當(dāng)任務(wù)i的執(zhí)行時間處于閾值Tmin和Tmax之間,此時的完成時間在可接受的范圍內(nèi),服務(wù)可以評分為越接近Tmax,表明所需的完成時間越久,此時的評分越低;當(dāng)任務(wù)i的執(zhí)行時間大于閾值Tmax,屬于不可接受的完成時間,此時的服務(wù)評得分為Wb。
定義一個可選點Tfair?(Tmin,Tmax),從這個點開始,當(dāng)服務(wù)質(zhì)量下降到較差程度時,用戶就會對服務(wù)感到失望。這些閾值可以由服務(wù)提供者根據(jù)每個服務(wù)的需求在其清單中確定,用戶體驗質(zhì)量映射函數(shù)如圖3 所示。
圖3 用戶體驗質(zhì)量映射函數(shù)Fig.3 User experience quality mapping function
除了用戶的QoE,本文模型還考慮了使用計算資源節(jié)約的成本。基本上,更小的服務(wù)延遲是以更高的計算資源使用成本為代價的。用ε表示邊緣服務(wù)器計算任務(wù)i的單位成本,設(shè)Hi為任務(wù)i使用計算資源的預(yù)算,移動邊緣服務(wù)器分配給任務(wù)i的計算資源,必須滿足式(19)所示的預(yù)算約束:
邊緣服務(wù)器分配給任務(wù)i的計算資源成本如式(20)所示,任務(wù)i節(jié)約的預(yù)算成本如式(21)所示,則任務(wù)i的效用函數(shù)如式(22)所示:
上述模型的目標(biāo)是最大化用戶的總效用以及聯(lián)合優(yōu)化服務(wù)緩存、任務(wù)卸載和資源分配問題,是一個混合整數(shù)非線性規(guī)劃問題,如式(23)所示:
其中:式(23b)表示卸載和緩存決策分別為0~1 整數(shù)優(yōu)化變量;式(23c)表示緩存的計算結(jié)果不能超過MEC 服務(wù)器的緩存容量;式(23d)表示用戶i分配給任務(wù)j的數(shù)據(jù)傳輸功率不能超過最大傳輸功率;式(23e)表示用戶分配給任務(wù)j的CPU 頻率不能超過最大本地CPU 頻率;式(23f)表示任務(wù)i執(zhí)行的能量消耗不能超過最大能源消耗限制。
本文對單用戶多任務(wù)MEC 系統(tǒng)中聯(lián)合任務(wù)卸載、緩存決策和本地服務(wù)器資源分配的問題進行建模,目標(biāo)是最大化用戶對服務(wù)的體驗質(zhì)量和用戶使用計算資源所節(jié)約的成本。為求解這個混合整數(shù)非線性規(guī)劃問題,提出基于DDPG 的優(yōu)化算法DADDPG,最大程度地優(yōu)化用戶的體驗質(zhì)量和節(jié)約的成本。算法框架如圖4所示。
圖4 DADDPG 算法框架Fig.4 Framework of DADDPG algorithm
深度強化學(xué)習(xí)方法求解問題的關(guān)鍵要素為狀態(tài)、動作和獎勵,具體到本節(jié)的模型定義如下:
3)系統(tǒng)Reward。在本文研究的MEC 系統(tǒng)中,優(yōu)化的目標(biāo)是最大化用戶的總效用,在每一步,智能體在執(zhí)行一個動作A之后,都會在這個動作對應(yīng)的狀態(tài)S下獲得獎勵值R。一般來說,獎勵函數(shù)應(yīng)與目標(biāo)函數(shù)相關(guān)。因此,本文的優(yōu)化目標(biāo)是獲得最大的用戶總效用,而深度學(xué)習(xí)的目標(biāo)是獲得最大的獎勵回報,獎勵值應(yīng)與系統(tǒng)總效用的大小呈正相關(guān)。因此,將獎勵定義為目標(biāo)值,即R=Qi。
如圖4 所示,DADDPG 算法由Actor 部分和Critic 部分組成,Actor 部分的角色是根據(jù)所觀察到的環(huán)境狀態(tài)定義參數(shù)化的策略并生成行動,而Critic部分則負責(zé)通過處理從環(huán)境中獲得的獎勵來評估和批評當(dāng)前的策略。簡單來說,Actor 負責(zé)策略網(wǎng)絡(luò),進行動作選擇,Critic 負責(zé)值網(wǎng)絡(luò)。
Critic 使用經(jīng)驗回放技術(shù)。回放內(nèi)存使用(St,At,Rt,St+1)元組將任何軌跡保存為一條記錄,并使用記錄中的一個小批元組更新參數(shù)。評判過程中的損失函數(shù)定義如式(24)所示:
其中:w-為目標(biāo)Q 網(wǎng)絡(luò)參數(shù),與當(dāng)前onlineQ 網(wǎng)絡(luò)相比相對固定;D為回放內(nèi)存,即(St,At,Rt,St+1)~D。每次迭代時,使用固定參數(shù)的目標(biāo)神經(jīng)網(wǎng)絡(luò)計算損失函數(shù)。為了使損失函數(shù)最小化,使用梯度下降法更新參數(shù),如式(25)所示:
策略π(S,A)表示Agent 的Action,其輸出不是單個的Action 動作,而是選擇動作的概率分布,所以,一個狀態(tài)下的所有動作概率加和應(yīng)當(dāng)為1。Actor 采用梯度上升法對策略進行維護和改進。設(shè)置策略π(S,A)如式(26)所示:
其中:θ為online 策略網(wǎng)絡(luò)參數(shù);?(S,A)為狀態(tài)和動作的特征向量。該策略以優(yōu)化性能指標(biāo)為目標(biāo),通常以目標(biāo)函數(shù)的形式給出:
θ的梯度可以通過偏微分法得出:
使用隨機梯度上升方法優(yōu)化目標(biāo),更新采樣梯度:
DADDPG 算法具體描述如下:
利用python3.7 進行仿真實驗。設(shè)置1 個MEC服務(wù)器和1 個用戶的場景,該用戶有一個任務(wù)序列需要執(zhí)行。設(shè)置-B=B,σ-=σ。仿真實驗中使用的初始參數(shù)如表1 所示。
表1 仿真實驗初始參數(shù)Table 1 Initial parameters of simulation experiment
選取以下3 種算法,通過仿真結(jié)果對比驗證DADDPG 算法的有效性和優(yōu)越性。
1)無緩存策略的DADDPG 算法DADDPGno:每個任務(wù)可以選擇卸載執(zhí)行和本地執(zhí)行,但MEC 不提供緩存功能。
2)隨機選擇策略算法DARAND:每個任務(wù)隨機選擇卸載執(zhí)行和本地執(zhí)行,也隨機選擇緩存與不緩存相應(yīng)數(shù)據(jù)到MEC。
3)無緩存隨機選擇策略算法DARANDno:每個任務(wù)隨機選擇卸載執(zhí)行和本地執(zhí)行,但MEC 不提供緩存功能。
圖5 展示了不同算法下總效用隨任務(wù)數(shù)的變化情況,設(shè)置目標(biāo)函數(shù)的權(quán)重系數(shù)w=0.5。可以看出:隨著任務(wù)數(shù)的累加,各個算法的總效用均隨之增加,這是因為隨著任務(wù)數(shù)增多,執(zhí)行任務(wù)的時間和用戶利用計算資源的成本也相應(yīng)增加;本文提出的DADDPG 算法在不同的權(quán)重影響下總效用均為最大,這是因為該算法采用了雙層網(wǎng)絡(luò),可以更穩(wěn)定地優(yōu)化變量,即卸載策略、緩存策略和本地計算頻率、本地上傳功率,可以獲得更優(yōu)的目標(biāo)值;DARAND算法是隨機選擇卸載策略和緩存策略,DARANDno算法是隨機選擇卸載策略,這樣獲得的目標(biāo)值不是穩(wěn)定的,優(yōu)化性能不如本文提出的DADDPG 算法。
圖5 不同任務(wù)數(shù)對總效用的影響Fig.5 The total utility versus different numbers of tasks
圖6 展示了DADDPG 算法下總體驗質(zhì)量(QoE)和為用戶節(jié)省成本的情況。通過改變權(quán)重參數(shù),在總用戶體驗質(zhì)量和為用戶節(jié)省成本之間的最佳性能權(quán)衡。正如預(yù)期,當(dāng)w增加時,總用戶體驗質(zhì)量的值增加,此時用戶節(jié)省的成本同步下降??梢钥闯觯嚎傮w驗質(zhì)量在0.1
圖6 不同權(quán)重對QoE 和節(jié)約成本的影響Fig.6 QoE and cost savings versus different weights
圖7 展示了改變平均預(yù)算時本文DADDPG 算法和3 個基線之間的總效用(w=0.5)。此實驗中比較了3 種情況下用戶總效用的變化情況:1)比較平均預(yù)算的一半/2 對各個算法的總效用的影響;2)比較平均預(yù)算對各個算法的總效用的影響;3)比較平均預(yù)算的2 倍×2 對各個算法的總效用的影響。可以看出,隨著平均預(yù)算的增加,所有算法的總效用都有所增加。其中,DARANDno 算法對所有預(yù)算值的總效用是最差的,因為用戶的體驗質(zhì)量非常低,特別是那些需要低延遲VR 服務(wù)的用戶。通過共享資源和平衡在計算MEC 節(jié)點間的負載時,擁有緩存功能的DARAND 算法比沒有緩存功能的算法獲得了更高的總效用。而本文算法在沒有緩存功能的情況下通過優(yōu)化服務(wù)緩存和任務(wù)卸載決策以及資源分配,獲得的總效用高于DARAND 算法。
圖7 不同預(yù)算成本對總效用的影響Fig.7 The total utility versus different weighted budgets
圖8 展示了不同權(quán)重下DADDPG 算法的訓(xùn)練性能??梢钥闯?,在3 種不同權(quán)重參數(shù)下,DADDPG 算法最終都可以收斂。當(dāng)調(diào)整系數(shù)w=0.1 和w=0.9 時,累計獎勵值大于w=0.5 的情況,這是因為w=0.1 時解決方案側(cè)重總節(jié)約成本,w=0.9 時解決方案側(cè)重總體驗質(zhì)量使得目標(biāo)值會偏向總節(jié)約成本或者總節(jié)約成本的值,而w=0.5 時總體驗質(zhì)量和總節(jié)約成本會達到平衡狀態(tài)。同時由圖8 可以看出,3 種不同權(quán)重參數(shù)下的累計獎勵值均在第510 episode 左右達到收斂狀態(tài)。
圖8 DADDPG 算法的訓(xùn)練性能Fig.8 Training performance of DADDPG algorithm
本文基于深度確定性策略梯度算法對MEC 中服務(wù)緩存、任務(wù)卸載和資源分配進行聯(lián)合優(yōu)化,提出DADDPG 算法,并通過仿真分析各變量在實驗過程中對服務(wù)質(zhì)量和節(jié)約成本的影響。實驗結(jié)果表明,DADDPG 算法能夠有效地優(yōu)化目標(biāo)值。然而在任務(wù)卸載過程中,需要選擇任務(wù)數(shù)據(jù)卸載與存儲的MEC,而在快速移動時可能會使移動用戶在MEC 之間進行快速切換,這會導(dǎo)致任務(wù)中斷,進而影響用戶的QoE。因此,下一步將考慮用戶的移動性,完善MEC 系統(tǒng)中任務(wù)卸載和服務(wù)緩存結(jié)構(gòu)。