亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于DDPG 的邊緣計算任務(wù)卸載和服務(wù)緩存算法

2021-10-15 10:07:46陳清林鄺祝芳

計算機工程 2021年10期

陳清林，鄺祝芳

（中南林業(yè)科技大學(xué) 計算機與信息工程學(xué)院，長沙 410018）

0 概述

移動互聯(lián)網(wǎng)中各種數(shù)據(jù)流量的爆發(fā)式增長和用戶設(shè)備使用率的不斷增高，極大地推動了無線通信和移動網(wǎng)絡(luò)技術(shù)的發(fā)展［1］。此外，隨著物聯(lián)網(wǎng)、人工智能、第五代移動通信（5G）等技術(shù)的普及，也使移動用戶對數(shù)據(jù)處理速率和服務(wù)質(zhì)量（Quality of Service，QoS）的要求不斷提高［2］。目前，移動邊緣計算（Mobile Edge Computing，MEC）是產(chǎn)業(yè)界和學(xué)術(shù)界研究的重點［3］，旨在解決價值與應(yīng)用之間的矛盾，并且應(yīng)用場景十分豐富［4］，如智能交通［5］、車聯(lián)網(wǎng)等。MEC 是無線接入網(wǎng)中的一種新模式，其通過部署高性能的服務(wù)器來提高移動網(wǎng)絡(luò)邊緣的計算能力［6］。MEC 服務(wù)器密集分布在移動用戶附近，用戶設(shè)備可以通過無線鏈接將計算任務(wù)卸載到MEC 服務(wù)器［7］。計算卸載可以幫助移動用戶顯著降低應(yīng)用程序的體驗延遲［8］。將移動邊緣服務(wù)器部署在離數(shù)據(jù)源較近的范圍內(nèi)，可以避免數(shù)據(jù)上傳到較遠的云服務(wù)器，從而減少數(shù)據(jù)往返的等待時延和消耗成本［9］。

本文針對單用戶MEC 系統(tǒng)，設(shè)計基于深度確定性策略梯度（Deep Deterministic Policy Gradient，DDPG）算法的數(shù)據(jù)緩存優(yōu)化機制，對服務(wù)緩存放置、計算卸載決策和系統(tǒng)資源分配（即移動用戶的CPU 處理頻率和傳輸功率）進行聯(lián)合優(yōu)化。

1 相關(guān)研究

隨著各種移動應(yīng)用程序高度普及［10］，設(shè)備以非?？斓乃俣犬a(chǎn)生大量數(shù)據(jù)，這給移動核心網(wǎng)絡(luò)和回程鏈路帶來了很大的負擔(dān)。移動邊緣緩存使數(shù)據(jù)能夠在MEC服務(wù)器中進行存儲，是緩解這一問題的有效方法［11-12］。與此同時，緩存在移動數(shù)據(jù)流量激增的情況下也表現(xiàn)出極大的優(yōu)勢［13］。

針對單用戶MEC 系統(tǒng)，目前已有很多優(yōu)化方法。文獻［14］研究了任務(wù)卸載調(diào)度和傳輸功率分配的聯(lián)合問題。文獻［15］以最小化超低功耗單天線設(shè)備的能耗為目標(biāo)，優(yōu)化了用于能量收集、信息解碼和本地計算的時隙，以及卸載所需的時隙和功率。文獻［16］考慮到功率受限和不可預(yù)測的任務(wù)，以單用戶處理能力最大化為目標(biāo)的功率分配問題對MEC 系統(tǒng)進行研究，提出一種二分搜索算法。文獻［17］設(shè)計一種迭代啟發(fā)式的MEC 資源分配算法實現(xiàn)動態(tài)卸載決策。然而上述研究沒有考慮數(shù)據(jù)緩存，單用戶MEC 系統(tǒng)中的聯(lián)合任務(wù)卸載決策、數(shù)據(jù)緩存和資源分配仍然是一個有待解決的問題。

針對多用戶MEC 場景也出現(xiàn)了很多優(yōu)化方法。文獻［18］考慮具有多個用戶和單個MEC 服務(wù)器的場景，提出NOMA-MEC 系統(tǒng)，通過使用強化學(xué)習(xí)中的深度Q 網(wǎng)絡(luò)（Deep Q-Network，DQN）算法，在事先未知其他用戶動作的情況下選擇同時卸載的用戶，得到最優(yōu)組合狀態(tài)，使系統(tǒng)卸載延遲最小。文獻［19］研究了多用戶MEC 系統(tǒng)中的資源分配問題，利用回歸算法求解通信資源（子載波）的分配問題并合理分配通信和計算資源，在延遲約束下達到了系統(tǒng)能量消耗最小的目標(biāo)。文獻［20］利用頻譜效率較優(yōu)的非正交多路訪問（Non-Othogonal MultipleAccess，NOMA）技術(shù)共同優(yōu)化計算卸載決策、通信和計算資源分配，提高了MEC 的訪問能力，并使所有用戶的計算成本最小化。文獻［21］針對NOMA 用戶研究不同上傳時延與共信道干擾之間的相互作用，提出一種計算卸載方案，通過對卸載決策和資源分配的聯(lián)合優(yōu)化降低了用戶的平均卸載延遲。文獻［22］針對如何在滿足時延約束下縮短MEC 計算任務(wù)的完成時間并降低終端能耗的問題，提出一個卸載決策與資源分配聯(lián)合優(yōu)化的方法。文獻［23］提出一種基于強化學(xué)習(xí)的狀態(tài)-動作-獎賞-狀態(tài)-動作（RL-SARSA）算法解決邊緣服務(wù)器的資源管理問題，并通過優(yōu)化卸載決策來最小化系統(tǒng)成本（包括能量消耗和計算時延）。文獻［24］研究了MEC 中任務(wù)卸載決策、卸載調(diào)度和功率分配的聯(lián)合問題，設(shè)計一種節(jié)能、低延遲的MEC 卸載調(diào)度機制，實現(xiàn)了最小化系統(tǒng)能耗同時降低系統(tǒng)時延的目標(biāo)。文獻［25］研究MEC 中的卸載策略與功率分配問題，采用二分搜索法求解傳輸功率，利用非合作博弈論解決多用戶卸載決策問題。

以上研究主要考慮MEC 系統(tǒng)卸載和資源分配場景，以最小化能源消耗或延遲為目標(biāo)，但沒有考慮任務(wù)數(shù)據(jù)緩存在系統(tǒng)中的情況。在邊緣計算系統(tǒng)場景下聯(lián)合卸載、緩存決策和傳輸能力以及CPU 頻率分配是一個具有挑戰(zhàn)性的問題。

近年來，邊緣緩存受到較多關(guān)注。文獻［26］將緩存問題視為一個優(yōu)化問題進行建模，探討不同算法的優(yōu)化性能和復(fù)雜度。文獻［27］設(shè)計了一個以信息為中心的異構(gòu)網(wǎng)絡(luò)框架，旨在支持內(nèi)容緩存和計算。此外，由于整個系統(tǒng)的虛擬化，通信、計算和高速緩存資源都可以在與不同虛擬服務(wù)提供者關(guān)聯(lián)的所有用戶之間共享。文獻［28］引入一種新的基于體驗質(zhì)量（Quality of Experience，QoE）的效用優(yōu)化方法來解決MEC 系統(tǒng)中聯(lián)合服務(wù)緩存和任務(wù)卸載的問題，反映了用戶對服務(wù)延遲的感知和用戶為分配的計算資源所支付的成本之間的權(quán)衡，但未深入研究單用戶MEC 系統(tǒng)中任務(wù)卸載、數(shù)據(jù)緩存和資源分配的聯(lián)合問題。本文設(shè)計一種基于DDPG 的數(shù)據(jù)緩存優(yōu)化機制，以期優(yōu)化用戶對服務(wù)延遲的體驗質(zhì)量和用戶使用計算資源所節(jié)約的成本。

2 MEC 任務(wù)卸載模型

2.1 系統(tǒng)模型

本文考慮單用戶多任務(wù)MEC 系統(tǒng)，如圖1所示，其中包含1 個無線無線接入點（Access Point，AP）和1 個移動用戶（Mobile User，MU），AP配備1個MEC服務(wù)器，MU 有M個計算任務(wù)。在此系統(tǒng)中，每個任務(wù)由N個程序中的1 個處理，如果1 個任務(wù)需要由第j個程序處理，則將其稱為類型j任務(wù)，j?Γ={1，2，…，N}。以ui，j=1表示第i個任務(wù)由第j個程序執(zhí)行，否則ui，j=0。以φi?Γ表示第i個任務(wù)的類型。MEC 服務(wù)器具有計算資源F和緩存容量R，緩存在MEC 中的計算結(jié)果可以讓其他需要的任務(wù)共享。從用戶卸載的計算任務(wù)通常與特定的服務(wù)相關(guān)聯(lián)，這些服務(wù)需要緩存在MEC 中以實現(xiàn)任務(wù)的執(zhí)行。在每個資源有限的MEC 節(jié)點上緩存哪些服務(wù)和執(zhí)行哪些任務(wù)的決策，對于最大限度地提高卸載效率至關(guān)重要。此外，體驗質(zhì)量和計算資源的成本效益也是驅(qū)動卸載決策的關(guān)鍵因素。為有效利用有限的計算資源，提升用戶對服務(wù)的體驗質(zhì)量，本文研究基于QoE 的服務(wù)緩存和任務(wù)卸載聯(lián)合優(yōu)化問題，實現(xiàn)用戶對服務(wù)延遲的體驗質(zhì)量與用戶使用計算資源所節(jié)約的成本之間的最優(yōu)權(quán)衡。

圖1 MEC 系統(tǒng)模型Fig.1 MEC system model

在圖1 所示系統(tǒng)中，第i個任務(wù)輸入和輸出數(shù)據(jù)的大小分別表示為Ii和Oi。由于這M個任務(wù)是相互依賴的，因此第i個任務(wù)的輸入需要第i－1 個任務(wù)的輸出，則Ii=Oi-1，i=1，2，…，M+1。Li為計算任務(wù)i所需的CPU 計算周期數(shù)。任務(wù)模型如圖2 所示。

圖2 任務(wù)模型Fig.2 Task model

假設(shè)MU通過上傳自己的程序數(shù)據(jù)（如通過C/C++代碼生成程序），在MEC 平臺上運行自己的定制程序，第j個程序的數(shù)據(jù)大小表示為sj。邊緣服務(wù)器接收到程序數(shù)據(jù)后，生成相應(yīng)的程序（如二進制可執(zhí)行文件.exe），用于處理以后卸載的任務(wù)數(shù)據(jù)，用rj表示生成的第j個程序的大小，rj通常比sj大得多。Dj為第j個程序在邊緣服務(wù)器中的生成時間。

邊緣服務(wù)器與MU 之間的數(shù)據(jù)傳輸包括上傳程序和（或）任務(wù)數(shù)據(jù)以及下載計算結(jié)果。第i個任務(wù)輸入數(shù)據(jù)的上行傳輸速率和所需程序數(shù)據(jù)的上行傳輸速率分別如式（1）和式（2）所示：

其中：gi表示信道功率增益；di，c表示AP 與用戶之間的距離；Gi=gi表示通道增益；δ表示通道損失系數(shù)；B表示可用的頻譜帶寬表示第i個任務(wù)卸載任務(wù)數(shù)據(jù)的傳輸功率表示第i個任務(wù)卸載程序數(shù)據(jù)的傳輸功率；σ2表示噪聲功率。

每個任務(wù)都可以在本地或邊緣服務(wù)器上執(zhí)行計算。令ai?{0，1}表示卸載決策，ai=0 表示第i個任務(wù)在本地執(zhí)行，ai=1 表示第i個任務(wù)在邊緣服務(wù)器上執(zhí)行。

假設(shè)MU 只能上傳用于處理當(dāng)前在邊緣執(zhí)行的任務(wù)的程序數(shù)據(jù)，即：如果ui，j=1 和ai=1，則MU 在邊緣執(zhí)行第i個任務(wù)時只能上傳第j個程序數(shù)據(jù)。xi，j表示緩存決策，xi，j=1 表示執(zhí)行第i個任務(wù)的第j個程序數(shù)據(jù)緩存到邊緣服務(wù)器上，但只有在以下2 個條件中至少有1 個成立時才能實現(xiàn)，否則xi，j=0：

1）第j個程序在上個任務(wù)執(zhí)行之前已經(jīng)在緩存中，即xi-1，j=1。

2）第j個程序數(shù)據(jù)在上個任務(wù)執(zhí)行時間內(nèi)上傳到邊緣服務(wù)器，這需要ui-1，j=1 和ai-1=1，或者等價于ai-1ui-1，j=1，因此，緩存決策的約束條件如式（3）所示：

此外，在整個系統(tǒng)任務(wù)的處理過程中，需要滿足式（4）所示的緩存容量約束：

2.2 計算模型

2.2.1 本地計算

假設(shè)MU 擁有處理其任務(wù)所需的所有程序，如預(yù)安裝在本地磁盤上，這樣本地處理任務(wù)i所花費的時間只包括計算時間。第i個任務(wù)在本地計算所消耗的時間和能量如式（5）所示：

其中：為本地CPU 頻率為本地服務(wù)器分配為任務(wù)的最大計算頻率；k為計算能效參數(shù)，k>0；α為指數(shù)參數(shù)，α≥2。

若第i?1 個任務(wù)卸載到MEC 計算，則第i個任務(wù)的輸入數(shù)據(jù)從MEC 下載到MU 進行本地計算的傳輸時間如式（6）所示：

因此，第i個任務(wù)在本地執(zhí)行的總時延如式（7）所示：

2.2.2 卸載計算

每個任務(wù)可以在MU 本地計算，也可以卸載到邊緣服務(wù)器上進行遠程執(zhí)行。當(dāng)任務(wù)i在邊緣上執(zhí)行時，計算時間包括任務(wù)計算時間和程序生成時間兩部分。

任務(wù)計算時間如式（8）所示：

如果計算任務(wù)所需程序沒有在緩存中，則服務(wù)器可能需要生成一個新的程序（如程序編譯和加載函數(shù)庫）。

程序生成時間wi如式（9）所示：

其中：Dj為第j個程序生成時間。

第i個任務(wù)卸載程序數(shù)據(jù)上傳所消耗的時間和能量分別如式（10）和式（11）所示：

能量函數(shù)對于時間是凸的。因此，第i個任務(wù)卸載任務(wù)數(shù)據(jù)所花費的時間和能量分別如式（12）和式（13）所示：

綜上所述，第i個任務(wù)卸載執(zhí)行的總延遲和MU所消耗的能量分別如式（14）和式（15）所示：

本文研究的目標(biāo)是優(yōu)化用戶的QoE 和用戶使用計算資源所節(jié)約的成本，其中計算時間和能耗由本地執(zhí)行和卸載執(zhí)行兩部分組成，第i個任務(wù)的執(zhí)行時間和總能耗如式（16）和式（17）所示：

通過使用具有2 個預(yù)定義閾值Tmin和Tmax的QoE映射函數(shù)，將服務(wù)延遲映射到一個平均意見評分量表中，以優(yōu)秀、良好、合格、差、不滿意或阻塞評價，如式（18）所示：

當(dāng)任務(wù)i的執(zhí)行時間小于閾值Tmin，屬于極佳的完成時間，則此時的服務(wù)可以評為滿分為1 分；當(dāng)任務(wù)i的執(zhí)行時間處于閾值Tmin和Tmax之間，此時的完成時間在可接受的范圍內(nèi)，服務(wù)可以評分為越接近Tmax，表明所需的完成時間越久，此時的評分越低；當(dāng)任務(wù)i的執(zhí)行時間大于閾值Tmax，屬于不可接受的完成時間，此時的服務(wù)評得分為Wb。

定義一個可選點Tfair?(Tmin，Tmax)，從這個點開始，當(dāng)服務(wù)質(zhì)量下降到較差程度時，用戶就會對服務(wù)感到失望。這些閾值可以由服務(wù)提供者根據(jù)每個服務(wù)的需求在其清單中確定，用戶體驗質(zhì)量映射函數(shù)如圖3 所示。

圖3 用戶體驗質(zhì)量映射函數(shù)Fig.3 User experience quality mapping function

除了用戶的QoE，本文模型還考慮了使用計算資源節(jié)約的成本。基本上，更小的服務(wù)延遲是以更高的計算資源使用成本為代價的。用ε表示邊緣服務(wù)器計算任務(wù)i的單位成本，設(shè)Hi為任務(wù)i使用計算資源的預(yù)算，移動邊緣服務(wù)器分配給任務(wù)i的計算資源，必須滿足式（19）所示的預(yù)算約束：

邊緣服務(wù)器分配給任務(wù)i的計算資源成本如式（20）所示，任務(wù)i節(jié)約的預(yù)算成本如式（21）所示，則任務(wù)i的效用函數(shù)如式（22）所示：

上述模型的目標(biāo)是最大化用戶的總效用以及聯(lián)合優(yōu)化服務(wù)緩存、任務(wù)卸載和資源分配問題，是一個混合整數(shù)非線性規(guī)劃問題，如式（23）所示：

其中：式（23b）表示卸載和緩存決策分別為0～1 整數(shù)優(yōu)化變量；式（23c）表示緩存的計算結(jié)果不能超過MEC 服務(wù)器的緩存容量；式（23d）表示用戶i分配給任務(wù)j的數(shù)據(jù)傳輸功率不能超過最大傳輸功率；式（23e）表示用戶分配給任務(wù)j的CPU 頻率不能超過最大本地CPU 頻率；式（23f）表示任務(wù)i執(zhí)行的能量消耗不能超過最大能源消耗限制。

3 基于DDPG 的策略優(yōu)化和資源分配算法

本文對單用戶多任務(wù)MEC 系統(tǒng)中聯(lián)合任務(wù)卸載、緩存決策和本地服務(wù)器資源分配的問題進行建模，目標(biāo)是最大化用戶對服務(wù)的體驗質(zhì)量和用戶使用計算資源所節(jié)約的成本。為求解這個混合整數(shù)非線性規(guī)劃問題，提出基于DDPG 的優(yōu)化算法DADDPG，最大程度地優(yōu)化用戶的體驗質(zhì)量和節(jié)約的成本。算法框架如圖4所示。

圖4 DADDPG 算法框架Fig.4 Framework of DADDPG algorithm

深度強化學(xué)習(xí)方法求解問題的關(guān)鍵要素為狀態(tài)、動作和獎勵，具體到本節(jié)的模型定義如下：

3）系統(tǒng)Reward。在本文研究的MEC 系統(tǒng)中，優(yōu)化的目標(biāo)是最大化用戶的總效用，在每一步，智能體在執(zhí)行一個動作A之后，都會在這個動作對應(yīng)的狀態(tài)S下獲得獎勵值R。一般來說，獎勵函數(shù)應(yīng)與目標(biāo)函數(shù)相關(guān)。因此，本文的優(yōu)化目標(biāo)是獲得最大的用戶總效用，而深度學(xué)習(xí)的目標(biāo)是獲得最大的獎勵回報，獎勵值應(yīng)與系統(tǒng)總效用的大小呈正相關(guān)。因此，將獎勵定義為目標(biāo)值，即R=Qi。

如圖4 所示，DADDPG 算法由Actor 部分和Critic 部分組成，Actor 部分的角色是根據(jù)所觀察到的環(huán)境狀態(tài)定義參數(shù)化的策略并生成行動，而Critic部分則負責(zé)通過處理從環(huán)境中獲得的獎勵來評估和批評當(dāng)前的策略。簡單來說，Actor 負責(zé)策略網(wǎng)絡(luò)，進行動作選擇，Critic 負責(zé)值網(wǎng)絡(luò)。

Critic 使用經(jīng)驗回放技術(shù)。回放內(nèi)存使用(St，At，Rt，St+1)元組將任何軌跡保存為一條記錄，并使用記錄中的一個小批元組更新參數(shù)。評判過程中的損失函數(shù)定義如式（24）所示：

其中：w-為目標(biāo)Q 網(wǎng)絡(luò)參數(shù)，與當(dāng)前onlineQ 網(wǎng)絡(luò)相比相對固定；D為回放內(nèi)存，即(St，At，Rt，St+1)～D。每次迭代時，使用固定參數(shù)的目標(biāo)神經(jīng)網(wǎng)絡(luò)計算損失函數(shù)。為了使損失函數(shù)最小化，使用梯度下降法更新參數(shù)，如式（25）所示：

策略π(S，A)表示Agent 的Action，其輸出不是單個的Action 動作，而是選擇動作的概率分布，所以，一個狀態(tài)下的所有動作概率加和應(yīng)當(dāng)為1。Actor 采用梯度上升法對策略進行維護和改進。設(shè)置策略π(S，A)如式（26）所示：

其中：θ為online 策略網(wǎng)絡(luò)參數(shù)；?(S，A)為狀態(tài)和動作的特征向量。該策略以優(yōu)化性能指標(biāo)為目標(biāo)，通常以目標(biāo)函數(shù)的形式給出：

θ的梯度可以通過偏微分法得出：

使用隨機梯度上升方法優(yōu)化目標(biāo)，更新采樣梯度：

DADDPG 算法具體描述如下：

4 仿真實驗

4.1 參數(shù)設(shè)置

利用python3.7 進行仿真實驗。設(shè)置1 個MEC服務(wù)器和1 個用戶的場景，該用戶有一個任務(wù)序列需要執(zhí)行。設(shè)置-B=B，σ-=σ。仿真實驗中使用的初始參數(shù)如表1 所示。

表1 仿真實驗初始參數(shù)Table 1 Initial parameters of simulation experiment

4.2 實驗結(jié)果分析

選取以下3 種算法，通過仿真結(jié)果對比驗證DADDPG 算法的有效性和優(yōu)越性。

1）無緩存策略的DADDPG 算法DADDPGno：每個任務(wù)可以選擇卸載執(zhí)行和本地執(zhí)行，但MEC 不提供緩存功能。

2）隨機選擇策略算法DARAND：每個任務(wù)隨機選擇卸載執(zhí)行和本地執(zhí)行，也隨機選擇緩存與不緩存相應(yīng)數(shù)據(jù)到MEC。

3）無緩存隨機選擇策略算法DARANDno：每個任務(wù)隨機選擇卸載執(zhí)行和本地執(zhí)行，但MEC 不提供緩存功能。

圖5 展示了不同算法下總效用隨任務(wù)數(shù)的變化情況，設(shè)置目標(biāo)函數(shù)的權(quán)重系數(shù)w=0.5。可以看出：隨著任務(wù)數(shù)的累加，各個算法的總效用均隨之增加，這是因為隨著任務(wù)數(shù)增多，執(zhí)行任務(wù)的時間和用戶利用計算資源的成本也相應(yīng)增加；本文提出的DADDPG 算法在不同的權(quán)重影響下總效用均為最大，這是因為該算法采用了雙層網(wǎng)絡(luò)，可以更穩(wěn)定地優(yōu)化變量，即卸載策略、緩存策略和本地計算頻率、本地上傳功率，可以獲得更優(yōu)的目標(biāo)值；DARAND算法是隨機選擇卸載策略和緩存策略，DARANDno算法是隨機選擇卸載策略，這樣獲得的目標(biāo)值不是穩(wěn)定的，優(yōu)化性能不如本文提出的DADDPG 算法。

圖5 不同任務(wù)數(shù)對總效用的影響Fig.5 The total utility versus different numbers of tasks

圖6 展示了DADDPG 算法下總體驗質(zhì)量（QoE）和為用戶節(jié)省成本的情況。通過改變權(quán)重參數(shù)，在總用戶體驗質(zhì)量和為用戶節(jié)省成本之間的最佳性能權(quán)衡。正如預(yù)期，當(dāng)w增加時，總用戶體驗質(zhì)量的值增加，此時用戶節(jié)省的成本同步下降?？梢钥闯觯嚎傮w驗質(zhì)量在0.10.7 時，總體驗質(zhì)量增加比較緩慢，而總節(jié)約成本降低較快。由此可見，對于用戶來說，即使利用了更多的計算資源來減少延遲，其體驗質(zhì)量也不會在超過某個閾值后得到改善。

圖6 不同權(quán)重對QoE 和節(jié)約成本的影響Fig.6 QoE and cost savings versus different weights

圖7 展示了改變平均預(yù)算時本文DADDPG 算法和3 個基線之間的總效用（w=0.5）。此實驗中比較了3 種情況下用戶總效用的變化情況：1）比較平均預(yù)算的一半/2 對各個算法的總效用的影響；2）比較平均預(yù)算對各個算法的總效用的影響；3）比較平均預(yù)算的2 倍×2 對各個算法的總效用的影響。可以看出，隨著平均預(yù)算的增加，所有算法的總效用都有所增加。其中，DARANDno 算法對所有預(yù)算值的總效用是最差的，因為用戶的體驗質(zhì)量非常低，特別是那些需要低延遲VR 服務(wù)的用戶。通過共享資源和平衡在計算MEC 節(jié)點間的負載時，擁有緩存功能的DARAND 算法比沒有緩存功能的算法獲得了更高的總效用。而本文算法在沒有緩存功能的情況下通過優(yōu)化服務(wù)緩存和任務(wù)卸載決策以及資源分配，獲得的總效用高于DARAND 算法。

圖7 不同預(yù)算成本對總效用的影響Fig.7 The total utility versus different weighted budgets

圖8 展示了不同權(quán)重下DADDPG 算法的訓(xùn)練性能?？梢钥闯?，在3 種不同權(quán)重參數(shù)下，DADDPG 算法最終都可以收斂。當(dāng)調(diào)整系數(shù)w=0.1 和w=0.9 時，累計獎勵值大于w=0.5 的情況，這是因為w=0.1 時解決方案側(cè)重總節(jié)約成本，w=0.9 時解決方案側(cè)重總體驗質(zhì)量使得目標(biāo)值會偏向總節(jié)約成本或者總節(jié)約成本的值，而w=0.5 時總體驗質(zhì)量和總節(jié)約成本會達到平衡狀態(tài)。同時由圖8 可以看出，3 種不同權(quán)重參數(shù)下的累計獎勵值均在第510 episode 左右達到收斂狀態(tài)。

圖8 DADDPG 算法的訓(xùn)練性能Fig.8 Training performance of DADDPG algorithm

5 結(jié)束語

本文基于深度確定性策略梯度算法對MEC 中服務(wù)緩存、任務(wù)卸載和資源分配進行聯(lián)合優(yōu)化，提出DADDPG 算法，并通過仿真分析各變量在實驗過程中對服務(wù)質(zhì)量和節(jié)約成本的影響。實驗結(jié)果表明，DADDPG 算法能夠有效地優(yōu)化目標(biāo)值。然而在任務(wù)卸載過程中，需要選擇任務(wù)數(shù)據(jù)卸載與存儲的MEC，而在快速移動時可能會使移動用戶在MEC 之間進行快速切換，這會導(dǎo)致任務(wù)中斷，進而影響用戶的QoE。因此，下一步將考慮用戶的移動性，完善MEC 系統(tǒng)中任務(wù)卸載和服務(wù)緩存結(jié)構(gòu)。