亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

面向車聯(lián)網(wǎng)的多智能體強(qiáng)化學(xué)習(xí)邊云協(xié)同卸載

2021-04-29 03:20:48葉佩文賈向東楊小蓉牛春雨

計(jì)算機(jī)工程 2021年4期

葉佩文，賈向東，楊小蓉，牛春雨

（1.西北師范大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院，蘭州 730070；2.南京郵電大學(xué)江蘇省無(wú)線通信重點(diǎn)實(shí)驗(yàn)室，南京 214215）

0 概述

目前，車輛消費(fèi)升級(jí)、道路容量日趨飽和等客觀因素加劇了城市的交通困境。在5G 商用落地同時(shí)展望6G 愿景的背景下，構(gòu)筑“車-人-路-云”泛在連接的車聯(lián)網(wǎng)（Internet of Vehicles，IoV）成為必然趨勢(shì)［1-2］。與此同時(shí)，在城市中部署智能交通系統(tǒng)（Intelligent Transportation System，ITS）緩解交通壓力也已成為主流選擇。而車聯(lián)網(wǎng)作為ITS 的核心部分，更需要在網(wǎng)絡(luò)架構(gòu)和使能技術(shù)上不斷演進(jìn)［3］。

在網(wǎng)絡(luò)架構(gòu)方面，得益于云計(jì)算技術(shù)的迅猛發(fā)展，車聯(lián)網(wǎng)的大量計(jì)算任務(wù)可以有效地遷移到分布式云端服務(wù)器上進(jìn)行數(shù)據(jù)處理、統(tǒng)一調(diào)度和計(jì)算資源分配。然而，單一的車輛云架構(gòu)不可避免地要求數(shù)據(jù)進(jìn)行長(zhǎng)距離、高時(shí)延傳輸，這無(wú)法滿足需要敏捷響應(yīng)的V2V 安全類信息通信要求。通過(guò)分析車輛行為與預(yù)測(cè)模型可以發(fā)現(xiàn)車輛群體存在局部性特征［4-5］，即計(jì)算任務(wù)的卸載范圍通常局限于相鄰行駛車輛或車與周邊路旁單元之間，而將移動(dòng)邊緣計(jì)算（Mobile Edge Computing，MEC）作為一種新的范式引入車聯(lián)網(wǎng)，能夠?qū)⒂?jì)算能力下沉至網(wǎng)絡(luò)邊緣，從而減少服務(wù)時(shí)延［6］。

在使能技術(shù)上，車聯(lián)網(wǎng)邊緣計(jì)算卸載可利用凸優(yōu)化、圖論以及博弈均衡等方法。但近年來(lái)人工智能特別是深度強(qiáng)化學(xué)習(xí)［7-8］在計(jì)算機(jī)視覺、自然語(yǔ)言處理、語(yǔ)音識(shí)別等領(lǐng)域獲得巨大成功，這吸引了國(guó)內(nèi)外學(xué)者重新思考車聯(lián)網(wǎng)邊緣計(jì)算卸載方案的設(shè)計(jì)思路。

現(xiàn)有車聯(lián)網(wǎng)邊緣卸載策略存在場(chǎng)景同質(zhì)化嚴(yán)重的問(wèn)題，且在性能上仍有較大的提升空間。本文針對(duì)更泛在的城市街道場(chǎng)景，結(jié)合強(qiáng)化學(xué)習(xí)和隨機(jī)幾何理論，提出一種邊云協(xié)同的車輛邊緣卸載方案。結(jié)合隨機(jī)幾何理論和人工智能方法優(yōu)化車聯(lián)網(wǎng)邊云卸載過(guò)程，將每個(gè)源車輛單元（Source Vehicle Unit，SVU）作為智能體來(lái)進(jìn)行學(xué)習(xí)決策，并把由此產(chǎn)生的復(fù)雜訓(xùn)練過(guò)程轉(zhuǎn)換到云端訓(xùn)練神經(jīng)網(wǎng)絡(luò)中，使SVU 僅依靠局部決策即能把握全局特征。此外，還將資源隊(duì)列模型作為神經(jīng)網(wǎng)絡(luò)輸入前件，以降低維災(zāi)風(fēng)險(xiǎn)。

1 相關(guān)工作

文獻(xiàn)［9］針對(duì)車輛邊緣計(jì)算（Vehicular Edge Computing，VEC）網(wǎng)絡(luò)提出了移動(dòng)感知的任務(wù)卸載方法，以達(dá)到執(zhí)行成本最小化的目的。文獻(xiàn)［10］提出一種聯(lián)合云計(jì)算、移動(dòng)邊緣計(jì)算和本地計(jì)算的多平臺(tái)智能卸載方案，根據(jù)任務(wù)屬性，利用強(qiáng)化學(xué)習(xí)算法選擇卸載平臺(tái)，旨在最小化時(shí)延并節(jié)省系統(tǒng)總成本，但網(wǎng)絡(luò)模型中的控制面和數(shù)據(jù)面深度耦合，使得任務(wù)處理缺乏靈活性。文獻(xiàn)［11］提出了基于軟件定義［12］的車載網(wǎng)絡(luò)框架，其核心思想是將控制面和數(shù)據(jù)面分離，使運(yùn)營(yíng)商能夠更靈活地控制和更快速地部署網(wǎng)絡(luò)，但是車輛業(yè)務(wù)復(fù)雜和網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)多變的因素導(dǎo)致這一框架對(duì)車輛特征的抽象還不夠成熟，相應(yīng)的車載網(wǎng)絡(luò)虛擬化技術(shù)仍需要深入研究。文獻(xiàn)［13］針對(duì)類似高速路口擁塞場(chǎng)景，利用車聯(lián)網(wǎng)異構(gòu)資源性能互補(bǔ)特性，即計(jì)算資源開銷來(lái)供給通信資源需求，提出了基于霧計(jì)算［14］的車聯(lián)網(wǎng)邊緣資源融合機(jī)制，從而彌補(bǔ)車聯(lián)網(wǎng)資源時(shí)空分布不均的不足，但霧化機(jī)制［15］涉及大量基礎(chǔ)設(shè)施的改造和升級(jí)，因此，該機(jī)制在構(gòu)建部署階段仍面臨諸多挑戰(zhàn)。

文獻(xiàn)［16］針對(duì)車聯(lián)網(wǎng)超可靠低延時(shí)通信（Ultra-Reliable Low-Latency Communication，URLLC）過(guò)程，將有異構(gòu)性需求的車輛節(jié)點(diǎn)作為多智能體，利用強(qiáng)化學(xué)習(xí)進(jìn)行數(shù)據(jù)卸載決策。文獻(xiàn)［17］以相鄰的車輛節(jié)點(diǎn)作為移動(dòng)邊緣服務(wù)器，以路邊設(shè)施作為固定邊緣服務(wù)器，利用半馬爾科夫過(guò)程對(duì)時(shí)變信道進(jìn)行建模，使移動(dòng)用戶根據(jù)Q 學(xué)習(xí)算法確定卸載對(duì)象，同時(shí)針對(duì)增加訓(xùn)練過(guò)程動(dòng)作狀態(tài)空間可能引起維災(zāi)的問(wèn)題，提出利用深度神經(jīng)網(wǎng)絡(luò)來(lái)逼近Q 函數(shù)的深度強(qiáng)化學(xué)習(xí)算法，旨在使系統(tǒng)總效用最大。文獻(xiàn)［18］基于值迭代和策略迭代兩種思路提出動(dòng)作-評(píng)價(jià)學(xué)習(xí)（Actor-Critic learning，AC）算法。得益于Actor 執(zhí)行動(dòng)作然后Critic 進(jìn)行評(píng)估的優(yōu)勢(shì)，該算法在高維度空間仍具有良好的收斂屬性，但存在評(píng)價(jià)策略偏差較大的問(wèn)題，導(dǎo)致求解所得只是局部最優(yōu)解。文獻(xiàn)［19］將無(wú)線信道狀態(tài)、緩存狀態(tài)以及計(jì)算能力均納入系統(tǒng)狀態(tài)作為環(huán)境進(jìn)行交互，由于通信、緩存、計(jì)算（Communication，Caching，Computing，3C）資源在應(yīng)用場(chǎng)景具有耦合互補(bǔ)的特性，因此綜合權(quán)衡3C 資源效用為任務(wù)調(diào)度卸載提供了一個(gè)廣闊的思路。文獻(xiàn)［20］在此基礎(chǔ)上進(jìn)一步考慮了時(shí)間尺度對(duì)協(xié)調(diào)優(yōu)化的影響，提出大時(shí)間尺度采用粒子群優(yōu)化理論而小時(shí)間尺度采用深度Q 學(xué)習(xí)算法調(diào)優(yōu)的細(xì)化方案。

然而，現(xiàn)有車聯(lián)網(wǎng)邊緣計(jì)算方法普遍存在以下不足：1）多數(shù)方法僅在單一的高速公路場(chǎng)景進(jìn)行建模，而此類場(chǎng)景通常假定車輛服從空間泊松過(guò)程（Spatial Poisson Process，SPP），這明顯限制了適用范圍，且簡(jiǎn)化了車聯(lián)網(wǎng)實(shí)際通信的真實(shí)時(shí)空分布；2）云計(jì)算平臺(tái)大多采用集中式部署方案，計(jì)算任務(wù)從本地遷移到云端存在重構(gòu)開銷，且隊(duì)列形式的任務(wù)傳輸易導(dǎo)致額外排隊(duì)時(shí)延和無(wú)序爭(zhēng)用，而目前缺乏邊緣計(jì)算節(jié)點(diǎn)協(xié)同云平臺(tái)的相關(guān)研究；3）在利用人工智能手段方面，現(xiàn)有研究的獎(jiǎng)勵(lì)機(jī)制設(shè)計(jì)單一，從而導(dǎo)致訓(xùn)練模型的泛化性較差。

本文結(jié)合強(qiáng)化學(xué)習(xí)和隨機(jī)幾何理論，提出一種邊云協(xié)同的車輛邊緣卸載方案，主要包括以下工作：

1）針對(duì)場(chǎng)景趨同、系統(tǒng)建模局限的問(wèn)題，將城市街道建模為經(jīng)典Manhattan模型［21］，并利用隨機(jī)CoX過(guò)程［22］對(duì)移動(dòng)車輛進(jìn)行細(xì)粒度建模，相應(yīng)考慮視距（Line of Sight，LoS）和非視距（Non-Line of Sight，NLoS）兩種情況的信道狀態(tài)。進(jìn)一步地，考慮到級(jí)聯(lián)對(duì)象包含目標(biāo)車輛單元（Target Vehicle Unit，TVU）和路邊單元（Rode Side Unit，RSU），對(duì)于SVU 而言在時(shí)空上具備離散性和流動(dòng)性，通過(guò)隨機(jī)幾何理論分析級(jí)聯(lián)對(duì)象接收信干比（Signal to Interference Ratio，SIR）覆蓋概率，從而劃分出卸載節(jié)點(diǎn)的優(yōu)先級(jí)，從根本上消除轉(zhuǎn)化成組合優(yōu)化問(wèn)題的必要性，降低計(jì)算復(fù)雜度。

2）依據(jù)邊云協(xié)同的思想，將SVU 作為智能體進(jìn)行決策，并將決策記錄作為經(jīng)驗(yàn)上傳到云端，云端通過(guò)經(jīng)驗(yàn)訓(xùn)練神經(jīng)網(wǎng)絡(luò)，每隔一段時(shí)間將訓(xùn)練更完備的神經(jīng)網(wǎng)絡(luò)反饋到邊緣節(jié)點(diǎn)上。由此，只專注局部決策的SVU 能夠捕捉到云端存儲(chǔ)的全局特征而無(wú)需承擔(dān)復(fù)雜的訓(xùn)練過(guò)程。

3）由于強(qiáng)化學(xué)習(xí)的本質(zhì)是環(huán)境交互和基于獎(jiǎng)勵(lì)，因此設(shè)計(jì)更貼近實(shí)際的多角色博弈獎(jiǎng)勵(lì)機(jī)制。同時(shí)，為使從全局觀察縮小到局部觀察具有實(shí)質(zhì)性作用，將節(jié)點(diǎn)資源隊(duì)列分析作為輸入的預(yù)先工作，從而減少計(jì)算任務(wù)的排隊(duì)時(shí)間，并在一定程度上降低維災(zāi)風(fēng)險(xiǎn)。

2 系統(tǒng)模型

本文研究的系統(tǒng)模型如圖1 所示，其中小區(qū)的網(wǎng)絡(luò)架構(gòu)由基站（Base Station，BS）和RSU 共同組成?；就ㄟ^(guò)核心網(wǎng)絡(luò)連接云端服務(wù)器，具有計(jì)算能力的RSU作為固定邊緣服務(wù)器（Fixed Edge Server，F(xiàn)ES），中央云服務(wù)器可以通過(guò)回程鏈路連接FES 支持遠(yuǎn)程調(diào)度。將具有計(jì)算能力的TVU作為移動(dòng)邊緣服務(wù)器（Mobile Edge Server，VES），并從更廣義的角度定義邊緣節(jié)點(diǎn)性質(zhì)，包括TVU 和RSU 兩種類型。

圖1 車聯(lián)網(wǎng)邊云協(xié)同卸載系統(tǒng)模型Fig.1 System model of collaborative edge and cloud offloading for IoV

假設(shè)本地計(jì)算容量已飽和，上述場(chǎng)景下的卸載途徑可分為以下3 種情況：1）在LoS 范圍內(nèi)，SVU 將計(jì)算任務(wù)卸載給相鄰滿足條件的TVU，由于車輛到BS 上行鏈路的利用相對(duì)不充分，且BS 端對(duì)干擾更具可控性，因此為提高頻譜利用率，SVU 可以復(fù)用V2B 上行鏈路進(jìn)行計(jì)算任務(wù)卸載；2）在NLoS 范圍內(nèi)，SVU 同樣可以復(fù)用V2B 上行鏈路進(jìn)行計(jì)算任務(wù)卸載；3）在基礎(chǔ)設(shè)施完備（即已部署RSU）的車輛稀疏路況場(chǎng)景中，SVU 可以將計(jì)算任務(wù)卸載到滿足條件的RSU 端。

本文將車聯(lián)網(wǎng)的空間分布建模為泊松線性Cox 點(diǎn)過(guò)程（Poisson Line Cox Point Process，PLCPP），對(duì)象包含車輛節(jié)點(diǎn)和路邊節(jié)點(diǎn)。具體過(guò)程如下：將車輛節(jié)點(diǎn)空間分布建模為密度為μV的獨(dú)立PLCPP，用ΦV表示；考慮到RSU 沿道路布放，將RSU 空間分布建模為線密度為μR的獨(dú)立泊松線過(guò)程（Poisson Line Process，PLP），用ΦR表示。假設(shè)車輛節(jié)點(diǎn)中TVU 占比為β，遵循PLCPP，則TVU 服從密度為μTVU=μVβ的PLCPP，SVU服從密度為μSVU=μV(1-β)的PLCPP。

2.1 通信模型

不失一般性，本文假設(shè)SVU 使用最近距離級(jí)聯(lián)卸載準(zhǔn)則［23］，并遵循廣義邊緣節(jié)點(diǎn)性質(zhì)。定義計(jì)算任務(wù)集合T={T1，T2，…，TJ}，SVU 集合用K表示，TVU 集合用N表示，RVU 集合用?表示。考慮計(jì)算任務(wù)卸載到邊緣節(jié)點(diǎn)存在視距（LoS）和非視距（NLoS）兩種情況，在周期t內(nèi)，SVU 卸載計(jì)算任務(wù)Tj(j∈J)到邊緣節(jié)點(diǎn)的路徑損耗可表示為：

因此，LoS 范圍內(nèi)卸載到第k個(gè)TVU 的頻譜效率可表示為：

引理1假設(shè)SVU 的卸載許可半徑為L(zhǎng)S，與SVU級(jí)聯(lián)的TVU接收的SIR覆蓋概率可表示為式（4），其中，。證明見文獻(xiàn)［23］。

結(jié)合式（2）～式（4）可知，從第k個(gè)SVU 卸載到第n個(gè)TVU 的數(shù)據(jù)速率為：

類似地，對(duì)于SVU 處于車輛稀疏且RSU 設(shè)施完善的區(qū)域，SVU 可以卸載計(jì)算任務(wù)到滿足條件的RSU，與第k個(gè)SVU 級(jí)聯(lián)的第r個(gè)TVU 接收的SIR 為：

其中，I(k)TVU是來(lái)自TVU 的干擾，I(k)r′是來(lái)自其他TVU的干擾。

因此，卸載到第r個(gè)RSU 的頻譜效率可表示為：

引理2假設(shè)SVU 的卸載許可半徑為L(zhǎng)S，與SVU 級(jí)聯(lián)的RSU 接收SIR 覆蓋概率可表示為：

結(jié)合式（7）和式（8）可知，從第k個(gè)SVU 卸載到第r個(gè)RSU 的數(shù)據(jù)速率為：

2.2 計(jì)算模型

在計(jì)算卸載過(guò)程中，可定義SVU 的卸載任務(wù)Tj?(Hj，Qj，)，其中，Hj表示計(jì)算任務(wù)數(shù)據(jù)大小，Qj表示完成任務(wù)所需計(jì)算資源量，表示最大等待時(shí)間。

對(duì)于將計(jì)算任務(wù)卸載到TVU 的場(chǎng)景，SVU 卸載計(jì)算任務(wù)Hj到TVU 的時(shí)間開銷包括通信時(shí)間和計(jì)算時(shí)間兩部分。

卸載到TVU 的通信時(shí)間取決于計(jì)算任務(wù)數(shù)據(jù)大小Hj和提供服務(wù)TVU 的數(shù)據(jù)速率，結(jié)合式（9），通信時(shí)間可以表示為：

對(duì)于卸載到TVU 的計(jì)算任務(wù)，依照隊(duì)列形式保存到TVU 緩存中，并更新資源隊(duì)列狀態(tài)，實(shí)行任務(wù)遷移，保證排隊(duì)延時(shí)遠(yuǎn)小于任務(wù)計(jì)算時(shí)間。因此，計(jì)算時(shí)間僅依賴于任務(wù)所需計(jì)算資源Qj和TVU 的計(jì)算能力fTVUj（即單位時(shí)間內(nèi)CPU 周期數(shù)），可表示為：

結(jié)合式（10）和式（11）可知，TVU 的總執(zhí)行時(shí)間為：

類似地，將計(jì)算任務(wù)卸載到RSU 場(chǎng)景的執(zhí)行時(shí)間同樣包括通信時(shí)間和計(jì)算時(shí)間兩部分。

卸載到RSU 的通信時(shí)間可表示為：

卸載到RSU 的計(jì)算時(shí)間可表示為：

結(jié)合式（13）和式（14）可知，RSU 的總執(zhí)行時(shí)間為：

2.3 資源隊(duì)列分析模型

SVU 在卸載計(jì)算任務(wù)時(shí)需要考慮卸載節(jié)點(diǎn)計(jì)算隊(duì)列大小。不失一般性，假設(shè)隊(duì)列節(jié)點(diǎn)初始資源量為qinitial，平均計(jì)算任務(wù)到達(dá)率E[Tj]=λ，在許可半徑LS內(nèi)滿足資源量的TVU 和RSU 概率分別可表示為：

其中，Zi(λ，LS)表示Zipf 分布。

假設(shè)所考慮的車聯(lián)網(wǎng)中SVU在周期t內(nèi)生成任務(wù)的概率為pj，SVU級(jí)聯(lián)卸載節(jié)點(diǎn)可提供的資源量表示為Θ=P(D2)(1-pj)μTVUμSVUE[L]，其中，P(D2)表示平面周長(zhǎng)，E[L]表示道路平均長(zhǎng)度。因此，TVU所需保證的隊(duì)列長(zhǎng)度為ΘTVU=Θ(1-PTVUq)，SVU所需保證的隊(duì)列長(zhǎng)度為ΘSVU=。相應(yīng)地，對(duì)于周期t內(nèi)生成任務(wù)Tj，卸載節(jié)點(diǎn)資源隊(duì)列長(zhǎng)度。

3 問(wèn)題描述

本節(jié)分別從執(zhí)行時(shí)延、能耗約束和費(fèi)用開銷維度分析車聯(lián)網(wǎng)任務(wù)卸載問(wèn)題，并量化統(tǒng)一成系統(tǒng)效用評(píng)價(jià)卸載性能，將3 個(gè)維度評(píng)價(jià)性能的累加作為獎(jiǎng)勵(lì)機(jī)制來(lái)反饋訓(xùn)練神經(jīng)網(wǎng)絡(luò)。

1）執(zhí)行時(shí)延。定義F 為指示符，用于區(qū)分TVU 和RSU，則計(jì)算任務(wù)Tj執(zhí)行時(shí)延可表示為：

3）費(fèi)用開銷?？紤]實(shí)際網(wǎng)絡(luò)架構(gòu)包括車聯(lián)網(wǎng)運(yùn)營(yíng)商（Vehicle Network Operator，VNO）、基礎(chǔ)設(shè)施供應(yīng)商（Infrastructure Provider，InP）和業(yè)務(wù)供應(yīng)商（Service Provider，SP）三類角色。假設(shè)VNO 需向InP 支付的頻譜租賃費(fèi)用為ε，VNO 需向SP 支付計(jì)算費(fèi)用φ，則計(jì)算任務(wù)Tj的費(fèi)用開銷包含通信開銷和計(jì)算開銷兩部分，可以表示為：

綜上所述，基于多角色博弈的獎(jiǎng)勵(lì)機(jī)制，卸載任務(wù)的系統(tǒng)效用可由執(zhí)行時(shí)延、能耗約束和費(fèi)用開銷三者的子效用累計(jì)和來(lái)表示，即：

其中，ω=[ω1，ω2，ω3]表示子效用系數(shù)，在訓(xùn)練過(guò)程中通過(guò)調(diào)整該參數(shù)來(lái)確定子效用的傾向性，例如在稀疏場(chǎng)景下更關(guān)注費(fèi)用開銷，而在密集場(chǎng)景下更關(guān)注執(zhí)行時(shí)延。

4 多智能體強(qiáng)化學(xué)習(xí)邊云卸載機(jī)制

車聯(lián)網(wǎng)是典型的高速移動(dòng)實(shí)時(shí)傳輸場(chǎng)景，在其中進(jìn)行單一云端集中式優(yōu)化存在參數(shù)冗余、更新滯后和耗費(fèi)通信開銷等問(wèn)題。分布式邊云協(xié)同機(jī)制利用云端將訓(xùn)練更完備的神經(jīng)網(wǎng)絡(luò)反饋到邊緣節(jié)點(diǎn)，使得邊緣節(jié)點(diǎn)僅需要相鄰節(jié)點(diǎn)信息來(lái)更新參數(shù)執(zhí)行操作。本節(jié)首先介紹狀態(tài)空間、動(dòng)作空間及系統(tǒng)效用，然后描述多智能體強(qiáng)化學(xué)習(xí)流程及改進(jìn)方案。

1）狀態(tài)空間。用S表示狀態(tài)集合，在時(shí)刻t的狀態(tài)可表示為，該狀態(tài)表征了計(jì)算任務(wù)Tj的時(shí)延、能耗和開銷狀態(tài)。

2）動(dòng)作空間。定義動(dòng)作集為A，計(jì)算任務(wù)采取的動(dòng)作αj∈A，αj=1 代表計(jì)算任務(wù)Tj卸載到TVU 上執(zhí)行，αj=0 代表計(jì)算任務(wù)Tj卸載到RSU 上執(zhí)行，否則在該周期內(nèi)不采取任何動(dòng)作。

3）系統(tǒng)效用。累計(jì)任務(wù)時(shí)延、能耗約束、費(fèi)用開銷三者的子效用作為獎(jiǎng)勵(lì)函數(shù)評(píng)價(jià)動(dòng)作空間與狀態(tài)空間的映射關(guān)系，結(jié)合式（21），在時(shí)刻t系統(tǒng)立即效用可表示為：

進(jìn)一步地，由于當(dāng)前的動(dòng)作僅受前一時(shí)刻狀態(tài)影響，當(dāng)前狀態(tài)通過(guò)執(zhí)行某一動(dòng)作轉(zhuǎn)換到下一狀態(tài)，因此可利用馬爾科夫決策過(guò)程來(lái)表述。假設(shè)狀態(tài)空間到動(dòng)作空間的映射為Φ，即Φ()=aj，則系統(tǒng)狀態(tài)轉(zhuǎn)移概率可表示為：

狀態(tài)值函數(shù)Vπ(s) 和狀態(tài)動(dòng)作函數(shù)Qπ(s，α) 可以表示為：

其中，π表示SVU 當(dāng)前采取的策略，γ表示折扣因子。根據(jù)式（25）和貝爾曼公式的定義，進(jìn)一步可得到式（26）：

基于值迭代或策略迭代的傳統(tǒng)方法需要智能體獲得全局信息，不適用于信息特征變化頻繁的車聯(lián)網(wǎng)場(chǎng)景。由于Q 學(xué)習(xí)在與環(huán)境交互的過(guò)程中通過(guò)局部信息不斷地試錯(cuò)來(lái)找到最優(yōu)行為，因此SVU 可以通過(guò)Q 學(xué)習(xí)最大化長(zhǎng)期效用獲得最佳的控制決策。但結(jié)合式（22）和式（26）可知此方法存在以下兩點(diǎn)不足：1）狀態(tài)空間的大小會(huì)隨著訓(xùn)練的輪數(shù)大幅增加，影響收斂性；2）出現(xiàn)梯度消失或梯度爆炸現(xiàn)象，導(dǎo)致模型退化。本文對(duì)此做以下改進(jìn)：

1）采用經(jīng)驗(yàn)重放策略。

將智能體在環(huán)境探索過(guò)程中獲得的經(jīng)驗(yàn)數(shù)據(jù)存放在經(jīng)驗(yàn)池中，在后續(xù)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的過(guò)程中隨機(jī)采樣更新網(wǎng)絡(luò)參數(shù)。經(jīng)驗(yàn)池表示為Μ(j)={m(j-M+1)，m(j-M)，…，m(j)}，存放的經(jīng)驗(yàn)數(shù)據(jù)元組表示為m(j)=。SVU隨機(jī)采樣?M(j)輸入神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，而非直接利用連續(xù)樣本進(jìn)行訓(xùn)練。更新規(guī)則可表示為：

2）采用邊云協(xié)同思想及線性Q 函數(shù)分解理論。

由式（22）可知，系統(tǒng)效用由任務(wù)時(shí)延、能耗約束和費(fèi)用開銷累加形成，需要訓(xùn)練大量的參數(shù)，不可避免地需要更多的計(jì)算資源和存儲(chǔ)資源，并且會(huì)增加訓(xùn)練時(shí)間。因此，本文利用邊云協(xié)同思想，將神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程放置到云端，利用經(jīng)驗(yàn)回放池的數(shù)據(jù)進(jìn)行訓(xùn)練。此外，采用線性Q 函數(shù)分解理論對(duì)式（22）做進(jìn)一步改進(jìn)。設(shè)智能體指示符K={1，2，3}分別對(duì)應(yīng)3 個(gè)效用分量，式（22）可表示為：

進(jìn)一步地，式（25）可以表示為：

因此，式（27）所示的更新規(guī)則改進(jìn)為：

5 仿真結(jié)果與分析

5.1 仿真設(shè)置

利用MATLAB 仿真平臺(tái)對(duì)所提邊云協(xié)同卸載方案進(jìn)行仿真評(píng)估。仿真遵循Manhattan 模型描述的參數(shù)設(shè)置并按照MEC 白皮書［6］相關(guān)規(guī)定構(gòu)建系統(tǒng)模型，使用SNIA 云服務(wù)器記錄所有數(shù)據(jù)集，并提供云端的計(jì)算服務(wù)支持邊緣節(jié)點(diǎn)參數(shù)更新。具體仿真參數(shù)見表1。

表1 仿真參數(shù)Table 1 Parameters of simulation

5.2 結(jié)果分析

為驗(yàn)證所提方案的收斂性并比較不同學(xué)習(xí)率對(duì)其收斂性的影響，將時(shí)延作為參照結(jié)果。由圖2 可以看出：當(dāng)學(xué)習(xí)率為0.01 時(shí)，收斂到一個(gè)局部最優(yōu)解時(shí)延較大；縮小學(xué)習(xí)率至0.005 可以得到較大的性能提升，但收斂速度變緩；學(xué)習(xí)率為0.001 時(shí)，在收斂結(jié)果上仍有較大提升?？紤]到更小的學(xué)習(xí)率會(huì)導(dǎo)致長(zhǎng)時(shí)間無(wú)法收斂，本文采用0.001 的學(xué)習(xí)率作為后續(xù)實(shí)驗(yàn)參數(shù)。

圖2 不同學(xué)習(xí)率下訓(xùn)練周期與時(shí)延的關(guān)系Fig.2 The relationship of training period and time delay under different learning rates

不同方案的累計(jì)能耗隨訓(xùn)練周期的變化趨勢(shì)如圖3 所示，其中累計(jì)能耗的大小代表了計(jì)算任務(wù)遷移量?？梢钥闯觯簩?duì)照組沒有利用云端技術(shù)，邊緣節(jié)點(diǎn)累計(jì)能耗在短時(shí)間內(nèi)快速上升，隨著任務(wù)量逐步均衡遷移而達(dá)到穩(wěn)定狀態(tài)，因?yàn)槁愤厗卧挠?jì)算能力強(qiáng)于車輛節(jié)點(diǎn)，所以僅V2I 卸載方案略優(yōu)于僅V2V 卸載方案；本文方案利用邊云協(xié)同優(yōu)勢(shì)，在訓(xùn)練過(guò)程中參數(shù)更新及時(shí)，局部參數(shù)的快速迭代能擬合得到全局最優(yōu)解，因此在較短的時(shí)間內(nèi)就達(dá)到了系統(tǒng)功耗均衡。

圖3 不同方案訓(xùn)練周期與能耗的關(guān)系Fig.3 The relationship of training period and energy consumption under different schemes

不同方案系統(tǒng)效用隨計(jì)算任務(wù)到達(dá)率及頻譜分配因子的變化趨勢(shì)如圖4 所示?？梢钥闯觯阂环矫?，系統(tǒng)效用隨計(jì)算任務(wù)到達(dá)率先增后減，在計(jì)算任務(wù)到達(dá)率為0.6 時(shí)達(dá)到最佳狀態(tài)，此時(shí)資源隊(duì)列較優(yōu)，使得執(zhí)行子效用對(duì)系統(tǒng)效用傾向性較大，通過(guò)調(diào)整子效用系數(shù)來(lái)應(yīng)對(duì)不同場(chǎng)景需求，本文對(duì)于執(zhí)行時(shí)間有強(qiáng)約束，故將子效用系數(shù)設(shè)置為ω=［0.6，0.2，0.2］；另一方面，計(jì)算任務(wù)生成率越高也能提升系統(tǒng)效用，任務(wù)數(shù)據(jù)傳輸不易丟包。相較于僅V2V 卸載和僅V2I 卸載方案，本文方案具有明顯優(yōu)勢(shì)。在對(duì)照組實(shí)驗(yàn)中，當(dāng)計(jì)算任務(wù)達(dá)到率僅為0.5 時(shí)資源隊(duì)列就達(dá)到飽和狀態(tài)，計(jì)算任務(wù)已處于排隊(duì)狀態(tài)。

圖4 不同方案計(jì)算任務(wù)到達(dá)率與系統(tǒng)效用的關(guān)系Fig.4 The relationship of system utility and computation tasks arrival rate under different schemes

不同頻譜分配因子m下系統(tǒng)效用與計(jì)算任務(wù)到達(dá)率的關(guān)系如圖5 所示?？梢钥闯?，盡管本文方案計(jì)算任務(wù)到達(dá)率為0.6 時(shí)系統(tǒng)效用已達(dá)到最大值，但隨著到達(dá)率的增加仍保持接近最佳值，體現(xiàn)了本文方案的有效性。

圖5 不同頻譜分配因子下計(jì)算任務(wù)到達(dá)率與系統(tǒng)效用的關(guān)系Fig.5 The relationship of computation tasks arrival rate and system utility under different spectrum allocation factors

不同訓(xùn)練周期和子效用系數(shù)設(shè)置下時(shí)延與能耗的關(guān)系如圖6 所示?？梢钥闯觯阂环矫妫S著訓(xùn)練周期增加，即訓(xùn)練的迭代次數(shù)的增加能反饋給智能體更完備的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，使得計(jì)算任務(wù)的卸載能耗有所下降，但值得注意的是，云端訓(xùn)練的開銷能否得到有效供給是一個(gè)開放性問(wèn)題，在本文中訓(xùn)練周期為4 000 時(shí)達(dá)到了收斂狀態(tài)；另一方面，隨著子效用系數(shù)ω2的增大，系統(tǒng)的能耗也逐漸增大。費(fèi)用開銷子效用系數(shù)ω3對(duì)于能耗的影響較大，ω3值增大導(dǎo)致能耗快速增長(zhǎng)。

圖6 不同訓(xùn)練周期和子效用系數(shù)設(shè)置下時(shí)延與能耗的關(guān)系Fig.6 The relationship of delay and energy consumption under different settings of training period and sub-utility coefficient

6 結(jié)束語(yǔ)

本文提出一種基于多智能體強(qiáng)化學(xué)習(xí)的車聯(lián)網(wǎng)任務(wù)卸載方案。采用隨機(jī)幾何理論對(duì)資源隊(duì)列進(jìn)行控制，從而降低任務(wù)排隊(duì)時(shí)延，同時(shí)分離云端訓(xùn)練神經(jīng)網(wǎng)絡(luò)和節(jié)點(diǎn)決策神經(jīng)網(wǎng)絡(luò)，使云端能夠更精準(zhǔn)地提取環(huán)境特征，節(jié)點(diǎn)端則定時(shí)根據(jù)云端反饋的優(yōu)化參數(shù)進(jìn)行在線決策。仿真結(jié)果表明，與單一固定邊緣的計(jì)算策略相比，該方案能夠有效減小時(shí)延和能耗并且降低計(jì)算復(fù)雜度。下一步將結(jié)合節(jié)點(diǎn)緩存技術(shù)設(shè)計(jì)更高效的車聯(lián)網(wǎng)計(jì)算任務(wù)卸載方案。