葉佩文,賈向東,楊小蓉,牛春雨
(1.西北師范大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,蘭州 730070;2.南京郵電大學(xué)江蘇省無(wú)線通信重點(diǎn)實(shí)驗(yàn)室,南京 214215)
目前,車輛消費(fèi)升級(jí)、道路容量日趨飽和等客觀因素加劇了城市的交通困境。在5G 商用落地同時(shí)展望6G 愿景的背景下,構(gòu)筑“車-人-路-云”泛在連接的車聯(lián)網(wǎng)(Internet of Vehicles,IoV)成為必然趨勢(shì)[1-2]。與此同時(shí),在城市中部署智能交通系統(tǒng)(Intelligent Transportation System,ITS)緩解交通壓力也已成為主流選擇。而車聯(lián)網(wǎng)作為ITS 的核心部分,更需要在網(wǎng)絡(luò)架構(gòu)和使能技術(shù)上不斷演進(jìn)[3]。
在網(wǎng)絡(luò)架構(gòu)方面,得益于云計(jì)算技術(shù)的迅猛發(fā)展,車聯(lián)網(wǎng)的大量計(jì)算任務(wù)可以有效地遷移到分布式云端服務(wù)器上進(jìn)行數(shù)據(jù)處理、統(tǒng)一調(diào)度和計(jì)算資源分配。然而,單一的車輛云架構(gòu)不可避免地要求數(shù)據(jù)進(jìn)行長(zhǎng)距離、高時(shí)延傳輸,這無(wú)法滿足需要敏捷響應(yīng)的V2V 安全類信息通信要求。通過(guò)分析車輛行為與預(yù)測(cè)模型可以發(fā)現(xiàn)車輛群體存在局部性特征[4-5],即計(jì)算任務(wù)的卸載范圍通常局限于相鄰行駛車輛或車與周邊路旁單元之間,而將移動(dòng)邊緣計(jì)算(Mobile Edge Computing,MEC)作為一種新的范式引入車聯(lián)網(wǎng),能夠?qū)⒂?jì)算能力下沉至網(wǎng)絡(luò)邊緣,從而減少服務(wù)時(shí)延[6]。
在使能技術(shù)上,車聯(lián)網(wǎng)邊緣計(jì)算卸載可利用凸優(yōu)化、圖論以及博弈均衡等方法。但近年來(lái)人工智能特別是深度強(qiáng)化學(xué)習(xí)[7-8]在計(jì)算機(jī)視覺、自然語(yǔ)言處理、語(yǔ)音識(shí)別等領(lǐng)域獲得巨大成功,這吸引了國(guó)內(nèi)外學(xué)者重新思考車聯(lián)網(wǎng)邊緣計(jì)算卸載方案的設(shè)計(jì)思路。
現(xiàn)有車聯(lián)網(wǎng)邊緣卸載策略存在場(chǎng)景同質(zhì)化嚴(yán)重的問(wèn)題,且在性能上仍有較大的提升空間。本文針對(duì)更泛在的城市街道場(chǎng)景,結(jié)合強(qiáng)化學(xué)習(xí)和隨機(jī)幾何理論,提出一種邊云協(xié)同的車輛邊緣卸載方案。結(jié)合隨機(jī)幾何理論和人工智能方法優(yōu)化車聯(lián)網(wǎng)邊云卸載過(guò)程,將每個(gè)源車輛單元(Source Vehicle Unit,SVU)作為智能體來(lái)進(jìn)行學(xué)習(xí)決策,并把由此產(chǎn)生的復(fù)雜訓(xùn)練過(guò)程轉(zhuǎn)換到云端訓(xùn)練神經(jīng)網(wǎng)絡(luò)中,使SVU 僅依靠局部決策即能把握全局特征。此外,還將資源隊(duì)列模型作為神經(jīng)網(wǎng)絡(luò)輸入前件,以降低維災(zāi)風(fēng)險(xiǎn)。
文獻(xiàn)[9]針對(duì)車輛邊緣計(jì)算(Vehicular Edge Computing,VEC)網(wǎng)絡(luò)提出了移動(dòng)感知的任務(wù)卸載方法,以達(dá)到執(zhí)行成本最小化的目的。文獻(xiàn)[10]提出一種聯(lián)合云計(jì)算、移動(dòng)邊緣計(jì)算和本地計(jì)算的多平臺(tái)智能卸載方案,根據(jù)任務(wù)屬性,利用強(qiáng)化學(xué)習(xí)算法選擇卸載平臺(tái),旨在最小化時(shí)延并節(jié)省系統(tǒng)總成本,但網(wǎng)絡(luò)模型中的控制面和數(shù)據(jù)面深度耦合,使得任務(wù)處理缺乏靈活性。文獻(xiàn)[11]提出了基于軟件定義[12]的車載網(wǎng)絡(luò)框架,其核心思想是將控制面和數(shù)據(jù)面分離,使運(yùn)營(yíng)商能夠更靈活地控制和更快速地部署網(wǎng)絡(luò),但是車輛業(yè)務(wù)復(fù)雜和網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)多變的因素導(dǎo)致這一框架對(duì)車輛特征的抽象還不夠成熟,相應(yīng)的車載網(wǎng)絡(luò)虛擬化技術(shù)仍需要深入研究。文獻(xiàn)[13]針對(duì)類似高速路口擁塞場(chǎng)景,利用車聯(lián)網(wǎng)異構(gòu)資源性能互補(bǔ)特性,即計(jì)算資源開銷來(lái)供給通信資源需求,提出了基于霧計(jì)算[14]的車聯(lián)網(wǎng)邊緣資源融合機(jī)制,從而彌補(bǔ)車聯(lián)網(wǎng)資源時(shí)空分布不均的不足,但霧化機(jī)制[15]涉及大量基礎(chǔ)設(shè)施的改造和升級(jí),因此,該機(jī)制在構(gòu)建部署階段仍面臨諸多挑戰(zhàn)。
文獻(xiàn)[16]針對(duì)車聯(lián)網(wǎng)超可靠低延時(shí)通信(Ultra-Reliable Low-Latency Communication,URLLC)過(guò)程,將有異構(gòu)性需求的車輛節(jié)點(diǎn)作為多智能體,利用強(qiáng)化學(xué)習(xí)進(jìn)行數(shù)據(jù)卸載決策。文獻(xiàn)[17]以相鄰的車輛節(jié)點(diǎn)作為移動(dòng)邊緣服務(wù)器,以路邊設(shè)施作為固定邊緣服務(wù)器,利用半馬爾科夫過(guò)程對(duì)時(shí)變信道進(jìn)行建模,使移動(dòng)用戶根據(jù)Q 學(xué)習(xí)算法確定卸載對(duì)象,同時(shí)針對(duì)增加訓(xùn)練過(guò)程動(dòng)作狀態(tài)空間可能引起維災(zāi)的問(wèn)題,提出利用深度神經(jīng)網(wǎng)絡(luò)來(lái)逼近Q 函數(shù)的深度強(qiáng)化學(xué)習(xí)算法,旨在使系統(tǒng)總效用最大。文獻(xiàn)[18]基于值迭代和策略迭代兩種思路提出動(dòng)作-評(píng)價(jià)學(xué)習(xí)(Actor-Critic learning,AC)算法。得益于Actor 執(zhí)行動(dòng)作然后Critic 進(jìn)行評(píng)估的優(yōu)勢(shì),該算法在高維度空間仍具有良好的收斂屬性,但存在評(píng)價(jià)策略偏差較大的問(wèn)題,導(dǎo)致求解所得只是局部最優(yōu)解。文獻(xiàn)[19]將無(wú)線信道狀態(tài)、緩存狀態(tài)以及計(jì)算能力均納入系統(tǒng)狀態(tài)作為環(huán)境進(jìn)行交互,由于通信、緩存、計(jì)算(Communication,Caching,Computing,3C)資源在應(yīng)用場(chǎng)景具有耦合互補(bǔ)的特性,因此綜合權(quán)衡3C 資源效用為任務(wù)調(diào)度卸載提供了一個(gè)廣闊的思路。文獻(xiàn)[20]在此基礎(chǔ)上進(jìn)一步考慮了時(shí)間尺度對(duì)協(xié)調(diào)優(yōu)化的影響,提出大時(shí)間尺度采用粒子群優(yōu)化理論而小時(shí)間尺度采用深度Q 學(xué)習(xí)算法調(diào)優(yōu)的細(xì)化方案。
然而,現(xiàn)有車聯(lián)網(wǎng)邊緣計(jì)算方法普遍存在以下不足:1)多數(shù)方法僅在單一的高速公路場(chǎng)景進(jìn)行建模,而此類場(chǎng)景通常假定車輛服從空間泊松過(guò)程(Spatial Poisson Process,SPP),這明顯限制了適用范圍,且簡(jiǎn)化了車聯(lián)網(wǎng)實(shí)際通信的真實(shí)時(shí)空分布;2)云計(jì)算平臺(tái)大多采用集中式部署方案,計(jì)算任務(wù)從本地遷移到云端存在重構(gòu)開銷,且隊(duì)列形式的任務(wù)傳輸易導(dǎo)致額外排隊(duì)時(shí)延和無(wú)序爭(zhēng)用,而目前缺乏邊緣計(jì)算節(jié)點(diǎn)協(xié)同云平臺(tái)的相關(guān)研究;3)在利用人工智能手段方面,現(xiàn)有研究的獎(jiǎng)勵(lì)機(jī)制設(shè)計(jì)單一,從而導(dǎo)致訓(xùn)練模型的泛化性較差。
本文結(jié)合強(qiáng)化學(xué)習(xí)和隨機(jī)幾何理論,提出一種邊云協(xié)同的車輛邊緣卸載方案,主要包括以下工作:
1)針對(duì)場(chǎng)景趨同、系統(tǒng)建模局限的問(wèn)題,將城市街道建模為經(jīng)典Manhattan模型[21],并利用隨機(jī)CoX過(guò)程[22]對(duì)移動(dòng)車輛進(jìn)行細(xì)粒度建模,相應(yīng)考慮視距(Line of Sight,LoS)和非視距(Non-Line of Sight,NLoS)兩種情況的信道狀態(tài)。進(jìn)一步地,考慮到級(jí)聯(lián)對(duì)象包含目標(biāo)車輛單元(Target Vehicle Unit,TVU)和路邊單元(Rode Side Unit,RSU),對(duì)于SVU 而言在時(shí)空上具備離散性和流動(dòng)性,通過(guò)隨機(jī)幾何理論分析級(jí)聯(lián)對(duì)象接收信干比(Signal to Interference Ratio,SIR)覆蓋概率,從而劃分出卸載節(jié)點(diǎn)的優(yōu)先級(jí),從根本上消除轉(zhuǎn)化成組合優(yōu)化問(wèn)題的必要性,降低計(jì)算復(fù)雜度。
2)依據(jù)邊云協(xié)同的思想,將SVU 作為智能體進(jìn)行決策,并將決策記錄作為經(jīng)驗(yàn)上傳到云端,云端通過(guò)經(jīng)驗(yàn)訓(xùn)練神經(jīng)網(wǎng)絡(luò),每隔一段時(shí)間將訓(xùn)練更完備的神經(jīng)網(wǎng)絡(luò)反饋到邊緣節(jié)點(diǎn)上。由此,只專注局部決策的SVU 能夠捕捉到云端存儲(chǔ)的全局特征而無(wú)需承擔(dān)復(fù)雜的訓(xùn)練過(guò)程。
3)由于強(qiáng)化學(xué)習(xí)的本質(zhì)是環(huán)境交互和基于獎(jiǎng)勵(lì),因此設(shè)計(jì)更貼近實(shí)際的多角色博弈獎(jiǎng)勵(lì)機(jī)制。同時(shí),為使從全局觀察縮小到局部觀察具有實(shí)質(zhì)性作用,將節(jié)點(diǎn)資源隊(duì)列分析作為輸入的預(yù)先工作,從而減少計(jì)算任務(wù)的排隊(duì)時(shí)間,并在一定程度上降低維災(zāi)風(fēng)險(xiǎn)。
本文研究的系統(tǒng)模型如圖1 所示,其中小區(qū)的網(wǎng)絡(luò)架構(gòu)由基站(Base Station,BS)和RSU 共同組成?;就ㄟ^(guò)核心網(wǎng)絡(luò)連接云端服務(wù)器,具有計(jì)算能力的RSU作為固定邊緣服務(wù)器(Fixed Edge Server,F(xiàn)ES),中央云服務(wù)器可以通過(guò)回程鏈路連接FES 支持遠(yuǎn)程調(diào)度。將具有計(jì)算能力的TVU作為移動(dòng)邊緣服務(wù)器(Mobile Edge Server,VES),并從更廣義的角度定義邊緣節(jié)點(diǎn)性質(zhì),包括TVU 和RSU 兩種類型。
圖1 車聯(lián)網(wǎng)邊云協(xié)同卸載系統(tǒng)模型Fig.1 System model of collaborative edge and cloud offloading for IoV
假設(shè)本地計(jì)算容量已飽和,上述場(chǎng)景下的卸載途徑可分為以下3 種情況:1)在LoS 范圍內(nèi),SVU 將計(jì)算任務(wù)卸載給相鄰滿足條件的TVU,由于車輛到BS 上行鏈路的利用相對(duì)不充分,且BS 端對(duì)干擾更具可控性,因此為提高頻譜利用率,SVU 可以復(fù)用V2B 上行鏈路進(jìn)行計(jì)算任務(wù)卸載;2)在NLoS 范圍內(nèi),SVU 同樣可以復(fù)用V2B 上行鏈路進(jìn)行計(jì)算任務(wù)卸載;3)在基礎(chǔ)設(shè)施完備(即已部署RSU)的車輛稀疏路況場(chǎng)景中,SVU 可以將計(jì)算任務(wù)卸載到滿足條件的RSU 端。
本文將車聯(lián)網(wǎng)的空間分布建模為泊松線性Cox 點(diǎn)過(guò)程(Poisson Line Cox Point Process,PLCPP),對(duì)象包含車輛節(jié)點(diǎn)和路邊節(jié)點(diǎn)。具體過(guò)程如下:將車輛節(jié)點(diǎn)空間分布建模為密度為μV的獨(dú)立PLCPP,用ΦV表示;考慮到RSU 沿道路布放,將RSU 空間分布建模為線密度為μR的獨(dú)立泊松線過(guò)程(Poisson Line Process,PLP),用ΦR表示。假設(shè)車輛節(jié)點(diǎn)中TVU 占比為β,遵循PLCPP,則TVU 服從密度為μTVU=μVβ的PLCPP,SVU服從密度為μSVU=μV(1-β)的PLCPP。
不失一般性,本文假設(shè)SVU 使用最近距離級(jí)聯(lián)卸載準(zhǔn)則[23],并遵循廣義邊緣節(jié)點(diǎn)性質(zhì)。定義計(jì)算任務(wù)集合T={T1,T2,…,TJ},SVU 集合用K表示,TVU 集合用N表示,RVU 集合用?表示。考慮計(jì)算任務(wù)卸載到邊緣節(jié)點(diǎn)存在視距(LoS)和非視距(NLoS)兩種情況,在周期t內(nèi),SVU 卸載計(jì)算任務(wù)Tj(j∈J)到邊緣節(jié)點(diǎn)的路徑損耗可表示為:
因此,LoS 范圍內(nèi)卸載到第k個(gè)TVU 的頻譜效率可表示為:
引理1假設(shè)SVU 的卸載許可半徑為L(zhǎng)S,與SVU級(jí)聯(lián)的TVU接收的SIR覆蓋概率可表示為式(4),其中,。證明見文獻(xiàn)[23]。
結(jié)合式(2)~式(4)可知,從第k個(gè)SVU 卸載到第n個(gè)TVU 的數(shù)據(jù)速率為:
類似地,對(duì)于SVU 處于車輛稀疏且RSU 設(shè)施完善的區(qū)域,SVU 可以卸載計(jì)算任務(wù)到滿足條件的RSU,與第k個(gè)SVU 級(jí)聯(lián)的第r個(gè)TVU 接收的SIR 為:
其中,I(k)TVU是來(lái)自TVU 的干擾,I(k)r′是來(lái)自其他TVU的干擾。
因此,卸載到第r個(gè)RSU 的頻譜效率可表示為:
引理2假設(shè)SVU 的卸載許可半徑為L(zhǎng)S,與SVU 級(jí)聯(lián)的RSU 接收SIR 覆蓋概率可表示為:
結(jié)合式(7)和式(8)可知,從第k個(gè)SVU 卸載到第r個(gè)RSU 的數(shù)據(jù)速率為:
在計(jì)算卸載過(guò)程中,可定義SVU 的卸載任務(wù)Tj?(Hj,Qj,),其中,Hj表示計(jì)算任務(wù)數(shù)據(jù)大小,Qj表示完成任務(wù)所需計(jì)算資源量,表示最大等待時(shí)間。
對(duì)于將計(jì)算任務(wù)卸載到TVU 的場(chǎng)景,SVU 卸載計(jì)算任務(wù)Hj到TVU 的時(shí)間開銷包括通信時(shí)間和計(jì)算時(shí)間兩部分。
卸載到TVU 的通信時(shí)間取決于計(jì)算任務(wù)數(shù)據(jù)大小Hj和提供服務(wù)TVU 的數(shù)據(jù)速率,結(jié)合式(9),通信時(shí)間可以表示為:
對(duì)于卸載到TVU 的計(jì)算任務(wù),依照隊(duì)列形式保存到TVU 緩存中,并更新資源隊(duì)列狀態(tài),實(shí)行任務(wù)遷移,保證排隊(duì)延時(shí)遠(yuǎn)小于任務(wù)計(jì)算時(shí)間。因此,計(jì)算時(shí)間僅依賴于任務(wù)所需計(jì)算資源Qj和TVU 的計(jì)算能力fTVUj(即單位時(shí)間內(nèi)CPU 周期數(shù)),可表示為:
結(jié)合式(10)和式(11)可知,TVU 的總執(zhí)行時(shí)間為:
類似地,將計(jì)算任務(wù)卸載到RSU 場(chǎng)景的執(zhí)行時(shí)間同樣包括通信時(shí)間和計(jì)算時(shí)間兩部分。
卸載到RSU 的通信時(shí)間可表示為:
卸載到RSU 的計(jì)算時(shí)間可表示為:
結(jié)合式(13)和式(14)可知,RSU 的總執(zhí)行時(shí)間為:
SVU 在卸載計(jì)算任務(wù)時(shí)需要考慮卸載節(jié)點(diǎn)計(jì)算隊(duì)列大小。不失一般性,假設(shè)隊(duì)列節(jié)點(diǎn)初始資源量為qinitial,平均計(jì)算任務(wù)到達(dá)率E[Tj]=λ,在許可半徑LS內(nèi)滿足資源量的TVU 和RSU 概率分別可表示為:
其中,Zi(λ,LS)表示Zipf 分布。
假設(shè)所考慮的車聯(lián)網(wǎng)中SVU在周期t內(nèi)生成任務(wù)的概率為pj,SVU級(jí)聯(lián)卸載節(jié)點(diǎn)可提供的資源量表示為Θ=P(D2)(1-pj)μTVUμSVUE[L],其中,P(D2)表示平面周長(zhǎng),E[L]表示道路平均長(zhǎng)度。因此,TVU所需保證的隊(duì)列長(zhǎng)度為ΘTVU=Θ(1-PTVUq),SVU所需保證的隊(duì)列長(zhǎng)度為ΘSVU=。相應(yīng)地,對(duì)于周期t內(nèi)生成任務(wù)Tj,卸載節(jié)點(diǎn)資源隊(duì)列長(zhǎng)度。
本節(jié)分別從執(zhí)行時(shí)延、能耗約束和費(fèi)用開銷維度分析車聯(lián)網(wǎng)任務(wù)卸載問(wèn)題,并量化統(tǒng)一成系統(tǒng)效用評(píng)價(jià)卸載性能,將3 個(gè)維度評(píng)價(jià)性能的累加作為獎(jiǎng)勵(lì)機(jī)制來(lái)反饋訓(xùn)練神經(jīng)網(wǎng)絡(luò)。
1)執(zhí)行時(shí)延。定義F 為指示符,用于區(qū)分TVU 和RSU,則計(jì)算任務(wù)Tj執(zhí)行時(shí)延可表示為:
3)費(fèi)用開銷??紤]實(shí)際網(wǎng)絡(luò)架構(gòu)包括車聯(lián)網(wǎng)運(yùn)營(yíng)商(Vehicle Network Operator,VNO)、基礎(chǔ)設(shè)施供應(yīng)商(Infrastructure Provider,InP)和業(yè)務(wù)供應(yīng)商(Service Provider,SP)三類角色。假設(shè)VNO 需向InP 支付的頻譜租賃費(fèi)用為ε,VNO 需向SP 支付計(jì)算費(fèi)用φ,則計(jì)算任務(wù)Tj的費(fèi)用開銷包含通信開銷和計(jì)算開銷兩部分,可以表示為:
綜上所述,基于多角色博弈的獎(jiǎng)勵(lì)機(jī)制,卸載任務(wù)的系統(tǒng)效用可由執(zhí)行時(shí)延、能耗約束和費(fèi)用開銷三者的子效用累計(jì)和來(lái)表示,即:
其中,ω=[ω1,ω2,ω3]表示子效用系數(shù),在訓(xùn)練過(guò)程中通過(guò)調(diào)整該參數(shù)來(lái)確定子效用的傾向性,例如在稀疏場(chǎng)景下更關(guān)注費(fèi)用開銷,而在密集場(chǎng)景下更關(guān)注執(zhí)行時(shí)延。
車聯(lián)網(wǎng)是典型的高速移動(dòng)實(shí)時(shí)傳輸場(chǎng)景,在其中進(jìn)行單一云端集中式優(yōu)化存在參數(shù)冗余、更新滯后和耗費(fèi)通信開銷等問(wèn)題。分布式邊云協(xié)同機(jī)制利用云端將訓(xùn)練更完備的神經(jīng)網(wǎng)絡(luò)反饋到邊緣節(jié)點(diǎn),使得邊緣節(jié)點(diǎn)僅需要相鄰節(jié)點(diǎn)信息來(lái)更新參數(shù)執(zhí)行操作。本節(jié)首先介紹狀態(tài)空間、動(dòng)作空間及系統(tǒng)效用,然后描述多智能體強(qiáng)化學(xué)習(xí)流程及改進(jìn)方案。
1)狀態(tài)空間。用S表示狀態(tài)集合,在時(shí)刻t的狀態(tài)可表示為,該狀態(tài)表征了計(jì)算任務(wù)Tj的時(shí)延、能耗和開銷狀態(tài)。
2)動(dòng)作空間。定義動(dòng)作集為A,計(jì)算任務(wù)采取的動(dòng)作αj∈A,αj=1 代表計(jì)算任務(wù)Tj卸載到TVU 上執(zhí)行,αj=0 代表計(jì)算任務(wù)Tj卸載到RSU 上執(zhí)行,否則在該周期內(nèi)不采取任何動(dòng)作。
3)系統(tǒng)效用。累計(jì)任務(wù)時(shí)延、能耗約束、費(fèi)用開銷三者的子效用作為獎(jiǎng)勵(lì)函數(shù)評(píng)價(jià)動(dòng)作空間與狀態(tài)空間的映射關(guān)系,結(jié)合式(21),在時(shí)刻t系統(tǒng)立即效用可表示為:
進(jìn)一步地,由于當(dāng)前的動(dòng)作僅受前一時(shí)刻狀態(tài)影響,當(dāng)前狀態(tài)通過(guò)執(zhí)行某一動(dòng)作轉(zhuǎn)換到下一狀態(tài),因此可利用馬爾科夫決策過(guò)程來(lái)表述。假設(shè)狀態(tài)空間到動(dòng)作空間的映射為Φ,即Φ()=aj,則系統(tǒng)狀態(tài)轉(zhuǎn)移概率可表示為:
狀態(tài)值函數(shù)Vπ(s) 和狀態(tài)動(dòng)作函數(shù)Qπ(s,α) 可以表示為:
其中,π表示SVU 當(dāng)前采取的策略,γ表示折扣因子。根據(jù)式(25)和貝爾曼公式的定義,進(jìn)一步可得到式(26):
基于值迭代或策略迭代的傳統(tǒng)方法需要智能體獲得全局信息,不適用于信息特征變化頻繁的車聯(lián)網(wǎng)場(chǎng)景。由于Q 學(xué)習(xí)在與環(huán)境交互的過(guò)程中通過(guò)局部信息不斷地試錯(cuò)來(lái)找到最優(yōu)行為,因此SVU 可以通過(guò)Q 學(xué)習(xí)最大化長(zhǎng)期效用獲得最佳的控制決策。但結(jié)合式(22)和式(26)可知此方法存在以下兩點(diǎn)不足:1)狀態(tài)空間的大小會(huì)隨著訓(xùn)練的輪數(shù)大幅增加,影響收斂性;2)出現(xiàn)梯度消失或梯度爆炸現(xiàn)象,導(dǎo)致模型退化。本文對(duì)此做以下改進(jìn):
1)采用經(jīng)驗(yàn)重放策略。
將智能體在環(huán)境探索過(guò)程中獲得的經(jīng)驗(yàn)數(shù)據(jù)存放在經(jīng)驗(yàn)池中,在后續(xù)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的過(guò)程中隨機(jī)采樣更新網(wǎng)絡(luò)參數(shù)。經(jīng)驗(yàn)池表示為Μ(j)={m(j-M+1),m(j-M),…,m(j)},存放的經(jīng)驗(yàn)數(shù)據(jù)元組表示為m(j)=。SVU隨機(jī)采樣?M(j)輸入神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,而非直接利用連續(xù)樣本進(jìn)行訓(xùn)練。更新規(guī)則可表示為:
2)采用邊云協(xié)同思想及線性Q 函數(shù)分解理論。
由式(22)可知,系統(tǒng)效用由任務(wù)時(shí)延、能耗約束和費(fèi)用開銷累加形成,需要訓(xùn)練大量的參數(shù),不可避免地需要更多的計(jì)算資源和存儲(chǔ)資源,并且會(huì)增加訓(xùn)練時(shí)間。因此,本文利用邊云協(xié)同思想,將神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程放置到云端,利用經(jīng)驗(yàn)回放池的數(shù)據(jù)進(jìn)行訓(xùn)練。此外,采用線性Q 函數(shù)分解理論對(duì)式(22)做進(jìn)一步改進(jìn)。設(shè)智能體指示符K={1,2,3}分別對(duì)應(yīng)3 個(gè)效用分量,式(22)可表示為:
進(jìn)一步地,式(25)可以表示為:
因此,式(27)所示的更新規(guī)則改進(jìn)為:
利用MATLAB 仿真平臺(tái)對(duì)所提邊云協(xié)同卸載方案進(jìn)行仿真評(píng)估。仿真遵循Manhattan 模型描述的參數(shù)設(shè)置并按照MEC 白皮書[6]相關(guān)規(guī)定構(gòu)建系統(tǒng)模型,使用SNIA 云服務(wù)器記錄所有數(shù)據(jù)集,并提供云端的計(jì)算服務(wù)支持邊緣節(jié)點(diǎn)參數(shù)更新。具體仿真參數(shù)見表1。
表1 仿真參數(shù)Table 1 Parameters of simulation
為驗(yàn)證所提方案的收斂性并比較不同學(xué)習(xí)率對(duì)其收斂性的影響,將時(shí)延作為參照結(jié)果。由圖2 可以看出:當(dāng)學(xué)習(xí)率為0.01 時(shí),收斂到一個(gè)局部最優(yōu)解時(shí)延較大;縮小學(xué)習(xí)率至0.005 可以得到較大的性能提升,但收斂速度變緩;學(xué)習(xí)率為0.001 時(shí),在收斂結(jié)果上仍有較大提升??紤]到更小的學(xué)習(xí)率會(huì)導(dǎo)致長(zhǎng)時(shí)間無(wú)法收斂,本文采用0.001 的學(xué)習(xí)率作為后續(xù)實(shí)驗(yàn)參數(shù)。
圖2 不同學(xué)習(xí)率下訓(xùn)練周期與時(shí)延的關(guān)系Fig.2 The relationship of training period and time delay under different learning rates
不同方案的累計(jì)能耗隨訓(xùn)練周期的變化趨勢(shì)如圖3 所示,其中累計(jì)能耗的大小代表了計(jì)算任務(wù)遷移量??梢钥闯觯簩?duì)照組沒有利用云端技術(shù),邊緣節(jié)點(diǎn)累計(jì)能耗在短時(shí)間內(nèi)快速上升,隨著任務(wù)量逐步均衡遷移而達(dá)到穩(wěn)定狀態(tài),因?yàn)槁愤厗卧挠?jì)算能力強(qiáng)于車輛節(jié)點(diǎn),所以僅V2I 卸載方案略優(yōu)于僅V2V 卸載方案;本文方案利用邊云協(xié)同優(yōu)勢(shì),在訓(xùn)練過(guò)程中參數(shù)更新及時(shí),局部參數(shù)的快速迭代能擬合得到全局最優(yōu)解,因此在較短的時(shí)間內(nèi)就達(dá)到了系統(tǒng)功耗均衡。
圖3 不同方案訓(xùn)練周期與能耗的關(guān)系Fig.3 The relationship of training period and energy consumption under different schemes
不同方案系統(tǒng)效用隨計(jì)算任務(wù)到達(dá)率及頻譜分配因子的變化趨勢(shì)如圖4 所示??梢钥闯觯阂环矫?,系統(tǒng)效用隨計(jì)算任務(wù)到達(dá)率先增后減,在計(jì)算任務(wù)到達(dá)率為0.6 時(shí)達(dá)到最佳狀態(tài),此時(shí)資源隊(duì)列較優(yōu),使得執(zhí)行子效用對(duì)系統(tǒng)效用傾向性較大,通過(guò)調(diào)整子效用系數(shù)來(lái)應(yīng)對(duì)不同場(chǎng)景需求,本文對(duì)于執(zhí)行時(shí)間有強(qiáng)約束,故將子效用系數(shù)設(shè)置為ω=[0.6,0.2,0.2];另一方面,計(jì)算任務(wù)生成率越高也能提升系統(tǒng)效用,任務(wù)數(shù)據(jù)傳輸不易丟包。相較于僅V2V 卸載和僅V2I 卸載方案,本文方案具有明顯優(yōu)勢(shì)。在對(duì)照組實(shí)驗(yàn)中,當(dāng)計(jì)算任務(wù)達(dá)到率僅為0.5 時(shí)資源隊(duì)列就達(dá)到飽和狀態(tài),計(jì)算任務(wù)已處于排隊(duì)狀態(tài)。
圖4 不同方案計(jì)算任務(wù)到達(dá)率與系統(tǒng)效用的關(guān)系Fig.4 The relationship of system utility and computation tasks arrival rate under different schemes
不同頻譜分配因子m下系統(tǒng)效用與計(jì)算任務(wù)到達(dá)率的關(guān)系如圖5 所示??梢钥闯?,盡管本文方案計(jì)算任務(wù)到達(dá)率為0.6 時(shí)系統(tǒng)效用已達(dá)到最大值,但隨著到達(dá)率的增加仍保持接近最佳值,體現(xiàn)了本文方案的有效性。
圖5 不同頻譜分配因子下計(jì)算任務(wù)到達(dá)率與系統(tǒng)效用的關(guān)系Fig.5 The relationship of computation tasks arrival rate and system utility under different spectrum allocation factors
不同訓(xùn)練周期和子效用系數(shù)設(shè)置下時(shí)延與能耗的關(guān)系如圖6 所示??梢钥闯觯阂环矫妫S著訓(xùn)練周期增加,即訓(xùn)練的迭代次數(shù)的增加能反饋給智能體更完備的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),使得計(jì)算任務(wù)的卸載能耗有所下降,但值得注意的是,云端訓(xùn)練的開銷能否得到有效供給是一個(gè)開放性問(wèn)題,在本文中訓(xùn)練周期為4 000 時(shí)達(dá)到了收斂狀態(tài);另一方面,隨著子效用系數(shù)ω2的增大,系統(tǒng)的能耗也逐漸增大。費(fèi)用開銷子效用系數(shù)ω3對(duì)于能耗的影響較大,ω3值增大導(dǎo)致能耗快速增長(zhǎng)。
圖6 不同訓(xùn)練周期和子效用系數(shù)設(shè)置下時(shí)延與能耗的關(guān)系Fig.6 The relationship of delay and energy consumption under different settings of training period and sub-utility coefficient
本文提出一種基于多智能體強(qiáng)化學(xué)習(xí)的車聯(lián)網(wǎng)任務(wù)卸載方案。采用隨機(jī)幾何理論對(duì)資源隊(duì)列進(jìn)行控制,從而降低任務(wù)排隊(duì)時(shí)延,同時(shí)分離云端訓(xùn)練神經(jīng)網(wǎng)絡(luò)和節(jié)點(diǎn)決策神經(jīng)網(wǎng)絡(luò),使云端能夠更精準(zhǔn)地提取環(huán)境特征,節(jié)點(diǎn)端則定時(shí)根據(jù)云端反饋的優(yōu)化參數(shù)進(jìn)行在線決策。仿真結(jié)果表明,與單一固定邊緣的計(jì)算策略相比,該方案能夠有效減小時(shí)延和能耗并且降低計(jì)算復(fù)雜度。下一步將結(jié)合節(jié)點(diǎn)緩存技術(shù)設(shè)計(jì)更高效的車聯(lián)網(wǎng)計(jì)算任務(wù)卸載方案。