【摘要】為解決車(chē)聯(lián)網(wǎng)中傳統(tǒng)內(nèi)容流行度預(yù)測(cè)方法無(wú)法準(zhǔn)確捕獲車(chē)輛請(qǐng)求特性,導(dǎo)致緩存命中率較低的問(wèn)題,提出了一種基于聯(lián)邦學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的邊緣協(xié)同緩存策略。該策略將車(chē)輛請(qǐng)求概率更高的內(nèi)容預(yù)緩存在其他車(chē)輛或路側(cè)單元中,以提高緩存命中率和降低平均內(nèi)容獲取延時(shí)。采用聯(lián)邦學(xué)習(xí)方法利用分布在多個(gè)車(chē)輛上的私有數(shù)據(jù)進(jìn)行訓(xùn)練并預(yù)測(cè)內(nèi)容流行度,然后使用強(qiáng)化學(xué)習(xí)算法求解目標(biāo)函數(shù),獲得流行內(nèi)容的最佳緩存位置。結(jié)果表明,所提出的策略在緩存命中率和平均內(nèi)容獲取延時(shí)方面均優(yōu)于其他對(duì)比緩存策略,有效提升了車(chē)聯(lián)網(wǎng)邊緣緩存性能。
主題詞:智能交通 邊緣緩存 車(chē)聯(lián)網(wǎng) 聯(lián)邦學(xué)習(xí) 強(qiáng)化學(xué)習(xí)
中圖分類(lèi)號(hào):U463.6;TP181" "文獻(xiàn)標(biāo)志碼:A" "DOI: 10.19620/j.cnki.1000-3703.20230389
Edge Caching Strategy of Internet of Vehicles Based on Federated
and Reinforcement Learning
Zhang Liang, Zhang Guodong, Lu Jianwei, Lei Xiayang, Cheng Hao
(Hefei University of Technology, Hefei 230009)
【Abstract】In order to solve the problem that the traditional content popularity prediction method in the Internet of Vehicles cannot accurately capture the vehicle request characteristics and leads to the low cache hit rate, an edge collaborative caching strategy based on federated learning and reinforcement learning is proposed. This strategy pre-caches content with a higher probability of vehicle requests in other vehicles or roadside units to improve the cache hit ratio and reduce the average content acquisition delay. The federated learning method is used to train and predict the content popularity using private data distributed across multiple vehicles, and then the reinforcement learning algorithm is used to solve the objective function to obtain the best cache location for the popular content. The results show that the proposed strategy is better than other caching strategies in terms of cache hit ratio and average content acquisition delay, which effectively improves the performance of the edge cache of the Internet of Vehicles.
Key words: Intelligent transportation, Edge caching, Internet of Vehicles, Federated learning, Reinforcement learning
【引用格式】 張良, 張國(guó)棟, 盧劍偉, 等. 車(chē)聯(lián)網(wǎng)中基于聯(lián)邦和強(qiáng)化學(xué)習(xí)的邊緣緩存策略[J]. 汽車(chē)技術(shù), 2024(10): 49-55.
ZHANG L, ZHANG G D, LU J W, et al. Edge Caching Strategy of Internet of Vehicles Based on Federated and Reinforcement Learning[J]. Automobile Technology, 2024(10): 49-55.
1 前言
為了解決車(chē)聯(lián)網(wǎng)(Internet of Vehicles,IoV)遠(yuǎn)程云服務(wù)器的訪問(wèn)延時(shí)較高,難以滿足低延時(shí)和多樣化應(yīng)用需求的問(wèn)題,研究人員提出了內(nèi)容緩存技術(shù),通過(guò)將內(nèi)容預(yù)先緩存到邊緣節(jié)點(diǎn)上,以減少回程鏈路上的數(shù)據(jù)流量并降低服務(wù)延時(shí)[1]。然而,邊緣節(jié)點(diǎn)的存儲(chǔ)容量有限,因此緩存策略必須優(yōu)先緩存最受車(chē)輛用戶(hù)關(guān)注的流行內(nèi)容。緩存策略主要分為反應(yīng)式緩存和主動(dòng)式緩存兩類(lèi)[2]。反應(yīng)式緩存依賴(lài)于用戶(hù)請(qǐng)求后再進(jìn)行緩存操作,如先進(jìn)先出和最近最少使用策略。但這種方式僅在內(nèi)容被請(qǐng)求后才會(huì)緩存,無(wú)法提前緩存未請(qǐng)求過(guò)的內(nèi)容。主動(dòng)式緩存通過(guò)預(yù)測(cè)內(nèi)容流行度,在用戶(hù)請(qǐng)求到達(dá)之前預(yù)先緩存流行內(nèi)容,更適用于車(chē)聯(lián)網(wǎng)場(chǎng)景。
在主動(dòng)式緩存中,機(jī)器學(xué)習(xí)廣泛應(yīng)用于預(yù)測(cè)內(nèi)容流行度,以提高緩存效率。文獻(xiàn)[3]提出了基于聯(lián)邦學(xué)習(xí)的上下文感知主動(dòng)緩存策略,通過(guò)對(duì)抗性自動(dòng)編碼器預(yù)測(cè)內(nèi)容流行度。文獻(xiàn)[4]利用齊夫(Zipf)模型計(jì)算內(nèi)容流行度,并根據(jù)車(chē)輛和路側(cè)單元(Road Side Unit,RSU)的內(nèi)容獲取延時(shí)決定內(nèi)容的獲取位置。然而,Zipf模型基于歷史請(qǐng)求數(shù)據(jù)進(jìn)行計(jì)算,難以準(zhǔn)確捕捉內(nèi)容流行度的時(shí)變特性[5]。為了解決這一問(wèn)題,文獻(xiàn)[6]采用長(zhǎng)短期記憶網(wǎng)絡(luò)預(yù)測(cè)時(shí)間序列中的內(nèi)容請(qǐng)求,并將其結(jié)果作為Zipf模型的輸入,以利于更準(zhǔn)確地預(yù)測(cè)未來(lái)的內(nèi)容請(qǐng)求。然而,識(shí)別不流行的內(nèi)容仍然具有挑戰(zhàn)性,因?yàn)槲粗臀凑?qǐng)求的內(nèi)容常?;煜谝黄餥7]?;谏鲜鰞?nèi)容緩存策略的不足,本文構(gòu)建一種城市交通邊緣緩存場(chǎng)景,并對(duì)邊緣節(jié)點(diǎn)的緩存決策以及網(wǎng)聯(lián)車(chē)輛通信場(chǎng)景進(jìn)行了建模與假設(shè),在此基礎(chǔ)上提出了一種基于聯(lián)邦和強(qiáng)化學(xué)習(xí)的協(xié)同緩存策略(Edge Cooperative Caching based on Federated and Reinforcement learning,ECCFR)。然后以緩存命中率和內(nèi)容傳輸延時(shí)為評(píng)價(jià)指標(biāo),通過(guò)Python平臺(tái)進(jìn)行仿真,系統(tǒng)地測(cè)試分析緩存總?cè)萘?、緩存方式?duì)所提出的協(xié)同緩存策略的影響。
2 城市交通邊緣緩存場(chǎng)景構(gòu)建
本文構(gòu)建的城市邊緣緩存場(chǎng)景為三層式架構(gòu),底層是網(wǎng)聯(lián)車(chē)輛,中間層包含多個(gè)RSU,用于緩存附近車(chē)輛可能請(qǐng)求的內(nèi)容,頂層是多個(gè)具有緩存能力的基站(Base Station,BS),用于存儲(chǔ)其覆蓋范圍內(nèi)所有RSU的緩存內(nèi)容列表并管理其緩存資源,如圖1所示。
在BS的覆蓋區(qū)域內(nèi),RSU rs (s=1,2,3,...,S)以距離Dr等距放置在道路一側(cè),任意兩個(gè)RSU之間沒(méi)有重疊的覆蓋區(qū)域。車(chē)輛vi (i=1,2,3,...,I)會(huì)穿過(guò)多個(gè)RSU的覆蓋區(qū)域[8],假設(shè)所有車(chē)輛沿同一方向行駛,車(chē)輛的速度ui (i=1,2,3,...,I)是獨(dú)立同分布的,并且在每次通信過(guò)程中保持其指定速度不變,在t時(shí)間內(nèi)進(jìn)入每個(gè)RSU范圍內(nèi)的車(chē)輛數(shù)量為V(t),遵循參數(shù)為λ的泊松過(guò)程[3]。因此,在時(shí)間t內(nèi)進(jìn)入RSU范圍內(nèi)的車(chē)輛數(shù)量g的概率可以表示為:
[P(V(t)=g)=λtgg!e-λt] (1)
當(dāng)車(chē)輛經(jīng)過(guò)某個(gè)RSU覆蓋區(qū)域時(shí),移動(dòng)車(chē)輛可以連接到RSU并向其發(fā)送內(nèi)容請(qǐng)求。如果請(qǐng)求的內(nèi)容已緩存,即緩存命中。否則,請(qǐng)求車(chē)輛必須從互聯(lián)網(wǎng)獲取所請(qǐng)求的內(nèi)容,即緩存未命中[9-10]。
3 緩存決策與通信時(shí)延模型構(gòu)建
3.1 緩存決策模型
本文將RSU和用戶(hù)車(chē)輛進(jìn)行協(xié)作緩存,以便更準(zhǔn)確地滿足車(chē)輛用戶(hù)的內(nèi)容請(qǐng)求[11-14]。RSU會(huì)在每一時(shí)間段內(nèi)根據(jù)車(chē)輛速度和位置選擇多個(gè)連接車(chē)輛協(xié)作訓(xùn)練共享的全局模型,并在車(chē)群中選取一個(gè)車(chē)輛vcv作為輔助緩存車(chē)輛,且輔助緩存車(chē)輛與車(chē)群中其他車(chē)輛僅存在一跳信號(hào)傳輸。
假設(shè)每個(gè)RSU rs的緩存容量大小為Crsu,輔助緩存車(chē)輛vcv的緩存容量大小為Ccv,通常Ccvlt;Crsult;N,其中N為預(yù)測(cè)的前N個(gè)流行度較高的內(nèi)容。為了表示每輪的請(qǐng)求內(nèi)容q(q=1,2,3,...,Q)是否緩存在RSU和vcv中,定義一個(gè)二進(jìn)制矩陣YQ表示緩存決策:
[YQ=yr,qycv,q] (2)
[yr,q,ycv,q∈{0,1}] (3)
式中:yr,q=1表示將內(nèi)容q緩存在RSU rs中,yr,q=0表示不緩存,ycv,q=1表示將內(nèi)容緩存在輔助緩存車(chē)輛vcv中,ycv,q=0表示不緩存。
3.2 通信時(shí)延模型
每輛車(chē)在每一輪通信中保持相同的通信模型,并在不同輪中更改其通信模型[15]。當(dāng)通信輪次為d時(shí),第i輛車(chē)[vdi]的信道增益建模為:
[hdi(dis(x,vdi))=ldi(dis(x,vdi))gdi(dis(x,vdi))] (4)
式中:x為與車(chē)輛[v di]進(jìn)行通信的邊緣節(jié)點(diǎn),當(dāng)x=rs時(shí)表示RSU rs,當(dāng)x=vcv時(shí)表示輔助緩存車(chē)輛vcv;dis(x,[vdi])為輔助緩存車(chē)輛vcv和車(chē)輛[vdi]之間的距離;[ldi(dis(x,vdi))]為輔助緩存車(chē)輛vcv和車(chē)輛[vdi]之間的路徑損耗;[gdi(dis(x,vdi))]為輔助緩存車(chē)輛vcv和車(chē)輛[vdi]之間的陰影衰落,它們都遵循對(duì)數(shù)正態(tài)分布。
每個(gè)RSU通過(guò)車(chē)對(duì)路側(cè)單元(Vehicle to RSU,V2R)鏈路與其覆蓋區(qū)域內(nèi)的車(chē)輛進(jìn)行通信,而同一個(gè)車(chē)群中車(chē)輛通過(guò)車(chē)對(duì)車(chē)(Vehicle to Vehicle,V2V)鏈路進(jìn)行通信[16]。RSU rs和輔助緩存車(chē)輛vcv在不同的通信輪次中與車(chē)輛[vdi]之間的距離不同,因此在不同通信輪次中以不同的速率進(jìn)行傳輸,V2R鏈路的傳輸速率為[17]:
[Rdrs,i=Blog21+Prshdi(dis(rs,vdi))σ2c] (5)
式中:B為可用帶寬,[Prs]為RSU rs的發(fā)射功率,[σ2c]為噪聲功率。
類(lèi)似的,V2V鏈路的傳輸速率計(jì)算如下:
[Rdvcv,i=Blog21+Pvcvhdi(dis(vcv,vdi))σ2c] (6)
式中:[Pvcv]為vcv的發(fā)射功率。
基于上述分析,可以建立內(nèi)容傳輸時(shí)延模型,當(dāng)內(nèi)容被緩存在不同位置時(shí),獲取所請(qǐng)求內(nèi)容q的內(nèi)容傳輸延時(shí)是不同的。如果內(nèi)容q緩存在本地RSU rs中,車(chē)輛[vdi]通過(guò)V2R鏈路從RSU rs處獲取內(nèi)容的延時(shí)可以定義為:
[Tdrs,i,q=sqRdrs,i] (7)
式中:sq為內(nèi)容q的大小。
通過(guò)V2V鏈路從輔助緩存車(chē)輛vcv處獲取內(nèi)容的延時(shí)為:
[Tdvcv,i,q=sqRdvcv,i] (8)
4 基于聯(lián)邦和強(qiáng)化學(xué)習(xí)的協(xié)同緩存策略
該策略主要包含2個(gè)部分,即基于聯(lián)邦學(xué)習(xí)的內(nèi)容流行度預(yù)測(cè)和基于強(qiáng)化學(xué)習(xí)的協(xié)作式緩存算法,如圖2所示。
4.1 基于聯(lián)邦學(xué)習(xí)的內(nèi)容流行度預(yù)測(cè)
4.1.1 聯(lián)邦學(xué)習(xí)
聯(lián)邦學(xué)習(xí)(Federated Learning,F(xiàn)L)模型訓(xùn)練會(huì)執(zhí)行多輪通信,每輪通信分為5步,如圖3所示。
a. 車(chē)輛選擇。車(chē)輛選擇過(guò)程將考慮車(chē)輛在RSU區(qū)域內(nèi)的停留時(shí)間,這主要取決于聯(lián)網(wǎng)車(chē)輛的位置和速度。假設(shè)第d輪通信第i個(gè)連接車(chē)輛的速度為[udi],(umin≤[udi]≤umax),且[udi]遵循截?cái)喔咚狗植糩3],則[udi]的概率密度函數(shù)表示為:
[f(udi)=e-12σ2(udi-μ)22πσ2(erf(umax-μσ2)-erf(umin-μσ2)), umin≤udi≤umax0," " " " " " " " " " " " " " " " " " " " " " " " " " " " " " " " " " " " " " 其他]
(9)
式中:erf ()為[udi]在均值μ和方差σ2下的高斯誤差函數(shù);umin和umax分別為聯(lián)網(wǎng)車(chē)輛的最小車(chē)速和最大車(chē)速,則每輛車(chē)[vdi]在當(dāng)前RSU覆蓋區(qū)域內(nèi)停留的時(shí)間為:
[Ti,dstd=(Dr-Pdi)udi] (10)
式中:Dr為RSU覆蓋區(qū)域的直徑,[Pdi]為[vdi]在RSU覆蓋范圍內(nèi)經(jīng)過(guò)的距離。
假設(shè)每一輪通信的平均訓(xùn)練時(shí)間為T(mén)trn并且推理時(shí)間為T(mén)inf,若[Ti,dstd]gt;Ttrn+Tinf,則表示車(chē)輛滿足停留時(shí)間的要求,并被選擇參與FL訓(xùn)練,反之忽略[3]。
b. 模型下載。在第d輪通信中,RSU基于條件過(guò)濾變分自動(dòng)編碼器(Conditional Filtering based Variational AutoEncoder,CF-VAE)初始化全局模型ωd。在之后每一輪中,RSU都更新全局模型,并將更新后的全局模型發(fā)送給所有選定車(chē)輛。
c. 模型訓(xùn)練。每個(gè)車(chē)輛將從RSU處下載的全局模型ωd設(shè)置為初始本地模型,并利用車(chē)輛的本地?cái)?shù)據(jù)進(jìn)行訓(xùn)練迭代該模型。設(shè)第k輪迭代的本地模型為[ωdi,k],則車(chē)輛[vdi]在本地模型[ωdi,k]下的局部損失函數(shù)為:
[l(ωd i,k)=1Qdi,kj∈Qdi,klj( ωd i,k)] (11)
式中:[Qdi,k]為車(chē)輛[vdi]從訓(xùn)練集中隨機(jī)選取的數(shù)據(jù),lj([ωdi,k])為第[k]輪迭代時(shí)選取的數(shù)據(jù)中第j個(gè)數(shù)據(jù)的預(yù)測(cè)損失。
第k輪迭代結(jié)束后,車(chē)輛[vdi]再次隨機(jī)采樣一些訓(xùn)練數(shù)據(jù)并開(kāi)始第(k+1)次迭代。在(k+1)次迭代中的本地模型為:
[ωdi,k+1←ωd-η?lωdi,k] (12)
式中:η為固定學(xué)習(xí)率,[?lωdi,k]為[lωdi,k]的梯度。
重復(fù)以上過(guò)程,當(dāng)?shù)螖?shù)達(dá)到設(shè)定的最大值時(shí),車(chē)輛[vdi]完成本地訓(xùn)練。
d. 模型上傳。將更新后的本地模型[ωd+1i]從車(chē)輛上傳到RSU服務(wù)器。
e. 模型聚合。車(chē)輛上傳模型后,RSU將所有本地模型進(jìn)行加權(quán)和計(jì)算,生成新的全局模型[ωd+1],下一輪通信訓(xùn)練的全局模型更新為:
[ωd+1=i=1Iqdiqdγiωd+1i] (13)
式中:[qdi]為車(chē)輛[vdi]中的本地?cái)?shù)據(jù)量,qd為選定車(chē)輛的總本地?cái)?shù)據(jù)量,[ωd+1i]為車(chē)輛[vdi更新后的本地模型],γi=[Pdi]/Dr為車(chē)輛[vdi]的聚合權(quán)重。
4.1.2 流行內(nèi)容預(yù)測(cè)
用于聯(lián)邦訓(xùn)練的模型是CF-VAE,主要由推理神經(jīng)網(wǎng)絡(luò)和生成神經(jīng)網(wǎng)絡(luò)組成。分別將矩陣X和矩陣[c]輸入推理神經(jīng)網(wǎng)絡(luò)以學(xué)習(xí)潛在表征z,然后將這些獲得的表征組合重構(gòu)后輸出矩陣[X]。用作輸入數(shù)據(jù)的X是車(chē)輛用戶(hù)的內(nèi)容檢索歷史,若用戶(hù)之前請(qǐng)求過(guò)某個(gè)內(nèi)容,則將這個(gè)內(nèi)容標(biāo)記1,反之則標(biāo)記為0。但將所有未請(qǐng)求的內(nèi)容都標(biāo)記0是不合理的,因?yàn)椴桓信d趣的內(nèi)容中包含了未知內(nèi)容和未被請(qǐng)求的內(nèi)容。因此,為了區(qū)別未知內(nèi)容,使用隨機(jī)抽樣標(biāo)記未知內(nèi)容,對(duì)應(yīng)于矩陣中空白的位置。[c]為車(chē)輛用戶(hù)上下文信息矩陣,[X]為內(nèi)容流行度矩陣。將輸出值進(jìn)行排序后,輸出中得分最高的N個(gè)內(nèi)容將被選作流行內(nèi)容,如圖4所示。
通常,CF-VAE假設(shè)對(duì)于每個(gè)x∈X,會(huì)對(duì)應(yīng)1組或多組z~p(z),其中p(z)是潛在變量z的概率分布。目標(biāo)是最大化生成每個(gè)輸入數(shù)據(jù)x的概率,它可以定義成:
[p(x)=p(x|z)p(z)dz] (14)
雖然先驗(yàn)分布p(z)和似然估計(jì)p(x|z)都可以精確表示,但后驗(yàn)分布p(z|x)需要在潛在空間上進(jìn)行難以處理的積分。因此,CF-VAE選擇利用推理神經(jīng)網(wǎng)絡(luò)q(z|x)來(lái)近似真實(shí)的后驗(yàn)分布p(z|x),從而提供更可能產(chǎn)生輸入數(shù)據(jù)x的潛在變量的分布,且近似后驗(yàn)分布q(z|x)遵循高斯分布[N(μ,σ2)],[μ]為均值,[σ2]為方差。這是通過(guò)最小化q(z|x)和p(z|x)之間的散度(Kullback-Leibler,KL)來(lái)實(shí)現(xiàn)的,將其表示為:
[D[q(z|x)||p(z|x)]=Ez~qz|x[logqz|x-logp(z|x)]]" "(15)
應(yīng)用貝葉斯推理,可以得到:
[D[q(z|x)||p(z|x)]=Ez~qz|xlogqz|x-logpz|x+logp(x)] (16)
為了最小化D[q(z|x)||p(z|x)],將式(16)簡(jiǎn)化為:
[logp(x)≥Ez~qz|xlogpx|z-D[q(z|x)||p(z)]] (17)
公式(17)右側(cè)為CF-VAE的變分下界,生成網(wǎng)絡(luò)p(x|z)和推理網(wǎng)絡(luò)q(z|x)通過(guò)最大化其變分下界來(lái)進(jìn)行訓(xùn)練。
最后,通過(guò)訓(xùn)練好的模型來(lái)預(yù)測(cè)內(nèi)容的流行度。完整的內(nèi)容流行度預(yù)測(cè)算法在算法1中進(jìn)行概述,如圖5所示。
4.2 基于強(qiáng)化學(xué)習(xí)的協(xié)同緩存
強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)是一種自適應(yīng)算法,對(duì)于主動(dòng)式緩存,RL是一種較好的求解方法,故本文提出了一種基于Q-learning[18]的協(xié)作式內(nèi)容緩存算法。Q-learning會(huì)將狀態(tài)與動(dòng)作對(duì)應(yīng)的獎(jiǎng)勵(lì)值記錄在Q矩陣中,在強(qiáng)化學(xué)習(xí)每次迭代的過(guò)程中,Q矩陣會(huì)不斷更新其中的元素,迭代一定的次數(shù)后,Q矩陣將趨于穩(wěn)定。最后,在測(cè)試階段,智能體將選擇最高的獎(jiǎng)勵(lì)及其相應(yīng)的動(dòng)作來(lái)執(zhí)行給定系統(tǒng)狀態(tài)的緩存決策。完整的協(xié)同緩存算法在算法2中進(jìn)行了概述,如圖6所示。
對(duì)強(qiáng)化學(xué)習(xí)在ECCFR中的作用,作如下解釋?zhuān)?/p>
a. 狀態(tài)。將RSU rs和輔助緩存車(chē)輛vcv的總緩存容量視為系統(tǒng)狀態(tài)。
b. 動(dòng)作。為了獲得相應(yīng)的獎(jiǎng)勵(lì),智能體首先需要基于觀測(cè)到的系統(tǒng)狀態(tài)執(zhí)行動(dòng)作,即緩存決策。因此,本文將緩存決策矩陣YQ視為強(qiáng)化學(xué)習(xí)中的動(dòng)作集。
c. 獎(jiǎng)勵(lì)。在根據(jù)系統(tǒng)狀態(tài)執(zhí)行動(dòng)作后,將生成相應(yīng)的獎(jiǎng)勵(lì),用于在訓(xùn)練Q矩陣的過(guò)程中更新元素值,在測(cè)試階段將直接執(zhí)行最大獎(jiǎng)勵(lì)值對(duì)應(yīng)的動(dòng)作。因此,本文將最大化緩存命中率設(shè)計(jì)為獎(jiǎng)勵(lì)函數(shù),緩存命中率表示為:
[Hr=Prζ×αr+Prζ×αcv] (18)
式中:Prζ=[p1,p2,p3,...,pN]為下一時(shí)間段內(nèi)請(qǐng)求的每個(gè)內(nèi)容的概率向量,αr為RSU相應(yīng)的緩存決策向量,αcv為輔助緩存車(chē)輛的緩存決策向量。
每一狀態(tài)動(dòng)作組合對(duì)應(yīng)一個(gè)獎(jiǎng)勵(lì)值R(s,a),即緩存命中率值,智能體會(huì)根據(jù)該獎(jiǎng)勵(lì)值通過(guò)更新公式對(duì)Q矩陣中第s行、第a列的元素值進(jìn)行更新。Q(s,a)的更新公式如下所示:
[Q(s,a)=Q(s,a)+α[R(s,a)+λmaxQ(s',a')-Q(s,a)]] (19)
式中:s′和a′為下一時(shí)刻的狀態(tài)和動(dòng)作;α為學(xué)習(xí)率,是小于1的常數(shù);λ為折扣因子,表示對(duì)未來(lái)獎(jiǎng)勵(lì)的衰減值,若λ值接近0,表示智能體更關(guān)注直接的獎(jiǎng)勵(lì),λ值接近1,則表示智能體更注重未來(lái)的獎(jiǎng)勵(lì)。
5 仿真試驗(yàn)與分析
5.1 仿真環(huán)境設(shè)置與數(shù)據(jù)集
本文模擬了一個(gè)城市區(qū)域中的車(chē)輛邊緣緩存場(chǎng)景,包括1個(gè)BS,2個(gè)RSU和15臺(tái)仿真車(chē)輛。車(chē)輛和RSU、MBS之間的通信采用第三代合作伙伴計(jì)劃(3rd Generation Partnership Project,3GPP)蜂窩V2X(Cellular Vehicle to Everything,C-V2X)架構(gòu),其中參數(shù)設(shè)置參考3GPP標(biāo)準(zhǔn)[19]。仿真環(huán)境為Python3.6,深度學(xué)習(xí)框架為Pytorch。在試驗(yàn)中使用的數(shù)據(jù)來(lái)自MovieLens網(wǎng)站收集的真實(shí)數(shù)據(jù)集Movielen 1M。該數(shù)據(jù)集包含了來(lái)自3 884部電影的6 041個(gè)匿名用戶(hù)的1 000 210個(gè)評(píng)分,以及評(píng)分用戶(hù)的上下文信息,例如性別、年齡、職業(yè)、郵編地址。每輛車(chē)從本地?cái)?shù)據(jù)中隨機(jī)選擇80%的數(shù)據(jù)作為訓(xùn)練集,20%的數(shù)據(jù)作為測(cè)試集。為了模擬車(chē)輛請(qǐng)求內(nèi)容的過(guò)程,假設(shè)用戶(hù)對(duì)一部電影進(jìn)行1次評(píng)分算為1次內(nèi)容請(qǐng)求過(guò)程。
5.2 評(píng)價(jià)指標(biāo)與試驗(yàn)對(duì)比
本文選擇緩存命中率和內(nèi)容傳輸延時(shí)作為性能指標(biāo)來(lái)評(píng)估ECCFR策略,并使用3種傳統(tǒng)緩存策略與ECCFR進(jìn)行比較,3種比較策略為:隨機(jī)緩存(Random),即隨機(jī)緩存內(nèi)容在RSU和輔助緩存車(chē)輛中;最近最少使用(Least Recently Used,LRU),即當(dāng)達(dá)到緩存容量限制時(shí),它首先刪除緩存中最近使用次數(shù)最少的內(nèi)容。最不常使用(Least Frequently Used,LFU),即只要緩存容量已滿,緩存中最不常用的內(nèi)容就會(huì)被刪除。
5.3 試驗(yàn)結(jié)果與分析
圖7為不同緩存總?cè)萘肯虏煌彺娌呗孕阅軐?duì)比。如圖7a所示,各種緩存策略的緩存命中率隨總緩存容量的增加而呈現(xiàn)上升趨勢(shì)。這是因?yàn)楦蟮木彺嫒萘恳馕吨梢跃彺娓嗟膬?nèi)容,輔助緩存車(chē)輛和RSU可以滿足來(lái)自車(chē)輛用戶(hù)的更多請(qǐng)求。此外,隨機(jī)緩存策略Random的緩存命中率最低,因?yàn)樵摬呗詢(xún)H隨機(jī)選擇內(nèi)容,而不考慮內(nèi)容流行度。在緩存容量為350 Mb時(shí),Random、LRU、LFU和ECCFR的緩存命中率分別為8.32%、44.32%、47.33%和55.18%。與其他緩存策略相比,ECCFR的緩存命中率分別超過(guò)了46.86%、10.86%和7.85%。ECCFR緩存命中率更高的原因是因?yàn)椴捎昧嘶贑F-VAE的內(nèi)容請(qǐng)求預(yù)測(cè),使得內(nèi)容流行度更加準(zhǔn)確,緩存了車(chē)輛用戶(hù)在下一個(gè)時(shí)間段請(qǐng)求的可能性更大的內(nèi)容。如圖7b所示,在不同緩存容量下,所有緩存策略的平均內(nèi)容傳輸延時(shí)隨著緩存容量的增加而減小。這是因?yàn)?,隨著緩存容量的增加,緩存命中率將提高,較高緩存命中率使得車(chē)輛用戶(hù)可以直接從邊緣節(jié)點(diǎn)獲取請(qǐng)求內(nèi)容,從而避免通過(guò)延時(shí)更高的回程鏈路從遠(yuǎn)程內(nèi)容提供商處獲取請(qǐng)求的內(nèi)容。在緩存容量為350 Mb時(shí),Random、LRU、LFU和ECCFR的內(nèi)容獲取平均延時(shí)分別為58.78 ms、45.50 ms、42.10 ms和36.41 ms,這意味著與其他策略相比,ECCFR的平均內(nèi)容獲取延時(shí)分別節(jié)省了22.37 ms、9.09 ms和5.69 ms。
圖8為當(dāng)緩存總?cè)萘繛?00時(shí),ECCFR中RL的迭代次數(shù)和緩存命中率及內(nèi)容傳輸延時(shí)的關(guān)系。隨著迭代次數(shù)的增加,緩存命中率逐漸增加,內(nèi)容傳輸延時(shí)逐漸降低,這是因?yàn)檩o助緩存車(chē)輛和RSU在前10次迭代中逐漸緩存了適當(dāng)?shù)牧餍袃?nèi)容。當(dāng)?shù)螖?shù)達(dá)到10次左右時(shí),緩存命中率和內(nèi)容傳輸延時(shí)開(kāi)始收斂,這是因?yàn)橹悄荏w在第10次迭代時(shí)開(kāi)始學(xué)習(xí)執(zhí)行最佳協(xié)作緩存的策略。
圖9為在不同緩存容量下,使用了RL的ECCFR緩存策略與沒(méi)有使用RL的基于聯(lián)邦學(xué)習(xí)的協(xié)同緩存策略(Edge Cooperative Caching based on Federated learning,ECCF)的緩存命中率和平均內(nèi)容獲取時(shí)延。如圖9a所示,ECCFR的緩存命中率優(yōu)于無(wú)強(qiáng)化學(xué)習(xí)的ECCF,這是因?yàn)镋CCFR可以通過(guò)強(qiáng)化學(xué)習(xí)自適應(yīng)地根據(jù)預(yù)測(cè)的流行內(nèi)容來(lái)確定最佳協(xié)作緩存,從而可以在邊緣節(jié)點(diǎn)中緩存更合適的流行內(nèi)容。如圖9b所示,ECCFR的平均內(nèi)容獲取延時(shí)小于沒(méi)有強(qiáng)化學(xué)習(xí)的ECCF,這是因?yàn)镋CCFR的緩存命中率優(yōu)于沒(méi)有強(qiáng)化學(xué)習(xí)的ECCF,從而車(chē)輛用戶(hù)能夠以相對(duì)較低的延時(shí)從輔助緩存車(chē)輛和RSU處獲取所請(qǐng)求的內(nèi)容。
6 結(jié)束語(yǔ)
為了進(jìn)一步提高IoV中的內(nèi)容緩存命中率,減少內(nèi)容獲取延時(shí),本文提出了一種基于聯(lián)邦和強(qiáng)化學(xué)習(xí)的協(xié)作緩存策略ECCFR。該策略基于條件過(guò)濾變分自動(dòng)編碼器來(lái)估計(jì)內(nèi)容流行度,并使用強(qiáng)化學(xué)習(xí)來(lái)最大化緩存命中率。仿真結(jié)果表明,相比于其他緩存策略,ECCFR在緩存命中率和平均內(nèi)容傳輸延時(shí)方面表現(xiàn)更優(yōu)。考慮到車(chē)輛高速移動(dòng)時(shí)會(huì)導(dǎo)致頻繁的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)變化,下一步將詳細(xì)分析車(chē)輛的移動(dòng)性對(duì)緩存決策的影響,研究具有自主緩存決策能力的邊緣節(jié)點(diǎn)之間的協(xié)作緩存決策,提高方法的可用性。
參 考 文 獻(xiàn)
[1] YU Z X, HU J, MIN G Y, et al. Proactive Content Caching for Internet-of-Vehicles Based on Peer-to-Peer Federated Learning[C]// 2020 IEEE 26th International Conference on Parallel and Distributed Systems (ICPADS). Hong Kong, China: IEEE, 2020.
[2] YU Z X, HU J, MIN G Y, et al. Privacy-Preserving Federated Deep Learning for Cooperative Hierarchical Caching in Fog Computing[J]. IEEE Internet of Things Journal, 2021, 9(22): 22246-22255.
[3] YU Z X, HU J, MIN G Y, et al. Mobility-Aware Proactive Edge Caching for Connected Vehicles Using Federated Learning[J]. IEEE Transactions on Intelligent Transportation Systems, 2020, 22(8): 5341-5351.
[4] YE H, LI G Y, JUANG B H F. Deep Reinforcement Learning Based Resource Allocation for V2V Communications[J]. IEEE Transactions on Vehicular Technology, 2019, 68(4): 3163-3173.
[5] SU Z, HUI Y L, XU Q C, et al. An Edge Caching Scheme to Distribute Content in Vehicular Networks[J]. IEEE Transactions on Vehicular Technology, 2018, 67(6): 5346-5356.
[6] WANG R Y, KAN Z W, CUI Y P, et al. Cooperative Caching Strategy with Content Request Prediction in Internet of Vehicles[J]. IEEE Internet of Things Journal, 2021, 8(11): 8964-8975.
[7] MANIAS D M, SHAMI A. Making A Case for Federated Learning in the Internet of Vehicles and Intelligent Transportation Systems[J]. IEEE Network, 2021, 35(3): 88-94.
[8] CUI Y P, DU L J, WANG H G, et al. Reinforcement Learning for Joint Optimization of Communication and Computation in Vehicular Networks[J]. IEEE Transactions on Vehicular Technology, 2021, 70(12): 13062-13072.
[9] ZHAO L, LI H X, LIN M W, et al. Intelligent Content Caching Strategy in Autonomous Driving Toward 6G[J]. IEEE Transactions on Intelligent Transportation Systems, 2021, 23(7): 9786-9796.
[10] ZHANG M, WANG S, GAO Q. A Joint Optimization Scheme of Content Caching and Resource Allocation for Internet of Vehicles in Mobile Edge Computing[J]. Journal of Cloud Computing, 2020, 9(1): 1-12.
[11] ZHANG K, CAO J, MAHARJAN S, et al. Digital Twin Empowered Content Caching in Social-Aware Vehicular Edge Networks[J]. IEEE Transactions on Computational Social Systems, 2021, 9(1): 239-251.
[12] ZHANG Y, WANG R, HOSSAIN M S, et al. Heterogeneous Information Network-Based Content Caching in The Internet of Vehicles[J]. IEEE Transactions on Vehicular Technology, 2019, 68(10): 10216-10226.
[13] ZHANG K, LENG S P, HE Y J, et al. Cooperative Content Caching in 5G Networks with Mobile Edge Computing[J]. IEEE Wireless Communications, 2018, 25(3): 80-87.
[14] CUI Y P, DU L J, HE P, et al. Multi-Vehicle Intelligent Collaborative Computing Strategy for Internet of Vehicles[C]//2022 IEEE Wireless Communications and Networking Conference (WCNC). Austin, TX, USA : IEEE, 2022: 1647-1652.
[15] CHEN S Z, HU J L, SHI Y, et al. Vehicle-to-Everything (V2X) Services Supported by LTE-Based Systems and 5G[J]. IEEE Communications Standards Magazine, 2017, 1(2): 70-76.
[16] LIANG L, YE H, LI G Y. Spectrum Sharing in Vehicular Networks Based on Multi-Agent Reinforcement Learning[J]. IEEE Journal on Selected Areas in Communications, 2019, 37(10): 2282-2292.
[17] CHEN J Y, WU H Q, YANG P, et al. Cooperative Edge Caching with Location-Based and Popular Contents For Vehicular Networks[J]. IEEE Transactions on Vehicular Technology, 2020, 69(9): 10291-10305.
[18] WATKINS C J C H. Learning from Delayed Rewards[J]. Robotics amp; Autonomous Systems, 1989, 15(4): 233-235.
[19] CHEN S Z, HU J L, SHI Y, et al. Vehicle-to-Everything (V2X) Services Supported by LTE-based Systems and 5G[J]. IEEE Communications Standards Magazine, 2017, 1(2): 70-76.
(責(zé)任編輯 王 一)
修改稿收到日期為2023年6月12日。