張家波,呂潔娜,甘臣權(quán),張祖凡
(1.重慶郵電大學(xué) 通信與信息工程學(xué)院,重慶 400065;2.移動(dòng)通信技術(shù)重慶市重點(diǎn)實(shí)驗(yàn)室,重慶 400065;3.移動(dòng)通信教育部工程研究中心,重慶 400065)
車(chē)聯(lián)網(wǎng)利用物聯(lián)網(wǎng)技術(shù)[1]將車(chē)輛與各種基礎(chǔ)設(shè)施、終端設(shè)備、用戶(hù)、服務(wù)等連接起來(lái),實(shí)現(xiàn)車(chē)輛與萬(wàn)物之間的相互通信。車(chē)聯(lián)網(wǎng)是物聯(lián)網(wǎng)技術(shù)在智能交通領(lǐng)域里的典型應(yīng)用場(chǎng)景。隨著車(chē)聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,新型的智能車(chē)輛通過(guò)車(chē)輛與車(chē)輛(vehicle-to-vehicle,V2V)、車(chē)輛與基礎(chǔ)設(shè)施(vehicle-to-infrastructure,V2I)以及車(chē)輛與云(vehicle-to-cloud,V2C)之間的通信技術(shù)[2]和智能交通系統(tǒng)(intelligent traffic system,ITS),為車(chē)輛用戶(hù)提供了一個(gè)可以實(shí)現(xiàn)計(jì)算密集型與時(shí)延敏感型應(yīng)用的任務(wù)處理平臺(tái)[3],搭載的新型車(chē)載應(yīng)用會(huì)產(chǎn)生大量的傳感數(shù)據(jù)和復(fù)雜的計(jì)算任務(wù),在計(jì)算能力有限的車(chē)輛上滿(mǎn)足這些實(shí)時(shí)應(yīng)用的計(jì)算需求無(wú)疑是一個(gè)巨大挑戰(zhàn)[4]。
移動(dòng)邊緣計(jì)算(mobile edge computing,MEC)是一種應(yīng)對(duì)計(jì)算與日益增長(zhǎng)的緩存需求矛盾的有效方法[5-6],已被廣泛應(yīng)用于無(wú)線(xiàn)接入網(wǎng)絡(luò)[7]。MEC將計(jì)算資源部署在更接近終端車(chē)輛的位置,借助計(jì)算卸載技術(shù)將計(jì)算密集型車(chē)載應(yīng)用從車(chē)輛轉(zhuǎn)移到各類(lèi)鄰近基礎(chǔ)架構(gòu)上的MEC服務(wù)器,在服務(wù)器上進(jìn)行實(shí)時(shí)數(shù)據(jù)處理,并完成反饋[8]。然而,車(chē)聯(lián)網(wǎng)移動(dòng)邊緣計(jì)算系統(tǒng)存在車(chē)輛移動(dòng)速度快、網(wǎng)絡(luò)拓?fù)渥儞Q頻繁以及設(shè)備之間交互短暫等固有特性,使得車(chē)聯(lián)網(wǎng)移動(dòng)邊緣計(jì)算系統(tǒng)中的計(jì)算卸載研究面臨前所未有的挑戰(zhàn)。同時(shí),在具有多個(gè)MEC服務(wù)器的車(chē)聯(lián)網(wǎng)中,傳輸模式的選擇與卸載目標(biāo)設(shè)備服務(wù)器的確定之間相互影響,使得MEC中的任務(wù)調(diào)度更為復(fù)雜,且在多變的車(chē)輛場(chǎng)景下,卸載目標(biāo)設(shè)備服務(wù)器的集合也是不斷變化的,這使得計(jì)算卸載的可靠性和穩(wěn)定性難以保障。此外,車(chē)輛的移動(dòng)性會(huì)嚴(yán)重影響車(chē)輛通信的聯(lián)通性,削弱車(chē)聯(lián)網(wǎng)移動(dòng)邊緣系統(tǒng)中計(jì)算卸載策略的性能與適用性。因此,必須有一個(gè)適應(yīng)動(dòng)態(tài)變換環(huán)境的任務(wù)卸載方案,以確保車(chē)輛任務(wù)卸載的可靠性和效率。
目前,國(guó)內(nèi)外已經(jīng)有大量的學(xué)者和研究機(jī)構(gòu)對(duì)移動(dòng)邊緣計(jì)算進(jìn)行了研究。文獻(xiàn)[9]提出了一種使車(chē)輛在卸載計(jì)算任務(wù)時(shí)能夠了解相鄰車(chē)輛卸載延遲性能的卸載算法,以分布式的方式進(jìn)行工作,不需要頻繁地執(zhí)行狀態(tài)交換,可適應(yīng)動(dòng)態(tài)環(huán)境,并減小任務(wù)轉(zhuǎn)移的平均延遲。文獻(xiàn)[10]研究無(wú)干擾正交多址網(wǎng)絡(luò)和干擾非正交多址網(wǎng)絡(luò)兩種典型的車(chē)輛通信場(chǎng)景,將任務(wù)與邊緣之間的交互建模為一個(gè)匹配博弈問(wèn)題,提出了兩種獨(dú)立的啟發(fā)式匹配算法以實(shí)現(xiàn)能源消耗約束條件下的最小延遲。文獻(xiàn)[11]針對(duì)車(chē)聯(lián)網(wǎng)場(chǎng)景提出了基于排隊(duì)論的云計(jì)算卸載算法。文獻(xiàn)[12]提出用一種自主的車(chē)輛邊緣框架來(lái)管理車(chē)輛的空閑計(jì)算資源。文獻(xiàn)[13]構(gòu)建一種基于軟件定義網(wǎng)絡(luò)技術(shù)輔助的車(chē)聯(lián)網(wǎng)移動(dòng)邊緣計(jì)算架構(gòu),結(jié)合聚類(lèi)與強(qiáng)化學(xué)習(xí)方法的資源分配機(jī)制,實(shí)現(xiàn)對(duì)車(chē)聯(lián)網(wǎng)中的無(wú)線(xiàn)信道分配、傳輸功率分配與計(jì)算資源調(diào)度的聯(lián)合優(yōu)化。文獻(xiàn)[14]將軟件定義網(wǎng)絡(luò)技術(shù)應(yīng)用到MEC體系結(jié)構(gòu)中,對(duì)分布式網(wǎng)絡(luò)基礎(chǔ)設(shè)施進(jìn)行集中控制。文獻(xiàn)[15]為實(shí)現(xiàn)5G場(chǎng)景下MEC服務(wù)器端的負(fù)載均衡,基于強(qiáng)化學(xué)習(xí)理論提出了多節(jié)點(diǎn)計(jì)算資源分配方案。文獻(xiàn)[16]利用Q-learning構(gòu)建了無(wú)人機(jī)通信管理系統(tǒng)。文獻(xiàn)[17]利用深度強(qiáng)化學(xué)習(xí)方法設(shè)計(jì)了一種連接車(chē)輛的集成資源管理方案。文獻(xiàn)[18]為提高網(wǎng)絡(luò)服務(wù)能力采用強(qiáng)化學(xué)習(xí)方法為卸載任務(wù)匹配合適的邊緣服務(wù)器。然而,上述文獻(xiàn)中的優(yōu)化目標(biāo)較為單一,對(duì)不同場(chǎng)景的適配度低,未考慮在移動(dòng)邊緣計(jì)算的場(chǎng)景不斷擴(kuò)大時(shí)MEC系統(tǒng)存在的局限性。針對(duì)此類(lèi)情況,制定卸載節(jié)點(diǎn)發(fā)現(xiàn)機(jī)制尤為重要,卸載節(jié)點(diǎn)發(fā)現(xiàn)機(jī)制可以保障確定卸載目標(biāo)設(shè)備時(shí)的精準(zhǔn)性,避免不必要的計(jì)算。
本文針對(duì)上述研究存在的不足,結(jié)合設(shè)備通信范圍和鏈接時(shí)間制定車(chē)聯(lián)網(wǎng)移動(dòng)邊緣計(jì)算系統(tǒng)中的卸載節(jié)點(diǎn)發(fā)現(xiàn)機(jī)制,提出一種基于強(qiáng)化學(xué)習(xí)的車(chē)聯(lián)網(wǎng)邊緣計(jì)算卸載策略。首先,依據(jù)車(chē)輛交通系統(tǒng)模型建立系統(tǒng)效用函數(shù),以最大化系統(tǒng)效用作為卸載決策的指標(biāo),將計(jì)算卸載問(wèn)題轉(zhuǎn)換成動(dòng)態(tài)優(yōu)化問(wèn)題。其次,利用Q-learning算法強(qiáng)大的決策能力解決該優(yōu)化問(wèn)題,從而實(shí)現(xiàn)任務(wù)的卸載與計(jì)算資源的分配。Q-learning算法很好地解決了傳統(tǒng)優(yōu)化算法不能適應(yīng)車(chē)輛交通環(huán)境實(shí)時(shí)變化的問(wèn)題。最后,通過(guò)仿真實(shí)驗(yàn)評(píng)估策略的有效性。仿真結(jié)果表明,本文所提出的卸載策略可以有效地降低任務(wù)處理時(shí)延以及保證系統(tǒng)效用最大化。
圖1 車(chē)聯(lián)網(wǎng)場(chǎng)景圖Fig.1 Internet of Vehicles scenario diagram
街道中車(chē)輛產(chǎn)生任務(wù)時(shí),可以通過(guò)無(wú)線(xiàn)通信將任務(wù)卸載到宏基站、路邊單元或鄰近任務(wù)處理車(chē)輛進(jìn)行處理。任務(wù)在進(jìn)行無(wú)線(xiàn)傳輸時(shí),需要考慮信道的傳輸速率,本文利用香農(nóng)公式得出以下通信模式。
1)V2X通信模式。X表示任務(wù)處理車(chē)輛以及路邊單元設(shè)備。攜帶任務(wù)的車(chē)輛、任務(wù)處理車(chē)輛以及路邊單元之間的通信采用單跳自組網(wǎng)絡(luò)形式。由于接收設(shè)備與發(fā)送任務(wù)車(chē)輛重復(fù)使用同一信道會(huì)產(chǎn)生干擾,所以任務(wù)Ti卸載到設(shè)備x的傳輸速率為
(1)
(1)式中:BX為任務(wù)請(qǐng)求車(chē)輛和X類(lèi)型設(shè)備之間可用頻譜的總帶寬,K個(gè)請(qǐng)求任務(wù)平均使用該總帶寬;pi為任務(wù)車(chē)輛i的傳輸功率;hi,x為任務(wù)車(chē)輛i和任務(wù)處理設(shè)備x之間無(wú)線(xiàn)傳播信道的信道增益;Ii,x和σ2分別為干擾與高斯白噪聲。
2)任務(wù)卸載到宏基站的通信模式。任務(wù)可以通過(guò)蜂窩網(wǎng)絡(luò)轉(zhuǎn)移到宏基站。宏基站覆蓋的街道模型單元使用正交頻譜,因此不會(huì)產(chǎn)生干擾。即任務(wù)Ti卸載到宏基站的傳輸速率可以表示為
(2)
(2)式中:BBS為任務(wù)請(qǐng)求車(chē)輛和宏基站之間可用的頻譜帶寬;hi,B為任務(wù)車(chē)輛i和宏基站之間無(wú)線(xiàn)傳播信道的增益。
任務(wù)Ti通過(guò)任務(wù)請(qǐng)求車(chē)輛和各類(lèi)任務(wù)處理設(shè)備之間的無(wú)線(xiàn)網(wǎng)絡(luò)傳輸卸載到設(shè)備x,隨后利用設(shè)備x的計(jì)算資源對(duì)任務(wù)Ti進(jìn)行處理。因此,執(zhí)行任務(wù)Ti的時(shí)間包括兩部分:通信時(shí)間與計(jì)算時(shí)間。
(3)
(4)
任務(wù)Ti卸載到設(shè)備x的總執(zhí)行時(shí)間可表示為
ttotal,i,x=tcomp,i,x+tcomm,i,x
(5)
效用函數(shù)可表示卸載系統(tǒng)在決策中所獲得的效用與所消耗的組合資源之間的數(shù)量關(guān)系,可以很好地衡量卸載系統(tǒng)中用戶(hù)的滿(mǎn)意度。針對(duì)車(chē)聯(lián)網(wǎng)這一多用戶(hù)場(chǎng)景,利用自定義的系統(tǒng)效用作為卸載指標(biāo)比僅考慮時(shí)延更為全面[20]。本文的策略以系統(tǒng)效用作為任務(wù)卸載指標(biāo),系統(tǒng)效用通過(guò)以下因素來(lái)確定。
1)任務(wù)處理時(shí)延。任務(wù)處理時(shí)延是衡量車(chē)輛性能的重要指標(biāo)。一般情況下,效用函數(shù)值隨著任務(wù)處理時(shí)延的增加而單調(diào)下降。如果任務(wù)處理時(shí)延較短,系統(tǒng)可獲得較高的滿(mǎn)意度,時(shí)延滿(mǎn)意度應(yīng)是非負(fù)的。
2)蜂窩接入網(wǎng)的流量大小。移動(dòng)車(chē)載設(shè)備通過(guò)蜂窩網(wǎng)將任務(wù)轉(zhuǎn)移給宏基站的數(shù)據(jù)量大小。
3)計(jì)算資源成本。車(chē)輛將計(jì)算任務(wù)卸載到邊緣節(jié)點(diǎn)處理時(shí)需要支付服務(wù)費(fèi)用,成本與效用成反比關(guān)系。
4)通信資源成本。卸載系統(tǒng)從無(wú)線(xiàn)網(wǎng)絡(luò)租用頻譜資源的費(fèi)用。
綜上,本文建立的系統(tǒng)效用函數(shù)為
(6)
(7)
(7)式中:cc為在單位時(shí)間內(nèi)使用蜂窩網(wǎng)絡(luò)頻譜的成本費(fèi)用;cv為單跳自組織網(wǎng)絡(luò)中單位時(shí)間內(nèi)使用頻譜的成本費(fèi)用;cx為在單位時(shí)間內(nèi)使用計(jì)算資源的價(jià)格。
任務(wù)處理時(shí)延ti的計(jì)算表達(dá)式為
(8)
將車(chē)聯(lián)網(wǎng)移動(dòng)邊緣計(jì)算系統(tǒng)的任務(wù)卸載和資源分配問(wèn)題定義為一個(gè)優(yōu)化問(wèn)題,研究目標(biāo)是使整個(gè)系統(tǒng)的效用最大化。在最大可容忍時(shí)延和設(shè)備計(jì)算能力的約束下,該問(wèn)題可表示為
C5:m∈Mi,n∈Ni
(9)
問(wèn)題(9)可以通過(guò)尋找卸載決策向量A和計(jì)算資源分配向量F的最優(yōu)值來(lái)解決,由于決策變量是二元變量,因此問(wèn)題(9)是一個(gè)非凸問(wèn)題。隨著車(chē)輛用戶(hù)數(shù)的增加,規(guī)模會(huì)迅速增加,非凸問(wèn)題具有NP難特性[21]。與將非凸問(wèn)題近似為凸問(wèn)題進(jìn)行優(yōu)化解決的傳統(tǒng)方法不同,本文提出了基于強(qiáng)化學(xué)習(xí)方法的解決方案來(lái)尋找最優(yōu)的A和F。
為解決系統(tǒng)效用的優(yōu)化以及求解最優(yōu)的卸載決策與計(jì)算資源分配問(wèn)題,提出了智能節(jié)點(diǎn)選擇算法(intelligent node selection offloading algorithm,INSOA),具體流程如算法1。算法分為3個(gè)階段:初始化、節(jié)點(diǎn)發(fā)現(xiàn)以及卸載決策。初始化階段對(duì)算法中使用到的參數(shù)進(jìn)行初始化。參考文獻(xiàn)[22]將車(chē)輛的通信半徑設(shè)為150 m,路邊單元的通信半徑設(shè)為500 m,車(chē)速設(shè)為10~20 m/s,設(shè)備的位置依據(jù)場(chǎng)景范圍進(jìn)行部署。Q-learning部分的關(guān)鍵參數(shù)依據(jù)文獻(xiàn)[23]設(shè)置。節(jié)點(diǎn)發(fā)現(xiàn)階段,對(duì)任務(wù)以及設(shè)定場(chǎng)景中的所有設(shè)備進(jìn)行遍歷,并通過(guò)判斷任務(wù)請(qǐng)求車(chē)輛與設(shè)備間的距離是否在設(shè)備通信范圍內(nèi)以及任務(wù)請(qǐng)求車(chē)輛與設(shè)備的通信鏈接時(shí)間是否高于最大容忍時(shí)延來(lái)選擇各個(gè)任務(wù)的候選卸載節(jié)點(diǎn)。卸載決策階段,利用階段2的結(jié)果采用Q-learning強(qiáng)化學(xué)習(xí)方法去解決效用優(yōu)化問(wèn)題,以實(shí)現(xiàn)車(chē)輛任務(wù)卸載與計(jì)算資源的分配。提出算法的時(shí)間復(fù)雜度為O(n2+SAm),其取決于場(chǎng)景中的設(shè)備數(shù)量、任務(wù)數(shù)量以及Q-learning方法中每次迭代時(shí)的步數(shù)。
算法1 智能節(jié)點(diǎn)選擇卸載算法
階段1 初始化
1)設(shè)備x通信半徑為Rc
2)設(shè)備x初始位置(xi,yi),任務(wù)發(fā)出初始位置(xj,yj)
3)設(shè)備x的運(yùn)行角度θi,運(yùn)行速度vi;發(fā)出任務(wù)車(chē)輛運(yùn)行角度θj,運(yùn)行速度vj
4)Q表,回合數(shù)episode,學(xué)習(xí)率η,折扣因子γ
階段2 節(jié)點(diǎn)發(fā)現(xiàn)
for each task:
for each device:
計(jì)算(xi,yi)與(xj,yj)的距離D
ifD≤Rc
ifθi=θjandvi=vj
設(shè)備x放入任務(wù)i候選卸載節(jié)點(diǎn)集合中
else
計(jì)算(11)式獲得任務(wù)車(chē)輛與卸載節(jié)點(diǎn)間的LET
設(shè)備x放入任務(wù)i候選卸載節(jié)點(diǎn)集合中
else
判斷下一個(gè)設(shè)備
end if
end if
else
判斷下一個(gè)設(shè)備
end if
end for
end for
獲得任務(wù)的候選卸載節(jié)點(diǎn)集合
階段3 卸載決策
結(jié)合任務(wù)的候選卸載節(jié)點(diǎn)集合進(jìn)行數(shù)據(jù)處理獲得狀態(tài)集S,動(dòng)作集A
for each episode:
初始化S0為當(dāng)前狀態(tài)序列的第1個(gè)狀態(tài)
for each step of episode:
使用ε-greed算法從Q表結(jié)構(gòu)中選出在當(dāng)前狀態(tài)St下的待執(zhí)行動(dòng)作at
執(zhí)行動(dòng)作at,獲得新的狀態(tài)St+1和獎(jiǎng)勵(lì)r
更新Q表中的值:
Q(St,at)←Q(St,at)+
η[r+γmaxQ(St+1,at+1)-Q(St,at)]
使St=St+1
直到達(dá)到預(yù)期狀態(tài)S_terminal
end for
end for
在參數(shù)初始化后,考慮到車(chē)輛的移動(dòng)性,需要在卸載發(fā)現(xiàn)機(jī)制中確定各個(gè)任務(wù)的候選卸載節(jié)點(diǎn)。由場(chǎng)景模型可知,車(chē)聯(lián)網(wǎng)中可以成為備選卸載節(jié)點(diǎn)的有宏基站、RSU和行駛車(chē)輛這3類(lèi)邊緣計(jì)算節(jié)點(diǎn)。因?yàn)楹昊镜母采w面積為整個(gè)街道,可直接納入候選卸載節(jié)點(diǎn)集合。算法中只討論另外兩種類(lèi)型卸載計(jì)算節(jié)點(diǎn)(RSU和車(chē)輛)的篩選。
針對(duì)車(chē)輛和RSU這兩類(lèi)卸載計(jì)算節(jié)點(diǎn)的選擇,首先根據(jù)車(chē)輛的位置、車(chē)速、行駛方向和設(shè)備的位置等參數(shù)列出半徑距離計(jì)算式得
(10)
然后,對(duì)(10)式進(jìn)行推導(dǎo)可得兩點(diǎn)間的鏈接時(shí)間為
LETij=
(11)
(11)式中,a=vi·cosθi-vj·cosθj,b=xi-xj,c=vi·sinθi-vj·sinθj,d=yi-yj。
針對(duì)不同的卸載計(jì)算節(jié)點(diǎn),參數(shù)的設(shè)置也有所不同。當(dāng)其中一個(gè)節(jié)點(diǎn)是RSU時(shí),該點(diǎn)的行駛速度v和行駛角度θ均為0,半徑Rc此時(shí)為RSU的通信半徑Rrsu;當(dāng)兩個(gè)節(jié)點(diǎn)為車(chē)輛時(shí),(xi,yi)和(xj,yj)是車(chē)輛i和車(chē)輛j的初始位置坐標(biāo),θi和θj分別是車(chē)輛i和車(chē)輛j的移動(dòng)方向角度(0≤θi,θj<2π),vi和vj分別表示車(chē)輛i和車(chē)輛j的瞬時(shí)移動(dòng)速度,Rc此時(shí)為車(chē)輛的通信半徑rv。結(jié)合上述節(jié)點(diǎn)設(shè)備間的鏈接時(shí)間計(jì)算公式和節(jié)點(diǎn)設(shè)備的通信范圍,制定出任務(wù)的候選卸載節(jié)點(diǎn)發(fā)現(xiàn)機(jī)制。待處理的任務(wù)可以依據(jù)卸載節(jié)點(diǎn)發(fā)現(xiàn)機(jī)制確定其對(duì)應(yīng)的候選卸載節(jié)點(diǎn),然后基于獲得的任務(wù)候選卸載節(jié)點(diǎn)集合對(duì)本文提出的優(yōu)化問(wèn)題進(jìn)行求解。
在優(yōu)化問(wèn)題求解過(guò)程中,本文采用Q-learning方法。Q-learning是一種基于隨機(jī)動(dòng)態(tài)過(guò)程的無(wú)模型強(qiáng)化學(xué)習(xí)方法[24]。Q-learning的原理是一個(gè)智能代理通過(guò)馬爾科夫過(guò)程與環(huán)境進(jìn)行交互,從環(huán)境中獲得反饋獎(jiǎng)勵(lì)以學(xué)習(xí)最優(yōu)控制決策[25]。為了找到最佳的計(jì)算卸載解決方案,有必要確定Q-learning的3個(gè)重要元素——狀態(tài),動(dòng)作以及獎(jiǎng)勵(lì)。
1)狀態(tài)。車(chē)聯(lián)網(wǎng)移動(dòng)邊緣計(jì)算系統(tǒng)中的狀態(tài)包括候選卸載計(jì)算節(jié)點(diǎn)信息集合和卸載任務(wù)信息集合。候選卸載計(jì)算節(jié)點(diǎn)可能包括3類(lèi)邊緣計(jì)算節(jié)點(diǎn),第1類(lèi)為車(chē)輛,信息集合包括每輛車(chē)的信息(計(jì)算能力、車(chē)速等);第2類(lèi)為路邊單元,節(jié)點(diǎn)信息集合包括每個(gè)路邊單元的信息(計(jì)算能力、位置等);第3類(lèi)為宏基站,信息集合則包括它的計(jì)算能力以及位置信息。卸載任務(wù)信息集合則包括每個(gè)任務(wù)的輸入數(shù)據(jù)量、所需的計(jì)算資源量、最大容忍時(shí)間和所屬車(chē)輛的信息。
3)獎(jiǎng)勵(lì)。由強(qiáng)化學(xué)習(xí)理論可知,每執(zhí)行一步,強(qiáng)化學(xué)習(xí)代理都將獲得執(zhí)行所選動(dòng)作后的獎(jiǎng)勵(lì)。一般情況下,獎(jiǎng)勵(lì)函數(shù)應(yīng)與目標(biāo)函數(shù)相聯(lián)系。在本文中,優(yōu)化目標(biāo)是獲得最大的系統(tǒng)效用,而強(qiáng)化學(xué)習(xí)算法的目標(biāo)是獲得最大的獎(jiǎng)勵(lì)回報(bào),因此回報(bào)獎(jiǎng)勵(lì)應(yīng)與系統(tǒng)效用的大小成正相關(guān),所以將獎(jiǎng)勵(lì)定義為λ·U,λ為正數(shù)。
Q-learning執(zhí)行過(guò)程中,智能代理與環(huán)境進(jìn)行交互。智能代理觀(guān)察環(huán)境獲取信息,以便在當(dāng)前狀態(tài)St下選擇一個(gè)動(dòng)作執(zhí)行,從而獲得新的狀態(tài)St+1和執(zhí)行所選動(dòng)作獲得的即時(shí)獎(jiǎng)勵(lì)r,通過(guò) (12) 式更新Q表,并且將St+1代替當(dāng)前狀態(tài)St,不斷循環(huán)該過(guò)程直到終止?fàn)顟B(tài)。
Q(St,at)=Q(St,at)+
η[r+γmaxQ(St+1,at+1)-Q(St,at)]
(12)
(12)式中:η為學(xué)習(xí)率,控制Q值更新速度;γ為折扣因子,表示學(xué)習(xí)系統(tǒng)的前瞻性。Q-learning通過(guò)每一步遍歷學(xué)習(xí),迭代更新Q表中的值。算法1中階段3顯示了Q-learning方法的執(zhí)行過(guò)程。
本節(jié)將對(duì)算法仿真結(jié)果進(jìn)行分析討論。仿真場(chǎng)景中宏基站服務(wù)器部署在遠(yuǎn)離中心街道的位置,其他設(shè)備則在3 km×3 km的街道區(qū)域范圍內(nèi)隨機(jī)部署。任務(wù)請(qǐng)求車(chē)輛與宏基站間的頻譜帶寬BBS=10 MHz,任務(wù)請(qǐng)求車(chē)輛與其他車(chē)輛、路邊單元間的頻譜帶寬為5 MHz[26]。每個(gè)任務(wù)需要卸載的數(shù)據(jù)大小在300~500 kbit之間服從均勻分布,所需的計(jì)算資源量在[900,1 100]也服從均勻分布[27]。將本文算法分別與完全卸載到宏基站的算法(All BS)以及貪婪算法(Greed)進(jìn)行比較。圖2為3種任務(wù)卸載及資源分配算法在執(zhí)行多任務(wù)卸載時(shí)各時(shí)隙系統(tǒng)狀態(tài)的總效用類(lèi)比柱狀圖,其中任務(wù)數(shù)設(shè)定為2。由圖2可知,無(wú)論在何種狀態(tài)下,本文設(shè)計(jì)的基于Q-learning的智能節(jié)點(diǎn)選擇卸載算法均優(yōu)于貪婪算法與完全卸載到宏基站的算法,最佳時(shí)比貪婪算法所獲得的系統(tǒng)效用高出約27%。由于貪婪算法只能獲取局部的最優(yōu)解,而基于Q-learning的算法通過(guò)狀態(tài)-動(dòng)作數(shù)據(jù)和獎(jiǎng)勵(lì)進(jìn)行不斷學(xué)習(xí)獲得全局的最優(yōu)解,所以本文算法比貪婪算法更具全局性,能統(tǒng)籌全局獲得更好的系統(tǒng)效用。在完全卸載到宏基站算法的執(zhí)行效果中,系統(tǒng)效用會(huì)出現(xiàn)負(fù)數(shù)的情況,這是因?yàn)樵诙x系統(tǒng)效用時(shí)重點(diǎn)關(guān)注時(shí)延這一因素,當(dāng)任務(wù)選擇卸載到距離較遠(yuǎn)的宏基站時(shí),其傳輸時(shí)延會(huì)增大,時(shí)延效用部分會(huì)隨之減少,加上后續(xù)的成本消耗過(guò)大,從而導(dǎo)致完全卸載到宏基站算法效果不佳。綜上所述,本文提出的智能節(jié)點(diǎn)選擇卸載算法在保障時(shí)延優(yōu)化的同時(shí),也能放眼全局使系統(tǒng)效用最大化。
圖2 各時(shí)隙系統(tǒng)狀態(tài)的總效用Fig.2 Total utility of each slot system state
隨著任務(wù)數(shù)量的增加,車(chē)聯(lián)網(wǎng)移動(dòng)邊緣計(jì)算系統(tǒng)效用的變化情況如圖3所示。代表基于Q-learning的智能節(jié)點(diǎn)選擇卸載算法和貪婪算法的兩條曲線(xiàn)均隨著任務(wù)數(shù)量的增加呈上升趨勢(shì),即隨著任務(wù)數(shù)量的增多,系統(tǒng)的總效用也隨之增加。由圖3可知,本文算法可以取得最好的結(jié)果,性能相對(duì)穩(wěn)定。完全卸載到宏基站算法的曲線(xiàn)波動(dòng)較大,存在不穩(wěn)定的現(xiàn)象,這是由任務(wù)產(chǎn)生具有隨機(jī)性造成的,適合卸載到宏基站的任務(wù)計(jì)算出的系統(tǒng)效用為正,而不適合卸載到宏基站的任務(wù)計(jì)算出的系統(tǒng)效用可能為負(fù),所以導(dǎo)致在多任務(wù)卸載的情況下完全卸載到宏基站算法對(duì)應(yīng)的曲線(xiàn)變化不穩(wěn)定且不規(guī)律,而智能節(jié)點(diǎn)選擇卸載算法與貪婪算法均為優(yōu)化類(lèi)算法,目標(biāo)均未找到最優(yōu)策略,不同的是智能節(jié)點(diǎn)選擇卸載算法具有Q-learning方法的優(yōu)勢(shì),通過(guò)動(dòng)態(tài)感知獲得全局最優(yōu),而貪婪算法則考慮的是局部最優(yōu),所以?xún)烧咝Ч兴町悾悄芄?jié)點(diǎn)選擇卸載算法可取得更佳的效果。
圖3 系統(tǒng)效用與任務(wù)數(shù)量的關(guān)系Fig.3 Relationship between system utility and task number
圖4描述的是卸載任務(wù)數(shù)據(jù)量大小與系統(tǒng)效用之間的關(guān)系。由圖4可知,隨著卸載任務(wù)數(shù)據(jù)量的增加,3種算法對(duì)應(yīng)的曲線(xiàn)均呈下降趨勢(shì),表明3種算法中的系統(tǒng)效用隨著卸載任務(wù)數(shù)據(jù)量的增加而減少,這是因?yàn)樘幚頂?shù)據(jù)量越大的任務(wù)會(huì)消耗更多的時(shí)間,從而減少時(shí)間效用以及增大系統(tǒng)成本,導(dǎo)致系統(tǒng)效用降低。本文算法可以獲得最佳的效果,因?yàn)槠湓诓煌臄?shù)據(jù)量下所獲得的系統(tǒng)效用均高于其他兩種算法,在獲得最大效用這一目的中體現(xiàn)出極大的優(yōu)勢(shì)。與此同時(shí),本文算法比其他兩種算法對(duì)應(yīng)曲線(xiàn)下降的趨勢(shì)更慢,效果比較穩(wěn)定。
圖4 系統(tǒng)效用與任務(wù)數(shù)據(jù)量大小的關(guān)系Fig.4 Relationship between system utility and task data size
本文對(duì)計(jì)算資源的分配進(jìn)行了研究,不同的計(jì)算資源分配策略會(huì)產(chǎn)生不同的任務(wù)計(jì)算時(shí)間,任務(wù)計(jì)算時(shí)間結(jié)合計(jì)算資源費(fèi)用則可獲得計(jì)算成本,計(jì)算成本是決定系統(tǒng)效用高低的關(guān)鍵因素之一,所以討論計(jì)算資源費(fèi)用與系統(tǒng)效用之間的關(guān)系變化是十分重要的。在不同計(jì)算資源收費(fèi)價(jià)格情況下的系統(tǒng)效用如圖5所示。3種算法的系統(tǒng)效用都隨著計(jì)算資源收費(fèi)價(jià)格的增加而減少,這是因?yàn)檩^高的計(jì)算資源收費(fèi)價(jià)格會(huì)增加處理任務(wù)的費(fèi)用,從而提高計(jì)算成本,導(dǎo)致系統(tǒng)效用減少。與上述的分析相似,本文基于Q-learning的智能節(jié)點(diǎn)選擇卸載算法比完全卸載到宏基站算法與貪婪優(yōu)化算法能獲得更高的效用。
圖5 系統(tǒng)效用與計(jì)算資源收費(fèi)價(jià)格的關(guān)系Fig.5 Relationship between system utility and computing resource cost
圖6所示為依據(jù)任務(wù)輸入數(shù)據(jù)量對(duì)3種算法產(chǎn)生的時(shí)延進(jìn)行比較的情況。圖6中,完全卸載到宏基站算法產(chǎn)生的時(shí)延隨著任務(wù)輸入數(shù)據(jù)量的增加而快速增加,因?yàn)樵摲椒ㄎ磳?duì)任務(wù)的卸載策略與資源分配進(jìn)行優(yōu)化,只是實(shí)現(xiàn)了局部設(shè)備的點(diǎn)對(duì)點(diǎn)卸載,所以該算法的效果受參數(shù)取值變化的影響,說(shuō)明完全卸載到宏基站算法適用于計(jì)算任務(wù)輸入數(shù)據(jù)量較少的任務(wù)。與完全卸載到宏基站算法相比,基于Q-learning提出的智能節(jié)點(diǎn)選擇卸載算法與貪婪算法產(chǎn)生的時(shí)延隨著任務(wù)輸入數(shù)據(jù)量的增加而緩慢增加,說(shuō)明這兩種算法都可以使用鄰近的任務(wù)處理車(chē)輛或路邊單元來(lái)節(jié)省通信時(shí)間?;赒-learning的智能節(jié)點(diǎn)選擇卸載算法通過(guò)全局性?xún)?yōu)化卸載策略的選擇與資源的分配,實(shí)現(xiàn)了比貪婪算法更低的時(shí)延。
圖6 時(shí)延與任務(wù)數(shù)據(jù)量大小的關(guān)系Fig.6 Relationship between time delay and task data size
本文將移動(dòng)邊緣計(jì)算與車(chē)聯(lián)網(wǎng)相結(jié)合,進(jìn)行面向車(chē)聯(lián)網(wǎng)應(yīng)用的移動(dòng)邊緣計(jì)算卸載策略研究,提出了一種基于Q-learning的智能節(jié)點(diǎn)選擇卸載算法。首先,采用設(shè)備鏈接時(shí)間與通信半徑等因素制定卸載節(jié)點(diǎn)發(fā)現(xiàn)機(jī)制;其次,通過(guò)考慮時(shí)延與成本建立效用函數(shù);最后,以效用最大化為策略的優(yōu)化目標(biāo),基于卸載節(jié)點(diǎn)發(fā)現(xiàn)機(jī)制使用強(qiáng)化學(xué)習(xí)方法設(shè)計(jì)車(chē)聯(lián)網(wǎng)移動(dòng)邊緣計(jì)算系統(tǒng)中的任務(wù)卸載算法,在實(shí)現(xiàn)系統(tǒng)效用最大化的同時(shí),解決了任務(wù)卸載以及計(jì)算資源分配的問(wèn)題。仿真結(jié)果表明,在不同的系統(tǒng)參數(shù)取值下,所提出的策略都能取得比其他基準(zhǔn)方案更好的效用。
重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版)2022年3期