康宇,劉雅瓊,趙彤雨,壽國(guó)礎(chǔ)
綜述
AI算法在車聯(lián)網(wǎng)通信與計(jì)算中的應(yīng)用綜述
康宇1,2,3,劉雅瓊1,2,3,趙彤雨1,2,3,壽國(guó)礎(chǔ)1,2,3
(1.先進(jìn)信息網(wǎng)絡(luò)北京實(shí)驗(yàn)室,北京 100876;2.網(wǎng)絡(luò)體系構(gòu)建與融合北京市重點(diǎn)實(shí)驗(yàn)室,北京 100876;3.北京郵電大學(xué)信息與通信工程學(xué)院,北京 100876)
在5G時(shí)代,車聯(lián)網(wǎng)的通信和計(jì)算發(fā)展受到信息量急速增加的限制。將AI算法應(yīng)用在車聯(lián)網(wǎng),可以實(shí)現(xiàn)車聯(lián)網(wǎng)通信和計(jì)算方面的新突破。調(diào)研了AI算法在通信安全、通信資源分配、計(jì)算資源分配、任務(wù)卸載決策、服務(wù)器部署、通算融合等方面的應(yīng)用,分析了目前AI算法在不同場(chǎng)景下所取得的成果和存在的不足,結(jié)合車聯(lián)網(wǎng)發(fā)展趨勢(shì),討論了AI算法在車聯(lián)網(wǎng)應(yīng)用中的未來研究方向。
通信資源分配;通信安全;計(jì)算卸載;通算融合;AI算法;深度強(qiáng)化學(xué)習(xí)
現(xiàn)如今,互聯(lián)網(wǎng)無處不在,完全融入了人們的生活,并且進(jìn)入了智能互聯(lián)網(wǎng)時(shí)代,即物聯(lián)網(wǎng)時(shí)代。物聯(lián)網(wǎng)即萬物相連的互聯(lián)網(wǎng),通過各種信息傳感器將信息與網(wǎng)絡(luò)結(jié)合起來形成一個(gè)巨大網(wǎng)絡(luò),生活中的每個(gè)物品都將接入網(wǎng)絡(luò),實(shí)現(xiàn)任何時(shí)間、任何地點(diǎn),人、機(jī)、物的互聯(lián)互通。而車聯(lián)網(wǎng)(Internet of vehicles,IoV)是物聯(lián)網(wǎng)中最為成熟、最具前景、最有價(jià)值的部分,車聯(lián)網(wǎng)通過車內(nèi)網(wǎng)、車載移動(dòng)互聯(lián)網(wǎng)和車際網(wǎng),通過汽車收集并共享大量信息,實(shí)現(xiàn)車與人相連、車與車相連、車與路相連、車與外部世界之間的連接,實(shí)現(xiàn)車輛的自動(dòng)駕駛,將人們從繁重的駕駛工作中解放出來,并且有效利用道路資源,解決交通擁堵的問題,改變?nèi)藗兊纳睿M(jìn)一步提高和解放社會(huì)生產(chǎn)力。典型的車聯(lián)網(wǎng)系統(tǒng)架構(gòu)[1]主要分為3層,分別是感知層、網(wǎng)絡(luò)層、應(yīng)用層,如圖1所示。感知層采集大量的數(shù)據(jù)信息,為車聯(lián)網(wǎng)系統(tǒng)提供用于精準(zhǔn)計(jì)算的基礎(chǔ)數(shù)據(jù)信息;網(wǎng)絡(luò)層在整個(gè)車聯(lián)網(wǎng)系統(tǒng)中起到上傳下達(dá)的作用,完成大量信息數(shù)據(jù)的傳遞任務(wù);應(yīng)用層是車聯(lián)網(wǎng)的控制大腦,其以車聯(lián)網(wǎng)指揮控制平臺(tái)為核心,實(shí)現(xiàn)與車聯(lián)網(wǎng)相關(guān)的其他應(yīng)用,如交通路況監(jiān)測(cè)、交通事故預(yù)防、智慧交通、交通救援等應(yīng)用。
圖1 典型的車聯(lián)網(wǎng)系統(tǒng)架構(gòu)[1]
車聯(lián)網(wǎng)場(chǎng)景如圖2所示,利用蜂窩車聯(lián)網(wǎng)(cellular vehicle-to-everything,C-V2X)技術(shù)[2-3]中的車輛到車輛(vehicle-to-vehicle,V2V)、車輛到基礎(chǔ)設(shè)施(vehicle-to-infrastructure,V2I)、車輛到人(vehicle-to-pedestrian,V2P)和車輛到網(wǎng)絡(luò)(vehicle-to-network,V2N)通信,形成一個(gè)動(dòng)態(tài)移動(dòng)通信系統(tǒng),實(shí)現(xiàn)了車輛網(wǎng)絡(luò)中各個(gè)節(jié)點(diǎn)之間的低時(shí)延和高可靠性通信。通過該系統(tǒng),車輛、基礎(chǔ)設(shè)施、人、傳感器等可以實(shí)現(xiàn)信息交換與共享,系統(tǒng)可以收集有關(guān)車輛、道路及其周圍環(huán)境的信息,并在信息平臺(tái)上處理、計(jì)算后發(fā)布信息,有效地引導(dǎo)和監(jiān)督車輛,為用戶提供各種多媒體和移動(dòng)互聯(lián)網(wǎng)應(yīng)用服務(wù)。
圖2 車聯(lián)網(wǎng)場(chǎng)景
6G已經(jīng)成為全球的研究熱點(diǎn),在這一背景下,通信設(shè)備和終端將具備智能感知和映射數(shù)字世界的能力,而這些會(huì)更好地服務(wù)于車聯(lián)網(wǎng),以實(shí)現(xiàn)智慧城市、智慧交通等新型垂直應(yīng)用場(chǎng)景的應(yīng)用。而以這些場(chǎng)景為代表的6G典型應(yīng)用場(chǎng)景中存在大量能力高度差異化的自動(dòng)化設(shè)備,對(duì)極低時(shí)延、極高可靠性、超大帶寬、海量接入等方面的通信需求越發(fā)嚴(yán)苛,此時(shí)需要通算融合等技術(shù)手段,賦予6G以通信能力為基礎(chǔ)的廣域智能協(xié)作以及不斷增強(qiáng)的算力以實(shí)現(xiàn)網(wǎng)絡(luò)的自學(xué)習(xí)、自運(yùn)行、自維護(hù)。通算融合網(wǎng)絡(luò)是指同時(shí)具備泛在智能通信與計(jì)算能力的網(wǎng)絡(luò)。該網(wǎng)絡(luò)內(nèi)的各網(wǎng)元設(shè)備通過通算軟/硬件資源的協(xié)同與共享,實(shí)現(xiàn)協(xié)作通信、智能計(jì)算功能的深度融合、互惠增強(qiáng)。通信網(wǎng)絡(luò)作為連接用戶和傳輸數(shù)據(jù)的管道,可感知計(jì)算,用于支撐多樣性的分布式計(jì)算資源的高效使用[4-7]。多樣性計(jì)算資源、通算融合等成為業(yè)界重要技術(shù)趨勢(shì)。
以深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、分布式學(xué)習(xí)等為代表的人工智能(artificial intelligence,AI)技術(shù)的興起,在通信網(wǎng)絡(luò)優(yōu)化、控制應(yīng)用等各個(gè)領(lǐng)域產(chǎn)生了廣泛而深刻的影響,大大推動(dòng)了通信—計(jì)算領(lǐng)域深度融合的可能。
常見的AI算法有樸素貝葉斯、近鄰(-nearest neighbor,NN)、支持向量機(jī)(support vector machine,SVM)、決策樹、邏輯回歸等傳統(tǒng)機(jī)器學(xué)習(xí)算法及神經(jīng)網(wǎng)絡(luò)算法等。其中,應(yīng)用于車聯(lián)網(wǎng)的神經(jīng)網(wǎng)絡(luò)算法有基于單智能體的深度Q網(wǎng)絡(luò)(deep Q-network,DQN)、深度確定性策略梯度(deep deterministic policy gradient,DDPG)、異步優(yōu)勢(shì)動(dòng)作評(píng)價(jià)(asynchronous advantage actor-critic,A3C)、近短策略優(yōu)化(proximal policy optimization,PPO)算法,以及多智能體深度確定性策略梯度(multi-agent deep deterministic policy gradient,MADDPG)算法等深度強(qiáng)化學(xué)習(xí)算法。
本節(jié)分別介紹AI算法在車聯(lián)網(wǎng)通信、計(jì)算以及通算融合方面的應(yīng)用。
1.1.1 車聯(lián)網(wǎng)通信安全方面
AI算法在車聯(lián)網(wǎng)通信安全方面的應(yīng)用廣泛,采用的AI算法大多數(shù)為深度強(qiáng)化學(xué)習(xí)算法,主要利用車聯(lián)網(wǎng)通信方面的現(xiàn)有技術(shù)和背景進(jìn)行建模,從密鑰時(shí)延、高服務(wù)質(zhì)量(quality of service,QoS)、隱私安全等方面設(shè)定學(xué)習(xí)方案,使設(shè)定的智能體在不斷的試錯(cuò)與借鑒的學(xué)習(xí)中,獲得最優(yōu)策略,學(xué)會(huì)自己處理問題、維護(hù)系統(tǒng),達(dá)到最好的效果。下面具體進(jìn)行介紹。文獻(xiàn)[8]提出了一種基于強(qiáng)化學(xué)習(xí)的低時(shí)延車聯(lián)網(wǎng)群密鑰分配管理技術(shù),利用Q學(xué)習(xí)(Q-learning)來優(yōu)化群密鑰的更新頻率和密鑰長(zhǎng)度,通過低時(shí)延群集密鑰更新實(shí)現(xiàn)對(duì)密鑰竊取和電子欺騙等攻擊的抵抗,提升群集通信安全等級(jí),并降低群集內(nèi)通信時(shí)延。文獻(xiàn)[9]提出了一種基于強(qiáng)化學(xué)習(xí)的網(wǎng)格路由協(xié)議,通過網(wǎng)格識(shí)別號(hào)(grid identification number,GID)計(jì)算節(jié)點(diǎn)之間的距離,以獲得從源到匯的最近路徑,從而實(shí)現(xiàn)最小時(shí)延。另外,通過使網(wǎng)格中所有節(jié)點(diǎn)進(jìn)行強(qiáng)化學(xué)習(xí),獲取其可靠性和時(shí)延的性能知識(shí),可以選出可靠性最高的最優(yōu)網(wǎng)格協(xié)調(diào)器。這樣可以在可靠性和端到端時(shí)延方面提供較高的QoS性能。文獻(xiàn)[10]提出了一種新的考慮車輛速度影響的動(dòng)態(tài)業(yè)務(wù)遷移方案,實(shí)現(xiàn)服務(wù)質(zhì)量和遷移成本之間的平衡;采用了DQN算法,其提出的基于深度Q學(xué)習(xí)(deep Q-learning,DQL)的高級(jí)遷移方案可以提高QoS,實(shí)現(xiàn)更高的系統(tǒng)利用率。文獻(xiàn)[11]提出了一種基于競(jìng)爭(zhēng)信息的狀態(tài)表示的基于DQN的自適應(yīng)介質(zhì)訪問控制(medium access control,MAC)層算法,可以提高V2V安全包廣播的性能。文獻(xiàn)[12]使用DQN算法,使路側(cè)單元(road side unit,RSU)可以立即執(zhí)行最優(yōu)調(diào)度決策,建立一個(gè)達(dá)到可接受的QoS水平的綠色和安全的車輛網(wǎng)絡(luò)。文獻(xiàn)[13]提出了一種基于深度強(qiáng)化學(xué)習(xí)的協(xié)同感知方案,以提高對(duì)周圍物體的檢測(cè)精度。該方案通過深度強(qiáng)化學(xué)習(xí)選擇傳輸數(shù)據(jù),減輕了車載網(wǎng)絡(luò)中的網(wǎng)絡(luò)負(fù)載,提高了通信可靠性。文獻(xiàn)[14]使用Spark框架的卷積神經(jīng)網(wǎng)絡(luò)—長(zhǎng)短期記憶(convolutional neural network-long short-term memory,CNN-LSTM)的深度學(xué)習(xí)算法,降低了入侵檢測(cè)的訓(xùn)練和測(cè)試時(shí)間,可以更好地滿足入侵檢測(cè)實(shí)時(shí)性和準(zhǔn)確性的要求,滿足車聯(lián)網(wǎng)信息安全入侵檢測(cè)的需要。文獻(xiàn)[15]針對(duì)車路協(xié)同推斷中的黑盒圖像還原攻擊,采用反卷積網(wǎng)絡(luò)算法,通過訓(xùn)練一個(gè)反卷積網(wǎng)絡(luò),學(xué)習(xí)中間結(jié)果和原始圖像之間的關(guān)系,實(shí)驗(yàn)證實(shí)了算法能有效防御黑盒圖像還原攻擊,同時(shí)保持車路協(xié)同推斷的精確度。文獻(xiàn)[16]通過多智能體近端策略優(yōu)化(multi-agent proximal policy optimization,MAPPO)算法求解智能汽車和驗(yàn)證者的交互過程,保證了區(qū)塊驗(yàn)證的安全性和可靠性。文獻(xiàn)[17]提出了一種基于信任的對(duì)偶深度強(qiáng)化學(xué)習(xí)(trust-dueling deep reinforcement learning,T-DDRL)方法,將對(duì)偶網(wǎng)絡(luò)架構(gòu)部署到軟件定義網(wǎng)絡(luò)(software defined network,SDN)的邏輯集中控制器中。在車載自組網(wǎng)(vehicular Ad Hoc network,VANET)技術(shù)中,深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)利用SDN控制器作為智能體學(xué)習(xí)最可信的路由路徑。文獻(xiàn)[18]提出了一種魯棒的多智能體循環(huán)確定性策略梯度與異常檢測(cè)器(multi-agent recurrent deterministic policy gradient with anomaly detector,MARDPG-AG)算法,該算法使智能體在給定環(huán)境的系統(tǒng)狀態(tài)中,即使存在部分或操縱的觀測(cè),也能魯棒地學(xué)習(xí),增強(qiáng)車載網(wǎng)絡(luò)的安全性。
表1從AI算法、優(yōu)化內(nèi)容、貢獻(xiàn)方面總結(jié)了AI算法在通信安全方面的應(yīng)用。
1.1.2 車聯(lián)網(wǎng)通信資源分配方面
AI算法針對(duì)傳統(tǒng)通信資源分配的方案中存在的一些問題,提供了一種高效的、新型的解決辦法,如可以將通信資源分配的優(yōu)化問題轉(zhuǎn)化為凸問題并利用凸優(yōu)化算法求解,在此基礎(chǔ)上利用AI算法降低算法復(fù)雜度,從而提高效益;某些傳統(tǒng)的基于模型的優(yōu)化技術(shù)以非凸結(jié)束,則可以通過AI算法設(shè)計(jì)無模型的方法解決。利用AI算法優(yōu)化通信資源的分配問題,可以提高信道容量、提高網(wǎng)絡(luò)魯棒性、減少通信系統(tǒng)時(shí)延、降低成本,尤其是V2V通信的資源分配,可以在每個(gè)V2V鏈路設(shè)置一個(gè)智能體,經(jīng)過訓(xùn)練后,每個(gè)智能體都可以學(xué)會(huì)如何滿足設(shè)定的需求,自主嚴(yán)格地進(jìn)行資源分配和約束。下面具體對(duì)常規(guī)AI算法和結(jié)合AI的啟發(fā)式算法在通信資源分配方面的應(yīng)用進(jìn)行介紹。
表1 AI算法在通信安全方面的應(yīng)用
在常規(guī)AI算法方面,文獻(xiàn)[19]提出了一種基于競(jìng)爭(zhēng)信息的狀態(tài)表示的DQN自適應(yīng)MAC層算法,可以提高V2V安全包廣播的性能。文獻(xiàn)[20]提出了視頻語義驅(qū)動(dòng)的資源分配指導(dǎo)模型,以及在該模型指導(dǎo)下車聯(lián)網(wǎng)場(chǎng)景中的通信資源資源分配算法,能最優(yōu)地分配每輛車的帶寬資源,從而最大限度正確理解視頻語義。文獻(xiàn)[21]提出了一種基于DQN的路由算法,有效降低了車輛節(jié)點(diǎn)間通信中斷的概率。該算法還采用深度強(qiáng)化學(xué)習(xí)方法選擇多跳路由,可以減少車網(wǎng)路由的傳輸損耗,提高傳輸效率。文獻(xiàn)[22]開發(fā)了一種基于移動(dòng)邊緣計(jì)算(mobile edge computing,MEC)技術(shù)的在線多址接入方案,并結(jié)合DQN算法解決了車聯(lián)網(wǎng)中的片選擇、覆蓋選擇、資源塊和非正交多址接入功率分配問題?;贗oV的DRL架構(gòu)如圖3所示,其提出的DQN算法在具有MEC的gNodeB范圍內(nèi)應(yīng)用,gNodeB觀察IoV環(huán)境中交互得到的信息和獎(jiǎng)勵(lì),通過不斷訓(xùn)練最終使gNodeB學(xué)會(huì)有效解決復(fù)雜的車聯(lián)網(wǎng)資源分配問題。
圖3 基于IoV的DRL架構(gòu)
文獻(xiàn)[23]針對(duì)多智能體強(qiáng)化學(xué)習(xí)存在的非平穩(wěn)性問題,提出通過指紋深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)的方式,在保證V2V鏈路可靠性約束下,學(xué)習(xí)對(duì)應(yīng)的分配策略以優(yōu)化網(wǎng)絡(luò)容量,提高網(wǎng)絡(luò)性能。同時(shí),V2V鏈路能夠根據(jù)高動(dòng)態(tài)車輛環(huán)境下的瞬時(shí)觀測(cè)值,做出自適應(yīng)決策。文獻(xiàn)[24]提出了一種基于聯(lián)邦深度強(qiáng)化學(xué)習(xí)的頻譜分配和功率控制方案,在滿足鏈路可靠性要求的前提下,聯(lián)合頻譜分配和功率控制,以提高鏈路的總用戶速率,能夠有效地最大化鏈路的總信道容量。文獻(xiàn)[25]提出了一種基于深度強(qiáng)化學(xué)習(xí)的V2V通信分散資源分配機(jī)制,尋找傳輸?shù)淖罴杨l譜和功率,同時(shí)最大限度地減少對(duì)V2I通信的干擾。文獻(xiàn)[26]提出了一種基于圖和深度強(qiáng)化學(xué)習(xí)的資源分配方法,車輛通信信道由基站集中分配,而車輛用戶設(shè)備使用深度強(qiáng)化學(xué)習(xí)進(jìn)行分布式功率控制。文獻(xiàn)[27]提出了一種基于長(zhǎng)短期記憶和深度強(qiáng)化學(xué)習(xí)技術(shù)的主動(dòng)算法,以解決每個(gè)車輛用戶設(shè)備(vehicular user equipment,VUE)對(duì)所面臨的局部網(wǎng)絡(luò)狀態(tài)空間的部分可觀測(cè)性和高維災(zāi)難。在該算法下,RSU根據(jù)對(duì)全局網(wǎng)絡(luò)狀態(tài)的局部觀測(cè),在各個(gè)調(diào)度時(shí)隙進(jìn)行分散的最優(yōu)頻帶分配和分組調(diào)度決策。文獻(xiàn)[28]在小時(shí)間尺度下,設(shè)計(jì)了滿足內(nèi)容發(fā)送時(shí)延約束的車輛聯(lián)合調(diào)度和帶寬分配方案,并提出了一種基于DDPG的合作緩存方案,通過集成深度神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)方法,系統(tǒng)智能體可以根據(jù)歷史經(jīng)驗(yàn)進(jìn)行聯(lián)合緩存決策,為車輛邊緣計(jì)算(vehicular edge computing,VEC)和網(wǎng)絡(luò)中的內(nèi)容放置和交付提供了一種新的優(yōu)化模式。文獻(xiàn)[29]研究了一種無人機(jī)輔助車載網(wǎng)絡(luò),無人機(jī)通過聯(lián)合調(diào)整傳輸控制(功率和信道)和三維飛行來實(shí)現(xiàn)總吞吐量的最大化。文獻(xiàn)[30]提出的基于強(qiáng)化學(xué)習(xí)和非正交多址接入的車聯(lián)網(wǎng)無線資源分配算法可達(dá)到同時(shí)提升網(wǎng)絡(luò)容量和降低功耗的目的,在提高網(wǎng)絡(luò)容量的同時(shí)降低功耗。文獻(xiàn)[31]提出了一種基于深度強(qiáng)化學(xué)習(xí)的異步優(yōu)勢(shì)動(dòng)作評(píng)價(jià)(actor-critic based deep reinforcement learning,AC-DRL)算法的車聯(lián)網(wǎng)無模型聚類解決方案,以有效管理車聯(lián)網(wǎng)產(chǎn)生的流量,結(jié)合環(huán)境的動(dòng)態(tài)性,選擇網(wǎng)絡(luò)中能夠最優(yōu)分配資源的簇頭(cluster head,CH),以滿足用戶的業(yè)務(wù)和服務(wù)等級(jí)協(xié)定(service level agreement,SLA)需求。文獻(xiàn)[32]利用柔性動(dòng)作—評(píng)價(jià)(soft actor-critic,SAC)強(qiáng)化學(xué)習(xí)算法設(shè)計(jì)神經(jīng)網(wǎng)絡(luò),通過最大化熵與累計(jì)獎(jiǎng)勵(lì)來訓(xùn)練智能體,使得V2V 鏈路經(jīng)過不斷學(xué)習(xí)優(yōu)化頻譜資源分配。
在結(jié)合AI的啟發(fā)式算法方面,文獻(xiàn)[17]提出了一種基于信任的對(duì)偶深度強(qiáng)化學(xué)習(xí)方法,將對(duì)偶網(wǎng)絡(luò)架構(gòu)部署到軟件定義網(wǎng)絡(luò)的邏輯集中控制器中,并且在VANET中,DNN利用SDN控制器作為智能體學(xué)習(xí)最可信的路由路徑。文獻(xiàn)[33]針對(duì)異構(gòu)蜂窩網(wǎng)絡(luò)中異構(gòu)QoS保障的聯(lián)合信道分配與功率控制問題(V2V通信鏈路資源分配問題),提出了一種基于多智能體深度強(qiáng)化學(xué)習(xí)的資源分配框架,在保證網(wǎng)絡(luò)中所有蜂窩用戶(cellular user,CU)的QoS要求的同時(shí)最大化車輛用戶的效用,優(yōu)化信道分配和功率控制,以滿足異構(gòu)車輛網(wǎng)絡(luò)中的QoS要求。文獻(xiàn)[34]提出了一種面向長(zhǎng)期演進(jìn)—車到外界(long term evolution-vehicle to everything,LTE-V2X)的聯(lián)合信道估計(jì)與均衡的深度學(xué)習(xí)網(wǎng)絡(luò)。該文獻(xiàn)采用的算法利用了一維卷積神經(jīng)網(wǎng)絡(luò)(one dimension convolutional neural network,1D CNN)和雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò),該算法可以降低通信系統(tǒng)的誤碼率(bit error rate,BER)。文獻(xiàn)[35]提出了一種基于深度學(xué)習(xí)的信道估計(jì)算法,該算法利用1DCNN完成頻域插值和條件循環(huán)單元(conditional recurrent unit,CRU)的時(shí)域狀態(tài)預(yù)測(cè),通過引入額外的速度編碼矢量和多徑編碼矢量跟蹤環(huán)境的變化,對(duì)不同移動(dòng)環(huán)境下的信道數(shù)據(jù)進(jìn)行精確訓(xùn)練,提升了信道估計(jì)精度,降低了誤碼率和增強(qiáng)了魯棒性。文獻(xiàn)[36]提出了一種將聯(lián)邦學(xué)習(xí)與區(qū)塊鏈結(jié)合的新型模式,可以實(shí)現(xiàn)基于聯(lián)邦學(xué)習(xí)和區(qū)塊鏈?zhǔn)跈?quán)的車輛網(wǎng)絡(luò)(federated learning and blockchain empowered vehicular network,F(xiàn)BVN)的邊緣智能,并將動(dòng)態(tài)時(shí)變的FBVN下每個(gè)自動(dòng)駕駛車輛(autonomous vehicle,AV)選擇無線信道的過程建模為馬爾可夫模型,最后提出聯(lián)邦對(duì)偶深度Q學(xué)習(xí)(federated duel deep Q-learning,F(xiàn)-DDQL)算法,降低系統(tǒng)時(shí)延。
隨著車聯(lián)網(wǎng)的飛速發(fā)展,一系列涵蓋信息服務(wù)、駕駛安全、交通效率的車載應(yīng)用誕生,不同的車載業(yè)務(wù)產(chǎn)生的海量數(shù)據(jù)給網(wǎng)絡(luò)和帶寬帶來了巨大壓力,云計(jì)算雖然可以解決車輛資源不足的問題,但是其遠(yuǎn)距離部署會(huì)導(dǎo)致時(shí)延較大,同時(shí)也會(huì)加大帶寬的費(fèi)用開銷。MEC通過將云計(jì)算和存儲(chǔ)能力下沉到網(wǎng)絡(luò)邊緣,可以實(shí)現(xiàn)應(yīng)用、服務(wù)和內(nèi)容的本地化、近距離、分布式部署,從而緩解云計(jì)算帶來的問題。將MEC應(yīng)用于車聯(lián)網(wǎng),形成的車載邊緣計(jì)算網(wǎng)絡(luò)架構(gòu)如圖4所示,包含3層:用戶層、邊緣層和云層。
車聯(lián)網(wǎng)的計(jì)算包含計(jì)算資源分配、任務(wù)卸載決策、服務(wù)器部署3個(gè)方面。本節(jié)將介紹AI算法在這3個(gè)方面的應(yīng)用。
圖4 車載邊緣計(jì)算網(wǎng)絡(luò)架構(gòu)
1.2.1 車聯(lián)網(wǎng)計(jì)算資源分配方面
由于車聯(lián)網(wǎng)中的任務(wù)類型復(fù)雜多樣,有些任務(wù)所需的計(jì)算量很大,雖然MEC服務(wù)器和車輛本身具有一定的計(jì)算資源,但這些資源有限,實(shí)際運(yùn)用中需要調(diào)整好移動(dòng)邊緣計(jì)算、云計(jì)算、本地計(jì)算之間的協(xié)作,以合理分配計(jì)算資源,降低成本、實(shí)現(xiàn)效益最大化。此外,車輛的高速移動(dòng)、通信質(zhì)量的多樣性,使得計(jì)算資源的分配更加復(fù)雜,而AI算法在此過程就可以發(fā)揮巨大作用,如AI算法能以車輛移動(dòng)速度、計(jì)算資源為約束,根據(jù)實(shí)際需求設(shè)定目標(biāo)函數(shù),通過訓(xùn)練來有效分配計(jì)算資源。下面具體對(duì)AI算法在車聯(lián)網(wǎng)計(jì)算資源分配方面的應(yīng)用進(jìn)行介紹。
文獻(xiàn)[37]使用Q-learning方法,有效解決了使用移動(dòng)邊緣計(jì)算的車輛網(wǎng)絡(luò)中的資源分配問題。文獻(xiàn)[38]提出了一種基于深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的計(jì)算資源分配方案。該方案以服務(wù)節(jié)點(diǎn)的計(jì)算能力和車輛移動(dòng)速度為約束條件,以系統(tǒng)總計(jì)算成本最小為目標(biāo)函數(shù),建立了邊緣計(jì)算場(chǎng)景下的任務(wù)資源分配模型。此外,采用深度Q-learning網(wǎng)絡(luò)求解資源分配的數(shù)學(xué)模型,采用經(jīng)驗(yàn)重演方法避免維數(shù)災(zāi)難,保證低維數(shù)據(jù)的質(zhì)量、資源分配的開銷和低時(shí)延操作要求。文獻(xiàn)[39]提出結(jié)合強(qiáng)化學(xué)習(xí)算法PPO的啟發(fā)式算法,利用車輛的移動(dòng)和停止?fàn)顟B(tài)做出更有效的資源配置決策。文獻(xiàn)[40]詳細(xì)研究了區(qū)塊鏈支持的車聯(lián)網(wǎng)(blockchain supported Internet of vehicles,BS-IoV)系統(tǒng)的計(jì)算資源分配問題,提出了一種基于新興DRL技術(shù)的智能資源分配方法,使車聯(lián)網(wǎng)系統(tǒng)在提高區(qū)塊鏈吞吐量和資源使用效率方面有更良好的性能。文獻(xiàn)[41]提出了基于無限時(shí)域半馬爾可夫決策過程(infinite time domain semi-Markov decision process,SMDP)算法的車載云計(jì)算系統(tǒng)的最優(yōu)計(jì)算資源分配方案,以實(shí)現(xiàn)任務(wù)卸載能力的提升。文獻(xiàn)[42]提出了一種基于遺傳算法的卸載策略,能夠得到全局近似最優(yōu)解,并在計(jì)算任務(wù)時(shí)延約束下最小化云邊通信流量的問題。文獻(xiàn)[43]提出了一種IoV環(huán)境下基于移動(dòng)邊緣計(jì)算的計(jì)算資源分配策略,對(duì)遺傳算法進(jìn)行改進(jìn),降低了時(shí)延和開銷,提高了計(jì)算精度和遺傳算法在研究問題中的適用性。文獻(xiàn)[44]提出了一種基于IoV的智能城市按需計(jì)算資源交易管理系統(tǒng),構(gòu)建了一個(gè)兩階段的斯塔克伯格博弈來刺激買賣雙方之間的計(jì)算資源交易過程,并用反向歸納法證明了博弈均衡的存在唯一性。最后,進(jìn)行了安全性分析和數(shù)值仿真,以分析系統(tǒng)的性能。
表2從AI算法、優(yōu)化內(nèi)容、貢獻(xiàn)方面總結(jié)了AI算法在計(jì)算資源分配方面的應(yīng)用。
1.2.2 車聯(lián)網(wǎng)任務(wù)卸載決策方面
目前,車聯(lián)網(wǎng)場(chǎng)景下計(jì)算任務(wù)卸載決策主要解決車載應(yīng)用任務(wù)是否需要卸載及卸載多少的問題,卸載決策的主要優(yōu)化目標(biāo)有任務(wù)執(zhí)行時(shí)延、能耗及時(shí)延與能耗的權(quán)衡等,在復(fù)雜多變、實(shí)時(shí)動(dòng)態(tài)的交通環(huán)境中,需要對(duì)不同車輛終端進(jìn)行任務(wù)優(yōu)先級(jí)劃分并制定卸載決策,以往的傳統(tǒng)方案難以做到。而AI算法(如DQN)可以在沒有任何先驗(yàn)信息的前提下與環(huán)境進(jìn)行交互,從中學(xué)習(xí)并調(diào)整策略以達(dá)到最佳的長(zhǎng)期回報(bào),并且可以在時(shí)變的環(huán)境中根據(jù)過去的經(jīng)驗(yàn)實(shí)現(xiàn)卸載策略的自我更新,從而很好地適應(yīng)動(dòng)態(tài)環(huán)境,有效降低任務(wù)執(zhí)行時(shí)延、提高車聯(lián)網(wǎng)車輛終端用戶的使用體驗(yàn)。下面從部分卸載和全部卸載兩方面,具體對(duì)AI算法在車聯(lián)網(wǎng)任務(wù)卸載決策方面的應(yīng)用進(jìn)行介紹。
表2 AI算法在計(jì)算資源分配方面的應(yīng)用
AI算法在全部卸載類型的任務(wù)卸載決策方面應(yīng)用如下。文獻(xiàn)[45]提出了車聯(lián)網(wǎng)中基于軟件定義車載網(wǎng)絡(luò)(software defined in-vehicle network,SDN-V)輔助的卸載對(duì)象匹配策略,構(gòu)建了基于Q-learning算法的卸載決策,利用乘子法對(duì)目標(biāo)函數(shù)進(jìn)行優(yōu)化求解。文獻(xiàn)[46]設(shè)計(jì)了一種基于DQN的博弈算法,幫助車輛用戶進(jìn)行信道選擇,并通過神經(jīng)網(wǎng)絡(luò)多次迭代學(xué)習(xí),為用戶提供最優(yōu)的功率分配策略。文獻(xiàn)[47]研究了MEC輔助異構(gòu)車聯(lián)網(wǎng)的計(jì)算卸載問題,以總計(jì)算速率最大化為目標(biāo),設(shè)計(jì)了串行和并行兩種卸載方案,并將優(yōu)化問題表述為馬爾可夫決策過程問題,據(jù)此提出了一種基于DQN的車輛邊緣計(jì)算卸載方案。文獻(xiàn)[48]提出了一種基于DQN的計(jì)算任務(wù)分發(fā)卸載算法,根據(jù)層次分析法對(duì)不同車輛終端的計(jì)算任務(wù)進(jìn)行優(yōu)先級(jí)劃分,引入基于DQN的邊緣計(jì)算方法,以計(jì)算任務(wù)處理速率加權(quán)和為優(yōu)化目標(biāo)建立任務(wù)卸載模型,建立基于DQN的車輛終端自主最優(yōu)任務(wù)卸載策略,最大化卸載決策制定模型的長(zhǎng)期效用。文獻(xiàn)[49]提出了一種協(xié)同邊緣計(jì)算框架。首先,提出了一種任務(wù)劃分與調(diào)度算法(task partition and scheduling algorithm,TPSA),并給出了一種計(jì)算卸載策略,用于確定邊緣服務(wù)器的工作負(fù)載分配和任務(wù)執(zhí)行順序。其次,開發(fā)了基于DDPG的協(xié)同計(jì)算方法,確定車輛的任務(wù)卸載、計(jì)算和結(jié)果交付策略,在復(fù)雜的城市交通網(wǎng)絡(luò)中尋找最優(yōu)解,該算法可以適應(yīng)高度動(dòng)態(tài)的環(huán)境,具有優(yōu)異的性能。文獻(xiàn)[50]提出了一個(gè)多用戶端邊云異構(gòu)網(wǎng)絡(luò)和一種基于DDPG的計(jì)算卸載和資源分配算法,以減少能源消耗。文獻(xiàn)[51]提出了一種新的基于PPO的方法來解決計(jì)算卸載調(diào)度問題,采用一種由CNN增強(qiáng)的參數(shù)共享DNN架構(gòu)來近似策略函數(shù)和值函數(shù)。通過大量的仿真實(shí)驗(yàn)證明了提出的方法可以在不需要任何環(huán)境動(dòng)力學(xué)知識(shí)的情況下高效地學(xué)習(xí)最優(yōu)卸載調(diào)度策略,并在長(zhǎng)期成本方面明顯優(yōu)于許多已知的基線算法。文獻(xiàn)[52]提出了一種基于策略的深度強(qiáng)化學(xué)習(xí)卸載方案,在保證依賴關(guān)系的前提下,最小化多車場(chǎng)景下所有車聯(lián)網(wǎng)應(yīng)用的總?cè)蝿?wù)時(shí)延。文獻(xiàn)[53]研究了車聯(lián)網(wǎng)中的部分計(jì)算卸載問題,提出了一種基于運(yùn)動(dòng)軌跡預(yù)測(cè)的機(jī)動(dòng)模型來表征車輛的機(jī)動(dòng)強(qiáng)度,建立了從單車場(chǎng)景到多車場(chǎng)景的卸載計(jì)算和資源分配問題,還提出了一種基于A3C的方案來求解優(yōu)化問題,并從多個(gè)角度研究了所提算法的性能,該算法能夠很好地反映復(fù)雜的網(wǎng)絡(luò)環(huán)境和車輛的運(yùn)動(dòng)強(qiáng)度,優(yōu)于現(xiàn)有的基于DQN的方案和傳統(tǒng)的貪心方案。文獻(xiàn)[54]提出了一種基于深度強(qiáng)化學(xué)習(xí)的分布式服務(wù)卸載方法(distributed service offloading method with asynchronous advantage actor-critic,D-SOAC),以降低車聯(lián)網(wǎng)用戶長(zhǎng)期的平均服務(wù)時(shí)延,從而為用戶提供高質(zhì)量的服務(wù)體驗(yàn)。
AI 算法在部分卸載類型的任務(wù)卸載決策方面應(yīng)用如下。文獻(xiàn)[55]重點(diǎn)研究了VEC網(wǎng)絡(luò)體系結(jié)構(gòu)中車輛部署邊緣計(jì)算服務(wù)器為任務(wù)車輛提供計(jì)算服務(wù)的計(jì)算卸載方案,提出了一種結(jié)合貝葉斯推理的DQN算法來解決時(shí)延和能耗問題。文獻(xiàn)[56]研究了基于MEC的道路網(wǎng)絡(luò)鄰近檢測(cè)場(chǎng)景下時(shí)延與能耗的聯(lián)合優(yōu)化問題,將聯(lián)合優(yōu)化問題表示為約束優(yōu)化問題(constrained optimization problem,COP),使用DQN進(jìn)行求解,并通過仿真驗(yàn)證了該方法的有效性。文獻(xiàn)[57]提出了基于DQN的車聯(lián)網(wǎng)邊緣計(jì)算服務(wù)卸載(DQN based service offloading,SODQN)方法,以降低車聯(lián)網(wǎng)用戶長(zhǎng)期的平均服務(wù)時(shí)延,從而為車聯(lián)網(wǎng)用戶提供高質(zhì)量的服務(wù)體驗(yàn)。文獻(xiàn)[58]研究了分布式V2V計(jì)算卸載問題。將任務(wù)卸載問題表述為一個(gè)序列決策問題,提出了一種基于強(qiáng)化學(xué)習(xí)的任務(wù)卸載方案,該方案既考慮了共享空閑計(jì)算資源的動(dòng)機(jī),又考慮了任務(wù)卸載的成本,并驗(yàn)證了該算法在不同車輛密度下具有更好的性能。文獻(xiàn)[59]設(shè)計(jì)了一個(gè)異構(gòu)車載網(wǎng)絡(luò)中考慮信道狀態(tài)和可用帶寬變化的MEC系統(tǒng),提出了一種基于深度強(qiáng)化學(xué)習(xí)的自適應(yīng)計(jì)算卸載(adaptive computation offloading based on reinforcement learning,ACORL)方法,ACORL方法通過與動(dòng)態(tài)仿真環(huán)境的交互,智能學(xué)習(xí)策略,可以解決能源消耗、帶寬分配和執(zhí)行時(shí)延之間的權(quán)衡問題,相比兩種基準(zhǔn)方案(對(duì)偶DQN和貪婪算法)有更好的性能。文獻(xiàn)[60]研究了一個(gè)具有多個(gè)用戶和多個(gè)MEC服務(wù)器的車載網(wǎng)絡(luò),提出了一種優(yōu)化卸載決策的在分布式方案中考慮負(fù)載平衡的基于經(jīng)驗(yàn)優(yōu)先重放的深度確定性策略梯度算法(DLPR-DDPG)來最小化時(shí)延和能耗,該算法的收斂性和魯棒性均優(yōu)于基線算法。文獻(xiàn)[61]提出了一種基于DRL的卸載方法來處理典型VEC場(chǎng)景下的任務(wù)卸載問題,采用DNN對(duì)卸載策略進(jìn)行近似,然后使用PPO進(jìn)行訓(xùn)練,不需要任何環(huán)境動(dòng)態(tài)的先驗(yàn)知識(shí),并分別在靜態(tài)隊(duì)列和動(dòng)態(tài)隊(duì)列兩種場(chǎng)景下對(duì)該方法進(jìn)行性能評(píng)估,通過仿真證明了該方法的優(yōu)越性。文獻(xiàn)[62]研究了車聯(lián)網(wǎng)中車隊(duì)場(chǎng)景下的分布式任務(wù)卸載問題。將任務(wù)卸載問題構(gòu)建為一個(gè)順序決策問題?;?A3C 算法,提出一個(gè)基于服務(wù)節(jié)點(diǎn)綜合能力的動(dòng)態(tài)定價(jià)激勵(lì)方案,并進(jìn)行任務(wù)卸載決策。
1.2.3 車聯(lián)網(wǎng)服務(wù)器部署方面
車聯(lián)網(wǎng)中服務(wù)器在網(wǎng)絡(luò)服務(wù)提供中起著重要的作用,如何選擇要部署的RSU的數(shù)量和位置,并將流量負(fù)載分配給它們,是一個(gè)關(guān)鍵和實(shí)用的開放性問題。每個(gè)RSU有一個(gè)不規(guī)則的服務(wù)器區(qū)域、不同的負(fù)載能力,使得問題比傳統(tǒng)的設(shè)施選址問題更加困難。目前的車聯(lián)網(wǎng)中服務(wù)器部署的研究,大部分利用了遺傳算法或深度強(qiáng)化學(xué)習(xí)算法,相比于其他方法,這兩種方法都可以在部署成本較低的情況下有更好的效果。下面分別從這兩種算法在車聯(lián)網(wǎng)服務(wù)器部署方面的具體應(yīng)用進(jìn)行介紹。
文獻(xiàn)[63]研究了考慮預(yù)期交付時(shí)延需求和任務(wù)分配的二維IoV網(wǎng)絡(luò)的RSU部署問題,設(shè)計(jì)了一種基于效用的RSU部署算法(utility-based road side unit deployment algorithm,URDA)和一種基于線性規(guī)劃(linear programming,LP)的聚類算法來解決每個(gè)RSU的不規(guī)則覆蓋區(qū)域的問題。此外,還分析了URDA與最優(yōu)解之間的差距,仿真證明了在部署成本較低的情況下,相對(duì)于其他方法所提出的URDA的有效性和優(yōu)越性接近最優(yōu)。文獻(xiàn)[64]提出了一種基于QoS驅(qū)動(dòng)的多媒體邊緣云IoV應(yīng)用優(yōu)化部署方案(quality of service-driven Internet of vehicles application optimizing deployment scheme in multimedia edge clouds,QaMeC),通過建立統(tǒng)一的QoS模型來屏蔽QoS計(jì)算的不一致性。此外,還使用非支配非序遺傳算法Ⅱ(nondominated sorting genetic algorithm Ⅱ,NSGA-Ⅱ)來解決多云應(yīng)用的部署問題。文獻(xiàn)[65]開發(fā)了動(dòng)態(tài)邊緣服務(wù)器布置方法(dynamic edge servers (ES) placement approach,DEP)。在技術(shù)上,DEP利用了非支配排序遺傳算法Ⅲ(nondominated sorting genetic algorithm Ⅲ,NSGA-Ⅲ)進(jìn)行布置,具有更好的性能和更少的現(xiàn)有布局重構(gòu)。采用聚類算法對(duì)NSGA-Ⅲ的種群進(jìn)行初始化,以獲得更高的精度和收斂速度,并基于庫恩—曼克爾斯算法(Kuhn-Munkres算法,或稱匈牙利算法)、二部圖匹配算法計(jì)算最小重構(gòu)代價(jià)的適應(yīng)度。文獻(xiàn)[66]將ES布局問題形式化為一個(gè)具有3個(gè)目標(biāo)的多目標(biāo)優(yōu)化問題。然后,設(shè)計(jì)了具有基于聚類的種群初始化策略的NSGA-Ⅲ,并將其應(yīng)用于約束優(yōu)化問題。文獻(xiàn)[67]利用DQN算法來獲得實(shí)現(xiàn)邊緣計(jì)算覆蓋率、ES工作負(fù)載均衡、平均時(shí)延等多個(gè)目標(biāo)的最優(yōu)布置方案。文獻(xiàn)[68]提出了一種云邊緣計(jì)算中具有隱私保護(hù)的智能IoV服務(wù)部署和執(zhí)行方法(GoDeep),還提出了一種基于DDPG的服務(wù)部署方案,并通過仿真實(shí)驗(yàn)對(duì)GoDeep的性能進(jìn)行了評(píng)估,證明了方案的有效性。文獻(xiàn)[69]提出了一種多智能體強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)算法來解決移動(dòng)邊緣服務(wù)器的布局問題,最大限度地減少網(wǎng)絡(luò)時(shí)延并平衡邊緣服務(wù)器上的負(fù)載。
AI算法在服務(wù)器部署方面的應(yīng)用見表3,從AI算法、優(yōu)化內(nèi)容、貢獻(xiàn)方面總結(jié)了AI算法在服務(wù)器部署方面的應(yīng)用。
VEC網(wǎng)絡(luò)中具有通信、計(jì)算、緩存和協(xié)作計(jì)算的統(tǒng)一框架如圖5所示,其中VEC網(wǎng)絡(luò)中具有通信、計(jì)算、緩存和協(xié)作計(jì)算的統(tǒng)一框架道路被分為段,每一段的車輛之間、車輛與RSU之間可以通過分配的信道,建立通信鏈路,進(jìn)行信息交互與任務(wù)卸載。許可帶寬分為兩類,一類用于車輛到基礎(chǔ)設(shè)施(V2I)通信,另一類用于車輛到車輛(V2V)通信。此外,由于部署了電子通信網(wǎng)絡(luò)(electronic communication network,ECN),RSU提供了強(qiáng)大的計(jì)算能力。
圖5 VEC網(wǎng)絡(luò)中具有通信、計(jì)算、緩存和協(xié)作計(jì)算的統(tǒng)一框架
1.3.1 車聯(lián)網(wǎng)通算資源聯(lián)合分配方面
云計(jì)算、霧計(jì)算、邊緣計(jì)算的發(fā)展以及通信技術(shù)的發(fā)展,對(duì)車聯(lián)網(wǎng)產(chǎn)生了深遠(yuǎn)影響。雖然二者在各自領(lǐng)域已進(jìn)行了很多研究,但如何進(jìn)行通信、計(jì)算資源的合理分配并實(shí)現(xiàn)不同局部范圍內(nèi)實(shí)體間的資源高效利用,仍有很大的發(fā)展?jié)摿π枰诰?。目前AI算法在通算融合方面的應(yīng)用包括:將通信和計(jì)算資源的分配定義為兩個(gè)獨(dú)立的目標(biāo),用多目標(biāo)資源分配的AI算法實(shí)現(xiàn)最優(yōu)解;將霧計(jì)算架構(gòu)應(yīng)用于車聯(lián)網(wǎng),建立車聯(lián)網(wǎng)異構(gòu)接入的資源優(yōu)化模型,通過深度強(qiáng)化學(xué)習(xí)算法對(duì)調(diào)度方案進(jìn)行高效處理;使無人機(jī)和邊緣計(jì)算服務(wù)器使用多智能體強(qiáng)化學(xué)習(xí)算法來協(xié)同決策通算資源的分配。下面具體進(jìn)行介紹。
表3 AI算法在服務(wù)器部署方面的應(yīng)用
文獻(xiàn)[70]分析了異構(gòu)車聯(lián)霧架構(gòu)下不同接入方式的傳輸性能,針對(duì)車聯(lián)網(wǎng)中車輛移動(dòng)的特性,在不同行駛速度下進(jìn)行了信道容量分析,給出了車聯(lián)霧計(jì)算架構(gòu)下多業(yè)務(wù)的優(yōu)化模型,并提出了基于Q-learning 算法的通信與計(jì)算聯(lián)合資源分配算法。文獻(xiàn)[71]提出了一種多目標(biāo)強(qiáng)化學(xué)習(xí)策略,稱為智能通信和計(jì)算資源分配(intelligent communication and computation resource allocation,ICCRA),該策略在移動(dòng)邊緣計(jì)算層采用Q-learning實(shí)現(xiàn)通信和計(jì)算資源分配的最優(yōu)解,有效地降低了系統(tǒng)總成本。文獻(xiàn)[72]提出一個(gè)可以支持網(wǎng)絡(luò)、緩存和計(jì)算資源動(dòng)態(tài)編排的集成框架,采用深度強(qiáng)化學(xué)習(xí)的方法,獲得了集網(wǎng)絡(luò)、緩存、計(jì)算于一體的車輛網(wǎng)絡(luò)中的資源分配策略,以提高車聯(lián)網(wǎng)性能。為了解決通信和計(jì)算能力限制下網(wǎng)絡(luò)中資源最佳利用的問題,文獻(xiàn)[73]通過聯(lián)合考慮用于數(shù)據(jù)調(diào)度的通信和計(jì)算資源,建立了一個(gè)包含通信、計(jì)算、緩存和協(xié)同計(jì)算的統(tǒng)一框架,開發(fā)了一種協(xié)同數(shù)據(jù)調(diào)度方案,在保證應(yīng)用程序時(shí)延約束的前提下,最小化系統(tǒng)范圍內(nèi)的數(shù)據(jù)處理成本;將數(shù)據(jù)調(diào)度建模為一個(gè)深度強(qiáng)化學(xué)習(xí)問題,利用DQN算法來解決,仿真實(shí)驗(yàn)驗(yàn)證了該方法的有效性。文獻(xiàn)[74]提出了一種臨時(shí)無人機(jī)(unmanned aerial vehicle,UAV)輔助車載邊緣計(jì)算網(wǎng)絡(luò)(vehicular edge computing network,VECN)中基于學(xué)習(xí)的通道分配和任務(wù)處理策略,該策略應(yīng)用于需求車輛通過臨時(shí)無人機(jī)向一組志愿車輛采集交通數(shù)據(jù)的情況。該文獻(xiàn)還提出了一種基于DQN的任務(wù)處理模式選擇方法,仿真實(shí)驗(yàn)表明,該方法具有良好的收斂性能。文獻(xiàn)[75]提出了一種新的基于強(qiáng)化學(xué)習(xí)的資源分配算法,利用DDPG算法,在MEC服務(wù)器上設(shè)計(jì)了一種實(shí)時(shí)自適應(yīng)算法來分配計(jì)算資源和傳輸資源,用于任務(wù)卸載。仿真實(shí)驗(yàn)表明,對(duì)于不同的任務(wù)到達(dá)概率,所提出的算法能夠在消耗更少的能量的同時(shí)取得更好的任務(wù)卸載性能。文獻(xiàn)[76]研究了一種聯(lián)合資源優(yōu)化方案,以解決車載網(wǎng)絡(luò)環(huán)境的動(dòng)態(tài)和不可預(yù)測(cè)問題,為網(wǎng)絡(luò)運(yùn)營(yíng)商增加收益。此外,還提出了雙尺度深度強(qiáng)化學(xué)習(xí)(double-scale deep reinforcement learning,DSDRL)框架,可以降低動(dòng)作空間維度以解決復(fù)雜的聯(lián)合優(yōu)化問題,滿足不同服務(wù)的不同需求,降低成本。文獻(xiàn)[77]研究了無人機(jī)輔助車輛網(wǎng)絡(luò)的多維資源管理,將MEC服務(wù)器上的資源分配描述為一個(gè)分布式優(yōu)化問題,以在滿足異構(gòu)服務(wù)質(zhì)量要求的同時(shí)最大化卸載任務(wù)的數(shù)量,然后使用MADDPG方法進(jìn)行解決,并通過仿真驗(yàn)證所提方案的優(yōu)越性。
表4從AI算法、優(yōu)化內(nèi)容、貢獻(xiàn)方面總結(jié)了AI算法在服務(wù)器部署方面的應(yīng)用。
1.3.2 車聯(lián)網(wǎng)聯(lián)合考慮計(jì)算資源分配和卸載決策方面
AI算法在聯(lián)合考慮計(jì)算資源分配和卸載決策方面的應(yīng)用,大多數(shù)為根據(jù)具體需求,如長(zhǎng)期效用或時(shí)延等,提出優(yōu)化問題并將其建模為馬爾可夫模型,利用深度強(qiáng)化學(xué)習(xí)算法求解。其中,在根據(jù)任務(wù)的優(yōu)先級(jí)和計(jì)算大小對(duì)任務(wù)進(jìn)行分類時(shí),可以采用如SAC的深度強(qiáng)化學(xué)習(xí)算法進(jìn)行分類,優(yōu)化分配功率,并利用AI算法(如DQN等)進(jìn)行計(jì)算資源的分配。此外,還可以將數(shù)字孿生技術(shù)和AI算法結(jié)合應(yīng)用到車聯(lián)網(wǎng),通過評(píng)估鏡像邊緣計(jì)算系統(tǒng)中的協(xié)作增益,集中利用潛在的邊緣服務(wù)匹配,同時(shí)在多智能體深度強(qiáng)化學(xué)習(xí)方法中分布式調(diào)度計(jì)算任務(wù)卸載和邊緣資源分配。下面進(jìn)行具體介紹。
AI算法在聯(lián)合考慮計(jì)算資源分配和卸載決策方面情況如下。文獻(xiàn)[78]提出了一個(gè)基于Q-learning 的智能節(jié)點(diǎn)選擇卸載算法,解決了任務(wù)卸載以及計(jì)算資源分配的問題。文獻(xiàn)[79]提出了一種基于MEC的V2X任務(wù)卸載和資源分配機(jī)制,通過初始卸載節(jié)點(diǎn)的選擇、計(jì)算卸載決策、無線資源和計(jì)算資源的合理分配來最小化系統(tǒng)開銷。文獻(xiàn)[80]首先探討了一種車輛作為移動(dòng)邊緣服務(wù)器為附近終端提供計(jì)算服務(wù)的車輛邊緣計(jì)算網(wǎng)絡(luò)體系結(jié)構(gòu)。在此基礎(chǔ)上,提出了考慮計(jì)算任務(wù)時(shí)延的車輛輔助卸載方案以及使車輛邊緣計(jì)算網(wǎng)絡(luò)的長(zhǎng)期效用最大化的優(yōu)化問題,并利用Q-learning和深度強(qiáng)化學(xué)習(xí)兩種強(qiáng)化學(xué)習(xí)方法,以獲得最優(yōu)的計(jì)算卸載和資源分配策略。文獻(xiàn)[81]提出了聯(lián)合考慮移動(dòng)車輛網(wǎng)絡(luò)中的通信和計(jì)算資源來解決任務(wù)卸載問題。該文獻(xiàn)提出了一個(gè)非線性問題,以最小化網(wǎng)絡(luò)資源的能量消耗。此外,還考慮了一個(gè)實(shí)際的車輛環(huán)境和移動(dòng)車輛網(wǎng)絡(luò)的動(dòng)力學(xué),通過一種基于DQN的方法解決所提出的問題。最后通過數(shù)值計(jì)算驗(yàn)證了該方法的有效性。文獻(xiàn)[82]針對(duì)空間輔助車輛網(wǎng)絡(luò)(space-assisted vehicular network,SAVN)中的計(jì)算卸載問題,提出了一種基于異步聯(lián)合DQN和超可靠低時(shí)延通信(ultra-reliable and low-latency communication,URLLC)感知的計(jì)算卸載算法(ASTEROID),以在考慮長(zhǎng)期URLLC約束的情況下實(shí)現(xiàn)吞吐量最大化。文獻(xiàn)[83]提出了一種基于優(yōu)先級(jí)敏感的車聯(lián)網(wǎng)任務(wù)卸載和資源分配方案,該方法通過激勵(lì)車輛與任務(wù)車輛共享空閑的計(jì)算資源,設(shè)計(jì)了一種基于SAC 的深度強(qiáng)化學(xué)習(xí)算法,根據(jù)任務(wù)的優(yōu)先級(jí)和計(jì)算量對(duì)任務(wù)進(jìn)行分類,實(shí)現(xiàn)功率的最優(yōu)分配。此外,還設(shè)計(jì)了DDPG和雙時(shí)延DDPG算法,通過最大化所考慮的網(wǎng)絡(luò)的平均效用,實(shí)現(xiàn)了任務(wù)卸載的最優(yōu)策略,驗(yàn)證了分布式強(qiáng)化學(xué)習(xí)在未來車聯(lián)網(wǎng)中任務(wù)卸載的可行性。文獻(xiàn)[84]提出了一種車輛霧計(jì)算(vehicular fog computing,VFC)中的V2V部分卸載方案,即計(jì)算資源有限的車輛可以將部分任務(wù)卸載給計(jì)算資源空閑的相鄰車輛。該文獻(xiàn)將V2V部分卸載問題歸結(jié)為一個(gè)序列決策問題,采用基于柔性動(dòng)作—評(píng)價(jià)的部分卸載(soft actor-critic -based partial offloading,SBPO)進(jìn)行求解,仿真表明,與其他算法(如隨機(jī)卸載、貪婪卸載)相比,該文獻(xiàn)提出的算法具有更好的性能。文獻(xiàn)[85]提出了一種任務(wù)類型與車輛速度感知相結(jié)合的任務(wù)卸載與資源分配策略,在任務(wù)時(shí)延、計(jì)算資源和無線資源的約束下,制定任務(wù)卸載和資源分配的聯(lián)合優(yōu)化方案,使車輛的效用最大化。為了獲得問題的近似最優(yōu)解,提出了一種基于多智能體深度確定性策略梯度的聯(lián)合卸載和資源分配(joint offloading and resource allocation based on the multi-agent deep deterministic policy gradient,JORA-MADDPG)算法,以實(shí)現(xiàn)車輛效用水平的最大化。文獻(xiàn)[86]將數(shù)字孿生技術(shù)與人工智能結(jié)合,設(shè)計(jì)了一個(gè)高效的車輛邊緣計(jì)算網(wǎng)絡(luò),還開發(fā)了一種基于重力模型的數(shù)字孿生車輛聚合方案,并基于MADDPG提出了相應(yīng)的多智能體學(xué)習(xí)算法來優(yōu)化邊緣資源調(diào)度。文獻(xiàn)[87]提出了一種基于霧的車輛網(wǎng)絡(luò)(fog-based vehicular network,F(xiàn)VNET)的端邊云協(xié)作模式,將具有閑置資源的車輛作為霧用戶設(shè)備(fog user equipment,F(xiàn)-UE),并將聯(lián)合通信和計(jì)算資源分配問題轉(zhuǎn)化為多智能體隨機(jī)博弈,提出了一種基于深度強(qiáng)化學(xué)習(xí)的多智能體分布式算法,以最小化時(shí)延總和。
表4 AI算法在通信和計(jì)算資源聯(lián)合分配方面的應(yīng)用
AI算法在車聯(lián)網(wǎng)通算中的未來研究方向有以下幾個(gè)方面。
(1)無人機(jī)輔助覆蓋重疊、協(xié)同通信協(xié)議
未來無人機(jī)輔助車聯(lián)網(wǎng)在研究覆蓋重疊、中繼選擇、能量采集通信、無人機(jī)協(xié)同通信協(xié)議等方面都有很大的發(fā)展前景。例如,可以將多架無人機(jī)組成中繼網(wǎng)絡(luò),通過建模中繼網(wǎng)絡(luò)和車輛網(wǎng)絡(luò)的機(jī)動(dòng)性和狀態(tài)轉(zhuǎn)換,針對(duì)無人機(jī)輔助車聯(lián)網(wǎng)的覆蓋重疊/概率問題或者協(xié)同通信下的吞吐量或安全性問題,考慮無人機(jī)回程穩(wěn)定性對(duì)整體系統(tǒng)的影響、動(dòng)態(tài)環(huán)境中實(shí)現(xiàn)UAV之間的無縫切換問題,利用多智能體強(qiáng)化學(xué)習(xí)算法進(jìn)行優(yōu)化解決。此外,星地飛行器網(wǎng)絡(luò)的任務(wù)卸載和資源管理問題也是未來要研究的一個(gè)方向。
(2)結(jié)合ES性能和QoS的新的服務(wù)器部署
由于車聯(lián)網(wǎng)的動(dòng)態(tài)變化,以及不同區(qū)域和時(shí)間段車輛或終端對(duì)計(jì)算和通信服務(wù)的需求不同,ES在不同地方的計(jì)算能力不同。未來可以結(jié)合AI算法,在ES計(jì)算能力不同的地方設(shè)置一種新的ES量化和放置方法,提高QoS。此外,在異構(gòu)車聯(lián)網(wǎng)中,綜合考慮不同服務(wù)的多種QoS要求的RSU部署問題也需要進(jìn)一步的研究,如一些對(duì)時(shí)延敏感的實(shí)時(shí)業(yè)務(wù),需要提供低時(shí)延的QoS服務(wù),而其他一些普通業(yè)務(wù)或大數(shù)據(jù)量業(yè)務(wù),則對(duì)丟包率比較敏感。
(3)AI算法在RSU部署的廣泛應(yīng)用
目前車聯(lián)網(wǎng)中服務(wù)器部署的研究大多利用遺傳算法,只有少部分研究從深度強(qiáng)化學(xué)習(xí)的角度考慮,且部分遺傳算法需要多次迭代,計(jì)算時(shí)間過長(zhǎng),未來需要將更多AI算法應(yīng)用到服務(wù)器部署,提高部署效率,減小網(wǎng)絡(luò)時(shí)延和開銷。
(4)建立服務(wù)車輛輔助計(jì)算的組織和系統(tǒng)
針對(duì)任務(wù)車輛的計(jì)算卸載,周圍有空閑資源車輛的輔助十分重要,若能合理利用周圍車輛的計(jì)算資源,實(shí)現(xiàn)高效的動(dòng)態(tài)規(guī)劃,可以進(jìn)一步提高車聯(lián)網(wǎng)計(jì)算卸載能力。例如可以成立一個(gè)組織,將該組織的車輛的用戶信息都進(jìn)行登記,并參考用戶終端之間的社會(huì)關(guān)系設(shè)立安全等級(jí)和服務(wù)報(bào)酬,并且這些車輛的計(jì)算能力實(shí)時(shí)上傳更新,需要服務(wù)的車輛可以向組織發(fā)送請(qǐng)求,使有空閑資源的車輛可以提供資源給目標(biāo),提供資源的一方也可以從接受服務(wù)方收取一定的報(bào)酬。但是這樣的組織建立是困難的,隨著服務(wù)進(jìn)行,所需處理的信息量巨大,需要一定的時(shí)間和一個(gè)很好的規(guī)劃。未來可以進(jìn)一步研究特定任務(wù)下的任務(wù)卸載決策和資源分配,以及算法在復(fù)雜車輛行為(如車輛加速、減速、超車和換道)中的適用性和改進(jìn)方法。
(5)VEC的安全與隱私問題
由于車載邊緣計(jì)算的開放性,用戶的數(shù)據(jù)安全和隱私問題的解決變得尤為重要,如V2V中,任務(wù)車輛將任務(wù)卸載到服務(wù)車輛,服務(wù)車輛的選取會(huì)產(chǎn)生一些安全隱私問題,需要在未來的工作中進(jìn)一步研究解決。目前,安全漏洞是通過使用相同地址的數(shù)據(jù)包的范圍來估計(jì)的,這明顯受數(shù)據(jù)包到達(dá)率的影響。在未來工作中,將引入新的安全指標(biāo),這些指標(biāo)可以在調(diào)整移動(dòng)目標(biāo)防御(moving target defense,MTD)觸發(fā)間隔時(shí)捕獲攻擊者的實(shí)際安全漏洞,增強(qiáng)車載網(wǎng)絡(luò)的安全性。
(6)提高AI算法在實(shí)踐中的性能
仿真中的參數(shù)取值方面模擬性質(zhì)較強(qiáng),可能導(dǎo)致理論值與真實(shí)情況存在一定的偏差。現(xiàn)在大部分文獻(xiàn)僅限于使用一些虛擬交通數(shù)據(jù)進(jìn)行仿真評(píng)估,未來需要盡可能運(yùn)用真實(shí)的交通數(shù)據(jù),通過搭建硬件平臺(tái)獲取實(shí)際數(shù)據(jù),基于實(shí)際數(shù)據(jù)對(duì)多設(shè)備、多資源下的計(jì)算通信資源分配問題與任務(wù)卸載決策問題進(jìn)行研究,提出更具有普適性的聯(lián)合任務(wù)卸載與資源分配的算法,以增強(qiáng)算法的實(shí)踐性能。
(7)多智能體的DRL算法應(yīng)用和模型改進(jìn)
未來可以設(shè)計(jì)更復(fù)雜的車聯(lián)網(wǎng)場(chǎng)景模型,利用多智能體強(qiáng)化學(xué)習(xí)算法,在動(dòng)態(tài)、復(fù)雜的模型中學(xué)習(xí)最佳計(jì)算、卸載策略,以進(jìn)一步提高車聯(lián)網(wǎng)的性能。在網(wǎng)絡(luò)切片中的資源分配方面,部署在網(wǎng)絡(luò)切片中用于資源分配和MTD觸發(fā)決策的基于多智能體的DRL方法比基于單個(gè)智能體的DRL方法更有效。因?yàn)橹悄荏w之間的信息交換可以提高視圖和策略的同步性,從而使每個(gè)DRL代理在減少不確定性的情況下做出更有效的決策。
(8)車路協(xié)同優(yōu)化及其隱私問題的解決
車路協(xié)同推斷把深度網(wǎng)絡(luò)切分成兩部分,分別由車載終端和路側(cè)邊緣服務(wù)器進(jìn)行存儲(chǔ)和執(zhí)行,兩者協(xié)作完成深度網(wǎng)絡(luò)的推斷。車路協(xié)同推斷可以提高推斷效率,但是存在隱私問題。攻擊者在不知道車載終端網(wǎng)絡(luò)結(jié)構(gòu)的前提下,仍可復(fù)原車載終端上傳的計(jì)算結(jié)果對(duì)應(yīng)的圖像數(shù)據(jù),從而發(fā)起圖像還原攻擊。未來工作可以進(jìn)一步研究車路協(xié)同推斷的隱私問題,結(jié)合傳輸壓縮等方法,設(shè)計(jì)更有效的防御算法,同時(shí)提高車路協(xié)同推斷的效率和精確度。
(9)車輛網(wǎng)絡(luò)的切片選擇和覆蓋問題
未來在車輛互聯(lián)網(wǎng)網(wǎng)絡(luò)中的切片選擇、覆蓋選擇、資源塊和非正交多址功率分配問題上,可以研究一種雙時(shí)間尺度DRL方法。該方法在較慢的時(shí)間尺度上決定覆蓋和切片選擇,并且未來還可以研究多切片的公平性問題,利用AI算法智能地調(diào)配切片資源,高效解決業(yè)務(wù)需求高動(dòng)態(tài)下的切片選擇問題。
本文主要針對(duì)AI算法在車聯(lián)網(wǎng)通信計(jì)算的應(yīng)用層面進(jìn)行了系統(tǒng)性的調(diào)研。首先,介紹了車聯(lián)網(wǎng)的背景、通算一體化網(wǎng)絡(luò)以及AI算法的內(nèi)容;然后,從通信、計(jì)算卸載、通算融合方面歸納總結(jié)了AI算法的應(yīng)用;最后,對(duì)AI算法在車聯(lián)網(wǎng)領(lǐng)域的應(yīng)用進(jìn)行了展望,從幾個(gè)方面提出了改進(jìn)和思考的方向。
[1] 龔媛嘉, 孫海波. 車聯(lián)網(wǎng)系統(tǒng)綜述[J]. 中國(guó)新通信, 2021, 23(17): 51-52.
GONG Y J, SUN H B. An overview of internet of vehicles systems[J]. China New Telecommunications, 2021, 23(17):51-52.
[2] 陳山枝, 葛雨明, 時(shí)巖. 蜂窩車聯(lián)網(wǎng)(C-V2X)技術(shù)發(fā)展、應(yīng)用及展望[J]. 電信科學(xué), 2022, 38(1):1-12.
CHEN S Z, GE Y M, SHI Y. Technology development, application and prospect of cellular vehicle-to-everything (C-V2X)[J]. Telecommunications Science, 2022, 38(1):1-12.
[3] CHEN S Z, HU J L, SHI Y, et al. A vision of C-V2X: technologies, field testing, and challenges with chinese development[J]. IEEE Internet of Things Journal, 2020, 7(5): 3872-3881.
[4] LIU G, LI N, DENG J, et al. The SOLIDS 6G mobile network architecture: driving forces, features, and functional topology[J]. Engineering, 2022, 8(1): 42-59.
[5] 孫韶輝, 戴翠琴, 徐暉, 等. 面向6G 的星地融合一體化組網(wǎng)研究[J]. 重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版), 2021, 33(6): 891-901.
SUN S H, DAI C Q, XU H, et al. Survey on satellite-terrestrial integration networking towards 6G[J]. Journal of Chongqing University of Posts and Telecommunications (Natural Science edition), 2021, 33(6): 891-901.
[6] LIU G Y, HUANG Y H, LIN, et al. Vision, requirements and network architecture of 6G mobile network beyond 2030[J]. IEEE China Communications, 2020, 17(9): 92-104.
[7] LIU Y Q, PENG M G, SHOU G C, et al. Toward edge intelligence: multiaccess edge computing for 5G and internet of things[J]. IEEE Internet of Things Journal, 2020, 7(8): 6722-6747.
[8] 徐堂煒, 張海璐, 劉楚, 等. 基于強(qiáng)化學(xué)習(xí)的低時(shí)延車聯(lián)網(wǎng)群密鑰分配管理技術(shù)[J]. 網(wǎng)絡(luò)與信息安全學(xué)報(bào), 2020, 6(5): 119-125.
XU T W, ZHANG H L, LIU C, et al. Reinforcement learning based group key agreement scheme with reduced latency for VANET[J]. Chinese Journal of Network and Information Security, 2020, 6(5): 119-125.
[9] WANG D, ZHANG Q, LIU J, et al. A novel QoS-awared grid routing protocol in the sensing layer of Internet of vehicles based on reinforcement learning[J]. IEEE Access, 2019(7): 185730-185739.
[10] PENG Y, LIU L, ZHOU Y, et al. Deep reinforcement learning-based dynamic service migration in vehicular networks[C]//Proceedings of 2019 IEEE Global Communications Conference (GLOBECOM). Piscataway: IEEE Press, 2019: 1-6.
[11] CHOE C, CHOI J, AHN J, et al. Multiple channel access using deep reinforcement learning for congested vehicular networks[C]//Proceedings of 2020 IEEE 91st Vehicular Technology Conference (VTC2020-Spring). Piscataway: IEEE Press, 2020: 1-6.
[12] ATALLAH R F, ASSI C M, KHABBAZ M J. Scheduling the operation of a connected vehicular network using deep reinforcement learning[J]. IEEE Transactions on Intelligent Transportation Systems, 2018, 20(5): 1669-1682.
[13] AOKI S, HIGUCHI T, ALTINTAS O. Cooperative perception with deep reinforcement learning for connected vehicles[C]// Proceedings of 2020 IEEE Intelligent Vehicles Symposium (IV). Piscataway: IEEE Press, 2020: 328-334.
[14] 俞建業(yè), 戚湧, 王寶茁. 基于Spark的車聯(lián)網(wǎng)分布式組合深度學(xué)習(xí)入侵檢測(cè)方法[J]. 計(jì)算機(jī)科學(xué), 2021, 48(6A): 518-523.
YU J Y, QI Y, WANG B Z. Distributed combination deep learning intrusion detection method for internet of vehicles based on Spark[J]. Computer Science, 2021, 48(6A): 518-523.
[15] 吳茂強(qiáng), 黃旭民, 康嘉文. 面向車路協(xié)同推斷的差分隱私保護(hù)方法[J]. 計(jì)算機(jī)工程, 2022, 48(7): 29-35.
WU M Q, HUANG X M, KANG J W, et al. Differential privacy protection methods for vehicle-road collaborative inference[J]. Computer Engineering, 2022, 48(7): 29-35.
[16] 李明磊, 章陽, 康嘉文, 等. 基于多智能體強(qiáng)化學(xué)習(xí)的區(qū)塊鏈賦能車聯(lián)網(wǎng)中的安全數(shù)據(jù)共享[J]. 廣東工業(yè)大學(xué)學(xué)報(bào), 2021, 38(6): 62-69.
LI M L, ZHANG Y, KANG J W, et al. Multi-agent reinforcement learning for secure data sharing in blockchain-empowered vehicular networks[J]. Journal of Guangdong University of Technology, 2021, 38(6): 62-69.
[17] ZHANG D, YU F R, YANG R, et al. A deep reinforcement learning-based trust management scheme for software-defined vehicular networks[C]//Proceedings of the 8th ACM Symposium on Design and Analysis of Intelligent Vehicular Networks and Applications. New York: ACM Press, 2018: 1-7.
[18] YOON S, CHO J H, KIM D S, et al. DESOLATER: deep reinforcement learning-based resource allocation and moving target defense deployment framework[J]. IEEE Access, 2021(9): 70700-70714.
[19] ZHOU Y, TANG F, KAWAMOTO Y, et al. Reinforcement learning-based radio resource control in 5G vehicular network[J]. IEEE Wireless Communications Letters, 2019, 9(5): 611-614.
[20] 陳九九, 馮春燕, 郭彩麗, 等. 車聯(lián)網(wǎng)中視頻語義驅(qū)動(dòng)的資源分配算法[J]. 通信學(xué)報(bào), 2021, 42(7): 1-11.
CHEN J J, FENG C Y, GUO C L, et al. Video semantics-driven resource allocation algorithm in internet of vehicles[J]. Journal of Communication, 2021, 42(7): 1-11.
[21] YE S, XU L, LI X. Vehicle-mounted self-organizing network routing algorithm based on deep reinforcement learning[J]. Wireless Communications and Mobile Computing, 2021(2021): 9934585:1-9.
[22] MLIKA Z, CHERKAOUI S. Network slicing with MEC and deep reinforcement learning for the internet of vehicles[J]. IEEE Network, 2021, 35(3): 132-138.
[23] 王曉昌, 吳璠, 孫彥贊, 等. 基于深度強(qiáng)化學(xué)習(xí)的車聯(lián)網(wǎng)資源管理[J]. 工業(yè)控制計(jì)算機(jī), 2021, 34(9): 31-33, 36.
WANG X C, WU P, SUN Y Z, et al. Internet of vehicles resource management based on deep reinforcement learning[J]. Industrial Personal Computer, 2021, 34(9): 31-33, 36.
[24] 王曉昌, 吳璠, 孫彥贊, 等. 基于聯(lián)邦深度強(qiáng)化學(xué)習(xí)的車聯(lián)網(wǎng)資源分配[J]. 電子測(cè)量技術(shù), 2021, 44(10): 114-120.
WANG X C, WU P, SUN Y Z, et al. Internet of vehicles resource management based on federal deep reinforcement learning[J]. Electronic Measurement Technology Journals, 2021, 44(10): 114-120.
[25] YE H, LI G Y. Deep reinforcement learning for resource allocation in V2V communications[C]//Proceedings of 2018 IEEE International Conference on Communications (ICC). Piscataway: IEEE Press, 2018: 1-6.
[26] GYAWALI S, QIAN Y, HU R. Resource allocation in vehicular communications using graph and deep reinforcement learning[C]//Proceedings of 2019 IEEE Global Communications Conference (GLOBECOM). Piscataway: IEEE Press, 2019: 1-6.
[27] CHEN X, WU C, CHEN T, et al. Age of information aware radio resource management in vehicular networks: a proactive deep reinforcement learning perspective[J]. IEEE Transactions on Wireless Communications, 2020, 19(4): 2268-2281.
[28] QIAO G, LENG S, MAHARIAN S, et al. Deep reinforcement learning for cooperative content caching in vehicular edge computing and networks[J]. IEEE Internet of Things Journal, 2019, 7(1): 247-257.
[29] ZHU M, LIU X Y, WANG X. Deep reinforcement learning for unmanned aerial vehicle-assisted vehicular networks[J]. arXiv Preprint, 2019, arXiv, 1906.05015.
[30] 韓雙雙, 李卓珩, 楊林瑤, 等. 基于強(qiáng)化學(xué)習(xí)和非正交多址接入的車聯(lián)網(wǎng)無線資源分配[C]//2019中國(guó)自動(dòng)化大會(huì)(CAC2019)論文集. [出版地不詳:出版者不詳], 2019: 360-365.
HAN S S, LI Z X, YANG L Y. Wireless resource allocation in vehicular networks based on reinforcement learning and NOMA[C]//Proceedings of the China Automation Congress(CAC2019). [S.l.: s.n.], 2019: 360-365.
[31] SHARIF A, LI J, SALEEM M A, et al. A dynamic clustering technique based on deep reinforcement learning for internet of vehicles[J]. Journal of Intelligent Manufacturing, 2021, 32(3): 757- 768.
[32] 黃煜梵, 彭諾蘅, 林艷, 等. 基于SAC強(qiáng)化學(xué)習(xí)的車聯(lián)網(wǎng)頻譜資源動(dòng)態(tài)分配[J]. 計(jì)算機(jī)工程, 2021, 47(9): 34-43.
HUANG Y F, PENG N H, LIN Y, et al. Dynamic spectrum resource allocation in internet of vehicles based on SAC reinforcement learning[J]. Computer Engineering, 2021, 47(9): 34-43.
[33] TIAN J, LIU Q, ZHANG H, et al. Multi-agent deep reinforcement learning based resource allocation for heterogeneous QoS guarantees for vehicular Networks[J]. IEEE Internet of Things Journal, 2021, 9(3): 1683-1695.
[34] 陳成瑞, 孫寧, 何世彪, 等. 面向C-V2X通信的基于深度學(xué)習(xí)的聯(lián)合信道估計(jì)與均衡算法[J]. 計(jì)算機(jī)應(yīng)用, 2021, 41(9): 2687- 2693.
CHEN C R, SUN N, HE S B, et al. Deep learning-based joint channel estimation and equalization algorithm for C-V2X communications[J]. Journal of Computer Applications, 2021, 41(9): 2687- 2693.
[35] 廖勇, 田肖懿, 蔡志镕. 面向C-V2I的基于邊緣計(jì)算的智能信道估計(jì)[J]. 電子學(xué)報(bào), 2021, 49(5): 833-842.
LIAO Y, TIAN X Y, CAI Z R, et al. Intelligent channel estimation based on edge computing for C-V2I[J]. Acta Electronica Sinica, 2021, 49(5): 833-842.
[36] ZHAO N, WU H, YU F R, et al. Deep-reinforcement-learning-based latency minimization in edge intelligence over vehicular networks[J]. IEEE Internet of Things Journal, 2021, 9(2): 1300-1312.
[37] 王汝言, 梁穎杰, 崔亞平. 車輛網(wǎng)絡(luò)多平臺(tái)卸載智能資源分配算法[J]. 電子與信息學(xué)報(bào), 2020, 42(1): 263-270.
WANG R Y, LIANG Y J, CUI Y P. Intelligent resource allocation algorithm for multi-platform offloading in vehicular networks[J]. Journal of Electronics & Information Technology, 2020, 42(1): 263-270.
[38] ZHANG Y, ZHANG M, FAN C, et al. Computing resource allocation scheme of IoV using deep reinforcement learning in edge computing environment[J]. EURASIP Journal on Advances in Signal Processing, 2021, 2021(1): 1-19.
[39] LEE S-S, LEE S. Resource allocation for vehicular fog computing using reinforcement learning combined with heuristic information[J]. IEEE Internet of Things Journal, 2020, 7(10): 10450-10464.
[40] XIAO H, QIU C, YANG Q, et al. Deep reinforcement learning for optimal resource allocation in blockchain-based IoV secure systems[C]//Proceedings of 2020 16th International Conference on Mobility, Sensing and Networking (MSN). [S.l.: s.n.], 2020: 137-144.
[41] 董曉丹, 吳瓊. 車載云計(jì)算系統(tǒng)中資源分配的優(yōu)化方法[J]. 中國(guó)電子科學(xué)研究院學(xué)報(bào), 2020, 15(1): 92-98.
DONG X D, WU Q. Optimization method of resource allocation in vehicular cloud computing system[J]. Journal of China Academy of Electronics and Information Technology, 2020, 15(1): 92-98.
[42] 李振江, 張幸林. 減少核心網(wǎng)擁塞的邊緣計(jì)算資源分配和卸載決策[J]. 計(jì)算機(jī)科學(xué), 2021, 48(3): 281-288.
LI Z J, ZHANG X L. Resource allocation and offloading decision of edge computing for reducing core network congestion[J]. Computer Science, 2021, 48(3): 281-288.
[43] GAO D. Computing resource allocation strategy based on mobile edge computing in internet of vehicles environment[J]. Mobile Information Systems, 2022(2): 1-10.
[44] LIN X, WU J, MUMTAZ S, et al. Blockchain-based on-demand computing resource trading in IoV-assisted smart city[J]. IEEE Transactions on Emerging Topics in Computing, 2020, 9(3): 1373-1385.
[45] 張海波, 荊昆侖, 劉開健, 等. 車聯(lián)網(wǎng)中一種基于軟件定義網(wǎng)絡(luò)與移動(dòng)邊緣計(jì)算的卸載策略[J]. 電子與信息學(xué)報(bào), 2020, 42(3): 645-652.
ZHANG H B, JING K L, LIU K J, et al. An offloading mechanism based on software defined network and mobile edge computing in vehicular networks[J]. Journal of Electronics & Information Technology, 2020, 42(3): 645-652.
[46] 張海波, 劉香渝, 荊昆侖, 等. 車聯(lián)網(wǎng)中基于NOMA-MEC的卸載策略研究[J]. 電子與信息學(xué)報(bào), 2021, 43(4): 1072-1079.
ZHANG H B, LIU X Y, JING K L, et al. Research on NOMA-MEC-based offloading strategy in internet of vehicles[J]. Journal of Electronics & Information Technology, 2021, 43(4): 1072-1079.
[47] LI F, LIN Y, PENG N, et al. Deep reinforcement learning based computing offloading for MEC-assisted heterogeneous vehicular networks[C]//Proceedings of 2020 IEEE 20th International Conference on Communication Technology (ICCT). Piscataway: IEEE Press, 2020: 927-932.
[48] 趙海濤, 張?zhí)苽? 陳躍, 等. 基于DQN的車載邊緣網(wǎng)絡(luò)任務(wù)分發(fā)卸載算法[J]. 通信學(xué)報(bào), 2020, 41(10): 172-178.
ZHAO H T, ZHANG T W, CHEN Y, et al. Task distribution offloading algorithm of vehicle edge network based on DQN[J]. Journal on Communications, 2020, 41(10): 172-178.
[49] LI M, GAO J, ZHAO L, et al. Deep reinforcement learning for collaborative edge computing in vehicular networks[J]. IEEE Transactions on Cognitive Communications and Networking, 2020, 6(4): 1122-1135.
[50] DAI Y, ZHANG K, MAHARJAN S, et al. Edge intelligence for energy-efficient computation offloading and resource allocation in 5G beyond[J]. IEEE Transactions on Vehicular Technology, 2020, 69(10): 12175-12186.
[51] ZHAN W, LUO C, WANG J, et al. Deep-reinforcement- learning-based offloading scheduling for vehicular edge computing[J]. IEEE Internet of Things Journal, 2020, 7(6): 5449-5465.
[52] LIU H, ZHAO H, GENG L, et al. A policy gradient based offloading scheme with dependency guarantees for vehicular networks[C]//Proceedings of 2020 IEEE Globecom Workshops (GC Wkshps). Piscataway: IEEE Press, 2020: 1-6.
[53] WANG J, LV T, HUANG P, et al. Mobility-aware partial computation offloading in vehicular networks: a deep reinforcement learning based scheme[J]. China Communications, 2020, 17(10): 31-49.
[54] 許小龍, 方子介, 齊連永, 等. 車聯(lián)網(wǎng)邊緣計(jì)算環(huán)境下基于深度強(qiáng)化學(xué)習(xí)的分布式服務(wù)卸載方法[J]. 計(jì)算機(jī)學(xué)報(bào), 2021, 44(12): 2382-2405.
XU X L, FANG Z J, QI L Y, et al. A deep reinforcement learning-based distributed service offloading method for edge computing empowered internet of vehicles[J]. Journal of Computer Science and Technology, 2021, 44(12): 2382-2405.
[55] TANG D, ZHANG X, LI M, et al. Adaptive inference reinforcement learning for task offloading in vehicular edge computing systems[C]//Proceedings of 2020 IEEE International Conference on Communications Workshops (ICC Workshops). Piscataway: IEEE Press, 2020: 1-6.
[56] ZHAO T, LIU Y, SHOU G, et al. Joint latency and energy consumption optimization with deep reinforcement learning for proximity detection in road networks[C]//Proceedings of 2021 7th International Conference on Computer and Communications (ICCC). Piscataway: IEEE Press, 2021: 1272-1277.
[57] 劉國(guó)志, 代飛, 莫啟, 等. 車輛邊緣計(jì)算環(huán)境下基于深度強(qiáng)化學(xué)習(xí)的服務(wù)卸載方法[J]. 計(jì)算機(jī)集成制造系統(tǒng), 2022, 28(10): 3304-3315.
LIU G Z, DAI F, MO Q, et al. A service offloading method with deep reinforcement learning in edge computing empowered internet of vehicles[J]. Computer Integrated Making System, 2022, 28(10): 3304-3315.
[58] SHI J, DU J, WANG J, et al. Distributed V2V computation offloading based on dynamic pricing using deep reinforcement learning[C]//Proceedings of 2020 IEEE Wireless Communications and Networking Conference(WCNC). Piscataway: IEEE Press, 2020: 1-6.
[59] KE H, WANG J, DENG L, et al. Deep reinforcement learning-based adaptive computation offloading for MEC in heterogeneous vehicular networks[J]. IEEE Transactions on Vehicular Technology, 2020, 69(7): 7916-7929.
[60] GENG L, ZHAO H, LIU H, et al. Deep reinforcement learning-based computation offloading in vehicular networks[C]// Proceedings of 2021 8th IEEE International Conference on Cyber Security and Cloud Computing (CSCloud)/2021 7th IEEE International Conference on Edge Computing and Scalable Cloud (EdgeCom). Piscataway: IEEE Press, 2021:200-206.
[61] ZHAN W, LUO C, WANG J, et al. Deep reinforcement learning-based computation offloading in vehicular edge computing[C]//Proceedings of 2019 IEEE Global Communications Conference (GLOBECOM). Piscataway: IEEE Press, 2019: 1-6.
[62] 楊志和, 魯凌云. 基于強(qiáng)化學(xué)習(xí)的車輛編隊(duì)動(dòng)態(tài)定價(jià)任務(wù)卸載策略[J]. 電子技術(shù)與軟件工程, 2022(5): 45-51.
YANG Z H, LU L Y. Task offloading strategy of vehicle platoon dynamic pricing based on reinforcement learning[J]. Electronic Technology & Software Engineering, 2022(5): 45-51.
[63] NI Y, HE J, CAI L, et al. Joint roadside unit deployment and service task assignment for internet of vehicles (IoV)[J]. IEEE Internet of Things Journal, 2018, 6(2): 3271-3283.
[64] WU Z, LU Z, HUNG P C K, et al. QaMeC: a QoS-driven IoVs application optimizing deployment scheme in multimedia edge clouds[J]. Future Generation Computer Systems, 2019(92): 17-28.
[65] SHEN B, XU X, QI L, et al. Dynamic server placement in edge computing toward internet of vehicles[J]. Computer Communications, 2021(178): 114-123.
[66] XU X, SHEN B, YIN X, et al. Edge server quantification and placement for offloading social media services in industrial cognitive IoV[J]. IEEE Transactions on Industrial Informatics, 2020, 17(4): 2910-2918.
[67] LU J, JIANG J, BALASUBRAMANIAN V, et al. Deep reinforcement learning-based multi-objective edge server placement in Internet of vehicles[J]. Computer Communications, 2022(187): 172-180.
[68] LYU W, XU X, QI L, et al. GoDeep: intelligent IoV service deployment and execution with privacy preservation in cloud-edge computing[C]//Proceedings of 2021 IEEE International Conference on Web Services (ICWS). Piscataway: IEEE Press, 2021: 579-587.
[69] KASI M K, ABU G S, AKRAM R N, et al. Secure mobile edge server placement using multi-agent reinforcement learning[J]. Electronics, 2021, 10(17): 2098.
[70] 熊凱, 冷甦鵬, 張可, 等. 車聯(lián)霧計(jì)算中的異構(gòu)接入與資源分配算法研究[J]. 物聯(lián)網(wǎng)學(xué)報(bào), 2019, 3(2): 20-27.
XIONG K, LENG S P, ZHANG K, et al. Research on heterogeneous radio access and resource allocation algorithm in vehicular fog computing[J]. Chinese Journal on Internet of Things, 2019, 3(2): 20-27.
[71] CUI Y, DU L, WANG H, et al. Reinforcement learning for joint optimization of communication and computation in vehicular networks[J]. IEEE Transactions on Vehicular Technology, 2021, 70(12): 13062-13072.
[72] HE Y, ZHAO N, YIN H. Integrated networking, caching, and computing for connected vehicles: a deep reinforcement learning approach[J]. IEEE Transactions on Vehicular Technology, 2017, 67(1): 44-55.
[73] LUO Q, LI C, LUAN T H, et al. Collaborative data scheduling for vehicular edge computing via deep reinforcement learning[J]. IEEE Internet of Things Journal, 2020, 7(10): 9637-9650.
[74] YANG C, LIU B, LI H, et al. Learning based channel allocation and task offloading in temporary UAV-assisted vehicular edge computing networks[J]. IEEE Transactions on Vehicular Technology, 2022, 71(9): 9884-9895.
[75] TAN G, ZHANG H, ZHOU S, et al. Resource allocation in MEC-enabled vehicular networks: a deep reinforcement learning approach[C]//Proceedings of IEEE INFOCOM 2020 - IEEE Conference on Computer Communications Workshops (INFOCOM WKSHPS). Piscataway: IEEE Press, 2020:406-411.
[76] LYU Z, WANG Y, LYU M, et al. Service-driven resource management in vehicular networks based on deep reinforcement learning[C]//Proceedings of 2020 IEEE 31st Annual International Symposium on Personal, Indoor and Mobile Radio Communications. Piscataway: IEEE Press, 2020: 1-6.
[77] PENG H, SHEN X. Multi-agent reinforcement learning based resource management in MEC-and UAV-assisted vehicular networks[J]. IEEE Journal on Selected Areas in Communications, 2020, 39(1): 131-141.
[78] 張家波, 呂潔娜, 甘臣權(quán), 等. 一種基于強(qiáng)化學(xué)習(xí)的車聯(lián)網(wǎng)邊緣計(jì)算卸載策略[J]. 重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版), 2022, 34(3): 525-534.
ZHANG J B, LYU J N, GAN C Q, et al. A reinforcement learning-based offloading strategy for internet of vehicles edge computing[J]. Journal of Chongqing University of Posts and Telecommunications (Natural Science edition), 2022, 34(3): 525-534.
[79] 張海波, 王子心, 賀曉帆. SDN和MEC架構(gòu)下V2X卸載與資源分配[J]. 通信學(xué)報(bào), 2020, 41(1): 114-124.
ZHANG H B, WANG Z X, HE X F. V2X offloading and resource allocation under SDN and MEC architecture[J]. Journal of communication, 2020, 41(01): 114-124.
[80] LIU Y, YU H, XIE S, et al. Deep reinforcement learning for offloading and resource allocation in vehicle edge computing and networks[J]. IEEE Transactions on Vehicular Technology, 2019, 68(11): 11158-11168.
[81] KZAMI S. M. A., OTOUM S, HUSSAIN R, et al. A novel deep reinforcement learning-based approach for task-offloading in vehicular networks[C]//Proceedings of 2021 IEEE Global Communications Conference (GLOBECOM). Piscataway: IEEE Press, 2021: 1-6.
[82] PAN C, WANG Z, LIAO H J, et al. Asynchronous federated deep reinforcement learning-based URLLC-aware computation offloading in space-assisted vehicular networks[J]. IEEE Transactions on Intelligent Transportation Systems, 2022: 1-13
[83] HAZARIKA B, SINGH K, BISWAS S, et al. DRL-based resource allocation for computation offloading in IoV networks[J]. IEEE Transactions on Industrial Informatics, 2022, 18(11): 8027-8038.
[84] SHI J, DU J, WANG J, et al. Deep reinforcement learning-based V2V partial computation offloading in vehicular fog computing[C]//Proceedings of 2021 IEEE Wireless Communications and Networking Conference (WCNC). Piscataway: IEEE Press, 2021: 1-6.
[85] HUANG X, HE L, CHEN X, et al. Revenue and energy efficiency-driven delay-constrained computing task offloading and resource allocation in a vehicular edge computing network: a deep reinforcement learning approach[J]. IEEE Internet of Things Journal, 2022, 9(11): 8852-8868.
[86] ZHANG K, CAO J, ZHANG Y, et al. Adaptive digital twin and multiagent deep reinforcement learning for vehicular edge computing and networks[J]. IEEE Transactions on Industrial Informatics, 2022, 18(2): 1405-1413.
[87] ZHANG X, PENG M, YAN S, et al. Joint communication and computation resource allocation in fog-based vehicular networks[J]. IEEE Internet of Things Journal, 2022, 9(15): 13195-13208.
A survey on AI algorithms applied in communication and computation in Internet of vehicles
KANG Yu1,2,3,LIU Yaqiong1,2,3,ZHAO Tongyu1,2,3,SHOU Guochu1,2,3
1.Beijing Laboratory of Advanced Information Networks, Beijing 100876, China 2.Beijing Key Laboratory of Network System Architecture and Convergence, Beijing 100876, China 3.School of Information and Communication Engineering, Beijing University of Posts and Telecommunications, Beijing 100876, China
In the 5G era, the development of communication and computing in the Internet of vehicles has been limited by the rapidly increasing amount of information. New breakthroughs in communication and computing in Internet of vehicles can be achieved by applying AI algorithms to the Internet of vehicles. Firstly, the application of AI algorithms in communication security, communication resource allocation, computationresourceallocation, task offloading decision, server deployment, communication-computation integration were investigated. Secondly, the achievements and shortcomings of the present AI algorithms in different scenarios were analyzed. Finally, combined with the Internet of vehicle development trend, some future research directions for AI algorithms applied in the Internet of vehicles were discussed.
communication resource allocation, communication security, computation offloading, communication-computation integration, AI algorithm, deep reinforcement learning
TN929
A
10.11959/j.issn.1000-0801.2023019
2022-07-22;
2022-12-20
劉雅瓊,liuyaqiong@bupt.edu.cn
國(guó)家自然科學(xué)基金資助項(xiàng)目(No.61901052)
The National Natural Science Foundation of China (No.61901052)
康宇(1999-),男,北京郵電大學(xué)碩士生,主要研究方向?yàn)檫吘売?jì)算、車聯(lián)網(wǎng)和邊緣智能。
劉雅瓊(1988-),女,博士,北京郵電大學(xué)副教授,主要研究方向?yàn)檫吘売?jì)算、車聯(lián)網(wǎng)和邊緣智能。
趙彤雨(1998-),女,北京郵電大學(xué)碩士生,主要研究方向?yàn)檫吘売?jì)算、物聯(lián)網(wǎng)和邊緣智能。
壽國(guó)礎(chǔ)(1965-),男,博士,北京郵電大學(xué)教授,主要研究方向?yàn)榻尤刖W(wǎng)絡(luò)與邊緣計(jì)算、光纖與無線網(wǎng)絡(luò)虛擬化、網(wǎng)絡(luò)構(gòu)建與路由、移動(dòng)互聯(lián)網(wǎng)與應(yīng)用等。