黃煜梵,彭諾蘅,林 艷,范建存,張一晉,余妍秋
(1.南京理工大學(xué) 電子工程與光電技術(shù)學(xué)院,南京 210094;2.西安交通大學(xué) 信息與通信工程學(xué)院,西安 710049)
隨著新一代移動通信技術(shù)的不斷發(fā)展,車聯(lián)網(wǎng)(Internet of Vehicles,IoV)受到了全世界范圍內(nèi)的廣泛關(guān)注[1]。車聯(lián)網(wǎng)將處于高速移動狀態(tài)的車輛連接移動網(wǎng)絡(luò),實現(xiàn)車輛-行人(Vehicle-to-Pedestrian,V2P)、車輛-車輛(Vehicle-to-Vehicle,V2V)、車輛-路旁基礎(chǔ)設(shè)施(Vehicle-to-Roadside Infrastructure,V2I)、車輛-網(wǎng)絡(luò)(Vehicle-to-Network,V2N)的全方位連接功能[2]。頻譜資源是實現(xiàn)所有車聯(lián)網(wǎng)通信的必備條件,但隨著車聯(lián)網(wǎng)應(yīng)用范圍的擴大和網(wǎng)絡(luò)中通信性能要求的提高,已有的頻譜資源顯然已不能滿足車聯(lián)網(wǎng)中的所有通信需求,因此需要設(shè)計更有效的頻譜資源分配方案來保證高可靠低時延的車聯(lián)網(wǎng)通信服務(wù)[3]。
車聯(lián)網(wǎng)中高速運動的車輛節(jié)點、不斷變化的信道條件等不確定性網(wǎng)絡(luò)環(huán)境給頻譜資源分配帶來了巨大的挑戰(zhàn)。針對車聯(lián)網(wǎng)中高速移動的車輛節(jié)點之間頻譜資源的動態(tài)分配問題,文獻(xiàn)[4]提出一種基于圖論著色模型和信道反饋的動態(tài)頻譜分配算法,定義反饋矩陣來分析信道的占用和通信情況,并規(guī)定車輛節(jié)點依據(jù)信道反饋矩陣中返回的參數(shù)數(shù)值來自主甄別當(dāng)前信道是否可用。為適應(yīng)車輛數(shù)目不斷變化的車聯(lián)網(wǎng)通信環(huán)境,文獻(xiàn)[5]提出一種基于分簇結(jié)構(gòu)的三步式認(rèn)知頻譜分配機制,根據(jù)交通擁堵情況設(shè)置任務(wù)優(yōu)先級,并使用復(fù)用的動態(tài)頻譜接入技術(shù)將資源合理分配給授權(quán)用戶與認(rèn)知用戶。除此之外,文獻(xiàn)[6-7]提出可適應(yīng)緩慢變化的大規(guī)模信道衰落的頻譜資源分配方案,最大限度地提高了V2I 鏈路的吞吐量,且降低了網(wǎng)絡(luò)信令開銷。該方案不僅允許在V2I 和V2V 鏈路之間共享頻譜資源,而且可以在不同V2V 鏈路之間共享頻譜資源。
近年來,研究人員開始嘗試使用不同的深度學(xué)習(xí)和強化學(xué)習(xí)理論來解決未知動態(tài)環(huán)境下的車聯(lián)網(wǎng)頻譜資源分配問題。文獻(xiàn)[8]為滿足不同實體的動態(tài)和多樣化需求,提出一個強化學(xué)習(xí)Q-learning 框架來解決車輛云中的資源分配問題。文獻(xiàn)[9]針對車聯(lián)網(wǎng)可分配頻譜資源數(shù)目未知的情況,提出一種基于深度Q 網(wǎng)絡(luò)(Deep Q-Network,DQN)的聯(lián)合緩存和計算資源方案。為進(jìn)一步解決高移動性和多數(shù)目車輛環(huán)境中的頻譜資源難以集中式管理問題,文獻(xiàn)[10]提出一種用于V2V 和V2I 通信的混合式頻譜復(fù)用和功率分配方案,并設(shè)計基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的實時決策方法實現(xiàn)頻譜重用和功率分配。文獻(xiàn)[11]利用DQN理論提出一種分布式的多智能體頻譜資源分配方案。該方案考慮將每個V2V 鏈路作為一個智能體,且各智能體在環(huán)境中周期性地完成觀察和探索任務(wù),然后根據(jù)觀測結(jié)果和行為獎勵變化,各智能體自主學(xué)習(xí)合理選擇頻譜和功率。文獻(xiàn)[12]針對車聯(lián)網(wǎng)中負(fù)載和資源分配問題,基于Q-learning 思想提出一個可合理分配負(fù)載、控制傳輸功率、規(guī)劃子信道和計算頻譜資源的最佳解決方案,相較其他方法能有效減少系統(tǒng)開銷。然而,高密度車輛的車聯(lián)網(wǎng)環(huán)境可能會帶來高維的動作空間,為此文獻(xiàn)[13]利用一種多智能體深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法研究非正交多址技術(shù)條件下V2I 鏈路和V2V 鏈路頻譜資源分配問題,使得V2I 鏈路和速率最大化且同時滿足V2V 通信的嚴(yán)格延遲和可靠性約束。文獻(xiàn)[14]提出兩種基于分布式深度確定性策略梯度(DDDPG)和共享深度確定性策略梯度(SDDPG)算法,解決了基于D2D 的V2V 通信中的多智能體節(jié)能功率分配問題。兩種算法明顯優(yōu)于普通的強化學(xué)習(xí)算法,且SDDPG 算法還可顯著降低解的計算復(fù)雜度和內(nèi)存存儲空間。
目前,研究人員主要采用強化學(xué)習(xí)中的DQN 和DDPG 算法來解決車聯(lián)網(wǎng)中的頻譜資源動態(tài)分配問題,但這兩類算法存在一定的局限性。DQN 算法只有在離散低維行為空間中才能體現(xiàn)出較好的優(yōu)勢。DDPG 算法利用致動-評價(Actor-Critic,AC)算法來適用連續(xù)高維行為空間,但由于采用的是確定性行為策略,因此算法穩(wěn)定性較差。為了更好地體現(xiàn)強化學(xué)習(xí)中AC 算法的性能優(yōu)勢,本文在文獻(xiàn)[11]的基礎(chǔ)上設(shè)計柔性致動-評價(Soft Actor-Critic,SAC)強化學(xué)習(xí)算法,并提出適用于高維行為空間和車聯(lián)網(wǎng)多智能體環(huán)境的新型頻譜資源動態(tài)分配方案。通過智能體和環(huán)境的實時交互,不斷學(xué)習(xí)以最大化信道總?cè)萘亢洼d荷成功交付率為目標(biāo)的V2I 鏈路和V2V鏈路的頻譜共享策略。
車聯(lián)網(wǎng)系統(tǒng)模型如圖1 所示。車聯(lián)網(wǎng)的下行無線通信系統(tǒng)由單個基站、I條V2I 鏈路和K條V2V 鏈路組成[11]。本文將V2I 鏈路和V2V 鏈路的集合分別表示為I={1,2,…,I}和K={1,2,…,K}。為保證高質(zhì)量V2I 鏈路通信,假設(shè)每條V2I 鏈路已被預(yù)先分配不同的正交頻譜子載波以消除網(wǎng)絡(luò)中V2I 鏈路之間的干擾。定義第i條V2I 鏈路已被固定分配第i個子載波,且所有V2I 鏈路的發(fā)射功率均為Pc。由于V2V 鏈路與V2I 鏈路共享相同頻譜資源,為提高V2V 鏈路通信質(zhì)量,各V2V 鏈路需要選擇其占用的頻譜子載波和發(fā)射功率。因此,本文將為車聯(lián)網(wǎng)中V2V 鏈路聯(lián)合設(shè)計頻譜資源和功率分配方案,使得系統(tǒng)總傳輸速率最大化。
圖1 車聯(lián)網(wǎng)系統(tǒng)模型Fig.1 IoV system model
假設(shè)V2V 鏈路k的信道增益僅由大尺度衰落與小尺度衰落組成,其中δk表示與頻率無關(guān)的大尺度衰落效應(yīng),即陰影效應(yīng)和路徑損耗,hk[i]表示與頻率相關(guān)的小尺度衰落信道增益。因此,當(dāng)V2V 鏈路k占用第i個子載波時的信道功率增益可表示如下:
使用第i個子載波的V2I 下行鏈路i對應(yīng)的接收信干噪比可表示如下:
占用第i個子載波的V2V 鏈路k對應(yīng)的接收信干噪比可表示如下:
其中:Ik[i]表示V2V 鏈路k接收到來自其他V2V 鏈路k'和來自 所有V2I 鏈路的干擾功率表示第i個V2I 鏈路的車輛發(fā)射機到占用第i個子載波的第k個V2V 鏈路車輛接收機的干擾信道增益k[i];gk'表示第k'個V2V 鏈路車輛發(fā)射機到占用第i個子載波的第k個V2V 鏈路車輛接收機的干擾信道增益k[i]。
根據(jù)香農(nóng)公式,使用第i個子載波的V2I 鏈路i的傳輸速率可表示如下:
其中:W是各子載波帶寬。
占用第i個子載波的V2V 鏈路k的傳輸速率可表示如下:
理論上,所有V2I 鏈路在系統(tǒng)中可實現(xiàn)的最大總傳輸速率為。根據(jù)文獻(xiàn)[8],為了檢驗V2V 鏈路與V2I 鏈路的頻譜共享過程中的信息傳輸情況,需要考慮V2V 鏈路的成功交付率,定義如下:
其中:Bk表示V2V 鏈路k需要交付的載荷數(shù)量;ΔT表示設(shè)定的交付時間。由于車輛移動以及信道條件的不斷變化,考慮在式(6)的基礎(chǔ)上增加參數(shù)t以表示不同時間下V2V 鏈路的容量變化情況。
本文研究的目標(biāo)是聯(lián)合設(shè)計V2V 鏈路頻譜和功率分配方案,以最大化V2I 鏈路的總信道容量以及V2V 鏈路的載荷成功交付率。該問題可以轉(zhuǎn)化為V2V 鏈路作為智能體如何更加合理地選擇需占用的頻譜子帶和采用的傳輸功率,從而最大限度地提升V2I 鏈路和V2V 鏈路的通信性能。
強化學(xué)習(xí)能解決動態(tài)車聯(lián)網(wǎng)環(huán)境下的序貫決策問題,可使智能體通過與復(fù)雜未知環(huán)境的不斷交互,以試錯的方式來尋求累積獎勵最大的頻譜選擇策略[15]。SAC 算法是由HAARNOJA 等[16]于2018 年基于AC 思想提出的一種強化學(xué)習(xí)算法,核心思想是在原有獎勵基礎(chǔ)上增加熵信息,以鼓勵探索進(jìn)而訓(xùn)練出一種帶熵的獎勵最大化的行為策略。由于其能最大限度地保留行為策略的隨機性,因此提高了智能體對環(huán)境的感知能力,能使智能體在信道條件不斷變化的車聯(lián)網(wǎng)環(huán)境中自適應(yīng)調(diào)整策略,更有利于做出合理的頻譜選擇。本文在文獻(xiàn)[11]的多智能體車聯(lián)網(wǎng)系統(tǒng)基礎(chǔ)上,基于SAC 思想提出一種新型車聯(lián)網(wǎng)頻譜資源動態(tài)分配方案。
為采用多智能體SAC 強化學(xué)習(xí)算法求解問題,需建立馬爾科夫決策過程模型[17],如圖2 所示,每條V2V 鏈路作為一個智能體,與環(huán)境實時進(jìn)行交互,收集環(huán)境中各個時刻的狀態(tài)信息,根據(jù)當(dāng)前環(huán)境的車輛狀況和需求做出決策,并反饋到環(huán)境中獲得行為獎勵。
圖2 多智能體車聯(lián)網(wǎng)馬爾科夫決策過程模型Fig.2 Markov decision process model in multi-agent IoV
2.1.1 狀態(tài)與觀測空間
V2V 智能體k的觀測空間包括:1)Gk[i],占用子載波i的V2V鏈路k的信道增益;2)gk'/k[i],其他V2V鏈路k'的車輛發(fā)射機到占用子載波i的V2V 鏈路k車輛接收機的干擾信道增益;3)gk/B[i],占用子載波i的V2V 鏈路k的車輛發(fā)射機到基站的干擾信道增益;4),V2I鏈路i的車輛發(fā)射機到占用子載波i的V2V 鏈路k的車輛接收機的干擾信道增益;5)Bk,V2V 鏈路k剩余的有效載荷數(shù)量;6)Tk,V2V鏈路k剩余的可傳輸載荷時間。與信道相關(guān)的觀測信息表示如下:
最終將智能體k的環(huán)境觀察函數(shù)表示如下:
2.1.2 行為空間
在多智能體車聯(lián)網(wǎng)頻譜資源分配問題中,V2V智能體主要是對子載波和發(fā)射功率進(jìn)行選擇。設(shè)置發(fā)射功 率p為23 dBm、10 dBm、5 dBm、-100 dBm[11]以供所有V2V 鏈路選擇,因此V2V 智能體k在時刻t的動作表示如下:
2.1.3 獎勵值設(shè)定
智能體學(xué)習(xí)的最終目標(biāo)是盡可能提高V2I 鏈路的總信道容量及V2V 鏈路的載荷成功交付率。V2I 鏈路總信道容量可表示為[i],針對載荷成功交付率,將每個V2V 鏈路k在每個時間步驟t的有效傳輸速率設(shè)置成k收獲的獎勵值,在所有載荷傳輸完成后該獎勵值又被設(shè)置為常數(shù)ρ。
需要說明的是,式(11)獎勵函數(shù)中常數(shù)ρ的設(shè)置是為了平衡訓(xùn)練最終目標(biāo)和實際訓(xùn)練效率之間的關(guān)系。如果僅考慮最終目標(biāo),則在完成最終目標(biāo)前的所有行為獎勵應(yīng)均設(shè)為0,直到載荷全部傳輸完成,獎勵設(shè)為1。然而,在實際訓(xùn)練過程中發(fā)現(xiàn)這樣的設(shè)計會嚴(yán)重阻礙學(xué)習(xí),智能體會因為在訓(xùn)練前期持續(xù)收獲零值獎勵而無法學(xué)到任何信息。為平衡最終目標(biāo)中V2I 鏈路和V2V 鏈路的關(guān)系,將每個時刻t對應(yīng)的系統(tǒng)獎勵[11]設(shè)置如下:
其中:N表示車輛的鄰居數(shù)目;εc表示平衡目標(biāo)V2I鏈路傳輸速率和目標(biāo)V2V 鏈路傳輸速率的權(quán)重。
采用強化學(xué)習(xí)的SAC 算法解決頻譜資源分配問題,其基本原理為:首先建立近似行為策略產(chǎn)生的Policy 網(wǎng)絡(luò)和策略價值判斷的Soft Q 網(wǎng)絡(luò);然后將車聯(lián)網(wǎng)中每一條V2V 鏈路在每個時刻產(chǎn)生的狀態(tài)、行為、獎勵存儲在記憶庫中;最后通過優(yōu)化網(wǎng)絡(luò)損失函數(shù)反向訓(xùn)練神經(jīng)網(wǎng)絡(luò)以獲得性能最佳的資源分配策略[16,18]。
一般而言,強化學(xué)習(xí)算法的優(yōu)化目標(biāo)是尋找一個最優(yōu)策略π使得訓(xùn)練集返回的累加獎勵值達(dá)到最大。SAC 算法的優(yōu)化目標(biāo)除了需要使得訓(xùn)練集返回的累加獎勵值達(dá)到最大以外,還要滿足熵最大化,如式(13)所示:
其中:H為熵,表示當(dāng)前策略的隨機化程度;α為熵系數(shù);st表示當(dāng)前環(huán)境的狀態(tài)信息;at表示對應(yīng)當(dāng)前狀態(tài)做出的行為選擇。
由Bellman 一般遞推方程可以得到強化學(xué)習(xí)中判斷行為策略價值大小的函數(shù)表達(dá)式:
其中:st+1表示環(huán)境的下一個狀態(tài)信息;at+1表示對應(yīng)下一個狀態(tài)的行為選擇。為實現(xiàn)最大熵的目標(biāo),在實際算法中需要將熵作為獎勵的一部分,即在計算每一個狀態(tài)的Q 值的同時計算狀態(tài)對應(yīng)的熵。式(15)表示取自記憶庫的下一個狀態(tài)和取自當(dāng)前策略的下一個動作的期望值,使用基于采樣的計算形式表示:
2.2.1 Policy 網(wǎng)絡(luò)
構(gòu)造一個Policy 神經(jīng)網(wǎng)絡(luò)作為該算法中的Actor網(wǎng)絡(luò)來生成行為策略。該網(wǎng)絡(luò)的輸入為環(huán)境中觀測到的所有狀態(tài)信息,輸出包括大小為Z=P×I(P表示V2V 智能體可選擇的功率等級數(shù)量)的每一個訓(xùn)練集行為選擇空間中每一種行為出現(xiàn)的概率,以及根據(jù)概率最終選擇的行為,即:
Policy 網(wǎng)絡(luò)的損失函數(shù)[19]表示如下:
為能更好地避免Q 值估計過高的問題,選取當(dāng)前價值網(wǎng)絡(luò)處在同一狀態(tài)下的兩次輸出值,即Q1(st)和Q2(st)。
2.2.2 Soft Q 網(wǎng)絡(luò)
為評判行為策略的優(yōu)劣,構(gòu)造兩個Soft Q 神經(jīng)網(wǎng)絡(luò)作為該算法中的當(dāng)前價值網(wǎng)絡(luò)和目標(biāo)價值網(wǎng)絡(luò)。網(wǎng)絡(luò)均輸入環(huán)境中觀測到的所有狀態(tài)信息,輸出行為空間中每一種行為對應(yīng)的價值[20]:
軟狀態(tài)值函數(shù)[19]定義如下:
其中:π(st)表示行為策略π下行為空間中每一種行為出現(xiàn)的概率;α表示溫度熵系數(shù)。Soft Q 當(dāng)前網(wǎng)絡(luò)的損失函數(shù)[20]表示如下:
為計算出更準(zhǔn)確的行為價值,采用一種基于溫度熵系數(shù)α的動態(tài)調(diào)整策略[20],即無須將α設(shè)置為一個定值,而是可以根據(jù)網(wǎng)絡(luò)學(xué)習(xí)情況對其進(jìn)行動態(tài)調(diào)節(jié)。描述溫度熵系數(shù)學(xué)習(xí)情況的損失函數(shù)表示如下:
其中:Z為行為空間大小;χ為目標(biāo)熵系數(shù)。
2.2.3 緩沖記憶庫
SAC 算法與強化學(xué)習(xí)Q-learning 算法類似,也采用經(jīng)驗回放思想。在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中,使用全部樣本數(shù)據(jù)參與訓(xùn)練會導(dǎo)致訓(xùn)練速度過慢、收斂性差,使用過少的樣本數(shù)據(jù)又無法達(dá)到較好的訓(xùn)練效果,而通過建立固定大小的緩沖記憶庫則可以很好地解決以上問題。根據(jù)行為策略和從環(huán)境中得到的反饋,每訓(xùn)練一次就將智能體的一組樣本數(shù)據(jù)存儲在記憶庫中,當(dāng)存滿時即釋放內(nèi)存為新的樣本數(shù)據(jù)預(yù)留空間。通過設(shè)置記憶庫的容量M來控制參與訓(xùn)練的數(shù)據(jù)量級,盡可能地保留大部分樣本數(shù)據(jù)以達(dá)到良好的訓(xùn)練效果。在實際訓(xùn)練過程中,為加快訓(xùn)練速度,通過分批從記憶庫中隨機抽取數(shù)據(jù)用于網(wǎng)絡(luò)的反向訓(xùn)練。
2.2.4 網(wǎng)絡(luò)學(xué)習(xí)
網(wǎng)絡(luò)學(xué)習(xí)實質(zhì)是不斷更新網(wǎng)絡(luò)參數(shù)以最小化網(wǎng)絡(luò)損失函數(shù)的過程。在本文算法中,網(wǎng)絡(luò)更新采用梯度更新和軟更新兩種方法。具體地,Soft Q 網(wǎng)絡(luò)和Policy 網(wǎng)絡(luò)的參數(shù)以及溫度熵系數(shù)的更新使用梯度更新方法,更新公式如下:
其 中:λ表示梯 度更新程度;θQ、?π分別表 示當(dāng)前Soft Q 網(wǎng)絡(luò)和Policy 網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)。
Soft Q 目標(biāo)網(wǎng)絡(luò)并不主動參與學(xué)習(xí)過程,無法獨立進(jìn)行更新,因此使用軟更新方法。每隔一段時間復(fù)制Soft Q 當(dāng)前網(wǎng)絡(luò)最新的網(wǎng)絡(luò)參數(shù)進(jìn)行小范圍的更新,更新公式如下:
其中:τ表示軟更新程度表示目標(biāo)價值網(wǎng)絡(luò)的Q 值。
基于SAC 強化學(xué)習(xí)的車聯(lián)網(wǎng)頻譜資源分配算法主要包括:1)初始化網(wǎng)絡(luò)參數(shù),更新網(wǎng)絡(luò)環(huán)境;2)收集智能體在車聯(lián)網(wǎng)環(huán)境中的行為數(shù)據(jù),并儲存在記憶庫中;3)分批調(diào)用記憶庫數(shù)據(jù)反向訓(xùn)練神經(jīng)網(wǎng)絡(luò),以獲得最有益的功率選擇和資源分配聯(lián)合策略。
算法1基于SAC 強化學(xué)習(xí)的車聯(lián)網(wǎng)頻譜資源分配算法
1.隨機初始化Soft Q 網(wǎng)絡(luò)和Policy 網(wǎng)絡(luò)參數(shù)θQ、?π;
2.初始化緩沖記憶庫大小M,初始化更新門檻步數(shù)US,初始化神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)參數(shù)γ、χ、λ和τ;
3.從第i 個智能體開始初始化(i∈I);
4.從第j 個訓(xùn)練集開始初始化(j=1,2,…,600);
5.初始化累加獎勵和為0,初始化車輛鏈路需傳輸?shù)妮d荷數(shù)量、載荷傳輸時間限制和車輛鏈路數(shù)目;
6.每100 個訓(xùn)練集更新一次所有車輛位置速度信息和信道狀態(tài);
7.從第n 步開始更新(n=1,2,…,20);
8.計算當(dāng)前訓(xùn)練總步數(shù)X=j× 20+n;
9.獲取此刻環(huán)境中該智能體搜集到的所有狀態(tài)信息St,輸出At=πj(St)以及At對應(yīng)的獎勵R;
10.根據(jù)At給予的獎勵,進(jìn)入下一個狀態(tài)St+1;
11.在記憶庫存儲一組(St,At,R,St+1)數(shù)據(jù);
12.當(dāng)X >US 時開始網(wǎng)絡(luò)的學(xué)習(xí)及更新;
13.從緩沖區(qū)中采樣出一批樣本數(shù)據(jù),分別根據(jù)式(17)、式(21)、式(22)計算網(wǎng)絡(luò)損失函數(shù)Jπ(?)、JQ(θ)和溫度熵系數(shù)損失函數(shù)J(α);
14.根據(jù)式(24)更新網(wǎng)絡(luò)參數(shù);
15.根據(jù)式(25)更新Soft Q 目標(biāo)網(wǎng)絡(luò)的參數(shù);
16.結(jié)束當(dāng)前步驟,進(jìn)入下一個步驟;
17.結(jié)束當(dāng)前訓(xùn)練集,進(jìn)入下一個回合;
18.結(jié)束算法
仿真場景為位于十字路口道路的雙向和單向車道區(qū)域,其寬為375 m、長為649 m。在場景中心位置設(shè)有一個基站,車輛起始位置和行駛方向在區(qū)域范圍內(nèi)隨機初始化。仿真參數(shù)設(shè)置如表1 所示,V2V 和V2I鏈路信道模型和其他仿真參數(shù)設(shè)置參考文獻(xiàn)[11,21]。
表1 仿真參數(shù)設(shè)置Table 1 Setting of simulation parameters
為體現(xiàn)本文頻譜分配算法相較文獻(xiàn)[11]中DQN算法的優(yōu)勢,對比SAC 與其他AC 算法在車聯(lián)網(wǎng)頻譜資源分配中的性能差異及隨機性策略和確定性策略在本文系統(tǒng)模型中的適用性。對比方案具體如下:
1)基于DQN 算法的頻譜資源分配方案,簡記為DQN 方案。
2)基于深度確定性策略梯度的頻譜資源分配方案,簡記為DDPG 方案。
3)頻譜子帶和傳輸功率均隨機選擇的資源分配方案,隨機基線方案。
在DDPG 方案中,將Actor 網(wǎng)絡(luò)和Critic 網(wǎng)絡(luò)的梯度更新率分別設(shè)置為0.001 和0.002。在本文SAC 方案中,將Soft Q 當(dāng)前網(wǎng)絡(luò)、Policy 網(wǎng)絡(luò)以及溫度熵系數(shù)的梯度更新率λ均設(shè)置為0.001,Soft Q 目標(biāo)網(wǎng)絡(luò)軟更新率τ設(shè)置為0.01,目標(biāo)熵系數(shù)χ設(shè)置為0.95。此外,上述兩種方案均采用5 層全連接神經(jīng)網(wǎng)絡(luò),其中3 個隱藏層的神經(jīng)元數(shù)目分別設(shè)置為500、250 和125。
仿真比較車輛鏈路數(shù)目為4 時4 種方案的V2I鏈路信道總?cè)萘?,如圖3 所示。由圖3 可以看出:相較隨機基線方案,在載荷數(shù)量較少時DQN 方案的V2I 鏈路性能表現(xiàn)更為優(yōu)秀,但隨著載荷數(shù)量增加性能下降更為明顯;SAC 方案起初V2I 性能指標(biāo)劣于DQN 方案,但當(dāng)所需傳輸載荷數(shù)量增加到14 840 Byte時,SAC 方案性能開始反超DQN 方案,并且隨著載荷數(shù)量的增加性能變化更加穩(wěn)定;DDPG 方案則一直性能不佳,與隨機基線方案幾乎一致。這是因為:DDPG 方案中確定性行為策略的采用大大限制了行為的隨機性,從而不適用于車聯(lián)網(wǎng)不斷變化的復(fù)雜環(huán)境;SAC 方案采用了隨機行為策略,能更好地適應(yīng)變化的環(huán)境;DQN 方案因為同時結(jié)合了深度學(xué)習(xí)和強化學(xué)習(xí)Q-learning 兩種思想,能在最短的時間內(nèi)為智能體選出最優(yōu)的行為。值得注意的是,4 種方案的V2I 鏈路總?cè)萘烤S著載荷數(shù)量的增加而減小,這是因為要保證一定的載荷成功交付率,鏈路所需傳遞的載荷越多所需時間越長、傳輸功率也越大,對V2I鏈路造成的干擾程度就越大,從而導(dǎo)致鏈路性能指標(biāo)的下降。
圖3 車輛鏈路數(shù)目為4時V2I鏈路信道總?cè)萘侩S載荷數(shù)量的變化Fig.3 The total capacity of the V2I link channel varies with the number of loads when the number of vehicle links is four
仿真比較車輛鏈路數(shù)目為4 時4 種方案的V2V鏈路載荷成功交付率,如圖4 所示。由圖4 可以看出,4 種方案的V2V 鏈路載荷成功交付率也隨著載荷數(shù)量的增加而降低。但此時DQN 方案在V2V 鏈路性能上優(yōu)勢已不再突出,而是與SAC 方案性能相近,且同樣當(dāng)所需傳輸載荷數(shù)量增加到14 840 Byte時,SAC 方案V2V 鏈路性能開始優(yōu)于DQN 方案,而DDPG 方案性能依然不佳。為了更好地凸顯方案的性能優(yōu)勢,下文只考慮DQN 方案、SAC 方案與隨機基線方案的性能比較。
圖4 車輛鏈路數(shù)目為4 時V2V 鏈路載荷成功交付率隨載荷數(shù)量的變化Fig.4 The load successful delivery rate of the V2V link varies with the number of loads when the number of vehicle links is four
當(dāng)車輛鏈路數(shù)目為4 時,SAC 方案和DQN 方案的V2V 鏈路剩余載荷數(shù)量在單位時間內(nèi)的變化情況如圖5 所示。由圖5 可以看出:一方面,兩種方案均在很短的時間內(nèi)完成了鏈路的載荷傳輸任務(wù);另一方面,盡管DQN 方案的V2I 鏈路和V2V 鏈路性能指標(biāo)略高于SAC 方案,但其穩(wěn)定性比SAC 方案差。
圖5 車輛鏈路數(shù)目為4 時DQN 和SAC 的V2V 鏈路剩余載荷數(shù)量隨時間的變化Fig.5 The remaining V2V link load of DQN and SAC varies with the time when the number of vehicle links is four
仿真比較車輛鏈路數(shù)目為8 時3 種方案的V2I鏈路信道總?cè)萘?,如圖6 所示。由圖6 可以看出,當(dāng)增加車輛鏈路數(shù)目后,DQN 方案的V2I 鏈路性能大幅下降,甚至劣于隨機基線方案,而SAC 方案仍具有良好的性能表現(xiàn)。
圖6 車輛鏈路數(shù)目為8 時V2I 鏈路信道總?cè)萘侩S載荷數(shù)量的變化Fig.6 The total capacity of the V2I link channel varies with the number of loads when the number of vehicle links is eight
仿真比較車輛鏈路數(shù)目為8 時3 種方案的V2V 鏈路載荷成功交付率,如圖7所示。由圖7可以看出,DQN方案的V2V 鏈路性能仍然不佳,而SAC 方案卻隨著車輛鏈路數(shù)目的增多更具優(yōu)勢,載荷成功交付率隨著載荷數(shù)量的增加而下降緩慢,變化趨于穩(wěn)定。這是因為SAC 方案采用最大熵思想,使得智能體在完成當(dāng)前任務(wù)的基礎(chǔ)上盡可能地使行為隨機化以獲得近似最優(yōu)的選擇,提升了智能體在環(huán)境中的探索能力,也增強了SAC 方案在動態(tài)環(huán)境中的穩(wěn)定性。
圖7 車輛鏈路數(shù)目為8 時V2V 鏈路載荷成功交付率隨載荷數(shù)量的變化Fig.7 The load successful delivery rate of the V2V link varies with the number of loads when the number of vehicle links is eight
當(dāng)車輛鏈路數(shù)目為8 時,SAC 方案和DQN 方案的V2V 鏈路剩余載荷數(shù)量在單位時間內(nèi)的變化情況如圖8 所示。通過隨機抽取其中4 條鏈路進(jìn)行觀察,可以發(fā)現(xiàn)SAC 方案仍能迅速地完成鏈路的載荷傳輸任務(wù),而DQN 方案中2 條車輛鏈路在限定時間內(nèi)并未完成全部載荷的傳輸??梢姡?dāng)車輛鏈路數(shù)目為8時,DQN 方案性能表現(xiàn)較差,而SAC 方案依然具有較好的穩(wěn)定性。
圖8 車輛鏈路數(shù)目為8 時DQN 和SAC 的V2V 鏈路剩余載荷數(shù)量隨時間的變化Fig.8 The remaining V2V link load of DQN and SAC varies with the time when the number of vehicle links is eight
當(dāng)車輛鏈路數(shù)目為12 時3 種方案的V2I 鏈路信道總?cè)萘颗cV2V鏈路載荷成功交付率如圖9和圖10所示。由圖10 可以看出,DQN 方案的V2V 鏈路性能遠(yuǎn)劣于隨機基線方案,而SAC 方案隨著載荷數(shù)量增加,相較隨機基線方案的鏈路性能優(yōu)勢不斷擴大。以上仿真結(jié)果表明,隨著車輛鏈路數(shù)目的增多,DQN 方案已無法最大化V2I 鏈路和V2V 鏈路的性能指標(biāo),而SAC 方案仍然保持優(yōu)勢且性能穩(wěn)定。
圖9 車輛鏈路數(shù)目為12時V2I鏈路信道總?cè)萘侩S載荷數(shù)量的變化Fig.9 The total capacity of the V2I link channel varies with the number of loads when the number of vehicle links is twelve
圖10 車輛鏈路數(shù)目為12 時V2V 鏈路載荷成功交付率隨載荷數(shù)量的變化Fig.10 The load successful delivery rate of the V2V link varies with the number of loads when the number of vehicle links is twelve
仿真比較車輛鏈路數(shù)目為4 時DQN 和SAC 方案的收斂性能,如圖11 所示。由圖11 可以看出,隨著訓(xùn)練次數(shù)的增加,兩種方案訓(xùn)練返回的累積獎勵和逐漸增加最終趨于收斂,驗證了兩種方案的有效性。
圖11 車輛鏈路數(shù)目為4 時DQN 和SAC 的收斂性能Fig.11 The convergence performance of DQN and SAC when the number of vehicle links is four
仿真比較車輛鏈路數(shù)目為8 時DQN 和SAC 方案的收斂性能,如圖12 所示。SAC 方案訓(xùn)練返回的獎勵和仍趨于收斂,而DQN方案返回的獎勵和卻無法收斂。這再次驗證了圖6~圖8 的仿真結(jié)果,隨著車輛鏈路數(shù)目的增加,DQN 方案性能急劇下降,而SAC 方案仍保持一定的優(yōu)勢。由此可以得出:針對車聯(lián)網(wǎng)頻譜資源分配問題,隨著環(huán)境的不斷變化和行為空間的擴大,本文SAC 方案均具有良好的性能表現(xiàn),DQN 方案本身穩(wěn)定性較差且不適用于解決高維行為空間問題,隨著車輛鏈路數(shù)目和鏈路載荷數(shù)量增加性能持續(xù)下降,甚至低于隨機基線方案,因此SAC 方案更適用于解決車聯(lián)網(wǎng)中多智能體的頻譜資源分配問題。
圖12 車輛鏈路數(shù)目為8 時DQN 和SAC 的收斂性能Fig.12 The convergence performance of DQN and SAC when the number of vehicle links is eight
仿真比較不同鏈路數(shù)目下SAC 方案的V2I 鏈路信道總?cè)萘颗cV2V 鏈路載荷成功交付率相比隨機基線方案的性能提升率,如圖13 和圖14 所示。由圖13和圖14 可以看出,當(dāng)車輛鏈路數(shù)目持續(xù)增加至24時,SAC 方案的V2I 鏈路和V2V 鏈路性能提升率雖有所下降,但仍大于0,證明了其在高維行為空間也具有良好的性能表現(xiàn)。
圖13 起始載荷數(shù)量為6 360 Byte 時SAC 方案相比隨機基線方案的性能提升率Fig.13 The performance improvement rate of SAC scheme compared to the random baseline scheme when the number of initial load is 6 360 Byte
圖14 起始載荷數(shù)量為12 720 Byte 時SAC 方案相比隨機基線方案的性能提升率Fig.14 The performance improvement rate of SAC scheme compared to the random baseline scheme when the number of initial load is 12 720 Byte
仿真比較單位時間內(nèi)SAC 方案和隨機基線方案中不同V2V 鏈路載荷傳輸速率隨時間的變化情況,如圖15 所示。由圖15 可以看出,隨機基線方案中4 條V2V 鏈路全部完成載荷交付任務(wù)的總用時為17 ms,SAC 方案中4 條V2V 鏈路全部完成載荷交付僅需5 ms。因此,SAC 方案所訓(xùn)練的智能體能更加高效地完成自身的載荷交付任務(wù)。除此之外,隨機基線方案中的4 條鏈路在載荷傳遞過程中并未體現(xiàn)出明顯特征,當(dāng)鏈路3 已經(jīng)完成載荷傳輸時,過了3 ms 鏈路1 才開始進(jìn)行傳輸工作,可見隨機基線方案中智能體之間無法及時感知到彼此的狀態(tài)并進(jìn)行及時信息交互,而SAC 方案中4 條V2V 鏈路采用合作的方式且盡可能依次有序地完成自身的載荷傳遞任務(wù),避免同時開始工作而造成互相干擾。該結(jié)果充分體現(xiàn)了本文SAC 方案中的智能體有較好的學(xué)習(xí)能力和對周圍環(huán)境的感知力。
圖15 起始載荷數(shù)量為2 120 Byte 時V2V 鏈路載荷傳輸速率隨時間的變化Fig.15 The V2V load transmission rate varies with the time when the number of initial load is 2 120 Byte
綜上所述,可以得出以下結(jié)論:1)基于DDPG 算法的頻譜資源分配方案幾乎未體現(xiàn)出任何性能優(yōu)勢;2)基于DQN 算法的頻譜資源分配方案在車輛鏈路數(shù)目較少時,性能更加穩(wěn)定,但當(dāng)載荷數(shù)量增大時,算法性能下降明顯,而當(dāng)車輛鏈路數(shù)目增多時,算法不再適用于頻譜分配任務(wù);3)基于SAC 強化學(xué)習(xí)算法的多智能體車聯(lián)網(wǎng)頻譜資源分配方案雖然在車輛鏈路數(shù)目為4 時性能稍劣于DQN 方案,但隨著車輛鏈路數(shù)目的增多和鏈路需要傳輸載荷數(shù)量的增多,因為采用隨機行為策略和最大熵大幅提高了智能體在環(huán)境中的探索能力,能更好地應(yīng)對環(huán)境的變化,所以具有更好的收斂性、魯棒性、平衡多個鏈路目標(biāo)等性能優(yōu)勢,能夠有效幫助多個智能體在復(fù)雜的車聯(lián)網(wǎng)環(huán)境中完成信息交互并且同時保證最大化V2I 鏈路和V2V 鏈路的傳輸性能。此外,在仿真過程中還發(fā)現(xiàn),SAC 算法訓(xùn)練學(xué)習(xí)模型的耗時約為DQN 算法訓(xùn)練學(xué)習(xí)模型耗時的1/8,大幅節(jié)省了訓(xùn)練開銷,提高了學(xué)習(xí)效率。
針對V2V 鏈路和V2I 鏈路在車聯(lián)網(wǎng)環(huán)境中無線通信網(wǎng)絡(luò)頻譜資源緊缺的問題,本文基于SAC 強化學(xué)習(xí)算法提出一種多智能體聯(lián)合頻譜資源和功率分配方案。采用隨機行為策略,以熵最大化和獎勵最大化為目標(biāo),實現(xiàn)多個V2V 智能體之間的相互合作,并通過實時探知環(huán)境狀態(tài),選擇V2I 鏈路未使用的空閑頻譜以完成V2V 鏈路自身載荷傳輸任務(wù)。仿真結(jié)果表明,該方案能使智能體在與環(huán)境不斷交互的過程中學(xué)習(xí)合作式頻譜資源分配策略,有效解決了不斷變化的車聯(lián)網(wǎng)環(huán)境中的資源分配問題,同時最大化了V2I 鏈路信道總?cè)萘恳约癡2V 鏈路載荷成功交付率。后續(xù)將繼續(xù)優(yōu)化基于SAC 強化學(xué)習(xí)算法的多智能體頻譜資源和功率分配方案,以解決車聯(lián)網(wǎng)中聯(lián)合V2V 鏈路和V2I 鏈路的資源分配問題。