金久一,邱恭安
(南通大學(xué)信息科學(xué)技術(shù)學(xué)院,江蘇南通 226019)
第3 代合作伙伴計(jì)劃(Third Generation Partnership Project,3GPP)在Release14 中發(fā)布了C-V2X(Cellular-Vehicle to Everything)通信模式,其支持高可靠性、低時(shí)延及高移動(dòng)性的車間通信場(chǎng)景[1]。在車聯(lián)網(wǎng)中,車輛使用C-V2X 通信模式周期性地向周圍鄰居車輛廣播協(xié)作感知消息(Cooperative Awareness Message,CAM),通告位置、方向、移動(dòng)速度等車輛運(yùn)動(dòng)狀態(tài)消息,以保證道路交通安全[2]。C-V2X 支持Mode 3 和Mode 4 兩種不同的資源分配方式[3]。在Mode 3 中,車輛處于網(wǎng)絡(luò)覆蓋范圍之內(nèi),通過(guò)基站集中調(diào)度的方式分配資源。然而在Mode 4 中,網(wǎng)絡(luò)覆蓋范圍之外的車輛自主選擇資源傳輸CAM,擁有更好的拓展性。Mode 4 采用基于感知的半持續(xù)調(diào)度(Sensing Based Semi-Persistent Scheduling,SB-SPS)算法來(lái)進(jìn)行資源分配,車輛通過(guò)感知持續(xù)監(jiān)測(cè)資源池中可用子信道的干擾等級(jí),為CAM選擇干擾最小的子信道進(jìn)行傳輸,并對(duì)選擇的子信道保留隨機(jī)數(shù)目的傳輸次數(shù),提高了交通安全業(yè)務(wù)數(shù)據(jù)傳輸?shù)目煽啃裕?]。
目前已有相關(guān)文獻(xiàn)對(duì)C-V2X 中的2 種資源分配方式進(jìn)行了研究。對(duì)于Mode 3,文獻(xiàn)[5]提出一種基于地理位置的資源分配方案,該方案綜合考慮車輛的速度、方向和位置,為不同的安全消息分配不同的資源,提高了系統(tǒng)的可靠性。對(duì)于Mode 4,文獻(xiàn)[6-7]對(duì)SB-SPS 算法進(jìn)行分析,研究不同傳輸參數(shù)對(duì)系統(tǒng)性能的影響。文獻(xiàn)[8]針對(duì)SB-SPS 算法的參數(shù)進(jìn)行優(yōu)化。文獻(xiàn)[9]在SB-SPS 算法的基礎(chǔ)上提出一種資源交替選擇算法,車輛交替選擇不同的2 個(gè)資源直至重選計(jì)數(shù)器減至零,減少數(shù)據(jù)包由于連續(xù)碰撞導(dǎo)致的系統(tǒng)性能下降。文獻(xiàn)[10]研究了SB-SPS 算法中碰撞概率和平均時(shí)延的權(quán)衡關(guān)系。文獻(xiàn)[11]利用指數(shù)加權(quán)移動(dòng)平均的方法對(duì)重選的資源進(jìn)行優(yōu)先級(jí)排序,能夠提升資源傳輸?shù)目煽啃?。文獻(xiàn)[12]對(duì)SBSPS 算法進(jìn)行了優(yōu)化,根據(jù)行車方向?qū)①Y源池劃分為2 個(gè)子資源池,并讓資源塊攜帶位置相關(guān)信息,減少了車輛之間的干擾,降低了資源碰撞概率。但是上述文獻(xiàn)中的SB-SPS 算法始終以最大功率傳輸CAM,在高密度交通流狀態(tài)下,傳輸功率越大,通信范圍就越大,競(jìng)爭(zhēng)相同子信道的車輛就越多,從而引發(fā)資源碰撞。因此,SB-SPS 算法有必要聯(lián)合功率控制技術(shù)來(lái)解決這一問(wèn)題。近年來(lái)功率控制技術(shù)廣泛應(yīng)用于無(wú)線通信的相關(guān)問(wèn)題。文獻(xiàn)[13]研究D2D 信道選擇和功率控制策略,為系統(tǒng)內(nèi)的D2D 用戶選擇合適的信道復(fù)用資源并分配最優(yōu)的傳輸功率,提升了系統(tǒng)的平均吞吐量。文獻(xiàn)[14]為協(xié)調(diào)D2D 通信的相互干擾,提出一種基于博弈論的功率控制機(jī)制,使得所有的D2D 鏈路功率配置合理,提高整體的通信質(zhì)量。文獻(xiàn)[15]針對(duì)超密集網(wǎng)中嚴(yán)重的區(qū)間干擾,提出一種基于小區(qū)分簇的功率控制優(yōu)化方案,降低了網(wǎng)絡(luò)中的干擾,提高了系統(tǒng)的吞吐量。
深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)由于具備自主決策且學(xué)習(xí)速度快等優(yōu)點(diǎn),可用于解決車聯(lián)網(wǎng)中狀態(tài)空間和動(dòng)作空間較大的相關(guān)問(wèn)題。文獻(xiàn)[16]針對(duì)車間通信提出一種基于DRL 的分布式資源分配算法,支持單播和廣播場(chǎng)景。每個(gè)車輛被當(dāng)作一個(gè)智能體,根據(jù)信道的局部信息自主決策。文獻(xiàn)[17]針對(duì)C-V2X 中傳輸模式選擇和資源分配的聯(lián)合優(yōu)化問(wèn)題,提出一種基于DRL 的資源分配算法,保證V2V 鏈路時(shí)延和可靠性的同時(shí)最大化V2I 鏈路的總吞吐量。但是,目前DRL 還沒(méi)有用于解決C-V2X Mode 4 中的資源分配和功率控制的相關(guān)問(wèn)題。
考慮到C-V2X Mode 4 是資源自主選擇模式,在高密度交通流狀態(tài)下車輛無(wú)法獲得基站反饋的傳輸功率控制指令。為此,本文提出一種基于DRL 的聯(lián)合資源分配與功率控制算法。車輛從環(huán)境中自動(dòng)提取特征,構(gòu)造一個(gè)神經(jīng)網(wǎng)絡(luò)作為函數(shù)逼近器去擬合信道狀態(tài),根據(jù)信道狀態(tài)自適應(yīng)調(diào)整傳輸功率,通過(guò)與環(huán)境的交互為CAM 選擇最優(yōu)的子信道和傳輸功率,以提高車間通信的可靠性。
本文考慮一個(gè)雙向六車道的公路車間通信模型,資源分配方式為Mode 4。Mode 4 采用單載波頻分多址接入,支持帶寬為10 MHz 和20 MHz 的兩類通信信道。信道在時(shí)域被劃分為子幀,在頻域被劃分為子信道。子信道由相同子幀中多個(gè)資源塊(Resource Block,RB)組成,所需要 的RB 數(shù)目與CAM 大小和調(diào)制及編碼方案(Modulation and Coding Scheme,MCS)有關(guān)[18]。車輛在通信范圍內(nèi)從預(yù)分配好的資源池中自主選擇干擾最小的子信道傳輸CAM,車輛的工作模式為半雙工。具體的系統(tǒng)模型如圖1 所示。
圖1 系統(tǒng)模型Fig.1 System model
假設(shè)M={1,2,…,M}表示車輛的集合,N={1,2,…,N}表示資源池中由RB 組成的子信道的集合,其中M和N都是正整數(shù)。在高密度交通流狀態(tài)下,通信范圍內(nèi)的車輛數(shù)目急劇增加,由于資源池中的子信道數(shù)目是固定的,會(huì)導(dǎo)致2 個(gè)或2 個(gè)以上車輛同時(shí)選中相同子信道傳輸CAM,從而引發(fā)資源碰撞。當(dāng)車輛i選擇子信道n向車輛j傳輸CAM 時(shí),接收端車輛j的信干噪比(Signal to Interference plus Noise Ratio,SINR)如下:
其 中:Pi是車輛i的傳輸功率;Gij是車輛i和車輛j之間的信道增益;σ2是噪聲功率;Kn是與車輛i選擇相同子信道傳輸CAM 的干擾車輛集合;Pk是干擾車輛k的傳輸功率;Gik是車輛i和干擾車輛k之間的干擾鏈路的信道增益。則車輛i傳輸CAM 的數(shù)據(jù)速率由香農(nóng)公式表示如下:
其中:W是10 MHz 或20 MHz 的通信信道帶寬。
為避免車輛在高密度交通流狀態(tài)下使用最大功率傳輸CAM 引起資源碰撞,需要在資源分配過(guò)程中聯(lián)合功率控制技術(shù)來(lái)保證CAM 傳輸?shù)母咝阅芤?。本文?yōu)化目標(biāo)為最大化系統(tǒng)吞吐量,綜合考慮傳輸功率和接收端車輛SINR 的約束條件,優(yōu)化目標(biāo)如下:
其中:R表示系統(tǒng)的總吞吐量;Pmax表示車載通信終端的最大傳輸功率;SINRmin表示接收端車輛能夠成功接收CAM 的最小SINR。
本文要解決的資源分配和功率控制聯(lián)合優(yōu)化問(wèn)題包括子信道選擇和功率控制。但是,C-V2X 通信中網(wǎng)絡(luò)狀態(tài)較多且變化較快,并且隨著車流密度的增加,該問(wèn)題的計(jì)算復(fù)雜度也會(huì)迅速增加。而DRL與環(huán)境交互時(shí)不需要任何先驗(yàn)信息,通過(guò)不斷地學(xué)習(xí)獲得最優(yōu)策略,這對(duì)于動(dòng)態(tài)時(shí)變的車聯(lián)網(wǎng)環(huán)境來(lái)說(shuō)尤為重要。因此,提出一種基于DRL 的聯(lián)合資源分配與功率控制算法來(lái)優(yōu)化車間通信性能。本節(jié)首先介紹DRL 的基本要素,并分別定義聯(lián)合資源分配和功率控制的狀態(tài)空間、動(dòng)作空間和獎(jiǎng)賞函數(shù),然后利用DQN 算法具體求解資源分配和功率控制聯(lián)合優(yōu)化問(wèn)題。
DRL 結(jié)合了強(qiáng)化學(xué)習(xí)的決策能力和深度學(xué)習(xí)的感知能力,包括智能體、環(huán)境、狀態(tài)、動(dòng)作和獎(jiǎng)賞5 個(gè)基本要素。智能體不斷地與環(huán)境進(jìn)行交互,根據(jù)當(dāng)前狀態(tài)下采取動(dòng)作受到的獎(jiǎng)賞改變自己的下一動(dòng)作,以最大化累計(jì)折扣獎(jiǎng)賞的方式獲得最優(yōu)策略。對(duì)于本文要解決的資源分配和功率控制聯(lián)合優(yōu)化問(wèn)題,將傳輸CAM 的車輛作為智能體,將Mode 4 的資源分配過(guò)程作為環(huán)境。下文分別定義狀態(tài)空間、動(dòng)作空間和獎(jiǎng)賞函數(shù):
1)狀態(tài)空間。車輛需要知道資源池中子信道的干擾等級(jí)和傳輸CAM 時(shí)的信道狀態(tài),t時(shí)刻的狀態(tài)由子信道的干擾等級(jí)It、車輛之間的信道增益Gt、信道負(fù)載Lt和車流密度Dt組成,表示為st={It,Gt,Lt,Dt}。其中,It=分別表示資源池中每個(gè)子信道的干擾等級(jí)。
2)動(dòng)作空間。車輛需要知道CAM 選擇的子信道和自適應(yīng)的傳輸功率,于是t時(shí)刻的動(dòng)作由CAM傳輸選擇的子信道Ct和自適應(yīng)的傳輸功率Pt組成,表示為at={Ct,Pt}。其中,Ct=表示車輛可能選擇的子信道的集合。為降低算法的復(fù)雜度和動(dòng)作空間的大小,將傳輸功率離散化,分為L(zhǎng)個(gè)等級(jí),所以Pt=。
3)獎(jiǎng)賞函數(shù)。獎(jiǎng)賞函數(shù)表示優(yōu)化目標(biāo),本文的優(yōu)化目標(biāo)是最大化系統(tǒng)吞吐量,因此t時(shí)刻的獎(jiǎng)賞函數(shù)定義如下:
DQN 作為DRL 中的經(jīng)典算法,目標(biāo)是估計(jì)最優(yōu)策略的Q值。該算法通過(guò)構(gòu)造深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)來(lái)近似值函數(shù),把Q表的更新問(wèn)題轉(zhuǎn)化為函數(shù)擬合問(wèn)題,以此解決傳統(tǒng)Q學(xué)習(xí)算法在高維連續(xù)方面的不足[19]。DQN 分別利用式(7)和式(8)實(shí)現(xiàn)函數(shù)值的更新和逼近。
其中:st和at分別表示智能體在t時(shí)刻的狀態(tài)和動(dòng)作;Q(st,at)表示t時(shí)刻在狀態(tài)st下執(zhí)行動(dòng)作at的累計(jì)折扣獎(jiǎng)賞;st+1是下一時(shí)刻狀態(tài);at+1是下一時(shí)刻狀態(tài)的所有可能的動(dòng)作;α是學(xué)習(xí)率;γ是折扣因子;rt是執(zhí)行動(dòng)作at之后的即時(shí)獎(jiǎng)賞;θ是DNN 的參數(shù)。
下文利用DQN 算法具體求解資源分配和功率控制聯(lián)合優(yōu)化問(wèn)題,提出一種基于DQN 的聯(lián)合資源分配與功率控制算法,該算法包括構(gòu)造DNN 和使用誤差函數(shù)訓(xùn)練DNN 2 個(gè)步驟?;贒QN 的聯(lián)合資源分配與功率控制算法框架如圖2 所示。
圖2 基于DQN 的聯(lián)合資源分配與功率控制算法框架Fig.2 Framework of Joint resource allocation and power control algorithm based on DQN
算法具體步驟如下:
步驟1構(gòu)造DNN,考慮到研究的聯(lián)合優(yōu)化問(wèn)題包括子信道選擇和功率控制,因此構(gòu)造的DNN 包括輸入層、子信道選擇層、功率控制層和輸出層。在t時(shí)刻,將在環(huán)境中觀測(cè)到的狀態(tài)st作為DNN 的輸入,經(jīng)過(guò)子信道選擇層和功率控制層,在輸出層會(huì)輸出一組數(shù)據(jù),每一個(gè)數(shù)據(jù)都由CAM 傳輸選擇的子信道和自適應(yīng)的傳輸功率組成,分別對(duì)應(yīng)一種子信道選擇方案和功率控制方案,選擇最大Q值作為當(dāng)前Q值,其所對(duì)應(yīng)的子信道選擇方案Ct和功率控制方案Pt作為t時(shí)刻的動(dòng)作at。DNN 結(jié)構(gòu)如圖3 所示。
圖3 DNN 結(jié)構(gòu)Fig.3 DNN structure
步驟2利用誤差函數(shù)訓(xùn)練DNN 實(shí)現(xiàn)網(wǎng)絡(luò)參數(shù)的更新。DQN 中存在主網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)兩個(gè)結(jié)構(gòu)相同參數(shù)不同的網(wǎng)絡(luò)。Q(st,at;θ)表示主網(wǎng)絡(luò)的輸出,用來(lái)計(jì)算當(dāng)前Q值,Q(st+1,at+1;θ-)表示目標(biāo)網(wǎng)絡(luò)的輸出,用來(lái)計(jì)算目標(biāo)Q值。其中,θ和θ-分別是主網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)的參數(shù)。在執(zhí)行t時(shí)刻的動(dòng)作at之后,由式(6)得到即時(shí)獎(jiǎng)勵(lì)rt,轉(zhuǎn)移到下一個(gè)狀態(tài)。在t+1 時(shí)刻,與t時(shí)刻采取同樣的方法,將在環(huán)境中觀測(cè)到的狀態(tài)st+1重新輸入DNN,利用式(9)求出目標(biāo)Q值,然后根據(jù)式(10)構(gòu)建誤差函數(shù)。最后通過(guò)隨機(jī)梯度下降法最小化損失函數(shù)來(lái)反向更新主網(wǎng)絡(luò)的參數(shù)θ,如式(11)所示。每隔一定次數(shù)的迭代將主網(wǎng)絡(luò)的參數(shù)θ復(fù)制給目標(biāo)網(wǎng)絡(luò)的參數(shù)θ-以降低兩者之間的相關(guān)性[20]。
在選擇動(dòng)作時(shí),為避免局部最優(yōu),DQN 利用了ε-greddy 策略,即以ε的概率隨機(jī)選取行為探索環(huán)境,以1-ε的概率選擇動(dòng)作當(dāng)前Q值最大的動(dòng)作。為消除數(shù)據(jù)之間的關(guān)聯(lián)性,DQN 采用了經(jīng)驗(yàn)回放機(jī)制,即在學(xué)習(xí)過(guò)程中建立一個(gè)經(jīng)驗(yàn)池,將一段時(shí)間內(nèi)與環(huán)境交互的樣本儲(chǔ)存在經(jīng)驗(yàn)池里,產(chǎn)生訓(xùn)練數(shù)據(jù)。每次訓(xùn)練DNN 時(shí),從經(jīng)驗(yàn)池里隨機(jī)抽取小批量的樣本更新神經(jīng)網(wǎng)絡(luò)的參數(shù),不斷重復(fù)直至損失函數(shù)收斂,使車輛找到最優(yōu)的子信道選擇策略和功率控制策略。
最后分析本文算法的時(shí)間復(fù)雜度,由于本文是利用DQN 解決資源分配和功率控制聯(lián)合優(yōu)化問(wèn)題,算法的時(shí)間復(fù)雜度取決于誤差函數(shù)訓(xùn)練DNN 這一過(guò)程。根據(jù)構(gòu)造的DNN 可知,算法的時(shí)間復(fù)雜度為O(m×n1×n2),其中:m是DNN 的輸入;n1為子信道選擇層神經(jīng)元的數(shù)目;n2為功率控制層神經(jīng)元的數(shù)目。
本節(jié)對(duì)所提算法進(jìn)行仿真分析以驗(yàn)證其優(yōu)越性。為更好地分析所提算法的性能,本文將與文獻(xiàn)[9]中的資源替代選擇(RAS)算法和文獻(xiàn)[11]中的指數(shù)加權(quán)平均(WEA)算法進(jìn)行對(duì)比。仿真對(duì)比場(chǎng)景為高密度交通流的公路場(chǎng)景,在長(zhǎng)度為4 km 的雙向六車道上,車輛的平均速度為60 km/h,平均車流密度是150 vehicle/km,表示公路上每千米的車輛數(shù)目為150,車輛在公路上服從空間泊松分布。CAM 頻率為10 Hz,信道帶寬為10 MHz。MCS 為6,接收端車輛成功接收CAM 的最小SINR為4.4 dB。DQN的學(xué)習(xí)率為0.01,折扣因子為0.9,探索概率為0.1,經(jīng)驗(yàn)池大小為3 000,每次抽取的小批量樣本數(shù)目為8。具體的仿真參數(shù)見(jiàn)表1。
表1 仿真參數(shù)Table 1 Simulation parameters
由于車輛傳輸?shù)腃AM 是安全消息,因此要保證高可靠低時(shí)延的車間通信,使用分組接收率(Packet Reception Ratio,PRR)和更新時(shí)延(Update Delay,UD)作為性能指標(biāo)。PRR 定義為通信范圍內(nèi)車輛成功接收的CAM 數(shù)目與發(fā)送的全部CAM 數(shù)目的比值。UD 定義為通信范圍內(nèi)車輛成功接收2 個(gè)CAM的時(shí)間間隔,表示接收端車輛CAM 的更新時(shí)間。
圖4 對(duì)比了車間距離分別為100 m、200 m 和300 m 時(shí),本文算法PRR 與車流密度的關(guān)系。從圖4可以看出,當(dāng)車間距離一定時(shí),隨著車流密度的增大,車間干擾更加嚴(yán)重,PRR 逐漸減小。當(dāng)車流密度一定時(shí),隨著車間距離的增大,PRR 呈下降趨勢(shì),且車間距離越大,PRR 的下降趨勢(shì)也越快。
圖4 不同車間距離下PRR 與車流密度的關(guān)系Fig.4 Relationship of PRR and traffic density at different vehicle-to-vehicle distances
圖5 對(duì)比了在高密度交通流狀態(tài)下CAM 大小分別為190 Byte 和300 Byte 時(shí),3 種算法的PRR 與車間距離的關(guān)系,此時(shí)的車流密度為150 vehicle/km。從圖5可以看出,當(dāng)CAM的大小從190 Byte增加至300 Byte時(shí),PRR 逐漸減小,這是因?yàn)楦蟮腃AM 傳輸時(shí)子信道需要占用更多的RB,導(dǎo)致資源池中的子信道數(shù)目減少,降低了系統(tǒng)性能。還可以看出,車間距離越大PRR 越小,這是因?yàn)殡S著車間距離的增加,干擾車輛的數(shù)目也相應(yīng)增加,會(huì)產(chǎn)生更高的信道干擾,降低SINR,使得成功接收的CAM數(shù)目降低,因此導(dǎo)致PRR減小。相比RAS算法和WEA 算法,本文提出算法的PRR 性能更好,這是因?yàn)樵贒QN 中,車輛不斷與環(huán)境交互,將子信道選擇方案和功率控制方案同時(shí)作為輸出動(dòng)作優(yōu)化車間通信性能,為CAM 選擇最優(yōu)的子信道和傳輸功率,確保CAM 的可靠傳輸。比如,當(dāng)CAM 的大小為190 Byte且車間距離為300 m 時(shí),本文算法的PRR 為90%,相比于RAS 算法和WEA 算法的85%和88%分別提高了5%和2%。
圖5 PRR 與車間距離的關(guān)系Fig.5 Relationship of PRR and vehicle-to-vehicle distances
圖6 對(duì)比了3 種算法的UD 與車間距離的關(guān)系。
圖6 UD 與車間距離的關(guān)系Fig.6 Relationship of UD and vehicle-to-vehicle distances
從圖6 可以看出,隨著車間距離的增加,3 種算法的UD 均增加,但是本文算法的UD 在3 種算法中性能最好。這是因?yàn)閁D 表示接收端車輛成功接收2 個(gè)CAM 時(shí)間間隔,這與PRR 的性能有關(guān),PRR 越大UD 則越小,而本文算法的PRR 性能相比較其他2 種算法更好,因此UD 的性能也最好。比如,當(dāng)車間距離為200 m 時(shí),本文提出算法中車輛每隔3.9 ms就正確更新一次CAM,而RAS 算法和WEA 算法的UD 為4.5 ms 和4.2 ms,分別降低了0.6 ms 和0.3 ms。
本文針對(duì)C-V2X Mode 4 場(chǎng)景的資源分配和功率控制聯(lián)合優(yōu)化問(wèn)題,提出一種基于DQN 的聯(lián)合資源分配與功率控制算法。通過(guò)構(gòu)造DNN 車輛從環(huán)境中自動(dòng)獲取信道狀態(tài),通過(guò)迭代學(xué)習(xí)為CAM 選擇最優(yōu)子信道和傳輸功率。仿真結(jié)果表明,與基準(zhǔn)算法相比,該算法不僅能夠提高系統(tǒng)的PRR,加快CAM 的更新頻率,而且提高車間通信的可靠性,可應(yīng)用于基站覆蓋范圍受限的高密度交通流短距離車間通信場(chǎng)景。下一步將聯(lián)合資源自主選擇模式和資源調(diào)度分配模式,進(jìn)行混合資源分配模式的研究,并在真實(shí)仿真模型中對(duì)比算法性能。