摘" 要: 由于無(wú)線傳播的廣播和開(kāi)放性,車(chē)聯(lián)網(wǎng)通信系統(tǒng)易遭受到竊聽(tīng)者的竊聽(tīng),這降低了通信系統(tǒng)的安全容量。為此,文中提出基于深度強(qiáng)化學(xué)習(xí)的安全容量的優(yōu)化算法(D3QN?RS)。利用隨機(jī)過(guò)程理論將最優(yōu)轉(zhuǎn)發(fā)節(jié)點(diǎn)的選舉問(wèn)題轉(zhuǎn)化為馬爾可夫決策過(guò)程(MDP),并將截獲概率融入獎(jiǎng)勵(lì)函數(shù)。利用獎(jiǎng)勵(lì)值抑制截獲概率,并將選擇轉(zhuǎn)發(fā)節(jié)點(diǎn)的問(wèn)題轉(zhuǎn)入強(qiáng)化學(xué)習(xí)框架。最后,利用雙Q學(xué)習(xí)算法(D3QN)求解,產(chǎn)生最優(yōu)的轉(zhuǎn)發(fā)節(jié)點(diǎn),進(jìn)而提升系統(tǒng)的安全容量。仿真結(jié)果表明,與隨機(jī)選擇轉(zhuǎn)發(fā)節(jié)點(diǎn)的算法相比,D3QN?RS算法的截獲概率下降了約15%,系統(tǒng)的安全容量提升了約12%。
關(guān)鍵詞: 車(chē)聯(lián)網(wǎng); 安全容量; 截獲概率; 信道狀態(tài)信息; 轉(zhuǎn)發(fā)節(jié)點(diǎn)的選擇; D3QN
中圖分類號(hào): TN929.5?34" " " " " " " " " " " " 文獻(xiàn)標(biāo)識(shí)碼: A" " " " " " " " " " " " "文章編號(hào): 1004?373X(2024)11?0181?06
Secrecy capacity optimization algorithm based on dueling double deep Q?Network
DU Ming, REN Jianguo, ZHANG Qingyang
(School of Computer Science and Technology, Jiangsu Normal University, Xuzhou 221116, China)
Abstract: Due to the broadcast and openness of wireless communication, the Internet of Vehicle (IoV) communication system is vulnerable to eavesdropping, which reduces the secrecy capacity (SC) of the communication system. Therefore, SC optimization algorithm named D3QN?RS based on deep reinforcement learning (DRL) is proposed. On the basis of the random process theory, the problem of optimal relay selection (RS) is transformed into the Markov decision process (MDP), and the intercept probability is integrated into the reward function. The reward value is used to suppress interception probability, and the problem of RS is transferred into the reinforcement learning framework. Finally, the dueling double deep Q?network (D3QN) algorithm is used to solve the reinforcement learning problem and generate the optimal RS, so as to improve the SC of the system. Simulation results show that the D3QN?RS algorithm performs better than random RS, because it reduces intercept probability by approximately 15% and improves SC by approximately 12%.
Keywords: IoV; SC; intercept probability; channel state information; RS; D3QN
0" 引" 言
隨著電子信息技術(shù)的不斷發(fā)展,車(chē)聯(lián)網(wǎng)技術(shù)進(jìn)入了快速發(fā)展階段。車(chē)聯(lián)網(wǎng)中的車(chē)輛相互協(xié)作,傳遞道路安全、預(yù)警等消息,提高了行駛安全[1]。依據(jù)DSRC通信標(biāo)準(zhǔn),車(chē)輛單跳通信距離較短[2],一般在200 m。因此,車(chē)輛需要周?chē)?chē)輛的協(xié)助轉(zhuǎn)發(fā)才能將消息傳輸至單跳通信距離外的車(chē)輛。在這種情況下,車(chē)輛需要依據(jù)信道狀態(tài)信息(Channel State Information, CSI)從周?chē)?chē)輛中選擇一個(gè)車(chē)輛作為轉(zhuǎn)發(fā)節(jié)點(diǎn)[3]。
然而,由于車(chē)輛的移動(dòng),依據(jù)CSI選擇最優(yōu)轉(zhuǎn)發(fā)節(jié)點(diǎn)仍是一項(xiàng)挑戰(zhàn)工作。由于信道的反饋時(shí)延,所用的CSI可能已過(guò)時(shí)了,時(shí)效性低。文獻(xiàn)[4?5]采用信道時(shí)延模型分析了CSI的不準(zhǔn)確性,并提出強(qiáng)健的轉(zhuǎn)發(fā)節(jié)點(diǎn)選擇(Relay Selection, RS)方法。然而,該方法不能自適應(yīng)于環(huán)境變化。隨著AI技術(shù)的不斷發(fā)展,基于強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)等機(jī)器學(xué)習(xí)理論的成熟應(yīng)用,融合強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)框架(Deep Reinforcement Learning, DRL)已成功應(yīng)用于多個(gè)領(lǐng)域[6]。
據(jù)此,文獻(xiàn)[7?8]提出基于Q?學(xué)習(xí)的自學(xué)習(xí)RS方法。盡管Q?學(xué)習(xí)方法通過(guò)與環(huán)境交互,選擇最優(yōu)動(dòng)作,但是Q?學(xué)習(xí)需要利用Q表格存儲(chǔ)Q值,其只能處理較小的狀態(tài)空間。
相比之于,DQN更適應(yīng)于處理復(fù)雜環(huán)境。文獻(xiàn)[9]提出基于DQN的RS方法。利用深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)替換Q?學(xué)習(xí),選擇最優(yōu)的轉(zhuǎn)發(fā)節(jié)點(diǎn)。
此外,由于車(chē)聯(lián)網(wǎng)采用無(wú)線通信,無(wú)線傳播的廣播和開(kāi)放性,又加上節(jié)點(diǎn)(車(chē)輛)處理數(shù)據(jù)的能力有限,車(chē)間通信容易受到攻擊者的攻擊,如竊聽(tīng)數(shù)據(jù)或者干擾通信。目前,常采用安全容量(Secrecy Capacity, SC)表征通信系統(tǒng)的安全性能。SC是指合法信道傳輸?shù)男畔⒘颗c竊聽(tīng)信道的信息量的差值[10]。
為此,本文考慮到信息的截獲概率,提出基于深度強(qiáng)化學(xué)習(xí)的安全容量的優(yōu)化算法,記為D3QN?RS。依據(jù)隨機(jī)過(guò)程理論,將優(yōu)化通信系統(tǒng)的安全容量問(wèn)題轉(zhuǎn)化為馬爾可夫決策過(guò)程(Markov Decision Process, MDP),并設(shè)計(jì)考慮截獲概率和更換轉(zhuǎn)發(fā)節(jié)點(diǎn)成本的獎(jiǎng)勵(lì)函數(shù),將提升通信系統(tǒng)的安全容量問(wèn)題轉(zhuǎn)入強(qiáng)化學(xué)習(xí)框架。最后,利用融合Double DQN和Dueling DQN的D3QN(Dueling Double Deep Q?Network)算法求解強(qiáng)化學(xué)習(xí)問(wèn)題。仿真結(jié)果表明,提出的D3QN?RS算法降低了截獲概率,并提升了通信系統(tǒng)的安全容量。
1" 系統(tǒng)模型
1.1" 網(wǎng)絡(luò)模型
考慮如圖1所示的車(chē)聯(lián)網(wǎng)二跳通信系統(tǒng),1個(gè)源節(jié)點(diǎn)、[M]個(gè)轉(zhuǎn)發(fā)節(jié)點(diǎn)、1個(gè)目的節(jié)點(diǎn)和1個(gè)竊聽(tīng)者。用[Rm]表示第[m]個(gè)轉(zhuǎn)發(fā)節(jié)點(diǎn),其中[m=1,2,…,M]。源節(jié)點(diǎn)與目的節(jié)點(diǎn)的通信需要轉(zhuǎn)發(fā)節(jié)點(diǎn)的幫助,即源節(jié)點(diǎn)與目的節(jié)點(diǎn)間無(wú)直接通信通路,只能依靠轉(zhuǎn)發(fā)節(jié)點(diǎn)的轉(zhuǎn)發(fā),源節(jié)點(diǎn)才可能將數(shù)據(jù)傳輸至目的節(jié)點(diǎn)。源節(jié)點(diǎn)依據(jù)周?chē)h(huán)境信息,從[M]個(gè)轉(zhuǎn)發(fā)節(jié)點(diǎn)中選擇一個(gè)轉(zhuǎn)發(fā)節(jié)點(diǎn)。此外,竊聽(tīng)者作為攻擊者,其可能會(huì)截獲源節(jié)點(diǎn)與轉(zhuǎn)發(fā)節(jié)點(diǎn)間的通信,竊取它們的通信數(shù)據(jù)。
D3QN?RS算法是通過(guò)收集[N]個(gè)關(guān)于CSI的數(shù)據(jù)包信息選舉最優(yōu)轉(zhuǎn)發(fā)節(jié)點(diǎn),即利用[N]個(gè)CSI的數(shù)據(jù)包信息訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)模型,再利用已訓(xùn)練的模型產(chǎn)生最優(yōu)的轉(zhuǎn)發(fā)節(jié)點(diǎn)。
用[dm,ni,m=dm,n1,dm,n2,dm,n3]表示在第[n]個(gè)CSI包的距離矢量,且[m=1,2,…,M],[n=1,2,…,N],[i=1,2,3]。其中:[dm,n1]表示源節(jié)點(diǎn)與轉(zhuǎn)發(fā)節(jié)點(diǎn)[Rm]間的距離;[dm,n2]表示轉(zhuǎn)發(fā)節(jié)點(diǎn)[Rm]與目的節(jié)點(diǎn)間的距離;[dm,n3]表示轉(zhuǎn)發(fā)節(jié)點(diǎn)[Rm]與竊聽(tīng)者間的距離。為了簡(jiǎn)化表述,用距離矩陣[D]表示[N]個(gè)CSI包的距離矢量,即距離矩陣[D]是[M×N]維矩陣。
源節(jié)點(diǎn)通過(guò)兩跳完成與目的節(jié)點(diǎn)的通信。在第一個(gè)時(shí)隙,源節(jié)點(diǎn)向轉(zhuǎn)發(fā)節(jié)點(diǎn)廣播消息;在第二個(gè)時(shí)隙,所選擇的轉(zhuǎn)發(fā)節(jié)點(diǎn)向目的節(jié)點(diǎn)轉(zhuǎn)發(fā)消息。
1.2" 信道模型
假定所有信道服從瑞利阻礙衰落[11]。用[gm,ni,i=1,2,3]分別表示源節(jié)點(diǎn)至轉(zhuǎn)發(fā)節(jié)點(diǎn)[Rm]、轉(zhuǎn)發(fā)節(jié)點(diǎn)[Rm]至目的節(jié)點(diǎn)以及轉(zhuǎn)發(fā)節(jié)點(diǎn)[Rm]至竊聽(tīng)節(jié)點(diǎn)(竊聽(tīng)者)間的信道增益,其中[m=1,2,…,M],[n=1,2,…,N]。定義如式(1)所示:
[gm,ni=hm,ni2dm,niα," "i=1,2,3;" m=1,2,…,M;" n=1,2,…,N]" (1)
式中[α]表示路徑衰落因子。
此外,假定系統(tǒng)內(nèi)的噪聲為高斯白噪聲,且均值為零、方差為[σ2]。因此,源節(jié)點(diǎn)至轉(zhuǎn)發(fā)節(jié)點(diǎn)[Rm]、轉(zhuǎn)發(fā)節(jié)點(diǎn)[Rm]至目的節(jié)點(diǎn)以及轉(zhuǎn)發(fā)節(jié)點(diǎn)[Rm]至竊聽(tīng)者間的信道增益的信噪比可表示為[γm,ni,i=1,2,3]。其中:[γm,n1=PSσ2gm,n1],[γm,n2=PRσ2gm,n2],[γm,n3=PRσ2gm,n3],[PS]、[PR]分別表示源節(jié)點(diǎn)的發(fā)射功率、轉(zhuǎn)發(fā)節(jié)點(diǎn)的發(fā)射功率。令信噪比矩陣[γ]表示[N]個(gè)CSI包的信噪比矢量,即信噪比矩陣[γ]是[M×N]維矩陣。
1.3" 安全容量
安全容量等于合法信道傳輸?shù)男畔⑺俾逝c竊聽(tīng)信道的信息速率間的差值:
[Cm,ns=Cm,nR-Cm,nE+]" (2)
式中:[Cm,ns]表示安全容量;[Cm,nR]表示轉(zhuǎn)發(fā)節(jié)點(diǎn)[Rm]至目的節(jié)點(diǎn)間信道的速率;[Cm,nE]表示轉(zhuǎn)發(fā)節(jié)點(diǎn)[Rm]至竊聽(tīng)者間信道的速率。[x+=max0,x]表示從兩值中取最大值的函數(shù)。
采用放大?轉(zhuǎn)發(fā)(Amplify?and?Forward, AF)協(xié)議[12]。若[Rm]被選為轉(zhuǎn)發(fā)節(jié)點(diǎn),則[Cm,nR]和[Cm,nE]可分別表示為:
[Cm,nR=12log21+γm,n1γm,n2γm,n1+γm,n2+1]" (3)
[Cm,nE=12log21+γm,n1γm,n3γm,n1+γm,n3+1]" (4)
1.4" 截獲概率
當(dāng)合法信道的速率[Cm,nR]小于竊聽(tīng)信道的速率[Cm,nE],則表示發(fā)生截獲事件。因此,截獲概率可表示為:
[PR=Prmaxm∈MCm,nslt;0]" (5)
式中[maxm∈MCm,ns]表示最優(yōu)轉(zhuǎn)發(fā)節(jié)點(diǎn)所產(chǎn)生的最大安全容量。
2" 馬爾可夫決策過(guò)程
將選擇最優(yōu)的轉(zhuǎn)發(fā)節(jié)點(diǎn)過(guò)程表述成馬爾可夫決策過(guò)程[13]。MDP是求解隨機(jī)動(dòng)態(tài)系統(tǒng)中最優(yōu)決策的有效方法。MDP主要由狀態(tài)、動(dòng)作以及獎(jiǎng)勵(lì)三個(gè)模塊組成。此外,在下文表述中,為了簡(jiǎn)化變量,將變量上標(biāo)中的“[m], [n]”省略,例如[di]替換[dm,ni]。
2.1" 狀態(tài)空間
狀態(tài)空間由距離矢量、信噪比和截獲概率組成。令[sk]表示第[k]次迭代的狀態(tài):
[sk=Dk,γk,PkR]" (6)
式中:[Dk]表示在第[k]次迭代時(shí)的距離矩陣,即[Dk=dkii=1,2,3];[γk]表示在第[k]次迭代時(shí)的信噪比矩陣,即[γk=γkii=1,2,3];[PkR]表示在第[k]次迭代時(shí)的截獲概率。
2.2" 動(dòng)作空間
依據(jù)信道的當(dāng)前狀態(tài),選擇一個(gè)動(dòng)作。用[ak]表示第[k]次迭代時(shí)所選擇的動(dòng)作。在D3QN?RS算法中,動(dòng)作就是選擇某一個(gè)節(jié)點(diǎn)作為轉(zhuǎn)發(fā)節(jié)點(diǎn)。因此,[ak]屬于[1×M]維空間,即[ak=0,1,2,…,M]。[ak=0]表示系統(tǒng)在第[k]次迭代中不傳輸任何數(shù)據(jù);[ak=m]表示系統(tǒng)在第[k]次迭代中選擇[Rm]為轉(zhuǎn)發(fā)節(jié)點(diǎn)。
2.3" 獎(jiǎng)勵(lì)函數(shù)
獎(jiǎng)勵(lì)函數(shù)在DQN算法中扮演著重要作用,其指揮著動(dòng)作的取向。由于D3QN?RS算法旨在降低截獲概率,提高安全容量,將獎(jiǎng)勵(lì)函數(shù)設(shè)置為關(guān)于截獲概率的函數(shù),其取決于當(dāng)前狀態(tài)[sk]和動(dòng)作[ak]。
令[rk]表示第[k]次迭代后的獎(jiǎng)勵(lì),其定義如式(7)所示:
[rk=exp-PkR-cλ] (7)
式中:[c]表示更換轉(zhuǎn)發(fā)節(jié)點(diǎn)的成本,即這次所選擇的動(dòng)作與上次所選擇的動(dòng)作不同,就是更換轉(zhuǎn)發(fā)節(jié)點(diǎn);[λ]為布爾變量,表示是否更換轉(zhuǎn)發(fā)節(jié)點(diǎn),其定義如式(8)所示:
[λ=0," " " ak=ak-11," " " ak≠ak-1]" (8)
式中:[ak]、[ak-1]分別表示第[k]次、第[k-1]次迭代時(shí)所選擇的動(dòng)作。
3" 基于D3QN的最優(yōu)轉(zhuǎn)發(fā)節(jié)點(diǎn)的選擇
D3QN算法是Double DQN和Dueling DQN的結(jié)合體[14]。Double DQN采用兩個(gè)Q網(wǎng)絡(luò):一個(gè)Q網(wǎng)絡(luò)估計(jì)[Q]值,通常將其稱為Q網(wǎng)絡(luò)([Q]),另一個(gè)Q網(wǎng)絡(luò)預(yù)測(cè)動(dòng)作,常將其稱為目標(biāo)Q網(wǎng)絡(luò)([Q])。通過(guò)采用兩個(gè)Q網(wǎng)絡(luò)去除狀態(tài)價(jià)值與狀態(tài)?動(dòng)作間的相關(guān)性,進(jìn)而使智能體更好地學(xué)習(xí)到狀態(tài)與動(dòng)作對(duì)其所獲得的獎(jiǎng)勵(lì)。
3.1" Dueling DQN算法
Dueling DQN是將Q網(wǎng)絡(luò)分成兩個(gè)部分,如圖2所示。一部分僅與狀態(tài)S有關(guān),其表征狀態(tài)的好壞程度,被稱為價(jià)值函數(shù);另一部分同時(shí)與狀態(tài)和動(dòng)作有關(guān),其表征了在當(dāng)前狀態(tài)下某個(gè)動(dòng)作相對(duì)于其他動(dòng)作的優(yōu)劣,被稱為優(yōu)勢(shì)函數(shù)[15]。
因此,Dueling DQN算法中的[Q]值由價(jià)值函數(shù)和優(yōu)勢(shì)函數(shù)兩部分組成,其可表述為:
[Qsk,ak;θ=Vsk;θ+Ask,ak;θ-1Aak+1Ask,ak+1;θ]" " "(9)
式中:[Qsk,ak;θ]表示[Q]值,[θ]表示Q網(wǎng)絡(luò)參數(shù)。
3.2" Double DQN算法
Q網(wǎng)絡(luò)與目標(biāo)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)一致,只是網(wǎng)絡(luò)參數(shù)不同[16]。由目標(biāo)Q網(wǎng)絡(luò)生成訓(xùn)練過(guò)程的目標(biāo)[Q]值:[Q=r+γmaxαQs,x;θ]。訓(xùn)練到一定步長(zhǎng)數(shù)后,就將Q網(wǎng)絡(luò)參數(shù)[θ]拷貝至目標(biāo)Q網(wǎng)絡(luò)參數(shù)[θ]。
D3QN沿用Double DQN算法,其采用式(10)更新目標(biāo)[Q]值:
[Qtarget=rk+γQsk+1,argmaxaQsk+1,ak+1;θ;θ]" "(10)
式中:[argmaxaQsk+1,ak+1;θ]表示由Q網(wǎng)絡(luò)找到目前具有最大[Q]值的動(dòng)作。
3.3" D3QN算法
依據(jù)3.1節(jié)和3.2節(jié)的表述,D3QN算法的流程如圖3所示。
D3QN算法的偽代碼如下:
Step1: 對(duì)參數(shù)進(jìn)行初始化,包括:設(shè)定經(jīng)驗(yàn)池[D]的容量[N],隨
機(jī)初始化Q網(wǎng)絡(luò)及其參數(shù),初始化目標(biāo)網(wǎng)絡(luò)以及其參數(shù),設(shè)定
更新步長(zhǎng)[C]、迭代次數(shù)[K],每次迭代的步數(shù)[T],終止?fàn)顟B(tài)[ST]
Step2: for [k]=1 to [K] do
Step3:" "初始化當(dāng)前狀態(tài)[st]
Step4:" "for [t]=1 to [T] do
Step5:" " 根據(jù)[ε]?貪婪算法從Q網(wǎng)絡(luò)中選擇一個(gè)動(dòng)作
Step6:" " 執(zhí)行動(dòng)作[a(t)],并觀測(cè)獎(jiǎng)勵(lì)[r(t)]和下一個(gè)狀態(tài)[s(t+1)]
Step7:" " 將[{s(t),a(t),r(t),s(t+1)}]存儲(chǔ)于經(jīng)驗(yàn)池[D]中
Step8:" " 更新?tīng)顟B(tài)[{s(t)←s(t+1)}]
Step9:" " "從經(jīng)驗(yàn)池[D]中采用[m]個(gè)樣本[{s(j),a(j),r(j),s(j+1)}],
[j=1,2,…,m],依據(jù)式(11)計(jì)算目標(biāo)[Q]值
Step10:" "依據(jù)式(12)計(jì)算均方損失函數(shù)
Step11:" "隨機(jī)梯度下降更新Q網(wǎng)絡(luò)參數(shù)
Step12:" "每隔[C]步, 將Q網(wǎng)絡(luò)參數(shù)拷貝至目標(biāo)Q網(wǎng)絡(luò)
Step13:" "End for
Step14: End for
1) 對(duì)參數(shù)進(jìn)行初始化:設(shè)定經(jīng)驗(yàn)池[D]的容量[N],隨機(jī)初始化Q網(wǎng)絡(luò)以及其參數(shù)[θ],初始化目標(biāo)[Q]網(wǎng)絡(luò)及其參數(shù)[θ=θ],設(shè)定更新步長(zhǎng)[C],迭代回合數(shù)[K],每次迭代的步數(shù)[T],終止?fàn)顟B(tài)[ST]。
2) 進(jìn)入迭代環(huán)節(jié)。如算法偽代碼中Step2~Step14所示。在迭代環(huán)節(jié),先初始化當(dāng)前狀態(tài),然后進(jìn)入步數(shù)迭代,如算法偽代碼中Step2~Step13所示。
① 利用[ε?]貪婪算法從Q網(wǎng)絡(luò)中選擇一個(gè)動(dòng)作;
② 再執(zhí)行動(dòng)作[at],并觀測(cè)獎(jiǎng)勵(lì)[rt]和下一個(gè)狀態(tài)[st+1];
③ 將[st,at,rt,st+1]存儲(chǔ)于經(jīng)驗(yàn)池[D]中;
④ 更新?tīng)顟B(tài):[st←st+1];
⑤ 從經(jīng)驗(yàn)池[D]中采樣batch樣本,并計(jì)算目標(biāo)[Q]值,如Step9所示;
[Qtarget=rj," " " " st=STrj+γQsj+1,argmaxaQsj+1,aj+1;θ;θ," " " " " " " "st≠ST] (11)
⑥ 計(jì)算均方差損失函數(shù):
[Loss=1mt=1mQtarget-Qst,at;θ2]" (12)
⑦ 利用隨機(jī)梯度下降法更新Q網(wǎng)絡(luò)的參數(shù)[θ];
⑧ 每隔[C]步更新[Q]網(wǎng)絡(luò)參數(shù):[θ←θ]。
4" 性能分析
4.1" 仿真參數(shù)
利用Python 3.6和Pytorch工具搭建仿真平臺(tái),進(jìn)行仿真實(shí)驗(yàn)。D3QN算法由兩層全連接隱藏層組成,每層含有64個(gè)神經(jīng)元。選用ReLU為激活函數(shù),采用Adam優(yōu)化器,其他的有關(guān)神經(jīng)網(wǎng)絡(luò)參數(shù)如表1所示。
此外,相關(guān)的通信參數(shù)如下:路徑衰落因子[α=3],源節(jié)點(diǎn)和轉(zhuǎn)發(fā)節(jié)點(diǎn)的傳輸功率均為20 dB,高斯白噪聲的功率為-10 dB。
4.2" 參數(shù)[N]、[M]和[c]對(duì)截獲概率的影響
首先分析[N]和[M]對(duì)D3QN?RS算法的截獲概率的影響,其中[c=0.01],如圖4所示。
從圖4可知,當(dāng)[c]和[N]固定時(shí),截獲概率隨著[M]的增加而下降。原因在于:[M]越大,可選的轉(zhuǎn)發(fā)節(jié)點(diǎn)數(shù)越多,選擇空間越大,越有利于選擇更優(yōu)的轉(zhuǎn)發(fā)節(jié)點(diǎn),進(jìn)而降低了截獲概率。此外,增加[N]也有利于降低截獲概率。[N]值越大,意味著擁有的CSI包數(shù)越多。換而言之,擁有的訓(xùn)練數(shù)據(jù)越多,越有利于做出最優(yōu)決策,進(jìn)而降低截獲概率。
圖5給出截獲概率隨[c]和[M]的變化情況,其中[N]=10。從圖5可知,[c]的增加也有利于降低截獲概率,特別是在[M]較小時(shí),增加[c]使截獲概率快速下降。原因在于:[c]值越大,更換轉(zhuǎn)發(fā)節(jié)點(diǎn)的成本增加,提升了竊聽(tīng)者更換竊聽(tīng)目標(biāo)的成本(更換了轉(zhuǎn)發(fā)節(jié)點(diǎn),意味著竊聽(tīng)者也要更換竊聽(tīng)對(duì)象),進(jìn)而降低了截獲概率。
4.3" 收斂性能
圖6給出D3QN?RS算法的平均獎(jiǎng)勵(lì)值,迭代次數(shù)為14 000次。平均獎(jiǎng)勵(lì)值反映了D3QN?RS算法的收斂性能。從圖6可知,D3QN?RS算法的收斂性能較好。迭代約2 000次后,獎(jiǎng)勵(lì)值趨于平穩(wěn)。這也說(shuō)明D3QN?RS算法能快速收斂。
4.4" 性能對(duì)比分析
為了更好地分析D3QN?RS的算法性能,選擇隨機(jī)選擇算法(Random)、基于DQN選擇轉(zhuǎn)發(fā)節(jié)點(diǎn)(DQN?RS)作為基準(zhǔn)算法,對(duì)比分析它們的性能。Random算法隨機(jī)地選擇轉(zhuǎn)發(fā)節(jié)點(diǎn);DQN?RS算法是利用DQN算法求解MDP;D3QN?RS算法是利用D3QN算法求解MDP。
圖7給出了D3QN?RS、DQN?RS和Random算法的安全容量隨著轉(zhuǎn)發(fā)節(jié)點(diǎn)數(shù)[M]的變化曲線。從圖7可知,轉(zhuǎn)發(fā)節(jié)點(diǎn)數(shù)[M]有利于提升通信系統(tǒng)的安全容量。原因在于:轉(zhuǎn)發(fā)節(jié)點(diǎn)數(shù)[M]越大,選擇轉(zhuǎn)發(fā)節(jié)點(diǎn)的空間越大,選擇動(dòng)作空間越大,這就使竊聽(tīng)者竊聽(tīng)信道的難度越大,進(jìn)而提升了通信系統(tǒng)的安全容量。
相比于DQN?RS和Random算法,D3QN?RS算法提升了通信系統(tǒng)的安全容量。Random算法是隨機(jī)選擇轉(zhuǎn)發(fā)節(jié)點(diǎn),其安全容量不具有趨勢(shì)性,其安全容量最低。而DQN?RS算法是利用DQN算法求解MDP,獲取最優(yōu)轉(zhuǎn)發(fā)節(jié)點(diǎn)。但DQN算法存在過(guò)度高估[Q]值的不足,導(dǎo)致其安全容量低于D3QN?RS算法。
接下來(lái),分析D3QN?RS、DQN?RS和Random算法的截獲概率,如圖8所示。圖8曲線與圖7曲線的趨勢(shì)相反。原因在于:系統(tǒng)的安全容量與截獲概率成反比。從圖8可知,截獲概率隨轉(zhuǎn)發(fā)節(jié)點(diǎn)數(shù)增加而下降,這主要是因?yàn)椋恨D(zhuǎn)發(fā)節(jié)點(diǎn)數(shù)越多,竊聽(tīng)者實(shí)施竊聽(tīng)的難度越大。
此外,相比于Random和DQN?RS算法,D3QN?RS算法降低了通信系統(tǒng)的截獲概率。由于Random算法采用隨機(jī)方式選擇轉(zhuǎn)發(fā)節(jié)點(diǎn),其截獲概率不隨轉(zhuǎn)發(fā)節(jié)點(diǎn)變化。
5" 結(jié)" 語(yǔ)
本文針對(duì)車(chē)聯(lián)網(wǎng)中安全容量的優(yōu)化問(wèn)題,提出一種基于DRL的安全容量?jī)?yōu)化算法。先將優(yōu)化安全容量問(wèn)題轉(zhuǎn)入強(qiáng)化學(xué)習(xí)框架??紤]到Double DQN和Dueling DQN算法各自的特點(diǎn),構(gòu)建D3QN算法,并利用D3QN算法求解。通過(guò)將截獲概率設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),智能體通過(guò)與環(huán)境的交互,產(chǎn)生最優(yōu)動(dòng)作,控制截獲概率,進(jìn)而提升系統(tǒng)的安全容量。仿真結(jié)果表明,提出的D3QN?RS算法具有良好的安全容量性能。
參考文獻(xiàn)
[1] 劉雪嬌,鐘強(qiáng),夏瑩杰.基于雙層分片區(qū)塊鏈的車(chē)聯(lián)網(wǎng)跨信任域高效認(rèn)證方案[J].通信學(xué)報(bào),2023,44(5):213?223.
[2] 郭楠,宋嘯波,莊璐瑗,等.面向WAVE安全服務(wù)的車(chē)聯(lián)網(wǎng)匿名批量消息認(rèn)證方案[J].計(jì)算機(jī)科學(xué),2023,50(4):308?316.
[3] 李一兵,王寧馨,呂威.蜂窩車(chē)聯(lián)網(wǎng)中基于服務(wù)異構(gòu)性的V2V通信資源分配算法研究[J].電子與信息學(xué)報(bào),2023,45(1):235?242.
[4] SHI Z, WANG H, FU Y R, et al. Outage performance and optimal design of MIMO?NOMA enhanced small cell networks with imperfect channel?state information [J]. China communications, 2021, 18(10): 107?128.
[5] ZHANG Y J, WU J, WANG B. Optimization analysis of max?link secure relay selection in buffer?aided cooperative networks [J]. Journal of physics: Conference series, 2021, 1746(1): 012079.
[6] 唐進(jìn),梁彥剛,白志會(huì),等.基于DQN的旋翼無(wú)人機(jī)著陸控制算法[J].系統(tǒng)工程與電子技術(shù),2023,45(5):1451?1460.
[7] LIN R, QIU H, JIANG W, et al. Deep reinforcement learning for physical layer security enhancement in energy harvesting based cognitive radio networks [J]. Sensors (Basel, Switzerland), 2023, 23(2): 807.
[8] LU J, HE D, WANG Z. Learning?assisted secure relay selection with outdated CSI for finite?state Markov channel [C]// 2021 IEEE 93rd Vehicular Technology Conference. New York: IEEE, 2021: 1?5.
[9] SU Y, LIWANG M, GAO Z, et al. Optimal cooperative relaying and power control for IoUT networks with reinforcement learning [J]. IEEE internet things journal, 2021, 8(2): 791?801.
[10] 汪衍佳.無(wú)人機(jī)通信系統(tǒng)高能效魯棒安全傳輸技術(shù)研究[D].南京:南京郵電大學(xué),2022.
[11] PANG X, ZHAO N, TANG J, et al. IRS?assisted secure UAV transmission via joint trajectory and beamforming design [J]. IEEE transactions on communications, 2021, 70(2): 1140?1152.
[12] DUNG C T, HOANG T M, THANG N N, et al. Secrecy performance of multi?user multi?hop cluster?based network with joint relay and jammer selection under imperfect channel state information [J]. Performance evaluation, 2021, 147: 102193.
[13] 王正寧,周陽(yáng),呂俠,等.一種基于2D和3D聯(lián)合信息的改進(jìn)MDP跟蹤算法[J].計(jì)算機(jī)科學(xué),2019,46(3):97?102.
[14] 張良玉.移動(dòng)機(jī)器人深度強(qiáng)化學(xué)習(xí)路徑規(guī)劃研究[D].大連:大連海事大學(xué),2021.
[15] 武明虎,金波,趙楠,等.基于深度強(qiáng)化學(xué)習(xí)的V2X頻譜資源管理方法[J].光通信研究,2023(3):71?78.
[16] 周翼.基于改進(jìn)競(jìng)爭(zhēng)網(wǎng)絡(luò)的機(jī)器人避障方法研究[D].西安:西安電子科技大學(xué),2019.
作者簡(jiǎn)介:杜" 明(1976—),男,山東泰安人,碩士,高級(jí)實(shí)驗(yàn)師,研究方向?yàn)樾畔⒓夹g(shù)和實(shí)驗(yàn)室管理。
任建國(guó)(1978—),男,山西忻州人,博士,副教授,研究方向?yàn)榫W(wǎng)絡(luò)攻防對(duì)抗與復(fù)雜網(wǎng)絡(luò)和網(wǎng)絡(luò)空間安全動(dòng)力學(xué)。
張清楊(1990—),男,江蘇徐州人,博士,講師,研究方向?yàn)檫M(jìn)化計(jì)算、動(dòng)態(tài)優(yōu)化、智能算法及其應(yīng)用。