摘要:針對(duì)多智能體通過(guò)無(wú)線(xiàn)傳感器網(wǎng)絡(luò)與目標(biāo)接收器通信時(shí)可能遭遇的信息竊取問(wèn)題,提出了一種創(chuàng)新的多智能體波束成形方法。該方法旨在通過(guò)動(dòng)態(tài)調(diào)整智能體的分布及傳輸信號(hào)狀態(tài),確保接收器能收到高質(zhì)量的信號(hào),最大限度地避免被潛在的竊聽(tīng)者竊取信息。首先將聯(lián)合優(yōu)化問(wèn)題定義為部分可觀(guān)測(cè)馬爾可夫決策過(guò)程(POMDP),其次基于深度強(qiáng)化學(xué)習(xí)算法解決此優(yōu)化問(wèn)題。通過(guò)引入集中式訓(xùn)練、分布式執(zhí)行的框架,智能體可以根據(jù)局部觀(guān)測(cè)進(jìn)行協(xié)同決策,從而調(diào)整全局通信狀態(tài)。為了驗(yàn)證所提方法的有效性,基于多智能體粒子環(huán)境(MPE)設(shè)計(jì)了仿真環(huán)境,并在多個(gè)場(chǎng)景下進(jìn)行了訓(xùn)練及測(cè)試,實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的有效性。
關(guān)鍵詞:多智能體系統(tǒng);波束成形;防竊聽(tīng)通信;深度強(qiáng)化學(xué)習(xí)
中圖分類(lèi)號(hào):TP301.6文獻(xiàn)標(biāo)志碼:A
0引言(Introduction)
多智能體之間可以通過(guò)無(wú)線(xiàn)傳感器網(wǎng)絡(luò)(WSN)進(jìn)行通信[1],無(wú)線(xiàn)傳感器網(wǎng)絡(luò)由一些傳感器節(jié)點(diǎn)組成,這些傳感器節(jié)點(diǎn)可以通過(guò)無(wú)線(xiàn)通信進(jìn)行交互[2]。然而,無(wú)線(xiàn)通信存在信號(hào)傳輸距離受限、信道質(zhì)量有波動(dòng)和易受到干擾等問(wèn)題[3],為了解決這些問(wèn)題,引入了波束成形技術(shù)建立傳感器與遠(yuǎn)程設(shè)備之間的通信鏈路[4],通過(guò)控制多個(gè)智能體發(fā)射的信號(hào),可以改變波束的形狀。
智能體在與目標(biāo)接收器通信的過(guò)程中,環(huán)境中可能存在竊聽(tīng)者試圖干擾或竊取敏感信息,因此需要在保證可靠通信的同時(shí),防止信息被竊取。在實(shí)際場(chǎng)景中,竊聽(tīng)者的數(shù)量未知,并且可能是動(dòng)態(tài)的,這大大降低了無(wú)線(xiàn)通信的安全性。為了防止信息被竊聽(tīng)者竊取,同時(shí)確保信號(hào)可以傳輸?shù)街付ǖ慕邮掌鳎悄荏w需要?jiǎng)討B(tài)調(diào)整自身發(fā)射信號(hào)的狀態(tài)(圖1)。
針對(duì)智能體通信中潛在的信息竊取問(wèn)題,本文引入了智能體的位置和傳感器發(fā)射信號(hào)的相位偏移作為控制變量。首先將多智能體聯(lián)合波束成形問(wèn)題表述為部分可觀(guān)測(cè)馬爾可夫決策過(guò)程,其次設(shè)計(jì)了一種基于近端策略?xún)?yōu)化的算法求解該P(yáng)OMDP。智能體可以根據(jù)自身的局部觀(guān)測(cè)結(jié)果調(diào)整自身行為,進(jìn)而影響波束成形結(jié)果。
1相關(guān)工作(Relatedwork)
目前,強(qiáng)化學(xué)習(xí)被廣泛應(yīng)用于無(wú)線(xiàn)傳感器網(wǎng)絡(luò)的波束成形問(wèn)題。TAN等[5]提出了一種基于深度強(qiáng)化學(xué)習(xí)的自適應(yīng)波束成形方案,為實(shí)時(shí)自適應(yīng)波束成形提供了一種高效的深度學(xué)習(xí)模型,可以實(shí)時(shí)預(yù)測(cè)產(chǎn)生任意期望輻射圖案所需的空間相位配置。受深度強(qiáng)化學(xué)習(xí)在動(dòng)態(tài)規(guī)劃問(wèn)題中展現(xiàn)出的較高解決能力的啟發(fā),MISMAR等[6]將波束成形、功率控制和干擾協(xié)調(diào)的聯(lián)合優(yōu)化表述為一個(gè)非凸優(yōu)化問(wèn)題,利用最大化信號(hào)干擾噪聲比,并通過(guò)深度強(qiáng)化學(xué)習(xí)解決此問(wèn)題。然而,在通信過(guò)程中可能會(huì)受到干擾或存在竊聽(tīng)者試圖竊取信息,YU等[7]提出了一種使用人工噪聲輔助的安全波束成形系統(tǒng),發(fā)射器將人為干擾信號(hào)與有效信息結(jié)合進(jìn)行傳輸,并對(duì)信息和干擾信號(hào)的發(fā)射功率進(jìn)行分配,確保信息發(fā)送給合法用戶(hù)的同時(shí),有效防范竊聽(tīng)者。YANG等[8]研究了一種智能反射面輔助的安全無(wú)線(xiàn)通信系統(tǒng),在存在竊聽(tīng)者的復(fù)雜環(huán)境中,保障了合法用戶(hù)的安全通信。由于系統(tǒng)高度動(dòng)態(tài)且復(fù)雜,因此他們提出了一種基于深度強(qiáng)化學(xué)習(xí)(DRL)的安全波束成形方法,以實(shí)現(xiàn)在動(dòng)態(tài)環(huán)境中針對(duì)竊聽(tīng)者的最優(yōu)波束成形策略。XIAO等[9]的研究考慮了一個(gè)多輸入單輸出可見(jiàn)光通信的場(chǎng)景,其中多個(gè)燈具充當(dāng)發(fā)射器,一個(gè)可見(jiàn)光通信接收器作為合法用戶(hù),同時(shí)存在一個(gè)竊聽(tīng)者試圖獲取信息。文中提出了一種基于強(qiáng)化學(xué)習(xí)的可見(jiàn)光通信波束控制方案,該方案旨在通過(guò)優(yōu)化波束成形策略,確保信息在動(dòng)態(tài)環(huán)境中能夠安全、準(zhǔn)確地傳輸給合法用戶(hù),同時(shí)有效防止竊聽(tīng)者的信息竊取。
現(xiàn)有的研究沒(méi)有考慮到環(huán)境中存在多個(gè)動(dòng)態(tài)竊聽(tīng)者的情況,本文將此優(yōu)化問(wèn)題建模為POMDP,通過(guò)引入集中式訓(xùn)練、分布式執(zhí)行的框架,基于近端策略?xún)?yōu)化(PPO)設(shè)計(jì)了算法并進(jìn)行求解。
2系統(tǒng)模型(Systemmodel)
2.1系統(tǒng)描述
系統(tǒng)模型由多個(gè)智能體、接收器和竊聽(tīng)者組成,每個(gè)智能體攜帶一個(gè)用于發(fā)射信號(hào)的傳感器,并配備一個(gè)各向同性的天線(xiàn),使智能體發(fā)出的信號(hào)能在各個(gè)方向上連續(xù)且均勻地傳送,從而保證接收器可以接收到一個(gè)共同的信息。在該環(huán)境中,存在一個(gè)或多個(gè)動(dòng)態(tài)竊聽(tīng)者試圖獲取智能體發(fā)射的信號(hào)。針對(duì)該模型提出以下假設(shè)。
(1)假設(shè)智能體發(fā)出信號(hào)的反射和散射對(duì)最終波束成形結(jié)果的影響很小,可以忽略不計(jì)。
(2)假設(shè)所有智能體均配備相同的傳感器用于發(fā)射信號(hào),并且受到最大發(fā)射功率的限制,即所有智能體以相同的功率發(fā)射信號(hào)。
(3)每個(gè)節(jié)點(diǎn)(包括智能體、接收器和竊聽(tīng)者)都有一個(gè)與載波頻率ω同步的本地振蕩器,載波漂移很小。
2.2信噪比計(jì)算
設(shè)定一個(gè)笛卡兒坐標(biāo)系,智能體分布在坐標(biāo)系原點(diǎn)周?chē)?,接收器在Y軸正方向,竊聽(tīng)者在初始時(shí)刻處于坐標(biāo)系上的一個(gè)隨機(jī)位置。用z、zr和ze分別表示m個(gè)智能體、接收器和竊聽(tīng)者的位置。用ρri=‖zr-zi‖和ρei=‖ze-zi‖分別表示智能體i到接收器和竊聽(tīng)者的距離。
假設(shè)所有智能體的傳感器都發(fā)射相同的信號(hào),用As(t)表示,其中A是發(fā)射信號(hào)的振幅,s(t)是復(fù)數(shù)正弦波,即s(t)=elωt。使用φi(KT)表示智能體i在時(shí)間t∈[KT,(K+1)T]內(nèi)的相位控制變量,φti表示智能體i發(fā)射的傳感器信號(hào)在t時(shí)刻的瞬時(shí)相位偏移。在該系統(tǒng)中,所有智能體上傳感器發(fā)射信號(hào)的相位偏移在t=KT時(shí)被同時(shí)更新,其中T>sπ/ω是一個(gè)常數(shù)。用τri表示從智能體i到接收器的傳播延遲,即τri=ρri/c,ηi為因時(shí)鐘同步誤差而產(chǎn)生的相位偏移。
因此,接收器在時(shí)間t∈[KT,(K+1)T]內(nèi)的綜合接收信號(hào)是
r(t)=∑[DD(]m[]i=1[DD)]μriAs[JB<1(]t-τri-ηi-φi(K)[JB>1)]+n(t)[JZ)][JY](1)
其中:n(t)表示零均值高斯白噪聲,功率為σ2;μri表示從智能體i到接收器因傳輸距離ρri而產(chǎn)生的信號(hào)衰減,即μri=vρ-αri,其中v>0為常數(shù),α為路徑損失指數(shù),通常設(shè)置為3.7。在不失一般性的情況下,假設(shè)高斯白噪聲的功率σ2=1。那么接收器接收到的傳感器信號(hào)的信噪比(SNR)為
由公式(2)和公式(3)可以得出,SNRrec(z,φ)和SNReav(z,φ)都取決于智能體的位置分布和傳感器信號(hào)的相位偏移,即可以通過(guò)智能體的決策決定最終接收器和竊聽(tīng)者接收到信號(hào)的信噪比。
2.3優(yōu)化目標(biāo)
本文旨在確保接收器能接收到良好信號(hào)的前提下,最大限度地避免被動(dòng)態(tài)竊聽(tīng)者竊取信息。由于竊聽(tīng)者會(huì)在環(huán)境中不斷移動(dòng),所以為了實(shí)現(xiàn)上述目標(biāo),智能體需要根據(jù)竊聽(tīng)者的位置變化動(dòng)態(tài)地調(diào)整自身行為,從而持續(xù)降低竊聽(tīng)者接收到的信號(hào)質(zhì)量??紤]到實(shí)際需要,施加了以下兩項(xiàng)限制。
(1)由于目標(biāo)是實(shí)現(xiàn)遠(yuǎn)距離的防竊聽(tīng)通信,限制智能體在一定區(qū)域內(nèi)移動(dòng),通過(guò)調(diào)整自身位置和傳感器信號(hào)的相位偏移改變通信區(qū)域。
(2)為了避免智能體碰撞和傳感器信號(hào)相互干擾,任何兩個(gè)智能體之間的距離ρij=‖zi-zj‖應(yīng)始終大于1/4的傳輸信號(hào)波長(zhǎng)。
由于期望接收器能夠接收到高質(zhì)量的傳輸信號(hào),所以研究人員設(shè)定了一個(gè)信噪比的閾值X,接收器接收到的傳感器信號(hào)的信噪比必須大于此閾值,以保證信號(hào)的可靠傳輸。在此基礎(chǔ)上,通過(guò)尋找參數(shù)的最佳組合(z,φ)*最小化SNReav。
因此,優(yōu)化目標(biāo)可以被表述為
3.1深度強(qiáng)化學(xué)習(xí)概述
強(qiáng)化學(xué)習(xí)作為一種先進(jìn)的機(jī)器學(xué)習(xí)方法,使得智能體可以根據(jù)當(dāng)前自身的策略執(zhí)行動(dòng)作,并通過(guò)與環(huán)境進(jìn)行交互獲得的獎(jiǎng)勵(lì)改進(jìn)自身策略,其目標(biāo)是最大化智能體獲得的累計(jì)獎(jiǎng)勵(lì)。深度強(qiáng)化學(xué)習(xí)融合了深度學(xué)習(xí)的特征表示能力和強(qiáng)化學(xué)習(xí)的決策與控制能力,可以使智能體學(xué)習(xí)到比人工建模更好的特征表示。
針對(duì)多智能體聯(lián)合波束成形問(wèn)題,需要對(duì)智能體本身的行為進(jìn)行限制,以及對(duì)通信目標(biāo)進(jìn)行聯(lián)合優(yōu)化。然而,由于環(huán)境中存在動(dòng)態(tài)的竊聽(tīng)者,因此對(duì)于多個(gè)智能體和竊聽(tīng)者的場(chǎng)景進(jìn)行系統(tǒng)建模極具挑戰(zhàn)性。在這種情況下,傳統(tǒng)的優(yōu)化方法難以處理復(fù)雜的場(chǎng)景。
3.2POMDP
為了使多智能體聯(lián)合波束成形問(wèn)題適用于DRL框架,以下列出了本文建立POMDP的基本要素。
狀態(tài):根據(jù)建立的系統(tǒng)模型,t時(shí)刻的狀態(tài)包括環(huán)境中所有智能體、接收器和竊聽(tīng)者的狀態(tài),s(t)={zt,[AKz·D4]t,φt,ztr,SNRtrec,zte,SNRteav},其中zt={zt1,…,ztm}表示環(huán)境中智能體的位置,[AKz·D4]t={[AKz·D4]ti,…,[AKz·D4]tm}表示智能體的速度,φt={φt1,…,φtm}表示傳感器信號(hào)的相位偏移角度。
動(dòng)作:智能體的行為包括改變移動(dòng)速度和調(diào)整傳感器信號(hào)的相位偏移,即ai(t)={au,aφ}。
觀(guān)測(cè):智能體i在t時(shí)刻的觀(guān)測(cè)包括智能體本身的狀態(tài)、周?chē)悄荏w的狀態(tài)以及接收器和竊聽(tīng)者的相對(duì)位置信息,即oi(t)={zti,[AKz·D4]ti,φti,z〖DD(-1*2〗[HT5]^〖DD)〗t,z〖DD(-1*2〗[HT5]^〖DD)〗tr,z〖DD(-1*2〗[HT5]^〖DD)〗te,φ〖DD(-1*2〗[HT5]^〖DD)〗t}。
獎(jiǎng)勵(lì):由于優(yōu)化目標(biāo)是保證接收器的信號(hào)強(qiáng)度大于設(shè)定的閾值,[JP2]同時(shí)盡量降低竊聽(tīng)者接收的信號(hào)強(qiáng)度,因此設(shè)置獎(jiǎng)勵(lì)函數(shù)Ri(t)=Rrange(t)+Rρ(t)+RSNR(t),其中Rrange(t)=[JP]rrange(t)*wrange為智能體的移動(dòng)范圍限制獎(jiǎng)勵(lì),Rρ(t)=rρ(t)*wρ[JP2]表示智能體之間的距離限制獎(jiǎng)勵(lì),RSNR(t)=rrec(t)*wrec+reav(t)*[JP]weav表示傳輸信號(hào)質(zhì)量獎(jiǎng)勵(lì),具體描述如下。
智能體移動(dòng)范圍限制:智能體超出限定范圍則獲得相應(yīng)懲罰,否則為0。
rrange(t)=[JB({]-1,‖zi‖>D
0,‖zi‖≤D〖JB)〗[JZ)][JY](5)
智能體之間的距離限制:任何兩個(gè)智能體之間的距離ρij=‖zi-zj‖應(yīng)始終大于1/4的傳輸信號(hào)波長(zhǎng)。
rρ(t)=[JB({]-1,ρij>λ/4
0,ρij≤λ/4〖JB)〗[JZ)][JY](6)
傳輸信號(hào)質(zhì)量獎(jiǎng)勵(lì):接收器的信噪比必須大于設(shè)定的閾值,由于優(yōu)化目標(biāo)是盡量降低竊聽(tīng)者接收到的信號(hào)質(zhì)量,所以將竊聽(tīng)者接收到的傳感器信號(hào)的信噪比直接作為負(fù)獎(jiǎng)勵(lì)項(xiàng)。
rrec(t)=[JB({]-1,SNRrec(z,φ)<X
0,SNRrec(z,φ)≥X〖JB)〗[JZ)][JY](7)
reav(t)=-SNReav(z,φ)[JZ)][JY](8)
3.3基于PPO的算法框架
近端策略?xún)?yōu)化(PPO)是一種常用的強(qiáng)化學(xué)習(xí)算法,旨在優(yōu)化智能體的策略,使其在與環(huán)境的交互過(guò)程中獲得最大的累計(jì)獎(jiǎng)勵(lì)。該算法通過(guò)在每次更新模型參數(shù)時(shí)限制新策略與舊策略之間的差異,防止網(wǎng)絡(luò)更新引起劇烈策略變化,該算法引入了一個(gè)截?cái)嗟拇砟繕?biāo)函數(shù),并將其作為優(yōu)化目標(biāo)。目標(biāo)函數(shù)的具體形式如下:
多智能體強(qiáng)化學(xué)習(xí)可以為只具備局部觀(guān)測(cè)的多智能體系統(tǒng)提供分布式的決策,通過(guò)引入一個(gè)全局的價(jià)值函數(shù),將POMDP轉(zhuǎn)化為完全可觀(guān)測(cè)的馬爾可夫決策過(guò)程(MDP)。本文采用集中式訓(xùn)練分布式執(zhí)行的框架,分為集中式訓(xùn)練階段和分布式執(zhí)行階段。
在集中式訓(xùn)練階段,Critic網(wǎng)絡(luò)基于全局狀態(tài)信息計(jì)算行為價(jià)值函數(shù)Q(s,a1,…,am|φ),評(píng)估智能體的行為,通過(guò)最小化損失函數(shù)更新參數(shù)。
Actor網(wǎng)絡(luò)根據(jù)智能體的局部觀(guān)測(cè)輸出智能體的行為,同時(shí)根據(jù)Critic網(wǎng)絡(luò)計(jì)算的行為價(jià)值函數(shù),沿梯度方向更新網(wǎng)絡(luò)參數(shù)θ。
在分布式執(zhí)行階段,不使用Critic網(wǎng)絡(luò)進(jìn)行評(píng)估,每個(gè)智能體獨(dú)立執(zhí)行一個(gè)Actor網(wǎng)絡(luò),根據(jù)自身的局部觀(guān)測(cè)進(jìn)行決策。
算法的訓(xùn)練過(guò)程包括兩個(gè)步驟:在經(jīng)驗(yàn)收集階段,所有智能體使用同一個(gè)策略網(wǎng)絡(luò)產(chǎn)生的行為與環(huán)境交互,并記錄采樣軌跡,然后計(jì)算優(yōu)勢(shì)函數(shù)和狀態(tài)價(jià)值函數(shù);在策略?xún)?yōu)化階段,在經(jīng)驗(yàn)緩存區(qū)中隨機(jī)采樣小批量數(shù)據(jù),對(duì)策略網(wǎng)絡(luò)和狀態(tài)價(jià)值網(wǎng)絡(luò)進(jìn)行更新。
4.1實(shí)驗(yàn)設(shè)置
本文基于多智能體粒子世界環(huán)境(MPE)構(gòu)建了一個(gè)新的交互場(chǎng)景,用于模擬多智能體的行為及聯(lián)合波束成形過(guò)程。如圖2所示,假設(shè)環(huán)境中存在一個(gè)笛卡兒坐標(biāo)系,智能體初始時(shí)隨機(jī)分布在坐標(biāo)系原點(diǎn)周?chē)?,并被限制在一個(gè)給定半徑(D=0.8)范圍內(nèi)進(jìn)行移動(dòng),同時(shí)隨機(jī)設(shè)定每個(gè)智能體傳感器信號(hào)的初始相位偏移φi∈[0,2π];接收器位于Y軸的正方向,位置坐標(biāo)為[0,3];竊聽(tīng)者在初始時(shí)刻處于智能體附近的一個(gè)隨機(jī)位置,并在環(huán)境中不斷移動(dòng),限制竊聽(tīng)者移動(dòng)的角度范圍為[0,π/4]∪[3π/4,2π]。
使用獎(jiǎng)勵(lì)函數(shù)限制智能體的行為,包括智能體的移動(dòng)范圍限制及智能體之間的距離限制;設(shè)置移動(dòng)范圍限制獎(jiǎng)勵(lì)權(quán)重wrange=30;為完成系統(tǒng)目標(biāo),設(shè)置接收器信號(hào)質(zhì)量獎(jiǎng)勵(lì)權(quán)重wrec=20,竊聽(tīng)者信號(hào)質(zhì)量獎(jiǎng)勵(lì)權(quán)重weav=5;此外,為了避免智能體之間發(fā)生碰撞以及減少傳感器信號(hào)的相互干擾,設(shè)置距離限制獎(jiǎng)勵(lì)權(quán)重wρ=1。在仿真環(huán)境中,為了簡(jiǎn)化計(jì)算,研究人員忽略因時(shí)鐘同步誤差而產(chǎn)生的相位偏移,設(shè)定v2A2=1,信噪比閾值X=5dB,SNRrec(z,φ)需要大于此閾值,以保證可靠通信。
為了驗(yàn)證本文所提出方法的穩(wěn)定性,針對(duì)該仿真環(huán)境,分別在智能體數(shù)量增加和竊聽(tīng)者數(shù)量增加的情況下,創(chuàng)建了6種不同的仿真場(chǎng)景,智能體數(shù)量m為3,4,5,分別對(duì)應(yīng)單個(gè)或兩個(gè)竊聽(tīng)者,如圖3所示,a3e1表示3個(gè)智能體和1個(gè)竊聽(tīng)者的場(chǎng)景。
從圖4中各場(chǎng)景下的獎(jiǎng)勵(lì)曲線(xiàn)可以看出,算法在不同場(chǎng)景下均能達(dá)到收斂。在智能體數(shù)量增加的情況下,由于每個(gè)智能體發(fā)出的傳感器信號(hào)幅值相同,導(dǎo)致竊聽(tīng)者也可以接收到相對(duì)更強(qiáng)的傳感器信號(hào);當(dāng)竊聽(tīng)者數(shù)量增加時(shí),SNReav為環(huán)境中所有竊聽(tīng)者接收到的傳感器信號(hào)的疊加,因此最終達(dá)到收斂時(shí),系統(tǒng)獲得的獎(jiǎng)勵(lì)均有所降低。從圖4中可以看出,竊聽(tīng)者數(shù)量對(duì)于最終收斂獎(jiǎng)勵(lì)的影響更大。
本文在各場(chǎng)景下模擬了智能體與環(huán)境的交互過(guò)程,并進(jìn)行可視化展示,包括智能體的狀態(tài)及行為決策和竊聽(tīng)者的行為等,為了能直觀(guān)地表示當(dāng)前的通信狀態(tài),可視化模擬了環(huán)境中各個(gè)位置接收到傳感器信號(hào)的信噪比變化。各場(chǎng)景下的波束成形結(jié)果如圖5所示。
當(dāng)環(huán)境中只有一個(gè)竊聽(tīng)者時(shí),增加智能體的數(shù)量不會(huì)影響最終的波束成形結(jié)果,通過(guò)調(diào)整智能體行為均能實(shí)現(xiàn)防竊聽(tīng)通信;當(dāng)竊聽(tīng)者數(shù)量增加時(shí),盡管每個(gè)智能體發(fā)出的傳感器信號(hào)幅值不變,這會(huì)在一定程度上增強(qiáng)接收器處收到的信號(hào),但同時(shí)也增大了信息被竊聽(tīng)的風(fēng)險(xiǎn)。為了解決此問(wèn)題,可以通過(guò)調(diào)整傳感器信號(hào)的強(qiáng)度避免通信被竊聽(tīng)。
5結(jié)論(Conclusion)
本文研究了一種防竊聽(tīng)的多智能體波束成形方法。該方法通過(guò)結(jié)合了多智能體的移動(dòng)決策和傳感器信號(hào)的相位控制,實(shí)現(xiàn)了動(dòng)態(tài)的防竊聽(tīng)通信。首先建立了系統(tǒng)模型,并提出系統(tǒng)通信目標(biāo)和防竊聽(tīng)目標(biāo)的聯(lián)合優(yōu)化問(wèn)題,其次將該問(wèn)題建模為在智能體行為受限情況下的POMDP。為解決此問(wèn)題,設(shè)計(jì)了一種基于PPO的多智能體深度強(qiáng)化學(xué)習(xí)方法,通過(guò)在交互過(guò)程中優(yōu)化智能體的行為策略,使多智能體系統(tǒng)獲得最大的累計(jì)獎(jiǎng)勵(lì)。本文在多個(gè)場(chǎng)景下評(píng)估了算法的性能,并進(jìn)行可視化仿真,實(shí)驗(yàn)結(jié)果驗(yàn)證了本文所提出方法的有效性。
參考文獻(xiàn)(References)
[1][ZK(#]KANDRISD,NAKASC,VOMVASD,etal.Applicationsofwirelesssensornetworks:anup\|to\|datesurvey[J].Appliedsysteminnovation,2020,3(1):14.
[2]孫彬,耿偉濤.無(wú)線(xiàn)傳感器網(wǎng)絡(luò)節(jié)點(diǎn)覆蓋優(yōu)化策略研究[J].信息與電腦(理論版),2023,35(6):13\|16.
[3]周游,蘭天宇.無(wú)線(xiàn)通信系統(tǒng)中的智能反射面研究綜述[J].信息工程大學(xué)學(xué)報(bào),2021,22(3):277\|282.
[4]馬曉琳,袁全盛,江源,等.面向無(wú)人機(jī)通信安全的波束成形策略研究[J].現(xiàn)代電子技術(shù),2023,46(19):13\|19.
[5]TANYJ,ZHUC,TANTC,etal.Self\|adaptivedeepreinforcementlearningforTHzbeamformingwithsiliconmetasurfacesin6Gcommunications[J].Opticsexpress,2022,30(15):27763\|27779.
[6]MJPpzVNHzbwxRnuVzye+FqB2Ld7VgAJGoogoM5TuZ57A=ISMARFB,EVANSBL,ALKHATEEBA.Deepreinforcement learningfor5Gnetworks:jointbeamforming,powercontrol,andinterferencecoordination[J].IEEEtransactionsoncommunications,2020,68(3):1581\|1592.
[7]YUH,KIMT,JAFARKHANIH.Wirelesssecurecommunicationwithbeamformingandjammingintime\|varyingwiretapchannels[J].IEEEtransactionsoninformationforensicsandsecurity,2018,13(8):2087\|2100.
[8]YANGHL,XIONGZH,ZHAOJ,etal.Deepreinforcementlearning\|basedintelligentreflectingsurfaceforsecurewirelesscommunications[J].IEEEtransactionsonwirelesscommunications,2021,20(1):375\|388.
[9]XIAOL,SHENGGY,LIUSC,etal.Deepreinforcementlearning\|enabledsecurevisiblelightcommunicationagainsteavesdropping[J].IEEEtransactionsoncommunications,2019,67(10):6994\|7005.