亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于強(qiáng)化學(xué)習(xí)的無人機(jī)電磁干擾感知與抗干擾傳輸方法*

        2023-12-25 14:41:58李博揚(yáng)萬諾天夏曉晨張?jiān)略?/span>
        電訊技術(shù) 2023年12期
        關(guān)鍵詞:干擾機(jī)發(fā)射功率信道

        李博揚(yáng),劉 洋,萬諾天,許 魁,夏曉晨,張?jiān)略?張 咪

        (陸軍工程大學(xué) 通信工程學(xué)院,南京 210007)

        0 引 言

        無人機(jī)(Unmanned Aerial Vehicle,UAV)在過去的幾十年里已經(jīng)得到了廣泛的應(yīng)用[1]。無人機(jī)具有部署靈活、機(jī)動性高、隱蔽性強(qiáng)的特性,近年來被廣泛應(yīng)用于軍事領(lǐng)域,其無人化的突出特點(diǎn)可以有效減少人員的戰(zhàn)斗傷亡,在戰(zhàn)場態(tài)勢中擁有巨大的應(yīng)用潛力。隨著無人機(jī)成本的不斷降低和設(shè)備體積的小型化,無人機(jī)也開始廣泛應(yīng)用于民用領(lǐng)域,包括通信中繼、交通運(yùn)輸、目標(biāo)快速檢測等[2-3]。

        低空的無人機(jī)與地外通信或基于高海拔平臺的通信相比,能夠更快地部署,更靈活地重新配置,并且由于存在短距離視距鏈路,可能具有更好的通信通道[4]。

        然而,對電磁環(huán)境的依賴導(dǎo)致無人機(jī)具有易被干擾的致命弱點(diǎn)[3]。近年來,許多學(xué)者針對該問題進(jìn)行了一系列研究。在電磁感知研究方面,文獻(xiàn)[5]提出了一種通過少量感知節(jié)點(diǎn)獲取不完整采樣電磁數(shù)據(jù)(Electromagnetic Data,ED)的方案,利用復(fù)合電磁圖重建方法重構(gòu)完整的ED;文獻(xiàn)[6]通過設(shè)計(jì)一種生成對抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)用于提取時(shí)域電磁相關(guān)信息,提出了一種域映射算法,能夠有效獲取頻域的電磁相關(guān)信息;文獻(xiàn)[7]針對復(fù)雜電磁環(huán)境,研究了一種適應(yīng)高噪聲干擾強(qiáng)度的數(shù)字信號調(diào)制識別模型。在抗干擾策略研究方面,文獻(xiàn)[8]在地面存在惡意電磁干擾的情況下,通過聯(lián)合優(yōu)化地面?zhèn)鞲衅?Ground Sensor,GS)的傳輸調(diào)度、無人機(jī)水平和垂直軌跡,最大化了有限飛行周期內(nèi)GS之間的最小期望速率;文獻(xiàn)[9]從博弈論的角度出發(fā),提出了基于博弈的無人機(jī)與干擾機(jī)之間的競爭關(guān)系,根據(jù)無人機(jī)的效用函數(shù),選擇最優(yōu)功率控制策略對抗干擾;文獻(xiàn)[10]從靜態(tài)博弈和動態(tài)博弈兩方面分析了無人機(jī)網(wǎng)絡(luò)的抗干擾問題,研究了無線信道衰落特性和飛行成本對靜態(tài)博弈中納什均衡(Nash Equilibrium,NE)的影響;文獻(xiàn)[11]對無人機(jī)和用戶效用函數(shù)進(jìn)行了設(shè)計(jì),利用斯坦伯格博弈(Stackelberg Game)模型模擬抗干擾場景,聯(lián)合優(yōu)化無人機(jī)的功率和信道選擇進(jìn)行抗干擾。

        強(qiáng)化學(xué)習(xí)算法得益于可以在未知的環(huán)境中進(jìn)行快速的學(xué)習(xí),因此被廣泛應(yīng)用于通信抗干擾的研究中。Q學(xué)習(xí)算法是強(qiáng)化學(xué)習(xí)領(lǐng)域的經(jīng)典算法,其核心思想是通過在環(huán)境中試錯(cuò),不斷優(yōu)化智能體的決策,以提高智能體獲得的獎(jiǎng)勵(lì)值[12]。文獻(xiàn)[13]利用無人機(jī)的通信頻率、運(yùn)動軌跡和空間域的自由度提出了一種多參數(shù)規(guī)劃的Q學(xué)習(xí)算法,優(yōu)化了接收方的通信質(zhì)量。文獻(xiàn)[14]通過核密度估計(jì)(Kernel Density Estimation,KDE)估計(jì)有效干擾信號強(qiáng)度的概率密度函數(shù)(Probability Density Function,PDF),提出了一種基于深度強(qiáng)化學(xué)習(xí)的算法來優(yōu)化系統(tǒng)中的功率控制策略,能夠在降低功耗的同時(shí)降低通信的中斷概率。文獻(xiàn)[15]針對毫米波大規(guī)模多輸入多輸出(Multiple-Input Multiple-Output,MIMO)系統(tǒng)的抗干擾問題,提出了一種基于策略爬山(Policy Hill-climbing,PHC)算法的功率控制算法,與Q學(xué)習(xí)算法相比,能夠?qū)崿F(xiàn)更高的平均信噪比和系統(tǒng)可達(dá)速率。文獻(xiàn)[16]針對無人機(jī)群抗干擾傳輸?shù)膱鼍?提出了一種智能算法,能夠同時(shí)實(shí)現(xiàn)最大化的系統(tǒng)可達(dá)速率和最小化的跳頻開銷。文獻(xiàn)[17]通過聯(lián)合控制發(fā)射機(jī)的功率和信道接入對抗不同策略下的惡意電磁干擾,但未考慮實(shí)際通信場景的信道衰落和變化。

        本文針對無人機(jī)空地抗干擾通信系統(tǒng)提出了一種基于強(qiáng)化學(xué)習(xí)的抗干擾方法。在對干擾信息進(jìn)行感知的基礎(chǔ)上,將無人機(jī)的功率和信道選擇策略建模為馬爾科夫決策過程(Markov Decision Process,MDP),利用強(qiáng)化學(xué)習(xí)算法對其進(jìn)行智能優(yōu)化,提出了一種基于贏或快學(xué)習(xí)策略爬山算法(Win or Learn Fast Policy Hill-climbing,WoLF-PHC)的無人機(jī)抗干擾策略,通過仿真驗(yàn)證了所提算法的抗干擾性能優(yōu)于PHC算法和Q學(xué)習(xí)算法。

        1 系統(tǒng)模型與問題建模

        1.1 系統(tǒng)模型

        圖1所示為無人機(jī)空地通信系統(tǒng)模型。

        圖1 系統(tǒng)模型

        當(dāng)無人機(jī)向地面用戶發(fā)送信號時(shí),在地面用戶附近存在一個(gè)惡意干擾機(jī),企圖對地面用戶的信道接入進(jìn)行電磁干擾,阻斷無人機(jī)與用戶的合法通信。假設(shè)無人機(jī)-地面用戶和干擾機(jī)-地面用戶均為視距鏈路,地面用戶接收到的信號為

        (1)

        式中:pt表示無人機(jī)的發(fā)射功率;pj表示干擾機(jī)的干擾發(fā)射功率,其發(fā)射功率均受最大發(fā)射功率的限制,pi≤pimax,i=t,j;st表示無人機(jī)的發(fā)射信號;sj表示干擾機(jī)的電磁干擾信號,假設(shè)E{si}=0,E{|si|2}=1,i=t,j;n表示地面用戶所處位置的加性高斯白噪聲,服從均值為0、方差為σ2的高斯分布。

        所有信道均假定為準(zhǔn)靜態(tài)平坦衰落模型,地面用戶接收到的信干噪比為[13]

        (2)

        式中:x為干擾因子,當(dāng)?shù)孛嬗脩舯桓蓴_時(shí)x=1;未被干擾時(shí)x=0,即

        (3)

        式中:ct表示無人機(jī)與地面用戶之間的通信信道;cj表示干擾機(jī)的干擾信道。

        1.2 問題建模

        本文的優(yōu)化指標(biāo)為地面用戶的可達(dá)速率,當(dāng)干擾機(jī)對地面用戶的信道接入進(jìn)行惡意電磁干擾時(shí),可以通過動態(tài)調(diào)整無人機(jī)的發(fā)射功率及信道選擇規(guī)避干擾,以最大限度地提高地面用戶的可達(dá)速率。優(yōu)化問題表示為

        max lb(1+RSIN)

        (4)

        s.t.C1:pt≤ptmax,

        C2:ci∈{C},i=t,j。

        式中:ptmax為無人機(jī)的最大發(fā)射功率,發(fā)射功率pt小于等于ptmax;{C}為無人機(jī)與干擾機(jī)的可用信道集,當(dāng)ct=cj時(shí),地面用戶受到干擾機(jī)的惡意電磁干擾,信干噪比下降。由于干擾機(jī)的干擾策略是動態(tài)未知的,因此可以采用強(qiáng)化學(xué)習(xí)算法,通過在動態(tài)環(huán)境中的試錯(cuò)探索,優(yōu)化該空地通信系統(tǒng)的抗干擾方法,達(dá)到提升地面用戶可達(dá)速率的目的。

        2 MDP建模

        強(qiáng)化學(xué)習(xí)的核心思想是通過智能體在環(huán)境中不斷交互得到的獎(jiǎng)勵(lì)值,進(jìn)行自身決策優(yōu)化,以達(dá)到獎(jiǎng)勵(lì)最大化的目的。其基本要素有狀態(tài)、動作、策略、獎(jiǎng)勵(lì)函數(shù)、價(jià)值函數(shù)、環(huán)境模型[12],學(xué)習(xí)過程可以描述為如圖2所示的馬爾科夫決策過程。針對信道跟隨干擾,可采取強(qiáng)化學(xué)習(xí)的方式,將無人機(jī)的功率和信道選擇策略建模為馬爾科夫決策過程[18]。

        圖2 強(qiáng)化學(xué)習(xí)基本模型

        在這一場景下,無人機(jī)空地通信系統(tǒng)作為環(huán)境,無人機(jī)作為智能體對干擾進(jìn)行感知和學(xué)習(xí)。狀態(tài)、動作、策略和獎(jiǎng)勵(lì)函數(shù)的設(shè)置分別如下[17]:

        (5)

        (6)

        策略:π(·)表示從當(dāng)前系統(tǒng)狀態(tài)映射到某個(gè)可選動作的概率分布,即π(sn,an):sn→an。

        獎(jiǎng)勵(lì):智能體通過環(huán)境反饋的獎(jiǎng)勵(lì)值優(yōu)化下一步的動作,因此獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)與系統(tǒng)性能的期望目標(biāo)相關(guān)聯(lián)。在本文中,優(yōu)化目標(biāo)為最大限度地提高地面用戶的可達(dá)速率,但同時(shí)也應(yīng)考慮盡可能地降低無人機(jī)的功耗,包括發(fā)射功率代價(jià)以及信道切換代價(jià)。因此,獎(jiǎng)勵(lì)函數(shù)定義為

        (7)

        式中:JP表示無人機(jī)的發(fā)射功率代價(jià)系數(shù);Jc表示無人機(jī)的信道切換代價(jià)系數(shù);zn表示當(dāng)前時(shí)隙的信道切換狀態(tài),定義為[17]

        3 算法實(shí)現(xiàn)

        3.1 電磁干擾感知算法

        電磁干擾感知是指通過對電磁信號的監(jiān)測和分析,及時(shí)發(fā)現(xiàn)和定位電磁干擾信號的時(shí)域、頻域特征的技術(shù),是對抗惡意的電磁干擾的前提手段[19]。

        常用的電磁干擾感知方法有功率譜估計(jì)法[20]、小波頻譜感知[21]、學(xué)習(xí)算法類頻譜感知[22]等,其中,小波感知算法不需要檢測信號的先驗(yàn)信息,屬于半盲檢測,由于小波變換具有多分辨率特性,因此能夠?qū)︻l帶的高頻部分進(jìn)行更為細(xì)致的頻譜分析[23];學(xué)習(xí)算法類頻譜感知在干擾信息動態(tài)未知的抗干擾傳輸場景中更具有優(yōu)勢,可以分析識別獲得干擾機(jī)的攻擊信道。

        本文基于長短期記憶(Long Short-Term Memory,LSTM)神經(jīng)網(wǎng)絡(luò)算法[24]實(shí)現(xiàn)電磁干擾感知來獲取對方的信道信息。干擾機(jī)采用信道跟隨干擾的策略,以某一恒定功率值對地面用戶進(jìn)行干擾,即干擾機(jī)當(dāng)前時(shí)刻的干擾信道始終與其感知到的上一時(shí)刻的通信信道保持一致。如圖3所示,綠色部分代表無人機(jī)與地面用戶合法通信信道,橙色部分代表干擾機(jī)攻擊的信道。

        圖3 通信合法信道與被干擾信道信息

        無人機(jī)通過電磁干擾感知獲得上一時(shí)刻的干擾信息后,依據(jù)鏈路反饋的通信質(zhì)量對抗干擾決策進(jìn)行優(yōu)化,通過強(qiáng)化學(xué)習(xí)算法對決策過程進(jìn)行訓(xùn)練,以提升用戶的可達(dá)速率,降低干信比。

        3.2 基于WoLF-PHC的抗干擾算法實(shí)現(xiàn)

        Q學(xué)習(xí)算法是強(qiáng)化學(xué)習(xí)中的典型算法,其中智能體的目標(biāo)是最大化當(dāng)前時(shí)刻的長期累積折現(xiàn)獎(jiǎng)勵(lì),即

        (9)

        式中:γ∈(0,1]為折現(xiàn)因子,用于權(quán)衡潛在的未來獎(jiǎng)勵(lì)對于當(dāng)下的影響。Q學(xué)習(xí)是將狀態(tài)和動作張成一個(gè)二維Q表來存儲Q值,Q值函數(shù)Q(sn,an)表示在狀態(tài)sn下執(zhí)行動作an的價(jià)值,可以表示為

        (10)

        智能體根據(jù)Q值來選取能夠獲得最大獎(jiǎng)勵(lì)的動作。傳統(tǒng)的Q學(xué)習(xí)的Q值函數(shù)按照下式更新[12]:

        (11)

        式中:α∈(0,1]表示學(xué)習(xí)率。為了避免學(xué)習(xí)結(jié)果陷入局部最優(yōu),Q學(xué)習(xí)算法采用貪婪策略來平衡挖掘和探索之間的關(guān)系[25]。在貪婪策略中,智能體以概率ε選擇該狀態(tài)下Q值最大的動作,以概率1-ε隨機(jī)選擇動作。智能體的動作選擇概率表示為

        (12)

        Q學(xué)習(xí)需要準(zhǔn)確地估計(jì)每個(gè)狀態(tài)-動作對應(yīng)的Q值,每一步對Q表中的Q值進(jìn)行更新,學(xué)習(xí)智能體在每一步做出動作,與環(huán)境進(jìn)行交互,從而不斷優(yōu)化決策動作的能力,達(dá)到提升獎(jiǎng)勵(lì)值的目的。

        WoLF-PHC算法是在Q學(xué)習(xí)的核心思想基礎(chǔ)上進(jìn)行的拓展[26],該算法結(jié)合了WoLF(Win or Learn Fast)和PHC(Policy Hill-climbing)算法,采用平均策略來近似均衡策略,通過可變的學(xué)習(xí)率增強(qiáng)了智能體的探索能力和效率。

        在智能體執(zhí)行一次動作到達(dá)下一狀態(tài)且更新Q值后,平均策略的更新方式如下:

        (13)

        式中:C(s)表示狀態(tài)sn被訪問過的次數(shù)。當(dāng)智能體的表現(xiàn)比期望值好的時(shí)候,降低學(xué)習(xí)速度;反之,加快學(xué)習(xí)速度,尋找更優(yōu)策略:

        (14)

        (15)

        基于WoLF-PHC的抗干擾算法步驟如下:

        2 開始迭代:n=1,2,…,N

        3 獲取初始狀態(tài)s0;

        4 在當(dāng)前狀態(tài)sn下根據(jù)策略π(s,a)選擇動作an,獲得獎(jiǎng)勵(lì)rn并轉(zhuǎn)移到下一狀態(tài)sn+1;

        7 根據(jù)式(14)、(15)更新策略;

        8 更新狀態(tài)。

        4 仿真與分析

        本節(jié)對無人機(jī)空地通信系統(tǒng)基于強(qiáng)化學(xué)習(xí)的抗干擾進(jìn)行仿真實(shí)驗(yàn),對比在不同學(xué)習(xí)算法訓(xùn)練下的抗干擾性能指標(biāo)。仿真參數(shù)如表1所示。

        表1 仿真參數(shù)

        如圖4所示,以地面用戶為坐標(biāo)軸原點(diǎn)建立直角坐標(biāo)系,地面用戶所處位置為(0,0);無人機(jī)在以(100 m,100 m)為圓心、10 m為半徑的圓內(nèi)懸停,并且會發(fā)生10 m內(nèi)的小幅度的位移抖動;干擾機(jī)位于(150 m,0)位置處。

        圖4 系統(tǒng)模型位置示意

        無線信道中的路徑損耗表示為

        LP=LP0-10βlg(d/d0) 。

        (16)

        式中:LP0=30 dB;參考距離d0為1 m;β為信道中的路徑損耗指數(shù),無人機(jī)-地面用戶鏈路與干擾機(jī)-地面用戶鏈路的路徑損耗指數(shù)均為2.2。

        針對電磁干擾,進(jìn)行了干擾強(qiáng)度感知的仿真,利用干信比表示干擾信號的強(qiáng)度,定義為瞬時(shí)干擾信號強(qiáng)度與用戶接收到的有用信號強(qiáng)度之比。圖5所示為隨機(jī)策略、Q學(xué)習(xí)、PHC算法和WoLF-PHC算法的干擾感知結(jié)果,可見隨著學(xué)習(xí)進(jìn)程的加深干信比隨之降低,WoLF-PHC算法最終收斂到的干信比值低于其他算法。

        圖5 不同算法下的瞬時(shí)干信比

        圖6所示,WoLF-PHC算法能夠挖掘出智能體更大的潛力,最終能夠收斂到更高的獎(jiǎng)勵(lì)值。智能體使用WoLF-PHC算法經(jīng)過一段時(shí)間的學(xué)習(xí)后瞬時(shí)獎(jiǎng)勵(lì)由12.3提升到16.2,提升了31%。

        圖6 不同算法下的瞬時(shí)獎(jiǎng)勵(lì)

        圖7給出了不同算法下地面用戶的中斷概率,當(dāng)?shù)孛嬗脩舻乃矔r(shí)信干噪比小于5 dB時(shí),判斷無人機(jī)與地面用戶間的通信發(fā)生中斷。仿真結(jié)果顯示,隨機(jī)策略下中斷概率維持在0.22不發(fā)生變化;使用Q學(xué)習(xí)算法,地面用戶的中斷概率由0.12降低到0.08;使用PHC算法,中斷概率從0.125降低到0.025;使用WoLF-PHC算法,中斷概率從0.10降低到接近于0。

        圖7 不同算法下的中斷概率

        圖8所示為智能體使用不同算法學(xué)習(xí)后地面用戶可達(dá)速率的變化,地面用戶可達(dá)速率為本文優(yōu)化的目標(biāo)量。仿真結(jié)果顯示,WoLF-PHC算法能夠達(dá)到較好的可達(dá)率提升效果,在初始值基礎(chǔ)上提升了14%;PHC算法提升了約11%;Q學(xué)習(xí)算法提升了約2%。

        圖8 不同算法下的用戶可達(dá)速率

        5 結(jié)束語

        本文針對無人機(jī)空地通信系統(tǒng)中的抗干擾問題,在對干擾進(jìn)行電磁頻譜感知的基礎(chǔ)上利用強(qiáng)化學(xué)習(xí)算法對無人機(jī)進(jìn)行訓(xùn)練學(xué)習(xí),使其具有智能抗干擾傳輸?shù)哪芰?。通過聯(lián)合控制無人機(jī)發(fā)射功率和信道選擇對抗干擾機(jī)的惡意干擾,有效提升了用戶可達(dá)速率,降低了干信比。通過仿真實(shí)驗(yàn)對比了4種不同算法的抗干擾性能,結(jié)果驗(yàn)證了所提的WoLF-PHC算法的抗干擾傳輸性能優(yōu)于PHC算法、Q學(xué)習(xí)算法以及隨機(jī)抗干擾策略。

        在下一步的研究中,將對強(qiáng)化學(xué)習(xí)的算法進(jìn)行優(yōu)化,以降低算法復(fù)雜度,縮短學(xué)習(xí)收斂的時(shí)間。

        猜你喜歡
        干擾機(jī)發(fā)射功率信道
        無線電波發(fā)射功率防爆要求與檢測方法
        工礦自動化(2024年6期)2024-08-22 00:00:00
        雷聲公司交付首套中頻段下一代干擾機(jī)
        放大轉(zhuǎn)發(fā)中繼器降低發(fā)射功率的選擇策略研究
        淺談AC在WLAN系統(tǒng)中的應(yīng)用
        基于壓縮感知的單脈沖雷達(dá)欺騙干擾機(jī)研究
        基于功率分配最優(yōu)中繼選擇的研究
        空襲遠(yuǎn)距離支援干擾機(jī)陣位選擇及航線規(guī)劃
        美國海軍將研制新一代干擾機(jī)
        基于導(dǎo)頻的OFDM信道估計(jì)技術(shù)
        一種改進(jìn)的基于DFT-MMSE的信道估計(jì)方法
        免费无码又爽又刺激聊天app| 久久老熟女一区二区三区| 乱人伦人妻中文字幕无码| 日本香蕉久久一区二区视频| 亚洲人成网站在线播放小说| 五月婷婷丁香视频在线观看| 狠狠色噜噜狠狠狠狠97首创麻豆| 日本爽快片100色毛片| 精品久久久中文字幕人妻| 久久国产精99精产国高潮| 国产精品成年人毛片毛片| 中文字幕无码成人片| 国产呦系列呦交| 免费观看久久精品日本视频| 在线观看一区二区三区国产| 天天躁夜夜躁狠狠是什么心态 | 在教室伦流澡到高潮hgl视频 | 国产无人区码一码二码三mba | 曰韩内射六十七十老熟女影视| 亚洲av永久无码精品一区二区| 女的把腿张开男的猛戳出浆| 日本女优在线观看一区二区三区| 好看的日韩精品视频在线| 国产精品理论片| 午夜亚洲www湿好爽| 国产一区二区三区精品久久呦| 国产日本精品一区二区免费 | 极品新婚夜少妇真紧| 亚洲VA中文字幕无码毛片春药| 视频在线播放观看免费| 少妇无码av无码专线区大牛影院| 精产国品一二三产区m553麻豆 | 国产精品白浆一区二小说| 女同另类激情在线三区| 人妻有码中文字幕在线| 国产精品一区二区三区在线免费| 蜜桃无码一区二区三区| 国产成人精品日本亚洲18| 国产av一区二区三区区别| 91乱码亚洲精品中文字幕| 国产成人无码精品久久久露脸|