趙 桐, 陸滿君, 張文旭,4, 曲海山, 張 濤
(1.哈爾濱工程大學(xué)信息與通信工程學(xué)院,黑龍江 哈爾濱 150001;2.哈爾濱工程大學(xué)工業(yè)和信息化部先進(jìn)船舶通信與信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,黑龍江 哈爾濱 150001;3.上海無(wú)線電設(shè)備研究所,上海 201109;4.南京航空航天大學(xué)電磁頻譜空間認(rèn)知?jiǎng)討B(tài)系統(tǒng)工信部重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 211106)
捷變頻雷達(dá)(frequency agile radar,FAR)是一種相鄰脈沖的載頻在一定頻帶內(nèi)快速改變的脈沖雷達(dá),具有探測(cè)距離大、測(cè)角精度高、抗窄帶瞄準(zhǔn)式有源干擾能力強(qiáng)等優(yōu)點(diǎn)[1]。目前在軍事領(lǐng)域中,大多采用該體制雷達(dá)進(jìn)行電子戰(zhàn)對(duì)抗,并逐漸向民用船載雷達(dá)領(lǐng)域發(fā)展。在干擾對(duì)抗過(guò)程中,如果干擾方不能有效跟蹤捷變頻雷達(dá)的頻點(diǎn),則瞄準(zhǔn)式窄帶干擾幾乎失去作用,而掃頻和寬帶阻塞干擾將功率浪費(fèi)在較大帶寬上,導(dǎo)致干擾效果也大為降低,同時(shí)欺騙干擾因不能有效跟蹤也難以起效[2]。因此對(duì)捷變頻雷達(dá)頻點(diǎn)的自適應(yīng)跟蹤與決策成為亟待解決的問(wèn)題。
跟蹤捷變頻雷達(dá)頻率跳變過(guò)程本質(zhì)上是一個(gè)序列決策問(wèn)題,而強(qiáng)化學(xué)習(xí)為解決序列決策問(wèn)題提供了一種強(qiáng)有力的工具。近年來(lái),強(qiáng)化學(xué)習(xí)研究取得了長(zhǎng)足的進(jìn)步。2018年程引[3]針對(duì)具有各種性質(zhì)差異的時(shí)間序列決策任務(wù),研究了多種具有代表性的決策設(shè)計(jì)方法,并以具體應(yīng)用案例為背景,驗(yàn)證了在決策對(duì)象不同的情況下,所提方法依然適用于獎(jiǎng)勵(lì)獲取方式相近的場(chǎng)景,具有通用性。2019年楊鴻杰[4]針對(duì)通信系統(tǒng)參數(shù)不變、敵方會(huì)根據(jù)受干擾情況切換信道以及改變通信參數(shù)等三種應(yīng)用場(chǎng)景,提出了合適的智能干擾決策算法。劉凌云[5]隨后結(jié)合強(qiáng)化學(xué)習(xí)與增量學(xué)習(xí)的思想,提出了基于Q學(xué)習(xí)算法的增量分類模型,并驗(yàn)證了該模型具有分類精度高、實(shí)時(shí)性強(qiáng)等特點(diǎn)?;趶?qiáng)化學(xué)習(xí)的干擾策略研究至此進(jìn)入了百家爭(zhēng)鳴的階段。強(qiáng)化學(xué)習(xí)是通過(guò)智能體與所在環(huán)境不斷地進(jìn)行動(dòng)態(tài)交互,類似于生物感知環(huán)境,在一遍遍試錯(cuò)中獲得更多的感知信息,自主學(xué)習(xí)到最優(yōu)干擾策略的過(guò)程。基于此,本文采用一種基于強(qiáng)化學(xué)習(xí)的經(jīng)典算法——Q學(xué)習(xí)算法,實(shí)現(xiàn)對(duì)捷變頻雷達(dá)頻點(diǎn)的自適應(yīng)跟蹤與決策。
捷變頻雷達(dá)的特點(diǎn)是發(fā)射脈沖的載頻在一個(gè)很大的范圍內(nèi)以很高的速率隨機(jī)跳變。相參體制的捷變頻雷達(dá)大都采用電調(diào)諧方法實(shí)現(xiàn)跳頻,跳頻規(guī)律可以做到偽隨機(jī)[6],發(fā)射頻率的概率分布在捷變頻帶寬內(nèi)是均勻的。非相參體制的捷變頻雷達(dá)多采用旋轉(zhuǎn)調(diào)諧磁控管振蕩器,以正弦規(guī)律進(jìn)行旋轉(zhuǎn)調(diào)諧,實(shí)現(xiàn)頻率捷變。本文所提的頻點(diǎn)跟蹤與決策算法主要針對(duì)相參體制的捷變頻雷達(dá)。
捷變頻雷達(dá)為躲避干擾信道不斷改變工作頻率,而干擾方就需要不斷偵察頻率信息,進(jìn)行頻率跟蹤。捷變頻雷達(dá)頻率跳變的過(guò)程如圖1所示。跳頻序列為(f3,f1,f4,f2,f6),信號(hào)頻率隨時(shí)間在不同的信道間跳變,跳變規(guī)律由偽碼序列決定[7]。
圖1 捷變頻雷達(dá)頻率跳變示意圖
強(qiáng)化學(xué)習(xí)是根據(jù)自然界中動(dòng)物學(xué)習(xí)的理論演變而來(lái)的。它的基本思想可以理解為:將一個(gè)“思想”空白的智能體放入它未知的環(huán)境中,根據(jù)當(dāng)前所處的狀態(tài)(state)自主選擇動(dòng)作(action),在動(dòng)作結(jié)束后會(huì)獲得獎(jiǎng)賞(reward),從而引導(dǎo)智能體學(xué)會(huì)適應(yīng)它所處的未知環(huán)境[8]。強(qiáng)化學(xué)習(xí)系統(tǒng)原理如圖2所示。
圖2 強(qiáng)化學(xué)習(xí)系統(tǒng)原理圖
圖2中,狀態(tài)st表示t時(shí)刻智能體的狀態(tài),st∈S,S為狀態(tài)集,相應(yīng)的,st+1表示下一時(shí)刻智能體的狀態(tài);動(dòng)作at表示t時(shí)刻智能體選擇的動(dòng)作,at∈A(st),其中A(st)表示在狀態(tài)st下可選擇的動(dòng)作集。當(dāng)智能體所處環(huán)境狀態(tài)為st時(shí),根據(jù)反饋獎(jiǎng)賞rt∈R,其中R表示獎(jiǎng)賞值集,選擇動(dòng)作at并執(zhí)行此動(dòng)作,此時(shí)就會(huì)得到環(huán)境反饋給它的獎(jiǎng)賞rt+1∈R,該獎(jiǎng)賞用以引導(dǎo)下一動(dòng)作的選擇,同時(shí)轉(zhuǎn)移到新的狀態(tài)st+1中。
具體的交互過(guò)程可以表述為:a)智能體感知周圍環(huán)境獲得當(dāng)前環(huán)境狀態(tài)st;b)智能體根據(jù)環(huán)境狀態(tài)st及環(huán)境反饋的獎(jiǎng)賞rt選擇下一步執(zhí)行的動(dòng)作at;c)動(dòng)作at對(duì)環(huán)境產(chǎn)生影響,更新環(huán)境,并使環(huán)境狀態(tài)變化為st+1;d)得到下一步動(dòng)作時(shí)獲得的獎(jiǎng)賞rt+1;e)智能體根據(jù)反饋得到的獎(jiǎng)賞值,計(jì)算回報(bào)值,并將回報(bào)值作為內(nèi)部更新策略的依據(jù)。
當(dāng)強(qiáng)化學(xué)習(xí)的系統(tǒng)模型已知時(shí),即馬爾可夫決策過(guò)程(Markov decision process,MDP)中的狀態(tài)集S、動(dòng)作集A、轉(zhuǎn)移概率集P以及獎(jiǎng)賞值集R等四個(gè)參量均已知,那么選擇任意狀態(tài)st與st+1,并執(zhí)行動(dòng)作at時(shí),由當(dāng)前的狀態(tài)st通過(guò)執(zhí)行動(dòng)作at轉(zhuǎn)移到下一個(gè)狀態(tài)st+1的概率Patst→st+1是已知的,在轉(zhuǎn)移中獲得的獎(jiǎng)賞Ratst→st+1也是已知的,則表示此時(shí)的智能體已對(duì)當(dāng)前環(huán)境進(jìn)行了建模??梢岳么四P蛯?duì)最優(yōu)策略進(jìn)行求解,求解過(guò)程中只考慮相鄰兩個(gè)時(shí)刻的狀態(tài)。為便于公式的表達(dá),在后續(xù)內(nèi)容中將t時(shí)刻的參量st,at表示為s,a,將t+1時(shí)刻的參量st+1,at+1簡(jiǎn)化為s′,a′。
狀態(tài)值函數(shù)Vπ(s)表示從狀態(tài)s出發(fā),使用策略π帶來(lái)的累積獎(jiǎng)賞;狀態(tài)-動(dòng)作值函數(shù)Qπ(s,a)表示從狀態(tài)s出發(fā),執(zhí)行動(dòng)作a后再使用策略π帶來(lái)的累積獎(jiǎng)賞。根據(jù)以上定義,采用策略迭代算法,可以得到T步累積獎(jiǎng)賞狀態(tài)值函數(shù)VπT(s)和γ折扣累積獎(jiǎng)賞的狀態(tài)值函數(shù)Vπγ(s)的計(jì)算公式為
式中:Eπ(·)為策略π下的數(shù)學(xué)期望函數(shù);T為累積獎(jiǎng)賞步數(shù);s0表示初始狀態(tài);γ為累積獎(jiǎng)賞折扣率。
T步累積獎(jiǎng)賞的狀態(tài)-動(dòng)作值函數(shù)和γ折扣累積獎(jiǎng)賞的狀態(tài)-動(dòng)作值函數(shù)的計(jì)算公式為
式中:a0表示初始執(zhí)行動(dòng)作。
由于MDP具有馬爾科夫性質(zhì),即系統(tǒng)下一時(shí)刻的狀態(tài)僅由當(dāng)前時(shí)刻的狀態(tài)決定,不依賴于以往任何狀態(tài),因此狀態(tài)值函數(shù)可以以遞歸形式表示。則T步累積獎(jiǎng)賞狀態(tài)值函數(shù)的遞歸公式為
式中:π(s,a)表示在狀態(tài)s下執(zhí)行動(dòng)作a的概率,即由狀態(tài)s執(zhí)行第一步所選擇的動(dòng)作是a的概率;為從狀態(tài)s′出發(fā)使用策略π執(zhí)行剩下的T-1步后得到的T-1步累計(jì)獎(jiǎng)賞。
狀態(tài)-動(dòng)作值函數(shù)的遞歸形式為
可以看出狀態(tài)值函數(shù)Vπ(s)和狀態(tài)-動(dòng)作值函數(shù)Qπ(s,a)的關(guān)系可以表示為
根據(jù)上述遞歸公式,可以利用動(dòng)態(tài)規(guī)劃的方法通過(guò)迭代來(lái)求得Vπ(s)和Qπ(s,a)的值。
對(duì)于有效的強(qiáng)化學(xué)習(xí)任務(wù),環(huán)境中存在的狀態(tài)是不確定的,其狀態(tài)的轉(zhuǎn)移概率以及獎(jiǎng)賞回報(bào)函數(shù)也是不確定的,此時(shí)學(xué)習(xí)算法不依賴環(huán)境建模,為無(wú)模型學(xué)習(xí)。無(wú)模型學(xué)習(xí)是在選取動(dòng)作并執(zhí)行后,通過(guò)動(dòng)作影響環(huán)境來(lái)觀察狀態(tài)的轉(zhuǎn)移與得到的獎(jiǎng)賞,逐步獲得學(xué)習(xí)信息的。在模型未知的情況下,策略迭代算法需要對(duì)每個(gè)狀態(tài)進(jìn)行估計(jì),因此不再適用,只能通過(guò)自主探索不斷發(fā)現(xiàn)各個(gè)狀態(tài)并對(duì)各狀態(tài)-動(dòng)作對(duì)的值函數(shù)進(jìn)行估計(jì)。通過(guò)某種選定的策略進(jìn)行采樣,執(zhí)行該策略T步獲得軌跡序列,記錄執(zhí)行每一步后序列中出現(xiàn)的每一對(duì)狀態(tài)-動(dòng)作的獎(jiǎng)賞之和,即為該狀態(tài)-動(dòng)作對(duì)的一次累積獎(jiǎng)賞采樣值。在經(jīng)過(guò)多次采樣得到多條軌跡序列后,將每個(gè)狀態(tài)-動(dòng)作對(duì)的累積獎(jiǎng)賞采樣值進(jìn)行平均,即得到狀態(tài)-動(dòng)作值函數(shù)的估計(jì)。
Q學(xué)習(xí)算法是一種無(wú)模型的離線強(qiáng)化學(xué)習(xí)算法,由 WATKINS在1989年提出[9]。它的行為決策和值函數(shù)的迭代是相互獨(dú)立的,采用值函數(shù)最大值進(jìn)行迭代,r的更新依賴于各種假設(shè)決策。
Q學(xué)習(xí)的基本形式可表示為
式中:Q(s,a)表示智能體在狀態(tài)s下,采用動(dòng)作a所獲得的最優(yōu)獎(jiǎng)賞折扣和;α∈(0,1)為學(xué)習(xí)率;r′為rt+1的簡(jiǎn)化表達(dá);max(·)為取最大值函數(shù)。
將Q學(xué)習(xí)算法映射到捷變頻雷達(dá)對(duì)抗過(guò)程中,Q學(xué)習(xí)系統(tǒng)狀態(tài)s映射為干擾系統(tǒng)檢測(cè)到的敵方當(dāng)前信道Sch;動(dòng)作a映射為干擾系統(tǒng)當(dāng)前信道Aj;從環(huán)境中得到的獎(jiǎng)賞r映射為干擾方與雷達(dá)方所用信道匹配獲得的獎(jiǎng)賞值Rma;函數(shù)Q(Sch,Aj)表示t時(shí)刻偵察到的敵方信道Sch以及干擾機(jī)選擇干擾信道為Aj之后所得到回報(bào)的折扣總和。為簡(jiǎn)化表達(dá),相應(yīng)的t+1時(shí)刻參量分別表示為因此,式(7)可改寫(xiě)為
基于Q學(xué)習(xí)算法的跳頻系統(tǒng)跟蹤流程如圖3所示。干擾系統(tǒng)的搜索策略實(shí)施包括探索(exploration)和利用(exploitation)兩個(gè)階段。處于探索階段時(shí),干擾系統(tǒng)任意選擇要實(shí)行干擾的信道;處于利用階段時(shí),干擾系統(tǒng)根據(jù)最新更新的Q表選擇當(dāng)前狀態(tài)下Q值最大的信道實(shí)施干擾。探索過(guò)程可為系統(tǒng)提供新的學(xué)習(xí)內(nèi)容,防止系統(tǒng)陷入局部最優(yōu)解,避免因陷入以前經(jīng)驗(yàn)的循環(huán)而無(wú)法感知外界環(huán)境的變化。利用過(guò)程則可保證在每次動(dòng)作過(guò)程中借鑒以往的經(jīng)驗(yàn)知識(shí),模擬人類學(xué)習(xí)的記憶過(guò)程。本文采用ε-貪婪策略對(duì)探索階段和利用階段進(jìn)行平衡,ε稱為探索因子。系統(tǒng)以1-ε的概率進(jìn)行利用,以ε的概率進(jìn)行探索[10],并通過(guò)設(shè)置ε的值調(diào)整對(duì)探索與利用的傾向。
圖3 Q學(xué)習(xí)映射到跳頻系統(tǒng)示意圖
定義每步獎(jiǎng)賞值,當(dāng)干擾機(jī)干擾頻點(diǎn)與敵方當(dāng)前所處信道頻率一致時(shí),即表示干擾成功,此時(shí)獎(jiǎng)賞值設(shè)置為1;否則表示沒(méi)有正確干擾到敵方信道,獎(jiǎng)賞值設(shè)置為-1。因此獎(jiǎng)賞值可表示為
對(duì)基于Q學(xué)習(xí)算法的干擾信道選擇進(jìn)行仿真。在仿真實(shí)驗(yàn)中假設(shè)雷達(dá)方可以在f0~f9這10個(gè)頻點(diǎn)中任意選擇一個(gè),而干擾方也可以在這10個(gè)頻點(diǎn)中任意選擇一個(gè)進(jìn)行干擾。為便于仿真實(shí)驗(yàn)方法的描述,將本文所設(shè)計(jì)的基于Q學(xué)習(xí)的頻點(diǎn)跟蹤與決策方法簡(jiǎn)稱為智能頻點(diǎn)選擇算法。
假設(shè)雷達(dá)方在受到干擾后會(huì)以(f3,f5,f1,f8,f7,f2,f9,f4,f6,f0)的順序來(lái)選擇下一時(shí)刻的信道。采用ε-貪婪策略,將探索因子ε設(shè)置為0,即雷達(dá)方頻點(diǎn)跳變序列為有限值,算法對(duì)偵察到的頻點(diǎn)規(guī)律進(jìn)行完全利用。將獎(jiǎng)賞值按式(9)設(shè)置,學(xué)習(xí)率α設(shè)為0.1,折扣率γ設(shè)為0.5。確定頻點(diǎn)跳變策略下,干擾方干擾的命中效果如圖4所示。其中,橫軸為干擾執(zhí)行的總步數(shù),用以表示干擾過(guò)程進(jìn)行的時(shí)間;縱軸表示干擾決策命中的準(zhǔn)確度,為了精確表示干擾穩(wěn)定狀態(tài)到達(dá)的時(shí)間,選取25步作為命中次數(shù)的統(tǒng)計(jì)間隔。為了進(jìn)一步直觀地觀察命中率的變化趨勢(shì),從而更加方便地得到學(xué)習(xí)效果,采用插值函數(shù)進(jìn)行曲線擬合。
圖4 確定頻點(diǎn)跳變策略下干擾命中效果
從圖4可以看出,隨著學(xué)習(xí)時(shí)間的增加,智能頻點(diǎn)選擇算法的有效干擾次數(shù)快速增多,并且可以很快達(dá)到100%的命中率。這說(shuō)明智能頻點(diǎn)選擇算法能夠有效跟蹤頻點(diǎn)信息,快速給出頻點(diǎn)干擾決策。
對(duì)仿真過(guò)程中每回合執(zhí)行的步數(shù)進(jìn)行統(tǒng)計(jì),結(jié)果如圖5所示。圖中,橫軸為回合次數(shù),表示按照雷達(dá)方頻點(diǎn)跳變策略的偽隨機(jī)碼周期完整地進(jìn)行一遍的次數(shù);縱軸表示干擾方完成一次跳變策略所花費(fèi)的步數(shù)。從圖中可以看到,在前幾個(gè)回合中因?yàn)樘幱趯W(xué)習(xí)階段,出現(xiàn)了執(zhí)行39步、18步的現(xiàn)象,但是隨著學(xué)習(xí)回合數(shù)的增多,執(zhí)行步數(shù)快速收斂至10步以內(nèi)。該結(jié)果表示模擬的智能體已學(xué)會(huì)頻點(diǎn)跳變的規(guī)律,智能頻點(diǎn)選擇算法能夠有效跟蹤頻點(diǎn)信息,快速給出頻點(diǎn)干擾決策。
假設(shè)雷達(dá)方受到干擾后,有30%的概率選擇以(f2,f9,f4,f6,f0,f3,f5,f1,f8,f7)策略更換信道,還有70%的概率以(f6,f0,f4,f8,f2,f1,f5,f9,f3,f7)策略更換信道。
改變信道變換策略后,對(duì)每回合執(zhí)行的步數(shù)進(jìn)行統(tǒng)計(jì),其余各參數(shù)設(shè)置不變,可以得到概率變換頻點(diǎn)跳變策略下每回合步數(shù)分布,如圖6所示。很明顯,由于信道切換的策略不斷變換,每回合步數(shù)不會(huì)確切收斂于具體數(shù)值。
圖6 概率變換頻點(diǎn)跳變策略下每回合步數(shù)分布
依然對(duì)每25步干擾命中次數(shù)進(jìn)行統(tǒng)計(jì),概率變換頻點(diǎn)跳變策略下干擾命中效果如圖7所示。可以看到,對(duì)于有限頻點(diǎn)個(gè)數(shù)的跳變策略,雖然跳變中存在概率變換信道的切換策略,但是經(jīng)過(guò)學(xué)習(xí)后,智能信道選擇算法的準(zhǔn)確率未受到概率的影響,其干擾命中率依然快速提高,并且在探索因子ε為0的條件下依然能達(dá)到100%的命中率。這是因?yàn)樵撝悄苄诺肋x擇方法一旦學(xué)習(xí)到未知規(guī)律后,在不出現(xiàn)新的狀態(tài)的前提下,即可依據(jù)已學(xué)到的經(jīng)驗(yàn)知識(shí),對(duì)現(xiàn)有的狀態(tài)進(jìn)行100%命中率的實(shí)時(shí)決策。
圖7 概率變換頻點(diǎn)跳變策略下干擾命中效果
為了防止系統(tǒng)陷入局部最優(yōu)解,將探索因子ε分別設(shè)置為0.3,0.5,0.8,其余仿真參數(shù)與3.1節(jié)一致,進(jìn)一步模擬雷達(dá)方頻率跳變的過(guò)程,對(duì)干擾命中效果進(jìn)行驗(yàn)證。為了便于比較命中率,對(duì)每100步命中次數(shù)進(jìn)行一次統(tǒng)計(jì)。ε=0.3時(shí),干擾命中效果及每回合步數(shù)分布的仿真結(jié)果如圖8所示。ε=0.3表示有30%的概率用于探索,70%的概率進(jìn)行利用。
圖8 ε=0.3時(shí)的干擾命中效果及每回合步數(shù)分布
可以看出,智能信道選擇算法的有效干擾次數(shù)依然會(huì)快速增多,命中率基本穩(wěn)定在70%左右。當(dāng)系統(tǒng)的頻點(diǎn)個(gè)數(shù)無(wú)限時(shí),采用該策略進(jìn)行跟蹤決策,可以及時(shí)發(fā)現(xiàn)新的跳變頻點(diǎn),有效完成干擾策略。
當(dāng)探索因子ε分別為0.5和0.8時(shí),干擾命中效果仿真結(jié)果如圖9所示??梢钥吹诫S著ε的增大,對(duì)頻點(diǎn)選擇的探索概率增大,對(duì)學(xué)習(xí)到的經(jīng)驗(yàn)知識(shí)的利用概率減小,因此在有限頻點(diǎn)個(gè)數(shù)的策略變換中,干擾命中率降低。
圖9 ε=0.5,0.8時(shí)的干擾命中效果
在對(duì)抗捷變頻雷達(dá)的過(guò)程中,由于雷達(dá)信號(hào)載頻不斷變化,對(duì)頻點(diǎn)的跟蹤與決策方法的研究至關(guān)重要。本文提出了一種基于Q學(xué)習(xí)算法的捷變頻雷達(dá)干擾頻點(diǎn)跟蹤與決策方法,并進(jìn)行了仿真實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明:該方法不依賴具體的雷達(dá)信號(hào)特征參數(shù)數(shù)據(jù),可以自適應(yīng)學(xué)習(xí)頻點(diǎn)的跳變規(guī)律,實(shí)時(shí)給出頻點(diǎn)干擾決策。但該方法也具有一定的局限性,例如本文主要針對(duì)有限的且重復(fù)的頻點(diǎn)序列,當(dāng)序列中的頻點(diǎn)數(shù)量多且有未知頻點(diǎn)出現(xiàn)時(shí),系統(tǒng)性能會(huì)下降,此時(shí)應(yīng)適當(dāng)調(diào)整參數(shù)值且使參數(shù)值可依據(jù)環(huán)境變化進(jìn)行自適應(yīng)改變,這也是接下來(lái)研究的主要方向。