亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于先驗知識的多功能雷達智能干擾決策方法

        2022-11-19 06:53:30朱霸坤朱衛(wèi)綱高天昊
        系統(tǒng)工程與電子技術 2022年12期
        關鍵詞:步數(shù)先驗收益

        朱霸坤, 朱衛(wèi)綱, 李 偉, 楊 瑩, 高天昊

        (1. 航天工程大學電子光學工程系, 北京 101416; 2. 電子信息系統(tǒng)復雜電磁環(huán)境效應國家重點實驗室, 河南 洛陽 471032; 3. 航天工程大學研究生院, 北京 101416)

        0 引 言

        多功能雷達是指基于相控陣體制,通過靈活的波形變換和快速的波束掃描來實現(xiàn)多種功能的雷達系統(tǒng)[1]。多功能雷達作為一種重要的用頻設備,被廣泛裝載于軍艦、航母、戰(zhàn)機等重要軍事武器,在情報偵察、目標跟蹤、導彈防御等任務中發(fā)揮著重要的作用。有效地干擾敵方的用頻設備、削弱其作戰(zhàn)效能是電磁對抗中不懈追求的目標,干擾策略優(yōu)化是實現(xiàn)這一目標的關鍵環(huán)節(jié)。干擾策略優(yōu)化分為干擾決策和干擾波形優(yōu)化兩個部分,干擾決策主要解決干擾樣式的選取問題,而干擾波形優(yōu)化則是在干擾樣式選取的基礎上進一步選擇干擾波形參數(shù)[2]。本文主要研究多功能雷達干擾決策的相關問題,具有重要的理論和軍事意義。

        多功能雷達信號復雜多變,這給多功能雷達的干擾決策帶來了困難。針對多功能雷達的干擾決策問題,學者們給出了多種解決方案。文獻[3]中,單步雷達和干擾機被作為博弈對抗的雙方,雷達的策略為雷達波形,干擾機的策略為干擾功率譜密度,采用互信息準則建立效用函數(shù),研究了博弈中納什均衡的存在條件,并在不滿足存在條件的情況下,得出斯塔克爾伯格均衡策略是可以接受的安全策略的結論。文獻[4-5]中,構建了一個多輸入多輸出(multiple input multiple output, MIMO)雷達和智能干擾機之間的博弈論模型,同樣采用互信息作為效用函數(shù),研究博弈過程中多種情況下的最優(yōu)策略。文獻[6]對博弈論在認知雷達對抗中的應用進行了綜述,總結了博弈論在干擾決策、編碼優(yōu)化、波形優(yōu)化等方面的應用前景。雷達與干擾機之間的對抗關系很容易讓人聯(lián)想到博弈論模型,但是博弈論中策略的求解直接依賴于效用函數(shù),而效用函數(shù)與干擾效果評估直接相關,當前的干擾效果評估大都基于雷達方[7-8],評價指標多為互信息、峰均功率比[9]等,在實際的雷達對抗中獲取此類信息是困難的,所以基于博弈論的干擾決策研究更多的是理論指導意義。除了博弈論之外,支持向量機(support vector machine, SVM)也被用于干擾決策,在文獻[10]中多功能雷達干擾決策問題被構建為一個分類問題,通過SVM直接學習雷達波形參數(shù)到干擾樣式的映射,這樣的干擾決策方法依賴于大量的雷達信號樣本和干擾樣式標簽,訓練樣本的可得性有待商榷。此外,文獻[11]中將雷達對抗的過程描述為一個隨時間變化的動態(tài)貝葉斯網(wǎng)絡,通過從大量的統(tǒng)計樣本中學習網(wǎng)絡模型的參數(shù)來預測雷達狀態(tài),進而根據(jù)轉移概率來完成決策,但動態(tài)貝葉斯網(wǎng)絡的模型是在已知雷達狀態(tài)種類的情況下構建的,而且模型參數(shù)的學習需要大量的統(tǒng)計樣本。

        上文提到的3種多功能雷達干擾決策方法,基于博弈論的方法、基于SVM的方法和基于動態(tài)貝葉斯網(wǎng)絡的實現(xiàn)都依賴于一些在實際對抗過程中難以獲得的數(shù)據(jù),如干擾效果評估、雷達信號樣本和干擾樣式對、雷達狀態(tài)轉移的歷史數(shù)據(jù),因此有必要去探索一種新的不過分依賴數(shù)據(jù)的干擾決策方法。鑒于此,一些學者提出將強化學習用于多功能雷達干擾決策。強化學習作為一種不依賴模型的規(guī)劃和決策手段,目前在游戲[12]、機械控制[13]、任務規(guī)劃[14-15]、資源管理[16-17]、金融投資[18]等領域取得了不俗的表現(xiàn)。強化學習不依賴于先驗的數(shù)據(jù),強調智能體在與多功能雷達的對抗中通過學習優(yōu)化干擾策略。不僅如此,強化學習使用收益作為反饋,成功地避免了干擾評估的難題。文獻[19-21]中,將多功能雷達與干擾機之間的對抗過程構建為馬爾可夫決策過程(Markov decision process, MDP)模型,采用Q-Learning算法進行求解,在不依賴于先驗數(shù)據(jù)的情況下得到了最佳的干擾策略。文獻[22]中,則是采用深度Q網(wǎng)絡(deep Q network, DQN)來求解多功雷達干擾的MDP問題,討論了干擾過程中的時效性問題?;趶娀瘜W習的多功能雷達干擾決策方法目前還處于發(fā)展階段,還存在一些需要完善的問題,而算法收斂速度慢的問題就是其中之一。收斂速度慢意味著學習能力差,學習能力差的智能體將難以適應瞬息萬變的戰(zhàn)場環(huán)境。

        收斂速度慢并不是多功能雷達干擾決策中獨有的問題,是一個在強化學習應用中普遍存在的問題,需要結合問題中的具體情況采取解決措施。文獻[23]在使用強化學習解決焊接機械臂的控制問題中引入了運動學模塊提供先驗知識,提高了算法的收斂性能。文獻[24]在仿真機器人的控制中,利用一個識別模型進行在線訓練為智能體提供先驗知識,彌補了物理訓練樣本少、效率低的問題。文獻[25]研究了隨機多臂老虎機問題中,針對一個智能體已知近似最平均報酬先驗知識情況,設計了求解最優(yōu)策略的算法,提高了問題的求解速度。文獻[26]在多機器人編隊隊形保持與協(xié)同避碰問題中,提出了一種基于模型知識和數(shù)據(jù)訓練融合的算法,通過較少的訓練數(shù)據(jù)就能使智能體達到極高的工作性能。結合先驗知識來提升強化學習算法的收斂速度是一種十分重要的手段,受到這種想法的啟發(fā),可以利用先驗知識來提升基于強化學習的干擾決策算法。

        在本文中,首先將多功能雷達干擾決策問題定式化為MDP問題,結合問題的實際定義了先驗知識,然后利用基于勢能函數(shù)的收益塑造理論將先驗知識加入到收益函數(shù)中,針對智能體存在膽怯行為的現(xiàn)象,在收益函數(shù)中加入一個修正函數(shù)項,有效改善了膽怯行為,最終得到了基于先驗知識的多功能雷達智能干擾決策算法。仿真實驗表明,本文所提算法能極大地提升了算法的收斂速度,對于實現(xiàn)對多功能雷達快速實時的智能干擾具有重要的意義。

        本文的其他部分組織如下:第1節(jié)介紹了強化學習原理和Q-Learning算法。第2節(jié)將多功能功能雷達干擾決策問題定式化為一個MDP問題。第3節(jié)闡述了基于勢能函數(shù)的收益塑造理論并構建基于先驗知識的智能干擾決策算法。第4節(jié)設計仿真實驗,分析了所提算法的參數(shù)敏感性和算法通用性。第5節(jié)對本文工作進行了梳理總結。

        1 強化學習理論

        1.1 強化學習

        強化學習是目前機器學習的熱門領域之一,其特點是允許智能體在環(huán)境中通過試錯的方式學習如何動作。在學習的過程中,數(shù)值化的收益信號是唯一的反饋,智能體的目標是學習如何動作才能獲得最大的收益。智能體的設計者并不會指示智能體每一步的最佳動作,所以智能體需要通過反復試錯去尋找最佳動作。在大多數(shù)情況下,智能體的動作并不會產(chǎn)生及時的效果,需要等到未來的收益,才能了解動作對環(huán)境造成的影響。這就是強化學習的兩大特性:反復試錯和延遲收益[27]。

        任何強化學習問題都有兩個主要組成部分:智能體和環(huán)境。智能體是采取行動的實體,有著明確的目標,能夠獲取環(huán)境的狀態(tài)并做出決策;環(huán)境是智能體運行的地方,與要解決的問題息息相關。除了智能體和環(huán)境之外,一個強化學習系統(tǒng)還具有4個關鍵組成部分:收益、策略、動作價值函數(shù)和環(huán)境模型。

        收益由強化學習任務的目標定義。智能體的每次動作,環(huán)境都會返回收益,智能體通過收益更新策略以尋求在與環(huán)境的交互中獲得最大的總收益。收益對策略的更新至關重要,如果當前的動作獲得低收益,智能體會抑制該動作;如果當前動作獲得高收益,智能體則會增加選擇該動作的幾率。

        收益是來自環(huán)境的即時反饋,而價值函數(shù)則讓智能體有更長遠的目光,與智能體的行動策略直接相關。策略是一個從環(huán)境狀態(tài)到動作的映射,直接決定了智能體如何行動。狀態(tài)的價值是可以從該狀態(tài)獲得的總收益,指示一個狀態(tài)未來收益的期望。沒有收益就沒有價值函數(shù),因為價值的目的就是如何獲得最大的期望收益。強化學習的問題是一個序列決策的過程,從長遠的角度來看,智能體應該選擇具有最高價值的動作而不是具有最高收益的動作,因為收益只是暫時的。價值函數(shù)的存在是智能體具有“智能”的重要原因。

        環(huán)境模型是對環(huán)境特性的描述,根據(jù)環(huán)境特性,可以在當前的狀態(tài)和動作下預測下一步的狀態(tài)。如果環(huán)境模型已知,能使智能體學習更加快速和穩(wěn)健。而現(xiàn)實中的絕大多數(shù)問題,環(huán)境模型都是未知的,這就需要智能體進行反復的試錯。

        常用一個如圖1所示的MDP模型來描述強化學習過程,一個MDP模型包括5個組成部分,{S,A,P,γ,R}。其中,S是狀態(tài)的集合,A是智能體動作的集合,P是環(huán)境轉移概率的集合,R是收益的集合。此外,γ是折扣率,表示未來收益的現(xiàn)值,γ越大,表示未來的收益在當前的決策中所占的比重越大。下標t用于區(qū)分當前和未來的MDP元組。智能體對環(huán)境施加一個動作,環(huán)境狀態(tài)轉移至下一步的環(huán)境狀態(tài),并將收益返回智能體。

        圖1 強化學習的MDP模型

        1.2 Q-Learning

        Q-Learning是一種異步策略的強化學習算法[28],是本文進行算法研究的基礎,其動作策略與學習策略不是同一個策略。在Q-Learning中,智能體的策略與狀態(tài)動作價值函數(shù)密切相關,狀態(tài)動作價值函數(shù),即Q值函數(shù),定義為在特定狀態(tài)下進行某一動作所獲得的收益期望。s和a分別表示狀態(tài)和動作,π表示策略。

        Q-Learning的動作策略,一般采用ε策略,這是一種貪婪策略和隨機策略的混合策略。以1-ε的概率選擇使得當前的Q值達到最大的動作,以ε的概率隨機選擇動作,ε被稱為探索因子,用以平衡Q-Learning算法中的學習與探索。

        Q-Learning的學習策略是在每一步的行動后對Q值進行更新,Q值采用下式進行更新迭代:

        Q(s,a)←Q(s,a)+α[r(s,a)+γmaxQ(s′,a′)-Q(s,a)]

        (1)

        式中:s′,a′表示下一時刻的狀態(tài)和動作;r是收益函數(shù),是關于狀態(tài)s和動作a的函數(shù)。

        最佳策略π*滿足貝爾曼最優(yōu)方程:

        Qπ*(s,a)=

        ∑p(s′,r|s,a)[r(s,a)+γ·maxa′Qπ*(s′,a′)]

        (2)

        理論上[27],通過不斷地更新迭代,智能體的策略最終會收斂于最優(yōu)策略π*。

        2 問題的界定

        為了更好地解決多功能雷達的干擾決策問題,將干擾決策的過程表述為一個MDP。多功能雷達擁有有限個雷達狀態(tài),可表示為一個有限狀態(tài)集S(s∈S);干擾決策智能體或者干擾決策系統(tǒng)所能產(chǎn)生的干擾樣式也是一個有限狀態(tài)集,表示為J(j∈J);R是收益的集合,由環(huán)境狀態(tài)的轉移所決定,收益函數(shù)用r(s,s′)表示;環(huán)境模型用環(huán)境轉移概率P表示,具體可表示為p(St+1|St)。干擾決策系統(tǒng)對多功能雷達實施干擾,雷達狀態(tài)發(fā)生轉移,干擾決策智能體從中獲得收益,智能體會不斷嘗試直至實現(xiàn)干擾的目標。

        當然,在實際的雷達對抗中環(huán)境模型是未知的,但這并不影響智能體最終找到最優(yōu)的干擾策略,這也正是強化學習的魅力所在。下面,將對多功能雷達干擾決策問題中的狀態(tài)集、動作集、環(huán)境轉移概率和收益函數(shù)進行更詳細的定義和說明。

        2.1 狀態(tài)集

        雷達狀態(tài)是以干擾方所接收的信號參數(shù)為基本依據(jù)而界定的目標雷達所處的情況。雷達狀態(tài)的定義對于強化學習問題至關重要,與時間相關,在一段時間內具有一定的穩(wěn)定性,與每一個雷達狀態(tài)相對應,在每一次干擾決策的閉環(huán)中,智能體都會進行一次決策,完成一次動作,而且智能體的收益也是通過雷達狀態(tài)的改變獲得。這就要求雷達狀態(tài)在時間維度離散,易于識別區(qū)分,與干擾樣式間存在映射關系,并且能夠為決策提供豐富的信息。在電子偵察的相關研究中,常將多功能雷達的信號模型建模為一個層級模型[29-30],對偵察到的雷達信號序列進行波形單元提取轉換為雷達字序列,采用生成結構語法中的理論對雷達字序列進行進一步的處理,由雷達字構成雷達短語,進一步構成雷達句子。

        其中,雷達短語是層級模型的中間層,相比于雷達句子,雷達短語具有更加豐富的信號信息,可為干擾決策提供信息支撐;相比于雷達字,雷達短語與多功能雷達工作方式的控制參數(shù)直接相關[31],其與干擾樣式之間可以建立一定的映射關系,因此可以將電子偵察中獲取的雷達短語作為雷達狀態(tài),本文MDP模型中的狀態(tài)集即多功能雷達的雷達短語集。文獻[32-33]中利用遞歸神經(jīng)網(wǎng)絡(recurrent neural network, RNN)識別進行雷達狀態(tài)的識別,識別結果及時準確,很好地支持了本文的想法。

        2.2 動作集

        動作集包含干擾決策系統(tǒng)可以產(chǎn)生的所有干擾樣式,這由干擾波形發(fā)生設備的硬件條件所決定。常見的多功能雷達干擾樣式包括噪聲調幅干擾、脈沖卷積干擾、波門拖引干擾和靈巧噪聲干擾等。干擾決策的核心工作就是在每一個雷達狀態(tài)時選擇合適的干擾樣式,最終完成既定的干擾目標。

        2.3 環(huán)境轉移概率

        環(huán)境的轉移概率定義了雷達狀態(tài)和樣式間的相互作用關系,由多功能雷達的信號產(chǎn)生機制所決定。在多功能雷達信號的產(chǎn)生過程中,存在著嚴密的雷達任務調度機制和環(huán)境目標自適應機制[34-37],這使得多功能雷達狀態(tài)間存在馬爾可夫性,這種馬爾可夫性可以表示為p(St+1|St,Jt),這是一種簡化的表示方式,揭示了多功能雷達狀態(tài)發(fā)生轉移的規(guī)律,是將強化學習應用于多功能雷達干擾決策的基礎。

        2.4 收益函數(shù)

        收益函數(shù)r定義了從一種雷達狀態(tài)轉移到另一種雷達狀態(tài)時,智能體獲得的收益的數(shù)值。為了定義收益函數(shù),需要考慮智能體的實際工作所要完成的現(xiàn)實目標。對于多功能雷達干擾決策問題而言,干擾決策的目標就是使雷達狀態(tài)盡快從當前的雷達狀態(tài)轉移到低威脅等級雷達狀態(tài)或者由于戰(zhàn)術目的需要希望多功能雷達所處的雷達狀態(tài)。這樣的現(xiàn)實目標存在著兩方面的要求:一是需要雷達狀態(tài)最終轉移到目標雷達狀態(tài);二是決策者希望狀態(tài)的轉移過程所花費的時間是最短的。根據(jù)上述的兩個要求,該問題的收益函數(shù)可以設置為

        (3)

        若雷達狀態(tài)轉移至目標雷達狀態(tài)Saim,獲得收益為100;若雷達狀態(tài)未轉移到目標雷達狀態(tài),則獲得收益為-1,這就保證了以最少的步數(shù)轉移到目標雷達狀態(tài)時,智能體所獲的總收益是最大的。步數(shù)與耗費時間呈正相關,最小的步數(shù)意味著最短的時間,因此智能體此時的干擾策略也是最優(yōu)的。

        3 算法構建

        在當前對多功能雷達的干擾決策算法研究中,主要有Q-Learning和DQN,與融合了神經(jīng)網(wǎng)絡和強化學習的DQN相比,Q-Learning采用表格記錄Q值,用查表的方式進行決策。當狀態(tài)動作空間過大時,存在占用存貯空間大、查表搜索時間長的問題[22],但在多功能雷達的干擾決策問題中,雷達狀態(tài)的數(shù)量和干擾樣式的數(shù)量都是有限的,狀態(tài)動作空間不會太大,因此不存在相應的問題。此外,Q-Learning相比于DQN有兩方面的優(yōu)勢,第一方面,Q-Learning相對于DQN由于不使用神經(jīng)網(wǎng)絡,調參和訓練將更為簡單和容易;第二方面,Q-Learning的擴展性更好,當多功能雷達的數(shù)量增加或者出現(xiàn)新的未知雷達狀態(tài)時,Q-Learning只需要增加表格的列數(shù)即可,而DQN則需要增加神經(jīng)網(wǎng)絡輸入輸出的節(jié)點,甚至要重新設計神經(jīng)網(wǎng)絡的結構,這無論是對于工程師還是神經(jīng)網(wǎng)絡的訓練都是不利的。因此,Q-Learning是一種適合于多功能雷達干擾決策的算法,本節(jié)將在Q-Learning算法的基礎上結合基于勢能函數(shù)的收益塑造理論利用先驗知識改進算法,提升算法的收斂速度。

        3.1 基于勢能函數(shù)的收益塑造理論

        強化學習往往很耗時,因為強化學習算法必須使用延遲反饋或收益來確定其行為的長期后果。收益塑造是一種將領域知識結合到強化學習中的方法,以便更快地將算法引導至更有前景的解決方案。

        收益函數(shù)反應了強化學習任務的目標,與狀態(tài)的劃分聯(lián)系緊密,因此收益函數(shù)的設置要結合實際問題的需求與形式,具體問題具體分析。這也導致了收益函數(shù)的設置領域并沒有成熟、系統(tǒng)的方法理論,收益函數(shù)的設置更多的是依靠工程師的經(jīng)驗和技巧的總結。而基于勢能的收益函數(shù)的塑造理論討論了如何在原有的收益函數(shù)上加上一個具有塑造功能的函數(shù)項,使得在此基礎上智能體學到的最優(yōu)策略不發(fā)生改變[38]。該理論對于收益函數(shù)設置具有重要的指導意義,該理論的主要內容如下。

        一個馬爾可夫決策過程,可用一個元組來描述,M={S,A,P,γ,R},相關概念已經(jīng)在第1節(jié)和第2節(jié)中進行了說明,故在此不做過多的交待。

        對于任意的S,A,γ和任意的收益塑造函數(shù)F:S×S→R,若F滿足:

        F(s,s′)=Φ(s′)-Φ(s)

        (4)

        式中:Φ:S→R為一實值函數(shù),則M={S,A,P,γ,R}與M′={S,A,P,γ,R′}具有相同的最優(yōu)策略;Φ被稱為S的勢能函數(shù);F即為基于勢能的收益塑造函數(shù)。該定理被稱為基于勢能函數(shù)的收益塑造理論,由Andrew[38]首先提出并證明。

        根據(jù)該定理,工程師就可以通過調整收益函數(shù),將一個MDP轉換為另一個MDP,在保證最優(yōu)策略的情況下,加快強化學習算法的收斂。如果事先知道一些關于干擾決策的先驗知識,可以將先驗知識以收益塑造函數(shù)F的形式加入到強化學習算法之中,以此提升算法學習效率。

        3.2 基于先驗知識的智能干擾決策算法

        在一些具體的多功能雷達干擾決策場景中,對于干擾決策問題并不是完全空白的,而是會有一些先驗的知識。假設在某一次干擾任務中,干擾任務的目標是使雷達狀態(tài)從當前雷達狀態(tài)S0轉換到目標雷達狀態(tài)Saim。在實行干擾任務之前,通過專家經(jīng)驗或者對歷史數(shù)據(jù)的信息挖掘[39],已知在最優(yōu)的干擾策略下,從當前雷達狀態(tài)S0轉移到雷達狀態(tài)Saim,需要經(jīng)歷的一些雷達狀態(tài),用集合Se表示,稱之為先驗雷達狀態(tài)。Se在最理想的情況下可能會包括最優(yōu)策略下的所有雷達狀態(tài),當然在更多的時候,Se可以提供的信息是有限的,決策者也不知道先驗雷達狀態(tài)在最優(yōu)策略狀態(tài)序列中的順序,僅僅是知道在最優(yōu)的雷達狀態(tài)序列中有這樣一些雷達狀態(tài)。先驗雷達狀態(tài)Se是不完整、不充分的,也正因如此,先驗雷達狀態(tài)形式的先驗知識會更加容易獲得。先驗雷達狀態(tài)對于人來說是容易理解的,而對于智能體而言,理解和運用這樣的先驗知識是存在一定困難的。收益塑造函數(shù)正是化解這一困難的有力武器。

        強化學習的價值函數(shù)機制決定了當策略收斂至最優(yōu)策略時,最優(yōu)策略下的雷達狀態(tài)價值必然會高于其他雷達狀態(tài)的價值,所以一個直觀的想法是為最優(yōu)雷達狀態(tài)的價值提供一個比較高的初始值。但在Q-Learning中,動作的選取依賴于動作價值函數(shù),由于不清楚環(huán)境模型,無法得知最優(yōu)雷達狀態(tài)依賴的最優(yōu)動作,因此無法為動作價值函數(shù)提供有益的初始值。而收益只與雷達狀態(tài)有關,可以通過對收益函數(shù)的塑形來實現(xiàn)對先驗雷達狀態(tài)的狀態(tài)動作價值函數(shù)的提升。

        運用基于勢能函數(shù)的收益塑造理論來改造收益函數(shù),對于先驗雷達狀態(tài)Se,先增加先驗雷達狀態(tài)的勢能,令勢能函數(shù)為

        (5)

        則收益塑造函數(shù)可以寫為

        (6)

        更進一步,可以寫出進行收益塑造后的收益函數(shù):

        (7)

        式中:ωp為收益強化系數(shù),用于控制增加收益的數(shù)值大小。

        基于勢能函數(shù)的收益塑造理論保證了在修改收益函數(shù)后,MDP問題的最優(yōu)策略不會發(fā)生改變,但同時帶來了另一個問題。這種方法的最終結果,相當于雷達狀態(tài)轉移到先驗雷達狀態(tài)時,增加收益ωp,雷達狀態(tài)從先驗雷達狀態(tài)轉移到其他雷達狀態(tài),減少收益ωp/γ,這會使智能體易于出現(xiàn)膽怯的行為,即由于害怕離開先驗雷達狀態(tài)時帶來的損失,選擇停留在先驗雷達狀態(tài),不敢積極地去探索。為了抑制智能體的膽怯行為,給收益函數(shù)添加一個修正函數(shù)T(s,s′),其表達式為

        T(s,s′)=(C(s′)-1)·ωs·(-1)

        (8)

        式中:C(s′)表示狀態(tài)s′連續(xù)出現(xiàn)的次數(shù);ωs為收益抑制系數(shù),用于控制抑制認知干擾決策智能體收益獲取的程度。T(s,s′)相當于一個臨時抑制項,幾乎不會影響MDP問題的最優(yōu)策略。

        通過上述的分析,決定采用基于勢能的收益函數(shù)塑造方法添加先驗知識,并且在收益函數(shù)中加入抑制膽怯行為的修正函數(shù)。在Q-Learning算法的基礎上進行改進,結合多功能雷達干擾決策問題場景,可以得到基于先驗知識的多功能雷達智能干擾決策算法如算法1所示。

        算法 1 基于先驗知識的多功能雷達智能干擾決策算法

        4 實驗仿真和結果分析

        4.1 仿真環(huán)境和參數(shù)設置

        進行仿真實驗,以驗證所提算法的性能。假設現(xiàn)有一多功能雷達,共有50種雷達狀態(tài){s1,s2,…,s50},雷達狀態(tài)間的轉移情況如圖2所示。

        圖2 雷達狀態(tài)轉移情況示意圖

        干擾機的干擾任務是使多功能雷達的雷達狀態(tài)從當前的雷達狀態(tài)s1轉移到雷達狀態(tài)s25。最優(yōu)干擾策略下的雷達狀態(tài)轉移情況為S1→S3→S5→S7→S9→S22→S23→S25,從初始狀態(tài)轉移到目標狀態(tài)至少需要7步,已經(jīng)在圖2中標為

        紅色。另有一智能干擾機,可以產(chǎn)生9種干擾樣式,干擾樣式與雷達狀態(tài)的相互關系為一維度為9×50×50的轉換矩陣,為使仿真結果不失一般性,矩陣中的轉移概率隨機產(chǎn)生。轉移矩陣可表示如下:

        (9)

        智能干擾機采用本文所提的基于先驗知識的干擾決策算法,算法的基本參數(shù)設置如表1。

        表1 算法的基本參數(shù)設置

        本次仿真中采用控制變量的方法共設置3組實驗,設置實驗1主要為了分析參數(shù)ωp和ωs的敏感性;設置實驗2和實驗3是為分析算法的通用性。其中,實驗2研究了先驗知識數(shù)量對算法性能的影響,實驗3研究了錯誤先驗知識對算法性能的影響。

        關于強化學習算法的研究中,常用Q值是否收斂來判斷算法的收斂性,這是一種比較嚴謹?shù)?、直觀的數(shù)值指標方法。而在本文的實際問題,智能體不必等到Q值完全收斂就可以做出最佳的決策,所以可以用步數(shù)的收斂情況來判斷算法是否收斂??紤]到智能體在進行決策時會以一定的概率進行探索,會使步數(shù)存在一定的波動,如果步數(shù)連續(xù)3個回合保持不變,并且對于同一步數(shù)這樣的情況出現(xiàn)6次,認為算法收斂。若該步數(shù)為7,則認為算法達到了最優(yōu)收斂。進一步可以定義在多次重復實驗中,干擾策略收斂到最優(yōu)策略的比例為最優(yōu)收斂率;智能體從開始進行訓練到最后收斂所需要的步數(shù)稱為收斂總步數(shù)。這些指標反應了智能體學習的速度與質量,與干擾的實時性和有效性密切相關。

        4.2 參數(shù)敏感性分析

        保持多功能雷達信號模型和算法基本參數(shù)不變,先驗知識為Se={s2,s7,s22},智能體每次訓練的最大回合數(shù)為400,每次改變ωs或ωp的值進行100次蒙特卡羅實驗。

        從實驗的結果來看,雖然每次實驗ωs或ωp的值不完全相同,但在400個回合內算法的收斂率都是100%,意味著算法始終會收斂。由于不同的ωs或ωp結果都是相同的,所以在此處就不以表格和數(shù)據(jù)的形式展現(xiàn)了。不同的ωp和ωs參數(shù)下的最優(yōu)收斂率如表2所示。

        表2 不同ωs和ωp下的最優(yōu)收斂率

        從表2的統(tǒng)計結果來看,不同參數(shù)下最優(yōu)收斂率幾乎相差無幾,都是接近1或者等于1。而在理論上,基于勢能函數(shù)設計的收益塑造函數(shù)是不會改變最優(yōu)策略的,最優(yōu)收斂率應該都為1。

        為進一步研究實驗結果中出現(xiàn)最優(yōu)收斂率不為1的原因,將每次實驗中算法收斂以后,步數(shù)取值的均值定義為平均收斂步數(shù),記為mean-step,平均收斂步數(shù)可以更準確地反映算法的收斂情況。

        在上述的參敏感性實驗中,一共進行了5 600次實驗(8×7×100=5 600,8和7分別為ωs和ωp的取值個數(shù),100為進行蒙特卡羅實驗的次數(shù)),其中出現(xiàn)異常的實驗次數(shù)為44次,達到最優(yōu)收斂的實驗次數(shù)為5 556次。將這5 556次實驗的平均收斂步數(shù)作為一個樣本集,計算可得該樣本集的均值為7.58,標準差為0.13,記為μ=7.58,σ=0.13。44次異常情況的平均收斂步數(shù)情況如表3所示,(ωs,ωp)為出現(xiàn)異常情況時的參數(shù)取值。

        表3 異常情況的平均收斂步數(shù)情況

        圖3為不同ωs或ωp情況下的回合數(shù)與步數(shù)圖,在每一張子圖中,保持ωs的值不變,ωp取不同的值,“無先驗知識”即為改進前的Q-Learning算法。在此基礎上,逐漸增大ωs的值一共得到8張子圖。

        圖3 不同ωs和ωp下的回合數(shù)-步數(shù)圖

        在圖3(a)中,ωs此時為0,相當于沒有對智能體的膽怯行為進行抑制。采用本文所提算法,當ωp比較小時,如ωp分別取1、2、4,算法的收斂性能明顯好于Q-Learning算法,當ωp比較大時,智能體會出現(xiàn)明顯的膽怯行為。逐漸增加ωp的值,膽怯的行為能得到明顯的改善。在圖3(h)中,當ωs取值為64時,不同ωp的曲線基本重合,具有相似的收斂性能。在工程實踐中,ωp可以取一個比較小的值,這樣可以既無明顯的膽怯行為,也能達到較好的收斂性能,但是小的尺度不容易把握。根據(jù)實驗的結果,ωp可以取一個較為靈活的值,在此基礎上ωs取一個較大的值,這樣也能達到相似的甚至更好的性能,同時參數(shù)的設置方法也將更為靈活和可靠。

        4.3 算法通用性分析

        為了研究先驗知識數(shù)量對算法性的影響,保持多功能雷達信號模型和算法基本參數(shù)不變,ωp取值為16,ωs取值為64,智能體訓練的最大回合數(shù)為600。隨機抽取1到6個先驗雷達狀態(tài)作為先驗知識,每種先驗雷達狀態(tài)數(shù)量下進行100次實驗,實驗的統(tǒng)計結果如表4所示。

        表4 不同先驗雷達狀態(tài)數(shù)下的算法收斂性能參數(shù)

        在不同的先驗雷達狀態(tài)數(shù)量下,算法的收斂率始終為1,最優(yōu)收斂率也都為1或者接近1,這樣的結果與實驗1中得到的結果是一致的。而隨著先驗雷達狀態(tài)數(shù)的增多,平均收斂總步數(shù)是在不斷減少的。將基于Q-Learning算法的實驗結果作為一個基準,用基于Q-Learning算法的平均收斂總步數(shù)減去基于先驗知識算法的平均收斂總步數(shù),稱為縮減步數(shù),用縮減步數(shù)衡量基于先驗知識算法收斂性能提升的程度。折線圖如圖4所示,隨著先驗雷達狀態(tài)數(shù)的增加,縮減步數(shù)逐漸增加并且增加的趨勢逐漸放緩。這表明,先驗雷達狀態(tài)數(shù)量越多,本文所提方法對算法的收斂性能的提升越大,但通過繼續(xù)增加先驗雷達狀態(tài)來提升算法性能的效果就越不明顯。

        圖4 縮減步數(shù)隨先驗雷達狀態(tài)數(shù)變化圖

        為了研究先驗知識數(shù)量對算法性的影響,保持多功能雷達信號模型和算法基本參數(shù)不變,ωp取值為16,ωs取值為64,智能體訓練的最大回合數(shù)為1 000。初始的先驗知識為{s3,s7,s22},在此基礎上,采用隨機選擇其他雷達狀態(tài)并隨機替換初始先驗知識中雷達狀態(tài)的方式,產(chǎn)生先驗知識錯誤率為0%,33%,66%,100%的先驗知識。每種先驗知識錯誤率下,產(chǎn)生100次錯誤先驗知識進行實驗。

        實驗的統(tǒng)計結果如表5所示,算法的收斂率還是都為1,這表明錯誤的先驗知識并不會影響算法的收斂。但隨著先驗知識錯誤率的增加,最優(yōu)收斂率卻出現(xiàn)了明顯的下降,當先驗知識100%錯誤時,最優(yōu)收斂率只有0.59,而且平均收斂總步數(shù)也在上升。這樣的結果表明,錯誤的先驗知識會導致智能體需要花費更多步數(shù)的訓練才能找到最優(yōu)的策略,畢竟此時的智能體不僅需要去尋找最優(yōu)策略,同時也需克服錯誤知識帶來的影響。在本次實驗中,最大訓練回合數(shù)只有1 000個回合,很多的結果雖然已經(jīng)達到了本文所提的收斂標準,但實際上并沒有真正的收斂。因為在理論上,只要訓練的回合數(shù)足夠多,智能體就一定能找到最優(yōu)的策略。

        表5 不同先驗知識錯誤率下的算法收斂性能參數(shù)

        圖7顯示了不同先驗知識錯誤率下的縮減步數(shù),從圖中可以明顯的看出錯誤的先驗知識會嚴重影響算法的性能,當先驗知識錯誤率為0%時,縮減步數(shù)為6 998步,而當先驗知識錯誤率為33%時,縮減步數(shù)就只有3 085步了,當先驗知識錯誤率為100%時,縮減步數(shù)為-200,僅比原始的Q-Learning算法的表現(xiàn)略差一點。因此,為了實現(xiàn)最大的算法性能提升,在采用基于先驗知識的多功能雷達智能干擾決策算法時,應盡量保證先驗知識的正確性。

        相比于基于Q-Learning的智能干擾決策算法,本文所提的基于先驗知識的多功能雷達智能干擾決策算法充分地利用了有限的先驗知識,在大多數(shù)的情形下都能達到更好的收斂性能,能夠大幅縮短干擾決策智能體的訓練時間。

        5 結束語

        將強化學習方法應用于多功能雷達的干擾決策有望實現(xiàn)對多功能雷達干擾策略的實時調整,實現(xiàn)更為精準有效的干擾。然而,強化學習算法普遍存在著訓練周期長、收斂困難的問題。針對此,考慮到在實際的雷達對抗過程中先驗知識存在的客觀性,使用基于勢能函數(shù)的收益塑造原理將先驗知識以收益的形式加入到強化學習問題,并提出抑制智能體膽怯行為的方法,最終形成了基于先驗知識的多功能雷達干擾決策算法。通過實驗仿真,討論了算法中兩個參數(shù)ωp和ωs對算法性能的影響,總結了在實際工程應用中參數(shù)設置的一般方法。此外,還研究了所提算法在不同的先驗雷達狀態(tài)數(shù)量下和在先驗知識錯誤情況下的收斂性能,先驗雷達狀態(tài)數(shù)量越大,算法收斂性能相對于傳統(tǒng)Q-Learning算法的提升就越大,并且先驗雷達狀態(tài)數(shù)量越少,增加先驗雷達狀態(tài)對算法性能的提升越大;錯誤的先驗知識會造成算法的收斂性能下降,智能體尋找到最優(yōu)策略將會更加的困難,所以使用本文所提的方法應該盡量保證先驗知識的正確性??傊?在絕大多數(shù)的情況下,本文所提算法收斂性能都是優(yōu)于Q-Learning算法的,具有較好的通用性,而本文所提的利用先驗知識的方法,不僅可以應用于多功能雷達干擾決策領域,也可通過簡單的遷移在強化學習的其他領域使用,具有廣泛的應用前景。

        當然本文所研究的工作是有限的,只是研究了在多功能雷達干擾中的干擾樣式選擇問題,距離真正的形成實時化、智能化的干擾能力還有很長的路要走。此外,本文對于加入抑制膽怯行為的函數(shù)項是否會改變強化學習的最優(yōu)策略并未給出嚴格的數(shù)學證明,所提的判斷收斂的方法足夠簡單,但不夠嚴謹,這都是在未來值得研究的問題。

        猜你喜歡
        步數(shù)先驗收益
        速度和步數(shù),哪個更重要
        楚國的探索之旅
        奇妙博物館(2021年4期)2021-05-04 08:59:48
        螃蟹爬上“網(wǎng)” 收益落進兜
        基于無噪圖像塊先驗的MRI低秩分解去噪算法研究
        微信運動步數(shù)識人指南
        小演奏家(2018年9期)2018-12-06 08:42:02
        基于自適應塊組割先驗的噪聲圖像超分辨率重建
        自動化學報(2017年5期)2017-05-14 06:20:44
        2015年理財“6宗最”誰能給你穩(wěn)穩(wěn)的收益
        金色年華(2016年1期)2016-02-28 01:38:19
        基于平滑先驗法的被動聲信號趨勢項消除
        東芝驚爆會計丑聞 憑空捏造1518億日元收益
        IT時代周刊(2015年8期)2015-11-11 05:50:38
        先驗的廢話與功能的進路
        東南法學(2015年2期)2015-06-05 12:21:36
        一本久道综合在线无码人妻| 日本女优爱爱中文字幕| 放荡成熟人妻中文字幕| 少妇粉嫩小泬喷水视频| 亚洲精品无码不卡av| 真实国产网爆门事件在线观看| 国产精品第一区亚洲精品| 无码av专区丝袜专区| 777午夜精品免费观看| 欧美a级在线现免费观看| 超短裙老师在线观看一区二区| 精品人妻一区三区蜜桃| 亚洲成av人片在线观看ww| 亚洲精品亚洲人成在线下载 | 国产999精品久久久久久| 国产日韩三级| 亚洲av成人一区二区| 狠狠躁夜夜躁人人躁婷婷视频| 国产激情视频白浆免费| 永久免费在线观看蜜桃视频| 日本精品视频二区三区| 99久久国产综合精品五月天| a级福利毛片| 在线视频自拍视频激情| 免费网站内射红桃视频| 成人无码视频| 国产av一区网址大全| 人妻少妇中文字幕在线观看| 毛多水多www偷窥小便| 草草影院国产| 爱爱免费视频一区二区三区| 亚洲国产精品久久久婷婷| 国产精品扒开腿做爽爽爽视频| 国产成人精品日本亚洲18| av最新版天堂在资源在线| 熟妇人妻无乱码中文字幕av| 欧美国产精品久久久乱码| 久久99精品久久久久九色| 国产精品一区二区久久久av| 无码国产精品一区二区免费式直播| 久久精品无码一区二区三区不|