亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于學(xué)習(xí)自動(dòng)機(jī)的雷達(dá)干擾資源分配研究

2020-06-23 01:56:52顧榮軍盧俊道

航天電子對(duì)抗 2020年2期

韓鵬，顧榮軍，盧俊道，張鵬

（中國(guó)洛陽電子裝備試驗(yàn)中心，河南孟州454750）

0 引言

電子對(duì)抗過程中雙方都會(huì)被多部雷達(dá)同時(shí)威脅，對(duì)抗雙方會(huì)設(shè)法利用先進(jìn)的電子對(duì)抗技術(shù)削弱對(duì)方雷達(dá)系統(tǒng)的作戰(zhàn)性能。然而雷達(dá)干擾資源是有限的，如何將有限的雷達(dá)干擾資源進(jìn)行合理分配，最終獲得最大整體干擾效益就成了現(xiàn)代電子對(duì)抗中一個(gè)決定勝敗的重要問題。

正是由于雷達(dá)干擾資源分配的重要性，相關(guān)專家學(xué)者們進(jìn)行了大量研究，建立了諸多資源分配的方法模型，如基于貼近度的雷達(dá)干擾分配算法[1]、遺傳模擬退火算法[2]、基于多Agent分布協(xié)同拍賣的雷達(dá)干擾資源分配算法[3]、蟻群算法[4]等。近年來，博弈論[5]作為研究分布式最優(yōu)化問題的一種有效理論工具被廣泛用于無線通信等領(lǐng)域，取得了很多研究成果，但是在雷達(dá)有源干擾資源分配方面研究的不多。本文基于博弈論探討干擾資源分配問題，并利用學(xué)習(xí)自動(dòng)機(jī)設(shè)計(jì)分布式干擾資源分配算法，可以在收斂速度和干擾效果兩方面取得較好的平衡，使得對(duì)雷達(dá)干擾資源分配方案的制定更加穩(wěn)定和高效。

1 干擾效果評(píng)估

雷達(dá)干擾資源分配首先需要對(duì)干擾機(jī)的干擾效果進(jìn)行定量評(píng)估，進(jìn)而通過運(yùn)籌學(xué)的方法尋找某種最優(yōu)的干擾目標(biāo)分配方案。

1.1 評(píng)估指標(biāo)[6-8]

1）干擾頻率。用干擾頻率效益因子Efij表示干擾機(jī)i對(duì)目標(biāo)雷達(dá)j的頻率瞄準(zhǔn)程度對(duì)干擾效果產(chǎn)生的影響。設(shè)雷達(dá)j的工作頻率范圍為fj1-fj2，干擾機(jī)的頻率覆蓋范圍為fi1-fi2，則：

2）干擾功率。用干擾功率壓制效益因子E pij表示干擾機(jī)i對(duì)雷達(dá)j的功率壓制的程度對(duì)干擾效果產(chǎn)生的影響。

式中，Pji表示雷達(dá)接收到的干擾功率，Pjs表示雷達(dá)接收到的目標(biāo)回波信號(hào)功率，γj表示雷達(dá)j正常工作所必需的最小干信比。

3）干擾時(shí)機(jī)。用干擾時(shí)機(jī)效益因子E tij表示干擾機(jī)干擾實(shí)施時(shí)間對(duì)干擾效果的影響程度[6]。設(shè)雷達(dá)的威脅時(shí)間為t1-t2，開始干擾的時(shí)間為ti。

4）干擾樣式。用干擾樣式效益因子E mij表示干擾機(jī)i干擾樣式多少對(duì)干擾效果的影響程度。

樣式越多，匹配程度越高，干擾效果越好。

1.2 干擾資源分配模型

假定己方有N部干擾機(jī)，敵方有M個(gè)目標(biāo)雷達(dá)。干擾機(jī)i最多可同時(shí)干擾K i部雷達(dá)，各雷達(dá)的威脅系數(shù)為λj。

影響干擾效果的4個(gè)因素是相互獨(dú)立的，只要其中一個(gè)因素?zé)o效，干擾就無效。所以在干擾效果綜合評(píng)價(jià)時(shí)，采用扎德算子“∧”進(jìn)行取小運(yùn)算。

根據(jù)電子戰(zhàn)的實(shí)際戰(zhàn)情分析配置權(quán)重，用Ω=[ω1,ω2,ω3,ω4]表示，ω1+ω2+ω3+ω4=1。則單對(duì)單雷達(dá)干擾效果為：

雷達(dá)j受到干擾機(jī)的干擾效益為：

則雷達(dá)總體干擾效益矩陣E為：

定義雷達(dá)干擾資源分配的目標(biāo)函數(shù)：

2 干擾資源分配博弈模型

假設(shè)N個(gè)干擾機(jī)的集合為N={1,2,…,N}，M個(gè)雷達(dá)的集合為M={1,2,…,M}。干擾機(jī)i的干擾策略為Ri，Ri為干擾機(jī)i的干擾策略集，R i∈ Ri。因?yàn)楦蓴_機(jī)i最多同時(shí)對(duì)K i個(gè)雷達(dá)進(jìn)行干擾，所以Ri=，其中a、b∈ M，因此干擾機(jī)i共表示干擾機(jī)i對(duì)雷達(dá)j進(jìn)行干擾，)表示干擾機(jī)i對(duì)雷達(dá)a、雷達(dá)b等K i個(gè)雷達(dá)進(jìn)行干擾。干擾機(jī)選擇不同的干擾策略，就會(huì)生成不同的決策矩陣X N×M。假設(shè)每一個(gè)干擾機(jī)都是理性的，只會(huì)選擇使自身收益最大的干擾策略。定義所有干擾機(jī)收益相同，為：

本文以最大化所有干擾機(jī)收益為目標(biāo)，因此干擾策略選擇的競(jìng)爭(zhēng)最優(yōu)問題可以表示為：

式中，R-i表示除了干擾機(jī)i之外所有干擾機(jī)的干擾策略，Co1表示干擾機(jī)i同時(shí)最多干擾K i部雷達(dá)。

不滿足Co1限制的干擾策略不會(huì)被選擇，然而干擾機(jī)很難提前知道哪些干擾策略是不可行的，所以不能直接采用U作為干擾機(jī)的收益函數(shù)。為了確定干擾策略選擇的可行性，定義每個(gè)干擾機(jī)的收益函數(shù)為：

從博弈論的觀點(diǎn)來看，N個(gè)干擾機(jī)構(gòu)成博弈參與者，干擾策略集構(gòu)成純策略空間，干擾機(jī)的收益函數(shù)構(gòu)成博弈參與者的收益函數(shù)，則干擾機(jī)干擾策略選擇行為可以被看作是一個(gè)博弈GE。

式中，N為干擾機(jī)的集合，Ri為干擾機(jī)的純策略空間，ui為干擾機(jī)i的收益。

3 基于學(xué)習(xí)自動(dòng)機(jī)的干擾資源分配算法

學(xué)習(xí)自動(dòng)機(jī)(LA）是一個(gè)能夠在隨機(jī)環(huán)境中通過重復(fù)地互動(dòng)從行動(dòng)集合中找出最佳行動(dòng)的自適應(yīng)決策者[9]，學(xué)習(xí)自動(dòng)機(jī)已經(jīng)被應(yīng)用于無線通信等領(lǐng)域。本文根據(jù)學(xué)習(xí)自動(dòng)機(jī)的概念，設(shè)計(jì)一種分布式隨機(jī)學(xué)習(xí)算法，來自適應(yīng)地更新干擾機(jī)的干擾策略。

為了更好地描述這個(gè)學(xué)習(xí)算法，本文把博弈GE擴(kuò)展到混合策略形式。用p i={p i1,…,p iTi}表示干擾機(jī)i的混合策略，其中p ik表示干擾機(jī)i選擇純策略k的行動(dòng)

如果混合策略的博弈是相繼輪流進(jìn)行的，則可以將每個(gè)干擾機(jī)視為一個(gè)學(xué)習(xí)自動(dòng)機(jī)，將博弈參與者的純策略視為學(xué)習(xí)自動(dòng)機(jī)的行動(dòng)，那么，這個(gè)混合策略博弈可以被視作一個(gè)由學(xué)習(xí)自動(dòng)機(jī)構(gòu)建成的隨機(jī)博弈?；旌喜呗詐 i(t)={p i1(t),…,p iT i(t)}可以被當(dāng)作在時(shí)刻t學(xué)習(xí)自動(dòng)機(jī)i的行動(dòng)的概率分布，而p ik(t)表示在t時(shí)刻，第i個(gè)學(xué)習(xí)機(jī)選擇第k個(gè)純策略的概率。干擾機(jī)i歸一化的收益則被視為第i個(gè)自動(dòng)機(jī)的反應(yīng)函數(shù)，即r i(t)=αui(t)，其中0＜α＜1，能夠保證r i(t)的值落在[0,1)區(qū)間。因此可以得到，r1(t)=…=r N(t)=r(t)=αui(t)。

在學(xué)習(xí)自動(dòng)機(jī)算法中，干擾機(jī)通過有限反饋信息，學(xué)習(xí)到關(guān)于干擾策略的概率分布，以便能夠最大化各自的收益。如果其中一個(gè)自動(dòng)機(jī)即干擾機(jī)根據(jù)它當(dāng)前的行動(dòng)概率分布獨(dú)立地選擇一個(gè)行動(dòng)時(shí)，就說這個(gè)博弈進(jìn)行了一次。為了能夠獲取這個(gè)博弈的納什均衡，干擾機(jī)需要重復(fù)地進(jìn)行這個(gè)博弈。該算法具體描述如下：

2）迭代重復(fù)以下過程：

①在每個(gè)時(shí)刻t（t＞0），每個(gè)干擾機(jī)根據(jù)它當(dāng)前的概率分布p i(t)選擇一個(gè)干擾策略R i，并上傳給指揮中心；

②指揮中心根據(jù)每個(gè)干擾機(jī)的干擾策略，更新決策矩陣，計(jì)算干擾機(jī)i的反應(yīng)函數(shù)r i(t)=。需要說明的是，本文中所有干擾機(jī)都具有相同的反應(yīng)函數(shù)，因此這個(gè)反應(yīng)可以很方便的通過指揮中心廣播給每個(gè)干擾機(jī)；

③每個(gè)干擾機(jī)通過指揮中心的反饋，利用（13）式更新其行動(dòng)概率分布，其中0＜δ＜1是一個(gè)步長(zhǎng)參數(shù)，i=1,…,N；k=1,…T i。

式中Rik為干擾機(jī)i的第k個(gè)純策略。

直到p i(t)中存在一個(gè)元素近似等于1，比如0.99，算法停止。

分布式干擾資源分配算法，通過重復(fù)博弈，最終確定了每個(gè)干擾機(jī)的混合策略。在任一個(gè)時(shí)刻，每個(gè)干擾機(jī)所需要的信息，僅僅是進(jìn)行了一次博弈后的歸一化收益，而不需要知道其它任何信息。所有干擾機(jī)只需要計(jì)算它們的行動(dòng)概率，避免了復(fù)雜的運(yùn)算。因此該算法能夠極大地降低運(yùn)算復(fù)雜度。

由于GE是一個(gè)具有共同收益函數(shù)的博弈。由文獻(xiàn)[10]中的定理4.1可得，當(dāng)步長(zhǎng)δ足夠小時(shí)，分布式干擾資源分配算法會(huì)收斂到博弈的一個(gè)純策略納什均衡。當(dāng)多個(gè)純策略納什均衡存在時(shí)，可以重復(fù)運(yùn)行該算法，然后從中選出獲得最高收益的那個(gè)純策略納什均衡，這樣就能直接找到問題p.1的最優(yōu)解或找到接近最優(yōu)性能的策略組合。

在傳統(tǒng)的學(xué)習(xí)自動(dòng)機(jī)當(dāng)中，步長(zhǎng)的大小對(duì)算法的收斂速度影響很大且是一個(gè)預(yù)先確定的常數(shù)。通常，δ越大，算法的收斂速度就越快。為了能夠在保證獲得接近問題p.1最優(yōu)解的情況下，加快收斂速度，本文設(shè)計(jì)了一個(gè)能夠自適應(yīng)調(diào)整步長(zhǎng)的機(jī)制。具體設(shè)計(jì)如下：

定義一個(gè)時(shí)變的δ：

式中，t1＜t2＜…＜tn-1是有序正整數(shù)，tn被定義為正無限，δ1＜δ2＜…＜δn＜1表示有序步長(zhǎng)，n是一個(gè)有限正整數(shù)。

本文設(shè)計(jì)的自適應(yīng)步長(zhǎng)調(diào)整機(jī)制不會(huì)影響理論結(jié)果。但是，為了能夠適應(yīng)實(shí)際需求，必須合理設(shè)計(jì)這些參數(shù)的值。由于自適應(yīng)步長(zhǎng)機(jī)制能夠把分布式算法的迭代次數(shù)自適應(yīng)地限制在一個(gè)需要的數(shù)值上，所以這個(gè)機(jī)制非常適用于實(shí)際系統(tǒng)。

4 仿真分析

用仿真實(shí)驗(yàn)驗(yàn)證所提算法和模型以及實(shí)現(xiàn)方法的正確性。為了對(duì)所提算法進(jìn)行簡(jiǎn)單高效且全面的分析，首先假設(shè)戰(zhàn)場(chǎng)環(huán)境內(nèi)有6部干擾機(jī)和7部目標(biāo)雷達(dá)，雷達(dá)的威脅系數(shù)分別為 0.89、0.27、0.64、0.10、0.72、0.43、0.54，每個(gè)干擾機(jī)最多能同時(shí)干擾2部雷達(dá)，則每個(gè)干擾機(jī)的策略數(shù)T i=C17+C27=28。通過干擾決策分析，計(jì)算雷達(dá)干擾效益矩陣Q，計(jì)算結(jié)果如表1所示。

表1 算例干擾效益值

圖1表示干擾機(jī)1所選行動(dòng)的概率值（也就是混合策略）的進(jìn)化曲線。采用自適應(yīng)步長(zhǎng)機(jī)制時(shí)，n=2，t1=200，δ1=0.1，δ2=0.3。圖 1證明本文所設(shè)計(jì)的算法具有很好的收斂性。

當(dāng)δ=0.1時(shí)，在459次迭代后，干擾機(jī)1收斂到策略 5，也就是p15=1，對(duì)應(yīng)的決策矩陣X1=[x11,x12,…,x17]=[1 0 0 0 1 0 0]，即干擾機(jī) 1選擇第 1個(gè)雷達(dá)和第5個(gè)雷達(dá)進(jìn)行干擾；

當(dāng)δ=0.3時(shí)，在65次迭代后，干擾機(jī)1收斂到策略 26，也就是p126=1，對(duì)應(yīng)的決策矩陣X1=[0 0 0 0 0 1 0]，即干擾機(jī)1選擇第6個(gè)雷達(dá)進(jìn)行干擾；

當(dāng)選擇自適應(yīng)步長(zhǎng)機(jī)制時(shí)，在220次迭代后，干擾機(jī)1收斂到策略5，也就是p15=1，對(duì)應(yīng)的決策矩陣X1=[1 0 0 0 1 0 0]，即干擾機(jī)1選擇第1個(gè)雷達(dá)和第5個(gè)雷達(dá)進(jìn)行干擾。

當(dāng)δ很大且策略數(shù)很小時(shí)，算法的收斂速度就會(huì)很快。此外，在相同狀態(tài)下，對(duì)于不同數(shù)值的δ，分布式干擾資源分配算法可能會(huì)收斂到不同的納什均衡。

圖1 干擾機(jī)1的所選行動(dòng)概率（混合策略）進(jìn)化曲線

圖2 給出了不同算法在不同干擾機(jī)數(shù)量情況下所獲得的干擾效益。圖2表明，不論干擾機(jī)數(shù)量是多少，分布式干擾資源分配算法都能夠獲得比隨機(jī)選擇算法大得多的干擾效益。如果在仿真中，運(yùn)行分布式干擾資源分配算法2次并且從中選擇一個(gè)收益較大的納什均衡，分布式干擾資源分配算法獲得的干擾效益就會(huì)得到提升。如果分布式干擾資源分配算法被運(yùn)行6次，則干擾效益性能會(huì)進(jìn)一步增加。

從圖2還可以獲知，δ越小，分布式干擾資源分配算法的性能越好。這是由于通常有多個(gè)納什均衡存在，而當(dāng)δ增大時(shí)，分布式干擾資源分配算法更有可能錯(cuò)失最優(yōu)的或者接近最優(yōu)的納什均衡。

圖2 性能對(duì)比

圖1 和圖2表明自適應(yīng)步長(zhǎng)機(jī)制能夠在干擾效益性能和收斂速度之間獲得一個(gè)很好的平衡。這些仿真結(jié)果證明自適應(yīng)步長(zhǎng)機(jī)制是有效的。在實(shí)際系統(tǒng)中，可以根據(jù)系統(tǒng)需求，來調(diào)整步長(zhǎng)δ的數(shù)值或者采用自適應(yīng)步長(zhǎng)機(jī)制來平衡性能與算法復(fù)雜度之間的關(guān)系?？偟膩碚f，分布式干擾資源分配算法靈活有效。

5 結(jié)束語

本文利用博弈論研究了雷達(dá)有源干擾資源分配問題，基于學(xué)習(xí)自動(dòng)機(jī)原理提出了分布式干擾資源分配算法，為求解雷達(dá)干擾資源分配數(shù)學(xué)模型提供了新的思路。重復(fù)這個(gè)算法，可以提高干擾機(jī)干擾效益。設(shè)計(jì)了一個(gè)自適應(yīng)步長(zhǎng)機(jī)制，它能夠平衡算法性能和收斂速度之間的關(guān)系。與窮舉搜索算法相比，本文提出的算法能夠以很低的復(fù)雜度來獲取一個(gè)與之相當(dāng)?shù)母蓴_性能。