亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Epsilon-Nash策略的動(dòng)態(tài)武器-目標(biāo)分配方法*

        2016-12-09 06:39:26王邑孫金標(biāo)華玉光王繼輝
        火力與指揮控制 2016年11期
        關(guān)鍵詞:藍(lán)方均衡點(diǎn)納什

        王邑,孫金標(biāo),華玉光,王繼輝

        (空軍指揮學(xué)院,北京100097)

        基于Epsilon-Nash策略的動(dòng)態(tài)武器-目標(biāo)分配方法*

        王邑,孫金標(biāo),華玉光,王繼輝

        (空軍指揮學(xué)院,北京100097)

        在大型任務(wù)規(guī)劃軟件的作戰(zhàn)單元任務(wù)分配中,搜索零和博弈問題的納什均衡點(diǎn)是求解任務(wù)分配的一種有效的方法。然而,納什均衡點(diǎn)在決策中并不一定總是存在且唯一,這造成了納什均衡策略在實(shí)際使用時(shí)具有較大的局限。通過采用Epsilon-Nash策略克服這種局限,并將其應(yīng)用于自主空戰(zhàn)任務(wù)規(guī)劃系統(tǒng)中,通過仿真實(shí)驗(yàn),證實(shí)Epsilon-Nash策略具有近似于納什策略的效果。

        戰(zhàn)術(shù)決策,武器-目標(biāo)分配,Epsilon-Nash,博弈論

        0 引言

        動(dòng)態(tài)武器-目標(biāo)分配問題(Dynamic Weapon-Target Assignment,WTA)是戰(zhàn)場指揮決策中的關(guān)鍵問題[1]。對該問題的求解,是很多武器任務(wù)規(guī)劃軟件的核心功能。

        以博弈論為基礎(chǔ)的作戰(zhàn)指揮控制理論在戰(zhàn)場指揮決策中得到了廣泛的應(yīng)用。在敵我雙方具有一定情報(bào)信息理解的前提下,通過構(gòu)造對策矩陣,尋找博弈均衡點(diǎn),來搜尋作戰(zhàn)收益最高的分配方案,是解決武器-目標(biāo)分配問題的可行的方法。

        博弈論中最常討論研究的博弈均衡為納什均衡(Nash Equilibirum),采用納什均衡解決任務(wù)規(guī)劃問題的時(shí)候,必須保證決策矩陣都有全局唯一的納什均衡點(diǎn)。這種決策矩陣博弈對策中存在且唯一的納什均衡點(diǎn)稱之為純納什均衡點(diǎn),而據(jù)文獻(xiàn)[2],大多數(shù)非零和博弈對策矩陣不存在純納什均衡點(diǎn),因此,在實(shí)踐中,必須考慮納什均衡點(diǎn)非唯一或不存在的情形。在理論探討中,通常采用混合策略(Mixed Strategy)[3],簡化決策矩陣[4]等方法來進(jìn)行無純納什均衡點(diǎn)矩陣的決策。

        影響納什均衡策略在動(dòng)態(tài)武器[6]-目標(biāo)分配問題中的使用問題,除了純納什均衡點(diǎn)可能不存在這個(gè)理論問題之外,還有搜索納什均衡點(diǎn)本身的效率問題。經(jīng)過科學(xué)論證,搜索納什均衡點(diǎn)、判斷純納什均衡點(diǎn)數(shù)量的計(jì)算復(fù)雜度都是PPAD-Complete難度,而若對策矩陣中出現(xiàn)元素缺失或不確定的情況,隨之產(chǎn)生的納什均衡點(diǎn)非唯一或不存在使情況更加復(fù)雜,除此以外,搜索混合納什均衡點(diǎn)、簡化決策矩陣等工作涉及也都是PPAD-Complete難度的計(jì)算,因此,在實(shí)踐中,基本上沒有討論戰(zhàn)役規(guī)模決策矩陣的相關(guān)論述,而大多是圍繞小規(guī)模2對2空戰(zhàn)等簡單對策中討論納什均衡的求解。

        綜上所述,若有方法能夠克服納什均衡點(diǎn)數(shù)量的問題,且能夠快速有效地計(jì)算得到接近納什均衡的結(jié)果,那將是非常實(shí)用的。

        本文將Epsilon-Nash策略引入解決純納什均衡不存在時(shí)的局部最優(yōu)化問題,使用經(jīng)過線性時(shí)間就可計(jì)算出的Epsilon-Nash均衡點(diǎn)來代替納什均衡點(diǎn),得到純納什均衡的近似解,大大地提高了問題的求解效率,并拓寬了博弈論方法在WTA問題中的運(yùn)用范圍。通過蒙特卡洛仿真,與全信息最優(yōu)策略,和無信息最優(yōu)策略進(jìn)行效用對比來分析方法的使用效果。通過實(shí)驗(yàn)表明,Epsilon-Nash策略能夠接近于純納什均衡所產(chǎn)生的效能。

        1 基于Epsilon-Nash的武器-目標(biāo)分配

        1.1WTA問題描述

        設(shè)A,B方進(jìn)行攻防對抗,A為紅方,有N個(gè)單位,B為藍(lán)方,有M個(gè)單位,則A={1,2,…,n},B= {1,2,…,m},設(shè)Pij表示A組第i單位攻擊B組第j目標(biāo)的擊毀概率,對應(yīng)的存活概率是qij=1-Pij,則目標(biāo)j遭受多目標(biāo)攻擊后的存活概率為:

        其中,xij為A組第i單位攻擊B組第j目標(biāo)的武器數(shù)。則xij的約束條件為:

        設(shè)紅方為A,藍(lán)方為B,行動(dòng)規(guī)劃共有K步。行動(dòng)步驟為k=0,1,…,K,各步可用作戰(zhàn)單位數(shù)為N(k),M(k),設(shè)在決策中每一步都有評價(jià)函數(shù),紅方為JA(x(k),y(k)),藍(lán)方為JB(x(k),y(k)),其中:

        分別是NA(k),MB(k)維向量,表示紅藍(lán)雙方每個(gè)作戰(zhàn)單元第k步的目標(biāo)分配策略。

        設(shè)第k步時(shí),紅方第i作戰(zhàn)單元打擊藍(lán)方第j作戰(zhàn)單元的毀傷概率為,對應(yīng)的藍(lán)方第j作戰(zhàn)單元打擊紅方第i作戰(zhàn)單元的毀傷概率為,設(shè)分別是第k步起始時(shí)紅方第i作戰(zhàn)單元和藍(lán)方第j作戰(zhàn)單元的生存概率,則生存概率的計(jì)算式為:

        每個(gè)作戰(zhàn)單元的價(jià)值不同,設(shè)Wx(i)表示紅方第i個(gè)作戰(zhàn)單元對紅方的價(jià)值,Wy(i)表示該作戰(zhàn)單元對藍(lán)方的價(jià)值。設(shè)Wy(j)表示藍(lán)方第j個(gè)作戰(zhàn)單元對藍(lán)方的價(jià)值,Wx(j)表示該單元對紅方的價(jià)值。相應(yīng)地,紅藍(lán)雙方的策略評價(jià)函數(shù)可以寫為:

        1.2WTA問題的Nash均衡解

        設(shè)在評價(jià)函數(shù)JA下,對B方策略y,A方的最優(yōu)策略x*,定義為:

        對于B方給定的策略y,A方由最優(yōu)策略x*變?yōu)槠渌呗詘,造成的損失(又稱悔值regret)為:

        對稱地,對A方策略x,B方由最優(yōu)策略y*變?yōu)槠渌呗詙,造成的損失為:

        Dx(x,y),Dy(x,y)嚴(yán)格非負(fù)。

        當(dāng)Dx(x,y)=Dy(x,y)=0時(shí),雙方策略為納什均衡策略對。

        定義(WTA問題的納什均衡策略):

        稱uA,uB納什策略對,當(dāng)且僅當(dāng):

        若定義雙方的累積損失為:

        則,納什策略對滿足:

        將式(7)~式(9)給出的納什策略對條件帶入式(3),得到許多步規(guī)劃以下目標(biāo)函數(shù):

        1.3一種Epsilon-Nash均衡策略

        由于動(dòng)態(tài)武器-目標(biāo)分配問題的每一步都是NP難優(yōu)化問題,故式(10)沒有解析解,雖然可以對模型進(jìn)行適當(dāng)簡化,使其符合雙矩陣博弈的基本形式,但搜索其Nash均衡解的復(fù)雜度仍然是PPAD-Complete難度,且如前所述,純納什策略的存在性和唯一性無法保證,因此,需要引入Epsilon-Nash均衡策略作為納什均衡策略的替代。

        雙矩陣博弈:

        博弈空間G=(V,E)中,博弈方i∈V有mi個(gè)純決策方案,j∈V有mj個(gè)純決策方案,則:雙矩陣博弈規(guī)模mi×mj,〈A(i×j),A(j×i)〉,對所有(i,j)∈E,i方的支付函數(shù)(即決策收益)為所有博弈分支付的總和:

        如式(8)所描述的納什策略可以抽象為尋找雙矩陣博弈問題的納什均衡點(diǎn),非合作非零和雙矩陣博弈Γ=〈A,B〉,策略對(x*,y*)為納什均衡,當(dāng)且僅當(dāng),

        ①對行博弈方(row player)任意混合策略x,xTAy*≤x*TAy*且,

        ②對列博弈方(column player)任意混合策略y,x*TBy*≤x*TBy*,

        定義(Epsilon-Nash策略):

        ②對列博弈方(column player)任意混合策略y,,

        引理[5]((2+λ)/4-納什均衡存在定理):

        一個(gè)n×m非負(fù)正規(guī)化非合作雙矩陣對策Γ=〈A,B〉中,設(shè)為所有行(列)玩家所有納什均衡決策中支付最小者,且設(shè)λ=max,則必存在線性時(shí)間可求得的(2+λ)/4-納什均衡策略。

        (2+λ)/4-納什均衡求解方法:

        設(shè)如下線性規(guī)劃問題:

        線性規(guī)劃1:

        線性規(guī)劃2:

        設(shè)t*,y*,s*,x*分別是線性規(guī)劃1和2最優(yōu)解,則存在至少一行r∈[1,n],滿足,一列c∈[1,m]使。即最優(yōu)解的行號和列號分別是r,c。

        1.4鐘擺搜索Epsilon-Nash策略

        由于對抗雙方控制變量x(k),y(k)屬于動(dòng)態(tài)變化的量,所以多步預(yù)測是極復(fù)雜的問題。為簡化計(jì),可以用鐘擺交替搜索法。首先假設(shè)藍(lán)方兩步的步驟是{y(k),y(k+1)}0,相應(yīng)地算出對應(yīng)的策略{x(k),x(k+1)}0,然后再根據(jù)此策略計(jì)算藍(lán)方的響應(yīng)策略{y(k),y(k+1)}1以此類推。結(jié)束終止條件為:

        其中r≥1,當(dāng)搜索結(jié)束,選取在其中滿足線性規(guī)劃式(12)、式(13)的量,即可構(gòu)造Epsilon-Nash決策輸出。

        1.5Epsilon-Nash策略評價(jià)

        為驗(yàn)證Epsilon-Nash策略目標(biāo)分配方法的實(shí)際效果,定義兩種其他策略作為參考策略。即,全信息最優(yōu)策略和無信息最優(yōu)策略。

        定義(全信息最優(yōu)策略):

        紅方全信息最優(yōu)策略{x*(k),x*(k+1)}∈XA*(k)為在給定藍(lán)方作戰(zhàn)單位y(k)條件下,在后推步長d=1時(shí),滿足如下不等式:

        全信息最優(yōu)策略是在完全知曉對方策略的前提下得到的,且僅知道當(dāng)前時(shí)刻對方的策略,其策略的目標(biāo)函數(shù)可以在下一個(gè)運(yùn)算周期內(nèi)進(jìn)行推測。

        定義(無信息最優(yōu)策略):

        無信息最優(yōu)策略x(ok),在k步驟時(shí),,任一方的決策滿足己方獲益最大,即,藍(lán)方以此類推。無信息最優(yōu)策略即完全忽略對方策略而產(chǎn)生的一種策略。

        2 實(shí)驗(yàn)驗(yàn)證

        為驗(yàn)證Epsilon-Nash策略在動(dòng)態(tài)武器-目標(biāo)分配問題中的效用,進(jìn)行了紅藍(lán)雙方各10個(gè)目標(biāo)的蒙特卡洛仿真。假設(shè)紅藍(lán)雙方的作戰(zhàn)單元價(jià)值相同,每次仿真生成新的隨機(jī)決策矩陣,首先假定了兩個(gè)16×16矩陣,分別是紅方對藍(lán)方以及藍(lán)方對紅方的殺傷概率,取值服從[0,0.5]區(qū)間上的正態(tài)分布。策略評價(jià)函數(shù)與式(3)相同,作戰(zhàn)單元價(jià)值服從[0,1]區(qū)間上的正態(tài)分布,且對稱構(gòu)造,即。然后連續(xù)執(zhí)行3輪攻擊,即雙方進(jìn)行決策—攻擊3次。統(tǒng)計(jì)3輪攻擊后雙方的存活作戰(zhàn)單元價(jià)值總和,數(shù)值大者勝利,然后重置仿真參數(shù),進(jìn)入下一局。每種配置執(zhí)行10 000局仿真。實(shí)驗(yàn)1中,紅藍(lán)方均采用Epsilon-Nash策略進(jìn)行對抗;實(shí)驗(yàn)2中,紅方采用Epsilon-Nash策略,藍(lán)方采用全信息最優(yōu)策略;實(shí)驗(yàn)3中,紅方采用Epsilon策略,藍(lán)方采用無信息最優(yōu)策略。實(shí)驗(yàn)的評價(jià)指標(biāo)為勝利率,即勝利局?jǐn)?shù)占總局?jǐn)?shù)的百分比,仿真的結(jié)果如表1所示:

        表1 仿真實(shí)驗(yàn)結(jié)果

        從表1中可以看出,實(shí)驗(yàn)1的結(jié)果與實(shí)驗(yàn)2的結(jié)果更為近似,采用Epsilon-Nash策略的總體效果與敵方采用Epsilon-Nash的效果相同,優(yōu)于無信息最優(yōu)分配策略,低于全信息最優(yōu)策略。實(shí)踐中,當(dāng)納什均衡存在時(shí),一方選擇納什均衡而另一方選擇全信息最優(yōu)策略,其結(jié)果應(yīng)該與雙方均選取納什均衡策略結(jié)果一致,故,Epsilon-Nash策略在對抗全信息最優(yōu)策略時(shí),其效果為相當(dāng)或略低于全信息最優(yōu)策略。而Epsilon-Nash策略對抗無信息最優(yōu)策略,則顯現(xiàn)出較大的優(yōu)勢。這表明,Epsilon-Nash策略產(chǎn)生的結(jié)果非常近似于納什策略,且比納什策略的求解范圍更大。

        3 結(jié)論

        本文采用了一種Epsilon-Nash策略來克服納什均衡點(diǎn)不存在或不唯一時(shí)的動(dòng)態(tài)武器-目標(biāo)規(guī)劃問題,采用蒙特卡洛法和隨機(jī)矩陣,通過實(shí)驗(yàn)驗(yàn)證了Epsilon-Nash策略相對全信息和無信息最優(yōu)策略的效能。通過試驗(yàn)表明了Epsilon-Nash策略近似于納什策略,可作為無全局納什點(diǎn)動(dòng)態(tài)武器-目標(biāo)分配問題的解法策略。

        [1]劉傳波,邱志明,吳玲,等.動(dòng)態(tài)武器目標(biāo)分配問題的研究現(xiàn)狀與展望[J].電光與控制,2010,17(11):43-48.

        [2]BRANDT F,F(xiàn)ISCHER F,HOLZER M.Symmetries and the complexity of pure Nash equilibrium[J].Journal of Computer and System Sciences,2009,75(3):163-177.

        [3]RENY P J.On the existence of pure and mixed strategy Nash equilibriaindiscontinuousgames[J].Econometrica,1999,67(5):1029-1056.

        [4]KNUTH D E,PAPADIMITRIOU C H,TSITSIKLIS J N.A note on strategy elimination in bimatrix games[J].Operations Research Letters,1988,7(3):103-107.

        [5]KONTOGIANNIS S C,PANAGOPOULOU P N,SPIRAKIS P G.Polynomial algorithms for approximating nash equilibria of bimatrix games[M].Berlin:Springer Berlin Heidelberg,2006:286-296.

        [6]周全,劉娟.基于動(dòng)態(tài)武器目標(biāo)分配的建模[J].四川兵工學(xué)報(bào),2010,31(9):14-15.

        Research of Dynamic Weapon-Target Assignment Problem Based on Epsilon-Nash Equlibirum

        WANG Yi,SUN Jin-biao,HUA Yu-guang,WANG Ji-hui
        (Air Force Command College,Beijing 100097,China)

        In large scale mission planning software,the mission assignment of asset can be effctive when searching nash equilibria in non-cooperative non zero sum game problem.However,the pure nash equlibrium is not always exist and single,in which case limit the use of nash strategy in Weapon-Target assignment.A Epsilon-Nash Equlibirum method to overcome the limitation is proposed.Apply it in a air combat mission planning system,through simulation test,the epsilon-nash strategy can be as effective as pure nash strategy.

        tactical decision,weapon-target assignment,epsilon-nash,game theory

        TP391.9

        A

        1002-0640(2016)11-0012-04

        2015-10-12

        2015-11-17

        航空科學(xué)基金資助項(xiàng)目(20131789004)

        王邑(1984-),男,四川成都人,博士,工程師。研究方向:計(jì)算智能、空軍合同戰(zhàn)術(shù)模擬。

        猜你喜歡
        藍(lán)方均衡點(diǎn)納什
        THE ROLE OF L1 IN L2 LEARNING IN CHINESE MIDDLE SCHOOLS
        THE ROLE OF L1 IN L2 LEARNING IN CHINESE MIDDLE SCHOOLS
        交易成本理論在油田企業(yè)小修業(yè)務(wù)自營和外包決策中的應(yīng)用分析
        精彩的足球比賽
        三級供應(yīng)鏈投資模型的評價(jià)管理
        物流科技(2017年9期)2017-10-31 14:59:45
        暗號
        均衡點(diǎn)移動(dòng)的直觀圖示及其例析
        暗號
        小小說月刊(2015年5期)2016-01-22 08:39:19
        暗號
        不確定條件下n人非合作博弈均衡點(diǎn)集的通有穩(wěn)定性
        成年人视频在线播放麻豆| 国产乱色精品成人免费视频| 在线观看免费a∨网站| 99综合精品久久| 在线观看视频亚洲一区二区三区 | 黄色av三级在线免费观看| 无人视频在线播放免费| 狠狠摸狠狠澡| 少妇无码一区二区三区| 毛片av在线播放亚洲av网站| 国产精品一区二区蜜臀av| 无套内谢孕妇毛片免费看| 女人下面毛多水多视频| 人妻无码中文专区久久综合| 亚洲av午夜福利一区二区国产| 亚洲 另类 小说 国产精品| 久久久精品456亚洲影院| 97精品国产91久久久久久久| 老司机在线免费视频亚洲| 精品精品国产高清a毛片| 又白又嫩毛又多15p| 日韩在线观看网址| 国产人妻久久精品二区三区老狼 | 亚洲av永久青草无码精品| 亚洲国产一区二区,毛片| 成 人色 网 站 欧美大片在线观看| 亚洲国产韩国欧美在线| 久久99精品久久久久九色| 精品女厕偷拍视频一区二区区| 国产亚洲精品a片久久久| 乌克兰少妇xxxx做受6| 日本女优在线观看一区二区三区| 国产精品三区四区亚洲av| 国产女人高潮叫床视频 | 国产精品熟女一区二区| 日韩久久久黄色一级av| 熟女人妻一区二区三区| 强奷乱码中文字幕| 中文字幕在线码一区| 激情在线视频一区二区三区| 久久精品99国产精品日本|