邢 巖,劉 昊,李保碩
(1.沈陽(yáng)航空航天大學(xué) 電子信息工程學(xué)院, 沈陽(yáng) 110000;2.國(guó)防大學(xué) 聯(lián)合作戰(zhàn)學(xué)院, 石家莊 050000; 3. 31696部隊(duì)參謀部, 遼寧 錦州 121000)
在未來(lái)智能化條件下的諸軍兵種火力突防作戰(zhàn),呈現(xiàn)出智能化、精確化、多彈種、實(shí)時(shí)動(dòng)態(tài)可控的新型作戰(zhàn)特點(diǎn),如何將聯(lián)合作戰(zhàn)指揮員的戰(zhàn)法策略實(shí)時(shí)高效地轉(zhuǎn)化為計(jì)算機(jī)能接收、理解并高效執(zhí)行的指令數(shù)據(jù)流,并通過(guò)計(jì)算機(jī)的大規(guī)模運(yùn)算生成符合指揮員決策意圖的智能優(yōu)化結(jié)果,是智能化算法研究的核心和難點(diǎn)問(wèn)題。隨著人工智能逐步融合軍隊(duì)裝備建設(shè)實(shí)際,戰(zhàn)法策略的人機(jī)結(jié)合以及聯(lián)合火力打擊任務(wù)規(guī)劃的智能優(yōu)化成為可能,國(guó)內(nèi)外專家聚焦于在現(xiàn)有博弈對(duì)抗算法基礎(chǔ)上實(shí)現(xiàn)對(duì)戰(zhàn)法策略的智能優(yōu)化和輔助控制,以期提升火力打擊效率和勝率。
在國(guó)內(nèi)外的人工智能領(lǐng)域相關(guān)研究中,文獻(xiàn)[1-5]利用多智能體序列的交叉變異實(shí)現(xiàn)戰(zhàn)術(shù)級(jí)兵棋對(duì)抗推演的智能決策,實(shí)現(xiàn)了智能體搭配組合下的決策優(yōu)化;文獻(xiàn)[6-10]則聚焦桌面棋類游戲的對(duì)抗博弈研究,利用基于決策樹算法的改進(jìn)博弈樹實(shí)現(xiàn)了智能體棋力對(duì)抗提升;文獻(xiàn)[11-15]聚焦五子棋算法等博弈棋類算法研究,利用剪枝算法和窗口搜索實(shí)現(xiàn)了智能系統(tǒng)棋藝提升;文獻(xiàn)[16-20]針對(duì)棋類博弈計(jì)算的復(fù)雜性劇增特點(diǎn),通過(guò)神經(jīng)元網(wǎng)絡(luò)訓(xùn)練智能體內(nèi)部結(jié)構(gòu),并使用威脅空間搜索實(shí)現(xiàn)算法的迭代加深,取得了較好的博弈效果。通過(guò)對(duì)同類研究分析,相關(guān)算法多聚焦于智能優(yōu)化算法研究,通過(guò)神經(jīng)網(wǎng)絡(luò)或強(qiáng)化學(xué)習(xí)方法達(dá)成系統(tǒng)結(jié)構(gòu)對(duì)解決方案的適應(yīng)性調(diào)整,而較少涉及智能體的結(jié)構(gòu)以及多智能體之間協(xié)作性研究[21-25]。本文中從聯(lián)合火力打擊戰(zhàn)法策略研究切入,利用指揮員的主觀決策拆解為聯(lián)合火力打擊的實(shí)時(shí)任務(wù)規(guī)劃,進(jìn)而轉(zhuǎn)譯為計(jì)算機(jī)可調(diào)用并優(yōu)化的智能體結(jié)構(gòu),并通過(guò)眾多目的不同、性能表現(xiàn)各異的智能體之間的搭配組合實(shí)現(xiàn)群體行為的控制,進(jìn)而使用反饋調(diào)節(jié)智能體構(gòu)造,以求建立能夠?qū)W習(xí)優(yōu)化的種群進(jìn)化模型,為聯(lián)合火力打擊的智能優(yōu)化提供算法平臺(tái)支撐。
聯(lián)合火力打擊是諸軍兵種聯(lián)合作戰(zhàn)的重要打擊樣式,也是決戰(zhàn)決勝火力突防作戰(zhàn)中的主要作戰(zhàn)行動(dòng),由于聯(lián)合火力打擊中較少涉及諸軍兵種部隊(duì)的兵力機(jī)動(dòng)轉(zhuǎn)移,而將主要作戰(zhàn)行動(dòng)集中于頻繁的火力機(jī)動(dòng)調(diào)度,因此相較于常規(guī)兵棋推演系統(tǒng)在一定程度上簡(jiǎn)化了智能優(yōu)化和動(dòng)態(tài)火力分配的計(jì)算難度,為智能算法的應(yīng)用提供了量化計(jì)算平臺(tái)。在聯(lián)合火力打擊中,通常依據(jù)指揮員定下作戰(zhàn)決心、細(xì)化戰(zhàn)法策略、諸軍兵種擬制任務(wù)規(guī)劃、執(zhí)行火力打擊行動(dòng)的流程執(zhí)行,本文中主要關(guān)注指揮員戰(zhàn)法策略、火力打擊任務(wù)規(guī)劃和智能體構(gòu)造3個(gè)環(huán)節(jié)之間的作用關(guān)系。
聯(lián)合火力打擊戰(zhàn)法策略是指揮員依據(jù)上級(jí)定下的作戰(zhàn)決心,結(jié)合諸軍兵種火力打擊部隊(duì)的作戰(zhàn)特點(diǎn),以及敵方的防御重點(diǎn)定下的有傾向性的火力打擊行動(dòng)準(zhǔn)則。根據(jù)指揮員的主觀經(jīng)驗(yàn),戰(zhàn)法策略可以是具有指向性的重點(diǎn)打擊目標(biāo)類別策略,也可以是針對(duì)某種特定目標(biāo)的硬性指標(biāo)策略,戰(zhàn)法策略中包含決策傾向的目的性要求、部隊(duì)彈種的限制性要求、目標(biāo)毀傷程度的技術(shù)性要求,表1為聯(lián)合火力打擊戰(zhàn)法策略示例。
表1 聯(lián)合火力打擊戰(zhàn)法策略
表1中的No.2戰(zhàn)法策略中,指揮員的目的性要求為體系破擊,因此對(duì)高體系價(jià)值目標(biāo)的毀傷程度通常定為殲滅毀傷60%以上(判定敵方目標(biāo)在達(dá)成60%以上毀傷即可視為殲滅),同時(shí)對(duì)參戰(zhàn)火力打擊部隊(duì)彈種的使用亦有相應(yīng)約束,如對(duì)DF21D導(dǎo)彈部隊(duì)的使用應(yīng)做以限制,以保持對(duì)敵航母威脅等。
在指揮員主觀戰(zhàn)法策略基礎(chǔ)上,參謀機(jī)構(gòu)應(yīng)以此為準(zhǔn)則要求,細(xì)化擬制諸軍兵種火力打擊部隊(duì)的聯(lián)合火力打擊任務(wù)規(guī)劃,任務(wù)規(guī)劃中明確參與打擊部隊(duì)彈種的編號(hào)名稱、火力打擊發(fā)起時(shí)刻、打擊目標(biāo)的編號(hào)性質(zhì)及坐標(biāo)位置。聯(lián)合火力打擊任務(wù)規(guī)劃與戰(zhàn)法策略之間是多對(duì)一的對(duì)應(yīng)關(guān)系,即在同一戰(zhàn)法策略的指導(dǎo)下,不同的參謀人員可依據(jù)自身特點(diǎn)擬制多種多樣的任務(wù)規(guī)劃,并能保證符合戰(zhàn)法策略的硬約束條件,而各任務(wù)規(guī)劃之間的執(zhí)行差異度和最終執(zhí)行效果是衡量參謀人員綜合素養(yǎng)的關(guān)鍵指標(biāo),一般只有經(jīng)過(guò)實(shí)戰(zhàn)或兵棋推演實(shí)現(xiàn)量化評(píng)估。
聯(lián)合火力打擊的智能體結(jié)構(gòu)可視作是聯(lián)合火力打擊任務(wù)規(guī)劃的計(jì)算機(jī)轉(zhuǎn)譯矩陣,目標(biāo)是為智能優(yōu)化的概率性變異操作提供合適的執(zhí)行單元,就如同基因代碼,能夠隨著不斷自我復(fù)制產(chǎn)生微小變異,以進(jìn)化出適應(yīng)性后代。智能體構(gòu)造可以依托聯(lián)合火力打擊任務(wù)規(guī)劃,但必須滿足如下條件:一是智能體能夠包含所有的戰(zhàn)法策略表述;二是智能體結(jié)構(gòu)應(yīng)是矩陣行列表達(dá)式;三是智能體結(jié)構(gòu)能夠變異和轉(zhuǎn)譯,轉(zhuǎn)譯即能夠一對(duì)一的與聯(lián)合火力打擊任務(wù)規(guī)劃建立對(duì)應(yīng)關(guān)系。通過(guò)約束條件可知,智能體有且僅能轉(zhuǎn)譯為一個(gè)聯(lián)合火力打擊任務(wù)規(guī)劃,而考慮到智能體的系統(tǒng)變異復(fù)雜性,有必要為智能體保留一定的冗余變異空間,因此聯(lián)合火力打擊任務(wù)規(guī)劃能夠轉(zhuǎn)譯為多個(gè)智能體,聯(lián)合火力打擊戰(zhàn)法策略、任務(wù)規(guī)劃、智能體之間的對(duì)應(yīng)關(guān)系如圖1所示。
圖1 戰(zhàn)法策略、任務(wù)規(guī)劃、智能體對(duì)應(yīng)關(guān)系框圖Fig.1 Tactics,mission planning,agent corresponding relationship
聯(lián)合火力打擊任務(wù)規(guī)劃擬制流程:
1) 確定限制條件。包括客觀限制條件如地形、天候、射程、空域、彈種目標(biāo)匹配、毀傷程度等;以及主觀限制條件如指揮員主觀命令部隊(duì)彈種待命導(dǎo)致的火力打擊策略改變等,以此建立部隊(duì)彈種與特定目標(biāo)的匹配限制表。
2) 選擇部隊(duì)彈種。通過(guò)遍歷所有任務(wù)部隊(duì),確定當(dāng)前處于空閑待命狀態(tài)的任務(wù)部隊(duì),同時(shí)根據(jù)彈藥剩余儲(chǔ)備選擇執(zhí)行火力打擊任務(wù)的彈種。
3) 選擇打擊目標(biāo)。通過(guò)遍歷所有打擊目標(biāo),確定當(dāng)前優(yōu)先打擊的目標(biāo)編號(hào),同時(shí)根據(jù)匹配限制表查詢是否符合火力打擊條件。
4)建立火力打擊指令。在指令中輸入部隊(duì)彈種編號(hào)、目標(biāo)編號(hào),并根據(jù)當(dāng)前任務(wù)條件確定火力打擊發(fā)起時(shí)刻,在系統(tǒng)中錄入火力打擊指令。
5) 重復(fù)步驟2)~步驟4),直至達(dá)成退出條件:參戰(zhàn)部隊(duì)均無(wú)法執(zhí)行火力打擊任務(wù),或者所有目標(biāo)均已達(dá)成規(guī)定毀傷指標(biāo)。
6) 輸出任務(wù)規(guī)劃。將上述步驟中錄入的所有指令輸出為聯(lián)合火力打擊任務(wù)規(guī)劃,必要時(shí)利用計(jì)算機(jī)仿真計(jì)算任務(wù)規(guī)劃的預(yù)期執(zhí)行效果評(píng)分。
智能體構(gòu)造過(guò)程本質(zhì)上是再現(xiàn)聯(lián)合火力打擊任務(wù)規(guī)劃的擬制過(guò)程,因此可將智能體構(gòu)造過(guò)程劃分為部隊(duì)彈種選擇、打擊目標(biāo)選擇、冗余數(shù)據(jù)設(shè)計(jì)3部分。
考慮智能體必須在變異過(guò)程中貼合聯(lián)合火力打擊任務(wù)規(guī)劃,因而有必要引入部隊(duì)彈種的排序表結(jié)構(gòu)代替任務(wù)規(guī)劃擬制中的選擇部隊(duì)彈種步驟,排序表優(yōu)點(diǎn)在于具備動(dòng)態(tài)適應(yīng)性,不會(huì)因?yàn)橹悄荏w變異而產(chǎn)生無(wú)法合法表述為任務(wù)規(guī)劃的情況。并引入轉(zhuǎn)譯的規(guī)則約束:如當(dāng)前選中的部隊(duì)彈種無(wú)法執(zhí)行火力打擊任務(wù),則按照排序表依次選中后序部隊(duì)彈種。在排序表結(jié)構(gòu)中,變異操作借鑒了旅行商N(yùn)P問(wèn)題中的遍歷節(jié)點(diǎn)算法,只需對(duì)調(diào)其中兩個(gè)節(jié)點(diǎn)即可完成變異操作。智能體在優(yōu)化選擇過(guò)程中,必然需要保留一定的冗余度,以防止算法陷入局部最優(yōu)而失效,因此設(shè)計(jì)冗余結(jié)構(gòu):在每個(gè)部隊(duì)彈種的打擊排序表中引入一定的-1編號(hào),當(dāng)部隊(duì)彈種觸發(fā)該位置,則執(zhí)行待命操作,以保證隨時(shí)保留一定的彈藥余量打擊重點(diǎn)目標(biāo)。
智能體結(jié)構(gòu)包括:1) 部隊(duì)彈種序號(hào),2) 壽命,3) 綜合評(píng)分,4) 目標(biāo)排序表。
智能體示例:D131115旅發(fā)射1營(yíng),壽命為24,綜合評(píng)分為2 152.38,目標(biāo)排序?yàn)?0、29、13-1、8、16、2、4。
每個(gè)智能體代表唯一對(duì)應(yīng)的部隊(duì)彈種,則多個(gè)智能體的搭配組合即可轉(zhuǎn)譯為聯(lián)合火力打擊任務(wù)規(guī)劃,因此建立由多個(gè)智能體組成的種群結(jié)構(gòu):種群中包含對(duì)應(yīng)不同部隊(duì)彈種的多個(gè)智能體,種群內(nèi)智能體通過(guò)反饋評(píng)分調(diào)節(jié)達(dá)成內(nèi)部目標(biāo)排序表的適應(yīng)性進(jìn)化。為了計(jì)算反饋評(píng)分,引入敵我雙種群模式,敵我雙方的智能體隨機(jī)搭配組合,形成多種多樣的任務(wù)規(guī)劃,并通過(guò)敵我雙方的任務(wù)規(guī)劃實(shí)現(xiàn)聯(lián)合火力打擊的兵棋對(duì)抗推演,利用對(duì)抗結(jié)果反饋到智能體綜合評(píng)分,進(jìn)而實(shí)現(xiàn)智能體的優(yōu)勝劣汰。由于不同部隊(duì)彈種的智能體之間的搭配組合隨機(jī)實(shí)現(xiàn),鑒于種群規(guī)模龐大,因而能夠產(chǎn)生智能體搭配組合中的涌現(xiàn)效應(yīng),即產(chǎn)生復(fù)雜系統(tǒng)中的群體進(jìn)化現(xiàn)象,利用種群中智能體搭配組合的復(fù)雜性對(duì)抗多種多樣的敵方任務(wù)規(guī)劃類型,并通過(guò)多代進(jìn)化實(shí)現(xiàn)智能體智力水平的提升。敵我雙種群示意如圖2所示。
智能體攜帶了某個(gè)部隊(duì)彈種的特定打擊目標(biāo)排序表,隸屬于同一部隊(duì)彈種的智能體之間可視為同一物種,存在競(jìng)爭(zhēng)關(guān)系,即智能體間依靠激勵(lì)函數(shù)的反饋評(píng)分確定淘汰和繁殖對(duì)象,并在多代進(jìn)化后實(shí)現(xiàn)算法對(duì)敵我對(duì)抗推演過(guò)程的深度學(xué)習(xí);隸屬于不同部隊(duì)彈種的智能體之間如同不同物種,存在協(xié)作關(guān)系,即多個(gè)隸屬于不同部隊(duì)彈種的智能體搭配組合實(shí)現(xiàn)唯一對(duì)應(yīng)的聯(lián)合火力打擊任務(wù)規(guī)劃,搭配組合方式的復(fù)雜性決定了任務(wù)規(guī)劃具備復(fù)雜多樣性,智能體結(jié)構(gòu)的改變使群體涌現(xiàn)產(chǎn)生的任務(wù)規(guī)劃發(fā)生群體性的改變,達(dá)成以復(fù)雜對(duì)抗復(fù)雜的效果;算法流程為:
步驟1建立紅藍(lán)雙種群。種群內(nèi)為每個(gè)部隊(duì)彈種分配4個(gè)初始化智能體,通過(guò)隨機(jī)分配打擊目標(biāo)排序?qū)崿F(xiàn)智能體的初始化,每個(gè)智能體的初始評(píng)分設(shè)置為0。
步驟2建立任務(wù)規(guī)劃。隨機(jī)抽取同一部隊(duì)彈種中的智能體,按照部隊(duì)彈種順序從每個(gè)選中智能體對(duì)應(yīng)的目標(biāo)排序表中抽取擬打擊目標(biāo)編號(hào),如選中冗余項(xiàng)-1則命令該部隊(duì)待命3 min,根據(jù)部隊(duì)打擊能力表計(jì)算該部隊(duì)的執(zhí)行規(guī)劃時(shí)刻、火力打擊時(shí)刻以及彈藥消耗量,為了防止規(guī)劃執(zhí)行中有目標(biāo)已被消滅導(dǎo)致的彈藥剩余情況,應(yīng)根據(jù)目標(biāo)排序表多分配一定的任務(wù)規(guī)劃項(xiàng)。在生成所有部隊(duì)彈種對(duì)應(yīng)的任務(wù)規(guī)劃項(xiàng)后,應(yīng)對(duì)所有任務(wù)規(guī)劃項(xiàng)按照火力打擊時(shí)刻由小至大排序以貼合任務(wù)規(guī)劃的對(duì)抗推演操作。
步驟3計(jì)算紅藍(lán)對(duì)抗結(jié)果。利用兵棋推演平臺(tái)實(shí)現(xiàn)紅藍(lán)任務(wù)規(guī)劃的對(duì)抗推演,嚴(yán)格依據(jù)任務(wù)規(guī)劃實(shí)現(xiàn)聯(lián)合火力打擊并統(tǒng)計(jì)最終紅藍(lán)雙方的兵力損失和彈藥消耗,以此計(jì)算紅藍(lán)雙方的輸贏結(jié)果以及各自評(píng)分。設(shè)紅方的最終體系價(jià)值評(píng)分為pH,藍(lán)方最終體系價(jià)值評(píng)分為pL,則反饋評(píng)分Δf的計(jì)算公式為
(1)
步驟4更新參與搭配組合的智能體分值。對(duì)于勝利方的智能體獎(jiǎng)勵(lì)反饋評(píng)分;對(duì)于失敗方的智能體扣除反饋評(píng)分;以此更新各智能體的分值并記錄壽命+1,并執(zhí)行淘汰繁殖操作:所有壽命上限達(dá)到1 000的智能體執(zhí)行變異操作,即替換目標(biāo)排序表中隨機(jī)兩個(gè)目標(biāo)序號(hào)的位置,并置壽命和綜合評(píng)分為0;對(duì)同部隊(duì)彈種的最高分智能體執(zhí)行變異操作,并用新生智能體替換同部隊(duì)彈種中的最低分智能體。
步驟5重復(fù)步驟2~步驟4,直至達(dá)成退出條件:進(jìn)化代數(shù)達(dá)到上限。輸出紅藍(lán)雙方最高分智能體對(duì)應(yīng)的任務(wù)規(guī)劃。
敵我種群產(chǎn)生的任務(wù)規(guī)劃實(shí)現(xiàn)對(duì)抗推演的方法流程較為復(fù)雜,主要包括:按照火力打擊時(shí)刻混合排列敵我雙方的任務(wù)規(guī)劃;計(jì)算各任務(wù)規(guī)劃項(xiàng)中對(duì)打擊目標(biāo)的毀傷程度,并更新參與打擊部隊(duì)的彈藥儲(chǔ)備量;如是航空部隊(duì)打擊,單獨(dú)計(jì)算敵方防空反擊造成的部隊(duì)毀傷程度,并更新敵方防空部隊(duì)的彈藥儲(chǔ)備量;判斷所有任務(wù)規(guī)劃是否執(zhí)行完畢,如任務(wù)規(guī)劃項(xiàng)因彈藥耗盡或目標(biāo)達(dá)成毀傷上限無(wú)法執(zhí)行則跳過(guò);根據(jù)敵我雙方終止?fàn)顟B(tài)時(shí)的各目標(biāo)毀傷程度和部隊(duì)關(guān)聯(lián)關(guān)系計(jì)算敵我雙方的網(wǎng)絡(luò)體系價(jià)值[26-31]。
實(shí)驗(yàn)?zāi)康脑谟跈z驗(yàn)智能體結(jié)構(gòu)能否完全覆蓋指揮員主觀戰(zhàn)法策略和參謀機(jī)構(gòu)擬制的聯(lián)合火力打擊任務(wù)規(guī)劃,進(jìn)而在此前提下檢驗(yàn)任務(wù)規(guī)劃實(shí)現(xiàn)了智力提升?;诖耍紫纫氩煌闹悄荏w結(jié)構(gòu)并分析其轉(zhuǎn)譯為任務(wù)規(guī)劃的對(duì)比情況;而后對(duì)變異可能導(dǎo)致的任務(wù)規(guī)劃變化情況進(jìn)行量化分析,以檢驗(yàn)智能體的變異穩(wěn)定性;最后通過(guò)橫向?qū)Ρ榷喾N智能優(yōu)化算法,檢驗(yàn)多智能體協(xié)同進(jìn)化方法的有效性。
考慮聯(lián)合火力打擊任務(wù)規(guī)劃的作用范圍和變化幅度寬廣,而智能體結(jié)構(gòu)變異如不能有效覆蓋任務(wù)規(guī)劃則會(huì)造成全局尋優(yōu)能力下降甚至失效,因此有必要進(jìn)行智能體結(jié)構(gòu)變異與任務(wù)規(guī)劃范圍之間的覆蓋率分析。實(shí)驗(yàn)選取任務(wù)規(guī)劃的蒙特卡洛隨機(jī)產(chǎn)生不同的后代結(jié)果,而后使用智能體轉(zhuǎn)譯算法將任務(wù)規(guī)劃轉(zhuǎn)化為智能體結(jié)構(gòu),并存儲(chǔ)為 10 000個(gè)對(duì)照種群作為對(duì)照單元;采用協(xié)同進(jìn)化的方法產(chǎn)生多代智能體,每一代智能體與對(duì)照種群做以比對(duì),如匹配對(duì)照單元內(nèi)的智能體結(jié)構(gòu)則記錄匹配度+1,進(jìn)行 1 000代進(jìn)化而后統(tǒng)計(jì)匹配度的變化情況,為了規(guī)避隨機(jī)不確定性帶來(lái)的覆蓋率影響,進(jìn)行3組實(shí)驗(yàn)并統(tǒng)計(jì)結(jié)果;各代匹配度變化如圖3所示。
圖3 各代匹配度變化情況Fig.3 The change of matching degree in different generations
通過(guò)對(duì)比分析可知,隨著進(jìn)化次數(shù)的提升,智能體能夠覆蓋的匹配度逐步提升,進(jìn)而使對(duì)照單元的覆蓋率同步升高,但隨著優(yōu)化結(jié)果的逐步收斂,覆蓋率的提升幅度逐步縮窄,3次實(shí)驗(yàn)的最終覆蓋率均未超過(guò)60%,實(shí)驗(yàn)表明協(xié)同進(jìn)化達(dá)成了進(jìn)化的效果,同時(shí)也簡(jiǎn)化了搜索范圍,對(duì)于初期效果不理想的智能體后代未進(jìn)行后續(xù)帶入。但從800代后的覆蓋率分析,數(shù)值提升依然持續(xù),只是速度相對(duì)降低,證明算法依然在尋找全局最優(yōu)。
智能體的變異操作借鑒了旅行商問(wèn)題求解中的替換節(jié)點(diǎn)操作,包含2種變異:一是通過(guò)同部隊(duì)彈種的最高分智能體變異以替換最低分智能體;二是對(duì)到達(dá)壽命上限的智能體變異以提升智能體多樣性,防止產(chǎn)生局部收斂的超高分智能體。為了檢驗(yàn)變異效果,分別以變異操作中對(duì)調(diào)2次和對(duì)調(diào)3次的智能體變異情況作為參照對(duì)象,結(jié)果如圖4所示。
圖4 變異效果曲線Fig.4 Comparison and analysis of variation effect
通過(guò)對(duì)比分析可知,變異操作對(duì)新生任務(wù)規(guī)劃能夠產(chǎn)生影響,隨著變異次數(shù)的增多,紅藍(lán)對(duì)抗的勝率逐步趨向穩(wěn)定,導(dǎo)致對(duì)應(yīng)最優(yōu)任務(wù)規(guī)劃的對(duì)抗能力難以有效提升;相比較而言,圖4(c)中的對(duì)調(diào)1次變異表現(xiàn)最為優(yōu)越,隨著同一智能體中變異次數(shù)的增多,與測(cè)試樣本對(duì)抗勝率則持續(xù)下降。原因在于頻率過(guò)高的變異使高分智能體的對(duì)抗經(jīng)驗(yàn)沒(méi)有及時(shí)傳遞給種群內(nèi)其他智能體,導(dǎo)致對(duì)抗經(jīng)驗(yàn)的流失,以至于出現(xiàn)圖4(c)中的波動(dòng)效果。從最佳進(jìn)化代數(shù)上分析,考慮算法各代智能體均以敵方最優(yōu)智能體為博弈對(duì)象,環(huán)境處于動(dòng)態(tài)變化狀態(tài),因此屬于無(wú)限博弈,智能體隨著進(jìn)化代數(shù)的增加而積累博弈經(jīng)驗(yàn),改造自身結(jié)構(gòu),因此最佳進(jìn)化代數(shù)應(yīng)取決于計(jì)算機(jī)的性能和紅藍(lán)對(duì)抗結(jié)果的分叉程度,如圖4(a)中55代之后藍(lán)方勝率明顯高于紅方,此刻應(yīng)停止進(jìn)化并取藍(lán)方智能體作為最佳智能體。
為了驗(yàn)證算法的有效性,選取遺傳算法[32]作為對(duì)比算法,利用任務(wù)規(guī)劃的交叉變異操作產(chǎn)生新個(gè)體,同時(shí)通過(guò)紅藍(lán)對(duì)抗進(jìn)化實(shí)現(xiàn)任務(wù)規(guī)劃的優(yōu)化。2種算法結(jié)果如圖5所示。
圖5 算法效果對(duì)比分析Fig.5 Comparison and analysis of algorithm effect
通過(guò)對(duì)比分析可知,對(duì)抗進(jìn)化算法和本方法在各代紅藍(lán)勝率上基本持平,紅藍(lán)對(duì)抗結(jié)果均為糾纏狀態(tài),但在與測(cè)試樣本對(duì)抗的勝率統(tǒng)計(jì)上,智能對(duì)抗進(jìn)化算法表現(xiàn)明顯不如本方法,勝利次數(shù)呈現(xiàn)波動(dòng)狀態(tài),難以恒定收斂。原因主要在于:智能對(duì)抗進(jìn)化算法利用了遺傳算法在對(duì)抗環(huán)境中實(shí)現(xiàn)了敵我對(duì)抗進(jìn)化,雖然在對(duì)抗中積累了經(jīng)驗(yàn),但由于智能體之間不存在協(xié)作關(guān)系而只保留競(jìng)爭(zhēng)關(guān)系,導(dǎo)致智能體進(jìn)化過(guò)程中只專注于局部勝率,而忽視了對(duì)不同任務(wù)規(guī)劃的兼顧,也不存在多智能體之間產(chǎn)生的涌現(xiàn)效應(yīng),因此效果不如本方法;相比較而言,多智能體協(xié)作進(jìn)化方法兼顧了智能體之間的競(jìng)爭(zhēng)和協(xié)作關(guān)系,并通過(guò)涌現(xiàn)效應(yīng)實(shí)現(xiàn)了任務(wù)規(guī)劃的復(fù)雜演變,因此總體效果高于對(duì)比算法。
1) 在遺傳算法和旅行商問(wèn)題求解算法的基礎(chǔ)上,充分借鑒多智能體協(xié)同進(jìn)化的生物學(xué)原理,在敵我雙種群中引入多智能體搭配組合,進(jìn)而實(shí)現(xiàn)了以智能體搭配組合復(fù)雜性對(duì)抗任務(wù)規(guī)劃復(fù)雜性,并通過(guò)多代進(jìn)化達(dá)成了智能體的對(duì)抗能力提升。
2) 利用智能體和種群的構(gòu)造和對(duì)抗推演中的反饋評(píng)分實(shí)現(xiàn)了智能體的智力提升,其算法內(nèi)核能夠遷移到諸多研究領(lǐng)域,具備一定的應(yīng)用性和擴(kuò)展性。
3) 在后續(xù)研究中,將重點(diǎn)研究非對(duì)稱博弈狀態(tài)中的敵我智能體進(jìn)化問(wèn)題,以實(shí)現(xiàn)算法的更廣闊應(yīng)用。