高海云,潘洪平,陳春良,何 瑞
(裝甲兵工程學院 技術保障工程系,北京 100072)
復雜適應系統(tǒng)(complex adaptive system,CAS)理論方法致力于用全新的觀點理解軍事復雜系統(tǒng)中的復雜性:微觀上,摒棄了作戰(zhàn)雙方兵力相互暴露、雙方的戰(zhàn)斗是單個戰(zhàn)術單位間戰(zhàn)斗的假設,取而代之的是能學習和適應環(huán)境的、也能根據(jù)戰(zhàn)場環(huán)境的局部真實信息運用歸納概率推理法決策的有“心智”的智能體,用作戰(zhàn)“規(guī)則”代替計算給每一個智能體建模[1-2];宏觀上,摒棄了簡單的還原論思想,將戰(zhàn)爭系統(tǒng)看成是由若干相互作用的個體進行交互耦合的復雜系統(tǒng)[3];方法論上,摒棄了純粹的數(shù)學演繹推理方法,取而代之的是計算機模擬技術[4].
紅藍雙方對抗戰(zhàn)斗是軍事復雜系統(tǒng)中的一種作戰(zhàn)樣式.傳統(tǒng)的蘭徹斯特作戰(zhàn)模型假設交戰(zhàn)雙方實力相等,且“疏散直瞄,不可修復”,成功射擊后能立即獲取被毀傷目標的情報,這是典型的“高度組織化”的戰(zhàn)斗,過于理想,不符合實際[5].在這種模型的假設前提下,交戰(zhàn)雙方對抗戰(zhàn)斗更像一個"死"的物理系統(tǒng).而真實的戰(zhàn)斗遠非如此,人們常用“戰(zhàn)爭的迷霧”等語言來描述戰(zhàn)場環(huán)境的復雜多變.
神經(jīng)網(wǎng)絡具有很強的非線性逼近能力和自學習、自適應等特性,可用于解決智能體適應能力問題.Luna[6]提出的交叉目標(cross target)算法可以解決智能體行為滿足外部干預或外部目標效果估計的問題.本文將二者有機結合,提出互補性人工認知算法——多層次目標交叉神經(jīng)網(wǎng)絡算法,并將其應用到紅藍雙方對抗戰(zhàn)斗樣式下的裝備戰(zhàn)損模型研究中.
建立裝備戰(zhàn)損模型,獲取裝備戰(zhàn)損率,對指導作戰(zhàn)指揮訓練、提高部隊的裝備保障能力具有重要的軍事意義.
過去通常采用的方法有傳統(tǒng)經(jīng)驗統(tǒng)計分析方法、蒙特卡洛仿真方法等.這些方法都是基于靜態(tài)的損傷數(shù)據(jù)應用于戰(zhàn)損規(guī)律研究中,其分析的前提大多基于一定的假設,明顯具有主觀性,無法描述戰(zhàn)場的復雜多變性[7].
大多數(shù)模型和建模方法普遍存在著一些共同的弱點,主要表現(xiàn)為:
1)缺乏動態(tài)描述和研究.戰(zhàn)爭是一個多變量非線性動態(tài)系統(tǒng),沒有較好的建模方法.由于裝備損傷具有很大的隨機性和不確定性,用建立精確模型的方法預測戰(zhàn)損率,與客觀實際存在不一致性.
2)線性外推的思維方式.戰(zhàn)爭系統(tǒng)是典型的復雜系統(tǒng),影響裝備損傷的各變量之間呈現(xiàn)非線性特征,要求有強大的處理非線性問題的能力.現(xiàn)有的比較成熟的技術大多是解決線性問題和單變量非線性問題,無法描述多種因素交互作用下,所形成的非線性放大作用.
3)局限于表面現(xiàn)象分析.戰(zhàn)爭系統(tǒng)中各因素之間的層次性、耦合性和隨機性錯綜復雜,應用常規(guī)的預測方法對裝備損傷規(guī)律做出定量分析非常困難.數(shù)理統(tǒng)計的分析方法只能進行描述性的、唯象的研究,不能有效地幫助人們找出各種復雜現(xiàn)象的產(chǎn)生原因.傳統(tǒng)建模方法往往無法描述和解釋普遍存在的突變和新事物的更迭等現(xiàn)象,對于戰(zhàn)爭這樣的復雜系統(tǒng),只能分析其現(xiàn)象,無法深入研究系統(tǒng)演化和發(fā)展的內在動力和根據(jù).
4)對抗戰(zhàn)斗中裝備是由人來控制操作的,具有學習能力,能夠根據(jù)戰(zhàn)場環(huán)境變化不斷調整自己的行為,從而適應戰(zhàn)場環(huán)境.
隨著復雜性科學的發(fā)展,特別是CAS理論的提出[8],為裝備戰(zhàn)損模型建立提供了新的解決思路.基于CAS理論思維計算機仿真技術成為探索裝備戰(zhàn)損規(guī)律的有效工具[9].
目前還沒有將基于CAS理論的神經(jīng)網(wǎng)絡方法運用到戰(zhàn)損規(guī)律仿真研究中的文獻.本文引入ERA (environment rulesagents)方案,嘗試運用神經(jīng)網(wǎng)絡的學習能力模擬Agent的適應性,并通過CT方法對網(wǎng)絡進行訓練,模擬虛擬戰(zhàn)場環(huán)境下裝備損傷的動態(tài)演化過程,進而更好地理解裝備損傷的動力學特性.
SWARM是軍事復雜系統(tǒng)仿真的一種自然候選方案,但是需要對這種仿真的基本框架進行某種程度上的標準化,為此引入了一個用于建立Agent仿真的一般性方案——ERA方案來建立裝備戰(zhàn)損模型,如圖1所示.
圖1 基于ERA方案的戰(zhàn)損模型Fig.1 ERA Scheme-based battle damage model
該戰(zhàn)損模型由一個三元組 <環(huán)境(E),規(guī)則(R),Agent(A)>構成,稱為ERA方案.該模型引入“適者生存”的淘汰機制和“目標交叉”的適應機制,建立了一個具有“簡單性、局部性、全局性、內聚力、動態(tài)性”的紅藍雙方對抗作戰(zhàn)的自組織離散軍事復雜適應系統(tǒng).
戰(zhàn)損模型的基本要素包括:
1)環(huán)境:是Agent賴以生存的地方.采用SWARM提供的元胞自動機網(wǎng)格矩陣描述.
2)規(guī)則:是Agent與Agent之間以及Agent與環(huán)境之間相互影響的準則或方法.
在規(guī)則管理器中封裝了 BP網(wǎng)絡前向計算步驟,在規(guī)則生成器中封裝的是修改 BP網(wǎng)絡權重和閾值的算法、Agent適應性行為算法、Agent行為-效果-目標比較的目標交叉算法以及改進的BP-CT步驟.將BP網(wǎng)絡的計算進行分解設計,存在多個Agent且每個Agent都是BP網(wǎng)絡時,可以只設計一個規(guī)則管理器與一個規(guī)則生成器,用到時可分別創(chuàng)建各個Agent的子規(guī)則管理器與子規(guī)則生成器對象;當每個Agent采用不同的人工神經(jīng)網(wǎng)絡時,只需改動規(guī)則管理器與規(guī)則生成器的設計,這種設計方法在SWARM軟件平臺上實現(xiàn)時也可方便對接.
3)Agent:可以根據(jù)自己感知的局部環(huán)境信息和周邊Agent信息來選擇移動行為和操作行為的策略.在戰(zhàn)損仿真模型中,包括紅方Agent和藍方Agent,把每輛坦克都看作是一個Agent,每個Agent都有一定的內部狀態(tài)、行為規(guī)則,并可以感知戰(zhàn)場環(huán)境參數(shù),隨時間、空間的變化而變化.
Agent的類型分為4類:1)BP神經(jīng)網(wǎng)絡Agent,通過BP算法進行預測;2)BP-CT神經(jīng)網(wǎng)絡Agent,通過BP算法進行預測的同時,還通過CT算法產(chǎn)生不斷變化的預測目標,權衡主體行為-效果-目標的偏差,修正自己的行為,即通過逐次逼近完成目標任務;3)隨機Agent,隨機選擇行為和對方作戰(zhàn)目標; 4)外部干預Agent,反映的是作戰(zhàn)意圖隨戰(zhàn)場態(tài)勢變化,由上級指揮員下達的最新指示、最新目標,A-gent將數(shù)據(jù)存儲在數(shù)據(jù)倉庫對象中.
構建基于Agent的模型,最基本的是構造計算機模型,使Agent在這一模型中運行.除了戰(zhàn)場環(huán)境變量采用基于SWARM軟件平臺提供的元胞自動機描述外,都將Agent和規(guī)則看作對象:這是一些包含數(shù)據(jù)和基于這些數(shù)據(jù)進行運作的規(guī)則的程序段,這些規(guī)則提供了對來自對象外部的消息做出反應所必要的機制.
1)定義初始Agent對象.包括紅藍雙方坦克Agent的數(shù)量、坦克的抗打擊系數(shù)、坦克的有效射程、戰(zhàn)略目標區(qū)域等.Agent具有六元組結構,即:
2)隨機Agent對象.隨機規(guī)則管理器通過將行動的概率與一個隨機數(shù)的比較決定其是否采取射擊行動:有效距離d<2 000,射擊;d≥2 000,行進.發(fā)射的彈藥數(shù)量在1和最大攜彈量之間隨機產(chǎn)生.
3)模仿?lián)p傷Agent對象.坦克Agent寄存器遭受的抗打擊次數(shù)k<3,未損傷;k≥3,損傷(坦克基本功能喪失).為描述坦克的部位損傷狀況與功能的映射關系,將坦克劃分 6個區(qū)域.如圖 2所示,以這 6個區(qū)域的損傷狀況來描述各部位的被彈概率以及各區(qū)域與坦克基本功能的對應關系.損傷部位由輪盤賭機制隨機確定.
圖 2 坦克車體損傷區(qū)域劃分圖Fig.2 Tank areas partition
各損傷區(qū)域與功能映射關系如表1所示.
表 1 各損傷區(qū)域功能映射關系表Table 1 Relationship of areas-m apping functions
4)BP神經(jīng)網(wǎng)絡Agent對象.這類對象由神經(jīng)網(wǎng)絡代替Agent.由于神經(jīng)網(wǎng)絡具有較強的自學習、自適應等特性,運用神經(jīng)網(wǎng)絡的學習能力模擬Agent的適應性,符合霍蘭教授對Agent的定義.
5)BP-CT神經(jīng)網(wǎng)絡Agent對象.這類對象與BP神經(jīng)網(wǎng)絡Agent不同的是:在訓練過程中,訓練集可由外部輸入,也可由內部生成;不采用固定的目標,而是在訓練過程中運用交叉目標 CT算法產(chǎn)生不斷變化的目標.CT算法的特點在于:將Agent的輸出分類為行為和效果,無論是從行為的,還是從行為效果的角度來訓練網(wǎng)絡,所需的目標都是通過 CT建立的.學習過程的目標為:①被仿真的主體發(fā)生行為的實際效果,通過可計算的規(guī)則進行量化;②這些行為需與推斷的效果相匹配.
圖3描述了一個在CT算法下坦克Agent的學習與行為.該Agent必須在一個輸入信息集(I1,I2,…,Ik)的基礎上,做出對坦克自身的機動行為、火力行為與防護行為以及相關效果的判斷.
執(zhí)行行為與學習目標的一般算法:首先引入一類效果E,他們是由推測的自主行為(A1,A2,…,An)產(chǎn)生的.不失一般性,自主行為的效果目標是:
式中:fi(*)定義為具有一定計算關系的行為與效果之間的函數(shù).
圖3 CT方案下的坦克Agent的學習與行為Fig.3 Learning&behavior of tank agent in CT scheme
學習的目的是要使推測行為Ei(由神經(jīng)網(wǎng)絡進行推測)與效果行為盡量接近,采用行為效果的目標值和推測值之差:來校正自主行為目標值.為減少這一誤差,通過網(wǎng)絡權重將它向后傳播、逐次逼近實現(xiàn).
下一步學習的目的是找到與效果端輸出盡量一致的行為作為網(wǎng)絡輸出.為簡單起見,假設行為效果個數(shù)m=1,自主行為個數(shù)n=2.則行為效果目標:
通過校正A1和 A2,使它們逼近和即使實際行為效果 E1和神經(jīng)網(wǎng)絡輸出的行為效果推測之差的絕對值它們是和E1相一致的行為.是一個聯(lián)合的行為效果,無法分開描述A1和A2的目標,由式(2)得到
假設g1,g2具有線性特征,則式(2)可表示為:
即有
如果按逼近A1、A2分別校正可選擇在區(qū)間[0,1]上均勻概率分布的隨機量 τ1,并假設 τ2= 1-τ1,由式(6)和(7)可得
在一些簡單地情況下,g1、g2的關系是可以明確地得到,在戰(zhàn)損模型建立中就是這樣.關鍵在于, CT算法賦予神經(jīng)網(wǎng)絡一種適應外界環(huán)境變化的能力,并且由于訓練集和校驗集并不出現(xiàn),神經(jīng)網(wǎng)絡的這種適應外界環(huán)境變化的能力就具有一定的反應速度.因為歷史經(jīng)驗已經(jīng)“記憶”在不斷逐次效驗的神經(jīng)網(wǎng)絡權重中,神經(jīng)網(wǎng)絡就具有模擬人的認知作用的效果.這里突出的一點就是 CT方法目標層的行為和效果之間的交互校正關系也具有與人的認知過程有較好的一致性.
正是由于將BP-CT算法賦予坦克Agent,使坦克具有簡單的人工認知能力,也使得仿真結果與真實的戰(zhàn)場環(huán)境趨于一致.仿真結果的可信性大大增加.
6)外部干預Agent對象.使用CT算法建立Agent,能讓Agent適應周圍環(huán)境并滿足內部一致性.然而,坦克Agent還應隨著戰(zhàn)場環(huán)境的變化,及時接受并完成上級下達的新任務,而采取新行動.故嵌入外部干預Agent.其優(yōu)先級最高,采用黑板機制實現(xiàn),紅方或藍方所有Agent都能看到這個列表.
1)戰(zhàn)場環(huán)境.由一個 100×100的矩陣來模擬的戰(zhàn)場環(huán)境,用三層元胞自動機CA1、CA2和CA3分別來描述戰(zhàn)場環(huán)境的通視層、通行層和隱蔽層.A-gent通過戰(zhàn)場環(huán)境參數(shù)的變化來感知環(huán)境,并了解其他Agent的信息.
2)交互規(guī)則.戰(zhàn)損模型中交互規(guī)則包括:偵察規(guī)則、機動規(guī)則、攻擊規(guī)則、損傷規(guī)則及通信規(guī)則,可根據(jù)領域知識設定,在此不做贅述.
3)坦克Agent.紅藍雙方坦克數(shù)量各為30.坦克Agent用神經(jīng)網(wǎng)絡Agent描述,采用3層前饋網(wǎng)絡結構:
輸入層節(jié)點數(shù)為7.speedTank1,2代表紅藍雙方坦克的最大行駛速度;resist1,2代表紅藍雙方坦克的抗打擊系數(shù);vision1,2代表紅藍雙方坦克的有效射程,x1,2min,x1,2max,y1,2min,y1,2max代表紅藍雙方的戰(zhàn)略目標區(qū)域;worldXSize,worldYSize代表戰(zhàn)場環(huán)境的二維網(wǎng)格大小;battlefield代表戰(zhàn)場環(huán)境信息(高程,水域和障礙);numAmmunition1,2代表紅藍雙方坦克彈藥的攜行量.
隱含層節(jié)點數(shù)為 5.處理單元數(shù)在文獻[10]的基礎上,采用逐次加 1的試驗方式,最后根據(jù)效果目標誤差的收斂速度及穩(wěn)定范圍,將其數(shù)量定為 5個.
輸出層節(jié)點數(shù)為3.2個效果輸出:preNumShell代表預測的剩余彈藥,damageRegion[6]代表預測的坦克區(qū)域的作戰(zhàn)狀態(tài);1個行為輸出:completeness代表坦克的平均完好狀態(tài).
引入外部目標Eos.taskEO_EP=0,沒有任何Eos;taskEO_EP=1,采取主動進攻某戰(zhàn)術目標策略; taskEO_EP=2,采取主動防御策略.
分3組仿真實驗進行.第1組假設:在戰(zhàn)損模型中紅藍雙方各分布著30個坦克Agent:BP神經(jīng)網(wǎng)絡Agent占80%;隨機Agent占20%.第2組假設:在戰(zhàn)損模型中紅藍雙方各分布著30個坦克Agent:BP神經(jīng)網(wǎng)絡Agent占40%;BP-CT神經(jīng)網(wǎng)絡Agent占40%;隨機Agent占20%.第3組假設:在戰(zhàn)損模型中紅藍雙方各分布著30個坦克Agent:BP神經(jīng)網(wǎng)絡Agent占40%;BP-CT神經(jīng)網(wǎng)絡Agent占40%;隨機Agent占20%,并引入外部干預目標,taskEO_EP= 1.其他參數(shù)設置相同.
實驗模擬產(chǎn)生了具有坦克完好性逐漸遞減的下降序列,再現(xiàn)了坦克區(qū)域損傷的概率分布.
圖4為第1組BP算法下的仿真結果,其中C為平均完好性.在 80步時,紅方各損傷區(qū)域的平均完好性就趨于穩(wěn)定.
圖5為第2組BP-CT算法下的仿真結果,在200步時,紅方各損傷區(qū)域的平均完好性才趨于穩(wěn)定.這說明由于CT算法的嵌入,使坦克Agent適應戰(zhàn)場環(huán)境的能力增強,即機動、迂回的行為增加,區(qū)域被彈概率下降,提高了抗損傷能力.
圖4 BP算法下紅方各損傷區(qū)域的平均完好狀態(tài)Fig.4 Average comp leteness over time of Red tank's areas by BP algorithm
圖5 BP-CT算法下紅方各損傷區(qū)域的平均完好狀態(tài)Fig.5 Average completeness over time of Red tank's areas by BP-CT algorithm
圖6為第3組引入外部干預目標的BP-CT算法下的仿真結果,在 130步時,紅方各損傷區(qū)域的平均完好性趨于穩(wěn)定.這說明在主動進攻外部干預目標作用下,紅方毀傷效能增加,但自身抗損傷能力略有下降.
圖6 引入外部干預目標的BP-CT算法下紅方各損傷區(qū)域的平均完好狀態(tài)Fig.6 Average com pleteness over time of Red tank's area by BP-CT algorithm with external intervene target
用圖4~6的對比可以發(fā)現(xiàn):本實驗的仿真結果符合裝甲裝備損傷的基本規(guī)律,CT算法和外部干預Agent的嵌入,到達了很好的效果.
由圖 4~6很容易求取紅方各損傷區(qū)域的被彈概率值,見表 2.并繪制在同一張雷達圖上,如圖 7所示.
表 2 3種不同算法下的仿真試驗數(shù)據(jù)Table 2 Sim ulation experim ent data in three different algorithms
圖 7 3種不同算法下紅方坦克各區(qū)域損傷概率雷達圖Fig.7 Radarmap of damage p robability of Red tank's areas in three different algorithms
以第 2組仿真實驗為例,重復進行 1 000次,并繪制在雷達圖上.可得出結論:坦克損傷區(qū)域的概率統(tǒng)計分布規(guī)律近似為一個“心形”曲線,如圖 8所示.首上裝甲的被彈概率最大,其次為兩側,尾部最小.
圖8 坦克損傷區(qū)域的概率統(tǒng)計分布Fig.8 Probability&statistics distribution of tank damage areas
實驗結果表明:通過調整描述坦克Agent的行為參數(shù),可方便地研究坦克行為對坦克各損傷區(qū)域被彈概率的影響.具有簡單規(guī)則的坦克Agent之間的與戰(zhàn)場環(huán)境的交互,可產(chǎn)生復雜的模式,從而涌現(xiàn)出內生的被彈概率序列,有助于更好地理解裝備損傷的動力學特性.仿真結果的概率統(tǒng)計分布曲線與戰(zhàn)爭統(tǒng)計結果具有較好的一致性.說明了基于CAS理論的ERA方案建立的裝甲裝備戰(zhàn)損模型是合理的,仿真結果是可信的.
神經(jīng)網(wǎng)絡具有很強的非線性逼近能力和自學習、自適應等特性.本文運用神經(jīng)網(wǎng)絡的學習能力模擬坦克Agent的適應性,運用Agent行為一致性的目標交叉神經(jīng)網(wǎng)絡(BP-CT)方法對戰(zhàn)損模型進行仿真研究,模擬不確定戰(zhàn)場環(huán)境下的裝備損傷的動態(tài)演化過程,進而從CAS的角度來理解對抗戰(zhàn)斗的裝備損傷的動力學特性.但還存在許多不足之處:A-gent可以描述損傷部位,但無法描述彈藥的入射角并貫穿裝甲后對內部功能部件的損傷影響;實現(xiàn)戰(zhàn)場GIS系統(tǒng)與SWARM的無縫對接是下一步目標.
[1]ILACHINSKIA.Artificialwar:multiagent-based simu lation of combat[Z].Singapore:World Scientific,2004.
[2]ANNE H,NGOC T N,RONALD L H,ROBERT JH,LAKHMIC J.Agent and multi-agent systems[C]//Technologies and Applications:Third KES International Symposium, KES-AMSTA 2009.Uppsala,Sweden,2009.
[3]BOCCARA N.Modeling complex systems[Z].Spain: Springer,2010.
[4]GILBERTG.N.Agent-based models[M].Sage Publications,2008:21-44.
[5]徐學文,王云壽.現(xiàn)代作戰(zhàn)仿真[M].北京:科學出版社,2002:31-63.
[6]FRANCESCO L.Agent-based methods in economics and finance:simu lations in Swarm[M].Boston:Kluwer Academic Publishers,2002:187-227.
[7]張野鵬.作戰(zhàn)仿真及其技術發(fā)展[M].北京:軍事科學出版社,2002:28-57.
[8]HOLLAND JH.隱秩序——適應性造就復雜性[M].周曉牧,譯.上海:上海科技教育出版社,2000:98-123.
[9]KOVACINA M A.Swarm Algorithms:Simulation and Generation[M].USA:CaseWestern Reserve University,2006: 37-82.
[10]HAYKIN S.神經(jīng)網(wǎng)絡原理[M].葉世偉,史忠植,譯.北京:機械工業(yè)出版社,2004:59-93.