杜增義 馬勇 孔浩冉
摘要:隨著軍事任務(wù)的多樣性和火力成分的多元化,高效火力運用的難度逐漸增加。針對步兵戰(zhàn)車火力運用智能輔助決策問題,圍繞步兵戰(zhàn)車分隊火力打擊目標(biāo)威脅估計、火力分配、毀傷等級評估和火力運用等方面需求,基于深度強化學(xué)習(xí)、優(yōu)化技術(shù)實現(xiàn)步兵戰(zhàn)車分隊指揮的火力分配輔助決策應(yīng)用研究,開發(fā)了基于人工智能技術(shù)的火力運用輔助決策系統(tǒng),通過實驗驗證火力運用原則等火力運用理論研究成果的有效性,支持了本領(lǐng)域內(nèi)相關(guān)教學(xué)、科研工作。
關(guān)鍵詞:火力運用;輔助決策;循環(huán)神經(jīng)網(wǎng)絡(luò);深度強化學(xué)習(xí);遺傳算法
中圖分類號:TP18? ? ? 文獻標(biāo)識碼:A
文章編號:1009-3044(2022)30-0014-04
開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
現(xiàn)代化戰(zhàn)爭的特點及其對指揮的要求,已迫使我們不得不進行軍事輔助決策系統(tǒng)的研究[1]。步兵戰(zhàn)車火力運用研究,需要緊密結(jié)合各種作戰(zhàn)類型的戰(zhàn)術(shù)環(huán)境,應(yīng)用前沿的人工智能技術(shù)[2-3],并通過計算機輔助決策[4-5]。
李大鵬等人[1]采用層次分析法和線性規(guī)劃法對坦克連沖擊時目標(biāo)價值和火力分配問題進行了分析,并在理論分析基礎(chǔ)上,開發(fā)了火力分配輔助決策軟件。鞏玨等人[6]研究并開發(fā)的輔助決策系統(tǒng)使得炮兵打擊輔助決策和軍事地理信息系統(tǒng)不再獨立,而是將來兩者緊密結(jié)合了起來,并且該系統(tǒng)基于MGIS。孫心琿[7]根據(jù)炮兵指揮自動化系統(tǒng)和炮兵設(shè)計訓(xùn)練模擬系統(tǒng)的發(fā)展要求,建立到了輔助決策專家模型和炮兵分隊設(shè)計指揮評估模型,有一定指導(dǎo)作用。輔助決策系統(tǒng)在艦艇防空作戰(zhàn)也有所研究,姚曉白等人[8]根據(jù)該方面對火力分配的需求,并結(jié)合艦艇武器系統(tǒng)的具體特點,建立了面向輔助決策系統(tǒng)的艦艇防空火力分配模型。張弛等人[9]采用戰(zhàn)術(shù)兵棋的相關(guān)理念,提出了基于地形的戰(zhàn)場火力勢算法,用于定量表現(xiàn)戰(zhàn)場中火力體系的強弱分布態(tài)勢,輔助指揮員進行決策,提高指揮謀略和作戰(zhàn)計算能力。王宏磊等人[10]對戰(zhàn)場實際情況作出合理假設(shè),并在此基礎(chǔ)上基于馬爾可夫理論建立動態(tài)火力匹配模型,建立的模型對許多輔助決策系統(tǒng)的開發(fā)提供了理論基礎(chǔ),尤其在對指揮系統(tǒng)的目標(biāo)處理子系統(tǒng)及戰(zhàn)場目標(biāo)綜合處理等方面尤為重要。以上研究面向炮兵指揮、艦艇防空作戰(zhàn)指揮等領(lǐng)域,本文將圍繞步兵戰(zhàn)車分隊火力打擊目標(biāo)威脅估計、火力分配、毀傷等級評估和火力運用等方面開展研究和系統(tǒng)開發(fā)。
1 系統(tǒng)總體設(shè)計
1.1 設(shè)計思路
步兵戰(zhàn)車分隊指揮時形成火力分配決策,這是步兵戰(zhàn)車火力運用的核心問題。采用深度強化學(xué)習(xí)技術(shù),構(gòu)建步兵戰(zhàn)車分隊指揮智能體(簡稱分隊指揮AI),將深度神經(jīng)網(wǎng)絡(luò)放在步兵戰(zhàn)車分隊作戰(zhàn)環(huán)境下進行訓(xùn)練,使分隊指揮AI兼具威脅估計能力和目標(biāo)分配決策能力,通過毀傷評估作為環(huán)境獎勵,不斷優(yōu)化目標(biāo)分配策略,實現(xiàn)基于人工智能技術(shù)分隊指揮的“自我進化”,總體設(shè)計思路如圖1所示。
1.2 功能構(gòu)成
基于AI技術(shù)的步兵戰(zhàn)車火力運用輔助決策系統(tǒng),以步兵分隊指揮火力分配輔助決策為核心任務(wù),包括應(yīng)用層、交互層、功能層、計算層和資源層,功能組成架構(gòu)如圖2所示。
2 功能模塊構(gòu)建與實現(xiàn)
2.1 威脅估計模塊
威脅估計模塊用于根據(jù)步兵戰(zhàn)車分隊作戰(zhàn)態(tài)勢得出敵方目標(biāo)威脅程度、等級,并進行威脅排序。項目主要進行目標(biāo)威脅度評估,進而得到威脅度優(yōu)先級排序。該模塊由威脅度評估指標(biāo)構(gòu)建、威脅度評估特征空間約簡等7個子模塊構(gòu)建,其組成結(jié)構(gòu)如圖3所示。
其中,目標(biāo)威脅度評估綜合子模塊采用模糊綜合評判方法,根據(jù)評估指標(biāo)的隸屬度,把定性評價轉(zhuǎn)變?yōu)槎吭u價,對受多種因素影響的目標(biāo)威脅做出整體評價,并確定目標(biāo)威脅等級。
模糊評價是利用數(shù)學(xué)方法,按照評價標(biāo)準(zhǔn)和實測值,對事物做出評價前進行模糊變換的一種方法。而綜合評價就是對受許多要素影響的對象或事物做出總體評價,即根據(jù)對評價的全體所給的條件,先對其中的所有對象賦予一個實數(shù),所賦予的實數(shù)要求為非負(fù)的,該非負(fù)實數(shù)即為評價結(jié)果,得出評價結(jié)果后進行排序,最后擇取適當(dāng)?shù)慕Y(jié)果。模糊綜合評價方法的過程可大體分為6步,具體步驟如下:
1)確定因素集
首先,建立所研究問題的評估指標(biāo)體系,然后將建立的指標(biāo)體系映射為相應(yīng)的模糊綜合評估因素集。設(shè)確立的評估因素集為[U=u1,u2,…,um],m表示評估因素數(shù)量,即評估基礎(chǔ)指標(biāo)的數(shù)量。
2)確定模糊評判集和對應(yīng)得分
常用模糊評判集一般有兩種,第一種是[v1]={優(yōu)、良、中、差},第二種是[v2]={好、較好、一般、較差、差}。這兩種評判集使用人員可以任選一種,或根據(jù)所研究具體問題的需要,設(shè)計適當(dāng)?shù)脑u判集。評判集確定后,就應(yīng)為模糊綜合做準(zhǔn)備,即明確所有評判等級的分?jǐn)?shù)。設(shè)確定的評判集得分為[v=v1,v2,…,vm],m的含義同上。
3)確定底層指標(biāo)的隸屬度函數(shù)
所謂底層指標(biāo)的隸屬度,就是底層指標(biāo)的無量綱的0-1的評估值,如0.9。確定底層指標(biāo)的隸屬度,就是實現(xiàn)評估基礎(chǔ)指標(biāo)值的無量綱轉(zhuǎn)化。本文中對所有底層指標(biāo)區(qū)分指標(biāo)的類型,定性指標(biāo)采用專家方法確定隸屬度,定量指標(biāo)采用統(tǒng)一的隸屬度函數(shù)確定隸屬度,將專家方法與函數(shù)方法相結(jié)合。
假設(shè)有n名專家對于某一因素逐一打分,第j個專家在(0,1)上給出該指標(biāo)得分值為[xj],其自信度為[aj],n名專家分別打分后會得到n個數(shù)對[xj,aj],j=1,2,…,n,即n個專家的分值和自信度數(shù)對,則該因素或該評估指標(biāo)的隸屬度為:
[Rj=j=1najxjj=1naj]? ? ? ? ? ? ? ? ? (1)
其中,[Rj]就是待評估指標(biāo)的隸屬度值,它是一個無量綱的0到1的數(shù)。
隨后,將評估對象相對于理想對象的滿意程度或匹配程度,定義為該評估對象的滿意度,即隸屬度[R]。例如,對某些取值要求越大越好的指標(biāo),即效應(yīng)型指標(biāo),則隸屬度為:
[Rj=1? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? xj≥Mjxj-mjMj-mj? ? ? mj≤xj≤Mj0? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?xj≤ mj]? ? (2)
其中,評估指標(biāo)為效應(yīng)型;上式中[xj]代表指標(biāo)初始評估值;[Mj]代表理想最大值,[mj]為理想最小值。
根據(jù)以上情況可類似處理成本型指標(biāo)。對適中型指標(biāo),則隸屬度為:
[Rj=2×xj-mj Mj-mj? ? ? ? ? mj≤xj≤Mj-mj22×Mj-xj Mj-mj? ? ? ? Mj-mj2≤xj≤Mj0? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? xj> Mj或xj 4)基于AHP的指標(biāo)加權(quán) 在模糊綜合評判過程中,綜合評判的結(jié)果受指標(biāo)權(quán)重的直接影響。模糊綜合評估方法不同于傳統(tǒng)的評估方法,該方法確定指標(biāo)權(quán)重時采用的是AHP層次分析法。具體步驟如下: 首先,選用一種AHP打分方法,對評估指標(biāo)體系中的同層因素兩兩比較量化,生成判斷矩陣: [A=aijn×n]; 其次,進行層次排序及其一致性檢驗。在求出矩陣A的所有特征值后找出其最大值,再使最大值所對應(yīng)的特征向量中的各元素之和為1(即歸一化),得到的結(jié)果為某層各個因素對應(yīng)于上層某因素的相對重要性權(quán)值。判斷矩陣受人們的主觀判斷影響,因此不可避免地帶有估計誤差,所以還需進行一致性檢驗。 5)確定模糊聚合方法 得到本層指標(biāo)的隸屬度值是模糊綜合的目的。為了更好地達(dá)到這一目的,模糊聚合綜合了兩類信息,一類是下層指標(biāo)的隸屬度值,另一類是下層指標(biāo)對本層的權(quán)重。模糊綜合方法常用如下兩種: (1)模糊矩陣的合成運算,實現(xiàn)模糊聚合,即: [B=A?R=B1,B2,…,Bn]? ? ? ? ? ? ? ?(4) 式中,n為評判等級數(shù);[Bn=∨mAi∧Rij],j=1,2,…,n;∧表示[Ai]與[Rij]比較取最小值;∨表示要在[Ai∧Rij]的幾個值中取最大值。[B]的各分量之和如果不為1,則需進行歸一化處理。 6)模糊綜合 為了得到最終結(jié)果,需進行模糊綜合來確定頂層指標(biāo)對各評價等級的隸屬度,計算公式如下: [D=BVT]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(5) 其中,[B]、[V]、[D]分別有不同含義,[B]為頂層指標(biāo)的隸屬度向量,[V]為評判集得分向量,[D]為頂層指標(biāo)的模糊綜合評價值。 以上步驟,就實現(xiàn)了評估基礎(chǔ)指標(biāo)的無量綱化、評估聚合和評估綜合,得到了用戶最關(guān)心的頂層指標(biāo),即作戰(zhàn)效能的模糊綜合評估值,完成了基于模糊綜合評價方法的作戰(zhàn)效能評估解算過程。 2.2 火力分配模塊 火力分配模塊用于根據(jù)步兵戰(zhàn)車分隊作戰(zhàn)威脅態(tài)勢和己方兵力態(tài)勢進行火力分配決策。該模塊由初始打擊方案生成、目標(biāo)毀傷效果預(yù)估和火力分配策略優(yōu)化模型構(gòu)建等五個子模塊構(gòu)成,其組成結(jié)構(gòu),如圖4所示。 該模塊的輸入為威脅估計數(shù)據(jù)和毀傷評估數(shù)據(jù),輸出為火力分配決策文本。其中,毀傷評估數(shù)據(jù)作為火力分配策略優(yōu)化的行動效果反饋數(shù)據(jù)。 火力分配策略優(yōu)化模型構(gòu)建子模塊是火力分配模塊的核心子模塊,也是系統(tǒng)功能實現(xiàn)的關(guān)鍵核心部分。該子模塊用于構(gòu)建火力分配方案的優(yōu)化策略空間,并采用一定的優(yōu)化方法,在策略空間進行火力分配方案尋優(yōu),支持火力分配方案優(yōu)化或火力分配策略優(yōu)化。優(yōu)化產(chǎn)物用于支持射擊規(guī)則的更新。 火力分配策略優(yōu)化模型構(gòu)建的基本運行框架,如圖5所示。 本文構(gòu)建遺傳算法模型,支持火力分配方案探索優(yōu)化。遺傳算法(GA)是一種逐步尋找最優(yōu)解的優(yōu)化算法,該算法的思想與人類進化過程相似,簡而言之,就是適者生存,優(yōu)勝劣汰,只不過該過程是用計算機來進行模擬。遺傳算法實現(xiàn)全局優(yōu)化是利用個體與群體間的信息交互,搜索信息是適應(yīng)度函數(shù),運算對象為決策變量的編碼,算法流程如圖6所示。 1)初始化種群,在產(chǎn)生種群的過程中必須是隨機的,種群中的個體不只是個體,還代表了其對應(yīng)的染色體基因編碼。 2)編碼與解碼。把待解決的問題參數(shù)轉(zhuǎn)化為種群的染色體基因碼空間,其實質(zhì)就是將問題參數(shù)化描述。 3)個體適應(yīng)度評價。種群中的不同個體適應(yīng)度也會不同,根據(jù)遺傳算法的基本思想,應(yīng)利用優(yōu)化準(zhǔn)則來衡量個體適應(yīng)度,如果個體適應(yīng)度符合該規(guī)則,則將最佳個體以及最佳個體代表的最優(yōu)解進行輸出。 4)選擇。自然界中,越適應(yīng)的個體越有優(yōu)勢,遺傳算法中選擇的目標(biāo)是選出比較有優(yōu)勢的。選擇方法有多種,但通常選用隨機選擇。 5)交叉。生物學(xué)中的染色體交叉是同源染色體將位于同一位置的染色體片段進行交換以產(chǎn)生新的個體。遺傳算法中的交叉與生物學(xué)中類似,該過程的目的是使種群的穩(wěn)定性不受影響,并朝著最優(yōu)解的方向進化。 6)變異。通過一定概率翻轉(zhuǎn)某個位的值,這是體現(xiàn)遺傳算法智能性的關(guān)鍵要素。 7)結(jié)束。算法不會一直執(zhí)行下去,可以制定一種規(guī)則,當(dāng)算法達(dá)到該規(guī)則時便結(jié)束算法,該規(guī)則應(yīng)滿足使算法可以找出最優(yōu)解。判定準(zhǔn)則有許多,其中常用的有兩種,這兩種判定規(guī)則都是設(shè)定一個極小的閾值,當(dāng)小于該閾值時結(jié)束算法,但不同的是,第一種規(guī)則要求全部個體適應(yīng)度的方差小于設(shè)定值,而第二種則要求接連幾代個體平均適應(yīng)度的差異比該設(shè)定值小。 3 工作流程與系統(tǒng)實現(xiàn) 3.1 系統(tǒng)工作流程 基于上述設(shè)計方案和各功能模塊所使用的算法,開發(fā)了基于人工智能技術(shù)的火力運用輔助決策系統(tǒng),系統(tǒng)工作流程如圖7所示。 3.2 系統(tǒng)實現(xiàn) 目標(biāo)威脅評估不僅是為決策提供依據(jù)的保證,同時也對目標(biāo)分配至關(guān)重要,評估結(jié)果的好壞直接影響到目標(biāo)分配是否合理。結(jié)合模糊綜合判斷理論,利用模糊綜合評價對目標(biāo)物的威脅程度進行判斷,區(qū)分目標(biāo)的威脅等級,為發(fā)射決策提供依據(jù)。所開發(fā)系統(tǒng)中基于模糊綜合評判法的目標(biāo)威脅度評估綜合子模塊界面如圖8所示。 利用模糊綜合評價的思想,將敵方空襲目標(biāo)定性的評價轉(zhuǎn)換為定量的評價,使模糊的問題有清晰的結(jié)果且系統(tǒng)性強,能夠很好地解決模糊的、難以量化的問題,對各種非確定性問題的解決普遍適用,為火力單元級自動化作戰(zhàn)指揮系統(tǒng)的目標(biāo)威脅度評估提供了一種簡捷有效的方法。 火力分配模塊用于根據(jù)步兵戰(zhàn)車分隊作戰(zhàn)威脅態(tài)勢和己方兵力態(tài)勢進行火力分配決策。系統(tǒng)中基于遺傳算法的火力分配功能模塊界面如圖9所示。 通過改進遺傳算法建立一個火力分配模型,利用用戶輸入的各項參數(shù)計算出最優(yōu)適應(yīng)度和火力分配矩陣。系統(tǒng)中建立了基于遺傳算法的火力分配模型,快速有效地解決武器攔截系統(tǒng)的火力分配問題。 4 結(jié)論 基于深度強化學(xué)習(xí)、優(yōu)化技術(shù)等人工智能新技術(shù),圍繞步兵戰(zhàn)車分隊火力打擊目標(biāo)威脅估計、火力分配、毀傷等級評估和火力運用等方面需求,本文研究了步兵戰(zhàn)車分隊指揮的火力分配輔助決策方法,并通過計算機編程,開發(fā)了基于人工智能技術(shù)的火力運用輔助決策系統(tǒng),通過實驗驗證火力運用原則等火力運用理論研究成果的有效性,有助于提高指揮員戰(zhàn)場的指揮決策能力。 參考文獻: [1] 楊建兵,李大鵬,王忠義,等.線性規(guī)劃在最優(yōu)火力分配輔助決策中的應(yīng)用[J].高校應(yīng)用數(shù)學(xué)學(xué)報A輯(中文版),2004,19(S1):550-560. [2] 王夢真,陳歡良.基于改進遺傳算法解決多目標(biāo)智能排班問題研究[J].電腦知識與技術(shù),2022,18(2):79-81. [3] 鄭華利,陳鐵健,徐蕾,等.作戰(zhàn)輔助決策模型設(shè)計及評估方法[J].火力與指揮控制,2021,46(10):67-72. [4] 郭寶寶,楊章勇,張自翔,等.深度學(xué)習(xí)技術(shù)在輔助決策中的應(yīng)用研究[J].科技創(chuàng)新與應(yīng)用,2020(22):175-176. [5] 張曉海,操新文.基于深度學(xué)習(xí)的軍事智能決策支持系統(tǒng)[J].指揮控制與仿真,2018,40(2):1-7. [6] 鞏玨,王代智,趙磊.基于MGIS的炮兵遠(yuǎn)程火力打擊輔助決策系統(tǒng)[J].四川兵工學(xué)報,2011,32(7):128-129,136. [7] 孫心琿.指揮自動化條件下炮兵火力運用的決策與評估研究[D].南京:南京理工大學(xué),2001. [8] 姚曉白,趙曉哲.基于輔助決策系統(tǒng)艦炮防空火力分配模型[J].火力與指揮控制,2005,30(4):10-13. [9] 張弛,趙中華.戰(zhàn)場火力勢算法及在地面戰(zhàn)斗輔助決策中的應(yīng)用[J].軍事運籌與系統(tǒng)工程,2015,29(2):28-32. [10] 王宏磊.基于馬爾可夫決策過程的動態(tài)火力目標(biāo)匹配[J].電腦知識與技術(shù),2011,7(11):2655-2656. 【通聯(lián)編輯:唐一東】