亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種面向異構(gòu)傳感器網(wǎng)絡(luò)的智能輔助決策系統(tǒng)設(shè)計(jì)

2021-09-22 06:13:08王詔豐李博驍高原陸澤健

電子技術(shù)與軟件工程 2021年15期

王詔豐李博驍高原陸澤健

（中國(guó)電子科技集團(tuán)公司電子科學(xué)研究院北京市 100041）

1 引言

雷達(dá)、聲吶、紅外等異構(gòu)多傳感器組網(wǎng)協(xié)同探測(cè)廣泛應(yīng)用于空中目標(biāo)探測(cè)跟蹤、海上/水下目標(biāo)檢測(cè)定位、太空目標(biāo)監(jiān)視以及導(dǎo)彈預(yù)警等領(lǐng)域，探測(cè)場(chǎng)景往往具備實(shí)時(shí)性要求高、空間跨度大、對(duì)抗性強(qiáng)等特點(diǎn)，傳統(tǒng)規(guī)劃屬于事前規(guī)劃，在應(yīng)對(duì)實(shí)際場(chǎng)景中會(huì)造成兩方面的問(wèn)題：

（1）目標(biāo)場(chǎng)景具有較強(qiáng)的不確定性，籌劃過(guò)程難以窮舉所有場(chǎng)景，因此造成規(guī)劃結(jié)果與場(chǎng)景適配性存在偏差，影響整體效能；

（2）對(duì)抗過(guò)程不可預(yù)知，以無(wú)人機(jī)群、導(dǎo)彈等目標(biāo)為例，群體機(jī)動(dòng)、密集攻擊等突防形式復(fù)雜多變且發(fā)生時(shí)機(jī)不可預(yù)測(cè)，以人為經(jīng)驗(yàn)難以保證全局最優(yōu)。

隨著對(duì)現(xiàn)代戰(zhàn)爭(zhēng)對(duì)抗性、不確定性、非線(xiàn)性認(rèn)識(shí)的不斷深化，有關(guān)部門(mén)在學(xué)習(xí)借鑒外軍先進(jìn)理論的基礎(chǔ)上，開(kāi)展了一些將智能技術(shù)應(yīng)用于任務(wù)規(guī)劃和輔助決策的基礎(chǔ)性研究工作。

空軍指揮學(xué)院基于A(yíng)gent智能技術(shù)和行動(dòng)方案生成專(zhuān)家系統(tǒng)開(kāi)發(fā)了作戰(zhàn)計(jì)劃協(xié)同制定系統(tǒng)[1-2]；海軍裝備論證研究院基于模型庫(kù)開(kāi)發(fā)了作戰(zhàn)方案輔助決策系統(tǒng)[3-4]；國(guó)防科學(xué)技術(shù)大學(xué)基于模型分析和仿真評(píng)估研制了聯(lián)合作戰(zhàn)方案生成與評(píng)估系統(tǒng)[5]和空軍戰(zhàn)役智能決策支持系統(tǒng)[6]。這些對(duì)提升我軍作戰(zhàn)指揮效能和作戰(zhàn)籌劃能力均起到了積極的推動(dòng)作用，但總體而言，我軍無(wú)論是系統(tǒng)規(guī)模還是自動(dòng)化程度與外軍相比還存在較大差距。

多目標(biāo)決策（分配）屬于組合優(yōu)化問(wèn)題，目前，多目標(biāo)決策技術(shù)已經(jīng)有很多研究成果，如窮舉法、動(dòng)態(tài)網(wǎng)絡(luò)流方法[7]、蟻群算法(ACO)[8]、粒子群算法(PSO)[9]、遺傳算法(GA)[10]等。但是，實(shí)戰(zhàn)環(huán)境中存在各種不確定性，目前大部分多目標(biāo)分配算法普遍存在效率低以及不能收斂等問(wèn)題，且只適用于靜態(tài)的目標(biāo)分配，適應(yīng)環(huán)境變化能力差。將人工智能技術(shù)應(yīng)用于多目標(biāo)分配任務(wù)，為解決此問(wèn)題提供了機(jī)遇。

本文提出一種適用于強(qiáng)化學(xué)習(xí)算法和離線(xiàn)訓(xùn)練方式的異構(gòu)傳感器網(wǎng)絡(luò)智能輔助決策系統(tǒng)的設(shè)計(jì)方法，該系統(tǒng)以異構(gòu)傳感器網(wǎng)絡(luò)高保真仿真環(huán)境為基礎(chǔ)平臺(tái)，利用批量生成規(guī)劃方案和方案效能評(píng)估產(chǎn)生離線(xiàn)訓(xùn)練數(shù)據(jù)。經(jīng)過(guò)大量事前訓(xùn)練，得到性能穩(wěn)定的策略網(wǎng)絡(luò)。在執(zhí)行階段，策略網(wǎng)絡(luò)可根據(jù)實(shí)時(shí)感知態(tài)勢(shì)快速生成智能規(guī)劃結(jié)果，為時(shí)敏目標(biāo)復(fù)雜探測(cè)場(chǎng)景下多傳感器任務(wù)規(guī)劃提供輔助支撐。

2 系統(tǒng)總體框架

面向異構(gòu)傳感器網(wǎng)絡(luò)的智能輔助決策系統(tǒng)硬件組成主要包括臺(tái)式工作站和網(wǎng)絡(luò)交換機(jī)，軟件組成主要包括應(yīng)用軟件、仿真平臺(tái)、基礎(chǔ)資源三部分，其中應(yīng)用軟件包括場(chǎng)景分析軟件、效能評(píng)估軟件、智能規(guī)劃模型、數(shù)據(jù)分析顯示軟件。仿真平臺(tái)主要包含想定編輯工具、傳感器模型、目標(biāo)模擬軟件等，基礎(chǔ)資源主要包括操作系統(tǒng)、數(shù)據(jù)庫(kù)、消息中間件和時(shí)統(tǒng)等。軟件系統(tǒng)架構(gòu)如圖1所示。

圖1：系統(tǒng)軟件架構(gòu)

2.1 系統(tǒng)組成與軟件部署

系統(tǒng)硬件設(shè)備組成主要包含4臺(tái)工作站和一臺(tái)交換機(jī)，4臺(tái)工作站性能參數(shù)為顯示器大?。?7英寸以上；顯示器分辨率：不低于1680×1050；CPU：Inter E5-2640；2GHz 32核；內(nèi)存：64GB DDR II；部署環(huán)境如圖2所示。

圖2：系統(tǒng)部署環(huán)境

想定編輯席主要用于制作訓(xùn)練階段和執(zhí)行階段所用到的場(chǎng)景數(shù)據(jù)，包括傳感器類(lèi)型、參數(shù)、部設(shè)位置，目標(biāo)類(lèi)型、運(yùn)動(dòng)軌跡等。智能規(guī)劃席部署場(chǎng)景分析軟件、智能規(guī)劃模型、數(shù)據(jù)分析顯示軟件，主要完成批量規(guī)劃數(shù)據(jù)產(chǎn)生、在仿真模型席和效能評(píng)估席的配合下共同完成模型學(xué)習(xí)訓(xùn)練，此外包含對(duì)訓(xùn)練結(jié)果的能力分析顯示。效能評(píng)估席主要在訓(xùn)練階段對(duì)規(guī)劃樣本數(shù)據(jù)計(jì)算評(píng)估指標(biāo)和方案的綜合評(píng)價(jià)，在執(zhí)行階段對(duì)比多方案綜合效能。仿真模型席部署目標(biāo)模型和傳感器模型，基于規(guī)劃結(jié)果產(chǎn)生仿真數(shù)據(jù)，支持評(píng)估指標(biāo)的計(jì)算。席位組成及軟件部署見(jiàn)表1。

表1：席位組成與軟件部署表

2.2 系統(tǒng)信息流程

2.2.1 訓(xùn)練階段信息流程

訓(xùn)練階段信息流程主要包括訓(xùn)練場(chǎng)景準(zhǔn)備、場(chǎng)景分析計(jì)算、AI模型訓(xùn)練三個(gè)部分，如圖3所示。

圖3：訓(xùn)練階段信息流程

2.2.1.1 訓(xùn)練場(chǎng)景準(zhǔn)備

事先由想定編輯工具創(chuàng)建任務(wù)場(chǎng)景想定，包括探測(cè)場(chǎng)景和目標(biāo)場(chǎng)景。探測(cè)場(chǎng)景包括傳感器類(lèi)型、部署位置、朝向、探測(cè)威力等，各訓(xùn)練場(chǎng)景中包含的探測(cè)場(chǎng)景保持一致；目標(biāo)場(chǎng)景主要包括目標(biāo)類(lèi)型、典型參數(shù)、飛行軌跡、起止時(shí)間等。任務(wù)場(chǎng)景想定以XML文件格式存入數(shù)據(jù)庫(kù)。

2.2.1.2 場(chǎng)景分析計(jì)算

由場(chǎng)景分析軟件設(shè)置參與訓(xùn)練的想定場(chǎng)景，從數(shù)據(jù)庫(kù)獲取想定文件，解析想定中包含的傳感器布設(shè)信息、目標(biāo)航跡，并基于傳感器能力進(jìn)行可見(jiàn)性分析計(jì)算，為AI模型提供基礎(chǔ)分析數(shù)據(jù)；

2.2.1.3 AI模型訓(xùn)練

智能規(guī)劃模型基于策略網(wǎng)絡(luò)產(chǎn)生規(guī)劃動(dòng)作，一路動(dòng)作數(shù)據(jù)經(jīng)過(guò)效能評(píng)估軟件計(jì)算出動(dòng)作對(duì)應(yīng)的收益和代價(jià)，并和規(guī)劃動(dòng)作一起構(gòu)成樣本數(shù)據(jù)放入經(jīng)驗(yàn)回放池。策略網(wǎng)絡(luò)動(dòng)作選擇的依據(jù)。一路動(dòng)作數(shù)據(jù)經(jīng)過(guò)價(jià)值網(wǎng)絡(luò)（Q-Net），對(duì)Q值進(jìn)行更新，并反饋至策略網(wǎng)絡(luò)。具體步驟包括：

（1）初始階段樣本池為空，用初始化模型（默認(rèn)為隨機(jī)策略）與環(huán)境交互填充樣本池；

（2）每個(gè)step提取一個(gè)時(shí)間片的樣本，包含該時(shí)間片的所有目標(biāo)的數(shù)據(jù)編碼；

（3）數(shù)據(jù)以單時(shí)間片-單目標(biāo)為單位輸入到策略網(wǎng)絡(luò)中進(jìn)行決策，以時(shí)間片為單位，將該時(shí)間片的所有狀態(tài)數(shù)組依次輸入到策略網(wǎng)絡(luò)中，輸出該時(shí)間片所有裝備對(duì)每一個(gè)目標(biāo)的動(dòng)作；

（4）將動(dòng)作和狀態(tài)輸入到Q網(wǎng)絡(luò)中，得到該動(dòng)作的好壞評(píng)估，使用Q值來(lái)更新策略網(wǎng)絡(luò)的參數(shù)，然后結(jié)合評(píng)估系統(tǒng)提供的每個(gè)時(shí)間片每個(gè)目標(biāo)的指標(biāo)值，以及懲罰措施，得到一個(gè)真實(shí)獎(jiǎng)勵(lì)，更新價(jià)值網(wǎng)絡(luò)，再用價(jià)值網(wǎng)絡(luò)的輸出更新策略網(wǎng)絡(luò)參數(shù)；

（5）最后使用當(dāng)前階段最優(yōu)的策略模型與仿真平臺(tái)進(jìn)行交互，更新樣本池。

2.2.2 執(zhí)行階段信息流程

執(zhí)行階段信息流程主要包括測(cè)試場(chǎng)景設(shè)置、場(chǎng)景分析計(jì)算、智能規(guī)劃計(jì)算、結(jié)果對(duì)比分析四個(gè)部分，如圖4所示。

圖4：執(zhí)行階段信息流程

2.2.2.1 測(cè)試場(chǎng)景設(shè)置利用想定編輯工具設(shè)置目標(biāo)場(chǎng)景，探測(cè)場(chǎng)景保持與訓(xùn)練場(chǎng)景一致。

2.2.2.2 場(chǎng)景分析計(jì)算

由批量規(guī)劃軟件從數(shù)據(jù)庫(kù)獲取想定文件，完成想定解析和可見(jiàn)性分析。

2.2.2.3 智能規(guī)劃計(jì)算

根據(jù)時(shí)間片依次將場(chǎng)景數(shù)據(jù)輸入給模型，先經(jīng)過(guò)數(shù)據(jù)處理處理為符合網(wǎng)絡(luò)輸入格式的狀態(tài)數(shù)據(jù)，然后輸入給策略網(wǎng)絡(luò)模型；網(wǎng)絡(luò)會(huì)經(jīng)過(guò)幾層神經(jīng)網(wǎng)絡(luò)輸出各裝備的編碼動(dòng)作，然后再經(jīng)過(guò)數(shù)據(jù)處理模塊整理為系統(tǒng)可用規(guī)劃結(jié)果文件。

2.2.2.4 結(jié)果對(duì)比分析利用效能評(píng)估軟件計(jì)算節(jié)點(diǎn)指標(biāo)、全局指標(biāo)和綜合評(píng)分；通過(guò)數(shù)據(jù)分析軟件實(shí)現(xiàn)智能規(guī)劃方案和按照規(guī)則生成方案的綜合評(píng)分對(duì)比以及規(guī)劃數(shù)據(jù)的回放顯示。

3 系統(tǒng)實(shí)現(xiàn)及關(guān)鍵技術(shù)

3.1 訓(xùn)練場(chǎng)景設(shè)計(jì)

訓(xùn)練場(chǎng)景主要包含目標(biāo)場(chǎng)景和探測(cè)場(chǎng)景兩部分。以導(dǎo)彈目標(biāo)預(yù)警探測(cè)為背景，分析國(guó)內(nèi)外典型型號(hào)與作戰(zhàn)戰(zhàn)法，設(shè)置了包含由簡(jiǎn)單場(chǎng)景、多方向場(chǎng)景、集火場(chǎng)景、多波次場(chǎng)景等場(chǎng)景要素構(gòu)成的8類(lèi)威脅場(chǎng)景，從適用性角度，基本能夠覆蓋所有潛在威脅。具體場(chǎng)景特征如表2所示。

表2：典型目標(biāo)場(chǎng)景

探測(cè)場(chǎng)景包含三類(lèi)具有不同能力的傳感器，數(shù)量共記20個(gè)。如表3所示。

表3：探測(cè)場(chǎng)景

3.2 樣本約束規(guī)則

批量規(guī)劃生成軟件在訓(xùn)練階段主要用于產(chǎn)生離線(xiàn)訓(xùn)練數(shù)據(jù)，典型場(chǎng)景以想定的形式存儲(chǔ)在數(shù)據(jù)庫(kù)中，在訓(xùn)練過(guò)程中，批量規(guī)劃生成軟件會(huì)以輪詢(xún)的方式逐個(gè)加載想定文件，批量生成JSON格式的規(guī)劃方案，規(guī)劃的內(nèi)容包含每個(gè)時(shí)間片，每個(gè)傳感器對(duì)每個(gè)目標(biāo)的工作模式，時(shí)間片長(zhǎng)度定義為10s。批量規(guī)劃生成的過(guò)程考慮幾類(lèi)基本約束，包括規(guī)則合理性約束、資源約束等：

（1）每個(gè)目標(biāo)保證至少一部傳感器裝備跟蹤；

（2）目標(biāo)跟蹤之后才能進(jìn)行識(shí)別；

（3）對(duì)目標(biāo)跟蹤指令的變化只發(fā)生在某些關(guān)鍵點(diǎn)而不是所有時(shí)間片。

其中，關(guān)鍵點(diǎn)選取規(guī)則為：

（1）當(dāng)前規(guī)劃目標(biāo)所在方向上，有任一傳感器新捕獲任意目標(biāo)；

（2）當(dāng)前規(guī)劃目標(biāo)所在方向上，有任一傳感器丟失任意目標(biāo)（飛出探測(cè)范圍）；

（3）特定對(duì)抗事件發(fā)生（可見(jiàn)的）；

（1）和（2）對(duì)應(yīng)的關(guān)鍵點(diǎn)根據(jù)可見(jiàn)性關(guān)系得到，（3）對(duì)應(yīng)的關(guān)鍵點(diǎn)從目標(biāo)軌跡數(shù)據(jù)里獲取。

3.3 評(píng)估指標(biāo)設(shè)計(jì)

評(píng)估指標(biāo)計(jì)算模塊結(jié)合場(chǎng)景信息和規(guī)劃結(jié)果，對(duì)批量生成的規(guī)劃進(jìn)行評(píng)估分析，生成對(duì)應(yīng)的節(jié)點(diǎn)指標(biāo)和全局指標(biāo)，評(píng)價(jià)指標(biāo)選取主要考慮及時(shí)發(fā)現(xiàn)能力、連續(xù)跟蹤能力、跟蹤精度、識(shí)別完成度、資源占用情況等方面。其中節(jié)點(diǎn)指標(biāo)經(jīng)過(guò)融合處理后作為即時(shí)收益用于指導(dǎo)模型學(xué)習(xí)訓(xùn)練，全局指標(biāo)主要用于多方案對(duì)比。

3.3.1 局部指標(biāo)

局部指標(biāo)為單時(shí)間片指標(biāo)，由指令評(píng)估系統(tǒng)直接輸出，僅根據(jù)當(dāng)前時(shí)間片決策動(dòng)作計(jì)算，本方案中使用的局部指標(biāo)共有5個(gè)，具體如表4所示。

表4：局部評(píng)價(jià)指標(biāo)

將上述五個(gè)指標(biāo)融合，得到一個(gè)reward值，融合方法：

Reward=（跟蹤計(jì)數(shù)/當(dāng)前總時(shí)間）+（跟蹤精度/100）+（一類(lèi)識(shí)別完成度/100）+（二類(lèi)識(shí)別完成度/100）+（三類(lèi)識(shí)別完成度/100）

3.3.2 全局指標(biāo)

全局指標(biāo)為整局評(píng)分，為一個(gè)分?jǐn)?shù)值，主要根據(jù)局部指標(biāo)的相關(guān)計(jì)算和積累得到首次點(diǎn)發(fā)現(xiàn)時(shí)間、跟蹤覆蓋率、識(shí)別完成度等，再通過(guò)加權(quán)求和計(jì)算得到整局評(píng)分。整局評(píng)分由指令評(píng)估系統(tǒng)直接輸出。

3.4 狀態(tài)和動(dòng)作編碼

策略網(wǎng)絡(luò)訓(xùn)練模塊基于強(qiáng)化學(xué)習(xí)方法模型，首先需要將描述環(huán)境狀態(tài)和智能體動(dòng)作的相關(guān)數(shù)據(jù)進(jìn)行狀態(tài)編碼和動(dòng)作編碼。

3.4.1 狀態(tài)編碼

狀態(tài)編碼大小為向量形式，大小為（1,27），其中目標(biāo)狀態(tài)7維，傳感器狀態(tài)20維，編碼結(jié)果如圖5所示。

圖5：狀態(tài)編碼

第1維表示目標(biāo)的優(yōu)先級(jí)（0為低威脅目標(biāo)，1為高威脅目標(biāo)）；第2-4維表示目標(biāo)位置；第5-7維表示目標(biāo)速度；第8-27維對(duì)應(yīng)20個(gè)傳感器各自狀態(tài)。

傳感器狀態(tài)主要根據(jù)目標(biāo)可見(jiàn)性和可用資源進(jìn)行融合：對(duì)于每一個(gè)目標(biāo)，不可見(jiàn)該目標(biāo)的傳感器可用資源置0，可見(jiàn)傳感器可用資源計(jì)算方式為，A、B類(lèi)傳感器每跟蹤一個(gè)目標(biāo)，可用資源減少1/30，C類(lèi)傳感器每識(shí)別一個(gè)目標(biāo)，可用資源減100%，最終，為0的緯度表示該傳感器對(duì)目標(biāo)不可見(jiàn)或無(wú)可用資源，不為零的傳感器可進(jìn)行跟蹤識(shí)別分配，得出可見(jiàn)性和可用資源的融合特征。

3.4.2 動(dòng)作編碼

動(dòng)作編碼為（1、20）的向量，分別代表20個(gè)傳感器的工作狀態(tài)選擇，每個(gè)傳感器根據(jù)表3的工作特性設(shè)置其可選工作狀態(tài)，取值范圍為0-4（0表示搜索，1表示跟蹤，2表示一類(lèi)識(shí)別、3表示二類(lèi)識(shí)別、4表示三類(lèi)識(shí)別）。

3.5 網(wǎng)絡(luò)模型設(shè)計(jì)

模型訓(xùn)練借鑒Off-Policy方法Soft Actor-Critic（SAC）[11]算法，使用Actor-Critic框架，結(jié)合policy network和Q Network和進(jìn)行策略更新。相較于On-Policy，Off-Policy具有優(yōu)化探索并行、樣本利用充分等優(yōu)點(diǎn)。考慮到仿真平臺(tái)的設(shè)計(jì)，Off-Policy更為合理。但是大部分離線(xiàn)學(xué)習(xí)方法比如Q-Learning以及他的各種版本是valuebased，與在線(xiàn)學(xué)習(xí)的Policy-Gradient相比，對(duì)于動(dòng)作的探索性并不好。兩者結(jié)合起來(lái)的AC算法互補(bǔ)了他們的缺陷，既可以用Critic擬合動(dòng)作Q值，也有Actor使用Policy-Gradient探索、更新策略。但是一般的AC算法是在線(xiàn)學(xué)習(xí)的。而SAC算法沒(méi)有這一局限。SAC的另一大優(yōu)點(diǎn)是使用了Maximum Entropy，使得其有了更強(qiáng)的探索能力，以及更好的魯棒性。

4 系統(tǒng)運(yùn)行測(cè)試

4.1 訓(xùn)練過(guò)程

訓(xùn)練過(guò)程共包含10個(gè)epoch，每個(gè)epoch包含150局場(chǎng)景，每20000個(gè)step更新一次網(wǎng)絡(luò)參數(shù)，每個(gè)epoch測(cè)試一次，評(píng)估指標(biāo)為評(píng)估系統(tǒng)的終局得分。

以對(duì)應(yīng)表2中最復(fù)雜場(chǎng)景的930號(hào)場(chǎng)景（多波次多方向集火攻擊）為例，圖6表示該場(chǎng)景下的訓(xùn)練過(guò)程。由于模型訓(xùn)練過(guò)程存在最大熵探索，并且分?jǐn)?shù)指標(biāo)是整局得分，并不直接聯(lián)系于模型訓(xùn)練所用的單時(shí)間片reward，所以分?jǐn)?shù)曲線(xiàn)做了多項(xiàng)式擬合，弱化了探索過(guò)程中的波動(dòng)?？梢钥闯銮鞍攵我蕴剿鳛橹鲗?dǎo)，后半段模型從較低得分逐漸收斂到高得分。

圖6：訓(xùn)練過(guò)程得分收斂過(guò)程

4.2 執(zhí)行過(guò)程

（1）雙擊dos命令行程序，啟動(dòng)智能規(guī)劃算法模型，提示模型加載完成，準(zhǔn)備就緒…，軟件執(zhí)行結(jié)果如圖7所示。

圖7：?jiǎn)?dòng)智能規(guī)劃算法模型

（2）啟動(dòng)智能預(yù)案生成總控軟件，輸入測(cè)試場(chǎng)景對(duì)應(yīng)想定編號(hào)，以及生成批量規(guī)劃方案數(shù)量，軟件操作界面如圖8所示。

圖8：?jiǎn)?dòng)總控軟件

（3）點(diǎn)擊生成指令按鈕，向智能預(yù)案生成子系統(tǒng)發(fā)送1各規(guī)劃方案生成請(qǐng)求，同時(shí)向批量規(guī)劃方案軟件發(fā)送100個(gè)方案生成請(qǐng)求，后臺(tái)開(kāi)展方案的生成和評(píng)估；通過(guò)總控界面可以監(jiān)視當(dāng)前方案生成進(jìn)度；

（4）方案生成結(jié)束后，由評(píng)估系統(tǒng)對(duì)1套智能規(guī)劃方案和100套批量規(guī)劃方案進(jìn)行效能評(píng)估，給出綜合評(píng)價(jià)得分；

（5）啟動(dòng)結(jié)果對(duì)比軟件，分別設(shè)置1套智能規(guī)劃方案和100套批量規(guī)劃方案評(píng)估結(jié)果的存放目錄，點(diǎn)擊對(duì)比按鈕，查看評(píng)分結(jié)果對(duì)比情況，驗(yàn)證智能生成方案綜合評(píng)分是否優(yōu)于100套批量規(guī)劃方案；

（6）啟動(dòng)仿真推演軟件，設(shè)置1套智能規(guī)劃方案的存放目錄，加載規(guī)劃結(jié)果文件，動(dòng)態(tài)展示各時(shí)間點(diǎn)各裝備對(duì)所有目標(biāo)的跟蹤情況，內(nèi)容展示形式如圖9所示。

圖9：規(guī)劃方案內(nèi)容展示

5 結(jié)論

針對(duì)復(fù)雜任務(wù)場(chǎng)景下，異構(gòu)傳感器協(xié)同探測(cè)任務(wù)規(guī)劃問(wèn)題，本文提出了一種基于高置信度仿真平臺(tái)和機(jī)器學(xué)習(xí)模型的輔助決策系統(tǒng)設(shè)計(jì)方法。該系統(tǒng)通過(guò)事前大量人工標(biāo)定的典型場(chǎng)景生成訓(xùn)練樣本，通過(guò)離線(xiàn)訓(xùn)練對(duì)策略網(wǎng)絡(luò)進(jìn)行迭代強(qiáng)化。本文重點(diǎn)針對(duì)系統(tǒng)架構(gòu)設(shè)計(jì)、訓(xùn)練場(chǎng)景設(shè)計(jì)、數(shù)據(jù)編碼、訓(xùn)練模型選型等方面進(jìn)行了介紹，最后通過(guò)系統(tǒng)運(yùn)行測(cè)試對(duì)操作流程和功能界面進(jìn)行了展示，通過(guò)與固定規(guī)則模型進(jìn)行對(duì)比，對(duì)訓(xùn)練成果的有效性進(jìn)行了驗(yàn)證。