王詔豐 李博驍 高原 陸澤健
(中國(guó)電子科技集團(tuán)公司電子科學(xué)研究院 北京市 100041)
雷達(dá)、聲吶、紅外等異構(gòu)多傳感器組網(wǎng)協(xié)同探測(cè)廣泛應(yīng)用于空中目標(biāo)探測(cè)跟蹤、海上/水下目標(biāo)檢測(cè)定位、太空目標(biāo)監(jiān)視以及導(dǎo)彈預(yù)警等領(lǐng)域,探測(cè)場(chǎng)景往往具備實(shí)時(shí)性要求高、空間跨度大、對(duì)抗性強(qiáng)等特點(diǎn),傳統(tǒng)規(guī)劃屬于事前規(guī)劃,在應(yīng)對(duì)實(shí)際場(chǎng)景中會(huì)造成兩方面的問(wèn)題:
(1)目標(biāo)場(chǎng)景具有較強(qiáng)的不確定性,籌劃過(guò)程難以窮舉所有場(chǎng)景,因此造成規(guī)劃結(jié)果與場(chǎng)景適配性存在偏差,影響整體效能;
(2)對(duì)抗過(guò)程不可預(yù)知,以無(wú)人機(jī)群、導(dǎo)彈等目標(biāo)為例,群體機(jī)動(dòng)、密集攻擊等突防形式復(fù)雜多變且發(fā)生時(shí)機(jī)不可預(yù)測(cè),以人為經(jīng)驗(yàn)難以保證全局最優(yōu)。
隨著對(duì)現(xiàn)代戰(zhàn)爭(zhēng)對(duì)抗性、不確定性、非線(xiàn)性認(rèn)識(shí)的不斷深化,有關(guān)部門(mén)在學(xué)習(xí)借鑒外軍先進(jìn)理論的基礎(chǔ)上,開(kāi)展了一些將智能技術(shù)應(yīng)用于任務(wù)規(guī)劃和輔助決策的基礎(chǔ)性研究工作。
空軍指揮學(xué)院基于A(yíng)gent智能技術(shù)和行動(dòng)方案生成專(zhuān)家系統(tǒng)開(kāi)發(fā)了作戰(zhàn)計(jì)劃協(xié)同制定系統(tǒng)[1-2];海軍裝備論證研究院基于模型庫(kù)開(kāi)發(fā)了作戰(zhàn)方案輔助決策系統(tǒng)[3-4];國(guó)防科學(xué)技術(shù)大學(xué)基于模型分析和仿真評(píng)估研制了聯(lián)合作戰(zhàn)方案生成與評(píng)估系統(tǒng)[5]和空軍戰(zhàn)役智能決策支持系統(tǒng)[6]。這些對(duì)提升我軍作戰(zhàn)指揮效能和作戰(zhàn)籌劃能力均起到了積極的推動(dòng)作用,但總體而言,我軍無(wú)論是系統(tǒng)規(guī)模還是自動(dòng)化程度與外軍相比還存在較大差距。
多目標(biāo)決策(分配)屬于組合優(yōu)化問(wèn)題,目前,多目標(biāo)決策技術(shù)已經(jīng)有很多研究成果,如窮舉法、動(dòng)態(tài)網(wǎng)絡(luò)流方法[7]、蟻群算法(ACO)[8]、粒子群算法(PSO)[9]、遺傳算法(GA)[10]等。但是,實(shí)戰(zhàn)環(huán)境中存在各種不確定性,目前大部分多目標(biāo)分配算法普遍存在效率低以及不能收斂等問(wèn)題,且只適用于靜態(tài)的目標(biāo)分配,適應(yīng)環(huán)境變化能力差。將人工智能技術(shù)應(yīng)用于多目標(biāo)分配任務(wù),為解決此問(wèn)題提供了機(jī)遇。
本文提出一種適用于強(qiáng)化學(xué)習(xí)算法和離線(xiàn)訓(xùn)練方式的異構(gòu)傳感器網(wǎng)絡(luò)智能輔助決策系統(tǒng)的設(shè)計(jì)方法,該系統(tǒng)以異構(gòu)傳感器網(wǎng)絡(luò)高保真仿真環(huán)境為基礎(chǔ)平臺(tái),利用批量生成規(guī)劃方案和方案效能評(píng)估產(chǎn)生離線(xiàn)訓(xùn)練數(shù)據(jù)。經(jīng)過(guò)大量事前訓(xùn)練,得到性能穩(wěn)定的策略網(wǎng)絡(luò)。在執(zhí)行階段,策略網(wǎng)絡(luò)可根據(jù)實(shí)時(shí)感知態(tài)勢(shì)快速生成智能規(guī)劃結(jié)果,為時(shí)敏目標(biāo)復(fù)雜探測(cè)場(chǎng)景下多傳感器任務(wù)規(guī)劃提供輔助支撐。
面向異構(gòu)傳感器網(wǎng)絡(luò)的智能輔助決策系統(tǒng)硬件組成主要包括臺(tái)式工作站和網(wǎng)絡(luò)交換機(jī),軟件組成主要包括應(yīng)用軟件、仿真平臺(tái)、基礎(chǔ)資源三部分,其中應(yīng)用軟件包括場(chǎng)景分析軟件、效能評(píng)估軟件、智能規(guī)劃模型、數(shù)據(jù)分析顯示軟件。仿真平臺(tái)主要包含想定編輯工具、傳感器模型、目標(biāo)模擬軟件等,基礎(chǔ)資源主要包括操作系統(tǒng)、數(shù)據(jù)庫(kù)、消息中間件和時(shí)統(tǒng)等。軟件系統(tǒng)架構(gòu)如圖1所示。
圖1:系統(tǒng)軟件架構(gòu)
系統(tǒng)硬件設(shè)備組成主要包含4臺(tái)工作站和一臺(tái)交換機(jī),4臺(tái)工作站性能參數(shù)為顯示器大?。?7英寸以上;顯示器分辨率:不低于1680×1050;CPU:Inter E5-2640;2GHz 32核;內(nèi)存:64GB DDR II;部署環(huán)境如圖2所示。
圖2:系統(tǒng)部署環(huán)境
想定編輯席主要用于制作訓(xùn)練階段和執(zhí)行階段所用到的場(chǎng)景數(shù)據(jù),包括傳感器類(lèi)型、參數(shù)、部設(shè)位置,目標(biāo)類(lèi)型、運(yùn)動(dòng)軌跡等。智能規(guī)劃席部署場(chǎng)景分析軟件、智能規(guī)劃模型、數(shù)據(jù)分析顯示軟件,主要完成批量規(guī)劃數(shù)據(jù)產(chǎn)生、在仿真模型席和效能評(píng)估席的配合下共同完成模型學(xué)習(xí)訓(xùn)練,此外包含對(duì)訓(xùn)練結(jié)果的能力分析顯示。效能評(píng)估席主要在訓(xùn)練階段對(duì)規(guī)劃樣本數(shù)據(jù)計(jì)算評(píng)估指標(biāo)和方案的綜合評(píng)價(jià),在執(zhí)行階段對(duì)比多方案綜合效能。仿真模型席部署目標(biāo)模型和傳感器模型,基于規(guī)劃結(jié)果產(chǎn)生仿真數(shù)據(jù),支持評(píng)估指標(biāo)的計(jì)算。席位組成及軟件部署見(jiàn)表1。
表1:席位組成與軟件部署表
2.2.1 訓(xùn)練階段信息流程
訓(xùn)練階段信息流程主要包括訓(xùn)練場(chǎng)景準(zhǔn)備、場(chǎng)景分析計(jì)算、AI模型訓(xùn)練三個(gè)部分,如圖3所示。
圖3:訓(xùn)練階段信息流程
2.2.1.1 訓(xùn)練場(chǎng)景準(zhǔn)備
事先由想定編輯工具創(chuàng)建任務(wù)場(chǎng)景想定,包括探測(cè)場(chǎng)景和目標(biāo)場(chǎng)景。探測(cè)場(chǎng)景包括傳感器類(lèi)型、部署位置、朝向、探測(cè)威力等,各訓(xùn)練場(chǎng)景中包含的探測(cè)場(chǎng)景保持一致;目標(biāo)場(chǎng)景主要包括目標(biāo)類(lèi)型、典型參數(shù)、飛行軌跡、起止時(shí)間等。任務(wù)場(chǎng)景想定以XML文件格式存入數(shù)據(jù)庫(kù)。
2.2.1.2 場(chǎng)景分析計(jì)算
由場(chǎng)景分析軟件設(shè)置參與訓(xùn)練的想定場(chǎng)景,從數(shù)據(jù)庫(kù)獲取想定文件,解析想定中包含的傳感器布設(shè)信息、目標(biāo)航跡,并基于傳感器能力進(jìn)行可見(jiàn)性分析計(jì)算,為AI模型提供基礎(chǔ)分析數(shù)據(jù);
2.2.1.3 AI模型訓(xùn)練
智能規(guī)劃模型基于策略網(wǎng)絡(luò)產(chǎn)生規(guī)劃動(dòng)作,一路動(dòng)作數(shù)據(jù)經(jīng)過(guò)效能評(píng)估軟件計(jì)算出動(dòng)作對(duì)應(yīng)的收益和代價(jià),并和規(guī)劃動(dòng)作一起構(gòu)成樣本數(shù)據(jù)放入經(jīng)驗(yàn)回放池。策略網(wǎng)絡(luò)動(dòng)作選擇的依據(jù)。一路動(dòng)作數(shù)據(jù)經(jīng)過(guò)價(jià)值網(wǎng)絡(luò)(Q-Net),對(duì)Q值進(jìn)行更新,并反饋至策略網(wǎng)絡(luò)。具體步驟包括:
(1)初始階段樣本池為空,用初始化模型(默認(rèn)為隨機(jī)策略)與環(huán)境交互填充樣本池;
(2)每個(gè)step提取一個(gè)時(shí)間片的樣本,包含該時(shí)間片的所有目標(biāo)的數(shù)據(jù)編碼;
(3)數(shù)據(jù)以單時(shí)間片-單目標(biāo)為單位輸入到策略網(wǎng)絡(luò)中進(jìn)行決策,以時(shí)間片為單位,將該時(shí)間片的所有狀態(tài)數(shù)組依次輸入到策略網(wǎng)絡(luò)中,輸出該時(shí)間片所有裝備對(duì)每一個(gè)目標(biāo)的動(dòng)作;
(4)將動(dòng)作和狀態(tài)輸入到Q網(wǎng)絡(luò)中,得到該動(dòng)作的好壞評(píng)估,使用Q值來(lái)更新策略網(wǎng)絡(luò)的參數(shù),然后結(jié)合評(píng)估系統(tǒng)提供的每個(gè)時(shí)間片每個(gè)目標(biāo)的指標(biāo)值,以及懲罰措施,得到一個(gè)真實(shí)獎(jiǎng)勵(lì),更新價(jià)值網(wǎng)絡(luò),再用價(jià)值網(wǎng)絡(luò)的輸出更新策略網(wǎng)絡(luò)參數(shù);
(5)最后使用當(dāng)前階段最優(yōu)的策略模型與仿真平臺(tái)進(jìn)行交互,更新樣本池。
2.2.2 執(zhí)行階段信息流程
執(zhí)行階段信息流程主要包括測(cè)試場(chǎng)景設(shè)置、場(chǎng)景分析計(jì)算、智能規(guī)劃計(jì)算、結(jié)果對(duì)比分析四個(gè)部分,如圖4所示。
圖4:執(zhí)行階段信息流程
2.2.2.1 測(cè)試場(chǎng)景設(shè)置利用想定編輯工具設(shè)置目標(biāo)場(chǎng)景,探測(cè)場(chǎng)景保持與訓(xùn)練場(chǎng)景一致。
2.2.2.2 場(chǎng)景分析計(jì)算
由批量規(guī)劃軟件從數(shù)據(jù)庫(kù)獲取想定文件,完成想定解析和可見(jiàn)性分析。
2.2.2.3 智能規(guī)劃計(jì)算
根據(jù)時(shí)間片依次將場(chǎng)景數(shù)據(jù)輸入給模型,先經(jīng)過(guò)數(shù)據(jù)處理處理為符合網(wǎng)絡(luò)輸入格式的狀態(tài)數(shù)據(jù),然后輸入給策略網(wǎng)絡(luò)模型;網(wǎng)絡(luò)會(huì)經(jīng)過(guò)幾層神經(jīng)網(wǎng)絡(luò)輸出各裝備的編碼動(dòng)作,然后再經(jīng)過(guò)數(shù)據(jù)處理模塊整理為系統(tǒng)可用規(guī)劃結(jié)果文件。
2.2.2.4 結(jié)果對(duì)比分析利用效能評(píng)估軟件計(jì)算節(jié)點(diǎn)指標(biāo)、全局指標(biāo)和綜合評(píng)分;通過(guò)數(shù)據(jù)分析軟件實(shí)現(xiàn)智能規(guī)劃方案和按照規(guī)則生成方案的綜合評(píng)分對(duì)比以及規(guī)劃數(shù)據(jù)的回放顯示。
訓(xùn)練場(chǎng)景主要包含目標(biāo)場(chǎng)景和探測(cè)場(chǎng)景兩部分。以導(dǎo)彈目標(biāo)預(yù)警探測(cè)為背景,分析國(guó)內(nèi)外典型型號(hào)與作戰(zhàn)戰(zhàn)法,設(shè)置了包含由簡(jiǎn)單場(chǎng)景、多方向場(chǎng)景、集火場(chǎng)景、多波次場(chǎng)景等場(chǎng)景要素構(gòu)成的8類(lèi)威脅場(chǎng)景,從適用性角度,基本能夠覆蓋所有潛在威脅。具體場(chǎng)景特征如表2所示。
表2:典型目標(biāo)場(chǎng)景
探測(cè)場(chǎng)景包含三類(lèi)具有不同能力的傳感器,數(shù)量共記20個(gè)。如表3所示。
表3:探測(cè)場(chǎng)景
批量規(guī)劃生成軟件在訓(xùn)練階段主要用于產(chǎn)生離線(xiàn)訓(xùn)練數(shù)據(jù),典型場(chǎng)景以想定的形式存儲(chǔ)在數(shù)據(jù)庫(kù)中,在訓(xùn)練過(guò)程中,批量規(guī)劃生成軟件會(huì)以輪詢(xún)的方式逐個(gè)加載想定文件,批量生成JSON格式的規(guī)劃方案,規(guī)劃的內(nèi)容包含每個(gè)時(shí)間片,每個(gè)傳感器對(duì)每個(gè)目標(biāo)的工作模式,時(shí)間片長(zhǎng)度定義為10s。批量規(guī)劃生成的過(guò)程考慮幾類(lèi)基本約束,包括規(guī)則合理性約束、資源約束等:
(1)每個(gè)目標(biāo)保證至少一部傳感器裝備跟蹤;
(2)目標(biāo)跟蹤之后才能進(jìn)行識(shí)別;
(3)對(duì)目標(biāo)跟蹤指令的變化只發(fā)生在某些關(guān)鍵點(diǎn)而不是所有時(shí)間片。
其中,關(guān)鍵點(diǎn)選取規(guī)則為:
(1)當(dāng)前規(guī)劃目標(biāo)所在方向上,有任一傳感器新捕獲任意目標(biāo);
(2)當(dāng)前規(guī)劃目標(biāo)所在方向上,有任一傳感器丟失任意目標(biāo)(飛出探測(cè)范圍);
(3)特定對(duì)抗事件發(fā)生(可見(jiàn)的);
(1)和(2)對(duì)應(yīng)的關(guān)鍵點(diǎn)根據(jù)可見(jiàn)性關(guān)系得到,(3)對(duì)應(yīng)的關(guān)鍵點(diǎn)從目標(biāo)軌跡數(shù)據(jù)里獲取。
評(píng)估指標(biāo)計(jì)算模塊結(jié)合場(chǎng)景信息和規(guī)劃結(jié)果,對(duì)批量生成的規(guī)劃進(jìn)行評(píng)估分析,生成對(duì)應(yīng)的節(jié)點(diǎn)指標(biāo)和全局指標(biāo),評(píng)價(jià)指標(biāo)選取主要考慮及時(shí)發(fā)現(xiàn)能力、連續(xù)跟蹤能力、跟蹤精度、識(shí)別完成度、資源占用情況等方面。其中節(jié)點(diǎn)指標(biāo)經(jīng)過(guò)融合處理后作為即時(shí)收益用于指導(dǎo)模型學(xué)習(xí)訓(xùn)練,全局指標(biāo)主要用于多方案對(duì)比。
3.3.1 局部指標(biāo)
局部指標(biāo)為單時(shí)間片指標(biāo),由指令評(píng)估系統(tǒng)直接輸出,僅根據(jù)當(dāng)前時(shí)間片決策動(dòng)作計(jì)算,本方案中使用的局部指標(biāo)共有5個(gè),具體如表4所示。
表4:局部評(píng)價(jià)指標(biāo)
將上述五個(gè)指標(biāo)融合,得到一個(gè)reward值,融合方法:
Reward=(跟蹤計(jì)數(shù)/當(dāng)前總時(shí)間)+(跟蹤精度/100)+(一類(lèi)識(shí)別完成度/100)+(二類(lèi)識(shí)別完成度/100)+(三類(lèi)識(shí)別完成度/100)
3.3.2 全局指標(biāo)
全局指標(biāo)為整局評(píng)分,為一個(gè)分?jǐn)?shù)值,主要根據(jù)局部指標(biāo)的相關(guān)計(jì)算和積累得到首次點(diǎn)發(fā)現(xiàn)時(shí)間、跟蹤覆蓋率、識(shí)別完成度等,再通過(guò)加權(quán)求和計(jì)算得到整局評(píng)分。整局評(píng)分由指令評(píng)估系統(tǒng)直接輸出。
策略網(wǎng)絡(luò)訓(xùn)練模塊基于強(qiáng)化學(xué)習(xí)方法模型,首先需要將描述環(huán)境狀態(tài)和智能體動(dòng)作的相關(guān)數(shù)據(jù)進(jìn)行狀態(tài)編碼和動(dòng)作編碼。
3.4.1 狀態(tài)編碼
狀態(tài)編碼大小為向量形式,大小為(1,27),其中目標(biāo)狀態(tài)7維,傳感器狀態(tài)20維,編碼結(jié)果如圖5所示。
圖5:狀態(tài)編碼
第1維表示目標(biāo)的優(yōu)先級(jí)(0為低威脅目標(biāo),1為高威脅目標(biāo));第2-4維表示目標(biāo)位置;第5-7維表示目標(biāo)速度;第8-27維對(duì)應(yīng)20個(gè)傳感器各自狀態(tài)。
傳感器狀態(tài)主要根據(jù)目標(biāo)可見(jiàn)性和可用資源進(jìn)行融合:對(duì)于每一個(gè)目標(biāo),不可見(jiàn)該目標(biāo)的傳感器可用資源置0,可見(jiàn)傳感器可用資源計(jì)算方式為,A、B類(lèi)傳感器每跟蹤一個(gè)目標(biāo),可用資源減少1/30,C類(lèi)傳感器每識(shí)別一個(gè)目標(biāo),可用資源減100%,最終,為0的緯度表示該傳感器對(duì)目標(biāo)不可見(jiàn)或無(wú)可用資源,不為零的傳感器可進(jìn)行跟蹤識(shí)別分配,得出可見(jiàn)性和可用資源的融合特征。
3.4.2 動(dòng)作編碼
動(dòng)作編碼為(1、20)的向量,分別代表20個(gè)傳感器的工作狀態(tài)選擇,每個(gè)傳感器根據(jù)表3的工作特性設(shè)置其可選工作狀態(tài),取值范圍為0-4(0表示搜索,1表示跟蹤,2表示一類(lèi)識(shí)別、3表示二類(lèi)識(shí)別、4表示三類(lèi)識(shí)別)。
模型訓(xùn)練借鑒Off-Policy方法Soft Actor-Critic(SAC)[11]算法,使用Actor-Critic框架,結(jié)合policy network和Q Network和進(jìn)行策略更新。相較于On-Policy,Off-Policy具有優(yōu)化探索并行、樣本利用充分等優(yōu)點(diǎn)。考慮到仿真平臺(tái)的設(shè)計(jì),Off-Policy更為合理。但是大部分離線(xiàn)學(xué)習(xí)方法比如Q-Learning以及他的各種版本是valuebased,與在線(xiàn)學(xué)習(xí)的Policy-Gradient相比,對(duì)于動(dòng)作的探索性并不好。兩者結(jié)合起來(lái)的AC算法互補(bǔ)了他們的缺陷,既可以用Critic擬合動(dòng)作Q值,也有Actor使用Policy-Gradient探索、更新策略。但是一般的AC算法是在線(xiàn)學(xué)習(xí)的。而SAC算法沒(méi)有這一局限。SAC的另一大優(yōu)點(diǎn)是使用了Maximum Entropy,使得其有了更強(qiáng)的探索能力,以及更好的魯棒性。
訓(xùn)練過(guò)程共包含10個(gè)epoch,每個(gè)epoch包含150局場(chǎng)景,每20000個(gè)step更新一次網(wǎng)絡(luò)參數(shù),每個(gè)epoch測(cè)試一次,評(píng)估指標(biāo)為評(píng)估系統(tǒng)的終局得分。
以對(duì)應(yīng)表2中最復(fù)雜場(chǎng)景的930號(hào)場(chǎng)景(多波次多方向集火攻擊)為例,圖6表示該場(chǎng)景下的訓(xùn)練過(guò)程。由于模型訓(xùn)練過(guò)程存在最大熵探索,并且分?jǐn)?shù)指標(biāo)是整局得分,并不直接聯(lián)系于模型訓(xùn)練所用的單時(shí)間片reward,所以分?jǐn)?shù)曲線(xiàn)做了多項(xiàng)式擬合,弱化了探索過(guò)程中的波動(dòng)??梢钥闯銮鞍攵我蕴剿鳛橹鲗?dǎo),后半段模型從較低得分逐漸收斂到高得分。
圖6:訓(xùn)練過(guò)程得分收斂過(guò)程
(1)雙擊dos命令行程序,啟動(dòng)智能規(guī)劃算法模型,提示模型加載完成,準(zhǔn)備就緒…,軟件執(zhí)行結(jié)果如圖7所示。
圖7:?jiǎn)?dòng)智能規(guī)劃算法模型
(2)啟動(dòng)智能預(yù)案生成總控軟件,輸入測(cè)試場(chǎng)景對(duì)應(yīng)想定編號(hào),以及生成批量規(guī)劃方案數(shù)量,軟件操作界面如圖8所示。
圖8:?jiǎn)?dòng)總控軟件
(3)點(diǎn)擊生成指令按鈕,向智能預(yù)案生成子系統(tǒng)發(fā)送1各規(guī)劃方案生成請(qǐng)求,同時(shí)向批量規(guī)劃方案軟件發(fā)送100個(gè)方案生成請(qǐng)求,后臺(tái)開(kāi)展方案的生成和評(píng)估;通過(guò)總控界面可以監(jiān)視當(dāng)前方案生成進(jìn)度;
(4)方案生成結(jié)束后,由評(píng)估系統(tǒng)對(duì)1套智能規(guī)劃方案和100套批量規(guī)劃方案進(jìn)行效能評(píng)估,給出綜合評(píng)價(jià)得分;
(5)啟動(dòng)結(jié)果對(duì)比軟件,分別設(shè)置1套智能規(guī)劃方案和100套批量規(guī)劃方案評(píng)估結(jié)果的存放目錄,點(diǎn)擊對(duì)比按鈕,查看評(píng)分結(jié)果對(duì)比情況,驗(yàn)證智能生成方案綜合評(píng)分是否優(yōu)于100套批量規(guī)劃方案;
(6)啟動(dòng)仿真推演軟件,設(shè)置1套智能規(guī)劃方案的存放目錄,加載規(guī)劃結(jié)果文件,動(dòng)態(tài)展示各時(shí)間點(diǎn)各裝備對(duì)所有目標(biāo)的跟蹤情況,內(nèi)容展示形式如圖9所示。
圖9:規(guī)劃方案內(nèi)容展示
針對(duì)復(fù)雜任務(wù)場(chǎng)景下,異構(gòu)傳感器協(xié)同探測(cè)任務(wù)規(guī)劃問(wèn)題,本文提出了一種基于高置信度仿真平臺(tái)和機(jī)器學(xué)習(xí)模型的輔助決策系統(tǒng)設(shè)計(jì)方法。該系統(tǒng)通過(guò)事前大量人工標(biāo)定的典型場(chǎng)景生成訓(xùn)練樣本,通過(guò)離線(xiàn)訓(xùn)練對(duì)策略網(wǎng)絡(luò)進(jìn)行迭代強(qiáng)化。本文重點(diǎn)針對(duì)系統(tǒng)架構(gòu)設(shè)計(jì)、訓(xùn)練場(chǎng)景設(shè)計(jì)、數(shù)據(jù)編碼、訓(xùn)練模型選型等方面進(jìn)行了介紹,最后通過(guò)系統(tǒng)運(yùn)行測(cè)試對(duì)操作流程和功能界面進(jìn)行了展示,通過(guò)與固定規(guī)則模型進(jìn)行對(duì)比,對(duì)訓(xùn)練成果的有效性進(jìn)行了驗(yàn)證。