亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        深度強(qiáng)化學(xué)習(xí)在軍事領(lǐng)域的應(yīng)用研究

        2022-11-25 00:04:04文東日
        關(guān)鍵詞:深度智能

        文東日

        (1.國防大學(xué) 研究生院,北京100091;2.中國人民解放軍63936 部隊(duì),北京102202)

        1 引言

        2 深度強(qiáng)化學(xué)習(xí)軍事應(yīng)用研究現(xiàn)狀

        深度強(qiáng)化學(xué)習(xí)具有突出的決策規(guī)劃能力,擁有廣闊的軍事應(yīng)用前景,受到研究人員的廣泛關(guān)注。近年來,深度強(qiáng)化學(xué)習(xí)軍事應(yīng)用研究的相關(guān)文獻(xiàn)逐年增多,在態(tài)勢感知、指揮決策、裝備控制、空戰(zhàn)博弈、兵棋推演等諸多領(lǐng)域均有成果。

        2.1 應(yīng)用深度強(qiáng)化學(xué)習(xí)于態(tài)勢感知

        態(tài)勢感知是實(shí)施作戰(zhàn)行動的邏輯起點(diǎn),核心是綜合處理戰(zhàn)場環(huán)境、情報(bào)偵察、兵力部署、力量對比等各種信息,做出綜合判斷,為采取作戰(zhàn)行動提供決策依據(jù)。吳志強(qiáng)等構(gòu)建了基于Actor-Critic 的態(tài)勢估計(jì)模型,提出基于深度強(qiáng)化學(xué)習(xí)的自動態(tài)勢分析技術(shù)框架[1]。Actor-Critic 架構(gòu)既有決策功能(Actor)又有評估功能(Critic),文獻(xiàn)[1]僅利用Critic 進(jìn)行態(tài)勢估計(jì),卻舍棄了Actor 的決策功能。冷鵬飛等提出一種基于深度強(qiáng)化學(xué)習(xí)的雷達(dá)輻射源個(gè)體識別方法[2],以雷達(dá)輻射源信號包絡(luò)前沿作為深度神經(jīng)網(wǎng)絡(luò)的輸入狀態(tài),以輻射源類別作為輸入狀態(tài)的可選動作,通過擬合當(dāng)前狀態(tài)動作對的Q 值完成雷達(dá)輻射源個(gè)體識別任務(wù)。利用深度強(qiáng)化學(xué)習(xí)進(jìn)行目標(biāo)識別是深度強(qiáng)化學(xué)習(xí)的一種特殊應(yīng)用,此種情況下的馬爾可夫決策過程僅有一個(gè)決策步。李銀通等提出利用逆強(qiáng)化學(xué)習(xí)進(jìn)行空戰(zhàn)態(tài)勢評估[3]。在態(tài)勢評估或目標(biāo)識別領(lǐng)域應(yīng)用深度強(qiáng)化學(xué)習(xí),未充分發(fā)揮其技術(shù)優(yōu)勢,相關(guān)應(yīng)用研究也較少。

        2.2 應(yīng)用深度強(qiáng)化學(xué)習(xí)于指揮決策

        深度強(qiáng)化學(xué)習(xí)具有突出的決策規(guī)劃能力,發(fā)揮深度強(qiáng)化學(xué)習(xí)這一技術(shù)特點(diǎn),提升指揮控制能力、獲取決策優(yōu)勢,是深度強(qiáng)化學(xué)習(xí)在軍事領(lǐng)域的主要應(yīng)用方向。曹雷提出將深度強(qiáng)化學(xué)習(xí)應(yīng)用于作戰(zhàn)輔助決策(或作戰(zhàn)任務(wù)規(guī)劃、智能博弈對抗)的基本構(gòu)想[4],建立基于馬爾可夫決策過程的作戰(zhàn)指揮控制模型,探討獲得最優(yōu)策略的基本邏輯。針對不同領(lǐng)域、不同規(guī)模、不同階段的指揮決策問題,諸多學(xué)者進(jìn)行了具體探索。如陳希亮等針對陸軍分隊(duì)?wèi)?zhàn)術(shù)決策問題,提出有限指揮決策范例數(shù)據(jù)條件下的逆向強(qiáng)化學(xué)習(xí)方法,給出方案推演中基于深度Q網(wǎng)絡(luò)的陸軍分隊(duì)?wèi)?zhàn)術(shù)決策技術(shù)求解框架[5]。馮利設(shè)計(jì)了基于深度Q 網(wǎng)絡(luò)的炮兵連智能決策系統(tǒng)[6],為解決炮兵戰(zhàn)術(shù)決策問題提供了借鑒。筆者曾提出基于深度強(qiáng)化學(xué)習(xí)的裝備組合運(yùn)用方法[7],發(fā)揮深度強(qiáng)化學(xué)習(xí)解決組合優(yōu)化問題的優(yōu)勢,進(jìn)行裝備運(yùn)用方案籌劃。于彤彤等提出基于深度強(qiáng)化學(xué)習(xí)的艦載機(jī)在線調(diào)度方法[8]。此外,一些學(xué)者圍繞利用深度強(qiáng)化學(xué)習(xí)解決防空反導(dǎo)[9]、網(wǎng)電攻防[10]、低軌衛(wèi)星路由策略[11]中的輔助決策問題進(jìn)行了研究。

        2.3 應(yīng)用深度強(qiáng)化學(xué)習(xí)于裝備控制

        利用深度強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)裝備智能控制,是深度強(qiáng)化學(xué)習(xí)軍事應(yīng)用的又一重要方向。如付佳龍研究利用深度強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)艦載機(jī)的自動著艦[12],張耀、相曉嘉、趙明皓等分別研究利用深度強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)無人戰(zhàn)車[13]、無人機(jī)[14]、無人艇[15]等無人平臺的自主控制,南英、馬子杰、高昂等分別研究利用深度強(qiáng)化學(xué)習(xí)進(jìn)行彈道導(dǎo)彈[16]、巡航導(dǎo)彈[17]、巡飛彈[18]等制導(dǎo)導(dǎo)彈的突防控制以及航跡規(guī)劃。Gaudet 等研究基于強(qiáng)化學(xué)習(xí)的自主高超聲速打擊武器末端自適應(yīng)制導(dǎo)方法[19]。可以說,武器裝備智能化是軍事智能化的物質(zhì)基礎(chǔ),是深度強(qiáng)化學(xué)習(xí)軍事應(yīng)用的重要領(lǐng)域,是催生智能化武器裝備的重要技術(shù)基礎(chǔ)。2018 年2 月,SpaceX 公司利用強(qiáng)化學(xué)習(xí)技術(shù)提升火箭著陸精度和可靠性,使其出色地完成自動轉(zhuǎn)向等操作,大幅減少了地面專家操作工作量[20]。

        2.4 應(yīng)用深度強(qiáng)化學(xué)習(xí)于空戰(zhàn)博弈

        空戰(zhàn)博弈是裝備控制的一種特殊情況,相比較一般裝備控制問題,空戰(zhàn)博弈具有激烈對抗性的突出特點(diǎn)。2020 年8 月,美國國防高級研究計(jì)劃局(DARPA)舉辦阿爾法空戰(zhàn)格斗系列比賽(Alpha-DogFight),蒼鷺系統(tǒng)公司基于深度強(qiáng)化學(xué)習(xí)算法完勝F-16 頂尖飛行員,顯示出將深度強(qiáng)化學(xué)習(xí)應(yīng)用于空戰(zhàn)博弈的巨大潛力。圍繞空戰(zhàn)博弈問題,POPE 等研究利用分層深度強(qiáng)化學(xué)習(xí)進(jìn)行飛機(jī)空中格斗[21],馬文等提出一種深度強(qiáng)化學(xué)習(xí)與博弈相結(jié)合的近距空戰(zhàn)機(jī)動決策方法[22],郭萬春等提出一種基于改進(jìn)雙延遲深度確定性策略梯度法的無人機(jī)反追擊機(jī)動決策方法[23],楊霄等提出一種深度強(qiáng)化學(xué)習(xí)與微分對策(Differential Games,DG)相結(jié)合的無人機(jī)空戰(zhàn)決策方法[24]。正如陳希亮等指出,空戰(zhàn)決策問題與圍棋、星際爭霸等問題不同,無法簡單套用游戲中的深度強(qiáng)化學(xué)習(xí)算法,須針對具體軍事問題,綜合運(yùn)用運(yùn)籌分析、知識建模、智能搜索和機(jī)器學(xué)習(xí)等方法尋找解決方案[25]。

        2.5 應(yīng)用深度強(qiáng)化學(xué)習(xí)于兵棋推演

        深度強(qiáng)化學(xué)習(xí)基于大量采樣和試錯(cuò)進(jìn)行學(xué)習(xí),為降低試錯(cuò)成本,一般須構(gòu)建虛擬仿真環(huán)境,而兵棋推演正好滿足這一要求。美國國防高級研究計(jì)劃局在深度強(qiáng)化學(xué)習(xí)攻克星際爭霸后,立馬將其應(yīng)用于戰(zhàn)爭模擬研究[26]。筆者曾指出為使傳統(tǒng)軍事仿真平臺能和智能體進(jìn)行交互,須對傳統(tǒng)軍事仿真平臺進(jìn)行改造,包括實(shí)現(xiàn)環(huán)境功能的仿真平臺、實(shí)現(xiàn)智能體功能的開發(fā)平臺以及連接仿真平臺和開發(fā)平臺的接口[7]。劉靜等設(shè)計(jì)了網(wǎng)電作戰(zhàn)多智能體博弈仿真平臺[27]。崔文華等探討以兵棋系統(tǒng)為依托的基于深度強(qiáng)化學(xué)習(xí)的決策技術(shù)框架[28]。目前,深度強(qiáng)化學(xué)習(xí)成為兵棋推演智能決策的主要技術(shù)之一,國內(nèi)已有多個(gè)能夠應(yīng)用深度強(qiáng)化學(xué)習(xí)進(jìn)行推演的仿真平臺。

        3 深度強(qiáng)化學(xué)習(xí)軍事應(yīng)用的優(yōu)勢及挑戰(zhàn)

        3.1 深度強(qiáng)化學(xué)習(xí)軍事應(yīng)用優(yōu)勢分析

        深度強(qiáng)化學(xué)習(xí)具有不需要數(shù)據(jù)標(biāo)簽、環(huán)境模型、提取特征等內(nèi)在特點(diǎn),符合許多軍事應(yīng)用問題的技術(shù)要求,使得應(yīng)用深度強(qiáng)化學(xué)習(xí)于軍事領(lǐng)域具有明顯優(yōu)勢。

        3.1.1 不需要數(shù)據(jù)標(biāo)簽,從而擺脫數(shù)據(jù)標(biāo)記

        The median follow-up period for all patients was 34.5(9.9-81) mo. Median follow-up time for group Ⅰ was 37.5 (9.9-74.5) mo and group Ⅱ was 31.2 (10.7-81) mo.Median follow-up was comparable in both groups (P =0.59).

        深度強(qiáng)化學(xué)習(xí)不需要數(shù)據(jù)標(biāo)簽,從而使得應(yīng)用深度強(qiáng)化學(xué)習(xí)解決軍事問題擺脫數(shù)據(jù)標(biāo)記。以深度學(xué)習(xí)為代表的監(jiān)督學(xué)習(xí),需要大量的數(shù)據(jù)標(biāo)簽,以致產(chǎn)生對數(shù)據(jù)進(jìn)行標(biāo)記的巨大市場需求。但當(dāng)人們試圖把深度學(xué)習(xí)以及大數(shù)據(jù)等技術(shù)應(yīng)用于軍事領(lǐng)域時(shí),卻發(fā)現(xiàn)由于缺少數(shù)據(jù)標(biāo)簽或者根本沒有數(shù)據(jù)積累、數(shù)據(jù)來源,導(dǎo)致很多軍事問題難以利用監(jiān)督學(xué)習(xí)的方法。而強(qiáng)化學(xué)習(xí)不需要數(shù)據(jù)標(biāo)簽,其通過持續(xù)地交互“試錯(cuò)”機(jī)制,不斷地“接收狀態(tài)—執(zhí)行動作—獲得收益—調(diào)整策略”,最終獲得最大收益、找到最優(yōu)策略。此種源于行為主義心理學(xué)的學(xué)習(xí)機(jī)制,使得以深度強(qiáng)化學(xué)習(xí)解決軍事問題時(shí),解決了沒有數(shù)據(jù)來源、缺少數(shù)據(jù)積累以及數(shù)據(jù)標(biāo)簽的問題。

        3.1.2 不需要環(huán)境模型,從而超越經(jīng)驗(yàn)知識

        深度強(qiáng)化學(xué)習(xí)不需要環(huán)境模型,從而使得應(yīng)用深度強(qiáng)化學(xué)習(xí)解決軍事問題超越經(jīng)驗(yàn)知識。環(huán)境模型即狀態(tài)轉(zhuǎn)移函數(shù),表示在一個(gè)狀態(tài)下采取某個(gè)動作時(shí),從當(dāng)前狀態(tài)轉(zhuǎn)移到另一狀態(tài)并獲得收益的概率。簡單理解,智能體好比是懂行的專家,其對動作的后續(xù)影響完全知悉。然而,在沒有環(huán)境模型的情況下,強(qiáng)化學(xué)習(xí)通過與環(huán)境交互采樣,得到狀態(tài)、動作、收益的序列,并在收益的引導(dǎo)下糾正錯(cuò)誤動作、選擇正確動作,依然能夠達(dá)到最優(yōu)的行為。根據(jù)這一原理,AlphaGo Zero 在完全不懂圍棋、也不借助人類經(jīng)驗(yàn)的情況下,成為圍棋頂尖高手,打敗先前版本的AlphaGo Master 。類似于此,利用深度強(qiáng)化學(xué)習(xí)解決軍事問題,也可能在完全沒有軍事專家指導(dǎo)、沒有軍事經(jīng)驗(yàn)的情況下,成為精于計(jì)算、足智多謀的軍事助手。

        3.1.3 不需要提取特征,從而回避特征工程

        深度強(qiáng)化學(xué)習(xí)不需要提取特征,從而使得應(yīng)用深度強(qiáng)化學(xué)習(xí)解決軍事問題回避特征工程。傳統(tǒng)的強(qiáng)化學(xué)習(xí)在解決一般任務(wù)時(shí)存在以下幾點(diǎn)不足:一是需要根據(jù)具體任務(wù)提取特征,從而轉(zhuǎn)化為有限狀態(tài)空間及有限動作空間;二是提取特征需要人工完成,因而受人為因素的影響較大;三是有的高維任務(wù)或許根本無法轉(zhuǎn)化為有限狀態(tài)空間及動作空間。而深度強(qiáng)化學(xué)習(xí)利用深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的泛函表示能力,既能夠應(yīng)對連續(xù)狀態(tài)空間和動作空間的任務(wù),又可省去人工提取特征的環(huán)節(jié),從而克服了傳統(tǒng)強(qiáng)化學(xué)習(xí)的不足。運(yùn)用深度強(qiáng)化學(xué)習(xí)解決軍事問題,不需要對特征提取進(jìn)行人為選擇,即使面對不同作戰(zhàn)條件、作戰(zhàn)目標(biāo)和作戰(zhàn)意圖,也可基于同一網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行訓(xùn)練,提高了網(wǎng)絡(luò)結(jié)構(gòu)的通用性。

        3.2 深度強(qiáng)化學(xué)習(xí)軍事應(yīng)用困難挑戰(zhàn)

        雖然利用深度強(qiáng)化學(xué)習(xí)解決軍事問題具有諸多優(yōu)勢和廣闊前景,但與落地應(yīng)用仍有差距,在系統(tǒng)建構(gòu)、訓(xùn)練收斂、算法遷移等方面存在困難。

        3.2.1 系統(tǒng)建構(gòu)之難

        應(yīng)用深度強(qiáng)化學(xué)習(xí)解決軍事問題,需要開發(fā)平臺、計(jì)算平臺、仿真平臺等作為支撐,由此導(dǎo)致實(shí)現(xiàn)該方法存在相應(yīng)困難。①源于開發(fā)平臺,人工成本高。雖然利用開發(fā)平臺構(gòu)建智能體,能夠?qū)崿F(xiàn)自動學(xué)習(xí)、智能尋優(yōu),改變傳統(tǒng)仿真方法效率低、時(shí)間長等缺點(diǎn),但編寫智能體專業(yè)性強(qiáng)、工作量大、不易實(shí)現(xiàn)。且對于軍事問題,由于戰(zhàn)場環(huán)境的開放性,任務(wù)想定總是處于動態(tài)變化之中,要為不同的想定設(shè)計(jì)不同的動作空間、狀態(tài)空間,編寫不同的訓(xùn)練環(huán)境,相當(dāng)于針對一個(gè)想定開發(fā)一個(gè)“游戲”,由此導(dǎo)致利用深度強(qiáng)化學(xué)習(xí)解決軍事問題仍需要較大人工成本。②源于計(jì)算平臺,計(jì)算開銷大。利用深度強(qiáng)化學(xué)習(xí)解決復(fù)雜問題需要高性能計(jì)算資源支持。例如,深度思維公司訓(xùn)練AlphaGo 圍棋智能體利用了多 達(dá)280 個(gè)GPU 和1 920 個(gè)CPU[29],訓(xùn) 練OpenAI Five 星際爭霸智能體利用了多達(dá)256 個(gè)GPU 和128 000 個(gè)CPU[30]。而2020 年中國超級計(jì)算排名第三的北京超級云計(jì)算中心也僅有192 000 個(gè)CPU,2018 年世界超級計(jì)算排名第一、2020 年排名第四的“太湖之光”安裝了40 960 個(gè)眾核處理器[31]。如此龐大的計(jì)算開銷,使得眾多普通的深度強(qiáng)化學(xué)習(xí)研究者望而卻步,限制了深度強(qiáng)化學(xué)習(xí)的軍事應(yīng)用。③源于仿真平臺,導(dǎo)致方法起點(diǎn)要求高。利用深度強(qiáng)化學(xué)習(xí)解決軍事問題,首先需要仿真平臺的支撐,沒有仿真平臺,方法也就無從構(gòu)建。因此,深度強(qiáng)化學(xué)習(xí)的軍事應(yīng)用在硬件支撐上要求更高、條件更嚴(yán)、實(shí)現(xiàn)更難。

        3.2.2 訓(xùn)練收斂之難

        應(yīng)用深度強(qiáng)化學(xué)習(xí)解決軍事問題雖具有可行性,但由于深度強(qiáng)化學(xué)習(xí)本身存在訓(xùn)練效率低、不穩(wěn)定等缺陷,使得探尋最優(yōu)策略需要漫長時(shí)間,且收斂存在偶然性。如深度思維公司即便擁有超強(qiáng)的計(jì)算資源,但訓(xùn)練OpenAI Five 星際爭霸智能體,也耗時(shí)長達(dá)10 個(gè)月。在實(shí)際軍事問題場景中,裝備實(shí)體數(shù)量大幅增加、問題復(fù)雜度成倍提高、時(shí)效性要求極其嚴(yán)苛,過長的訓(xùn)練時(shí)間直接導(dǎo)致方法不可用。另外,由于收斂的偶然性,訓(xùn)練開始并不能保證最終得到最優(yōu)結(jié)果,往往由于學(xué)習(xí)率過大或過小、網(wǎng)絡(luò)初始模型不適用、激活函數(shù)不合理、“探索—利用”沒有平衡好等因素而失敗。

        3.2.3 算法遷移之難

        由于深度強(qiáng)化學(xué)習(xí)具有過擬合、難解釋的本質(zhì)缺陷,利用深度強(qiáng)化學(xué)習(xí)解決軍事問題存在遷移困難。其遷移困難首先體現(xiàn)在不同想定之間難遷移。深度強(qiáng)化學(xué)習(xí)是基于環(huán)境的學(xué)習(xí)探索,為使智能體實(shí)現(xiàn)獎(jiǎng)勵(lì)最大化,可以盡量地?cái)M合環(huán)境要求。但若環(huán)境(或想定)稍做調(diào)整變化,經(jīng)過反復(fù)調(diào)試、精心訓(xùn)練,最終收斂得到的智能體就完全失效,須從頭開始、重新訓(xùn)練。可以說,基于深度強(qiáng)化學(xué)習(xí)訓(xùn)練的智能體雖然能夠解決某些問題,但只能機(jī)械地應(yīng)對,不能靈活地變化。面對多種想定情況,深度強(qiáng)化學(xué)習(xí)智能體不能舉一反三、觸類旁通、實(shí)現(xiàn)遷移。其遷移困難還體現(xiàn)在向現(xiàn)實(shí)環(huán)境遷移難。深度強(qiáng)化學(xué)習(xí)解決問題的性能非常優(yōu)異,但其只是給出方案“是什么”,至于“為什么”沒有任何信息,因而難以獲得軍事指揮員的理解、信任與采納,阻礙深度強(qiáng)化學(xué)習(xí)的軍事應(yīng)用。

        4 深度強(qiáng)化學(xué)習(xí)軍事應(yīng)用研究展望

        4.1 打造智能平臺

        打造仿真平臺是深度強(qiáng)化學(xué)習(xí)軍事應(yīng)用的基礎(chǔ)。當(dāng)前,雖有能夠利用深度強(qiáng)化學(xué)習(xí)的仿真平臺,但基于傳統(tǒng)仿真平臺實(shí)現(xiàn)深度強(qiáng)化學(xué)習(xí)軍事應(yīng)用的過程復(fù)雜,智能體的編寫需要耗費(fèi)大量精力。打造智能軍事仿真平臺,簡化智能體的構(gòu)造及訓(xùn)練過程,是未來研究的重要方向。一是通過標(biāo)準(zhǔn)化的方式,統(tǒng)一智能體的結(jié)構(gòu)。不同類型的智能體,功能要求不一樣,有的智能體用于識別目標(biāo)、有的智能體用于判斷風(fēng)險(xiǎn)、有的智能體用于作出決策等。對于不同的智能體,還可能有不同的設(shè)計(jì)方法和實(shí)現(xiàn)途徑。標(biāo)準(zhǔn)化的目的在于從概念形式上統(tǒng)一各種不同功能、不同技術(shù)途徑的智能體,為簡化智能體的構(gòu)建及部署奠定基礎(chǔ)。二是通過模塊化的方式,簡化智能體的構(gòu)建。集成模塊化的深度神經(jīng)網(wǎng)絡(luò),如卷積神經(jīng)網(wǎng)絡(luò)(CNN)、深度信念網(wǎng)絡(luò)(DBN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長短時(shí)記憶網(wǎng)絡(luò)(LSTM)等;集成模塊化的強(qiáng)化學(xué)習(xí)算法,如深度Q學(xué)習(xí)算法(DQN)、深度確定性策略梯度算法(DDPG)、近端策略優(yōu)化算法(PPO)、異步的基于優(yōu)勢函數(shù)的“行動器—評判器”算法(A3C)、信賴域策略優(yōu)化算法(TRPO)等;集成模塊化的狀態(tài)輸入與動作輸出。當(dāng)智能體的構(gòu)建、訓(xùn)練及部署較為容易簡便時(shí),就可以為每一個(gè)必要的模型賦予智能,從而完成認(rèn)知建模,使得模型“活”起來。如此,模型就可以更加真實(shí)地模擬真實(shí)情況,也可以更加便捷地進(jìn)行推演,而不需要每個(gè)決策都由參演人員臨時(shí)輸入、每個(gè)操作都由參演人員人工控制;在推演中有的席位可以直接由智能模型替代,甚至整個(gè)藍(lán)方都由智能體扮演,大大減少陪練人員,聚焦關(guān)鍵問題。傳統(tǒng)的計(jì)算機(jī)兵棋系統(tǒng)將發(fā)生本質(zhì)性改變,實(shí)現(xiàn)智能化的升級改造。

        4.2 構(gòu)建并行模式

        深度強(qiáng)化學(xué)習(xí)本身存在采樣效率低、訓(xùn)練時(shí)間長等不足,通過構(gòu)建分布式并行訓(xùn)練模式解決軍事問題,從而提高采樣效率、降低時(shí)間成本,值得進(jìn)一步研究探索。許多大規(guī)模分布式強(qiáng)化學(xué)習(xí)架構(gòu),如并行的基于優(yōu)勢函數(shù)的“行動器—評判器”架構(gòu)(Parallel Advantage Actor Critic,PAAC)、重要性加權(quán)的操作者—學(xué)習(xí)者架構(gòu)(Importance Weighted Actor-Learner Architecture,IMPALA)、去中心化的分布式近端策略優(yōu)化架構(gòu)(Decentralized Distributed Proximal Policy Optimization,DDPPO)等,能夠顯著改善單進(jìn)程的深度強(qiáng)化學(xué)習(xí)在解決大規(guī)模復(fù)雜問題時(shí)的性能不足。相關(guān)實(shí)驗(yàn)證明,采用分布式深度強(qiáng)化學(xué)習(xí)玩雅達(dá)利游戲,可以將原來需要幾十個(gè)小時(shí)甚至十幾天才能達(dá)到人類玩家水平的訓(xùn)練時(shí)間,縮短到幾個(gè)小時(shí)甚至幾分鐘。深度思維公司在分布式深度強(qiáng)化學(xué)習(xí)的啟發(fā)下,研究老鼠多巴胺細(xì)胞的生理機(jī)制,發(fā)現(xiàn)大腦中同樣存在分布式架構(gòu)[32],證明分布式深度強(qiáng)化學(xué)習(xí)比標(biāo)準(zhǔn)的深度強(qiáng)化學(xué)習(xí)更加類似于大腦機(jī)能,是正確的研究方向。為此,應(yīng)研究構(gòu)建基于分布式深度強(qiáng)化學(xué)習(xí)架構(gòu)的軍事應(yīng)用方法,探究在分布式深度強(qiáng)化學(xué)習(xí)架構(gòu)下仿真平臺及其接口的技術(shù)要求,分析部署分布式深度強(qiáng)化學(xué)習(xí)的硬件需求,評估基于分布式深度強(qiáng)化學(xué)習(xí)架構(gòu)的軍事應(yīng)用的優(yōu)勢,解決基于標(biāo)準(zhǔn)的深度強(qiáng)化學(xué)習(xí)軍事應(yīng)用存在效率低、時(shí)間長等不足。

        4.3 融合符號主義

        軍事問題十分復(fù)雜,簡單套用游戲中的深度強(qiáng)化學(xué)習(xí)算法,存在難解釋、效率低、過擬合、不穩(wěn)定等本質(zhì)缺陷,如何有效利用知識是深度強(qiáng)化學(xué)習(xí)軍事應(yīng)用研究的重要突破方向。近年來,深度強(qiáng)化學(xué)習(xí)誕生很多前沿研究方向,如分層深度強(qiáng)化學(xué)習(xí)、深度逆向強(qiáng)化學(xué)習(xí)、多任務(wù)遷移深度強(qiáng)化學(xué)習(xí)、多智能體深度強(qiáng)化學(xué)習(xí)、基于記憶與推理的深度強(qiáng)化學(xué)習(xí)等,其中很多研究方向都試圖把知識融進(jìn)深度強(qiáng)化學(xué)習(xí),以期實(shí)現(xiàn)符號主義、聯(lián)結(jié)主義、行為主義的結(jié)合。如分層深度強(qiáng)化學(xué)習(xí)的基本思想是將一個(gè)復(fù)雜問題分解為若干個(gè)容易解決的子問題,通過子問題的解決策略,得出整體問題的最優(yōu)策略。由于問題分解、劃分層次通常是由人工完成,這就需要特定領(lǐng)域的知識和技巧,以促進(jìn)更好的學(xué)習(xí)效果。深度逆向強(qiáng)化學(xué)習(xí)的基本思想是針對獎(jiǎng)勵(lì)函數(shù)難以獲得問題,通過專家示例反推得到獎(jiǎng)勵(lì)函數(shù),進(jìn)而利用獎(jiǎng)勵(lì)函數(shù)引導(dǎo)獲得最優(yōu)策略。由于逆向強(qiáng)化學(xué)習(xí)以專家示例為榜樣,同樣需要特定領(lǐng)域的知識。多任務(wù)遷移深度強(qiáng)化學(xué)習(xí)的基本思想是為解決傳統(tǒng)的深度強(qiáng)化學(xué)習(xí)只能應(yīng)對單一任務(wù)、單一環(huán)境,只要任務(wù)或者環(huán)境稍有變化,之前的學(xué)習(xí)結(jié)果就會失效,泛化性能差的問題,通過將知識從源任務(wù)遷移到目標(biāo)任務(wù),從而使得智能體更好適應(yīng)新的任務(wù)場景?;谟洃浥c推理的深度強(qiáng)化學(xué)習(xí)的基本思想是針對傳統(tǒng)的深度強(qiáng)化學(xué)習(xí)模型不具備記憶、認(rèn)知、推理等高層次能力的問題,加入外部記憶組件,使得智能體具有初步的主動認(rèn)知與推理能力,從而提高智能體性能。知識是人類認(rèn)識世界的成果,是“去偽存真,去粗存精”的總結(jié)凝練,是“透過現(xiàn)象看本質(zhì)”的規(guī)律把握,比起一般數(shù)據(jù)和信息更有價(jià)值。通過融入知識,實(shí)現(xiàn)符號主義、聯(lián)結(jié)主義、行為主義的貫通,智能體在性能上均有提升,為深度強(qiáng)化學(xué)習(xí)的軍事應(yīng)用提供了有益借鑒。

        5 結(jié)束語

        深度強(qiáng)化學(xué)習(xí)具有突出的決策規(guī)劃能力,是軍事智能化的關(guān)鍵技術(shù)基礎(chǔ),在軍事領(lǐng)域具有廣闊應(yīng)用前景。應(yīng)用深度強(qiáng)化學(xué)習(xí)解決軍事問題既有擺脫數(shù)據(jù)標(biāo)記、超越經(jīng)驗(yàn)知識、回避特征工程等技術(shù)優(yōu)勢,也有系統(tǒng)建構(gòu)、訓(xùn)練收斂、算法遷移等方面不足。應(yīng)進(jìn)一步加強(qiáng)深度強(qiáng)化學(xué)習(xí)軍事應(yīng)用研究,堅(jiān)持以軍事需求為牽引,以技術(shù)進(jìn)步為推動,努力將深度強(qiáng)化學(xué)習(xí)的突出性能轉(zhuǎn)化為軍事博弈的決策優(yōu)勢,為未來戰(zhàn)爭制勝“OODA”環(huán)奠定基礎(chǔ)。

        猜你喜歡
        深度智能
        深度理解一元一次方程
        智能制造 反思與期望
        深度觀察
        深度觀察
        深度觀察
        智能前沿
        文苑(2018年23期)2018-12-14 01:06:06
        智能前沿
        文苑(2018年19期)2018-11-09 01:30:14
        智能前沿
        文苑(2018年17期)2018-11-09 01:29:26
        智能前沿
        文苑(2018年21期)2018-11-09 01:22:32
        智能制造·AI未來
        商周刊(2018年18期)2018-09-21 09:14:46
        丰满人妻中文字幕乱码| 免费拍拍拍网站| 国产高潮国产高潮久久久| 欧美乱人伦中文字幕在线不卡| 亚洲熟女一区二区三区不卡| 午夜福利一区在线观看中文字幕| 精品丰满人妻无套内射| 日韩A∨精品久久久久| 男人的天堂av一二三区| 精品人妻69一区二区三区蜜桃| 亚洲日韩欧美一区、二区| 国产精品午睡沙发系列| 亚洲 美腿 欧美 偷拍| 成人性生交大全免费看| 亚欧色一区w666天堂| 91免费永久国产在线观看| 少妇被日到高潮的视频| 激情精品一区二区三区| 久久成人国产精品| 亚洲AV综合久久九九| 国产三级精品三级在专区中文| 日本亲近相奷中文字幕| 久久99精品国产99久久6尤物| 国产午夜激情视频自拍| 国产亚洲精品在线播放| 无码无套少妇毛多18pxxxx| 亚洲av成人综合网| 蜜桃av多人一区二区三区| 免费av日韩一区二区| а√资源新版在线天堂| 欧美亚洲国产人妖系列视 | 国产精品精品| 18禁成人免费av大片一区| 女人18片毛片60分钟| 欧美v亚洲v日韩v最新在线| 国产精品无码mv在线观看| 亚洲精品偷拍自综合网| 50岁退休熟女露脸高潮| 精品国产免费久久久久久| 日韩女优一区二区在线观看 | 国产成人一区二区三区影院|