亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Q-Learning的編隊防空目標分配方法研究

        2022-07-12 06:02:06李雙霖張修社韓春雷
        現(xiàn)代導(dǎo)航 2022年3期
        關(guān)鍵詞:分配動作模型

        李雙霖,李 琳,潘 浩,張修社,韓春雷

        基于Q-Learning的編隊防空目標分配方法研究

        李雙霖,李 琳,潘 浩,張修社,韓春雷

        (中國電子科技集團公司第二十研究所,西安 710068)

        研究了編隊防空目標分配問題,采用馬爾科夫決策模型描述了編隊防空動態(tài)目標分配過程,構(gòu)建了編隊防空目標分配強化學習系統(tǒng),描述了系統(tǒng)組成,給出了基于Q-Learning算法的模型求解方法,并對模型效果進行了仿真分析,證明了該模型的有效性。

        編隊防空;強化學習;Q-Learning

        0 引言

        隨著防空作戰(zhàn)逐步面向編隊化、協(xié)同化方向發(fā)展,使得作戰(zhàn)決策問題逐漸復(fù)雜化,如何應(yīng)對多平臺、多目標實時決策分配問題成為現(xiàn)代化戰(zhàn)爭對編隊防空作戰(zhàn)提出的新要求。傳統(tǒng)防空決策分配模型中存在大量規(guī)則性、經(jīng)驗性的描述,難以應(yīng)對日益復(fù)雜多變的作戰(zhàn)需求,本文嘗試借助人工智能技術(shù)通過離線學習模擬人類智能,利用在線計算實時進行編隊防空目標分配決策。

        1 過程描述

        傳統(tǒng)編隊防空目標分配模型只考慮了當前時刻的固定作戰(zhàn)態(tài)勢,屬于靜態(tài)分配問題,缺乏對作戰(zhàn)過程動態(tài)性的描述。

        本文建立的編隊防空目標分配模型屬于動態(tài)分配模型,其本質(zhì)是在任務(wù)目標狀態(tài)分析基礎(chǔ)上的序貫決策過程,決策主體在進行策略選擇時不但要顧及當前收益,也必須考慮當前所選擇的策略對長期造成的影響。編隊個平臺對個目標的動態(tài)分配過程如圖1所示。

        圖1 編隊防空動態(tài)目標分配過程示意圖

        編隊防空目標分配的結(jié)果就是將具備相應(yīng)任務(wù)能力的武器資源與對應(yīng)的打擊目標連接起來,可表示為三元組如式(2)所示:

        式中,為待打擊的目標;為執(zhí)行打擊任務(wù)的平臺;為任務(wù)開始執(zhí)行的時間。則編隊對個目標的分配結(jié)果可以看作是上述三元組的集合:

        目標分配的目標就是:求解一個合適的方案*,使得整體最終效能達到最優(yōu),即:

        2 馬爾科夫決策模型

        馬爾科夫決策(Markov Decision Process,MDP)是一種隨機過程,該模型能夠提供一種非常簡便的表達方式,對于解決序貫決策問題十分有效。

        MDP過程所研究的系統(tǒng)處在一個不斷動態(tài)變化的過程中,首先假設(shè)對于MDP過程的任一時刻t的狀態(tài)僅和前一時刻t-1的動作和狀態(tài)有關(guān),即該系統(tǒng)具有馬爾科夫性。MDP模型如圖2所示。

        圖2 馬爾科夫決策模型示意圖

        MDP模型通常可以用四元組[,,,]來表示,其具體含義如下:

        1)狀態(tài)空間(State Space):表示馬爾科夫決策過程中系統(tǒng)所有可能出現(xiàn)的狀態(tài)的集合,狀態(tài)的數(shù)量是不可知的,只要滿足非空條件即可,狀態(tài)空間是對系統(tǒng)的一種描述,能反應(yīng)其復(fù)雜度;

        2)行動空間(Action Apace):表示馬爾科夫決策過程中可以采取的行動集合,對于系統(tǒng)的某一狀態(tài)S∈,(S)代表決策者在該狀態(tài)下所有可能采取的行動;

        3)狀態(tài)轉(zhuǎn)移函數(shù)(Transition Probability Function):表示馬爾科夫決策過程中,選擇動作a使系統(tǒng)由一個狀態(tài)S轉(zhuǎn)換到另一個狀態(tài)S+1的概率,本質(zhì)上是系統(tǒng)狀態(tài)空間的概率分布,任意一個狀態(tài)所對應(yīng)的行動集合的狀態(tài)轉(zhuǎn)移概率之和應(yīng)為1;

        4)回報函數(shù)(Reward Function):表示馬爾科夫決策過程中選擇一個動作并執(zhí)行后所獲得的獎勵值。

        MDP問題的決策策略π可以看作是系統(tǒng)的狀態(tài)到智能體的動作的映射,該映射需要使智能體選擇的動作能夠產(chǎn)生最大的累積回報。

        MDP模型適合于描述編隊防空動態(tài)目標分配過程,把基于分配策略的收益作為目標函數(shù)來制定決策,建立目標分配最優(yōu)策略對到來的目標如何進行分配加以控制,使來襲目標群造成的總威脅降到最低,從而使系統(tǒng)長時間內(nèi)產(chǎn)生的總體收益達到最大。

        3 編隊防空目標分配強化學習模型

        3.1 系統(tǒng)組成

        強化學習是MDP框架下的一種機器學習方法,強化學習系統(tǒng)中的智能體由于缺少先驗知識,只能通過不斷地試探來學習,這樣智能體通過與環(huán)境持續(xù)不斷的交互,反饋調(diào)整下一次的策略選擇,最終達到目標。其算法的特點是對先驗知識要求較少,需要接受環(huán)境的反饋信息,并且這種反饋是以獎賞的形式給予的。

        利用強化學習模型構(gòu)建編隊防空目標分配智能決策系統(tǒng),如圖3所示。

        圖3 編隊防空目標分配智能決策系統(tǒng)組成示意圖

        3.2 模型構(gòu)建

        系統(tǒng)包括三個組成部分:一是態(tài)勢感知器,主要完成對環(huán)境的感知,獲取編隊各平臺的位置、武器狀態(tài)以及任務(wù)目標位置、狀態(tài)等信息,通過加工處理獲得系統(tǒng)當前狀態(tài)信息;二是學習系統(tǒng),根據(jù)狀態(tài)信息機獎勵信息,通過自主學習,完成任務(wù)決策;三是動作執(zhí)行器,根據(jù)學習系統(tǒng)期望輸出的動作,完成打擊任務(wù),并進行環(huán)境狀態(tài)更新。因此,編隊防空目標分配強化學習模型基本要素如下:

        1)狀態(tài)空間

        針對編隊防空目標分配問題,可以選取目標相對各平臺的距離、航路捷徑、抵達時間以及平臺武器對其毀傷概率作為系統(tǒng)狀態(tài)信息,用×4的矩陣表示,=[1,1,1,1;…;i,i,DtPh;…;D,M,DtPh],其中表示編隊平臺數(shù)。

        2)動作空間

        3)回報函數(shù)

        回報函數(shù)是指智能體在與環(huán)境的交互過程中,由感知的環(huán)境狀態(tài)(或狀態(tài)—動作)到強化信號的映射,是對動作執(zhí)行后的評價,用來指導(dǎo)今后的動作選擇。獎勵信息一般用一個標量來表示,如果得到正數(shù)表示得到環(huán)境的正回報,即獎勵;得到負數(shù)表示得到環(huán)境的負回報,即懲罰。

        在編隊防空目標分配強化學習系統(tǒng)中,可以用式(6)對每一次動作執(zhí)行的“好壞”進行評價:

        式中,max表示武器可攔截目標的最大航路捷徑。

        3.3 模型求解

        Q-Learning算法是強化學習中最實用的一種方法,它在迭代時采用狀態(tài)動作對的值(,)作為估計函數(shù),表示從狀態(tài)出發(fā)選擇動作所可能獲得的獎勵值,稱為值。在獲得正確的值后,在每個狀態(tài)選擇值最大的動作,就是當前最佳策略。Q-Learning算法的核心思想就是通過與環(huán)境的交互,迭代逼近真實的值,對于當前時刻,其更新公式如式(8)所示:

        式中,r+1是對動作執(zhí)行后的評價;()表示可行動作集;為折扣因子,取值范圍0~1,主要用于平衡長期回報和短期回報,其越接近1,則更多的是考慮長期回報,越接近0,則考慮的多為短期回報;為學習率,用于控制算法學習效率。

        Q-Learning算法給每個狀態(tài)動作對一個隨機的初始值,從初始狀態(tài)出發(fā),選擇值最大的動作,按照這個過程不斷的累積數(shù)據(jù)。每一組數(shù)據(jù)表示為一個五元組[s,as+1,r+1,],將每一組數(shù)據(jù)帶入值更新公式更新相應(yīng)的值,交替進行數(shù)據(jù)的積累和值的更新,直到值收斂,算法流程如圖4所示。

        圖4 Q-Learning算法流程圖

        4 仿真分析

        在四艘艦艇編隊下,設(shè)計來襲目標場景,采用Q-Learning算法,設(shè)置學習率=0.9,折扣因子=0.8,對上述編隊智能防空目標分配模型進行仿真分析。

        仿真想定如圖5所示,設(shè)置來襲目標數(shù)量為12批,目標分配決策結(jié)果如表1所示。

        圖5 仿真想定示意圖

        表1 目標分配決策結(jié)果

        根據(jù)目標分配結(jié)果可以看出,對于近距離低空導(dǎo)彈目標,系統(tǒng)選擇了前出的艦艇2、3進行抗擊,對于遠距離的飛機目標,系統(tǒng)選擇了攔截距離較遠的艦艇1、4進行抗擊,目標分配結(jié)果合理可行。

        分別設(shè)置不同的學習次數(shù),統(tǒng)計決策結(jié)果的正確率,對離線學習效果進行分析,結(jié)果如圖6所示。

        圖6 Q-Learning算法訓(xùn)練效果

        根據(jù)圖6的結(jié)果可以看出,通過增加訓(xùn)練次數(shù),可以有效提高系統(tǒng)目標分配能力。

        在不同目標批數(shù)的情況下,對比Q-Learning算法與遺傳算法(Genetic Algorithm,GA)(種群規(guī)模:100,迭代次數(shù):100)的決策時延,結(jié)果如圖7所示。

        圖7 決策時延對比圖

        可以看出,GA算法運行時延與問題解空間大小無關(guān),只與種群規(guī)模和迭代次數(shù)相關(guān);本文采用MDP模型,其問題求解時延與目標批數(shù)增加呈正相關(guān),同時Q-Learning算法可以利用學習機制,將累積知識經(jīng)驗形成表,從而根據(jù)當前狀態(tài)快速查表進行響應(yīng),其實質(zhì)是將復(fù)雜繁瑣的求解耗時通過離線學習的方式形成經(jīng)驗,進而實現(xiàn)在線快速求解。

        通過仿真,從決策結(jié)果正確性、模型訓(xùn)練效果和決策時延等方面驗證了本文構(gòu)建的編隊防空智能目標分配模型的有效性。

        5 結(jié)論

        隨著人工智能技術(shù)的不斷發(fā)展,其在軍事決策領(lǐng)域的應(yīng)用逐步成為近年來的研究熱點。但是由于現(xiàn)代戰(zhàn)爭是一個高度復(fù)雜的過程,存在大量的經(jīng)驗、規(guī)則及環(huán)境、政治等主客觀影響因素,且可用于訓(xùn)練的樣本數(shù)據(jù)極度匱乏,導(dǎo)致許多較為成熟的算法不能直接使用。如何將復(fù)雜的作戰(zhàn)問題簡單化,采取分而治之的思路去解決問題,同時通過逼真的仿真環(huán)境進行博弈對抗來累積作戰(zhàn)過程數(shù)據(jù),是未來人工智能在軍事領(lǐng)域應(yīng)用亟需思考的問題。

        [1] 陳軍,張新偉,張修社,等. 網(wǎng)絡(luò)化艦艇編隊的協(xié)同防空效能分析[J]. 光電與控制,2015,22(3):15-19.

        [2] 劉建偉,高峰,羅雄麟. 基于值函數(shù)和策略梯度的深度強化學習綜述[J]. 計算機學報,2019,42(6):1406-1438.

        [3] 謝俊潔,羅鵬程,穆富嶺,等. ABMS中基于Q學習算法的空戰(zhàn)目標分配方法[J]. 系統(tǒng)工程與電子技術(shù),2017,39(3):557-561.

        [4] 劉欽,韓春雷,張揚,等. 人工智能在對空指揮決策中的應(yīng)用[J]. 火控雷達技術(shù),2019,48(2):1-8.

        Research on Target Allocation Method of Formation Intelligent Air Defense Based on Q-Learning

        LI Shuanglin, LI Lin, PAN Hao, ZHANG Xiushe, HAN Chunlei

        The target assignment of formation air defense is studied, markov decision model is used to describe the dynamic target assignment process of formation air defense, the formation air defense target allocation reinforcement learning system is constructed, the system composition is described, the model solving method based on Q-Learning algorithm is given, and the model affect is simulated and analyzed, which proves the effectiveness of the model.

        Formation Air Defense; Reinforcement Learning; Q-Learning

        TN966

        A

        1674-7976-(2022)-03-207-05

        2022-03-09。

        李雙霖(1989.11—),山西運城人,碩士研究生,工程師,主要研究方向為協(xié)同作戰(zhàn)信息系統(tǒng)。

        國防科技基礎(chǔ)加強計劃資助

        猜你喜歡
        分配動作模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        應(yīng)答器THR和TFFR分配及SIL等級探討
        遺產(chǎn)的分配
        一種分配十分不均的財富
        績效考核分配的實踐與思考
        動作描寫要具體
        畫動作
        動作描寫不可少
        日日碰狠狠添天天爽超碰97| 日本少妇一区二区三区四区 | 国产精品一级av一区二区| 一区二区三区日本高清| 国产又色又爽无遮挡免费软件| 在线观看国产成人av片| 白白色发布在线播放国产| 日本国产精品高清在线| 综合偷自拍亚洲乱中文字幕| 国产美女自慰在线观看| 欧美人与禽交zozo| 国产三级在线观看不卡| 成人影院在线视频免费观看| a级毛片高清免费视频就| 久久久久欧洲AV成人无码国产| 18禁成人免费av大片一区| 亚洲美女av一区二区在线| 无码av天堂一区二区三区| 国产尻逼视频| 蜜桃视频网站在线免费观看| 青青草成人在线免费视频| 人人妻人人澡人人爽精品欧美| 亚洲黄色尤物视频| 自拍情爱视频在线观看| 国产精品天干天干| 99久久国产综合精品麻豆| 国产亚洲日韩AV在线播放不卡| 青青草好吊色在线观看| 国产成人无码精品久久二区三区| 二区三区视频| 日本精品久久中文字幕| 在线观看午夜视频一区二区| 欧美猛男军警gay自慰| 男人天堂av在线成人av| 亚洲捆绑女优一区二区三区| 人妻丰满熟妇无码区免费| 黄色资源在线观看| 国产一级一厂片内射视频播放| 国产无套中出学生姝| av片在线观看免费| 好看午夜一鲁一鲁一鲁|