亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度強(qiáng)化學(xué)習(xí)的多無人機(jī)空戰(zhàn)機(jī)動策略研究

        2024-07-07 00:00:00雷毅飛王露禾賀泊茗胡勁徐釗呂明偉徐港
        航空科學(xué)技術(shù) 2024年3期

        摘 要:面對敵方空中力量的來襲,具有自主協(xié)同、靈活機(jī)動能力的無人機(jī)是參與空中作戰(zhàn)的重要力量。面向多無人機(jī)協(xié)同高制勝率的對抗作戰(zhàn)任務(wù)需求,并根據(jù)空戰(zhàn)目標(biāo)數(shù)量劃分,重點(diǎn)對多無人機(jī)對單目標(biāo)協(xié)同空戰(zhàn)機(jī)動策略和多無人機(jī)對多目標(biāo)協(xié)同空戰(zhàn)機(jī)動策略展開研究。本文主要分析了空戰(zhàn)過程中的關(guān)鍵戰(zhàn)場要素,基于多機(jī)機(jī)動特性,建立無人機(jī)運(yùn)動模型。根據(jù)無人機(jī)火控特點(diǎn),分析無人機(jī)狀態(tài)變化規(guī)律,建立無人機(jī)對敵攻擊模型和動態(tài)對抗模型;針對多無人機(jī)對單目標(biāo)自主協(xié)同空戰(zhàn)問題,提出基于專家規(guī)則和強(qiáng)化學(xué)習(xí)相結(jié)合的多機(jī)自主機(jī)動策略。仿真結(jié)果表明,所提算法可以完成態(tài)勢實(shí)時變化的多機(jī)對單目標(biāo)空戰(zhàn)任務(wù)。在作戰(zhàn)雙方數(shù)量相同的前提下,若敵方不具備智能機(jī)動行為,我方制勝率為 100%;即使雙方采用相同的策略,如果我方數(shù)量多于敵方數(shù)量,我方仍有大的勝率,體現(xiàn)了協(xié)同策略的有效性。

        關(guān)鍵詞:空戰(zhàn)策略; 強(qiáng)化學(xué)習(xí); 自主機(jī)動; 多機(jī)協(xié)同; 態(tài)勢評估

        中圖分類號:V32 文獻(xiàn)標(biāo)識碼:A DOI:10.19452/j.issn1007-5453.2024.03.013

        基金項(xiàng)目: 國家自然科學(xué)基金(61803309);航空科學(xué)基金(2019ZA053008,20185553034);陜西省重點(diǎn)研發(fā)計劃項(xiàng)目(2020ZDLGY06-02);中國博士后科學(xué)基金(2018M633574)

        隨著作戰(zhàn)方式的進(jìn)步,作戰(zhàn)規(guī)模也在擴(kuò)大,導(dǎo)致人力資源成本不斷增加。減少人員傷亡是未來軍事行動的關(guān)鍵目標(biāo)之一,而“非接觸”作戰(zhàn)將成為實(shí)現(xiàn)該目標(biāo)的主要手段。無人機(jī)(UAV)具有成本低、機(jī)動性高、隱蔽性強(qiáng)和不需要飛行員實(shí)時控制等優(yōu)勢。這些優(yōu)勢使得無人機(jī)廣泛應(yīng)用于各個領(lǐng)域,并越來越廣泛地代替有人駕駛飛機(jī)用于執(zhí)行偵察[1]、監(jiān)控、目標(biāo)打擊[2-3]等軍事任務(wù),是“非接觸”作戰(zhàn)裝備的典型代表[4-5]。因?yàn)閱渭軣o人機(jī)執(zhí)行任務(wù)和作戰(zhàn)能力存在局限性,所以無人機(jī)的集群化和智能化作戰(zhàn)成為近年來的研究熱點(diǎn)。

        人工智能(AI)技術(shù)在軍事領(lǐng)域被廣泛應(yīng)用,在感知、理解、推理、判斷等環(huán)節(jié),敵我雙方都將投入大量資源進(jìn)行競爭。使用人機(jī)混合智能的優(yōu)勢可以使思考速度更快、預(yù)判更精確,并有效爭奪作戰(zhàn)的主控權(quán)。

        世界上以美、俄為首的軍事強(qiáng)國認(rèn)為,未來戰(zhàn)爭將更智能化,并且國家間的軍備競賽將變成智能化軍備競賽。人工智能技術(shù)是一項(xiàng)具有顛覆性影響的技術(shù),能夠改變作戰(zhàn)規(guī)則[6]。這些國家提前策劃并推出了各種政策和研究項(xiàng)目,以將人工智能技術(shù)的最新發(fā)展用于軍事領(lǐng)域。這些努力旨在為未來戰(zhàn)爭模式中的偵察、教育、訓(xùn)練、威脅評估、水雷戰(zhàn)、情報分析和指揮控制等方面提供引領(lǐng)性規(guī)劃,從而贏得智能化戰(zhàn)爭主動權(quán)[7]。美國通過海軍研究實(shí)驗(yàn)室(NRL)和國防預(yù)研局(DARPA)等機(jī)構(gòu)致力于研究多無人機(jī)集群的最新技術(shù),意在利用這項(xiàng)技術(shù)推進(jìn)軍事發(fā)展并確保國防實(shí)力領(lǐng)先于全球。俄羅斯正在大量投入資源,以確保與美國在人工智能相關(guān)的軍事應(yīng)用領(lǐng)域競爭的平衡,特別是在智能無人機(jī)技術(shù)方面。在此背景下,俄羅斯積極開展活動,以提高其軍事人工智能水平,特別是結(jié)合無人機(jī)、導(dǎo)彈等武器系統(tǒng),縮小差距并增強(qiáng)自身競爭力。我國無人機(jī)技術(shù)雖然起步較晚,但目前發(fā)展迅速,尤其是在智能多無人機(jī)技術(shù)方面取得了顯著進(jìn)展。沈林成團(tuán)隊(duì)是我國國內(nèi)較早開展多無人機(jī)自主控制的研究團(tuán)隊(duì),該團(tuán)隊(duì)認(rèn)為多無人機(jī)自主控制主要有兩種方法,分別為自上而下的分層遞階方法及自下至上的分布式自組織方法。一種主要研究集中式規(guī)劃算法解決無人機(jī)協(xié)同控制問題,另一種則研究個體對環(huán)境的動態(tài)反應(yīng)和行為規(guī)則的方法來進(jìn)行協(xié)調(diào)。對于分層遞階自主控制方法,該團(tuán)隊(duì)研究無人機(jī)自主控制的理論和方法,系統(tǒng)地覆蓋了各個階段,包括目標(biāo)狀態(tài)估計、協(xié)同任務(wù)分配、協(xié)同航跡規(guī)劃和編隊(duì)軌跡優(yōu)化等,并研究了該技術(shù)在實(shí)際中的典型應(yīng)用。符小衛(wèi)及其團(tuán)隊(duì)[8-9]使用威脅聯(lián)網(wǎng)數(shù)學(xué)模型,開發(fā)出了多個多無人機(jī)控制方案,如無人機(jī)突防軌跡在線規(guī)劃、無人機(jī)集群協(xié)同欺騙干擾控制等。黃長強(qiáng)等[10-13]全面地研究了多無人機(jī)協(xié)同技術(shù),遵循感知、評價、決策的過程,并重點(diǎn)研究了無人機(jī)集群的協(xié)同控制,其中包含多類型目標(biāo)的搜索和決策、多目標(biāo)任務(wù)分配、有人—無人戰(zhàn)術(shù)協(xié)同,以及協(xié)同攻擊技術(shù)等內(nèi)容。此外,還有其他大量研究人員對多無人機(jī)自主控制方法開展了研究,如王玥總結(jié)了微型無人機(jī)(MAV)協(xié)同控制策略中常用的優(yōu)化方法,并重點(diǎn)研究了與之有關(guān)的規(guī)劃方法以及評價方法。吳坤等[14]提出了一種基于混沌灰狼優(yōu)化和幾何規(guī)劃的離線航路規(guī)劃方法,用于協(xié)調(diào)多個無人機(jī)在飽和攻擊任務(wù)中的航線規(guī)劃。陳宇恒等[15]提出基于改進(jìn)貪心算法的無人機(jī)集群任務(wù)分配算法,優(yōu)化飛行時間和距離,驗(yàn)證了其在任務(wù)場景上的有效性。中國電子科技集團(tuán)有限公司(CETC)在2016年和2017年分別完成了67架和119架固定翼無人機(jī)集群飛行試驗(yàn),打破了無人機(jī)集群飛行數(shù)量的紀(jì)錄。試驗(yàn)成功演示了無人機(jī)集群智能起飛、集群自主飛行、感知與規(guī)避障礙等技術(shù)。

        綜上所述,基于多無人機(jī)作戰(zhàn)環(huán)境復(fù)雜、決策變量維度高、任務(wù)目標(biāo)多變、建模構(gòu)造困難等原因,人工控制方法難以滿足作戰(zhàn)的實(shí)時性要求。針對以上問題,本文分析空戰(zhàn)過程中的關(guān)鍵戰(zhàn)場要素,基于多機(jī)機(jī)動特性,建立無人機(jī)運(yùn)動模型。根據(jù)無人機(jī)火控特點(diǎn),分析無人機(jī)狀態(tài)變化規(guī)律,建立無人機(jī)對敵攻擊模型和動態(tài)對抗模型;針對多無人機(jī)對單目標(biāo)自主協(xié)同空戰(zhàn)問題,提出基于專家規(guī)則和強(qiáng)化學(xué)習(xí)相結(jié)合的多機(jī)自主機(jī)動策略。

        1 多無人機(jī)協(xié)同空戰(zhàn)數(shù)學(xué)建模

        1.1 無人機(jī)運(yùn)動學(xué)模型建立

        1.1.1 常用坐標(biāo)系及其轉(zhuǎn)換關(guān)系

        為了設(shè)計無人機(jī)的控制律并對作戰(zhàn)過程進(jìn)行數(shù)值仿真和試驗(yàn)驗(yàn)證,需要建立運(yùn)動方程來描述作戰(zhàn)過程中無人機(jī)與敵機(jī)的相對運(yùn)動。為此,下面給出本文用到的坐標(biāo)系以及坐標(biāo)系之間的轉(zhuǎn)換關(guān)系。

        由式(19)可知,當(dāng)敵機(jī)在無人機(jī)的攻擊半徑內(nèi),且滿足角度攻擊條件時,無人機(jī)對目標(biāo)可以做出攻擊,并且選擇角度優(yōu)勢最大的敵機(jī)作為攻擊目標(biāo)。

        3 仿真分析

        3.1 參數(shù)設(shè)置

        本文算法設(shè)計過程中所涉及的參數(shù)及數(shù)值見表2。在空戰(zhàn)仿真過程中,決策周期T設(shè)置為1s,一集包含600個決策步數(shù),如果滿足任意一方無人機(jī)全部戰(zhàn)損,則該輪訓(xùn)練結(jié)束。

        3.2 結(jié)果分析

        (1)神經(jīng)網(wǎng)絡(luò)訓(xùn)練結(jié)果

        圖5中從上到下的三種曲線分別展示的是w1為分段函數(shù),定值w1=20,正比于距離的連續(xù)函數(shù)三種情況下訓(xùn)練過程中平均獎勵的變化趨勢。獎勵越大說明空戰(zhàn)過程無人機(jī)的整體決策越優(yōu)。該圖的橫軸表示訓(xùn)練的步數(shù),縱軸表示的是平均獎勵變化。當(dāng)網(wǎng)絡(luò)收斂后,基于分段函數(shù)的強(qiáng)化學(xué)習(xí)算法的獎勵均值最高,說明學(xué)習(xí)效果最好。基于連續(xù)函數(shù)獎勵反饋的強(qiáng)化學(xué)習(xí)算法的平均獎勵為負(fù)值,說明無人機(jī)沒有學(xué)到自主對抗策略。

        (2)多機(jī)對單目標(biāo)空戰(zhàn)仿真驗(yàn)證

        如圖6(a)所示,我方無人機(jī)數(shù)量為4,多機(jī)自主機(jī)動到達(dá)終點(diǎn),該過程中每架無人機(jī)與目標(biāo)點(diǎn)的距離以及每架無人機(jī)與最鄰近無人機(jī)直接的距離如圖6(b)所示。無人機(jī)的位置和速度隨機(jī)初始化,可以看出多機(jī)在飛向目標(biāo)點(diǎn)的過程中也在相互靠近,因?yàn)橛蟹蛛x規(guī)則的約束,機(jī)間距離大于閾值5,機(jī)間防撞成立。因?yàn)闆]有進(jìn)行時間約束,故第一架無人機(jī)到達(dá)終點(diǎn)后,最后一架無人機(jī)距終點(diǎn)200個距離單位。

        同理,如圖7所示,目標(biāo)分別做直線運(yùn)動和曲線運(yùn)動,我方無人機(jī)隨機(jī)初始化位置和速度方向。直線追蹤場景中,我方每架無人機(jī)首先通過傳感器獲知友機(jī)的位置和速度信息,然后判斷是否需要進(jìn)行“分離”,可以看出無人機(jī)初始位置在符合巡航條件的情況下不斷探測敵機(jī)位置并向其靠近,敵我距離不斷縮小,機(jī)間最小距離如圖8所示,由于有“分離”策略的約束,機(jī)間距離大于閾值5,保證無人機(jī)不會發(fā)生碰撞;每架無人機(jī)的滯后角如圖8所示,可以看出無人機(jī)是從敵機(jī)后方對目標(biāo)發(fā)動進(jìn)攻的,最終無人機(jī)以16° 的角度偏差將目標(biāo)擊毀。同理,分析曲線追蹤的結(jié)果如圖9所示,多機(jī)從敵機(jī)前側(cè)進(jìn)行攔截,滯后角為鈍角,最終無人機(jī)以175°的角度偏差將目標(biāo)擊毀,機(jī)間最小距離也均大于閾值。該組試驗(yàn)證明,專家規(guī)則的設(shè)計是可行的。但是,因?yàn)闄C(jī)間沒有時間約束,所以無人機(jī)先后到達(dá)目標(biāo)點(diǎn)的差距較大。

        圖10展示的是兩架無人機(jī)對單目標(biāo)自由空戰(zhàn)的結(jié)果,我方勝利。作戰(zhàn)雙方都具備智能策略,但是我方無人機(jī)數(shù)量多于敵方。作戰(zhàn)開始,雙方距離較遠(yuǎn),在無人機(jī)探測范圍內(nèi)無法感知對方的狀態(tài),雙方根據(jù)巡航策略都向著對方基地靠近。然后在120s左右相遇,進(jìn)行空中纏斗??諔?zhàn)過程中,我方 UAV1在第 320s 被敵方擊落,隨后UAV0 在第330s戰(zhàn)勝敵方。圖11給出了100次仿真試驗(yàn)的試驗(yàn)結(jié)果。

        4 結(jié)束語

        本文圍繞多無人機(jī)對單目標(biāo)協(xié)同機(jī)動策略和多無人機(jī)對多目標(biāo)協(xié)同機(jī)動策略展開研究,主要結(jié)論如下:

        (1)針對多機(jī)空戰(zhàn)對抗場景,建立無人機(jī)的運(yùn)動控制模型,使用加速度作為無人機(jī)的控制律。根據(jù)無人機(jī)空戰(zhàn)任務(wù)需求,建立多機(jī)對單目標(biāo)的空戰(zhàn)任務(wù)模型。

        (2)針對多無人機(jī)空戰(zhàn)對抗任務(wù),提出基于專家規(guī)則和深度強(qiáng)化學(xué)習(xí)相結(jié)合的無人機(jī)機(jī)動策略,解決多無人機(jī)智能自主協(xié)同空戰(zhàn)難題。設(shè)計深度強(qiáng)化學(xué)習(xí)算法,在獎勵函數(shù)設(shè)計方面,創(chuàng)新性地使用基于比例因子自適應(yīng)調(diào)整的獎勵函數(shù)設(shè)計方法,解決了傳統(tǒng)強(qiáng)化學(xué)習(xí)方法獎勵稀疏且延遲帶來的弊端。最后結(jié)合專家知識,設(shè)計多機(jī)協(xié)同作戰(zhàn)規(guī)則,實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)自主機(jī)動算法在大規(guī)模高動態(tài)變化場景下的應(yīng)用。

        參考文獻(xiàn)

        [1]Sun Long, Chang Pei, Jiang Huanhuan, et al. Research on intelligent target recognition technology for integrated reconnaissance/strike UAV[C]. Global Intelligence Industry Conference (GIIC 2018), 2018: 282-288.

        [2]Nolin P C. Unmanned aerial vehicles: Opportunities and challenges for the alliance[R]. NATO Parliamentary Assembly, 2012.

        [3]羅德林,張海洋,謝榮增,等. 基于多 agent系統(tǒng)的大規(guī)模無人機(jī)集群對抗[J]. 控制理論與應(yīng)用,2015,32(11): 1498-1504. Luo Delin, Zhang Haiyang, Xie Rongzeng, et al. Large-scale unmanned aerial vehicle swarm confrontation based on multiagent system[J] Control Theory Applications, 2015, 32(11): 1498-1504.(in Chinese)

        [4]Li Yue, Qiu Xiaohui, Liu Xiaodong, et al. Deep reinforcement learning and its application in autonomous fitting optimization for attack areas of UCAVs[J]. Journal of Systems Engineering and Electronics, 2020, 31(4): 734-742.

        [5]Hu Dongyuan, Yang Rennong, Zuo Jialiang, et al. Application of deep reinforcement learning in maneuver planning of beyond-visual-range air combat[J]. IEEE Access, 2021, 9: 32282-32297.

        [6]Otto R P. Small unmanned aircraft systems (SUAS) flight plan: 2016-2036. Bridging the gap between tactical and strategic[R]. Political Science, 2016.

        [7]Theraulaz G, Bonabeau E. A brief history of stigmergy[J]. Artificial Life, 1999, 5(2): 97-116.

        [8]符小衛(wèi),高曉光. 一種無人機(jī)路徑規(guī)劃算法研究[J]. 系統(tǒng)仿真學(xué)報,2004,16(1): 20-21. Fu Xiaowei, Gao Xiaoguang. A study on unmanned aerial vehicle path planning algorithm[J]. Journal of System Simulation,2004, 16(1): 20-21.(in Chinese)

        [9]Xiao Qinkun, Gao Xiaoguang, Fu Xiaowei, et al. New local path replanning algorithm for unmanned combat air vehicle[C]. 2006 6th World Congress on Intelligent Control and Automa‐tion, 2006: 4033-4037.

        [10]Wang Yuan, He Lei, Huang Changqiang. Adaptive timevarying formation tracking control of unmanned aerial vehicles with quantized input[J]. ISA Transactions, 2019, 85: 76-83.

        [11]Zhang Hongpeng, Huang Changqiang. Maneuver decisionmaking of deep learning for UCAV thorough azimuth angles[J]. IEEE Access, 2020, 8: 12976-12987.

        [12]Han Bo, Huang Hanqiao, Lei Lei, et al. An improved IMM algorithm based on ST-SRCKF for maneuvering target tracking[J]. IEEE Access, 2019, 7: 57795-57804.

        [13]Huang hangqiang, Dong Kangsheng, Huang Hanqiao, et al. Autonomous air combat maneuver decision using bayesian inference and moving horizon optimization[J]. Journal of Systems Engineering and Electronics, 2018, 29(1): 86-97.

        [14]吳坤,池沛,王英勛.基于混沌灰狼優(yōu)化的多無人機(jī)協(xié)同航路規(guī)劃[J].航空科學(xué)技術(shù),2022,33(10):82-95. Wu Kun, Chi Pei, Wang Yingxun. Multi-UAV cooperative route planning based on chaotic grey wolf optimization[J]. Aeronautical Science Technology, 2022, 33(10): 82-95. (in Chinese)

        [15]陳宇恒,陳進(jìn)朝,陳雪聰.基于改進(jìn)貪心算法的無人機(jī)集群協(xié)同任務(wù)分配[J].航空科學(xué)技術(shù),2022,33(4):13-18. Chen Yuheng, Chen Jinzhao, Chen Xuecong. UAV swarm cooperative task assignment based on improved greedy algorithm[J]. Aeronautical Science Technology, 2022,33(4): 13-18.(in Chinese)

        [16]Andersen R A, Snyder L H, Li C S, et al. Coordinate transformations in the representation of spatial information[J]. Current Opinion in Neurobiology, 1993, 3(2): 171-176.

        [17]Fu Qiang, Fan Chengli, Song Yafei, et al. Alpha C2 an intelligent air defense commander independent of human decision-making[J]. IEEE Access, 2020, 8: 87504-87516.

        Research on Multi-UAV Air Combat Maneuver Strategy Based on Deep Reinforcement Learning

        Lei Yifei1, Wang Luhe1, He Boming1, Hu Jinwen1, Xu Zhao1, Lyu Mingwei2, Xu Gang2

        1. Northwestern Polytechnical University, Xi’an 710129,China

        2. AVIC Shenyang Aircraft Design and Research Institute, Shenyang 110034,China

        Abstract: In face of the incoming attack of enemy air power, UAVs with autonomous coordination and flexible maneuvering capability are an important force to participate in air combat. Facing the demand of confrontation combat mission with high winning rate of multi-UAV coordination, and based on the number of air combat targets, we focus on the research of multi-UAV to single-target coordinated air combat maneuver strategy and multi-UAV to multi-target coordinated air combat maneuver strategy. This paper mainly analyzes the key battlefield elements in the process of air combat, and establishes the UAV motion model based on the characteristics of multi-machine maneuver. According to the fire control characteristics of UAV, analyze the change rule of UAV state, establish UAV attack model and dynamic confrontation model against the enemy; for the problem of multi-UAV to single-target autonomous coordinated aerial combat, put forward multi-autonomous maneuver strategy based on the combination of expert rules and reinforcement learning. The simulation results show that the proposed algorithm can accomplish the task of multiaircraft aerial combat against single target with real-time change of situation. Under the premise of the same number of combatants, if the enemy does not have intelligent maneuvering behavior, our victory rate is 100%. Even if both sides use the same strategy, if our number is more than the enemy, we still have a large victory rate. This demonstrates the effectiveness of the coordinated strategy.

        Key Words: air combat strategy; reinforcement learning; autonomous mobility; multiple machine collaboration; situation assessment

        精品综合一区二区三区| 国产精品久久这里只有精品| 久久精品网站免费观看| 亚洲中文字幕日韩综合| 日本无码欧美一区精品久久| 少妇高潮惨叫久久久久久| 久久亚洲精彩无码天堂 | 精品一区二区三区四区国产| 国内露脸少妇精品视频| 亚洲七七久久综合桃花| 国产大全一区二区三区| 色佬精品免费在线视频| 亚洲人成网址在线播放| 午夜亚洲国产理论片亚洲2020 | 国产精品视频白浆免费视频| 日本最新免费二区三区| 精品午夜福利1000在线观看| 蜜桃视频免费在线视频| 成人大片免费视频播放一级| 久久综合九色综合97欧美| 国产精品自在线免费| 国产目拍亚洲精品二区| 97人妻人人揉人人躁九色| 东京热加勒比无码少妇| 精品无吗国产一区二区三区av| 国产免费人成视频在线观看播放播 | 少妇人妻偷人精品视蜜桃| 亚洲av午夜成人片精品| 久久亚洲中文字幕精品二区| 欧美日韩精品久久久免费观看| 午夜一级韩国欧美日本国产| 亚洲色图在线视频观看 | 亚洲av美国av产亚洲av图片| 亚洲精品456| 亚洲精品色播一区二区| 亚洲日韩小电影在线观看| 亚洲另类精品无码专区| 日本一区二区视频免费观看| 国产农村妇女精品一区| a级毛片100部免费看| 国产精品98福利小视频|