亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        復(fù)雜環(huán)境下的飛行器在線航路規(guī)劃決策方法

        2024-11-27 00:00:00楊志鵬陳子浩曾長林松毛金娣張凱
        關(guān)鍵詞:規(guī)劃環(huán)境模型

        摘 要:

        針對飛行器在線航路規(guī)劃問題,提出一種基于深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning, DRL)的飛行器在線自主決策方法。首先對飛行器運(yùn)動模型、探測模型進(jìn)行了說明,然后采用DRL深度確定性策略梯度(deep deterministic policy gradient, DDPG)算法,對飛行器飛行控制策略模型框架進(jìn)行了構(gòu)建。在此基礎(chǔ)上,提出了一種基于課程學(xué)習(xí)(curriculum learning, CL)的CL-DDPG算法,將在線航路規(guī)劃任務(wù)進(jìn)行分解,引導(dǎo)飛行器進(jìn)行目標(biāo)靠近、威脅規(guī)避、航路尋優(yōu)策略學(xué)習(xí),并設(shè)置相應(yīng)的高斯噪聲幫助飛行器對策略進(jìn)行探索和優(yōu)化,實(shí)現(xiàn)了復(fù)雜場景下的飛行器自適應(yīng)學(xué)習(xí)和決策控制。仿真實(shí)驗(yàn)證明,CL-DDPG算法能夠有效提升模型的訓(xùn)練效率,算法模型任務(wù)成功率更高,具有優(yōu)秀的泛化性和魯棒性,能夠更好地應(yīng)用于復(fù)雜動態(tài)環(huán)境下的在線航路規(guī)劃任務(wù)中。

        關(guān)鍵詞:

        在線航路規(guī)劃; 深度強(qiáng)化學(xué)習(xí); 自主決策; 課程學(xué)習(xí); 威脅規(guī)避

        中圖分類號:

        TJ 765

        文獻(xiàn)標(biāo)志碼: A""" DOI:10.12305/j.issn.1001-506X.2024.09.28

        Online route planning decision-making method of aircraft" in

        complex environment

        YANG Zhipeng, CHEN Zihao, ZENG Chang, LIN Song*, MAO Jindi, ZHANG Kai

        (System Design Institute of Hubei Aerospace Technology Academy, Wuhan 430040, China)

        Abstract:

        Aiming at the problem of online route planning for aircraft, an online autonomous decision-making method for aircraft based on deep reinforcement learning (DRL) is proposed. Firstly, the maneuvering model and detection model of the aircraft are explained, and then the deep deterministic policy gradient (DDPG) algorithm of DRL is employed to construct the frame of the aircraft policy model. On this basis, a curriculum learning (CL)-DDPG algorithm based on CL is proposed, which decomposes the online route planning task, guides the aircraft to learn the strategies of target approach, threat avoidance, and air route optimization. The corresponding Gaussian noises are set to help the aircraft explore and optimize the strategy. And, the adaptive learning and decision-making control of the aircraft in complex scenarios are realized. Simulation experiments show that the CL-DDPG algorithm can effectively improve the training efficiency of the model. The algorithm model has higher task success rate, excellent generalization and robustness, and can be better applied to online route planning tasks in complex dynamic environments.

        Keywords:

        online route planning; deep reinforcement learning (DRL); autonomous decision-making; curriculum learning; threat avoidance

        0 引 言

        飛行器航路規(guī)劃是指為飛行器規(guī)劃出滿足任務(wù)需求、飛行器自身特性、外界環(huán)境約束等因素的航路,屬于飛行器任務(wù)規(guī)劃系統(tǒng)中的關(guān)鍵一環(huán)[1-3]。考慮到在執(zhí)行射前航路規(guī)劃任務(wù)時,需關(guān)注飛行器禁避飛區(qū)、殘骸落區(qū)、景象匹配等環(huán)境約束,飛行器航路計(jì)算和規(guī)劃效率面臨巨大的挑戰(zhàn)[4-5]。與此同時,隨著空天防御、電子對抗等技術(shù)的發(fā)展,飛行器在復(fù)雜動態(tài)的戰(zhàn)場環(huán)境中面臨各種先進(jìn)火力打擊、電磁干擾等壓制措施,其射前規(guī)劃的航跡成果可能無法滿足實(shí)時戰(zhàn)場環(huán)境約束,大大影響飛行任務(wù)的執(zhí)行效率[6-8]。因此,針對復(fù)雜多約束場景,提出一種飛行器在線自主航路規(guī)劃方法,提升飛行器臨機(jī)決策能力,具有重要意義。

        近年來,學(xué)者將經(jīng)典A*[9]、蟻群算法[10]、快速搜索隨機(jī)樹[11]等路徑規(guī)劃方法用于飛行器航路規(guī)劃研究中,取得了一定的成果。文獻(xiàn)[12]提出一種動態(tài)引導(dǎo)A*算法,引入動態(tài)變化引導(dǎo)點(diǎn)和引導(dǎo)策略,對飛行器航跡規(guī)劃效率進(jìn)行了優(yōu)化。文獻(xiàn)[13]設(shè)計(jì)一種基于改進(jìn)蟻群算法的無人飛行器路徑規(guī)劃方法,在初始信息素矩陣基礎(chǔ)上,結(jié)合視場機(jī)制和逃出策略對搜索策略進(jìn)行了優(yōu)化,然后利用logistic混沌模型對全局信息素更新方式進(jìn)行了改進(jìn),最終在二維柵格地圖中完成仿真驗(yàn)證了算法的有效性。這些方法在解決簡單靜態(tài)環(huán)境下的航路規(guī)劃問題,具有較高效率。當(dāng)飛行場景復(fù)雜動態(tài)變化時,需實(shí)時對環(huán)境進(jìn)行建模解算并處理海量數(shù)據(jù),算法難以收斂,大大影響飛行器航路規(guī)劃效率。

        隨著人工智能技術(shù)的發(fā)展,深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning, DRL)以其出色的環(huán)境感知能力和自主決策能力在智能體自主導(dǎo)航和路徑規(guī)劃研究中備受關(guān)注[14-17]。在DRL中,智能體利用神經(jīng)網(wǎng)絡(luò)感知環(huán)境并執(zhí)行動作。進(jìn)而獲得獎勵或懲罰反饋。通過不斷與環(huán)境交互和自適應(yīng)學(xué)習(xí),最終實(shí)現(xiàn)狀態(tài)輸入到動作輸出的有效映射。文獻(xiàn)[18]利用DRL方法對視覺感知和運(yùn)動控制進(jìn)行端對端聯(lián)合訓(xùn)練,實(shí)現(xiàn)機(jī)器人物品運(yùn)輸任務(wù)中的自主路徑規(guī)劃。文獻(xiàn)[19]通過構(gòu)建目標(biāo)驅(qū)動的馬爾可夫決策模型,解決DRL算法需要針對不同導(dǎo)航目標(biāo)重新學(xué)習(xí)策略的問題;同時,針對性地設(shè)計(jì)非稀疏獎勵函數(shù)實(shí)現(xiàn)無人飛行器的自主航路規(guī)劃和避障導(dǎo)航。文獻(xiàn)[20]構(gòu)建基于魯棒化深度確定性策略梯度(robust deep deterministic policy gradient, Robust-DDPG)算法的部分觀測馬爾可夫決策模型,用于引導(dǎo)無人飛行器在有限環(huán)境中進(jìn)行局部障礙感知和規(guī)避,并通過仿真實(shí)驗(yàn)驗(yàn)證了方法的有效性。

        盡管DRL算法在航路規(guī)劃領(lǐng)域取得了一定的成果。然而,現(xiàn)有的研究存在如:模型過于簡化、目標(biāo)點(diǎn)位置單一、環(huán)境威脅區(qū)域固定等問題,任務(wù)場景較為簡單,難以滿足復(fù)雜動態(tài)多約束戰(zhàn)場環(huán)境下的飛行器在線航路規(guī)劃需求[21-23]。考慮到飛行器在執(zhí)行任務(wù)時,需關(guān)注航跡有效性、飛行安全性、飛行效率等多項(xiàng)飛行器很難在有限的訓(xùn)練時間內(nèi)完成系統(tǒng)性的任務(wù)學(xué)習(xí)。因此,面對復(fù)雜多約束的戰(zhàn)場環(huán)境,引導(dǎo)智能體進(jìn)行高效學(xué)習(xí),實(shí)現(xiàn)飛行器自主威脅感知規(guī)避和在線航路規(guī)劃決策,具有重要意義。

        本文所進(jìn)行的在線航路規(guī)劃研究代表了DRL在飛行器決策控制領(lǐng)域中的潛在應(yīng)用之一。具體地,通過設(shè)計(jì)飛行器運(yùn)動模型和探測模型,完成飛行器模型構(gòu)建;引入深度確定性策略梯度(deep deterministic policy gradient, DDPG)方法,根據(jù)飛行器飛行特性和姿態(tài)控制要求構(gòu)建部分可觀測馬爾可夫決策模型,并針對飛行任務(wù)完成獎勵函數(shù)設(shè)計(jì);在此基礎(chǔ)上,提出一種課程學(xué)習(xí)(curriculum learning CL-DDPG)方法,將飛行器飛行任務(wù)分解為目標(biāo)靠近、威脅規(guī)避、航路尋優(yōu)3個子任務(wù),用以引導(dǎo)飛行器通過CL完成復(fù)雜場景下的在線航路規(guī)劃預(yù)學(xué)習(xí),有效提升訓(xùn)練效率和模型泛化性能。最后,結(jié)合仿真結(jié)果,驗(yàn)證了CL-DDPG算法對飛行器在線航路規(guī)劃的有效控制。

        1 飛行器模型

        1.1 飛行器運(yùn)動模型

        飛行器通過配備動態(tài)三維信息處理、航姿參考系統(tǒng)和全球定位/慣性導(dǎo)航系統(tǒng)(global positioning system-inertial navigation system, GPS-INS)慣性導(dǎo)航等設(shè)備,能夠?qū)崿F(xiàn)精確導(dǎo)航定位和定高飛行[24]。為重點(diǎn)關(guān)注本研究中航路規(guī)劃和在線決策問題,對飛行器機(jī)動模型進(jìn)行簡化,即假設(shè)飛行器保持定高巡航飛行,而不考慮飛行器起飛、著落中的俯仰姿態(tài)變化和飛行過程中的滾轉(zhuǎn)運(yùn)動。本文在東北天坐標(biāo)系中,構(gòu)建了四自由度飛行器運(yùn)動模型,如圖1所示。

        4 仿真實(shí)驗(yàn)

        4.1 仿真環(huán)境

        本章節(jié)的仿真實(shí)驗(yàn)在Windows 10、Python 3.6、Tensorflow 1.14.0環(huán)境下,基于tkinter平臺對飛行器在線航路規(guī)劃模型進(jìn)行了設(shè)計(jì)和訓(xùn)練。任務(wù)場景為100 km×80 km的二維有限區(qū)域,如圖4所示。

        其中,紅色點(diǎn)表示飛行器初始位置,藍(lán)色點(diǎn)表示目標(biāo)點(diǎn)位置,深色黑色為威脅區(qū)域,紅色扇形包絡(luò)表示飛行器探測區(qū)域。具體地,設(shè)定任務(wù)仿真步長Δt為1 s。訓(xùn)練過程中,設(shè)定任務(wù)中飛行器初始位置為環(huán)境左上角隨機(jī)生成,其中x0∈[5,15],y0∈[5,15]。目標(biāo)位置在xtarget∈[85,95], ytarget∈[65,75]區(qū)域隨機(jī)生成,單位為km。設(shè)定飛行器初始航向?yàn)槟繕?biāo)朝向。

        本研究分別在3個子任務(wù)場景中進(jìn)行預(yù)訓(xùn)練,再在威脅區(qū)數(shù)量、位置隨機(jī)的未知場景中進(jìn)行少量訓(xùn)練。在目標(biāo)靠近子任務(wù)中,設(shè)置障礙物數(shù)量為0;在威脅規(guī)避子任務(wù)中,設(shè)置威脅區(qū)數(shù)量為3,半徑為10 km,且兩兩威脅區(qū)邊界間距大于15 km;在航路尋優(yōu)子任務(wù)中,設(shè)置威脅區(qū)域?yàn)?組,每組兩個,共6個,半徑為10 km,每組內(nèi)兩個威脅區(qū)邊界間距小于5 km,其他參數(shù)如表1所示。

        在基于CL-DDPG的在線航路規(guī)劃決策模型中,分別構(gòu)建17×128×64×2、19×128×64×1結(jié)構(gòu)的全連接型動作神經(jīng)網(wǎng)絡(luò)和評價神經(jīng)網(wǎng)絡(luò)。在每一訓(xùn)練回合中,當(dāng)飛行器完成任務(wù)、發(fā)生碰撞或回合內(nèi)仿真步數(shù)達(dá)到最大步數(shù)時,視為該輪訓(xùn)練結(jié)束,環(huán)境重置并進(jìn)入新一輪訓(xùn)練。當(dāng)經(jīng)驗(yàn)回放隊(duì)列充滿數(shù)據(jù)時,神經(jīng)網(wǎng)絡(luò)模型將基于Adam-Optimizer算法進(jìn)行更新。初始化動作網(wǎng)絡(luò)學(xué)習(xí)率和價值網(wǎng)絡(luò)學(xué)習(xí)率分別為0.01、0.02,設(shè)定其以每回合0.99的衰減率衰減至0.000 1時停止衰減。詳細(xì)模型參數(shù)如表2所示。

        在基于傳統(tǒng)DDPG算法學(xué)習(xí)下的飛行器航路規(guī)劃模擬訓(xùn)練中,大約1 000回合后,飛行器獎勵函數(shù)才開始緩慢上升并逐漸收斂至穩(wěn)定。因此,設(shè)定子課程1、2、3預(yù)訓(xùn)練回合數(shù)分別為200、300、500,通過子CL的方式,將前1 000回合進(jìn)行子課程劃分。此外,針對CL預(yù)訓(xùn)練,分別設(shè)定各子CL中的高斯噪聲方差和衰減系數(shù),如表3所示。當(dāng)完成預(yù)訓(xùn)練后,訓(xùn)練場景更新為威脅區(qū)數(shù)量、位置隨機(jī)的復(fù)雜未知場景,此時不再采用高斯噪聲對動作進(jìn)行處理,訓(xùn)練進(jìn)行至最大訓(xùn)練回合后結(jié)束。

        4.2 實(shí)驗(yàn)結(jié)果與分析

        基于上述實(shí)驗(yàn)場景和參數(shù)設(shè)定,分別基于CL-DDPG和DDPG算法對飛行器在線航路規(guī)劃模型進(jìn)行訓(xùn)練,并收集飛行器學(xué)習(xí)獎勵如圖5所示。

        圖5中橫坐標(biāo)為訓(xùn)練回合數(shù),縱坐標(biāo)為每回合內(nèi)飛行器獲得的獎勵值??梢钥闯?,在開始訓(xùn)練階段,兩種算法所得到的回合獎勵很少。隨著飛行器與環(huán)境交互不斷學(xué)習(xí),回合獎勵曲線逐漸上升。訓(xùn)練至423回合左右時,CL-DDPG曲線開始上升,雖然中間存在一定波動,但在1 054回合時上升至265左右獎勵值,并收斂至穩(wěn)定。而DDPG算法下,獎勵函數(shù)曲線在1 100回合左右才出現(xiàn)明顯上升狀態(tài),最終上升至1 510回合后收斂至穩(wěn)定狀態(tài)。對比可以得出,本文提出的CL-DDPG算法相較DDPG算法在總訓(xùn)練過程中收斂速度更快,并且在收斂后所獲取的獎勵波動幅度更小,這意味著CL-DDPG算法有效提升了訓(xùn)練效率,具有更穩(wěn)定的性能優(yōu)勢。

        測試過程中,保持飛行器發(fā)射點(diǎn)和目標(biāo)點(diǎn)位置不變,分別統(tǒng)計(jì)100次測試回合下兩種算法在不同威脅區(qū)數(shù)量下的任務(wù)成功率,如圖6所示。

        可以看出,經(jīng)自適應(yīng)學(xué)習(xí)的兩種算法模型都可以有效完成在線航路規(guī)劃任務(wù)。隨著環(huán)境的逐漸復(fù)雜化,DDPG模型成功率明顯下降,當(dāng)障礙物數(shù)量為20時,顯著下降至61%,而CL-DDPG算法模型仍可以穩(wěn)定至80%,具有較高的成功率,更能滿足復(fù)雜環(huán)境下飛行器飛行任務(wù)需求。

        為了滿足飛行器發(fā)射區(qū)、目標(biāo)點(diǎn)可變的任務(wù)規(guī)劃需求,本文對仿真任務(wù)場景進(jìn)行了改變,設(shè)定飛行器發(fā)射點(diǎn)、目標(biāo)點(diǎn)位置隨機(jī)生成,設(shè)定起始航向隨機(jī)生成,部分測試結(jié)果如圖7所示。可以看出,隨著飛行器起始點(diǎn)和目標(biāo)點(diǎn)的改變,飛行器依然可以規(guī)劃出有效路徑,實(shí)現(xiàn)對目標(biāo)區(qū)域的規(guī)避,有效完成在線航路規(guī)劃任務(wù)。其中,航路沒有明顯冒險、繞飛等行為,能夠滿足真實(shí)任務(wù)場景需求,體現(xiàn)了模型很好的通用性能。

        為了驗(yàn)證模型在復(fù)雜動態(tài)場景下的表現(xiàn),本文將測試環(huán)境中威脅區(qū)數(shù)量添加至20,并設(shè)定部分威脅區(qū)能隨機(jī)移動,以模擬敵方機(jī)動攔截威脅區(qū)域,測試如圖8所示,其中淺黑色區(qū)域?yàn)橐苿油{區(qū)。

        可以看到,隨著測試開始,飛行器持續(xù)向目標(biāo)進(jìn)行機(jī)動規(guī)劃,并在圖8(a)所示處躲避完第一個威脅區(qū)后重新將航向調(diào)整為目標(biāo)方向。隨著飛行任務(wù)推移,飛行器持續(xù)有效進(jìn)行自主規(guī)避決策,并在196 s時完成了對移動威脅區(qū)的規(guī)避,這體現(xiàn)了算法有效的泛化性,能夠應(yīng)用于復(fù)雜動態(tài)任務(wù)場景中。在307 s時,飛行器從兩個威脅區(qū)域之間尋優(yōu)穿過,這體現(xiàn)了經(jīng)過課程學(xué)習(xí)和預(yù)訓(xùn)練的飛行器,能夠?qū)?yōu)到較優(yōu)航路解,以滿足任務(wù)要求。最終,在仿真進(jìn)行至389 s時,飛行器有效完成了在線航路規(guī)劃任務(wù)。此外,為了分析飛行器在線航路規(guī)劃具體過程,對該次測試下的飛行速度、與目標(biāo)距離、航向偏差角進(jìn)行收集展示,如圖9所示。可以看出,任務(wù)開始后,飛行器快速加速至最高速度300 m/s并持續(xù)向目標(biāo)點(diǎn)飛行,與目標(biāo)點(diǎn)距離逐漸減小。盡管在任務(wù)過程中,出現(xiàn)了一些轉(zhuǎn)彎、規(guī)避等行為,但飛行器能夠很好地保持自身姿態(tài),且飛行航向與目標(biāo)方向偏差角持續(xù)保持在±40°之間,體現(xiàn)了算法在復(fù)雜動態(tài)環(huán)境中的良好穩(wěn)定性。復(fù)雜動態(tài)未知場景下的飛行器在線路徑規(guī)劃模型泛化性測試如圖10所示。在復(fù)雜環(huán)境下,當(dāng)發(fā)射點(diǎn)、目標(biāo)點(diǎn)隨機(jī)指定時,飛行器都能夠很好地完成在線航路規(guī)劃決策。在此基礎(chǔ)上,當(dāng)環(huán)境中的威脅區(qū)隨機(jī)生成、位置隨機(jī)動態(tài)改變時,飛行器都表現(xiàn)出了優(yōu)秀的臨機(jī)決策能力,能夠完成有效威脅評估和自主規(guī)避,體現(xiàn)了算法良好的泛化性能。

        圖11記錄統(tǒng)計(jì)了100個復(fù)雜動態(tài)場景中,飛行器在線航路規(guī)劃決策的成功率表現(xiàn)。該測試場景中,發(fā)射點(diǎn)、目標(biāo)點(diǎn)隨機(jī)生成,且初始距離大于50 km,環(huán)境中威脅區(qū)總數(shù)量設(shè)置為15保持不變。圖11中,橫坐標(biāo)表示為可移動障礙物數(shù)量占比,縱坐標(biāo)表示任務(wù)成功率。

        可以看出,相比于DDPG算法,CL-DDPG算法模型成功率明顯更高。當(dāng)可移動威脅區(qū)占比提高時,CL-DDPG算法模型始終表現(xiàn)出更好的任務(wù)完成率,在可移動威脅區(qū)數(shù)量占比60%時依然保持76%成功率,明顯高于DDPG算法模型61%的成功率。這意味著經(jīng)過CL預(yù)訓(xùn)練的飛行器,在復(fù)雜動態(tài)未知場景下在線航路規(guī)劃決策的成功率更高,模型魯棒性更好。

        同時,表4記錄了圖11測試過程中所有成功回合的仿真時間數(shù)據(jù)??梢钥闯觯唵螆鼍跋?,兩種算法下飛行器航路規(guī)劃總時間無明顯差異,隨著環(huán)境中可移動的威脅區(qū)數(shù)量增多,CL-DDPG算法下飛行器航路規(guī)劃模型展現(xiàn)了更好的適應(yīng)性,飛行器能夠以較短時間完成在線航路規(guī)劃任務(wù)。這體現(xiàn)了經(jīng)過目標(biāo)靠近、威脅規(guī)避、航路尋優(yōu)的課程學(xué)習(xí)后,飛行器能夠在航路規(guī)劃任務(wù)中制定更為合理的策略,使得飛行器能夠在更短時間內(nèi)到達(dá)目標(biāo)點(diǎn),提升了任務(wù)完成效率。

        5 結(jié)束語

        本文對復(fù)雜環(huán)境下的飛行器航路規(guī)劃問題展開研究,提出一種DRL在線決策方法。針對DRL算法的訓(xùn)練速率低、泛化性差等問題,提出一種CL預(yù)訓(xùn)練方法,將飛行器在線規(guī)劃任務(wù)分解為目標(biāo)靠近、威脅規(guī)避、航路尋優(yōu)3個子課程,并引導(dǎo)飛行器智能體進(jìn)行策略探索和學(xué)習(xí)。仿真結(jié)果表明,提出的一種基于CL-DDPG的飛行器在線航路規(guī)劃決策方法,訓(xùn)練速率快,在復(fù)雜動態(tài)未知場景中表現(xiàn)出了更好的泛化性和魯棒性,具有一定應(yīng)用價值。未來的工作將構(gòu)建更為精確的飛控模型,以支持飛行器六自由度飛行,推動算法模型在真實(shí)的任務(wù)場景中進(jìn)行優(yōu)化部署。

        參考文獻(xiàn)

        [1] GUI X H, ZHANG J F, PENG Z H. Trajectory clustering for arrival aircraft via new trajectory representation[J]. Journal of Systems Engineering and Electronics, 2021, 32(2): 473-486.

        [2] NIKLAS G, TOBIAS B, DIRK N. Deep reinforcement learning with combinatorial actions spaces: an application to prescriptive maintenance[J]. Computers amp; Industrial Engineering, 2023, 179(1): 109165.

        [3] WANG X Y, YANG Y P, WANG D, et al. Mission-oriented cooperative 3D path planning for modular solar-powered aircraft with energy optimization[J]. Chinese Journal of Aeronautics, 2022, 35(1): 98-109.

        [4] LI B, YANG Z P, CHEN D Q, et al. Maneuvering target tracking of UAV based on MN-DDPG and transfer learning[J]. Defence Technology, 2021, 17(2): 457-466.

        [5] LIU C S, ZHANG S J. Novel robust control framework for morphing aircraft[J]. Journal of Systems Engineering and Electronics, 2013, 24(2): 281-287.

        [6] OBAJEMU O, MAHFOUF M, MAIYAR L M, et al. Real-time four-dimensional trajectory generation based on gain-sche-duling control and a high-fidelity aircraft model[J]. Engineering, 2021, 7(4): 495-506

        [7] 趙巖, 吳建峰, 高育鵬. 基于多智能體導(dǎo)航的高超飛行器信息融合方法[J]. 系統(tǒng)工程與電子技術(shù), 2020, 42(2): 405-413.

        ZHAO Y, WU J F, GAO Y P. Information fusion method of hypersonic vehicle based on multi-agent navigation[J]. Systems Engineering and Electronics, 2020, 42(2): 405-413.

        [8] 陳宗基, 張汝麟, 張平, 等. 飛行器控制面臨的機(jī)遇與挑戰(zhàn)[J]. 自動化學(xué)報, 2013, 39(6): 703-710.

        CHEN Z J, ZHANG R L, ZHANG P, et al. Flight control: challenges and opportunities[J]. Acta Automatica Sinica, 2013, 39(6): 703-710.

        [9] DUCHON F, BABINEC A, KAJAN M, et al. Path planning with modified a star algorithm for a mobile robot[J]. Procedia Engineering, 2014, 96(1): 59-69.

        [10] LIU J H, YANG J, LIU H P, et al. An improved ant colony algorithm for robot path planning[J]. Soft Computing, 2017, 21(1): 5829-5839.

        [11] LI X Q, QIU L, AZIZ S, et al. Control method of UAV based on RRT* for target tracking in cluttered environment[C]∥Proc.of the 7th International Conference on Power Electronics Systems and Applications-Smart Mobility, Power Transfer amp; Security, 2017.

        [12] 楊杰. 具有端點(diǎn)方向約束的快速航跡規(guī)劃方法研究[D]. 武漢: 華中科技大學(xué), 2013.

        YANG J. Research on fast route planning method adapted to directional endpoint constraints[D]. Wuhan: Huazhong University of Science and Technology, 2013.

        [13] 高科, 宋佳, 艾紹潔, 等. 高超聲速飛行器再入段LQR自抗擾控制方法設(shè)計(jì)[J]. 宇航學(xué)報, 2020, 41(11): 1418-1423.

        GAO K, SONG J, AI S J, et al. LQR active disturbance rejection control method design for hypersonic vehicles in reentry phase[J]. Journal of Astronautics, 2020, 41(11): 1418-1423.

        [14] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529-533.

        [15] LILLICRAP T P, HUNT J J, PRITZEL A, et al. Continuous control with deep reinforcement learning[EB/OL]. [2023-04-30].http:∥www.arxiv.org/abs/1509.02971.

        [16] HUANG C Q, DONG K S, HUANG H Q, et al. Autonomous air combat maneuver decision using Bayesian inference and moving horizon optimization[J]. Journal of Systems Engineering and Electronics, 2018, 29(1): 86-97.

        [17] WALKER O, VANEGAS F, GONZALEZ F, et al. A deep reinforcement learning framework for UAV navigation in indoor environments[C]∥Proc.of the IEEE Aerospace Confe-rence, 2019.

        [18] LEVINE S, FINN C, DARRELL T, et al. End-to-end training of deep visuomotor policies[J]. The Journal of Machine Learning Research, 2016, 17(1): 1334-1373.

        [19] 張運(yùn)濤. 面向無人機(jī)自主避障導(dǎo)航的深度強(qiáng)化學(xué)習(xí)算法研究[D]. 南京: 東南大學(xué), 2021.

        ZHANG Y T. Research on deep reinforcement learning for autonomous obstacle avoidance and navigation of UAV[D]. Nanjing: Southeast University, 2021.

        [20] WAN K F, GAO X G, HU Z J, et al. Robust motion control for UAV in dynamic uncertain environments using deep reinforcement learning[J]. Remote Sensing, 2020, 12(4): 640-660.

        [21] ZHANG C M, ZHU Y W, YANG L P, et al. An optimal gui-dance method for free-time orbital pursuit-evasion game[J]. Journal of Systems Engineering and Electronics, 2022, 33(6): 1294-1308.

        [22] LI Y F, SHI J P, JIANG W, et al. Autonomous maneuver decision-making for a UCAV in short-range aerial combat based on an MS-DDQN algorithm[J]. Defence Technology, 2022, 18(9): 1697-1714.

        [23] ZHANG H, JIAO Z X, SHANG Y X, et al. Ground maneuver for front-wheel drive aircraft via deep reinforcement learning[J]. Chinese Journal of Aeronautics, 2021, 34(10): 166-176.

        [24] LIU Q, SHI L, SUN L L, et al. Path planning for UAV-mounted mobile edge computing with deep reinforcement learning[J]. IEEE Trans.on Vehicular Technology, 2020, 69(5): 5723-5728.

        [25] LI Y H, WANG H L, WU T C, et al. Attitude control for hypersonic reentry vehicles: an efficient deep reinforcement learning method[J]. Applied Soft Computing, 2023, 123(1): 108865.

        [26] RUMMERY G A, NIRANJAN M. On-line Q-learning using connectionist systems[D]. Cambridge: University of Cambridge, 1994.

        [27] 王冠, 茹海忠, 張大力, 等. 彈性高超聲速飛行器智能控制系統(tǒng)設(shè)計(jì)[J]. 系統(tǒng)工程與電子技術(shù), 2022, 44(7): 2276-2285.

        WANG G, RU H Z, ZHANG D L, et al. Design of intelligent control system for flexible hypersonic vehicle[J]. Systems Engineering and Electronics, 2022, 44(7): 2276-2285.

        [28] YANG Q M, ZHU Y, ZHANG J D, et al. UAV air combat autonomous maneuver decision based on DDPG algorithm[C]∥Proc.of the IEEE 15th International Conference on Control and Automation, 2019: 37-42.

        [29] NARVEKAR S, SINAPOV J, LEONETTI M, et al. Source task creation for curriculum learning[C]∥Proc.of the ICAAMS 18th International Conference on Autonomous Agents amp; Multiagent Systems, 2016: 566-574.

        [30] DU W B, GUO T, CHEN J, et al. Cooperative pursuit of unauthorized UAVs in urban airspace via multi-agent reinforcement learning[J]. Transportation Research Part C: Emerging Technologies, 2021, 128(1): 103-122.

        作者簡介

        楊志鵬(1995—),男,工程師,碩士,主要研究方向?yàn)轱w行器任務(wù)規(guī)劃。

        陳子浩(1995—),男,工程師,碩士,主要研究方向?yàn)轱w行器航路規(guī)劃。

        曾 長(1987—),男,高級工程師,碩士,主要研究方向?yàn)轱w行器系統(tǒng)總體設(shè)計(jì)。

        林 松(1986—),男,高級工程師,碩士,主要研究方向?yàn)轱w行器任務(wù)規(guī)劃。

        毛金娣(1988—),女,高級工程師,碩士,主要研究方向?yàn)轱w行器航路規(guī)劃。

        張 凱(1990—),男,高級工程師,博士,主要研究方向?yàn)轱w行器系統(tǒng)總體設(shè)計(jì)。

        猜你喜歡
        規(guī)劃環(huán)境模型
        一半模型
        長期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
        一種用于自主學(xué)習(xí)的虛擬仿真環(huán)境
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        孕期遠(yuǎn)離容易致畸的環(huán)境
        環(huán)境
        規(guī)劃引領(lǐng)把握未來
        快遞業(yè)十三五規(guī)劃發(fā)布
        商周刊(2017年5期)2017-08-22 03:35:26
        多管齊下落實(shí)規(guī)劃
        亚洲av永久无码精品一区二区| 精品人妻久久一日二个| 亚洲中文字幕无码一区| 久久精品国产亚洲av调教| 一个人看的视频www免费| 国产精品髙潮呻吟久久av| 寂寞少妇做spa按摩无码| 久久精品一区二区三区不卡牛牛| 中文字幕在线码一区| 国产av一级片在线观看| 人妻久久999精品1024| 97久人人做人人妻人人玩精品| 亚洲长腿丝袜中文字幕| 试看男女炮交视频一区二区三区| 国产一区二区在线视频| 丝袜美足在线视频国产在线看| 水蜜桃视频在线观看免费18| 日本成人一区二区三区| 无码人妻一区二区三区免费视频| 中文字幕一区久久精品| 日本不卡在线一区二区三区视频| 色94色欧美sute亚洲线路二| 亚洲av美国av产亚洲av图片| 中文字幕亚洲综合久久天堂av| 在线观看一区二区三区国产| 精品国产你懂的在线观看| 国产乱子伦在线观看| 亚洲国产婷婷香蕉久久久久久| 一区二区三区日韩蜜桃| 色爱无码A V 综合区| 又爽又黄又无遮挡的视频| 日韩免费精品在线观看| 成人综合亚洲欧美一区h| 亚洲男人第一无码av网站| 一区二区三区精品少妇| 激情网色图区蜜桃av| 欧美性猛交xxxx乱大交蜜桃| 亚洲av无码之日韩精品| 亚洲av无码专区在线| 亚洲av日韩精品一区二区| 国产精品九九热|